CN107783957B - 本体创建方法和装置 - Google Patents

本体创建方法和装置 Download PDF

Info

Publication number
CN107783957B
CN107783957B CN201610767282.7A CN201610767282A CN107783957B CN 107783957 B CN107783957 B CN 107783957B CN 201610767282 A CN201610767282 A CN 201610767282A CN 107783957 B CN107783957 B CN 107783957B
Authority
CN
China
Prior art keywords
word
descriptor
ontology
relation
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610767282.7A
Other languages
English (en)
Other versions
CN107783957A (zh
Inventor
封顺天
周开宇
云亮
冯明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201610767282.7A priority Critical patent/CN107783957B/zh
Publication of CN107783957A publication Critical patent/CN107783957A/zh
Application granted granted Critical
Publication of CN107783957B publication Critical patent/CN107783957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种本体创建方法和装置,涉及数据处理领域。其中的本体创建方法包括:对文本数据进行分词处理;标记各个分词的词序和词性;按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;根据提取的若干三元组形成本体。通过基于标记词序和词性的文本数据提取三元组并创建本体,能够考虑文本数据中上下文之间的关系,使提取的三元组中的词语之间关联性更强,层次性更好,提高了本体的准确性和可用性。

Description

本体创建方法和装置
技术领域
本发明涉及数据处理领域,特别涉及一种本体创建方法和装置。
背景技术
目前,物联网设备的互通仅通过开放系统API(Application ProgrammingInterface,应用程序编程接口)的方式实现,尚无统一的标准。
本体近年来已被应用于物联网领域,通过对领域概念和关系的语义化表示,一方面实现了领域概念的规范化标识,另一方面全面地描述了本领域内知识,为计算机理解提供了基础。
然而,在现有的本体创建过程中,针对文本数据进行知识提取时存在忽略上下文内容的问题,造成本体中词语之间的关联度低,本体的可用性差。
发明内容
本发明实施例所要解决的一个技术问题是:提供一种能够加强本体中词语关联度的本体创建方法。
根据本发明实施例的一个方面,提供一种本体创建方法,包括:对文本数据进行分词处理;标记各个分词的词序和词性;按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;根据提取的若干三元组形成本体。
在一个实施例中,按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组包括:按照词序寻找首个符合第一描述词的预设词性的词语,作为三元组的第一描述词;从第一描述词对应的词语在文本数据中的位置开始,按照词序寻找首个符合关系词的预设词性的词语,作为三元组的关系词;从关系词对应的词语在文本数据中的位置开始,按照词序寻找首个符合第二描述词的预设词性的词语,作为三元组的第二描述词。
在一个实施例中,采用最短路径分词法对文本数据进行分词。
在一个实施例中,在采用提取的若干三元组形成本体之前,方法还包括:根据词库中具有相近意义的词语和标准词的对应关系,将三元组中的词语替换为标准词。
在一个实施例中,方法还包括:从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。
在一个实施例中,根据提取的若干三元组形成本体包括:将具有相同描述词的不同三元组进行融合,形成采用关系词连接描述词的本体片段;将具有相同描述词的本体片段进行融合,形成本体;其中,描述词包括第一描述词和/或第二描述词。在一个实施例中,文本数据为与物联网系统相关联的文本数据,本体为物联网本体。
根据本发明实施例的另一个方面,提供一种本体创建装置,包括:分词模块,用于对文本数据进行分词处理;词语标记模块,用于标记各个分词的词序和词性;文本数据三元组形成模块,用于按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;本体形成模块,用于根据提取的若干三元组形成本体。
在一个实施例中,文本数据三元组形成模块包括:第一描述词提取单元,用于按照词序寻找首个符合第一描述词的预设词性的词语,作为三元组的第一描述词;关系词提取单元,用于从第一描述词对应的词语在文本数据中的位置开始,按照词序寻找首个符合关系词的预设词性的词语,作为三元组的关系词;第二描述词提取单元,用于从关系词对应的词语在文本数据中的位置开始,按照词序寻找首个符合第二描述词的预设词性的词语,作为三元组的第二描述词。
在一个实施例中,分词模块进一步用于采用最短路径分词法对文本数据进行分词。
在一个实施例中,装置还包括:标准化模块,用于根据词库中具有相近意义的词语和标准词的对应关系,将三元组中的词语替换为标准词。
在一个实施例中,装置还包括:结构化数据三元组提取模块,用于从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;本体形成模块进一步用于采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。
在一个实施例中,本体形成模块包括:三元组融合单元,用于将具有相同描述词的不同三元组进行融合,形成采用关系词连接描述词的本体片段;本体片段融合单元,用于将具有相同描述词的本体片段进行融合,形成本体;其中,描述词包括第一描述词和/或第二描述词。
在一个实施例中,文本数据为与物联网系统相关联的文本数据,本体为物联网本体。
本发明通过基于标记词序和词性的文本数据提取三元组并创建本体,能够考虑文本数据中上下文之间的关系,使提取的三元组中的词语之间关联性更强,层次性更好,提高了本体的准确性和可用性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本发明本体创建方法一个实施例的流程图。
图1B为融合三元组所产生的本体片段的示意图。
图2为本发明本体创建方法另一个实施例的流程图。
图3为本发明本体创建装置一个实施例的结构图。
图4为本发明本体创建装置另一个实施例的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,本体为一种信息系统的概念,是指构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义。
图1A为本发明本体创建方法一个实施例的流程图。如图1所示,该实施例的方法包括:
步骤S102,对文本数据进行分词处理。
其中,文本数据可以为市场分析文档、产品介绍文档等。
分词是指将文本数据中的汉字序列切分成为若干单独的词。
分词处理可以采用多种方法。例如,可以采用逐词遍历的方法,即将词典中的所有词按由长到短的顺序在文本数据中逐个搜索,直至文本数据的末尾;还可以采用基于词频统计的分词方法,即将文本数据中任意两个字同时出现的频率进行统计,频率越高,则这两个字是一个词的可能性越大。
优选地,本发明可以采用最短路径分词法。最短路径分词法旨在对于给定的文本数据,找出包含的词语数量最少的分词结果。
例如,“开启智能电表”的分词结果可以为“开启/智能电表”、“开启/智能/电表”或者“开启/智能/电/表”。然而对于物联网领域,“智能电表”是一种常用的、并且具有特定含义的表述,如果被拆解为“开启/智能/电/表”,其中的“电”和“表”无法反映出语句的原义。
通过采用最短路径分词法,可以避免分词的结果粒度过细,能够使本体中的词语更准确、可用性更强。
步骤S104,标记各个分词的词序和词性。
对于一段独立的文本数据,可以按照文本数据的起始位置到结尾的顺序,依次标记词语。
标记的词性可以包括名词、动词、形容词等等。由于本体中包含的是领域内的基本术语和关系,因此,部分助词、符号的意义并不大,可以考虑删除,以减少计算的复杂度以及本体的冗余。
步骤S106,按照词序从文本数据中依次提取第一描述词的预设词性对应的词语、关系词的词性对应的词语和第二描述词的词性对应的词语,获得由第一描述词、关系词和第二描述词组成的三元组。
三元组由第一描述词、关系词和第二描述词构成,其中,关系词用于表示第一描述词和第二描述词之间的关系。例如,三元组为“{智能电表,采集,当前电压}”,“采集”即表明“智能电表”和“当前电压”之间的关系。
一般地,第一描述词和第二描述词为名词,关系词为动词。根据需要,也可以设定其他词性。
形成三元组的一个实施例为:首先,按照词序寻找首个符合第一描述词的预设词性的词语,作为三元组的第一描述词;然后,从第一描述词对应的词语在文本数据中的位置开始,按照词序寻找首个符合关系词的预设词性的词语,作为三元组的关系词;最后,从关系词对应的词语在文本数据中的位置开始,按照词序寻找首个符合第二描述词的预设词性的词语,作为三元组的第二描述词。
例如,对于文本数据“在楼宇中部署智能电表,用于采集当前电压”。忽略无意义的“在”、“中”和“用于”,如果三元组中,第一描述词、关系词和第二描述词分别为名词、动词和名词,则从文本数据的起始位置开始,首次出现的符合上述提取规则的三元组为{楼宇,部署,智能电表};再从“智能电表”开始,提取出的三元组为{智能电表,采集,当前电压}。以此类推。
按照词序提取的方式能够参考词语之间的上下文关系,进一步使三元组中的三个词语具有紧密的关系,从而令创建出的本体更准确。
可以按照步骤S106的方法逐步提取若干三元组。在若干三元组中,可能包含具有相近或相同含义的词语,例如冰箱和冰柜,风扇和电风扇等等。
在这种情况下,可以根据词库中具有相近意义的词语和标准词的对应关系,将三元组中的词语替换为标准词。从而,可以对本体进行精简,减少冗余。
步骤S108,根据提取的若干三元组形成本体。
可以将三元组导入已有的本体创建系统,形成本体,也可以采用手动建立本体的方式。
采用三元组建立本体的一个实施例为:首先,将具有相同描述词的不同三元组进行融合,形成采用关系词连接描述词的本体片段;然后,将具有相同描述词的本体片段进行融合,形成本体;其中,描述词包括第一描述词和/或第二描述词。
例如,有以下三元组:{楼宇系统,包括,智能家庭},{智能家庭,包括,智能电表},{智能家庭,包括,智能水表},{智能家庭,包括,新风系统},{智能电表,包括,电压},则上述三元组融合形成的本体片段可以如图1B所示。
提取三元组的文本数据可以是与物联网相关的文本数据,例如物联网设备产品介绍、物联网系统说明,或者是部署物联网设备的场所的说明文档,例如施工报告等等。从而,根据此类文本数据,可以生成适用于物联网领域的本体。
通过基于标记词序和词性的文本数据提取三元组并创建本体,能够考虑文本数据中上下文之间的关系,使提取的三元组中的词语之间关联性更强,层次性更好,提高了本体的准确性和可用性。
除了文本数据外,提取三元组的数据源还可以为结构化数据。下面结合图2描述本发明另一个实施例的本体创建方法。
图2为本发明本体创建方法另一个实施例的流程图。如图2所示,除了步骤S102~S106以外,该实施例的方法还包括:
步骤S206,从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组。
结构化数据是指具有一定构成规则的数据,例如数据库文件、XML(ExtensibleMarkup Language,可扩展标记语言)文件、系统API文档等等。
结构化数据往往由多个元素组成,每个元素具有元素的固有属性,或者包括下一层级的元素。在本实施例中,将元素的固有属性和元素包含的下一层级的元素同城为元素的属性。
以下述XML文件片段为例:<title color="red">管理平台<section>楼宇系统</section></title>。“color”(颜色)为“管理平台”的固有属性,值为“red”(红色),“楼宇系统”为“管理平台”的子元素。因此,可以提取下述两个三元组:{管理平台,color,red}以及{管理平台,包括,楼宇系统}。
以数据库文件为例。设数据表Y为数据表X的子表,数据表X的示例如表1所示,数据表Y的示例如表2所示。
Figure BDA0001099102810000071
Figure BDA0001099102810000081
表1
位置[主键] 单位 ……
7层 A公司 ……
7层 B公司 ……
8层 C公司 ……
…… …… ……
表2
从而,可以生成三元组{7层,包含,A公司}、{7层,包含,B公司}和{8层,包含,C公司}等等。
步骤S208,采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。
通过采用上述方法,可以结合结构化数据和非结构化的文本数据共同生成本体,使本体的数据源更广泛,创建的本体更全面。
下面结合图3描述本发明一个实施例的本体创建装置。
图3为本发明本体创建装置一个实施例的结构图。如图3所示,该实施例的装置包括:分词模块32,用于对文本数据进行分词处理;词语标记模块34,用于标记各个分词的词序和词性;文本数据三元组形成模块36,用于按照词序从文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;本体形成模块38,用于根据提取的若干三元组形成本体。
其中,文本数据可以为与物联网系统相关联的文本数据,本体为物联网本体。
其中,分词模块32可以进一步用于采用最短路径分词法对文本数据进行分词。
通过基于标记词序和词性的文本数据提取三元组并创建本体,能够考虑文本数据中上下文之间的关系,使提取的三元组中的词语之间关联性更强,层次性更好,提高了本体的准确性和可用性。
下面结合图4描述本发明另一个实施例的本体创建装置。
图4为本发明本体创建装置另一个实施例的结构图。如图4所示,该实施例的文本数据三元组形成模块36包括:第一描述词提取单元462,用于按照词序寻找首个符合第一描述词的预设词性的词语,作为三元组的第一描述词;关系词提取单元464,用于从第一描述词对应的词语在文本数据中的位置开始,按照词序寻找首个符合关系词的预设词性的词语,作为三元组的关系词;第二描述词提取单元466,用于从关系词对应的词语在文本数据中的位置开始,按照词序寻找首个符合第二描述词的预设词性的词语,作为三元组的第二描述词。
其中,本体形成模块38可以包括:三元组融合单元482,用于将具有相同描述词的不同三元组进行融合,形成采用关系词连接描述词的本体片段;本体片段融合单元484,用于将具有相同描述词的本体片段进行融合,形成本体;其中,描述词包括第一描述词和/或第二描述词。
此外,装置还可以包括:标准化模块47,用于根据词库中具有相近意义的词语和标准词的对应关系,将三元组中的词语替换为标准词。
此外,装置还可以包括:结构化数据三元组提取模块46,用于从结构化数据中提取元素作为第一描述词、提取元素的属性作为关系词以及提取元素的属性值作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;本体形成模块38进一步用于采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种本体创建方法,其特征在于,包括:
对文本数据进行分词处理;
标记各个分词的词序和词性;
按照词序从所述文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组,包括:
按照词序寻找首个符合第一描述词的预设词性的词语,作为三元组的第一描述词;
从第一描述词对应的词语在文本数据中的位置开始,按照词序寻找首个符合关系词的预设词性的词语,作为三元组的关系词;
以及,
从关系词对应的词语在文本数据中的位置开始,按照词序寻找首个符合第二描述词的预设词性的词语,作为三元组的第二描述词;以及
根据提取的若干三元组形成本体。
2.根据权利要求1所述的方法,其特征在于,采用最短路径分词法对文本数据进行分词。
3.根据权利要求1所述的方法,其特征在于,在采用提取的若干三元组形成本体之前,所述方法还包括:
根据词库中具有相近意义的词语和标准词的对应关系,将三元组中的词语替换为标准词。
4.根据权利要求1所述的方法,其特征在于,还包括:
从结构化数据中提取元素作为第一描述词、提取所述元素的属性作为关系词以及提取所述元素的属性值作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;
采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。
5.根据权利要求1所述的方法,其特征在于,所述根据提取的若干三元组形成本体包括:
将具有相同描述词的不同三元组进行融合,形成采用关系词连接描述词的本体片段;
将具有相同描述词的本体片段进行融合,形成本体;
其中,所述描述词包括第一描述词和/或第二描述词。
6.根据权利要求1所述的方法,其特征在于,所述文本数据为与物联网系统相关联的文本数据,所述本体为物联网本体。
7.一种本体创建装置,其特征在于,包括:
分词模块,用于对文本数据进行分词处理;
词语标记模块,用于标记各个分词的词序和词性;
文本数据三元组形成模块,用于按照词序从所述文本数据中依次提取第一描述词的预设词性对应的词语作为第一描述词、提取关系词的词性对应的词语作为关系词以及提取第二描述词的词性对应的词语作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组,其中,所述文本数据三元组形成模块包括:
第一描述词提取单元,用于按照词序寻找首个符合第一描述词的预设词性的词语,作为三元组的第一描述词;
关系词提取单元,用于从第一描述词对应的词语在文本数据中的位置开始,按照词序寻找首个符合关系词的预设词性的词语,作为三元组的关系词;以及
第二描述词提取单元,用于从关系词对应的词语在文本数据中的位置开始,按照词序寻找首个符合第二描述词的预设词性的词语,作为三元组的第二描述词;以及
本体形成模块,用于根据提取的若干三元组形成本体。
8.根据权利要求7所述的装置,其特征在于,所述分词模块进一步用于采用最短路径分词法对文本数据进行分词。
9.根据权利要求7所述的装置,其特征在于,还包括:
标准化模块,用于根据词库中具有相近意义的词语和标准词的对应关系,将三元组中的词语替换为标准词。
10.根据权利要求7所述的装置,其特征在于,还包括:
结构化数据三元组提取模块,用于从结构化数据中提取元素作为第一描述词、提取所述元素的属性作为关系词以及提取所述元素的属性值作为第二描述词,采用提取的第一描述词、关系词和第二描述词形成三元组;
所述本体形成模块进一步用于采用从文本数据中提取的三元组和从结构化数据中提取的三元组形成本体。
11.根据权利要求7所述的装置,其特征在于,所述本体形成模块包括:
三元组融合单元,用于将具有相同描述词的不同三元组进行融合,形成采用关系词连接描述词的本体片段;
本体片段融合单元,用于将具有相同描述词的本体片段进行融合,形成本体;
其中,所述描述词包括第一描述词和/或第二描述词。
12.根据权利要求7所述的装置,其特征在于,所述文本数据为与物联网系统相关联的文本数据,所述本体为物联网本体。
CN201610767282.7A 2016-08-30 2016-08-30 本体创建方法和装置 Active CN107783957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610767282.7A CN107783957B (zh) 2016-08-30 2016-08-30 本体创建方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610767282.7A CN107783957B (zh) 2016-08-30 2016-08-30 本体创建方法和装置

Publications (2)

Publication Number Publication Date
CN107783957A CN107783957A (zh) 2018-03-09
CN107783957B true CN107783957B (zh) 2021-05-18

Family

ID=61441528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610767282.7A Active CN107783957B (zh) 2016-08-30 2016-08-30 本体创建方法和装置

Country Status (1)

Country Link
CN (1) CN107783957B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986910B (zh) * 2018-07-04 2023-09-05 平安科技(深圳)有限公司 线上问答方法、装置、计算机设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398858A (zh) * 2008-11-07 2009-04-01 西安交通大学 一种基于本体学习的Web服务语义提取方法
CN101710285A (zh) * 2009-11-24 2010-05-19 武汉大学 一种基于领域模型的服务需求获取与建模方法
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN104199811A (zh) * 2014-09-10 2014-12-10 携程计算机技术(上海)有限公司 短句解析模型建立方法及系统
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及系统
WO2015080561A1 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated relation discovery from texts
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441560B (zh) * 2007-11-23 2012-09-26 国际商业机器公司 执行基于上下文模型的面向服务架构的策略的方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398858A (zh) * 2008-11-07 2009-04-01 西安交通大学 一种基于本体学习的Web服务语义提取方法
CN101710285A (zh) * 2009-11-24 2010-05-19 武汉大学 一种基于领域模型的服务需求获取与建模方法
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
WO2015080561A1 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated relation discovery from texts
CN104281645A (zh) * 2014-08-27 2015-01-14 北京理工大学 一种基于词汇语义和句法依存的情感关键句识别方法
CN104199811A (zh) * 2014-09-10 2014-12-10 携程计算机技术(上海)有限公司 短句解析模型建立方法及系统
CN104317846A (zh) * 2014-10-13 2015-01-28 安徽华贞信息科技有限公司 一种语义分析与标注方法及系统
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105808525A (zh) * 2016-03-29 2016-07-27 国家计算机网络与信息安全管理中心 一种基于相似概念对的领域概念上下位关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Approach of Chunk Parsing and Entity Relation Extracting to Chinese Based on Conditional Random Fields Model;Jun-hua 等;《 2008 Eighth International Conference on Intelligent Systems Design and Applications》;20081208;第489-493页 *
中文领域本体构建方法研究;王雪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20130715;第I138-1472页 *
基于文本挖掘的中文领域本体构建方法研究;翟羽佳 等;《情报科学》;20150630;第33卷(第6期);第3-9页 *

Also Published As

Publication number Publication date
CN107783957A (zh) 2018-03-09

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
US8972413B2 (en) System and method for matching comment data to text data
CN104281702B (zh) 基于电力关键词分词的数据检索方法及装置
KR101723862B1 (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN111597351A (zh) 可视化文档图谱构建方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
US20150331953A1 (en) Method and device for providing search engine label
CN104346382B (zh) 使用语言查询的文本分析系统和方法
CN107577713B (zh) 基于电力词典的文本处理方法
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
Jafari et al. Unsupervised keyword extraction for hashtag recommendation in social media
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
CN107783957B (zh) 本体创建方法和装置
Cherif et al. New rules-based algorithm to improve Arabic stemming accuracy
CN111046168A (zh) 用于生成专利概述信息的方法、装置、电子设备和介质
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
Shrawankar et al. Construction of news headline from detailed news article
Sunitha et al. Automatic summarization of Malayalam documents using clause identification method
Drymonas et al. Opinion mapping travelblogs
Belkebir et al. TALAA-ASC: A sentence compression corpus for Arabic
Huang et al. Measuring similarity between sentence fragments
Silva et al. Information retrieval system using Multiwords Expressions (MWE) as descriptors
CN113609296B (zh) 用于舆情数据识别的数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant