CN109522418A - 一种半自动的知识图谱构建方法 - Google Patents
一种半自动的知识图谱构建方法 Download PDFInfo
- Publication number
- CN109522418A CN109522418A CN201811324969.9A CN201811324969A CN109522418A CN 109522418 A CN109522418 A CN 109522418A CN 201811324969 A CN201811324969 A CN 201811324969A CN 109522418 A CN109522418 A CN 109522418A
- Authority
- CN
- China
- Prior art keywords
- semantic
- word
- relationship
- relation
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 23
- 238000010276 construction Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 3
- 235000019580 granularity Nutrition 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 25
- 230000015572 biosynthetic process Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 2
- 238000007689 inspection Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种半自动的知识图谱构建方法,现有的关系抽取方法大都依赖于预先确定好的关系类型体系,这一过程是复杂的而且时间周期很长,本发明基于依存分析,针对多个中文句式进行了针对性处理,结合了语义词典,在输出开放关系的同时,对关系中的词语进行语义标注,并对未登录词的语义进行基于统计的推断,对大量语料上进行的语义关系模式进行统计聚类,形成关系类型体系,在这一过程中,大部分环节是自动进行的,其中可以对未登录词的语义标注和关系聚类结果进行人工检查;与现有的开放关系抽取方法相比,本发明进行了优化和扩展,开放关系的抽取和语义关系类型的形成相互补益,提高了两者的准确率。
Description
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种半自动的知识图谱构建方法。
背景技术
近年来随着互联网技术的发展,万维网逐渐成为一个重要的信息来源,如何快速获得感兴趣的信息成为研究的焦点。信息抽取技术正是在这种背景下应运而生,信息抽取的主要目的是从自然语言文本中抽取指定的实体、关系、事件等事实信息,把文本中无结构的信息转化成结构化的信息。实体关系抽取是指确定实体之间是否存在某种语义关系,是信息抽取的组成部分,包括文本挖掘、机器学习和自然语言处理等技术,在自动问答系统、搜索引擎、知识图谱构建等有着广泛的应用。
传统的信息抽取是面向限定领域文本的、限定类别实体、关系和事件等的抽取,面对日益增多不规范的和开放的少量数量,传统的依赖于标注语料的统计机器学习方法遇到了严重的挑战,其中一个挑战是需要预先确定关系类型体系,然而预先定义一个全面的实体关系类型体系是很困难的,需要业务人员对领域具备全面细致的了解,如业务会涉及到哪些实体类型、实体之间有哪些关系,其中哪些关系对于业务是有用的,需要业务人员查看大量的文本语料、多次修改迭代,才能得到满足业务需要的包含实体、关系和事件的知识图谱。
开放式信息抽取在这种背景下产生,目标是从海量、异构、不规范、含有大量噪声和冗余的网页中大规模地抽取开放类别的实体、关系、事件等,并形成结构化的数据格式输出。开放式实体关系抽取技术使用实体上下文中的一些词语来描述实体之间的语义关系,在不构建关系类型体系的情况下也能够产生一些用文本中的词语描述的关系,利用大量语料的冗余性,通过对这些开放关系进行聚类,可以得到一组关系类型体系,大大减轻了业务人员的负担。
现有的关系抽取方法大都依赖于预先确定好的关系类型体系,然后根据这些关系类型进行语料标注和模型训练,为了达到高准确率,针对每种关系类型进行大量语料标注是必要的,缺点在于关系类型体系的建立过程需要多次修改迭代,造成语料标注过程的频繁修改。
目前英文的开放关系抽取技术较多,相对较成熟,部分原因是英文比中文简单,针对中文的开放关系抽取技术相对较少。目前的中文开放关系抽取主流的方法是基于依存分析(参考文献:一种利用依存分析的开放式中文实体关系抽取方法、中文开放式多元实体关系抽取、基于依存分析的开放式中文实体关系抽取方法、ZORE:A Syntax-based Systemfor Chinese Open Relation Extraction、The Chinese Open Relation ExtractionBased on Dependency Parsing),其他的不基于语法分析的方法基于实体之间的距离限制、关系指示词的位置限制等进行规则设计(参考文献:无指导的开放式中文实体关系抽取)。
发明内容
本发明的目的在于针对现有技术的不足,提供一种利用词性标签和依存分析的开放式中文实体关系抽取、聚类形成语义关系类型的方法,语义关系类型的形成是构建知识图谱的关键步骤。本发明基于依存分析,针对多个中文句式进行了针对性处理,结合了语义词典,在输出开放关系的同时,对关系中的词语进行语义标注,并对未登录词的语义进行基于统计的推断,对大量语料上进行的语义关系模式进行统计聚类,形成关系类型体系,在这一过程中,大部分环节是自动进行的,其中可以对未登录词的语义标注和关系聚类结果进行人工检查。
本发明提供的一种半自动的知识图谱构建方法,具体实现过程如下:
第一步:对目标文本进行句子分割、分词、词性标注得到词性标签、依存分析得到依存标签和依存树,具体为:把目标文本分割成句子,对每个句子分词得到词的序列,对每个句子进行词性标注得到每个词的词性标签,对每个句子进行依存分析,对存在语法依赖关系的两个词得到依存标签,所有词的依存标签构成了依存树;
第二步:基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;
名词短语检测:名词短语即包含名词的多个连续的词组成的短语,对句子中的每个名词,名词前后的词需要满足以下条件才能拼接起来形成名词短语:
a.在依存树路径上包含如下词性标签的词可以拼接到当前名词形成名词短语:a:形容词、b:区别词、w:标点、n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词;
b.依存树路径上的依存标签必须是如下标签;ATT:定中关系、COO:并列关系、LAD:左附加关系、RAD:右附加关系、QUC:后置数量关系、PUN:标点关系、NUM:数字关系、QUN:数量关系;
c.记录名词短语的中心词,中心词必须是如下词性标签:n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词、f:方位词;
动词短语检测:在语料上统计依存树上有动宾关系的短语,将出现概率高的宾语与介词有依存关系的短语作为动词短语;
候选关系检测:得到名词短语后,计算每两个名词短语A、B之间是否存在关系:在依存树路径上查找A、B的父结点,如果存在共同的父结点,取得最近的共同父结点C,认为C是连接名词短语A、B的动词或动词短语;在向上查找父结点的过程中,父结点的依存标签只能包含如下依存标签:VOB:直接宾语关系、DE:“的”关系、IOB:非直接宾语关系、POB:介宾关系、SBV:主谓关系、LAD:左附加关系、ATT:定中关系、ADV:状中关系、CMP:动补关系、NUM:数字关系、RAD:右附加关系、QUC:后置数量关系、QUN:数量关系、PUN:标点关系、TPC:主题关系,如果不符合,则停止查找;对找到的依存路径进行筛选,如果超过预设的最大长度T1,则放弃该路径;如果路径上不存在SBV、VOB、POB中任意一个,则放弃该路径;找到两个名词短语之间的关系后,再把联系它们的动词或动词短语C连接的其他语法成分也抽取出来,将A、B、C以及C连接的其他语法成分整体作为一个词法关系模式输出,即作为一个候选关系;
第三步:结合语义词典,对步骤二得到的词法关系模式即候选关系中的词语进行语义标注,得到候选语义关系模式;
对于有多个语义类型的词语,在整个语料文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;如果匹配不到语义关系模式,把多元的语义关系模式退化成多个二元模式,再进行匹配;
对于词典中不存在的名词短语中心词即未登录词,在语义词典中查找部分匹配的词,再从语义关系模式集合中进行上述匹配;
第四步:对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;聚类是通过判断每两个语义关系模式是否相似来进行的,如果两个语义关系模式的动词短语中心语相同或者是近义词,并且两个语义关系模式中的名词短语中心语的语义相同,则认为两个语义关系模式是相似的,可以聚类到一个类别中;聚类结果的每个类别,如果该类别中的语义关系模式的数量大于阈值T2,则认为这是一个合理的语义关系模式;
第五步:利用语义词典和步骤四得到的语义关系模式来定义知识图谱,具体定义方式为:根据聚类的语义级别,可以定义不同级别上的关系,在不同语义级别上进行聚类,得到符合应用需求的多个粒度的语义关系模式。
进一步地,所述第三步中,语义标注是通过在语义词典中查找词语,得到对应的语义类型,并结合词语的词性进行判断;把词法关系模式中每个词进行语义标注之后,得到对应的语义关系模式。
进一步地,所述第三步中,词法关系模式中的短语是对其中心词进行语义标注的。
进一步地,所述第四步中,语义关系模式可以看作以动词短语为中心,连接着多个名词短语的树结构,如果两个语义关系模式的名词短语数量不一致,则寻找匹配的最大子树,对最大子树上的每两个语义关系模式进行上述相似性判断,聚类得到合理的语义关系模式。
进一步地,所述第五步中,根据应用场景的不同,对语义词典进行相应的修改,在对未登录词的语义标注过程中,把标注后的未登录词增加到语义词典中;对得到的语义关系模式进行人工审查,进行知识图谱的人工编辑,即半自动的知识图谱构建。
本发明的有益效果是:现有的关系抽取方法大都依赖于预先确定好的关系类型体系,这一过程是复杂的而且时间周期很长,本发明能够自动生成关系类型体系,在已有语义词典的基础上,半自动形成知识图谱。与现有的开放关系抽取方法相比,本发明进行了优化和扩展,开放关系的抽取和语义关系类型的形成相互补益,提高了两者的准确率。本发明对薄弱的环节开放了人工介入的接口,提高准确性。
附图说明
图1为本发明一种半自动的知识图谱构建方法流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提出的一种半自动的知识图谱构建方法,包括以下步骤:
第一步:对目标文本进行句子分割、分词、词性标注得到词性标签、依存分析得到依存标签和依存树,具体为:把目标文本分割成句子,对每个句子分词得到词的序列,对每个句子进行词性标注得到每个词的词性标签,对每个句子进行依存分析,对存在语法依赖关系的两个词得到依存标签,其中依存标签表达的是一个词与另一个词之间的语法依赖关系,所有词的依存标签构成了依存树,以上步骤为自动进行的。词性标签定义参考北京大学定义与文献“Multi-view Chinese Treebanking”。
第二步:基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测,在以下规则设定下自动进行。
名词短语检测:名词短语即包含名词的多个连续的词组成的短语,对句子中的每个名词,名词前后的词需要满足以下条件才能拼接起来形成名词短语:在依存树路径上包含表1中第一行的词性标签的词可以拼接到当前名词形成名词短语(NP:Noun phrase),依存树路径上的依存标签必须是表1中的第三行中的标签;记录名词短语的中心词,中心词必须是表1中第二行中的词性标签。
动词短语检测:除了常用的可以直接作为谓语的动词,还有一类动词需要与其他词语组合才能作为谓语才有意义,如“进行、予以、展开”,根据一些基本的观察(如通常动词短语会连接两个名词短语,其中一个名词短语通过一个介词连接到动词短语),在语料上统计与介词在依存树上相连的宾语,发现出现概率高的”介词-名词1-动词-名词2”模式,并将该模式中的”动词-名词2”形成动词短语,如”有影响、进行分析、展开调整”。对自动检测到的动词短语进行人工检查。
候选关系检测:得到名词短语后,计算每两个名词短语A、B之间是否存在关系:在依存树路径上查找A、B的父结点,如果存在共同的父结点,取得最近的共同父结点C,认为C是连接名词短语A、B的动词(或动词短语);在向上查找父结点的过程中,父结点的依存标签只能包含表1中第四行定义的依存标签,如果不符合,则停止查找;另外,对找到的依存路径进行筛选,如果超过预设的最大长度T1,则放弃该路径;如果路径上不存在SBV、VOB、POB中任意一个,则放弃该路径;找到两个名词短语之间的关系后,再把联系它们的动词(或动词短语)C连接的其他语法成分也抽取出来,将A、B、C以及C连接的其他语法成分整体作为一个词法关系模式输出,即作为一个候选关系。
第三步:结合语义词典(如:哈工大词林),对步骤二得到的词法关系模式(候选关系)中的词语进行语义标注,得到候选语义关系模式;语义词典中定义了词语的语义类型,同一个词语可能有多个语义类型;语义标注是通过在语义词典中查找词语,得到对应的语义类型,并结合词语的词性进行判断,例如词性是“数量词、人名、地名”时,把词语的语义类型相应地标注为“数量词、人名、地名”。把词法关系模式中每个词进行语义标注之后,得到对应的语义关系模式;词法关系模式中的短语是对其中心词进行语义标注的。
对于有多个语义类型的词语(多义词),在整个语料文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;如果匹配不到语义关系模式,把多元的语义关系模式退化成多个二元模式,再进行匹配;
对于词典中不存在的名词短语中心词(未登录词),根据参考文献“Combiningcontextual and structural information for supersense tagging of Chineseunknown words”中的论述“98%的中文单词有至少1个同义词且至少共有一个字符”,在语义词典中查找部分匹配的词,再从语义关系模式集合中进行上述匹配。
语义关系模式是由上述关系抽取过程得到的,而上述对多义词和未登录词的语义标注中,利用了已经抽取到的语义模式集合,即语义模式集合也帮助了关系的抽取,形成了相互补益。
第四步:对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式。聚类是通过判断每两个语义关系模式是否相似来进行的,如果两个语义关系模式的动词短语中心语相同或者是近义词,并且两个语义关系模式中的名词短语中心语的语义相同(例如都在哈工大词林的相同的2级语义类别下),则认为两个语义关系模式是相似的,可以聚类到一个类别中。聚类结果的每个类别,如果该类别中的语义关系模式的数量大于阈值T2,则认为这是一个合理的语义关系模式。
语义关系模式可以看作以动词短语为中心,连接着多个名词短语的树结构,如果两个语义关系模式的名词短语数量不一致,则寻找匹配的最大子树,对最大子树上的每两个语义关系模式进行上述相似性判断,聚类得到合理的语义关系模式。
第五步:知识图谱定义了一组实体类型和实例,以及各类型和实例之间的各种关系。利用语义词典和步骤四得到的语义关系模式来定义知识图谱,具体定义方式为:根据聚类的语义级别,可以定义不同级别上的关系,更高级别的语义(如哈工大词林的1级)组成的关系表示更广泛的语义关系,更低级别的语义(如哈工大词林的4级)组成的关系表示更细化的语义关系。在不同语义级别上进行聚类,得到符合应用需求的多个粒度的语义关系模式。
根据应用场景的不同,对语义词典进行相应的修改,在对未登录词的语义标注过程中,把标注后的未登录词增加到语义词典中。对得到的语义关系模式进行人工审查,进行知识图谱的人工编辑,即半自动的知识图谱构建。
表1第二步规则中使用到的pos和依存标签
以上所述仅为本发明的较佳实施举例,并不用于限制本发明,凡在本发明精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种半自动的知识图谱构建方法,其特征在于,该方法包括以下步骤:
第一步:对目标文本进行句子分割、分词、词性标注得到词性标签、依存分析得到依存标签和依存树,具体为:把目标文本分割成句子,对每个句子分词得到词的序列,对每个句子进行词性标注得到每个词的词性标签,对每个句子进行依存分析,对存在语法依赖关系的两个词得到依存标签,所有词的依存标签构成了依存树;
第二步:基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;
名词短语检测:名词短语即包含名词的多个连续的词组成的短语,对句子中的每个名词,名词前后的词需要满足以下条件才能拼接起来形成名词短语:
a.在依存树路径上包含如下词性标签的词可以拼接到当前名词形成名词短语:a:形容词、b:区别词、w:标点、n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词;
b.依存树路径上的依存标签必须是如下标签;ATT:定中关系、COO:并列关系、LAD:左附加关系、RAD:右附加关系、QUC:后置数量关系、PUN:标点关系、NUM:数字关系、QUN:数量关系;
c.记录名词短语的中心词,中心词必须是如下词性标签:n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词、f:方位词;
动词短语检测:在语料上统计依存树上有动宾关系的短语,将出现概率高的宾语与介词有依存关系的短语作为动词短语;
候选关系检测:得到名词短语后,计算每两个名词短语A、B之间是否存在关系:在依存树路径上查找A、B的父结点,如果存在共同的父结点,取得最近的共同父结点C,认为C是连接名词短语A、B的动词或动词短语;在向上查找父结点的过程中,父结点的依存标签只能包含如下依存标签:VOB:直接宾语关系、DE:“的”关系、IOB:非直接宾语关系、POB:介宾关系、SBV:主谓关系、LAD:左附加关系、ATT:定中关系、ADV:状中关系、CMP:动补关系、NUM:数字关系、RAD:右附加关系、QUC:后置数量关系、QUN:数量关系、PUN:标点关系、TPC:主题关系,如果不符合,则停止查找;对找到的依存路径进行筛选,如果超过预设的最大长度T1,则放弃该路径;如果路径上不存在SBV、VOB、POB中任意一个,则放弃该路径;找到两个名词短语之间的关系后,再把联系它们的动词或动词短语C连接的其他语法成分也抽取出来,将A、B、C以及C连接的其他语法成分整体作为一个词法关系模式输出,即作为一个候选关系;
第三步:结合语义词典,对步骤二得到的词法关系模式即候选关系中的词语进行语义标注,得到候选语义关系模式;
对于有多个语义类型的词语,在整个语料文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;如果匹配不到语义关系模式,把多元的语义关系模式退化成多个二元模式,再进行匹配;
对于词典中不存在的名词短语中心词即未登录词,在语义词典中查找部分匹配的词,再从语义关系模式集合中进行上述匹配;
第四步:对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;聚类是通过判断每两个语义关系模式是否相似来进行的,如果两个语义关系模式的动词短语中心语相同或者是近义词,并且两个语义关系模式中的名词短语中心语的语义相同,则认为两个语义关系模式是相似的,可以聚类到一个类别中;聚类结果的每个类别,如果该类别中的语义关系模式的数量大于阈值T2,则认为这是一个合理的语义关系模式;
第五步:利用语义词典和步骤四得到的语义关系模式来定义知识图谱,具体定义方式为:根据聚类的语义级别,可以定义不同级别上的关系,在不同语义级别上进行聚类,得到符合应用需求的多个粒度的语义关系模式。
2.根据权利要求1所述的一种半自动的知识图谱构建方法,其特征在于,所述第三步中,语义标注是通过在语义词典中查找词语,得到对应的语义类型,并结合词语的词性进行判断;把词法关系模式中每个词进行语义标注之后,得到对应的语义关系模式。
3.根据权利要求1所述的一种半自动的知识图谱构建方法,其特征在于,所述第三步中,词法关系模式中的短语是对其中心词进行语义标注的。
4.根据权利要求1所述的一种半自动的知识图谱构建方法,其特征在于,所述第四步中,语义关系模式可以看作以动词短语为中心,连接着多个名词短语的树结构,如果两个语义关系模式的名词短语数量不一致,则寻找匹配的最大子树,对最大子树上的每两个语义关系模式进行上述相似性判断,聚类得到合理的语义关系模式。
5.根据权利要求1所述的一种半自动的知识图谱构建方法,其特征在于,所述第五步中,根据应用场景的不同,对语义词典进行相应的修改,在对未登录词的语义标注过程中,把标注后的未登录词增加到语义词典中;对得到的语义关系模式进行人工审查,进行知识图谱的人工编辑,即半自动的知识图谱构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811324969.9A CN109522418B (zh) | 2018-11-08 | 2018-11-08 | 一种半自动的知识图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811324969.9A CN109522418B (zh) | 2018-11-08 | 2018-11-08 | 一种半自动的知识图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522418A true CN109522418A (zh) | 2019-03-26 |
CN109522418B CN109522418B (zh) | 2020-05-12 |
Family
ID=65773657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811324969.9A Active CN109522418B (zh) | 2018-11-08 | 2018-11-08 | 一种半自动的知识图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522418B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
CN110457431A (zh) * | 2019-07-03 | 2019-11-15 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN110532567A (zh) * | 2019-09-04 | 2019-12-03 | 北京百度网讯科技有限公司 | 短语的提取方法、装置、电子设备及存储介质 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN110910168A (zh) * | 2019-11-05 | 2020-03-24 | 北京洪泰文旅科技股份有限公司 | 一种文旅行业获客方法及设备 |
CN110929501A (zh) * | 2019-11-21 | 2020-03-27 | 苏州跃盟信息科技有限公司 | 文本分析方法和装置 |
CN111460175A (zh) * | 2020-04-08 | 2020-07-28 | 福州数据技术研究院有限公司 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
CN111666372A (zh) * | 2020-04-29 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 解析查询词query的方法、装置、电子设备和可读存储介质 |
CN111738445A (zh) * | 2020-05-26 | 2020-10-02 | 山东大学 | 一种支持产品快速创新的设计知识融合推理方法 |
CN112149427A (zh) * | 2020-10-12 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 动词短语蕴含图谱的构建方法及相关设备 |
CN112651226A (zh) * | 2020-09-21 | 2021-04-13 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372447A1 (en) * | 2013-06-12 | 2014-12-18 | Electronics And Telecommunications Research Institute | Knowledge index system and method of providing knowledge index |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
-
2018
- 2018-11-08 CN CN201811324969.9A patent/CN109522418B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140372447A1 (en) * | 2013-06-12 | 2014-12-18 | Electronics And Telecommunications Research Institute | Knowledge index system and method of providing knowledge index |
CN105701253A (zh) * | 2016-03-04 | 2016-06-22 | 南京大学 | 中文自然语言问句语义化的知识库自动问答方法 |
CN106815293A (zh) * | 2016-12-08 | 2017-06-09 | 中国电子科技集团公司第三十二研究所 | 一种面向情报分析的构建知识图谱的系统及方法 |
CN107291687A (zh) * | 2017-04-27 | 2017-10-24 | 同济大学 | 一种基于依存语义的中文无监督开放式实体关系抽取方法 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
Non-Patent Citations (1)
Title |
---|
郝博: "基于句法模式识别的中文关系抽取方法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390022A (zh) * | 2019-06-21 | 2019-10-29 | 厦门美域中央信息科技有限公司 | 一种自动化的专业知识图谱构建方法 |
CN110457431A (zh) * | 2019-07-03 | 2019-11-15 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN110457431B (zh) * | 2019-07-03 | 2020-12-25 | 深圳追一科技有限公司 | 基于知识图谱的问答方法、装置、计算机设备和存储介质 |
CN110543574B (zh) * | 2019-08-30 | 2022-05-17 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN110543574A (zh) * | 2019-08-30 | 2019-12-06 | 北京百度网讯科技有限公司 | 一种知识图谱的构建方法、装置、设备及介质 |
CN110532567A (zh) * | 2019-09-04 | 2019-12-03 | 北京百度网讯科技有限公司 | 短语的提取方法、装置、电子设备及存储介质 |
CN110910168A (zh) * | 2019-11-05 | 2020-03-24 | 北京洪泰文旅科技股份有限公司 | 一种文旅行业获客方法及设备 |
CN110929501A (zh) * | 2019-11-21 | 2020-03-27 | 苏州跃盟信息科技有限公司 | 文本分析方法和装置 |
CN110929501B (zh) * | 2019-11-21 | 2023-11-03 | 苏州跃盟信息科技有限公司 | 文本分析方法和装置 |
CN111460175A (zh) * | 2020-04-08 | 2020-07-28 | 福州数据技术研究院有限公司 | 一种基于snomed-ct的医学名词词典构造与拓展方法 |
CN111666372A (zh) * | 2020-04-29 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 解析查询词query的方法、装置、电子设备和可读存储介质 |
CN111666372B (zh) * | 2020-04-29 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 解析查询词query的方法、装置、电子设备和可读存储介质 |
CN111738445A (zh) * | 2020-05-26 | 2020-10-02 | 山东大学 | 一种支持产品快速创新的设计知识融合推理方法 |
CN112651226B (zh) * | 2020-09-21 | 2022-03-29 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
CN112651226A (zh) * | 2020-09-21 | 2021-04-13 | 深圳前海黑顿科技有限公司 | 基于依存句法树的知识解析系统及方法 |
CN112149427A (zh) * | 2020-10-12 | 2020-12-29 | 腾讯科技(深圳)有限公司 | 动词短语蕴含图谱的构建方法及相关设备 |
CN112149427B (zh) * | 2020-10-12 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 动词短语蕴含图谱的构建方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109522418B (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522418A (zh) | 一种半自动的知识图谱构建方法 | |
CN109241538B (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
CN106445998B (zh) | 一种基于敏感词的文本内容审核方法及系统 | |
CN106598937B (zh) | 用于文本的语种识别方法、装置和电子设备 | |
CN102799577B (zh) | 一种中文实体间语义关系抽取方法 | |
CN106844331A (zh) | 一种句子相似度计算方法和系统 | |
CN106055536A (zh) | 一种中文事件联合推理方法和系统 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN104317783B (zh) | 一种语义关系密切度的计算方法 | |
KR101696499B1 (ko) | 한국어 키워드 검색문 해석 장치 및 방법 | |
Bella et al. | Domain-based sense disambiguation in multilingual structured data | |
JP5504097B2 (ja) | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 | |
WO2012067586A1 (en) | Database searching | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Saif et al. | Mapping Arabic WordNet synsets to Wikipedia articles using monolingual and bilingual features | |
ShafieiBavani et al. | An efficient approach for multi-sentence compression | |
Xu et al. | Product feature mining: Semantic clues versus syntactic constituents | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
Quan et al. | Combine sentiment lexicon and dependency parsing for sentiment classification | |
Zhang | Start small, build complete: Effective and efficient semantic table interpretation using tableminer | |
Tan et al. | Review on Light Verb Constructions in Computational Linguistics | |
Saad | Mining documents and sentiments in cross-lingual context | |
Cheng et al. | Single document summarization based on triangle analysis of dependency graphs | |
Liu et al. | Recognition of collocation frames from sentences | |
Pasca et al. | Answer mining from on-line documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000 Patentee after: Huoshi Creation Technology Co.,Ltd. Address before: 7 / F, building B, 482 Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province 310000 Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |