CN109522418A

CN109522418A - 一种半自动的知识图谱构建方法

Info

Publication number: CN109522418A
Application number: CN201811324969.9A
Authority: CN
Inventors: 杨红飞
Original assignee: Hangzhou Firestone Technology Co Ltd
Current assignee: Huoshi Creation Technology Co ltd
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-03-26
Anticipated expiration: 2038-11-08
Also published as: CN109522418B

Abstract

本发明公开了一种半自动的知识图谱构建方法，现有的关系抽取方法大都依赖于预先确定好的关系类型体系，这一过程是复杂的而且时间周期很长，本发明基于依存分析，针对多个中文句式进行了针对性处理，结合了语义词典，在输出开放关系的同时，对关系中的词语进行语义标注，并对未登录词的语义进行基于统计的推断，对大量语料上进行的语义关系模式进行统计聚类，形成关系类型体系，在这一过程中，大部分环节是自动进行的，其中可以对未登录词的语义标注和关系聚类结果进行人工检查；与现有的开放关系抽取方法相比，本发明进行了优化和扩展，开放关系的抽取和语义关系类型的形成相互补益，提高了两者的准确率。

Description

一种半自动的知识图谱构建方法

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种半自动的知识图谱构建方法。

背景技术

近年来随着互联网技术的发展，万维网逐渐成为一个重要的信息来源，如何快速获得感兴趣的信息成为研究的焦点。信息抽取技术正是在这种背景下应运而生，信息抽取的主要目的是从自然语言文本中抽取指定的实体、关系、事件等事实信息，把文本中无结构的信息转化成结构化的信息。实体关系抽取是指确定实体之间是否存在某种语义关系，是信息抽取的组成部分，包括文本挖掘、机器学习和自然语言处理等技术，在自动问答系统、搜索引擎、知识图谱构建等有着广泛的应用。

传统的信息抽取是面向限定领域文本的、限定类别实体、关系和事件等的抽取，面对日益增多不规范的和开放的少量数量，传统的依赖于标注语料的统计机器学习方法遇到了严重的挑战，其中一个挑战是需要预先确定关系类型体系，然而预先定义一个全面的实体关系类型体系是很困难的，需要业务人员对领域具备全面细致的了解，如业务会涉及到哪些实体类型、实体之间有哪些关系，其中哪些关系对于业务是有用的，需要业务人员查看大量的文本语料、多次修改迭代，才能得到满足业务需要的包含实体、关系和事件的知识图谱。

开放式信息抽取在这种背景下产生，目标是从海量、异构、不规范、含有大量噪声和冗余的网页中大规模地抽取开放类别的实体、关系、事件等，并形成结构化的数据格式输出。开放式实体关系抽取技术使用实体上下文中的一些词语来描述实体之间的语义关系，在不构建关系类型体系的情况下也能够产生一些用文本中的词语描述的关系，利用大量语料的冗余性，通过对这些开放关系进行聚类，可以得到一组关系类型体系，大大减轻了业务人员的负担。

现有的关系抽取方法大都依赖于预先确定好的关系类型体系，然后根据这些关系类型进行语料标注和模型训练，为了达到高准确率，针对每种关系类型进行大量语料标注是必要的，缺点在于关系类型体系的建立过程需要多次修改迭代，造成语料标注过程的频繁修改。

目前英文的开放关系抽取技术较多，相对较成熟，部分原因是英文比中文简单，针对中文的开放关系抽取技术相对较少。目前的中文开放关系抽取主流的方法是基于依存分析(参考文献：一种利用依存分析的开放式中文实体关系抽取方法、中文开放式多元实体关系抽取、基于依存分析的开放式中文实体关系抽取方法、ZORE:A Syntax-based Systemfor Chinese Open Relation Extraction、The Chinese Open Relation ExtractionBased on Dependency Parsing)，其他的不基于语法分析的方法基于实体之间的距离限制、关系指示词的位置限制等进行规则设计(参考文献：无指导的开放式中文实体关系抽取)。

发明内容

本发明的目的在于针对现有技术的不足，提供一种利用词性标签和依存分析的开放式中文实体关系抽取、聚类形成语义关系类型的方法，语义关系类型的形成是构建知识图谱的关键步骤。本发明基于依存分析，针对多个中文句式进行了针对性处理，结合了语义词典，在输出开放关系的同时，对关系中的词语进行语义标注，并对未登录词的语义进行基于统计的推断，对大量语料上进行的语义关系模式进行统计聚类，形成关系类型体系，在这一过程中，大部分环节是自动进行的，其中可以对未登录词的语义标注和关系聚类结果进行人工检查。

本发明提供的一种半自动的知识图谱构建方法，具体实现过程如下：

第一步：对目标文本进行句子分割、分词、词性标注得到词性标签、依存分析得到依存标签和依存树，具体为：把目标文本分割成句子，对每个句子分词得到词的序列，对每个句子进行词性标注得到每个词的词性标签，对每个句子进行依存分析，对存在语法依赖关系的两个词得到依存标签，所有词的依存标签构成了依存树；

第二步：基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测；

名词短语检测：名词短语即包含名词的多个连续的词组成的短语，对句子中的每个名词，名词前后的词需要满足以下条件才能拼接起来形成名词短语：

a.在依存树路径上包含如下词性标签的词可以拼接到当前名词形成名词短语：a:形容词、b:区别词、w:标点、n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词；

b.依存树路径上的依存标签必须是如下标签；ATT:定中关系、COO:并列关系、LAD:左附加关系、RAD:右附加关系、QUC:后置数量关系、PUN:标点关系、NUM:数字关系、QUN:数量关系；

c.记录名词短语的中心词，中心词必须是如下词性标签：n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词、f:方位词；

动词短语检测：在语料上统计依存树上有动宾关系的短语，将出现概率高的宾语与介词有依存关系的短语作为动词短语；

候选关系检测：得到名词短语后，计算每两个名词短语A、B之间是否存在关系：在依存树路径上查找A、B的父结点，如果存在共同的父结点，取得最近的共同父结点C，认为C是连接名词短语A、B的动词或动词短语；在向上查找父结点的过程中，父结点的依存标签只能包含如下依存标签：VOB:直接宾语关系、DE:“的”关系、IOB:非直接宾语关系、POB:介宾关系、SBV:主谓关系、LAD:左附加关系、ATT:定中关系、ADV:状中关系、CMP:动补关系、NUM:数字关系、RAD:右附加关系、QUC:后置数量关系、QUN:数量关系、PUN:标点关系、TPC:主题关系，如果不符合，则停止查找；对找到的依存路径进行筛选，如果超过预设的最大长度T1，则放弃该路径；如果路径上不存在SBV、VOB、POB中任意一个，则放弃该路径；找到两个名词短语之间的关系后，再把联系它们的动词或动词短语C连接的其他语法成分也抽取出来，将A、B、C以及C连接的其他语法成分整体作为一个词法关系模式输出，即作为一个候选关系；

第三步：结合语义词典，对步骤二得到的词法关系模式即候选关系中的词语进行语义标注，得到候选语义关系模式；

对于有多个语义类型的词语，在整个语料文本集合上对所有抽取到的语义关系模式进行统计，从中寻找匹配的模式；如果匹配不到语义关系模式，把多元的语义关系模式退化成多个二元模式，再进行匹配；

对于词典中不存在的名词短语中心词即未登录词，在语义词典中查找部分匹配的词，再从语义关系模式集合中进行上述匹配；

第四步：对得到的候选语义关系模式进行聚类，得到一组最终的语义关系模式；聚类是通过判断每两个语义关系模式是否相似来进行的，如果两个语义关系模式的动词短语中心语相同或者是近义词，并且两个语义关系模式中的名词短语中心语的语义相同，则认为两个语义关系模式是相似的，可以聚类到一个类别中；聚类结果的每个类别，如果该类别中的语义关系模式的数量大于阈值T2，则认为这是一个合理的语义关系模式；

第五步：利用语义词典和步骤四得到的语义关系模式来定义知识图谱，具体定义方式为：根据聚类的语义级别，可以定义不同级别上的关系，在不同语义级别上进行聚类，得到符合应用需求的多个粒度的语义关系模式。

进一步地，所述第三步中，语义标注是通过在语义词典中查找词语，得到对应的语义类型，并结合词语的词性进行判断；把词法关系模式中每个词进行语义标注之后，得到对应的语义关系模式。

进一步地，所述第三步中，词法关系模式中的短语是对其中心词进行语义标注的。

进一步地，所述第四步中，语义关系模式可以看作以动词短语为中心，连接着多个名词短语的树结构，如果两个语义关系模式的名词短语数量不一致，则寻找匹配的最大子树，对最大子树上的每两个语义关系模式进行上述相似性判断，聚类得到合理的语义关系模式。

进一步地，所述第五步中，根据应用场景的不同，对语义词典进行相应的修改，在对未登录词的语义标注过程中，把标注后的未登录词增加到语义词典中；对得到的语义关系模式进行人工审查，进行知识图谱的人工编辑，即半自动的知识图谱构建。

本发明的有益效果是：现有的关系抽取方法大都依赖于预先确定好的关系类型体系，这一过程是复杂的而且时间周期很长，本发明能够自动生成关系类型体系，在已有语义词典的基础上，半自动形成知识图谱。与现有的开放关系抽取方法相比，本发明进行了优化和扩展，开放关系的抽取和语义关系类型的形成相互补益，提高了两者的准确率。本发明对薄弱的环节开放了人工介入的接口，提高准确性。

附图说明

图1为本发明一种半自动的知识图谱构建方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1所示，本发明提出的一种半自动的知识图谱构建方法，包括以下步骤：

第一步：对目标文本进行句子分割、分词、词性标注得到词性标签、依存分析得到依存标签和依存树，具体为：把目标文本分割成句子，对每个句子分词得到词的序列，对每个句子进行词性标注得到每个词的词性标签，对每个句子进行依存分析，对存在语法依赖关系的两个词得到依存标签，其中依存标签表达的是一个词与另一个词之间的语法依赖关系，所有词的依存标签构成了依存树，以上步骤为自动进行的。词性标签定义参考北京大学定义与文献“Multi-view Chinese Treebanking”。

第二步：基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测，在以下规则设定下自动进行。

名词短语检测：名词短语即包含名词的多个连续的词组成的短语，对句子中的每个名词，名词前后的词需要满足以下条件才能拼接起来形成名词短语：在依存树路径上包含表1中第一行的词性标签的词可以拼接到当前名词形成名词短语(NP:Noun phrase)，依存树路径上的依存标签必须是表1中的第三行中的标签；记录名词短语的中心词，中心词必须是表1中第二行中的词性标签。

动词短语检测：除了常用的可以直接作为谓语的动词，还有一类动词需要与其他词语组合才能作为谓语才有意义，如“进行、予以、展开”，根据一些基本的观察(如通常动词短语会连接两个名词短语，其中一个名词短语通过一个介词连接到动词短语)，在语料上统计与介词在依存树上相连的宾语，发现出现概率高的”介词-名词1-动词-名词2”模式，并将该模式中的”动词-名词2”形成动词短语，如”有影响、进行分析、展开调整”。对自动检测到的动词短语进行人工检查。

候选关系检测：得到名词短语后，计算每两个名词短语A、B之间是否存在关系：在依存树路径上查找A、B的父结点，如果存在共同的父结点，取得最近的共同父结点C，认为C是连接名词短语A、B的动词(或动词短语)；在向上查找父结点的过程中，父结点的依存标签只能包含表1中第四行定义的依存标签，如果不符合，则停止查找；另外，对找到的依存路径进行筛选，如果超过预设的最大长度T1，则放弃该路径；如果路径上不存在SBV、VOB、POB中任意一个，则放弃该路径；找到两个名词短语之间的关系后，再把联系它们的动词(或动词短语)C连接的其他语法成分也抽取出来，将A、B、C以及C连接的其他语法成分整体作为一个词法关系模式输出，即作为一个候选关系。

第三步：结合语义词典(如：哈工大词林)，对步骤二得到的词法关系模式(候选关系)中的词语进行语义标注，得到候选语义关系模式；语义词典中定义了词语的语义类型，同一个词语可能有多个语义类型；语义标注是通过在语义词典中查找词语，得到对应的语义类型，并结合词语的词性进行判断，例如词性是“数量词、人名、地名”时，把词语的语义类型相应地标注为“数量词、人名、地名”。把词法关系模式中每个词进行语义标注之后，得到对应的语义关系模式；词法关系模式中的短语是对其中心词进行语义标注的。

对于有多个语义类型的词语(多义词)，在整个语料文本集合上对所有抽取到的语义关系模式进行统计，从中寻找匹配的模式；如果匹配不到语义关系模式，把多元的语义关系模式退化成多个二元模式，再进行匹配；

对于词典中不存在的名词短语中心词(未登录词)，根据参考文献“Combiningcontextual and structural information for supersense tagging of Chineseunknown words”中的论述“98％的中文单词有至少1个同义词且至少共有一个字符”，在语义词典中查找部分匹配的词，再从语义关系模式集合中进行上述匹配。

语义关系模式是由上述关系抽取过程得到的，而上述对多义词和未登录词的语义标注中，利用了已经抽取到的语义模式集合，即语义模式集合也帮助了关系的抽取，形成了相互补益。

第四步：对得到的候选语义关系模式进行聚类，得到一组最终的语义关系模式。聚类是通过判断每两个语义关系模式是否相似来进行的，如果两个语义关系模式的动词短语中心语相同或者是近义词，并且两个语义关系模式中的名词短语中心语的语义相同(例如都在哈工大词林的相同的2级语义类别下)，则认为两个语义关系模式是相似的，可以聚类到一个类别中。聚类结果的每个类别，如果该类别中的语义关系模式的数量大于阈值T2，则认为这是一个合理的语义关系模式。

语义关系模式可以看作以动词短语为中心，连接着多个名词短语的树结构，如果两个语义关系模式的名词短语数量不一致，则寻找匹配的最大子树，对最大子树上的每两个语义关系模式进行上述相似性判断，聚类得到合理的语义关系模式。

第五步：知识图谱定义了一组实体类型和实例，以及各类型和实例之间的各种关系。利用语义词典和步骤四得到的语义关系模式来定义知识图谱，具体定义方式为：根据聚类的语义级别，可以定义不同级别上的关系，更高级别的语义(如哈工大词林的1级)组成的关系表示更广泛的语义关系，更低级别的语义(如哈工大词林的4级)组成的关系表示更细化的语义关系。在不同语义级别上进行聚类，得到符合应用需求的多个粒度的语义关系模式。

根据应用场景的不同，对语义词典进行相应的修改，在对未登录词的语义标注过程中，把标注后的未登录词增加到语义词典中。对得到的语义关系模式进行人工审查，进行知识图谱的人工编辑，即半自动的知识图谱构建。

表1第二步规则中使用到的pos和依存标签

以上所述仅为本发明的较佳实施举例，并不用于限制本发明，凡在本发明精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种半自动的知识图谱构建方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种半自动的知识图谱构建方法，其特征在于，所述第三步中，语义标注是通过在语义词典中查找词语，得到对应的语义类型，并结合词语的词性进行判断；把词法关系模式中每个词进行语义标注之后，得到对应的语义关系模式。

3.根据权利要求1所述的一种半自动的知识图谱构建方法，其特征在于，所述第三步中，词法关系模式中的短语是对其中心词进行语义标注的。

4.根据权利要求1所述的一种半自动的知识图谱构建方法，其特征在于，所述第四步中，语义关系模式可以看作以动词短语为中心，连接着多个名词短语的树结构，如果两个语义关系模式的名词短语数量不一致，则寻找匹配的最大子树，对最大子树上的每两个语义关系模式进行上述相似性判断，聚类得到合理的语义关系模式。

5.根据权利要求1所述的一种半自动的知识图谱构建方法，其特征在于，所述第五步中，根据应用场景的不同，对语义词典进行相应的修改，在对未登录词的语义标注过程中，把标注后的未登录词增加到语义词典中；对得到的语义关系模式进行人工审查，进行知识图谱的人工编辑，即半自动的知识图谱构建。