CN111027324A

CN111027324A - 一种基于句法模式和机器学习的开放式关系的抽取方法

Info

Publication number: CN111027324A
Application number: CN201911235614.7A
Authority: CN
Inventors: 韩伟红; 徐菁; 陈雷霆; 孙燕; 吕文娟
Original assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Current assignee: Guangdong Electronic Information Engineering Research Institute of UESTC
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-04-17
Anticipated expiration: 2039-12-05
Also published as: CN111027324B

Abstract

本发明属于关系抽取的技术领域，具体涉及一种基于句法模式和机器学习的开放式关系的抽取方法，包括如下步骤，步骤一、对输入文本进行预处理，然后从所述输入文本中抽取实体和关系指示词，并组合为关系三元组格式，获取实体关系三元组候选集；步骤二、基于正负例判别算法，采用词向量模型和同义词林，通过计算句法模式之间的语义相似度，对关系候选集中每个三元组进行正负例判断，给出相应标签，自动生成所需的训练语料；步骤三、融入浅层和深层的文本特征，训练一个SVM分类器，对实体关系三元组进行区分和辨别。本发明能够对关系元组进行正负例判别，降低错误的句法分析对抽取关系元组带来的影响，有助于提高关系抽取的准确性。

Description

一种基于句法模式和机器学习的开放式关系的抽取方法

技术领域

本发明属于关系抽取的技术领域，具体涉及一种基于句法模式和机器学习的开放式关系的抽取方法。

背景技术

大数据时代，互联网上存在海量的用户生成文本，文本中出现的实体往往不是独立的，通常与其他实体具有关联关系，比如人名和机构在一个语句中同时出现，它们往往具有雇佣关系。挖掘实体之间的各种语义关系，对实体建立关联，形成知识网络，有助于揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。

传统的关系抽取技术主要包括基于统计机器学习的方法和基于模式匹配的方法。基于统计机器学习的方法将关系实例转换为高维特征向量或离散结构，在标注的训练语料上学习分类模型，来识别限定领域语料中实体对之间的关系。机器学习模型的性能依赖于训练语料的规模和覆盖率，网络文本中关系类别的多样性，导致难以构建覆盖所有关系的训练样本。基于模式匹配的方法，通过抽取相同类别的关系实例学习关系模式，并利用模式匹配技术来抽取更多的关系实例。然而，随着用户生成文本的发布，会出现一些未知的、随着时间演化的关系类别，基于模式匹配的方法无法处理这类关系信息。此外，网络文本的不规范性也会限制模式匹配的准确性。由于传统的关系抽取技术受限于训练语料规模和语料领域限定，以及预先定义关系类别的约束，无法应对网络文本的海量、异构、领域开放和不规范性等特点。在大规模的网络文本中，同一对实体之间可能存在多种语义关系。比如，两个公司之间既可以是合作关系，又可以是竞争关系。传统的关系抽取技术无法识别这类实体对之间的所有关系类型。

发明人发现现有方法存在以下缺陷：第一、无法对关系元组进行正负例判别，且错误的句法分析对抽取关系元组带来较大影响。

发明内容

本发明的目的在于：针对现有技术的不足，提供一种基于句法模式和机器学习的开放式关系的抽取方法，能够对关系元组进行正负例判别，降低错误的句法分析对抽取关系元组带来的影响，有助于提高关系抽取的准确性。

为了实现上述目的，本发明采用如下技术方案：

一种基于句法模式和机器学习的开放式关系的抽取方法，包括如下步骤：

步骤一、对输入文本进行预处理，然后从所述输入文本中抽取实体和关系指示词，并组合为关系三元组格式，获取实体关系三元组候选集；

步骤二、基于正负例判别算法，采用词向量模型和同义词林，通过计算句法模式之间的语义相似度，对关系候选集中每个三元组进行正负例判断，给出相应标签，自动生成所需的训练语料；

步骤三、融入浅层和深层的文本特征，训练一个SVM分类器，对实体关系三元组进行区分和辨别。

需要说明的是，本发明的抽取方法中，利用浅层和深层的句法知识获取实体关系三元组候选集，并抽象为句法模式，然后利用词向量模型和同义词林，通过一种正负例判别算法，为机器学习模型自动生成训练语料，突破了以往方法中语料领域限定的约束，利用机器学习模型对文本中的序列信息具有很好的建模能力，对关系元组进行正负例判别，弥补错误的句法分析对抽取关系元组带来的影响，有助于提高关系抽取的准确性，利用文本字符串作为实体之间的关系指示词，将无结构化文本数据表示成结构化的关系三元组数据格式输出，从而能够突破传统的关系抽取方法中关系类别限定的约束，为知识图谱的构建提供丰富的关系类别，首先，对输入文本进行分词、词性标注和依存关系解析等预处理。其次，基于句法分析，从文本中自动抽取关系三元组候选集并抽象为句法模式，利用了词性信息，一方面提高模式的泛化能力，另一方面降低句法分析错误带来的影响。然后，基于正负例判别算法，利用词向量模型和同义词林，通过计算句法模式之间的语义相似度，对关系候选集中每个三元组进行正负例判断，给出相应标签，自动生成所需的训练语料，最后，融入浅层(如词性标签)和深层(如主宾句法结构)等丰富的文本特征，训练一个SVM分类器，进一步对实体关系三元组进行区分和辨别。

作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进，所述步骤一中，所述预处理包括：

输入语料，根据句子结束的标记符号进行分句；

使用HanLP中文自然语言处理工具对句子进行分词、词性标注和依存关系解析。

作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进，所述步骤一中，获取所述实体关系三元组候选集，包括：

将依存关系标签关联的两个句子成分依据词性标签和依存路径，放入关系元组中的相应位置；

若并列关系关联两个动词，则这两个动词共有主语，将其作为这两个所述动词所在关系元组的左实体；若实体指称项处于介词短语中，则作为右实体，且与所述关系指示词具有依存关系；若所述左实体的位置大于所述关系指示词，则两者之间不存在两个或以上的论元。

作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进，所述步骤二中，所述正负例判别算法包括：

利用基于所述依存关系产生的所述关系元组作为正例种子，对其他所述关系元组进行正负例判别。

作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进，所述步骤二还包括：

从训练的所述词向量模型中获取所述关系指示词的向量；

在实体类别相同的条件下，通过所述关系指示词的向量，计算余弦相似度，来获取所述句法模式之间的所述语义相似度。

通过所述同义词林，获取所述关系指示词的所有同义词，计算所述关系指示词与所有所述同义词的所述语义相似度，然后计算平均值，作为相似度阈值。

作为本发明所述的一种基于句法模式和机器学习的开放式关系的抽取方法的一种改进，所述步骤二，正负例判断包括：

若所述关系指示词的向量的所述语义相似度大于所述相似度阈值，则获取所述关系指示词所在关系元组，否则，作为负例种子。

本发明的有益效果在于，本发明包括如下步骤，步骤一、对输入文本进行预处理，然后从所述输入文本中抽取实体和关系指示词，并组合为关系三元组格式，获取实体关系三元组候选集；步骤二、基于正负例判别算法，采用词向量模型和同义词林，通过计算句法模式之间的语义相似度，对关系候选集中每个三元组进行正负例判断，给出相应标签，自动生成所需的训练语料；步骤三、融入浅层和深层的文本特征，训练一个SVM分类器，对实体关系三元组进行区分和辨别。本发明的抽取方法利用浅层和深层的句法知识获取实体关系三元组候选集，并抽象为句法模式，然后利用词向量模型和同义词林，通过一种正负例判别算法，为机器学习模型自动生成训练语料，突破了以往方法中语料领域限定的约束，利用机器学习模型对文本中的序列信息具有很好的建模能力，对关系元组进行正负例判别，弥补错误的句法分析对抽取关系元组带来的影响，有助于提高关系抽取的准确性，利用文本字符串作为实体之间的关系指示词，将无结构化文本数据表示成结构化的关系三元组数据格式输出，从而能够突破传统的关系抽取方法中关系类别限定的约束，为知识图谱的构建提供丰富的关系类别，首先，对输入文本进行分词、词性标注和依存关系解析等预处理。其次，基于句法分析，从文本中自动抽取关系三元组候选集并抽象为句法模式，利用了词性信息，一方面提高模式的泛化能力，另一方面降低句法分析错误带来的影响。然后，基于正负例判别算法，利用词向量模型和同义词林，通过计算句法模式之间的语义相似度，对关系候选集中每个三元组进行正负例判断，给出相应标签，自动生成所需的训练语料，最后，融入浅层(如词性标签)和深层(如主宾句法结构)等丰富的文本特征，训练一个SVM分类器，进一步对实体关系三元组进行区分和辨别。本发明能够对关系元组进行正负例判别，降低错误的句法分析对抽取关系元组带来的影响，有助于提高关系抽取的准确性。

附图说明

图1为本发明的流程示意图。

图2为本发明中依存关系解析的示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、水平”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1～2对本发明作进一步详细说明，但不作为对本发明的限定。

步骤一、对输入文本进行预处理，然后从输入文本中抽取实体和关系指示词，并组合为关系三元组格式，获取实体关系三元组候选集；

本发明对网络文本数据，例如新闻、百科中的开放式实体关系抽取任务进行描述，并使用数字符号进行形式化表示，给定一组文档集合D，对每篇文档d∈D进行分句预处理，获得一个句子列表S。开放式关系抽取的任务是从每条语句中s∈S，识别一对实体指称项(e1，e2)∈s，以及关联这两个实体指称项的关系指示词r∈s，将它们组成实体关系三元组的数据格式(e1，r，e2)，根据以上描述，准确识别实体指称项和关系指示词，明确实体指称项和关系指示词之间的关联关系。

优选的，步骤一中，预处理包括：

输入语料，根据句子结束的标记符号进行分句；

需要说明的是：预处理是将文本语料转化为具有自然语言标记的句子集合，针对输入语料，根据句子结束的标记符号进行分句，包括“句号、问号、感叹号、分号、省略号”等标点符号。

优选的，步骤一中，获取实体关系三元组候选集，包括：

若并列关系关联两个动词，则这两个动词共有主语，将其作为这两个动词所在关系元组的左实体；若实体指称项处于介词短语中，则作为右实体，且与关系指示词具有依存关系；若左实体的位置大于关系指示词，则两者之间不存在两个或以上的论元。

需要说明的是：获取实体关系三元组候选集，从输入文本中抽取实体和关系指示词，并组合为关系三元组格式，由于实体识别不是本发明研究的重心，这里采用正则表达式结合句子成分之间的依存关系(“定中关系”)，获取日期、货币、百分比、时间等命名规律的实体指称项，利用词性和依存关系等句法信息制定识别规则，将包含专有名词的名词性词组作为实体指称项。比如，从图2的句子中识别的实体指称项为“美国”、“500万美元”、“马哈苏德”。虽然部分名词也可以作为关系指示词，比如“总统”、“丈夫”、“朋友”等，但名词的扮演角色比较复杂，难以辨别。为了降低噪音输入，这里仅采用动词性词语作为关系指示词，比如图2中的“悬赏”、“缉拿”。

在获取关系元组时，首先利用句子成分之间的依存关系制定抽取方法，如下所示。将“主谓关系”、“动宾关系”、“间宾关系”等依存关系标签关联的两个句子成分依据词性标签和依存路径，放入关系元组中的相应位置。若“并列关系”关联两个动词，则这两个动词同享一个主语，将其作为这两个动词所在关系元组的左实体。由于依存关系解析对句子结构的复杂性比较敏感，即包含多个子句的复杂句会降低依存关系解析的准确性。为了提高关系元组的覆盖率，除了利用依存关系抽取关系元组以外，还对句中的实体和关系指示词进行任意组合，并使用以下方法去除具有明显错误的关系元组，来降低噪音信息。右实体的文本位置大于关系指示词的文本位置，或者两者紧密相邻；若实体指称项处于介词短语中，则只能作为右实体，且与关系指示词具有依存关系；若左实体的位置大于关系指示词，则两者之间不能存在两个或以上的论元。

优选的，步骤二中，正负例判别算法包括：

利用基于依存关系产生的关系元组作为正例种子，对其他关系元组进行正负例判别。

需要说明的是：利用基于依存关系产生的关系元组M作为正例种子，通过度量句法模式之间的语义相似度，对其他关系元组C进行正负例判别，为了泛化关系元组的表示能力，首先将关系元组抽取为句法模式，即将实体对使用类别标签进行表示，由于HanLP工具的词性标签对词语具有细致的描述功能，这里采用词性标签代替，比如关系元组“(美国，缉拿，马哈苏德)”的句法模式为“(ns，缉拿，nh)”。

优选的，步骤二还包括：

从训练的词向量模型中获取关系指示词的向量；

在实体类别相同的条件下，通过关系指示词的向量，计算余弦相似度，来获取句法模式之间的语义相似度。

需要说明的是：从训练的词向量模型中获取关系指示词的向量表示，如r_i，r_j所示，其中词向量模型采用word2vec，并使用本发明的数据集以及从人民网、新浪网、凤凰网等多种新闻网站爬取的新闻文章和部分中文维基百科作为训练语料。在实体类别相同的条件下，通过对关系指示词的向量形式计算余弦相似度，来获取句法模式之间的语义相似度，公式为

优选的，步骤二还包括：

通过同义词林，获取关系指示词的所有同义词，计算关系指示词与所有同义词的语义相似度，然后计算平均值，作为相似度阈值。

需要说明的是：为了自动生成相似度阈值，这里借助同义词林D，从中获取关系指示词的所有同义词，利用公式

计算关系指示词与所有同义词的语义相似度，并计算均值作为阈值。

优选的，步骤二，正负例判断包括：

若关系指示词的向量的语义相似度大于相似度阈值，则获取关系指示词所在关系元组，否则，作为负例种子。

需要说明的是：若关系指示词的向量的语义相似度大于相似度阈值，则认为获取关系指示词所在关系元组是正确的，否则，作为负例种子放入集合中用于后续处理。

为了保证种子关系元组的正确性，本发明采用对输出的负例进行进一步的判别，并采用了聚类，通过度量集合中任意两个句法模式的语义相似度，将超过阈值的句法模式聚为一类放入集合中，若某一类中元素个数超过阈值，则认为该类中句法模式对应的关系元组为正例，否则为负例。

由于词性标注错误、同义词林的有限规模、词向量模型的性能可能会导致关系元组存在错误的正负例标签，为了进一步提高关系元组的准确判别，本发明利用前面输出的关系元组语料，并结合浅层和深层的文本特征，训练SVM分类器，表1显示了采用的文本特征，其中，角标为L的符号代表左实体，角标为R的符号代表右实体，比如W_L表示左实体的字符串表示，W_R表示右实体的字符串表示，利用以上特征，关系元组可以转化为向量形式：(W_L，P_L，D_L，B_L，C_L，D_L，A_L，R_L，D_ret，W_R，P_R，D_R，B_R，C_R，D_R，A_R，R_R)。

表1

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，所述步骤一中，所述预处理包括：

输入语料，根据句子结束的标记符号进行分句；

3.如权利要求1所述的一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，所述步骤一中，获取所述实体关系三元组候选集，包括：

4.如权利要求3所述的一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，所述步骤二中，所述正负例判别算法包括：

5.如权利要求1所述的一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，所述步骤二还包括：

从训练的所述词向量模型中获取所述关系指示词的向量；

6.如权利要求5所述的一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，所述步骤二还包括：

7.如权利要求6所述的一种基于句法模式和机器学习的开放式关系的抽取方法，其特征在于，所述步骤二，正负例判断包括：