CN111984790B

CN111984790B - 一种实体关系抽取方法

Info

Publication number: CN111984790B
Application number: CN202010869904.3A
Authority: CN
Inventors: 张雨豪; 吴刚
Original assignee: Nanjing Keji Data Technology Co ltd
Current assignee: Nanjing Keji Data Technology Co ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-07-25
Anticipated expiration: 2040-08-26
Also published as: CN111984790A

Abstract

本发明提出了一种实体关系抽取方法，属于实体关系抽取领域，本发明的方法为：构建语料库；选取语料库的数据进行标注得到标注数据集；并根据语料库构建正则模板，再通过正则模板对语料库的数据进行标注得到扩充数据集；将标注数据集和扩充数据集分为训练集和测试集；利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；利用正则模板对测试集进行匹配得到分类结果；根据关系分类结果和匹配分类结果得到最终关系抽取结果。本发明克服了现有技术中仅使用神经网络模型进行实体关系抽取，抽取时标注数据量较少且抽取效果不佳的不足，本发明通过利用正则模板可以扩充标注数据量，并且可提高实体关系抽取的效果。

Description

一种实体关系抽取方法

技术领域

本发明属于实体关系抽取领域，具体地说，涉及一种实体关系抽取方法。

背景技术

实体关系抽取的任务是对文本中的实体对进行语义识别，根据其在文本和语句中的含义，判断他们之间是否具有关系或者属于什么类型的关系。目前主流的技术有基于依存分析和基于模板匹配的方式，由于在英文语句中，文本成分间相互依存和被依存的现象普遍存在，并且词的词性较为明确，可以准确挖掘出依存分析的核心谓词，所以依存分析的关系抽取适用于英文文本，单纯的模板匹配则需要大量专家的参与，并且人工成本很大，并且在将抽取规则应用于别的领域时候，往往受到限制，具有很强的专业性和局限性。随着深度学习时代来临，神经网络模型则为实体关系抽取带来了新的突破。

机器学习的方法在实体关系抽取中应用非常广泛，无监督、弱监督和有监督的机器学习方法都在实体关系抽取中得到了相应的研究，基于无监督、弱监督的学习方法不需要太多的人工标注好的样本数据，在训练学习中减少了对样本数据标签的依赖，但是训练过程容易被噪声干扰，降低实体关系抽取性能。除了无监督和弱监督的实体关系抽取方法，基于有监督学习的抽取方法在多个领域得到了研究和应用，也取得较好的抽取效果。有监督学习的实体关系抽取方法相对需要更多的精力投入，抽取模型会依赖于较多的已经标注好的数据集，需要充分的标注数据才能使实体关系抽取模型的训练过程顺利进行，而得到这些标注数据较为费时费力，所以有监督学习的一般前提是要有足够的人工劳动量的投入。

现有技术中一般是采用神经网络对实体关系进行抽取，例如发明创造名称为：一种基于深度学习的实体关系抽取方法(申请日：2020年3月26日；申请号：202010222471.2)。该方案使用卷积神经网络和循环神经网络对实体关系抽取，在CNN和LSTM神经网络上加入文本中的词向量特征和位置特征、局部特征和序列特征等。然后将卷积神经网络和循环神经网络组合在一起，分别组合成串联、并联的组合模型对实体关系进行抽取，从不同角度去学习特征，获得更加充分全面的学习能力，还在多种不同结构的神经网络的基础上，将卷积神经网络和循环神经网络组合在一起，分别使用了串联、并联的方式对样本进行自动抽取。最后联合了多个基于深度学习的模型，将利用之前设计的多个关系抽取模型，将这些模型联合在一起进行实体关系抽取，进而选择出样本较优的实体关系。但是该方案的不足之处在于：抽取时标注数据量较少，且仅使用神经网络模型抽取会造成抽取效果不佳。

发明内容

1.要解决的问题

本发明克服了现有技术中仅使用神经网络模型进行实体关系抽取，抽取时标注数据量较少且抽取效果不佳的不足，提供了一种实体关系抽取方法，通过利用正则模板可以扩充标注数据量，进一步将正则模板匹配的分类结果和由神经网络模型得到的分类结果相结合，通过优先级策略选择更有可能的关系语句分类，提高了实体关系抽取的效果。

2.技术方案

为了解决上述问题，本发明所采用的技术方案如下：

本发明的一种实体关系抽取方法，其特征在于，包括构建语料库；选取语料库的数据进行标注得到标注数据集；并根据语料库构建正则模板，再通过正则模板对语料库的数据进行标注得到扩充数据集；再将标注数据集和扩充数据集分为训练集和测试集；之后利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；而后利用正则模板对测试集进行匹配得到分类结果；再根据关系分类结果和匹配分类结果得到最终关系抽取结果。

更进一步地，根据语料库构建正则模板的具体过程为：

步骤2-1：从语料库中随机抽取若干篇文本，根据若干篇文本构建正则模板；

步骤2-2：通过标注数据集对正则模板进行测试得到测试结果，测试结果包括准确率和召回率；根据测试结果中的召回率补充对应的正则模板；

步骤2-3：重复步骤2-2，直至测试结果的准确率和召回率达到阈值，得到构建完毕的正则模板。

更进一步地，获取关系分类结果的具体过程为：将训练集导入神经网络模型；神经网络模型根据训练集获取实体特征和文本特征；再根据实体特征和文本特征对测试集进行处理获取关系分类结果。

更进一步地，根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为：若关系分类结果和匹配分类结果相同，则将关系分类结果和匹配分类结果作为最终关系抽取结果；若关系分类结果和匹配分类结果不同，则将匹配分类结果作为最终关系抽取结果。

更进一步地，准确率的阈值为0.9，召回率的阈值为0.8。

更进一步地，神经网络模型根据训练集获取实体特征和文本特征的具体过程为：

神经网络模型对训练集进行处理得到有类型跨度，再利用最大池化的方式对有类型跨度进行处理得到实体特征和文本特征。

更进一步地，神经网络模型对训练集进行处理得到有类型跨度的具体过程为：神经网络模型包括预训练模型Bert，先通过预训练模型Bert获取训练集中文本的向量表示，而后神经网络模型采用优化负采样的方式获取跨度；神经网络模型利用跨度分类器对跨度进行识别分类得到有类型跨度和无类型跨度。

更进一步地，对有类型跨度进行处理得到实体特征和文本特征的具体过程为：

将有类型跨度作为实体，神经网络模型选择若干对实体组成关系集合；再对两个实体之间的文本进行最大池化得到关系的向量表示，该关系的向量表示包括实体特征和文本特征。

更进一步地，获取关系分类结果的具体过程为：对实体特征和文本特征进行连接得到关系特征，再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果。

3.有益效果

相比于现有技术，本发明的有益效果为：

本发明的一种实体关系抽取方法，可以通过少量标注的关系数据，利用正则模板从爬取的大量文本中抽取高准确率的关系语句，并扩充神经网络模型的数据集，解决领域关系抽取标注数据量少的问题。进一步地将正则模板匹配的分类结果和由神经网络模型得到的分类结果相结合，通过优先级策略选择更有可能的关系语句分类，提高了实体关系抽取的效果。

附图说明

图1为本发明的一种实体关系抽取方法的流程示意图；

图2为实施例1的方法流程示意图；

图3为引入跨度的联合实体关系抽取模型示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；而且，各个实施例之间不是相对独立的，根据需要可以相互组合，从而达到更优的效果。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。

实施例1

结合图1和图2所示，本发明的一种实体关系抽取方法，包括以下步骤：

1)构建语料库

通过采集文本信息构建语料库，本实施例中从网络采集相关领域8.5万篇新闻文本信息。

2)获取数据集

选取语料库的数据进行标注得到标注数据集，本实施例中选取338篇新闻文本信息进行人工标注。此外，根据语料库构建正则模板，具体地，包括：

步骤2-1：从语料库中随机抽取若干篇文本，根据若干篇文本构建正则模板；本实施例中抽取100篇文本，根据100篇文本构建对应的正则模板，该正则模板包括关系正则模板以及实体正则模板。

步骤2-2：通过标注数据集对正则模板进行测试得到测试结果，本实施例中在人工标注的 338篇新闻文本上测试正则模板的效果，测试结果包括准确率和召回率；根据测试结果中的召回率补充对应的正则模板；

步骤2-3：重复步骤2-2，直至测试结果的准确率和召回率达到阈值，得到构建完毕的正则模板。值得说明的是，准确率的阈值为0.9，召回率的阈值为0.8。

进一步，通过正则模板对语料库的数据进行标注得到扩充数据集；值得说明的是，通过正则模板可以在标注数据缺少的情况下有效的扩充领域的训练数据集，提高模型的训练效果。之后将标注数据集和扩充数据集分为训练集和测试集。

3)获取关系分类结果

利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；具体地，包括以下步骤：

首先值得说明的是，本发明的神经网络模型由跨度分类、跨度过滤、关系分类以及联合模板分类四部分组成，如图3所示。跨度分类和跨度过滤对实体分别进行识别和筛选，关系分类进行神经网络模型的关系抽取，联合模板匹配分类则加上了正则匹配的结果，使得联合模型的分类效果得到优化。

3-1)将训练集导入神经网络模型；具体地，神经网络模型包括预训练模型Bert，将训练集导入预训练模型Bert；值得说明的是，设置预训练模型Bert即可实现通过少量标注数据得到较好的分类效果。

3-2)神经网络模型对训练集进行处理得到有类型跨度，具体过程为：

先通过预训练模型Bert获取训练集中文本的向量表示，具体地，先通过预训练模型Bert 获取训练集中文本的向量表示(e₁，e₂，…e_n，c)，c指的是特殊标记CLS代表的词向量。而后神经网络模型采用优化负采样的方式获取跨度；

本发明的神经网络模型并不会对实体和关系假设进行波束搜索，而是设定了一个最大值 N_e，本实施例中该最大值设定为50，即在所有可能的实体中最多选取N_e个实体，并将未在训练集中被标注为正例的样本标记成负例。本发明提出了一种新的选取负例的方式，即首先建立一个实体的集合S，该集合包含了本次数据集尽可能多的实体(标注数据以及实体正则抽取的结果)，然后利用jieba对语句进行分词，分词会得到所有的可能实体并得到分词结果对应的词性，例如“我在北京旅游”会得到我、在北京、旅游三个实体，然后首先根据词性过滤得到所有的名词，然后对这些名词与实体集合S中的实体进行相似度计算，选择相似度最高的值作为该分词结果的得分，最终负例的选取按照相似度越高优先级越大排序，如果未能达到N_e，则先用分词剩下的结果填充，然后则采取随机选择跨度的方式，选择越符合实体的特征但未被标注的实体作为负例能够使得神经网络模型的训练效果更好。

神经网络模型选取好可能的实体后会对实体的向量表示进行处理。实体的向量表示由三部分组成，分别为实体包含的令牌的向量表示、宽度嵌入以及特殊标记CLS。模型会将实体的向量表示送入跨度分类。

在第一部分中，对于一个可能的实体跨度(e_i,e_i+1,…e_i+k)，在文本中选择一段连续的文本，其向量表示为f(e_i,e_i+1,…e_i+k)，再对f使用最大池化，使得神经网络模型得到了实体令牌的向量表示。

在第二部分中，宽度嵌入是在训练中学习到的嵌入矩阵，即实体的宽度为k+1表示实体中包含k+1个令牌，那么实体的宽度嵌入w_k+1就会被表示为以k+1为下标，在宽度矩阵中进行索引得到的宽度为k+1的向量表示。将宽度表示与实体令牌的向量表示连接，公式如下(用 ∞表示连接)：

e(s)＝f(e_i，e_i+1，...e_i+k)∞w_k+1

本发明采用的神经网络模型中使用的CLS是未经池化的向量c。

将这三部分连接，得到了最终的向量表示，公式如下：

X^s＝e(s)∞c

之后，神经网络模型利用跨度分类器对跨度进行识别分类得到有类型跨度和无类型跨度。具体地，将实体表示送入一个全连接加softmax激活函数后，得到了实体的类型，其中也包括了无类型跨度，具体通过以下公式得到实体的类型：

y^s＝softmax(w^s·x^s+b^s)

其中，w^s和b^s为参数，x^s为实体的向量表示。

3-3)利用最大池化的方式对有类型跨度进行处理得到实体特征和文本特征，具体过程为：

将有类型跨度作为实体，神经网络模型选择若干对实体组成关系集合；具体地，模型首先从可能的实体中随机选择最多N_r对实体组成关系集合，本实施例中N_r为100。对于一个由实体对(s₁,s₂)构成的实体，其关系向量表示由两部分构成。一部分是由上述公式得到的实体向量表示e(s₁),e(s₂)；另一部分是文本特征。除了实体特征之外，关系抽取也会依赖文本特征。在本发明中并没有选择CLS作为文本特征，而是对于两个实体之间的文本进行了最大池化，保留了实体对之间的上下文信息，得到了文本特征的向量表示c(s₁,s₂)。如果两个实体之间没有文本，那么c(s₁,s₂)将被设置成0。

之后对两个实体之间的文本进行最大池化得到关系的向量表示；该关系的向量表示包括实体特征和文本特征。值得说明的是，由于实体对的关系往往是非对称的，关系的头尾实体不能颠倒，所以本发明的每一个实体对都会得到两个相反的关系表示。公式如下：

3-4)根据实体特征和文本特征对测试集进行处理获取关系分类结果。具体过程为：

实体特征和文本特征进行连接得到关系特征；

再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果；具体地通过以下公式进行计算得到关系分类结果：

其中，w^r和b^r为参数，表示/>和/>连接，即为实体特征与实体间文本特征拼接后的表示；σ代表全连接层。

最后，神经网络模型的损失值是实体分类损失γ^s与关系分类损失γ^r之和，公式如下：

γ＝γ^s+γ^r

值得说明的是，由于本发明选用了大量正则关系式匹配的关系语句，这些关系语句中一句话只存在一条关系并且默认标注的是关系的头尾实体，但是这样不利于关系负样本的抽取，所以本发明保留了语句中所有的实体，然后将实体对间不存在标注关系的实体对作为负样本。

4)利用正则模板对测试集进行匹配得到分类结果。

5)根据关系分类结果和匹配分类结果得到最终关系抽取结果。具体过程为：

若关系分类结果和匹配分类结果相同，则将关系分类结果和匹配分类结果作为最终关系抽取结果；即如果关系语句与正则模板匹配，则该关系语句被分类为该类型的正则；若关系分类结果和匹配分类结果不同，则将匹配分类结果作为最终关系抽取结果；即若关系语句未匹配到任意一个关系正则，则神经网络模型会用实体正则与该语句匹配并分析匹配得到的实体类型；若实体和关系都未匹配到相应的正则模板，并且神经网络模型未抽取出该语句的关系，则认定该语句不存在关系。

之后将得到的最终关系抽取结果应用于知识图谱的构建。

在上文中结合具体的示例性实施例详细描述了本发明。但是，应当理解，可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的，而不是限制性的，如果存在任何这样的修改和变型，那么它们都将落入在此描述的本发明的范围内。此外，背景技术旨在为了说明本技术的研发现状和意义，并不旨在限制本发明或本申请和本发明的应用领域。

Claims

1.一种实体关系抽取方法，其特征在于，包括

构建语料库；

选取语料库的数据进行标注得到标注数据集；并根据语料库构建正则模板，再通过正则模板对语料库的数据进行标注得到扩充数据集；

将标注数据集和扩充数据集分为训练集和测试集；

利用训练集训练神经网络模型，再利用训练后的神经网络模型对测试集进行处理得到关系分类结果；

利用正则模板对测试集进行匹配得到分类结果；

根据关系分类结果和匹配分类结果得到最终关系抽取结果；

获取关系分类结果的具体过程为：

将训练集导入神经网络模型；

神经网络模型根据训练集获取实体特征和文本特征；

根据实体特征和文本特征对测试集进行处理获取关系分类结果；

根据关系分类结果和匹配分类结果得到最终关系抽取结果的具体过程为：

若关系分类结果和匹配分类结果相同，则将关系分类结果和匹配分类结果作为最终关系抽取结果；若关系分类结果和匹配分类结果不同，则将匹配分类结果作为最终关系抽取结果。

2.根据权利要求1所述的一种实体关系抽取方法，其特征在于，根据语料库构建正则模板的具体过程为：

3.根据权利要求2所述的一种实体关系抽取方法，其特征在于，准确率的阈值为0.9，召回率的阈值为0.8。

4.根据权利要求1所述的一种实体关系抽取方法，其特征在于，神经网络模型根据训练集获取实体特征和文本特征的具体过程为：

5.根据权利要求4所述的一种实体关系抽取方法，其特征在于，神经网络模型对训练集进行处理得到有类型跨度的具体过程为：

神经网络模型包括预训练模型Bert，先通过预训练模型Bert获取训练集中文本的向量表示，而后神经网络模型采用优化负采样的方式获取跨度；

神经网络模型利用跨度分类器对跨度进行识别分类得到有类型跨度和无类型跨度。

6.根据权利要求5所述的一种实体关系抽取方法，其特征在于，对有类型跨度进行处理得到实体特征和文本特征的具体过程为：

将有类型跨度作为实体，神经网络模型选择若干对实体组成关系集合；

对两个实体之间的文本进行最大池化得到关系的向量表示，该关系的向量表示包括实体特征和文本特征。

7.根据权利要求4~6任一项所述的一种实体关系抽取方法，其特征在于，获取关系分类结果的具体过程为：对实体特征和文本特征进行连接得到关系特征，再利用神经网络模型的全连接层对关系特征进行处理得到关系分类结果。