CN116992870B

CN116992870B - 基于非对称核函数的文本信息实体关系抽取方法及系统

Info

Publication number: CN116992870B
Application number: CN202311242919.7A
Authority: CN
Inventors: 李敏; 邵聪; 李刚; 周鸣乐; 韩德隆; 陈庆辉
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-12-19
Anticipated expiration: 2043-09-26
Also published as: CN116992870A

Abstract

本发明公开一种基于非对称核函数的文本信息实体关系抽取方法及系统，涉及实体关系抽取技术领域，包括：获取目标文本的句子向量、实体掩码和关系掩码；所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码；对句子向量进行特征编码；根据得到的特征向量和实体掩码得到实体向量，根据特征向量和关系掩码得到关系向量，将实体向量和关系向量作为参数以构建非对称核函数；根据非对称核函数确定目标实体对与每个关系的关联度，由此确定目标实体对在目标文本中的关系。实现对关系语义的聚焦，具有良好的可解释性。

Description

基于非对称核函数的文本信息实体关系抽取方法及系统

技术领域

本发明涉及实体关系抽取技术领域，特别是涉及一种基于非对称核函数的文本信息实体关系抽取方法及系统。

背景技术

在对非结构化原始文本中的命名实体识别后，利用关系抽取确定实体之间的关系类型，从而获取实体和关系三元组，通过三元组理解文本语义。

目前卷积神经网络被用来提取句子中的词汇级特征和语句级特征，然后再通过卷积层映射为高层次特征用于关系分类。研究人员发现，卷积神经网络对于较短的句子能够提取出较好的特征，这是因为卷积神经网络使用卷积核能够充分提取局部的特征信息；然而对于长句子，卷积神经网络的效果明显下降。

循环神经网络因为能够处理长序列信息，所以被用于关系抽取。然而，由于循环神经网络是逐词积累句子语义，随着序列长度的增加，一开始的语义会被遗忘消除，不适合抽取具有长期依赖关系的语义信息。

Bert模型（BidirectionalEncoder Representations from Transformer，基于Transformer架构的预训练模型）因其具有提取丰富语义特征的能力，逐渐替代传统循环神经网络，在关系抽取领域成为主流特征提取网络。但是，仍存在以下问题：

（1）通过Bert模型或其变体模型编码特征向量后，通常将语句级或词汇级的特征向量送入复杂的网络结构进行语义提取，会导致模型参数量过大，训练速度慢，训练成本高等问题，不利于实际应用。

（2）现有研究经常使用额外的知识（例如知识库、语法依赖树等）提高模型性能，在收集额外知识时不仅会增加人力，而且面对特殊领域知识的情况下，还需要一定的知识门槛。

（3）现有研究专注于特征工程，忽略语句中最基本的关系信息，无法准确理解实体之间的关系语义。

（4）现有研究几乎都是使用一个线性层映射实体关系类型的概率分布，这种方式缺乏可解释性，而且会造成语义特征的丢失。

发明内容

为了解决上述问题，本发明提出了一种基于非对称核函数的文本信息实体关系抽取方法及系统，设计可变的关系掩码以提取更精确的实体关系语义信息，实现对实体关系语义的聚焦，使用非对称核函数计算目标实体对属于每个关系类别的概率值，具有良好的可解释性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于非对称核函数的文本信息实体关系抽取方法，包括：

获取目标文本的句子向量、实体掩码和关系掩码；所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码；

对句子向量进行特征编码；

根据得到的特征向量和实体掩码得到实体向量，根据特征向量和关系掩码得到关系向量，将实体向量和关系向量作为参数以构建非对称核函数；

根据非对称核函数确定目标实体对与每个关系的关联度，由此确定目标实体对在目标文本中的关系。

作为可选择的实施方式，所述句子向量为对目标文本通过词典进行映射得到；所述实体掩码为用0表示词被遮掩，用1表示词无遮掩的形式构造得到；所述关系掩码中实体词窗口的大小可调。

作为可选择的实施方式，将特征向量与实体掩码进行矩阵运算后得到实体向量；其中，特征向量中实体词对应的特征值与实体掩码中的数值1相乘，非实体词对应的特征值与实体掩码中的数值0相乘。

作为可选择的实施方式，实体向量为：

其中，为矩阵乘法运算；/>为对特征向量进行缩放的参数；/>为词向量最大维度；/>是超参数；/>为特征向量，/>为实体掩码。

作为可选择的实施方式，将特征向量和关系掩码进行逐元素乘法运算后得到关系向量；其中，特征向量中处于实体词窗口内的周围词与关系掩码中的非0数值相乘，以增强或削弱周围词的特征值；处于实体词窗口外的边缘词与关系掩码中的常数值相乘，边缘词的特征值保持不变。

作为可选择的实施方式，关系向量为：

其中，为向量逐元素乘法；/>为向量拼接；/>为关系个数；/>为特征向量，/>、/>为不同实体词窗口设置的第/>个关系的关系掩码；/>为对特征向量进行缩放的参数。

作为可选择的实施方式，将头实体向量和尾实体向量拼接后作为非对称核函数的参数，将关系向量作为非对称核函数的参数/>；

其中，参数和参数/>分别为：

其中，是实体向量中的元素；/>、/>和/>均是参数矩阵；/>、/>和/>是偏置项；/>是激活函数；zip是打包函数，/>为关系向量。

作为可选择的实施方式，非对称核函数为：

其中，和/>是参数/>和参数/>对应的参数矩阵；|| ||₂是二阶范数。

作为可选择的实施方式，根据非对称核函数确定目标实体对与每个关系的关联度的过程包括：将参数和参数/>分别与对应的参数矩阵相乘后得到参数/>和/>，基于广播机制计算/>之间的距离，利用向量二阶范数显示化目标实体对与每个关系的距离，使用指数函数归一化距离后得到目标实体对与各关系类别的关联度，以关联度最大的关系类别作为目标实体对在目标文本中的关系。

第二方面，本发明提供一种基于非对称核函数的文本信息实体关系抽取系统，包括：

数据获取模块，被配置为获取目标文本的句子向量、实体掩码和关系掩码；所述关系掩码中包括实体词的掩码、处于实体词窗口内的周围词的动态掩码和处于实体词窗口外的边缘词的掩码；

特征编码模块，被配置为对句子向量进行特征编码；

函数构建模块，被配置为根据得到的特征向量和实体掩码得到实体向量，根据特征向量和关系掩码得到关系向量，将实体向量和关系向量作为参数以构建非对称核函数；

关系抽取模块，被配置为根据非对称核函数确定目标实体对与每个关系的关联度，由此确定目标实体对在目标文本中的关系。

与现有技术相比，本发明的有益效果为：

本发明设计可变的动态关系掩码以提取更精确的关系语义，关系掩码通过自身的迭代更新，为每个关系生成最适合的关系掩码，相比于直接使用句子的表征语义（即语句级或词汇级的特征），动态关系掩码提取的关系语义信息具有更少的噪声，更有利于关系的抽取。

本发明使用固定窗口的动态关系掩码来实现对关系语义的聚焦，通过调整窗口的大小，可以改变对关系语义的聚焦程度；且本发明没有使用复杂的网络结构和额外知识，是一个简单有效的关系抽取方法。

本发明使用非对称核函数替换线性层来计算每个关系类别的概率值，通过非对称核函数，将低维空间向量映射到高维空间向量，将头实体向量和尾实体向量拼接后作为非对称核函数的参数X，将关系向量作为非对称核函数的参数Y，可以更好的表达出实体与每个关系之间的关联程度，具有良好的可解释性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于非对称核函数的文本信息实体关系抽取流程框图；

图2为本发明实施例1提供的基于非对称核函数的文本信息实体关系抽取方法流程图；

图3为本发明实施例1提供的基于非对称核函数的文本信息实体关系抽取架构图；

图4为本发明实施例1提供的确定目标实体对与各关系关联度的流程图；

图5为本发明实施例1提供的本发明实施例1提供的方法与现有方法在映射各关系类别概率值时的模型对比图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“包含”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

特征工程：特征工程是一种工程活动，目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。常见操作有特征归一化、特征升维、特征降维、特征离散化等。

关系抽取：从一段文本中抽取出（主体，关系，客体）三元组。

实施例1

本实施例提供一种基于非对称核函数的文本信息实体关系抽取方法，包括：

对句子向量进行特征编码；

下面结合图1-图3对本实施例方法做详细阐述。

在本实施例中，选择的数据集包含10717个样本，8000个样本用于训练，2717个样本用于测试，总共包含9种关系类型；

句子样例S=(Flowers are nice，but don't last very long and the<e1>fruit</e1>in a fruit<e2>basket</e2>often goes bad.) ，fruit和basket分别代表头实体和尾实体，头实体和尾实体使用特殊符号<e1>、</e1>和<e2>、</e2>标注。

在本实施例中，对目标文本通过词典映射为句子向量，表示为：

其中，是分词函数，作用是将一个句子中所有的单词单独划分出来，并转换成词典中对应的单词/>。

在本实施例中，根据实体位置构造实体掩码；其中，用0代表该词被遮掩，用1代表该词无遮掩。

例如，句子样例S的实体掩码为：

。

在本实施例中，为了契合各个关系的特点，为每个关系构建动态关系掩码。目的是聚焦于有利于关系抽取的信息，也就是关系语义。一个句子中的关系语义，通常隐藏在实体词的附近。

因此，本实施例设置窗口来关注实体词周围的信息。窗口的大小可以调节关注的范围，也就实现了关系掩码对于关系语义的聚焦程度。

假设窗口大小设置为3，关系掩码就可以关注到实体词周围3个词的信息，而处于窗口外的词则为不被关注的边缘词。

关系掩码能够随着模型的训练过程不断更新状态，各个关系掩码通过动态的更新自身参数，逐渐契合对应的关系类别，以实现抽取的关系语义更加准确。

（1）当两个实体词距离较远时，两个实体词的窗口的关注区域不会重合。

假设S=(Sea<e1>breezes</e1>are caused by cool and more dense<e2>air</e2>moving inland off the water.)；同时由于<e1>、</e1>、<e2>和</e2>是标注实体位置的特殊符号，因此不记入窗口的步长；则设窗口的关系掩码表示为：

其中，1为实体词的掩码；为被关注到的周围词的掩码，该掩码值随模型训练不断更新，取值范围为/>；c _i为不被关注的边缘词的掩码，该掩码值不会更新，为常数，给定默认值即可。

（2）当两个实体词距离较近时，两个实体词的窗口的关注区域会出现重合。

假设S=(Flowers are nice, but don't last very long and the<e1>fruit</e1>in a fruit<e2>basket</e2>often goes bad.)，则设窗口的关系掩码表示为：

其中，为被重复关注的周围词的掩码。

（3）当不设置窗口时，关系掩码就是一个自身全部参数都可以更新的超级掩码，这时关系掩码可以从全局提取关系语义。

假设S=(The<e1>company</e1>fabricates plastic<e2>chairs</e2>.)，则不设窗口的关系掩码表示为：

其中，为非实体词的掩码。

在本实施例中，对句子向量采用Bert模型进行特征编码，提取特征向量；

其中，将句子向量输入到Bert模型中，经过数层编码后，将最后一层编码层的输出作为特征向量。

在本实施例中，将特征向量与实体掩码进行矩阵运算，得到每个实体对应的实体向量；

其中，代表矩阵乘法运算；/>为用于对特征向量进行缩放的参数；/>代表词向量的最大维度；/>是超参数。

原理是：中实体词对应的特征值与实体掩码中的数值1相乘，保持不变；非实体词对应的特征值与实体掩码中的数值0相乘，非实体词的特征值会被消减为0，由此提取出/>中实体词对应的特征。

在本实施例中，将特征向量与关系掩码进行逐元素乘法运算，得到聚焦关系语义的关系向量；

其中，为向量逐元素乘法；/>为向量拼接；/>为关系个数；/>、/>为不同实体词窗口设置的第/>个关系的关系掩码。

原理是：中处于实体词窗口内的周围词与关系掩码中的非0数值相乘，特征值得到增强（/>）或削弱（/>）；处于实体词窗口外的边缘词与关系掩码中的常数值c _i（默认1）相乘，特征值保持不变，因此实现对实体间关系语义的聚焦。

在本实施例中，非对称核函数中包括参数和参数/>；将头实体向量和尾实体向量拼接后作为非对称核函数的参数/>，将关系向量作为非对称核函数的参数/>；

其中，参数和参数/>分别为：

其中，，是实体向量中的元素；/>、/>和/>均是参数矩阵；/>、/>和/>是偏置项；/>是激活函数；zip是打包函数；

由此，构建得到的非对称核函数为：

其中，和/>是参数/>和参数/>对应的参数矩阵；|| ||₂是向量的二阶范数。

由于在不同的语料中，数据样本的分布可能具有不同的离散状态，因此在实际应用中可以根据数据不同的分布特点灵活的选取核函数。核函数可以是现有的函数，也可以是自定义的核函数，例如本实施例中自定义的非对称核函数。

在本实施例中，根据输入参数和参数/>的非对称核函数，得到实体对（实体对包括头实体和尾实体）与每个关系的关联度，将关联度作为各关系类别的概率值；

具体地，如图4所示，将参数和参数/>分别与对应的参数矩阵相乘后得到参数/>和/>，基于广播机制计算/>之间的距离，然后利用向量的二阶范数，显示化目标实体对与每个关系的距离，再使用指数函数归一化距离，由此得到目标实体对与各关系类别的关联度，以关联度最大的关系类别作为目标实体对在目标文本中的关系。通过非对称核函数，可以显示化一个实体对与每个关系之间的距离，进而表明了实体对与每个关系的关联程度。

图5展示了本实施例方法与现有方法在映射各关系类别概率值时的不同之处。

将各关系类别的概率值输入到分类器中，得到最终的预测结果：

其中，为最大值函数，是取出数组中每一行或每一列的最大值，即取出所有的关系类别中概率最大的一项。

为验证本实施例方法的有效性，使用关系抽取领域具有代表性的基线模型进行对比试验，包括有文本循环编码器（TRE）、基于BERT模型的关系分类模型（R-BERT）、基于BERT模型的误差修正模型（BERT-ECM）、注意力图卷积神经网络（A-GCN）结合BERT模型的混合模型（A-GCN + BERT）、使用语法依赖树结合自回归预训练语言模型（XLNet）的混合模型（RE-DMP+XLNet），实验结果见表1；可以看出，本实施例方法在精度、召回率和F1分数上均达到了最优结果，本实施例方法不使用额外知识（如语法依赖树），不使用额外的神经网络模型，不仅性能更好，在实现上也更为简单。

表1 实验结果

方法	精度	召回率	F1分数
				TRE	88.0	86.20	87.10
R-BERT	87.03	90.10	88.54
				BERT-ECM	89.44	90.59	89.95
A-GCN + BERT	89.55	90.75	89.85
				RE-DMP+XLNet	89.12	90.22	89.90
本实施例方法	89.78	91.60	90.18

为了验证动态关系掩码和非对称核函数的作用，本实施例设计了消融实验。通过剪枝动态关系掩码和剪枝非对称核函数来观察它们对模型性能是否具有积极影响，实验结果见表2，可以发现，模型性能显著降低，证明本实施例方法的有效性，能够有效提高模型的性能。

表2 实验结果

方法	精度	召回率	F1分数
				剪枝动态关系掩码的方法	87.86	89.79	89.10
剪枝非对称核函数的方法	88.62	90.86	89.37
				完整方法	89.78	91.60	90.17

实施例2

本实施例提供一种基于非对称核函数的文本信息实体关系抽取系统，包括：

特征编码模块，被配置为对句子向量进行特征编码；

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于非对称核函数的文本信息实体关系抽取方法，其特征在于，包括：

对句子向量进行特征编码，提取特征向量；

根据非对称核函数确定目标实体对与每个关系的关联度，由此确定目标实体对在目标文本中的关系；

所述根据得到的特征向量和实体掩码得到实体向量，根据特征向量和关系掩码得到关系向量，将实体向量和关系向量作为参数以构建非对称核函数，具体为：

将特征向量与实体掩码进行矩阵运算后得到实体向量；其中，特征向量中实体词对应的特征值与实体掩码中的数值1相乘，非实体词对应的特征值与实体掩码中的数值0相乘；

将特征向量和关系掩码进行逐元素乘法运算后得到关系向量；其中，特征向量中处于实体词窗口内的周围词与关系掩码中的非0数值相乘，以增强或削弱周围词的特征值；处于实体词窗口外的边缘词与关系掩码中的常数值相乘，边缘词的特征值保持不变；

将头实体向量和尾实体向量拼接后作为非对称核函数的参数，将关系向量作为非对称核函数的参数/>；

其中，参数和参数/>分别为：

其中，是实体向量中的头实体向量和尾实体向量；/>、/>和/>均是参数矩阵；、/>和/>是偏置项；/>是激活函数；zip是打包函数，/>为关系向量；

非对称核函数为：

其中，和/>是参数/>和参数/>对应的参数矩阵；|| ||₂是二阶范数；

所述实体对包括头实体和尾实体；

所述实体词窗口为：设置窗口来关注实体词周围的信息；当窗口大小设置为n时，关系掩码就可以关注到实体词周围n个词的信息，而处于窗口外的词则为不被关注的边缘词；

2.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法，其特征在于，所述句子向量为对目标文本通过词典进行映射得到；所述实体掩码为用0表示词被遮掩，用1表示词无遮掩的形式构造得到；所述关系掩码中实体词窗口的大小可调。

3.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法，其特征在于，实体向量为：

4.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法，其特征在于，关系向量为：

其中，为向量逐元素乘法；/>为向量拼接；/>为关系个数；/>为特征向量，、/>为不同实体词窗口设置的第/>个关系的关系掩码；/>为对特征向量进行缩放的参数。

5.如权利要求1所述的基于非对称核函数的文本信息实体关系抽取方法，其特征在于，根据非对称核函数确定目标实体对与每个关系的关联度的过程包括：将参数和参数/>分别与对应的参数矩阵相乘后得到参数/>和/>，基于广播机制计算/>之间的距离，利用向量二阶范数显示化目标实体对与每个关系的距离，使用指数函数归一化距离后得到目标实体对与各关系类别的关联度，以关联度最大的关系类别作为目标实体对在目标文本中的关系。

6.基于非对称核函数的文本信息实体关系抽取系统，基于如权利要求1-5任一项所述的基于非对称核函数的文本信息实体关系抽取方法，其特征在于，包括：

特征编码模块，被配置为对句子向量进行特征编码；