CN113486180A

CN113486180A - 一种基于关系层级交互的远程监督关系抽取方法及系统

Info

Publication number: CN113486180A
Application number: CN202110794928.1A
Authority: CN
Inventors: 彭涛; 韩日东; 包铁; 崔海
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-10-08

Abstract

本发明公开了一种基于关系层级交互的远程监督关系抽取方法及系统，其方法包括通过信息处理机制将单词嵌入、相对位置嵌入和首尾实体嵌入三种输入融合，获取词嵌入表示；对词嵌入表示通过神经网络编码进行编码，获取句子表示；建立关系层级交互结构，获取关系增强的句子表示；消除错误标注的句子实例，获取句子包表示；通过多层感知机和softmax激活函数构造分类器，获取句子包对于关系类别的概率得分，根据概率得分进行关系抽取。该方法针对远程监督关系的错误标签问题和长尾分布问题，利用关系在知识库中的层级结构，建模各个关系层级间的交互关系，为关系抽取分类任务提供更多有价值的线索，提高关系抽取模型的性能。

Description

一种基于关系层级交互的远程监督关系抽取方法及系统

技术领域

本发明涉及自然语言处理技术领域，更具体的说是涉及一种基于关系层级交互的远程监督关系抽取方法及系统。

背景技术

关系抽取是自然语言处理领域的一项重要子任务，旨在识别出给定句子中的实体对之间的语义关系，提取的语义关系可应用在知识图谱构建、问答系统等下游任务中。例如，在给定的句子“[谢尔盖]e2是[谷歌]e1的联合创始人之一。”，关系抽取的目的是确定“谷歌”和“谢尔盖”之间是“创始人”的关系，并表示成一个三元组<谷歌，创始人，谢尔盖>。在知识库中，各条知识的表示形式可以都理解为是这种三元组。

传统的有监督关系抽取方法，尤其是基于深度学习的方法，需要大量精确标注的训练数据，然而训练数据的获取需要耗费大量人力和时间。为了克服该问题，Mintz等人提出了一种远程监督方法，该方法将知识库Freebase与纽约时报语料NYT进行实体对齐，自动生成大规模训练数据。其基于假设：如果两个实体在知识库中具有某种关系，则包含这两个实体的所有句子都表达这种关系。这种假设过于绝对，因为同一实体对在不同上下文可能具有不同关系，因此该方法会产生错误标签问题。例如，句子“谷歌公司技术部总监谢尔盖参加了这次活动。”由于提到了“谷歌”和“谢尔盖”两个实体，而其在知识库中具有“创建者”关系，则这个句子被标注为“创建者”关系的训练数据，这明显是错误的。此外，尽管知识库里面“关系三元组”的规模很大，但是和现实世界相比，仍然不值一提，会有很多关系三元组无法被知识库所涵盖，因此，远程监督数据集会具有“长尾分布问题”，即某些关系的训练数据量极其庞大，某些关系的训练数据则很稀少，数据极其不平衡。

对于错误标签问题，Riedel等人提出多实例学习框架(multi-instancelearning，MIL)，其首先把具有相同实体对的所有句子构建为句子包，认为句子包中至少有一个句子表达了其关系，然后在句子包级别识别关系。近几年，基于MIL的远程监督关系抽取方法取得了长足的发展，最经典的模型就是用分段卷积神经网络(piecewiseconvolutional neural network，PCNN)获取句子的语义特征，用注意力机制(AttentionMechanism)消除噪音标签数据的影响。但是该方法有以下不足：未考虑句子上下文对单词编码的影响；未考虑两个实体对于相应关系类别的不同依赖及影响程度。

对于长尾分布问题，最近有研究人员利用知识库中关系的层级结构来传递信息，把“训练数据丰富的关系”的知识传递给“训练数据匮乏的关系”。关系的层级结构如下图所示。但存在以下不足：关系层级之间是互不影响、相互独立的，关系层级间的交互需要加强；关系嵌入矩阵的利用不够充分。

CN 111859912 A的发明专利公开了一种基于PCNN模型的带有实体感知的远程监督关系抽取方法，初步解决了错误标签问题和长尾分布问题，首先，使用多头自注意力机制将单词嵌入与头实体和尾实体嵌入以及相对位置嵌入相结合，以生成可感知实体的增强型单词语义表示，它能够捕获每个单词与实体对之间的语义依赖性；然后，引入一个全局门，将输入句子中每个实体感知的增强词表示与它们的平均值相结合，以形成PCNN输入的最终词表示；此外，为了确定其中最重要的关系分类信息出现的关键句段，引入了另一种门机制，为每个句子段分配不同的权重，以突出PCNN中关键句段的效果。最后，使用句子包级别的选择注意力，通过线性变换计算出所有关系的预测概率得分。

但是上述技术方案还具有以下缺点：

(1)虽然考虑到了头尾实体嵌入的影响，但是没有考虑关系三元组<e1，r，e2>中两个实体对于关系r的不同依赖及影响程度；

(2)虽然利用注意力机制构造了句子包级别的表示，但是没有利用关系本身的信息，例如关系嵌入矩阵及关系层级结构，而这些“与关系本身相关的信息”包含更多有价值的线索。

这些缺点导致远程监督关系抽取模型的性能不高。

因此，如何高性能的解决远程监督关系的错误标签问题和长尾分布问题，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于关系层级交互的远程监督关系抽取方法及系统，利用关系在知识库中的层级结构，建模各个关系层级间的交互关系，解决远程监督范式的错误标签问题和长尾分布问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于关系层级交互的远程监督关系抽取方法，包括以下步骤：

S1、通过信息处理机制将单词嵌入、相对位置嵌入和首尾实体嵌入三种输入进行融合，获取具备实体信息和位置信息的词嵌入表示；

S2、对输入的词嵌入表示通过神经网络编码结构进行编码，获取句子表示；

S3、建立关系层级交互结构，根据关系层级结构对输入的句子表示进行运算处理，获取关系增强的句子表示；

S4、利用注意力机制消除错误标注的句子实例，获取句子包表示；

S5、通过多层感知机和softmax激活函数构造分类器，获取句子包对于相应关系类别的概率得分，根据概率得分进行关系抽取。

优选的，步骤S1中所述的信息处理机制包括注意力机制、门机制。

优选的，步骤S2中所述神经网络编码结构包括CNN、PCNN、Transformer及其变体。

优选的，获取具备实体信息和位置信息的词嵌入表示的具体步骤包括：

利用谷歌预训练的word2vec模型将每个词映射为一个低维稠密的嵌入向量，即所述的单词嵌入；

计算句子中每个单词到两个实体的相对距离，并定义相应嵌入矩阵将相对距离转换为嵌入向量，即所述的相对位置嵌入；

利用word2vec模型获取句子中的两个实体的嵌入向量，即实体嵌入<E_h，E_t>；

利用门机制获取头尾实体的不同重要性得分，按照重要性进行加权求和，以整合实体对的信息，获取首尾实体嵌入，具体公式如下：

A^h＝sigmoid(W^αE_h+b^α)

公式中E_h表示头实体嵌入，E_t表示尾实体嵌入，W^α表示参数矩阵，b^α表示偏置参数，sigmoid()表示sigmoid激活函数，A^h表示门机制的门控值，

表示向量的按位相乘，E表示最后整合得到的首尾实体嵌入；

利用门机制整合上述三种信息，具体公式如下：

其中，W表示单词嵌入，P表示位置嵌入，

W^E表示参数矩阵，

b^E表示偏置参数，“；”表示嵌入向量的拼接，λ表示用于控制各项信息占比的参数，

表示将E转换为维度与[W；P]一致的中间结果向量，X表示最后得到的实体感知嵌入向量。。

优选的，通过CNN神经网络结构对词嵌入表示进行编码，具体包括以下步骤：

S21、利用卷积操作对词嵌入表示X进行编码计算，生成预定数目的特征向量：

f＝CNN(X)；

S22、根据单词在句子实体对的位置，将特征向量分为三段：

f＝{f¹；f²；f³}；

S23、对所有特征向量段进行最大池化操作，保留一个最大值：

u₁＝[max(f¹)；max(f²)；max(f³)]；

S24、将特征向量最大池化后的结果拼接在一起，组成句子编码表示：u＝[u₁；u₂；...；u_n]。

优选的，步骤S3中建立关系层级交互结构，根据关系层级结构对输入的句子表示进行运算处理，获取关系增强的句子包表示包括以下步骤：

S31、输入神经网络结构生成的句子表示；

S32、根据输入句子表示的关系类别，得到每个句子相应的关系层级链条，并把相同层级的关系进行向量化表示，构建每个句子关系层级的关系嵌入矩阵；

S33、基于当前关系层级的输入信息向量和上一关系层级的启发信息向量，递归计算每个关系层级的增强句子表示；

S34、将计算得到的所有关系层级的增强句子表示进行拼接，得到当前句子的整体关系增强表示。

优选的，步骤S33中进行递归计算具体包括：

a)利用当前关系层级输入信息向量和上一关系层级的启发信息向量分别与当前层级的关系嵌入矩阵计算相似度，并将得到的相似度作为权重，对当前层级的关系嵌入表示分别进行加权求和，得到当前关系层级输入信息向量和上一关系层级的启发信息特定于当前句子的关系信息；

b)利用门机制给予当前关系层级输入信息和上一关系层级的启发信息不同的重要性得分，对当前关系层级输入信息的关系信息和上一关系层级的启发信息的关系信息分别进行整合，并合并成新的关系信息；

c)利用门机制将新的关系信息与当前关系层级输入信息进行整合得到当前关系层级的增强句子表示并输出；

d)利用门机制将新的关系信息与上一关系层级的启发信息进行融合，得到新的启发信息，并传递给下一个关系层级。

优选的，利用注意力机制消除错误标注的句子实例，获取句子包表示，具体包括以下步骤：

S41、将所有整体关系增强的句子表示作为输入；

S42、利用每一个句子表示关系层级链条中最后一个关系层级输出的启发信息，结合注意力机制，生成该句子的权重，公式如下：

β＝softmax(W^β[U；H]+b^β)，式中W表示参数矩阵，b表示偏置参数，U表示整体增强表示的句子输入，H表示最后一个关系层级输出启发信息；

S43、根据权重对每一个句子表示进行加权求和，得到句子包表示。

一种基于关系层级交互的远程监督关系抽取系统，包括实体感知嵌入模块、句子编码器模块、关系层级交互的句子表示增强模块、实例选择器模块和分类器模块；

所述实体感知嵌入模块使用注意力机制或者门机制将单词嵌入、相对位置嵌入和首尾实体嵌入进行结合，生成实体感知嵌入；

所述句子编码器模块利用CNN、PCNN、Transformer及其变体等神经网络结构中的一种或者若干种对输入句子进行编码，得到句子表示；

所述句子表示增强模块建模关系层级间的交互影响，沿着关系层级链条，根据“当前输入信息”和“上一层级关系的启发信息”，构建关系增强的句子表示；

所述实例选择器模块利用注意力机制消除错误标注的训练实例；

所述分类器模块通过多层感知机和softmax激活函数获得句子包对于相应关系类别的概率得分。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于关系层级交互的远程监督关系抽取方法，具有以下有益效果：

1)本发明不仅考虑了首尾实体嵌入，更加考虑了首尾实体对于相应关系的依赖及影响程度，有助于突出关键实体的影响。

2)本发明同时考虑关系嵌入矩阵、关系层级结构和层级结构之间的交互影响，有助于从关系本身获取到更多有助于关系抽取分类任务的线索。

3)以递归式的结构建模关系层级之间的交互影响，结构简单并易于实现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明实施例提供的整体流程示意图；

图2附图为本发明实施例提供关系层级交互的句子表示增强整体计算流程图；

图3附图为本发明实施例提供的递归计算单元计算流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于关系层级交互的远程监督关系抽取系统，包括实体感知嵌入模块、句子编码器模块、关系层级交互的句子表示增强模块、实例选择器模块和分类器模块。

1)首先，实体感知嵌入模块使用注意力机制或者门机制将单词嵌入、相对位置嵌入和首尾实体嵌入进行结合，以生成实体感知嵌入，它能够捕获相对位置信息和实体信息，并可以按照不同的重要性程度利用首尾实体嵌入；

对于输入信息的每一个维度乘以一个取值为0和1之间的值，用以控制信息的流出量，形象地称之为门机制；

神经网络里的注意力机制是指对不同的输入信息，分配不同的权重，权重大的表示给予其更多注意力，多用于融合不同信息来源。

2)然后，句子编码器模块利用CNN、PCNN、Transformer及其变体等神经网络结构中的一种或者若干种对输入句子进行编码，得到句子表示；

3)接下来，关系层级交互的句子表示增强模块建模关系层级间的交互影响，沿着关系层级链条，根据“当前输入信息”和“上一层级关系的启发信息”，利用其与关系嵌入矩阵的相似关系，并利用门机制控制上述两种信息的重要程度，构建关系增强的句子表示；

4)实例选择器模块利用注意力机制消除错误标注的训练实例的影响；

5)分类器模块通过多层感知机和softmax激活函数获得句子包对于相应关系类别的概率得分，经过softmax函数归一化后的概率得分，表示当前句子隶属于各个关系的可能性(概率)，且所有概率的和为1，选取概率最大的关系类别r作为关系抽取任务的关系标签，即可以根据当前句子中的实体对e1、e2，构造实体关系三元组<e1，r，e2>，完成关系抽取任务。

下面对各个模块的具体实施步骤进行详细阐述，涉及到的公式中斜体W表示参数矩阵，b表示偏置参数，且公式描述的计算方式仅为众多实现方式中的一种。

对于给定的一个句子，实体感知嵌入模块的具体实施步骤如下：

利用谷歌预训练的word2vec模型将每个词映射为一个低维稠密的嵌入向量，即单词嵌入W(此处为正体字母，不表示参数矩阵)；

计算句子中每个单词到两个实体的相对距离(索引值的差)，并定义相应嵌入矩阵将相对距离转换为嵌入向量，即相对位置嵌入P；

利用word2vec模型获取句子中的两个实体的嵌入向量，即实体嵌入<Eh，Et>；

利用门机制获取头尾实体的不同重要性得分，然后按照重要性进行加权求和，以整合实体对的信息。一种具体实现的公式如下：

A^h＝sigmoid(W^αE_h+b^α)

表示向量的按位相乘，E表示最后整合得到的首尾实体嵌入；

利用门机制整合上述三种信息，一种具体实现方式的公式如下：

其中，W表示单词嵌入，P表示位置嵌入，

W^E表示参数矩阵，

表示将E转换为维度与[W；P]一致的中间结果向量，X表示最后得到的实体感知嵌入向量。

句子编码器模块的具体实施步骤如下：

将实体感知嵌入模块生成的单词表示作为输入，利用CNN、PCNN等编码结构进行编码，得到句子表示。以PCNN结构为例，公式如下：

1)首先利用卷积操作对句子进行编码计算，生成预定数目的特征向量：

f＝CNN(X)

2)根据句子中实体对的位置，将特征向量分为三段：

f＝{f¹；f²；f³}

3)对所有段进行最大池化操作，即保留一个最大值：

u₁＝[max(f¹)；max(f²)；max(f³)]

4)将所有的特征向量最大池化后的结果拼接在一起，组成句子编码表示：

u＝[u₁；u₂；...；u_n]

关系层级交互的句子表示增强模块的具体实施步骤如下：

1)将句子编码器模块生成的句子表示u作为输入；

2)根据预定义的关系类别，得到相应的关系层级，并构建相应层级的关系嵌入矩阵：根据知识库里面的关系层级，得到各个关系的层级链条，比如关系“\business\company\founders”可以构造[\business；\business\company；\business\company\founders]的层级链条。然后，把所有相同层级的关系进行向量化表示，即关系嵌入矩阵Rⁱ，i表示相应层级的序号。

3)假设“当前关系层级的关系增强表示受‘当前输入信息’和‘上一关系层级的启发信息’的影响”，‘当前输入信息’指的是当前关系层级向量化表示的句子表示，即当前处理的句子的向量化表示，‘上一关系层级的启发信息’指的是上一层级的递归计算过程输出的启发信息向量，沿着关系层级结构：

a)利用“当前输入信息”和“上一关系层级的启发信息”分别与当前层级的关系嵌入矩阵计算相似度，并分别利用上述相似度作为权重，对当前层级的关系嵌入表示进行加权求和，得到特定于当前句子的关系信息；

b)接下来，利用门机制给予“当前输入信息”和“上一关系层级的启发信息”不同的重要性得分，整合上一步得到的关系信息；

c)然后，利用门机制将得到的关系信息与“当前输入信息”进行整合得到当前层级的关系增强表示，作为输出；

d)最后，利用门机制将得到的关系信息与“上一关系层级的启发信息”进行融合，得到新的启发信息，传递给下一个关系层级。

4)将3)中所有关系层级得到的关系增强表示进行拼接，得到当前句子的整体关系增强表示。

该模块整体计算流程如图2所示(u表示当前输入，h_i表示与关系相关的启发信息)，每个计算单元的计算流程如图3所示。

实例选择器模块的具体实施步骤如下：

1)将关系层级交互的句子表示增强模块的输出作为输入(用U表示)；

2)利用最后一个关系层级输出的“启发信息”(用H表示)，结合注意力机制，生成句子包中每一个句子的权重，一种具体实现的公式表述如下：

β＝softmax(W^β[U；H]+b^β)

3)利用2)中计算的权重对1)中的句子表示进行加权求和，得到句子包的表示。

分类器模块的具体实施步骤如下：

1)将实例选择器模块获得的句子包表示作为输入；

2)利用多层感知机(MLP)进行线性变换，并用softmax激活函数进行归一化，从而得到相应关系类别的概率得分。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于关系层级交互的远程监督关系抽取方法，其特征在于，所述方法包括：

S3、建立关系层级交互结构，根据关系层级结构对输入的句子表示进行运算，获取关系增强的句子表示；

2.根据权利要求1所述的基于关系层级交互的远程监督关系抽取方法，其特征在于，步骤S1中所述的信息处理机制包括注意力机制、门机制。

3.根据权利要求1所述的基于关系层级交互的远程监督关系抽取方法，其特征在于，步骤S2中所述神经网络编码结构包括CNN、PCNN、Transformer及其变体。

4.根据权利要求2所述的基于关系层级交互的远程监督关系抽取方法，其特征在于，获取具备实体信息和位置信息的词嵌入表示的具体步骤包括：

利用word2vec模型获取句子中的两个实体的嵌入向量，即实体嵌入<E_h,E_t>；

利用门机制获取头尾实体的不同重要性得分，按照重要性进行加权求和，整合实体对的信息，获取首尾实体嵌入；

利用门机制将单词嵌入、相对位置嵌入和首尾实体嵌入三种信息进行整合。

5.根据权利要求3的所述的基于关系层级交互的远程监督关系抽取方法，其特征在于通过CNN神经网络结构对词嵌入表示进行编码，具体包括以下步骤：

f＝CNN(X)；

S22、根据单词在句子实体对的位置，将特征向量分为三段：

f＝{f¹；f²；f³}；

u₁＝[max(f¹)；max(f²)；max(f³)]；

S24、将特征向量最大池化后的结果拼接在一起，组成句子编码表示：u＝[u₁；u₂；…；u_n]。

6.根据权利要求1所述的基于关系层级交互的远程监督关系抽取方法，其特征在于，步骤S3具体包括以下步骤：

S31、输入神经网络结构生成的句子表示；

7.根据权利要求6所述的基于关系层级交互的远程监督关系抽取方法，其特征在于，步骤S33中进行递归计算具体包括：

8.根据权利要求7所述的基于关系层级交互的远程监督关系抽取方法，其特征在于，利用注意力机制消除错误标注的句子实例，获取句子包表示，具体包括以下步骤：

S41、将所有整体关系增强的句子表示作为输入；

9.根据权利要求1-8任意一项所述的基于关系层级交互的远程监督关系抽取方法的系统，其特征在于，包括实体感知嵌入模块、句子编码器模块、关系层级交互的句子表示增强模块、实例选择器模块和分类器模块；