CN112084778A

CN112084778A - 基于新型关系注意力机制的实体关系抽取方法及设备

Info

Publication number: CN112084778A
Application number: CN202010774426.8A
Authority: CN
Inventors: 尹帆; 毛养勤; 覃俊; 李子茂; 毛腾跃; 刘晶; 廖立婷
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-12-15

Abstract

本发明提供基于新型关系注意力机制的实体关系抽取方法，包括以下：采用PCNN模型提取句子的语义向量；根据句子包中每个句子的语义向量，采用NATT注意力机制，提取句子包的特征向量；将句子包的特征向量输入至sofmax分类器，得到句子包中每个句子的语义向量和关系向量之间关系的置信度。本发明提供的有益效果是：提高了关系向量表示的准确率。

Description

基于新型关系注意力机制的实体关系抽取方法及设备

技术领域

本发明涉及信息抽取技术领域，尤其涉及基于新型关系注意力机制的实体关系抽取方法。

背景技术

近年来，互联网信息的爆炸式增长给人们快速而精确地获取需要的信息带来了巨大的困难。信息抽取技术能够对文本进行深层的分析，从而为用户提供更准确的信息服务。关系抽取是信息抽取的主要任务之一，指对文本中所含实体对进行语义关系分类，在智能问答、知识库构建等领域扮演着重要的角色。

目前，实体关系抽取最常用的方法是有监督方式，虽然其抽取效果明显、准确率高，但该方法需要大量的人工标注语料，耗时耗力，限制了大规模的实体关系抽取。针对其语料的问题，Mintz等人尝试使用FreeBase知识库来代替手工标注语料，他们利用Freebase与自由文本对齐得到大量的标注训练语料，Mintz称这种监督方法为远程监督。其思想基于一种假设：如果两个实体之间存在知识库中的某种关系，那么含有这两个实体的句子或多或少都表达了这种关系。很明显这种假设存在不严谨的地方，引入了许多噪声标注数据。如何降噪成为了我们需要进一步解决的问题。

现有技术提出了分段PCNN网络来提取句子的语义向量，从关系矩阵中查询出标签所对应的关系向量，然后利用其与句子做相似性计算，相似性越高，则权重越高，反之，则越低。其PCNN网络结构分为输入层，卷积层，池化层。

另外还有一种基于深度学习的方法，该方法利用深度学习模型PCNN网络提取每个句子的语义向量，其次利用Freebase知识库中实体背景知识训练实体向量，最后利用实体相减得到关系向量，计算出每个句子对应这个关系的权重，如果句子表达了此关系，则权重越高，反之，则越低。

上述两种方法均利用关系向量与PCNN网络进行关系抽取，其得到的关系向量表示关系语义存在不准确的情况，例如：斯内普深情的看着莉莉。----恋人。两实体相减得不到恋人这个关系。因为恋人是“深情的”来体现的。。

发明内容

有鉴于此，本发明提供了基于新型关系注意力机制的实体关系抽取方法，包括以下：

S101：获取有标签数据；所述有标签数据具体为有标签的句子包；

S102：采用PCNN模型提取所述有标签的句子包中每个句子的语义向量；所述PCNN模型包括输入层、卷积层和池化层；

S103：根据所述有标签的句子包中每个句子的语义向量，采用NATT注意力机制，提取所述有标签的句子包的特征向量；

S104：将所述有标签的句子包的特征向量输入至sofmax分类器，得到所述有标签句子包中每个句子的语义向量和关系向量之间关系的置信度；所述关系向量具体为根据所述有标签的句子包的原始向量随机生成的初始化向量。

进一步地，步骤S101中，获取有标签数据，具体方式为：采用远程监督方法通过自动对齐远程知识库获取有标签数据集。

进一步地，步骤S102中，采用PCNN模型提取所述有标签的句子包中每个句子的语义向量，具体步骤为：

S201：所述有标签的句子包中任意一个句子s包括n个单词，即s＝(w₁,w₂,...,w_n)其中，w_i为句子s中的第i个单词；句子s通过映射词向量表，其单词w_i被转换成词向量e_i，即s＝(w₁,w₂,...,w_n)通过映射词向量表，被转换成s＝(e₁,e₂,...,e_n)；

S202：对句子s中的单词w_i，计算其分别相对于句子s中头实体和尾实体的相对距离，然后将这两个相对距离映射成为单词w_i位置向量d_i；

S203：单词w_i的词向量和位置向量拼接得到单词w_i的特征向量:；将句子s中每个单词的特征向量作为PCNN模型输入层的输入；

S204：利用PCNN模型的卷积层对句子s中每个单词的特征向量进行卷积操作，得到每个单词的结果向量c，具体如式(1)：

式(1)中，c_i为第i个单词经过卷积操作后的结果向量；W_i为第i个权重矩阵，b为预设的偏置值；

S205：将每个单词的结果向量c分割为三部分，具体为c_i＝{c_i,1,c_i,2,c_i,3}，利用PCNN模型的池化层分别对每部分进行最大池化，得到最大池化向量p_i＝{p_i,1,p_i,2,p_i,3}；其中p_i,j＝max(c_i,j)，j＝1,2,3；

S206：根据最大池化向量得到句子s的语义向量S＝tanh(p),其中p＝(p₁,p₂,...,p_n)。

进一步地，步骤S103中，根据所述有标签的句子包中每个句子的语义向量，采用NATT注意力机制，提取所述有标签的句子包的特征向量，具体为：

S301：使用得分函数计算每个句子语义向量和关系向量的注意力权重，具体如式(2)所示：

式(2)中，i表示有标签的句子包中句子的编号，m为有标签的句子包中句子的总个数，j表示得分函数中每个句子的得分序号；a_i为有标签的句子包中句子s_i与关系向量之间的注意力权重；w_i的表达式如式(3)所示：

式(3)中，b_a是预设的偏置量；

为中间矩阵；r_c为关系向量；S_i为有标签的句子包中第i个句子s_i的语义向量S_i；r_c的表达式为r_c＝(e₁-e₂)M_r；e₁，e₂为两实体向量，M_r为转换矩阵；

S302：根据式(2)、(3)计算得到所述有标签句子包的特征向量，具体如式(4)：

进一步地，所述有标签句子包中每个句子的语义向量和关系向量之间关系的置信度，具体如式(5)所示：

式(5)中，p(r_i|B；θ)表示当前包B属于关系r_i的概率；θ表示关系抽取过程中的所有参数；B表示有标签的句子包；n_r表示关系标签的总数；j表示输出集合o中每个输出的编号；o_i表示分类器softmax的输出集合o中的第i个输出；所述分类器softmax的输出集合o的计算式如式(6)所示：

o＝M_sb+b_s (6)

式(6)中，M_s表示中间矩阵，b_s表示偏置值。

步骤S104中，所述分类器softmax使用之前，还利用多个有标签的句子包对其进行训练，训练的目标函数具体如(7)为：

min L＝L_D+λL_e (7)

式(7)中L为训练目标函数，L_e、L_D如式(8)：

式(8)中，N表示有标签的句子包的总个数，i表示有标签的句子包的编号；r为原始向量，通过句子包中两实体向量相减得到。

一种存储设备，所述存储设备存储指令及数据用于实现一种基于新型关系注意力机制的实体关系抽取方法。

一种基于新型关系注意力机制的实体关系抽取设备，包括：处理器及存储设备；所述处理器加载并执行存储设备中的指令及数据用于实现一种基于新型关系注意力机制的实体关系抽取方法。

本发明提供的有益效果是：提高了关系向量表示的准确率。

附图说明

图1是本发明基于新型关系注意力机制的实体关系抽取方法的流程示意图；

图2是本发明实验结果示意图。

图3是本发明实施例中硬件设备工作的示意图.

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明的实施例提供了基于新型关系注意力机制的实体关系抽取方法，包括以下：

步骤S101中，获取有标签数据，具体方式为：采用远程监督方法通过自动对齐远程知识库获取有标签数据集；使用Freebase知识库与自由文本对齐得到大量的标注训练语料，其思想基于一种假设：如果两个实体之间存在知识库中的某种关系，那么含有这两个实体的句子或多或少都表达了这种关系；

步骤S102中，采用PCNN模型提取所述有标签的句子包中每个句子的语义向量，具体步骤为：

步骤S103中，根据所述有标签的句子包中每个句子的语义向量，采用NATT注意力机制，提取所述有标签的句子包的特征向量，具体为：

式(3)中，b_a是预设的偏置量；

所述有标签句子包中每个句子的语义向量和关系向量之间关系的置信度，具体如式(5)所示：

o＝M_sb+b_s (6)

式(6)中，M_s表示中间矩阵，b_s表示偏置值。

min L＝L_D+λL_e (7)

式(7)中L为训练目标函数，L_e、L_D如式(8)：

使用的数据集是文献过滤版本的NYT10数据集.原始的NYT10数据集由Riedel等人发布并被许多远程监督关系抽取研究使用.该数据集是纽约时报语料库对齐Freebase中的关系产生的，从2005～2006年的新闻语料中获取的句子作为训练集，测试集是对齐Freebase和NYT中2007年的句子产生的数据.该数据集中包含53类关系,包括特殊关系类型“NA”,表示两个实体之间没有关系.得出的训练和测试数据分别包含570,088和172,448个句子.

,使用held-out和Manual-out评估本文提出的方法.并在held-out评估中比较所有基线的准确率和召回率,对比本文提出模型的效果

在本文的实验中，我们使用word2vec[12]预训练了词向量。我们使用句嵌入的向量维数选择范围为{50,100,200,300}，位置嵌入的选择范围为{5,10,20}，特征图的选择范围为{100,200,230}，batch_size的大小选择范围在{100,200,500}。经过证明，最佳的参数配置如下：dw＝50，d_P＝5,batch_size＝100,lr＝0.001。

本发明实施例使用held-out和Manual-out评估本文提出的方法.并在held-out评估中比较所有基线的准确率和召回率,对比本文提出模型的效果.

为了验证实验中本文提出的注意力机制的效果，我们主要采用APCNN，PCNN+ATT，PCNN+MIL模型作为实验的对比模型。

Manual评估：表1是各个模型的TopN比较表，该表表示在按照测试输出的概率排序的基础上，前N条句子的准确率.表1中列出的Top100，Top200和Top500的比较可以看出：(1)PCNN+MIL算法的准确率都是最低的，说明噪声对模型的影响严重。(2)PCNN+ATT算法要全面优于PCNN+MIL算法，说明了选择注意力模型更多的利用句子信息，同时减少了噪声的影响；(3)APCNN算法优于PCNN+ATT算法，说明了两实体信息能反映关系的某些特征。(4)PCNN+NATT注意力机制可以有效的给负实例赋予较小权重从而减轻噪声。

表1各模型TopN对比表

Held-out评估：图2展现了各个模型的准确率/召回率曲线，从图中可以看出，PCNN+NATT比其他基线模型(APCNN，PCNN+ATT，PCNN+MIL)取得更好的表现。我们总结出NATT注意力机制可以有效的给负实例赋予较小权重从而减轻噪声。

一种基于新型关系注意力机制的实体关系抽取设备401：所述一种基于新型关系注意力机制的实体关系抽取方法设备401实现所述一种基于新型关系注意力机制的实体关系抽取方法方法。

处理器402：所述处理器402加载并执行所述存储设备403中的指令及数据用于实现所述一种基于新型关系注意力机制的实体关系抽取方法方法。

存储设备403：所述存储设备403存储指令及数据；所述存储设备403用于实现所述一种基于新型关系注意力机制的实体关系抽取方法方法。

本发明实施的有益效果是：提高了关系向量表示的准确率。

在不冲突的情况下，本发明中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于新型关系注意力机制的实体关系抽取方法，其特征在于：

2.如权利要求1所述的一种基于新型关系注意力机制的实体关系抽取方法，其特征在于：步骤S101中，获取有标签数据，具体方式为：采用远程监督方法通过自动对齐远程知识库获取有标签数据集。

3.如权利要求1所述的一种一种基于新型关系注意力机制的实体关系抽取方法，其特征在于：步骤S102中，采用PCNN模型提取所述有标签的句子包中每个句子的语义向量，具体步骤为：

4.如权利要求3所述的一种基于新型关系注意力机制的实体关系抽取方法，其特征在于：步骤S103中，根据所述有标签的句子包中每个句子的语义向量，采用NATT注意力机制，提取所述有标签的句子包的特征向量，具体为：

式(3)中，b_a是预设的偏置量；

5.如权利要求4所述的一种基于新型关系注意力机制的实体关系抽取方法，其特征在于：所述有标签句子包中每个句子的语义向量和关系向量之间关系的置信度，具体如式(5)所示：

o＝M_sb+b_s (6)

式(6)中，M_s表示中间矩阵，b_s表示偏置值。

6.如权利要求5所述的一种基于新型关系注意力机制的实体关系抽取方法，其特征在于：步骤S104中，所述分类器softmax使用之前，还利用多个有标签的句子包对其进行训练，训练的目标函数具体如(7)为：

minL＝L_D+λL_e (7)

式(7)中L为训练目标函数，L_e、L_D如式(8)：

7.一种存储设备，其特征在于：所述存储设备存储指令及数据用于实现权利要求1～6所述的任意一种基于新型关系注意力机制的实体关系抽取方法。

8.一种基于新型关系注意力机制的实体关系抽取设备，其特征在于：包括：处理器及存储设备；所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1～6所述的任意一种基于新型关系注意力机制的实体关系抽取方法。