发明内容
本发明提供了一种基于实体特征的远程监督关系抽取方法,提出了实体引导增强特征网络(Entity-Guided Enhancement Feature Network,EGEFN),以捕获可靠的关系特征,提高关系抽取效率。
本发明首先采用多级增强实体表示模块,在多头注意力机制0下,设计实体引导注意力,从关键词和短语中提取关系特征。具体来说,实体对被视为查询序列,在多头注意力作用下,从目标句子中搜索最相关的单词和短语,其中,多级增强实体表示模块提取单词和短语层面的语义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r。接下来,本发明使用语义融合层来整合多个语义表示,包括由PCNN编码的句子表示、两个增强实体表示和关系表示,生成最终健壮的句子向量。不同于Li等人简单利用上下文表示设计门机制,本发明关注的是重要词和短语所捕捉的关键关系特征,在此基础上,本发明提出了一种关系度量聚合门(Relation-Measured Aggregation Gate,RMAG),在由两个增强实体表示计算的关系表示基础上,将所有句子表示聚合成包表示,利用包表示来判别关系类型,从而克服选择注意力中存在的单句包问题。
为实现上述目的,本发明的技术方案为:
基于实体特征的远程监督关系抽取方法,包括以下步骤:
S1.处理输入表示,获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量,并经过串联操作,得到输入序列X,并从X中取出初始的头实体表示和尾实体表示;
S2.头实体表示和尾实体表示并列,被视为查询向量序列,在多头注意力作用下,从目标句子中搜索最相关的单词和短语;多级增强实体表示模块提取单词和短语层面的语义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r;另外,使用分段卷积神经网络获取句子表示s;
S3.使用语义融合层来整合多个语义表示,包括句子表示s、两个增强实体表示和稳健的关系表示r,生成最终健壮的句子向量
S4.关系度量聚合门利用关系表示r计算对应句子的门控向量,并进行门控池化操作,即计算门控向量与健壮的句子向量
的均值,获取包表示向量B,通过包表示向量B计算所有关系预测概率,预测概率最高的关系即为关键关系特征。
进一步的,所述步骤S1具体为:
对于长度为n的输入句子序列s,选用word2vec工具,对于第i个词,其索引经word2vec映射,获取低维词嵌入向量
其中:d
w是词向量维度,得到句子嵌入向量序列
在输入信息中引入词与待抽取关系的头、尾实体距离信息,将位置距离向量化,得到两个低维位置向量
其中,v
i1表示头实体到第i个词的距离,v
i2表示尾实体到第i个词的距离,d
p是位置向量维数;
经过串联操作,统合词嵌入与位置嵌入,得到最终的输入序列X={x1,x2,...,xn},xi=[wi;vi1;vi2]∈Rd,其中d表示输入向量维度,且d=dw+2×dp;
从X中取出初始的头实体表示和尾实体表示,记作xh,xt∈Rd,其中,xh表示头实体表示,xt表示尾实体表示。
进一步的,所述步骤S2具体为:
S2.1词级增强实体表示
将xh和xt并列,得到查询向量序列qe=[xh,xt]∈R2×d,作为缩放点积注意力中的查询Q,将单词输入序列X作为注意力机制中的键值对(K,V);
将qe的两个向量分别与输入表示序列X的每个词逐一计算相关性,并通过相关性矩阵和所有词向量的点积,得到词级增强的实体表示,具体计算公式如下:
其中,softmax()为神经网络中的归一化指数函数,A∈R
2×n是相关度矩阵,由序列X与查询q
e运算而来;对于A的一个元素a
ij代表第j个词与第i个实体的相关度;AX表示相关性矩阵和所有词向量的点积,
表示词级增强的实体表示;
将输入划分多头,执行h次线性变换,各将查询、键、值分成h个分量,并行执行公式(1)和(2)中的缩放点积注意力;在多头情况下,词级增强实体表示计算如下:
MultiHead(Q,K,V)=[H1;H2;...;Hh]WR (3)
Hi=Attention(QWi Q,KWi K,VWi V) (4)
其中,MultiHead()表示多头自注意力,H
1,H
2,...,H
h表示多头自注意力中的h个头,
是第i个线性变换的参数矩阵,
是缩放点乘注意力的拼接结果的参数矩阵,都是可学习的参数,[;]表示拼接运算,Attention()表示多头自注意力的缩放点积注意力函数,LayerNorm指层归一化;
表示归一化之前的词级增强的实体表示;
S2.2短语级增强实体表示
S2.2.1卷积层
构建卷积输入:令xi:j=[xi:xi+1:...:xj]表示拼接向量序列,代表输入序列X的部分拼接,索引范围是[i,j];然后,定义卷积核Wc∈Rl×d,对输入X执行卷积运算,其输出为c∈Rn-l+1,cj是它的第j个元素,计算过程如下:
其中,l表示卷积的滑动窗口大小,
表示卷积算子,并对每个句子填充零向量,确保向量c维数为n,与句子长度一致;
使用f个卷积核
用于拟合特征,运算结束后得到C={c
1,c
2,...,c
f}∈R
f×n;C的每一列作为一个短语表示,且维度为f;对C转置,获得短语表示序列P=C
T={P
1,P
2,...,P
n}∈R
n×f。
S2.2.2短语级实体引导注意力层
以词级增强实体表示
为缩放点积注意力中的查询Q,短语序列P为缩放点积注意力中的键值对,获取不同短语与指定查询的相关度,引导模型聚焦重点短语,捕获短语级关系特征,用于增强实体表示,短语级增强实体表示
通过下面公式计算:
其中,
表示归一化之前的短语级增强实体表示,f(·)是一个线性变换,旨在转换词级增强实体表征的维度,从d变为短语表示f的大小,LayerNorm表示层归一化;
S2.2.3关系表示
使用一个线性层,转换拼接的头增强实体和尾增强实体向量,生成关系表示r∈R2f;关系表示r计算如下:
其中,Linear(g)表示一个全连接的线性层,[;]为拼接操作,Wr∈R2f×2f和br∈R2f是训练参数,r包含从关键词和短语中提取的关键关系特征;
S2.2.4分段最大池化层
使用分段卷积神经网络对句子建模,对于卷积层输出C={c1,c1,...,cf}∈Rf×n,执行分段池化捕获句子结构信息;对每个卷积结果ci,以头实体和尾实体位置为分隔点,ci被切分为三部分{ci1,ci2,ci3},然后对每个分段最大池化,计算公式如下:
zi=[maxpool(cij)]i=1,2,...,f;j=1,2,3 (12)
经过池化层后,得到分段序列Z={Z1,Z2,Z3}∈R3×f,将三部分串联,经过tanh函数,获得句子表示s=tanh([Z1;Z2;Z3])∈R3f。
进一步的,所述步骤S3具体为:使用语义融合层来整合多个语义表示,生成的稳健的句子表示
计算如下:
其中,f
φ(·)为将结果向量映射到3f维度空间的线性层,ReLU为线性整流激活函数,[;]表示拼接运算;
表示两个增强实体之间的差异性,e代表逐元素相乘,
表示在每个维度上捕获两种相似性。
进一步的,对含有m个句子的包B={s
1,s
2,...,s
m},经过语义融合层可获得
及其对应的关系表示集合R=[r
1,r
2,...,r
m],用前馈网络为每个句子生成门控向量g
i,具体计算如下:
gi=sigmoid(W2tanh(W1ri+b1)+b2)i=1,2,...,m (14)
其中,W1∈R3f×2f、W2∈R3f×3f是学习参数,b1和b2是偏置向量,sigmoid(g)为神经网络的激活函数,tanh(g)为双曲正切函数,ri为第i个句子的关系表示;经过上述处理,获得门控矩阵G=[g1,g2,...,gm]∈Rm×3f;
对G和
执行逐元素相乘,并对结果进行平均聚合,获取包表示向量B,具体计算如下:
利用B计算所有关系预测概率。
更进一步的,利用B计算所有关系预测概率具体为:将B进行线性变换,并使用softmax函数,输出预测概率,具体计算公式如下:
o=MB+bM (16)
其中,
均为可学习参数,d
r是关系数目,o是置信度分数的向量,每个分量对应一种关系,o
r和o
k分别表示预测关系y的置信度分数和关系集R中第K个关系的置信度分数,p(y|B)表示包B对应关系y的预测概率,exp(g)为以e为底的指数函数。
以上所述的基于实体特征的远程监督关系抽取方法,从多级别语义单元出发,探索关键词语和短语的特征,同时解决特殊场景下的降噪困境,即包内仅有一个句子时,选择注意力机制失去功效。基于上述目的,本发明提出了实体引导增强特征网络(EGEFN),来捕获可靠关系特征,用于提升关系抽取效率。为了强调两个关键单词和短语,EGEFN模型通过实体引导注意力从单词和短语层面提取关系特征,并将其集成到实体表示中,获取增强实体表示。随后通过线性层,将增强实体表示生成稳健的关系向量;然后,EGEFN设计语义融合层,融合多个语义特征表示,提升模型的准确度;在稳健的关系表示的基础上,EGEFN采用关系度量聚合门来处理单句包问题,并对包进行更稳定、更鲁棒的聚合操作。
相比于现有方法,本发明率先提出了以下方法:
(1)提出了一个多级的增强实体表示模块,关注重要的单词和短语,并从这两个语义层次中提取特征,用于增强两个实体表示。此外,通过线性层将两个多级增强实体表示转化为稳健的关系表示。
(2)提出语义融合层,来整合PCNN编码的句子表示、两个增强实体表示和稳健的关系表示,以生成最终的增强句子表示。
(3)采用了关系度量聚合门作为聚合策略,获取健壮的包表示,旨在处理选择注意力中出现的单句包问题。
经在NYT-10上进行实验验证,EGEFN能抽取关键关系特征,降噪性能优于之前先进模型。
具体实施方式
以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
结合图2所示,左边为本发明的主要框架,右边是多级增强实体表示的详细结构。
基于实体特征的远程监督关系抽取方法,包括以下步骤:
S1.处理输入表示,获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量,并经过串联操作,得到输入序列X,并从X中取出初始的头实体表示和尾实体表示。
S2.头实体表示和尾实体表示并列,被视为查询向量序列,在多头注意力作用下,从目标句子中搜索最相关的单词和短语;多级增强实体表示模块提取单词和短语层面的语义特征,并利用这些特征来增强头实体表示和尾实体表示;再将增强的头实体表示和尾实体表示拼接,输入到一个线性层中,以生成稳健的关系表示r;另外,使用分段卷积神经网络获取句子表示s。
S3.使用语义融合层来整合多个语义表示,包括句子表示s、两个增强实体表示和稳健的关系表示r,生成最终健壮的句子向量
S4.关系度量聚合门利用关系表示r计算对应句子的门控向量,并进行门控池化操作,即计算门控向量与健壮的句子向量
的均值,获取包表示向量B,通过包表示向量B计算所有关系预测概率,预测概率最高的关系即为关键关系特征。
进一步的,步骤S1具体为:
对于长度为n的输入句子序列s,选用word2vec工具(word2vec工具可参见MikolovT,Chen K,Corrado G,et al.Efficient Estimation of Word Representations inVector Space[C].In Proceedings of the International Conference on LearningRepresentations,ICLR,2013,pp 1-12.),对于第i个词,其索引经word2vec映射,获取低维词嵌入向量
其中:d
w是词向量维度,得到句子嵌入向量序列
在输入信息中引入词与待抽取关系的头、尾实体距离信息,将位置距离向量化,得到两个低维位置向量
其中,v
i1表示头实体到第i个词的距离,v
i2表示尾实体到第i个词的距离,d
p是位置向量维数;结合图3举例所示,指定单词“born”与头尾实体距离分别为2、-3。
经过串联操作,统合词嵌入与位置嵌入,得到最终的输入序列X={x1,x2,...,xn},xi=[wi;vi1;vi2]∈Rd,其中d表示输入向量维度,且d=dw+2×dp。
从X中取出初始的头实体表示和尾实体表示,记作xh,xt∈Rd,其中,xh表示头实体表示,xt表示尾实体表示。
进一步的,在关系抽取中,不同的词与目标实体的关联度不同,对于短语也是如此。因此,本实施例设置了步骤S2,即图2的右边,为多级增强实体表示层的处理步骤。本发明通过计算两个实体和语义单元(即单词和短语)之间的相关性,从单词和短语层面提取语义特征。然后,将这些特征用于增强实体表示。因此,本发明提出实体引导注意力,以多头注意力为基础,来捕捉不同子空间的单词和短语的丰富的语义特征。
步骤S2具体为:
S2.1词级增强实体表示
将两个实体表示xh和xt并列,得到查询向量序列qe=[xh,xt]∈R2×d,作为缩放点积注意力中的查询Q,将单词输入序列X作为注意力机制中的键值对(K,V)。
将qe的两个向量分别与输入表示序列X的每个词逐一计算相关性,并通过相关性矩阵和所有词向量的点积,得到词级增强的实体表示,具体计算公式如下:
其中,softmax()为神经网络中的归一化指数函数,A∈R
2×n是相关度矩阵,由序列X与查询q
e运算而来;对于A的一个元素a
ij代表第j个词与第i个实体的相关度;AX表示相关性矩阵和所有词向量的点积,
表示词级增强的实体表示。
为了捕获更健壮的关系特征,本发明采用多头注意力(多头注意力可参见VaswaniA,Shazeer N,Parmar N,et al.Attention is all you need[C].In:Advances in NeuralInformation Processing Systems.2017:6000-6010.)来细化特征空间,旨在提高特征质量。图4展示了多头注意力的结构,将输入划分多头,执行h次线性变换,各将查询、键、值分成h个分量,并行执行公式(1)和(2)中的缩放点积注意力;在多头情况下,词级增强实体表示计算如下:
MultiHead(Q,K,V)=[H1;H2;...;Hh]WR (3)
Hi=Attention(QWi Q,KWi K,VWi V) (4)
其中,MultiHead()表示多头自注意力,H
1,H
2,...,H
h表示多头自注意力中的h个头,
是第i个线性变换的参数矩阵,
是缩放点乘注意力的拼接结果的参数矩阵,都是可学习的参数,[;]表示拼接运算,Attention()表示多头自注意力的缩放点积注意力函数,LayerNorm指层归一化;
表示归一化之前的词级增强的实体表示。
S2.2短语级增强实体表示
在分析句子语义时,短语是一种高效语义单元。在关系抽取背景下,句中某些短语包含重要关系信息,在局部语境下,短语级特征提供更深层次的语义信息。例如表2中的第二个句子,短语“the bodyhood home”、“who was born”以及“raised in”,表达了关键的信息,能推断实体间存在出生地关系,即/people/person/place_of_birth。为了利用短语层面的稳健关系特征,本发明使用CNN来建模句子中短语,通过实体引导注意力,以词级增强实体表示为查询,聚焦关键短语信息,将其用于增强实体表示。
S2.2.1卷积层
构建卷积输入:令xi:j=[xi:xi+1:...:xj]表示拼接向量序列,代表输入序列X的部分拼接,索引范围是[i,j];然后,定义卷积核Wc∈Rl×d,对输入X执行卷积运算,其输出为c∈Rn-l+1,cj是它的第j个元素,计算过程如下:
其中,l表示卷积的滑动窗口大小,
表示卷积算子,并对每个句子填充零向量,确保向量c维数为n,与句子长度一致;
使用f个卷积核
用于拟合特征,运算结束后得到C={c
1,c
2,...,c
f}∈R
f×n;C的每一列作为一个短语表示,且维度为f;对C转置,获得短语表示序列P=C
T={P
1,P
2,...,P
n}∈R
n×f。
S2.2.2短语级实体引导注意力层
与计算词级增强实体表示相似,以词级增强实体表示
为缩放点积注意力中的查询Q,短语序列P为缩放点积注意力中的键值对,获取不同短语与指定查询的相关度,引导模型聚焦重点短语,捕获短语级关系特征,用于增强实体表示,短语级增强实体表示
通过下面公式计算:
其中,
表示归一化之前的短语级增强实体表示,f(·)是一个线性变换,旨在转换词级增强实体表征的维度,从d变为短语表示f的大小,LayerNorm表示层归一化。
上标用wp表示短语级增强实体表示是由词级w过渡到短语级p的。
S2.2.3关系表示
使用一个线性层,转换拼接的头增强实体和尾增强实体向量,生成关系表示r∈R2f;关系表示r计算如下:
其中,Linear(g)表示一个全连接的线性层,[;]为拼接操作,Wr∈R2f×2f和br∈R2f是训练参数,r包含从关键词和短语中提取的关键关系特征;
S2.2.4分段最大池化层
使用分段卷积神经网络(Piecewise Convolutional Neural Networks,PCNN)对句子建模,对于卷积层输出C={c1,c1,...,cf}∈Rf×n,执行分段池化捕获句子结构信息;对每个卷积结果ci,以头实体和尾实体位置为分隔点,ci被切分为三部分{ci1,ci2,ci3},然后对每个分段最大池化,计算公式如下:
zi=[maxpool(cij)]i=1,2,...,f;j=1,2,3 (12)
经过池化层后,得到分段序列Z={Z1,Z2,Z3}∈R3×f,将三部分串联,经过tanh函数,获得句子表示s=tanh([Z1;Z2;Z3])∈R3f。Z1、Z2、Z3分别由公式(12)计算获得。
进一步的,本发明生成了多种语义表示,即增强实体表示
稳健的关系表示r和句子表示;增强实体表示
集成了多级关系特征,受实体引导注意力驱动,按顺序从单词到短语层级聚焦于关键语义。而关系表示不仅集成多级语义,而且融合两实体之间关联特征。为了统合所有有用特征,本发明引入了语义融合层,集成三类特征向量,旨在合成稳健的句子表示。处理过程即步骤S3。
步骤S3具体为:使用语义融合层来整合多个语义表示,生成的稳健的句子表示
计算如下:
其中,f
φ(·)为将结果向量映射到3f维度空间的线性层,ReLU为线性整流激活函数,[;]表示拼接运算;
表示两个增强实体之间的差异性,e代表逐元素相乘,
表示在每个维度上捕获两种相似性。
进一步的,前面的步骤主要集中于降噪,这些方案总体思路有两点共性,即多实例学习框架(具体可参见Riedel S,Yao L,McCallum A.Modeling relations and theirmentions without labeled text[C].In Proceedings of Joint European Conferenceon Machine Learning and Knowledge Discovery in Databases.2010:148-163.)和选择注意力机制(具体可参见Lin Y,Shen S,Liu Z,et al.Neural Relation Extraction withSelective Attention over Instances[C].In Proceedings of the 54th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2006:2124-2133.)。选择注意力是一种高效策略,指导模型倾向正确句子,抑制噪声句子特征。然而,选择注意力权重分配模式面向多个句子,当它应用于单句包时,无法发挥降噪功能。在NYT-10数据集中,约80%的包仅有一个句子。
基于上述考虑,本发明提出关系度量聚合门机制(Relation-MatchingAggregation Gate,RMAG),以多级关系特征为参考,聚合所有句子特征,生成包表示向量。关系表示由两个增强实体表示计算而来,在关系度量聚合门中,根据关系表示r计算对于句子的门控向量,然后对门控向量和句子进行Hadamard乘积,即逐元素相乘,其结果输入到平均聚合模块中,生成包向量表示。具体来说,门控向量集成了稳健的关系特征,并通过逐元素乘积,来衡量句子嵌入与其对应关系信息之间的匹配度。在获取包表示时,包内句子具有不同的贡献,关系度量聚合门通过削弱错误标注的句子的贡献,强化正确句子重要性,缓解了噪声干扰影响。当面临特殊数据形式时,即包内仅有一个句子,且该单句包是噪声包,关系度量聚合门为其生成相应的门控向量,它衡量句子表示与其对应关系信息的匹配度,动态对齐错误标注实例,极大抑制句子表示的噪声特征,最小化噪声句子的影响,防止噪声表示的传播,确保模型稳定且有效地运行。关系度量聚合门机制具体的处理步骤,即步骤S4具体为:
对含有m个句子的包B={s
1,s
2,...,s
m},经过语义融合层可获得
及其对应的关系表示集合R=[r
1,r
2,...,r
m],用前馈网络为每个句子生成门控向量g
i,具体计算如下:
gi=sigmoid(W2tanh(W1ri+b1)+b2)i=1,2,...,m (14)
其中,W1∈R3f×2f、W2∈R3f×3f是学习参数,b1和b2是偏置向量,sigmoid(g)为神经网络的激活函数,tanh(g)为双曲正切函数,ri为第i个句子的关系表示;经过上述处理,获得门控矩阵G=[g1,g2,...,gm]∈Rm×3f;
对G和
执行逐元素相乘,并对结果进行平均聚合,获取包表示向量B,具体计算如下:
利用B计算所有关系预测概率。利用B计算所有关系预测概率具体为:将B进行线性变换,并使用softmax函数,输出预测概率,预测概率最高的关系即为关键关系特征。具体计算公式如下:
o=MB+bM (16)
其中,
均为可学习参数,d
r是关系数目,o是置信度分数的向量,每个分量对应一种关系,o
r和o
k分别表示预测关系y的置信度分数和关系集R中第K个关系的置信度分数,p(y|B)表示包B对应关系y的预测概率,exp(g)为以e为底的指数函数。
试验与分析:
本实例采用NYT-10数据集,但为了验证EGEFN模型处理单句包的有效性,使用新构造的数据集进行实验。实验包括:基准对比实验、消融实验和不同比例单句包实验。通过结果分析,展示了EGEFN模型的特点,验证EGEFN模型的稳健性。
(1)实验设置
1.1数据集
本实施例使用NYT-10数据集,完成EGEFN模型的评估。NYT-10由Riedel等人(具体参见Riedel S,Yao L,McCallum A.Modeling relations and their mentions withoutlabeled text[C].In Proceedings of Joint European Conference on MachineLearning and Knowledge Discovery in Databases.2010:148-163.)开发,设计启发式规则标注数据,以Freebase关系(具体参见Bollacker K,Evans C,Paritosh P,etal.Freebase:a collaboratively created graph database for structuring humanknowledge[C].In Proceedings of the 2008ACM SIGMOD International Conference onManagement of Data.2008:1247-1250.)为监督,自动对齐纽约时报语料。NYT-10有两部分组成:训练集和测试集。前者来自2005至2006年数据,而后者来自2007年对齐部分。NYT-10有53个关系,包括52种常见关系和NA关系,NA关系是对特殊情况的综合概述,即句子中两个实体之间没有关系。表3展示了它的详细信息。经统计,NYT-10训练集中包含237,127个单句包,测试集包含74,857个单句包,两者几乎达到所有数据的80%。
表3NYT-10统计信息
1.2评价指标
参照先前工作,本实例采用Held-out方法对实验进行评估,使用三类指标:PR曲线、P@N和AUC。Held-out无需人为评估,采取自动化方式,将Freebase关系实例与模型的预测对比。
1.3参数设置
本发明大部分超参数遵循Lin等人(参见Lin Y,Shen S,Liu Z,et al.NeuralRelation Extraction with Selective Attention over Instances[C].In Proceedingsof the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2006:2124-2133.)工作,对于输入词,其向量维度为50,而位置向量维度为5。在词级增强实体表示模块,本发明设置实体引导注意力的头数为2,而在短语级增强实体表示模块中,设置实体引导注意力的头数为5。CNN卷积核为230,其窗口大小为3。批次设为50,本研究采用SGD优化器,使用动态学习率,初始学习率为0.1,在指定迭代步数衰减十分之一,设置衰减步数为10万。其次,本发明设置dropout率(参见Srivastava N,Hinton G E,Krizhevsky A,et al.Dropout:a simple way to prevent neural networksfrom overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.)为0.5。EGEFN模型的超参数详情如表4:
表4超参数设置
1.4基准模型
本实例中使用的基准模型如下:
·PCNN:引入分段最大池化到CNN,用于关系抽取任务。(参见Zeng D,Liu K,ChenY,et al.Distant Supervision for Relation Extraction via PiecewiseConvolutional Neural Networks[C].In Proceedings of the 2015Conference onEmpirical Methods in Natural Language Processing.2015:1753-1762.)
·PCNN+ATT:使用选择注意力作为PCNN的聚合方式,以生成包级别表示。(参见LinY,Shen S,Liu Z,et al.Neural Relation Extraction with Selective Attention overInstances[C].In Proceedings of the 54th Annual Meeting of the Association forComputational Linguistics(Volume 1:Long Papers).2006:2124-2133.)
·PCNN+ATT+SL:引入软标签方法解决错误标注问题。(参见Liu T,Wang K,ChangB,et al.A Soft-label Method for Noise-tolerant Distantly Supervised RelationExtraction[C].In Proceedings of the 2017Conference on Empirical Methods inNatural Language Processing.2017:1790-1795.)
·BGWA:是一个基于双向GRU的模型,同时使用单词级别和句子级别注意力。(参见Jat S,Khandelwal S,Talukdar P.Improving distantly supervised relationextraction using word and entity based attention[J].arXiv preprint arXiv:1804.06987,2018.)
·PCNN+HATT:提出层次注意力,同时利用粗粒度和细粒度的关系信息。(参见HanX,Yu P,Liu Z,et al.Hierarchical Relation Extraction with Coarse-to-FineGrained Attention[C].In Proceedings of the 2018Conference on EmpiricalMethods in Natural Language Processing.2018:2236-2245.)
·PCNN+BAG-ATT:使用包内和包间注意力对模型建模,把降噪范围从句子层面拓展到包层面。(参见Ye Z,Ling Z.Distant Supervision Relation Extraction withIntra-Bag and Inter-Bag[C].In Proceedings of the 2019Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies,Volume 1(Long and Short Papers).2019:2810-2819.)
·SeG:设计了选择门机制,主要关注单句包问题,借助特别的自注意力建模句子上下文表征,利用上下文向量来计算门控向量,最后通过平均聚合方式,获得包级别表示。注意:由于本发明无法复现SeG模型,因此仅引入SeG模型的P@N值,与本发明EGEFN模型对比。(参见Li Y,Long G,Shen T,et al.Self-Attention Enhanced Selective Gate withEntity-Aware Embedding for Distantly Supervised Relation Extraction[C].InProceedings of the AAAI Conference on Artificial Intelligence.2020:8269-8276.)
(2)结果与分析
2.1基准对比实验
如表5所示,相比与之前先进方法,本发明模型EGEFN在P@N指标中取得最好性能。在All测试设置中,EGEFN模型的平均P@N为92.9%,比PCNN和PCNN+ATT分别提升了24.2%和20.7%。EGEFN性能优于BGWA和PCNN+ATT+SL,并分别获得16.6%和10.1%的提升。上述结果表明,与基于选择注意力的方法相比,关系度量聚合门获取更好的效果,很好解决错误标注问题。PCNN+HATT和PCNN+BAG-ATT是基于选择注意力的最佳模型,与这两者相比,EGEFN仍有很大的提升,分别是12.0%和8.1%。相比于SeG,本发明模型EGEFN设计一个关系度量聚合门,该门机制是基于多级关系特征,在平均P@N上提升3.6%,由此可见,尽管NYT-10数据集中存在大量的单句包,EGEFN依旧能够获得稳定且高效的性能,并且关系判别准确性更高。
表5EGEFN与基准模型的P@N值
此外,图5为EGEFN和基准模型的PR曲线。根据曲线走势,从中可观察到:(1)BGWA和PCNN+ATT模型性能优于PCNN,这证明注意力机制的合理性,有助于消除噪声,提高抽取性能。(2)PCNN+ATT+SL比PCNN、PCNN+ATT取得更高的精确度,说明软标签方法强大的降噪能力,可以获得稳定的性能。(3)与所有基线相比,所提出的EGEFN在整个召回范围内实现了最高的精度。具体来说,EGEFN比PCNN+HATT、PCNN+BAG-ATT的表现要好很多,尤其当召回值在[0.10,0.40]区间。此外,随着召回值的增大,EGEFN的精确度稳速下降,而所有的基准模型都快速下降,这说明EGEFN可以获得显著且相对稳定的性能。
2.2消融实验
进行消融研究以证明EGEFN框架中每个模块的有效性。消融研究中使用2.1节的指标,即P@N、PR曲线和AUC。本发明报告了EGEFN的不同消融模型,具体描述如下:
EGEFN w/o word表示移除词级增强实体表示模块后的模型。
EGEFN w/o phrase表示移除短语级增强实体表示模块后的模型。
EGEFN w/o fusion表示删除EGEFN的语义融合层,只使用PCNN编码句子的模型。
EGEFN w/o gate表示用选择性注意力(PCNN+ATT)替换关系度量聚合门模型。
表6EGEFN的P@N值和AUC值
Ablations |
AUC |
100 |
200 |
300 |
mean |
EGEFN |
0.50 |
95.2 |
93.3 |
90.3 |
92.9 |
EGEFN w/o word |
0.44 |
90.0 |
84.9 |
82.4 |
85.7 |
EGEFN w/o phrase |
0.47 |
91.8 |
89.8 |
87.1 |
89.5 |
EGEFN w/o fusion |
0.45 |
91.0 |
85.9 |
80.4 |
85.7 |
EGEFN w/o gate |
0.46 |
90.2 |
87.2 |
83.0 |
86.8 |
P@N和AUC结果如表6所示,P@N使用All方案的结果。当移除词级增强实体表示模块,即EGEFN w/o word模型,或移除短语级增强实体表示模块,即EGEFN w/o phrase模型,所有句子P@N平均值分别下降7.2%和3.4%,其相应的AUC值分别为0.44和0.47,相较于EGEFN,分别降低了0.06和0.03。图6是相应的PR曲线,从中可观察到:EGEFN w/o phrase的PR曲线位于EGEFN w/o word模型上方,在整个召回范围内,EGEFN模型PR曲线囊括所有消融模型的曲线。这些结果表明,整合多级关键的关系特征可以提高关系抽取的性能,且词级别关系特征比短语级关系特征的作用更显著,两个模块之间互为补充,相互促进。移除语义融合层,即EGEFN w/o fusion模型,其P@N平均值从92.9%下降到85.7%,并且AUC值为0.45,相比EGEFN模型下降0.05,这表明与PCNN句子编码相比,本发明提出的语义融合方法产生了更强的语义表示,整合多种语义表示亦能提高关系抽取的鲁棒性。当移除关系度量聚合门(RMAG)模块,即EGEFN w/o gate模型,用选择注意力代替关系度量聚合门执行句子聚合操作,相比EGEFN模型,性能变化明显,其AUC值降为0.46,P@N平均值降至86.8%。NYT-10存在特殊噪声数据,即包内所有句子均为噪声或单句包。对于包内所有句子均为噪声,选择注意力机制产生噪声句子的加权和。对于单句包,选择注意力输出原始句子表示。但对于EGEFN模型,它的关系度量聚合门以多级增强关系特征为依据,计算相应门控向量,抑制噪声句子影响。从上述结果看,相比于选择注意力(PCNN+ATT),关系度量聚合门更能包容单句包数据,更善于处理噪声。总的来说,EGEFN模型在P@N、AUC和PR曲线均优于其他模型。
2.3案例分析
为了分析EGEFN各个模块的功能,本实施例使用EGEFN w/o FG、EGEFN w/o gate和EGEFN以五个单句包为例进行案例研究,如图7所示。需要注意的是,EGEFN w/o FG意味着移除语义融合层模块和关系度量聚合门模块,因此EGEFN w/o FG便退化为PCNN+ATT模型。
就包1、2和3而言,在没有关系度量聚合门的情况下,EGEFN w/o gate将三个包误判为NA类,然而它们的关系分别为/location/location/contains、/location/country/captital/和/people/person/nationality。另一方面,本发明提出的EGEFN模型正确预测三个包关系,由此可见,采用关系度量聚合门有利于解决单句包问题。为了验证多级稳健关系特征的有效性,通过包5来分析EGEFN w/o gate和EGEFN w/o FG。本发明发现,包5的标签为/people/person/nationality,EGEFN w/o FG预测为NA,而EGEFN w/o gate做出正确预测。与EGEFN w/o FG相比,EGEFN w/o gate使用了语义融合层模块,集成多层级关系特征。结果表明,在判别实体对的关系时,多级关系特征能提供重要关系信息。
可见,EGEFN在NYT-10上进行实验,证明EGEFN能抽取关键关系特征,降噪性能优于之前先进模型。