CN113220844B

CN113220844B - 基于实体特征的远程监督关系抽取方法

Info

Publication number: CN113220844B
Application number: CN202110569055.4A
Authority: CN
Inventors: 朱新华; 朱宇翔; 温海旭
Original assignee: Guangdong Environmental Equity Exchange Co ltd
Current assignee: Guangdong Environmental Equity Exchange Co ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2023-01-24
Anticipated expiration: 2041-05-25
Also published as: CN113220844A

Abstract

本发明提供了一种基于实体特征的远程监督关系抽取方法，提出了实体引导增强特征网络，首先采用多级增强实体表示模块，在多头注意力机制下，设计实体引导注意力，从关键词和短语中提取关系特征。具体来说，实体对被视为查询序列，在多头注意力作用下，从目标句子中搜索最相关的单词和短语，其中，多级增强实体表示模块提取单词和短语层面的语义特征，并利用这些特征来增强头实体表示和尾实体表示；再将增强的两个实体表示拼接，输入到线性层中，以生成稳健的关系表示r，接下来，本发明使用语义融合层来整合多个语义表示，包括句子表示、两个增强实体表示和关系表示，生成最终健壮的句子向量。通过本发明可捕获可靠的关系特征，提高关系抽取效率。

Description

基于实体特征的远程监督关系抽取方法

技术领域

本发明涉及自然语言处理与信息处理中的关系抽取技术领域，具体是一种基于实体特征的远程监督关系抽取方法。

背景技术

关系抽取被公认为一种从文本中提取关系的有效方法，已作为一些下游任务的辅助技术，例如知识图谱补全和问答系统。对于关系抽取任务，抽取性能取决于大规模数据，而采用手动标记方法构建成本高，耗时费力。为了满足数据需求，Mintz等人设计远程监督策略，启发式地执行知识图谱关系实例与文本的对齐操作，自动快速扩充训练数据。远程监督受强假设指导进行标注，如果知识库存在(e₁,r,e₂)三元组，则所有标注实体对(e₁,e₂)的句子均表达关系r。然而，标记过程忽略实体上下文语境，仅依靠实体对相同这一条件，假设宽泛而不严谨，因此远程监督必定产生噪声。图1描述远程监督标注过程，从中可见，句子S1和S2含有相同实体对，即“Barack Obama”和“United States”，由知识库对齐后赋予两个句子/people/person/place_of_birth关系。然而经人工检查，句子S2并未表达对应的知识库关系，其正确关系是president_of，因此S2便成为噪声句子。

多实例学习是由Rediel等人提出，用于减少噪声标签。其主要思想是：训练集被分成多个包，每个包汇集含有相同实体对的句子，关系标签被赋予包，等价于包内实体对的关系。以往工作致力于解决噪声，并且依赖两个重要算法：多实例学习和选择注意力，在两者的协助下，引导模型关注包中的正确句子。但选择性注意力忽略了特殊情况，即包内仅有一个句子，本发明将此类包称作单句包。鉴于远程监督存在噪声问题，部分单句包会被错误标注。以基准数据集NYT-10为例，其数据单位为包，约80％数据均为单句包，几乎占据大半部分的比重。表1列出了三个单句包，它们标签为/people/person/place_lived，对三个包的关系进行校准，前两个包的标签是正确的，与实际表达关系相符，而第三个包表达的关系并非其标签。选择性注意力是一种权衡策略，自动突出有效句子的贡献，赋予噪声句子低权重，汇聚包内句子信息并弱化噪声侵扰。当面对单句包时，选择性注意力形同虚设，失去降噪功能，只能输出原始句子表示。本发明将上述现象定义为单句包问题。

表1单句包例子

因此，Li等人设计了一种门机制，来解决困扰选择性注意力的单句袋问题，以上下文特征计算门控向量，门控向量与相应句子的平均聚合获得包表示。然而，这种门机制并没有利用关键词和短语所包含的强大关系特征。如表2所示，在句子中，只有少数几个词可以提供重要信息，这些信息与关系分类密切关联，并且一些关键短语往往表示关系的显性或隐性相关信息。以第二句为例，头尾实体分别为“Richard Devos”和“Amway”，在预测两实体的关系/business/company/founders时，“founder”一词和短语“a founder of”表达了明显的关系信息。对关键词和短语的重点关注，既提升特征提取效率，又可弱化无关语义的影响。

表2句子中的关键词和短语

基于上述观察，如何利用关键词和短语来提升提取效率，成为本发明关注的重点。

发明内容

本发明提供了一种基于实体特征的远程监督关系抽取方法，提出了实体引导增强特征网络(Entity-Guided Enhancement Feature Network,EGEFN)，以捕获可靠的关系特征，提高关系抽取效率。

本发明首先采用多级增强实体表示模块，在多头注意力机制0下，设计实体引导注意力，从关键词和短语中提取关系特征。具体来说，实体对被视为查询序列，在多头注意力作用下，从目标句子中搜索最相关的单词和短语，其中，多级增强实体表示模块提取单词和短语层面的语义特征，并利用这些特征来增强头实体表示和尾实体表示；再将增强的头实体表示和尾实体表示拼接，输入到一个线性层中，以生成稳健的关系表示r。接下来，本发明使用语义融合层来整合多个语义表示，包括由PCNN编码的句子表示、两个增强实体表示和关系表示，生成最终健壮的句子向量。不同于Li等人简单利用上下文表示设计门机制，本发明关注的是重要词和短语所捕捉的关键关系特征，在此基础上，本发明提出了一种关系度量聚合门(Relation-Measured Aggregation Gate,RMAG)，在由两个增强实体表示计算的关系表示基础上，将所有句子表示聚合成包表示，利用包表示来判别关系类型，从而克服选择注意力中存在的单句包问题。

为实现上述目的，本发明的技术方案为：

基于实体特征的远程监督关系抽取方法，包括以下步骤：

S1.处理输入表示，获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量，并经过串联操作，得到输入序列X，并从X中取出初始的头实体表示和尾实体表示；

S2.头实体表示和尾实体表示并列，被视为查询向量序列，在多头注意力作用下，从目标句子中搜索最相关的单词和短语；多级增强实体表示模块提取单词和短语层面的语义特征，并利用这些特征来增强头实体表示和尾实体表示；再将增强的头实体表示和尾实体表示拼接，输入到一个线性层中，以生成稳健的关系表示r；另外，使用分段卷积神经网络获取句子表示s；

S3.使用语义融合层来整合多个语义表示，包括句子表示s、两个增强实体表示和稳健的关系表示r，生成最终健壮的句子向量

S4.关系度量聚合门利用关系表示r计算对应句子的门控向量，并进行门控池化操作，即计算门控向量与健壮的句子向量

的均值，获取包表示向量B，通过包表示向量B计算所有关系预测概率，预测概率最高的关系即为关键关系特征。

进一步的，所述步骤S1具体为：

对于长度为n的输入句子序列s，选用word2vec工具，对于第i个词，其索引经word2vec映射，获取低维词嵌入向量

其中：d_w是词向量维度，得到句子嵌入向量序列

在输入信息中引入词与待抽取关系的头、尾实体距离信息，将位置距离向量化，得到两个低维位置向量

其中，v_i1表示头实体到第i个词的距离，v_i2表示尾实体到第i个词的距离，d_p是位置向量维数；

经过串联操作，统合词嵌入与位置嵌入，得到最终的输入序列X＝{x₁,x₂,...,x_n}，x_i＝[w_i；v_i1；v_i2]∈R^d，其中d表示输入向量维度，且d＝d_w+2×d_p；

从X中取出初始的头实体表示和尾实体表示，记作x_h,x_t∈R^d，其中，x_h表示头实体表示，x_t表示尾实体表示。

进一步的，所述步骤S2具体为：

S2.1词级增强实体表示

将x_h和x_t并列，得到查询向量序列q_e＝[x_h,x_t]∈R^2×d，作为缩放点积注意力中的查询Q，将单词输入序列X作为注意力机制中的键值对(K,V)；

将q_e的两个向量分别与输入表示序列X的每个词逐一计算相关性，并通过相关性矩阵和所有词向量的点积，得到词级增强的实体表示，具体计算公式如下：

其中，softmax()为神经网络中的归一化指数函数，A∈R^2×n是相关度矩阵，由序列X与查询q_e运算而来；对于A的一个元素a_ij代表第j个词与第i个实体的相关度；AX表示相关性矩阵和所有词向量的点积，

表示词级增强的实体表示；

将输入划分多头，执行h次线性变换，各将查询、键、值分成h个分量，并行执行公式(1)和(2)中的缩放点积注意力；在多头情况下，词级增强实体表示计算如下：

MultiHead(Q,K,V)＝[H₁；H₂；...；H_h]W^R (3)

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

其中，MultiHead()表示多头自注意力，H₁,H₂,...,H_h表示多头自注意力中的h个头，

是第i个线性变换的参数矩阵，

是缩放点乘注意力的拼接结果的参数矩阵，都是可学习的参数，[；]表示拼接运算，Attention()表示多头自注意力的缩放点积注意力函数，LayerNorm指层归一化；

表示归一化之前的词级增强的实体表示；

S2.2短语级增强实体表示

S2.2.1卷积层

构建卷积输入：令x_i:j＝[x_i:x_i+1:...:x_j]表示拼接向量序列，代表输入序列X的部分拼接，索引范围是[i,j]；然后，定义卷积核W^c∈R^l×d，对输入X执行卷积运算，其输出为c∈R^n-l+1，c_j是它的第j个元素，计算过程如下：

其中，l表示卷积的滑动窗口大小，

表示卷积算子，并对每个句子填充零向量，确保向量c维数为n，与句子长度一致；

使用f个卷积核

用于拟合特征，运算结束后得到C＝{c₁,c₂,...,c_f}∈R^f×n；C的每一列作为一个短语表示，且维度为f；对C转置，获得短语表示序列P＝C^T＝{P₁,P₂,...,P_n}∈R^n×f。

S2.2.2短语级实体引导注意力层

以词级增强实体表示

为缩放点积注意力中的查询Q，短语序列P为缩放点积注意力中的键值对，获取不同短语与指定查询的相关度，引导模型聚焦重点短语，捕获短语级关系特征，用于增强实体表示，短语级增强实体表示

通过下面公式计算：

其中，

表示归一化之前的短语级增强实体表示，f(·)是一个线性变换，旨在转换词级增强实体表征的维度，从d变为短语表示f的大小，LayerNorm表示层归一化；

S2.2.3关系表示

使用一个线性层，转换拼接的头增强实体和尾增强实体向量，生成关系表示r∈R^2f；关系表示r计算如下：

其中，Linear(g)表示一个全连接的线性层，[；]为拼接操作，W^r∈R^2f×2f和b^r∈R^2f是训练参数，r包含从关键词和短语中提取的关键关系特征；

S2.2.4分段最大池化层

使用分段卷积神经网络对句子建模，对于卷积层输出C＝{c₁,c₁,...,c_f}∈R^f×n，执行分段池化捕获句子结构信息；对每个卷积结果c_i，以头实体和尾实体位置为分隔点，c_i被切分为三部分{c_i1,c_i2,c_i3}，然后对每个分段最大池化，计算公式如下：

z_i＝[maxpool(c_ij)]i＝1,2,...,f；j＝1,2,3 (12)

经过池化层后，得到分段序列Z＝{Z₁,Z₂,Z₃}∈R^3×f，将三部分串联，经过tanh函数，获得句子表示s＝tanh([Z₁；Z₂；Z₃])∈R^3f。

进一步的，所述步骤S3具体为：使用语义融合层来整合多个语义表示，生成的稳健的句子表示

计算如下：

其中，f_φ(·)为将结果向量映射到3f维度空间的线性层，ReLU为线性整流激活函数，[；]表示拼接运算；

表示两个增强实体之间的差异性，e代表逐元素相乘，

表示在每个维度上捕获两种相似性。

进一步的，对含有m个句子的包B＝{s₁,s₂,...,s_m}，经过语义融合层可获得

及其对应的关系表示集合R＝[r₁,r₂,...,r_m]，用前馈网络为每个句子生成门控向量g_i，具体计算如下：

g_i＝sigmoid(W₂tanh(W₁r_i+b₁)+b₂)i＝1,2,...,m (14)

其中，W₁∈R^3f×2f、W₂∈R^3f×3f是学习参数，b₁和b₂是偏置向量，sigmoid(g)为神经网络的激活函数，tanh(g)为双曲正切函数，r_i为第i个句子的关系表示；经过上述处理，获得门控矩阵G＝[g₁,g₂,...,g_m]∈R^m×3f；

对G和

执行逐元素相乘，并对结果进行平均聚合，获取包表示向量B，具体计算如下：

利用B计算所有关系预测概率。

更进一步的，利用B计算所有关系预测概率具体为：将B进行线性变换，并使用softmax函数，输出预测概率，具体计算公式如下：

o＝MB+b_M (16)

其中，

均为可学习参数，d_r是关系数目，o是置信度分数的向量，每个分量对应一种关系，o_r和o_k分别表示预测关系y的置信度分数和关系集R中第K个关系的置信度分数，p(y|B)表示包B对应关系y的预测概率，exp(g)为以e为底的指数函数。

以上所述的基于实体特征的远程监督关系抽取方法，从多级别语义单元出发，探索关键词语和短语的特征，同时解决特殊场景下的降噪困境，即包内仅有一个句子时，选择注意力机制失去功效。基于上述目的，本发明提出了实体引导增强特征网络(EGEFN)，来捕获可靠关系特征，用于提升关系抽取效率。为了强调两个关键单词和短语，EGEFN模型通过实体引导注意力从单词和短语层面提取关系特征，并将其集成到实体表示中，获取增强实体表示。随后通过线性层，将增强实体表示生成稳健的关系向量；然后，EGEFN设计语义融合层，融合多个语义特征表示，提升模型的准确度；在稳健的关系表示的基础上，EGEFN采用关系度量聚合门来处理单句包问题，并对包进行更稳定、更鲁棒的聚合操作。

相比于现有方法，本发明率先提出了以下方法：

(1)提出了一个多级的增强实体表示模块，关注重要的单词和短语，并从这两个语义层次中提取特征，用于增强两个实体表示。此外，通过线性层将两个多级增强实体表示转化为稳健的关系表示。

(2)提出语义融合层，来整合PCNN编码的句子表示、两个增强实体表示和稳健的关系表示，以生成最终的增强句子表示。

(3)采用了关系度量聚合门作为聚合策略，获取健壮的包表示，旨在处理选择注意力中出现的单句包问题。

经在NYT-10上进行实验验证，EGEFN能抽取关键关系特征，降噪性能优于之前先进模型。

附图说明

图1是远程监督标记例子示意图。

图2是本发明(EGEFN)的流程示意图。

图3是相对位置的计算示意图。

图4是多头注意力结构示意图。

图5是EGEFN与基线模型的PR曲线图。

图6是消融实验各种模型的PR曲线图。

图7是五个单句包的案例分析。

具体实施方式

以下结合具体实施例对本发明作进一步说明，但本发明的保护范围不限于以下实施例。

结合图2所示，左边为本发明的主要框架，右边是多级增强实体表示的详细结构。

基于实体特征的远程监督关系抽取方法，包括以下步骤：

S1.处理输入表示，获取输入句子序列中第i个词的低维词嵌入向量、低维位置向量，并经过串联操作，得到输入序列X，并从X中取出初始的头实体表示和尾实体表示。

S2.头实体表示和尾实体表示并列，被视为查询向量序列，在多头注意力作用下，从目标句子中搜索最相关的单词和短语；多级增强实体表示模块提取单词和短语层面的语义特征，并利用这些特征来增强头实体表示和尾实体表示；再将增强的头实体表示和尾实体表示拼接，输入到一个线性层中，以生成稳健的关系表示r；另外，使用分段卷积神经网络获取句子表示s。

进一步的，步骤S1具体为：

对于长度为n的输入句子序列s，选用word2vec工具(word2vec工具可参见MikolovT,Chen K,Corrado G,et al.Efficient Estimation of Word Representations inVector Space[C].In Proceedings of the International Conference on LearningRepresentations,ICLR,2013,pp 1-12.)，对于第i个词，其索引经word2vec映射，获取低维词嵌入向量

其中：d_w是词向量维度，得到句子嵌入向量序列

其中，v_i1表示头实体到第i个词的距离，v_i2表示尾实体到第i个词的距离，d_p是位置向量维数；结合图3举例所示，指定单词“born”与头尾实体距离分别为2、-3。

经过串联操作，统合词嵌入与位置嵌入，得到最终的输入序列X＝{x₁,x₂,...,x_n}，x_i＝[w_i；v_i1；v_i2]∈R^d，其中d表示输入向量维度，且d＝d_w+2×d_p。

进一步的，在关系抽取中，不同的词与目标实体的关联度不同，对于短语也是如此。因此，本实施例设置了步骤S2，即图2的右边，为多级增强实体表示层的处理步骤。本发明通过计算两个实体和语义单元(即单词和短语)之间的相关性，从单词和短语层面提取语义特征。然后，将这些特征用于增强实体表示。因此，本发明提出实体引导注意力，以多头注意力为基础，来捕捉不同子空间的单词和短语的丰富的语义特征。

步骤S2具体为：

S2.1词级增强实体表示

将两个实体表示x_h和x_t并列，得到查询向量序列q_e＝[x_h,x_t]∈R^2×d，作为缩放点积注意力中的查询Q，将单词输入序列X作为注意力机制中的键值对(K,V)。

表示词级增强的实体表示。

为了捕获更健壮的关系特征，本发明采用多头注意力(多头注意力可参见VaswaniA,Shazeer N,Parmar N,et al.Attention is all you need[C].In:Advances in NeuralInformation Processing Systems.2017:6000-6010.)来细化特征空间，旨在提高特征质量。图4展示了多头注意力的结构，将输入划分多头，执行h次线性变换，各将查询、键、值分成h个分量，并行执行公式(1)和(2)中的缩放点积注意力；在多头情况下，词级增强实体表示计算如下：

MultiHead(Q,K,V)＝[H₁；H₂；...；H_h]W^R (3)

H_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (4)

是第i个线性变换的参数矩阵，

表示归一化之前的词级增强的实体表示。

S2.2短语级增强实体表示

在分析句子语义时，短语是一种高效语义单元。在关系抽取背景下，句中某些短语包含重要关系信息，在局部语境下，短语级特征提供更深层次的语义信息。例如表2中的第二个句子，短语“the bodyhood home”、“who was born”以及“raised in”，表达了关键的信息，能推断实体间存在出生地关系，即/people/person/place_of_birth。为了利用短语层面的稳健关系特征，本发明使用CNN来建模句子中短语，通过实体引导注意力，以词级增强实体表示为查询，聚焦关键短语信息，将其用于增强实体表示。

S2.2.1卷积层

其中，l表示卷积的滑动窗口大小，

使用f个卷积核

S2.2.2短语级实体引导注意力层

与计算词级增强实体表示相似，以词级增强实体表示

通过下面公式计算：

其中，

表示归一化之前的短语级增强实体表示，f(·)是一个线性变换，旨在转换词级增强实体表征的维度，从d变为短语表示f的大小，LayerNorm表示层归一化。

上标用wp表示短语级增强实体表示是由词级w过渡到短语级p的。

S2.2.3关系表示

S2.2.4分段最大池化层

使用分段卷积神经网络(Piecewise Convolutional Neural Networks,PCNN)对句子建模，对于卷积层输出C＝{c₁,c₁,...,c_f}∈R^f×n，执行分段池化捕获句子结构信息；对每个卷积结果c_i，以头实体和尾实体位置为分隔点，c_i被切分为三部分{c_i1,c_i2,c_i3}，然后对每个分段最大池化，计算公式如下：

z_i＝[maxpool(c_ij)]i＝1,2,...,f；j＝1,2,3 (12)

经过池化层后，得到分段序列Z＝{Z₁,Z₂,Z₃}∈R^3×f，将三部分串联，经过tanh函数，获得句子表示s＝tanh([Z₁；Z₂；Z₃])∈R^3f。Z₁、Z₂、Z₃分别由公式(12)计算获得。

进一步的，本发明生成了多种语义表示，即增强实体表示

稳健的关系表示r和句子表示；增强实体表示

集成了多级关系特征，受实体引导注意力驱动，按顺序从单词到短语层级聚焦于关键语义。而关系表示不仅集成多级语义，而且融合两实体之间关联特征。为了统合所有有用特征，本发明引入了语义融合层，集成三类特征向量，旨在合成稳健的句子表示。处理过程即步骤S3。

步骤S3具体为：使用语义融合层来整合多个语义表示，生成的稳健的句子表示

计算如下：

表示两个增强实体之间的差异性，e代表逐元素相乘，

表示在每个维度上捕获两种相似性。

进一步的，前面的步骤主要集中于降噪，这些方案总体思路有两点共性，即多实例学习框架(具体可参见Riedel S,Yao L,McCallum A.Modeling relations and theirmentions without labeled text[C].In Proceedings of Joint European Conferenceon Machine Learning and Knowledge Discovery in Databases.2010:148-163.)和选择注意力机制(具体可参见Lin Y,Shen S,Liu Z,et al.Neural Relation Extraction withSelective Attention over Instances[C].In Proceedings of the 54th AnnualMeeting of the Association for Computational Linguistics(Volume 1:LongPapers).2006:2124-2133.)。选择注意力是一种高效策略，指导模型倾向正确句子，抑制噪声句子特征。然而，选择注意力权重分配模式面向多个句子，当它应用于单句包时，无法发挥降噪功能。在NYT-10数据集中，约80％的包仅有一个句子。

基于上述考虑，本发明提出关系度量聚合门机制(Relation-MatchingAggregation Gate，RMAG)，以多级关系特征为参考，聚合所有句子特征，生成包表示向量。关系表示由两个增强实体表示计算而来，在关系度量聚合门中，根据关系表示r计算对于句子的门控向量，然后对门控向量和句子进行Hadamard乘积，即逐元素相乘，其结果输入到平均聚合模块中，生成包向量表示。具体来说，门控向量集成了稳健的关系特征，并通过逐元素乘积，来衡量句子嵌入与其对应关系信息之间的匹配度。在获取包表示时，包内句子具有不同的贡献，关系度量聚合门通过削弱错误标注的句子的贡献，强化正确句子重要性，缓解了噪声干扰影响。当面临特殊数据形式时，即包内仅有一个句子，且该单句包是噪声包，关系度量聚合门为其生成相应的门控向量，它衡量句子表示与其对应关系信息的匹配度，动态对齐错误标注实例，极大抑制句子表示的噪声特征，最小化噪声句子的影响，防止噪声表示的传播，确保模型稳定且有效地运行。关系度量聚合门机制具体的处理步骤，即步骤S4具体为：

对含有m个句子的包B＝{s₁,s₂,...,s_m}，经过语义融合层可获得

g_i＝sigmoid(W₂tanh(W₁r_i+b₁)+b₂)i＝1,2,...,m (14)

对G和

利用B计算所有关系预测概率。利用B计算所有关系预测概率具体为：将B进行线性变换，并使用softmax函数，输出预测概率，预测概率最高的关系即为关键关系特征。具体计算公式如下：

o＝MB+b_M (16)

其中，

试验与分析：

本实例采用NYT-10数据集，但为了验证EGEFN模型处理单句包的有效性，使用新构造的数据集进行实验。实验包括：基准对比实验、消融实验和不同比例单句包实验。通过结果分析，展示了EGEFN模型的特点，验证EGEFN模型的稳健性。

(1)实验设置

1.1数据集

本实施例使用NYT-10数据集，完成EGEFN模型的评估。NYT-10由Riedel等人(具体参见Riedel S,Yao L,McCallum A.Modeling relations and their mentions withoutlabeled text[C].In Proceedings of Joint European Conference on MachineLearning and Knowledge Discovery in Databases.2010:148-163.)开发，设计启发式规则标注数据，以Freebase关系(具体参见Bollacker K,Evans C,Paritosh P,etal.Freebase:a collaboratively created graph database for structuring humanknowledge[C].In Proceedings of the 2008ACM SIGMOD International Conference onManagement of Data.2008:1247-1250.)为监督，自动对齐纽约时报语料。NYT-10有两部分组成：训练集和测试集。前者来自2005至2006年数据，而后者来自2007年对齐部分。NYT-10有53个关系，包括52种常见关系和NA关系，NA关系是对特殊情况的综合概述，即句子中两个实体之间没有关系。表3展示了它的详细信息。经统计，NYT-10训练集中包含237,127个单句包，测试集包含74,857个单句包，两者几乎达到所有数据的80％。

表3NYT-10统计信息

1.2评价指标

参照先前工作，本实例采用Held-out方法对实验进行评估，使用三类指标：PR曲线、P@N和AUC。Held-out无需人为评估，采取自动化方式，将Freebase关系实例与模型的预测对比。

1.3参数设置

本发明大部分超参数遵循Lin等人(参见Lin Y,Shen S,Liu Z,et al.NeuralRelation Extraction with Selective Attention over Instances[C].In Proceedingsof the 54th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2006:2124-2133.)工作，对于输入词，其向量维度为50，而位置向量维度为5。在词级增强实体表示模块，本发明设置实体引导注意力的头数为2，而在短语级增强实体表示模块中，设置实体引导注意力的头数为5。CNN卷积核为230，其窗口大小为3。批次设为50，本研究采用SGD优化器，使用动态学习率，初始学习率为0.1，在指定迭代步数衰减十分之一，设置衰减步数为10万。其次，本发明设置dropout率(参见Srivastava N,Hinton G E,Krizhevsky A,et al.Dropout:a simple way to prevent neural networksfrom overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.)为0.5。EGEFN模型的超参数详情如表4：

表4超参数设置

1.4基准模型

本实例中使用的基准模型如下：

·PCNN：引入分段最大池化到CNN，用于关系抽取任务。(参见Zeng D,Liu K,ChenY,et al.Distant Supervision for Relation Extraction via PiecewiseConvolutional Neural Networks[C].In Proceedings of the 2015Conference onEmpirical Methods in Natural Language Processing.2015:1753-1762.)

·PCNN+ATT：使用选择注意力作为PCNN的聚合方式，以生成包级别表示。(参见LinY,Shen S,Liu Z,et al.Neural Relation Extraction with Selective Attention overInstances[C].In Proceedings of the 54th Annual Meeting of the Association forComputational Linguistics(Volume 1:Long Papers).2006:2124-2133.)

·PCNN+ATT+SL：引入软标签方法解决错误标注问题。(参见Liu T,Wang K,ChangB,et al.A Soft-label Method for Noise-tolerant Distantly Supervised RelationExtraction[C].In Proceedings of the 2017Conference on Empirical Methods inNatural Language Processing.2017:1790-1795.)

·BGWA：是一个基于双向GRU的模型，同时使用单词级别和句子级别注意力。(参见Jat S,Khandelwal S,Talukdar P.Improving distantly supervised relationextraction using word and entity based attention[J].arXiv preprint arXiv:1804.06987,2018.)

·PCNN+HATT：提出层次注意力，同时利用粗粒度和细粒度的关系信息。(参见HanX,Yu P,Liu Z,et al.Hierarchical Relation Extraction with Coarse-to-FineGrained Attention[C].In Proceedings of the 2018Conference on EmpiricalMethods in Natural Language Processing.2018:2236-2245.)

·PCNN+BAG-ATT：使用包内和包间注意力对模型建模，把降噪范围从句子层面拓展到包层面。(参见Ye Z,Ling Z.Distant Supervision Relation Extraction withIntra-Bag and Inter-Bag[C].In Proceedings of the 2019Conference of the NorthAmerican Chapter of the Association for Computational Linguistics:HumanLanguage Technologies,Volume 1(Long and Short Papers).2019:2810-2819.)

·SeG：设计了选择门机制，主要关注单句包问题，借助特别的自注意力建模句子上下文表征，利用上下文向量来计算门控向量，最后通过平均聚合方式，获得包级别表示。注意：由于本发明无法复现SeG模型，因此仅引入SeG模型的P@N值，与本发明EGEFN模型对比。(参见Li Y,Long G,Shen T,et al.Self-Attention Enhanced Selective Gate withEntity-Aware Embedding for Distantly Supervised Relation Extraction[C].InProceedings of the AAAI Conference on Artificial Intelligence.2020:8269-8276.)

(2)结果与分析

2.1基准对比实验

如表5所示，相比与之前先进方法，本发明模型EGEFN在P@N指标中取得最好性能。在All测试设置中，EGEFN模型的平均P@N为92.9％，比PCNN和PCNN+ATT分别提升了24.2％和20.7％。EGEFN性能优于BGWA和PCNN+ATT+SL，并分别获得16.6％和10.1％的提升。上述结果表明，与基于选择注意力的方法相比，关系度量聚合门获取更好的效果，很好解决错误标注问题。PCNN+HATT和PCNN+BAG-ATT是基于选择注意力的最佳模型，与这两者相比，EGEFN仍有很大的提升，分别是12.0％和8.1％。相比于SeG，本发明模型EGEFN设计一个关系度量聚合门，该门机制是基于多级关系特征，在平均P@N上提升3.6％，由此可见，尽管NYT-10数据集中存在大量的单句包，EGEFN依旧能够获得稳定且高效的性能，并且关系判别准确性更高。

表5EGEFN与基准模型的P@N值

此外，图5为EGEFN和基准模型的PR曲线。根据曲线走势，从中可观察到：(1)BGWA和PCNN+ATT模型性能优于PCNN，这证明注意力机制的合理性，有助于消除噪声，提高抽取性能。(2)PCNN+ATT+SL比PCNN、PCNN+ATT取得更高的精确度，说明软标签方法强大的降噪能力，可以获得稳定的性能。(3)与所有基线相比，所提出的EGEFN在整个召回范围内实现了最高的精度。具体来说，EGEFN比PCNN+HATT、PCNN+BAG-ATT的表现要好很多，尤其当召回值在[0.10,0.40]区间。此外，随着召回值的增大，EGEFN的精确度稳速下降，而所有的基准模型都快速下降，这说明EGEFN可以获得显著且相对稳定的性能。

2.2消融实验

进行消融研究以证明EGEFN框架中每个模块的有效性。消融研究中使用2.1节的指标，即P@N、PR曲线和AUC。本发明报告了EGEFN的不同消融模型，具体描述如下：

EGEFN w/o word表示移除词级增强实体表示模块后的模型。

EGEFN w/o phrase表示移除短语级增强实体表示模块后的模型。

EGEFN w/o fusion表示删除EGEFN的语义融合层，只使用PCNN编码句子的模型。

EGEFN w/o gate表示用选择性注意力(PCNN+ATT)替换关系度量聚合门模型。

表6EGEFN的P@N值和AUC值

Ablations	AUC	100	200	300	mean
						EGEFN	0.50	95.2	93.3	90.3	92.9
EGEFN w/o word	0.44	90.0	84.9	82.4	85.7
						EGEFN w/o phrase	0.47	91.8	89.8	87.1	89.5
EGEFN w/o fusion	0.45	91.0	85.9	80.4	85.7
						EGEFN w/o gate	0.46	90.2	87.2	83.0	86.8

P@N和AUC结果如表6所示，P@N使用All方案的结果。当移除词级增强实体表示模块，即EGEFN w/o word模型，或移除短语级增强实体表示模块，即EGEFN w/o phrase模型，所有句子P@N平均值分别下降7.2％和3.4％，其相应的AUC值分别为0.44和0.47，相较于EGEFN，分别降低了0.06和0.03。图6是相应的PR曲线，从中可观察到：EGEFN w/o phrase的PR曲线位于EGEFN w/o word模型上方，在整个召回范围内，EGEFN模型PR曲线囊括所有消融模型的曲线。这些结果表明，整合多级关键的关系特征可以提高关系抽取的性能，且词级别关系特征比短语级关系特征的作用更显著，两个模块之间互为补充，相互促进。移除语义融合层，即EGEFN w/o fusion模型，其P@N平均值从92.9％下降到85.7％，并且AUC值为0.45，相比EGEFN模型下降0.05，这表明与PCNN句子编码相比，本发明提出的语义融合方法产生了更强的语义表示，整合多种语义表示亦能提高关系抽取的鲁棒性。当移除关系度量聚合门(RMAG)模块，即EGEFN w/o gate模型，用选择注意力代替关系度量聚合门执行句子聚合操作，相比EGEFN模型，性能变化明显，其AUC值降为0.46，P@N平均值降至86.8％。NYT-10存在特殊噪声数据，即包内所有句子均为噪声或单句包。对于包内所有句子均为噪声，选择注意力机制产生噪声句子的加权和。对于单句包，选择注意力输出原始句子表示。但对于EGEFN模型，它的关系度量聚合门以多级增强关系特征为依据，计算相应门控向量，抑制噪声句子影响。从上述结果看，相比于选择注意力(PCNN+ATT)，关系度量聚合门更能包容单句包数据，更善于处理噪声。总的来说，EGEFN模型在P@N、AUC和PR曲线均优于其他模型。

2.3案例分析

为了分析EGEFN各个模块的功能，本实施例使用EGEFN w/o FG、EGEFN w/o gate和EGEFN以五个单句包为例进行案例研究，如图7所示。需要注意的是，EGEFN w/o FG意味着移除语义融合层模块和关系度量聚合门模块，因此EGEFN w/o FG便退化为PCNN+ATT模型。

就包1、2和3而言，在没有关系度量聚合门的情况下，EGEFN w/o gate将三个包误判为NA类，然而它们的关系分别为/location/location/contains、/location/country/captital/和/people/person/nationality。另一方面，本发明提出的EGEFN模型正确预测三个包关系，由此可见，采用关系度量聚合门有利于解决单句包问题。为了验证多级稳健关系特征的有效性，通过包5来分析EGEFN w/o gate和EGEFN w/o FG。本发明发现，包5的标签为/people/person/nationality，EGEFN w/o FG预测为NA，而EGEFN w/o gate做出正确预测。与EGEFN w/o FG相比，EGEFN w/o gate使用了语义融合层模块，集成多层级关系特征。结果表明，在判别实体对的关系时，多级关系特征能提供重要关系信息。

可见，EGEFN在NYT-10上进行实验，证明EGEFN能抽取关键关系特征，降噪性能优于之前先进模型。