CN116151243A

CN116151243A - 一种基于类型相关性表征的实体关系抽取方法

Info

Publication number: CN116151243A
Application number: CN202310440409.4A
Authority: CN
Inventors: 相艳; 郭俊辰; 刘威; 郭军军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-05-23
Anticipated expiration: 2043-04-23
Also published as: CN116151243B

Abstract

本发明提供一种基于类型相关性表征的实体关系抽取方法，属于人工智能语言处理领域。实体关系抽取通常采用深度学习的方法选取特征，在不同领域进行实体关系抽取时，通常没能考虑到主体和客体实体的类型相关性对关系抽取的帮助。在此提出了一种基于类型相关性表征的实体关系抽取方法，该方法使用实体标签和位置嵌入来增强字符的信息，使用注意力控机制来融合实体局部上下文表征，并通过实体类型－类型关系指导关系抽取的方法。医学领域数据集CMeIE和文学领域SanWen数据集实验结果表明,本发明提出的基于类型相关性表征的实体关系抽取方法是有效的。

Description

一种基于类型相关性表征的实体关系抽取方法

技术领域

本发明提供一种基于类型相关性表征的实体关系抽取方法，属于语言处理技术领域。

背景技术

深度神经网络可以自动地从领域文本中提取特征，而且只需要很少或者甚至不需要进行任何特征工程。即使没有人工干预，该模型仍然能够保持较高的准确性和稳定性。这种自动特征提取的能力是深度神经网络在自然语言处理任务中优秀表现的关键之一，使其在许多领域都有着广泛的应用。所以关系抽取任务主流的方法也是使用深度学习。

近年来，Zhao等人提出了一种双阶段句法CNN模型，该模型结合了词向量和多种外部特征，包括句法信息、位置和词性等。出了一种改进的二叉树LSTM模型，该模型通过结合词向量与位置、句法信息等特征来为药物相互作用关系的分类提供了多重特征。Park等人考虑到了输入文本数据的上下文语境信息和空间结构信息，针对这一特点，他们提出了一种名为AGCN的注意力图卷积神经网络模型。该模型采用了注意力机制，并设计了一种新的剪枝策略，用于捕获句法特征中的重要信息。Chen在20年提出了关系抽取流水线模型,最后的结论是，使用单独的编码器，可以让模型学习更好的特定任务特征，并且引入实体类别信息会关系模型有提升。Ye等人在Chen的模型基础上进行了改进，并提出了一种新的跨度表示方法。该方法在编码器中采用了面向邻域的布局，综合考虑了邻域跨度的特征，以更好地对实体边界信息进行建模。同时，该方法还通过对token的包装方式考虑跨度之间的相互关系。目前中文医学文本关系抽取方法仍有一些不足：1. 对于一些现有的先进的模型和baseline，对于实体名称及类型，实体类型贡献更大而很少关注。2. 句子中的实体对于字符的相对位置和绝对位置都对关系抽取有影响，现有研究有些不足。3. 主体实体和客体实体的类型之间也有很强的相关性，现有研究没有关注利用此信息。

发明内容

针对上述提到的不足，本发明提出了并实现了一种基于类型相关性表征的实体关系抽取方法；提升了实体关系抽取的性能。

本发明的技术方案是：所述抽取方法的步骤如下：

Step1、对数据集进行预处理：将带有实体类型及主体实体和客体实体的标记插入到数据集中，得到带有实体类型及主体实体和客体实体标记的数据集；

所述Step1中包括如下内容：关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型，在每一句中插入键入的标记；具体来说，将给定的一个句子

, 和一对主体实体/>

和客体实体/>

以及它们的类型/>

, />

，然后将文本标记符<S: />

>和</S: />

>插入到句子S中对应的主体实体间，将文本标记符<O: />

>和</O: />

>插入到句子S中对应的客体实体间。

Step2、获取字符嵌入：将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量，通过密集向量获取字符嵌入；

所述Step2中包括如下内容：采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征，这种表征通常蕴含了字符的上下文信息，即也是一种字符粒度的局部信息；然后使用word2vec模型预训练字符嵌入查找表

来获得字符嵌入。

Step3、获取输入字符表征：将步骤Step2得到的字符嵌入与位置向量进行联合嵌入，得到输入字符的表征；

所述Step3中包括如下内容：在Step3中分别计算第i个字符相对两个实体的相对位置

和/>

然后通过查找表将其转化为对应的向量/>

，维度大小都是/>

，然后将两者拼接得到相对位置嵌入/>

；最后，由字符嵌入/>

和相对位置嵌入/>

的拼接得到输入字符的表征/>

, />

，/>

字符嵌入的维度。

Step4、使用Transformer对输入序列进行编码，输入序列中包含输入字符的表征，将输出的隐藏层向量使用注意力机制进行特征压缩，得到实体类型—类型关系表征；

所述Step4中包括如下内容：在Step4中使用Transformer作为编码器，多头注意力机制通过引入多个不同的子空间，扩展了模型关注不同位置的能力，这种方法使模型能够在不同的空间中并行地学习到不同的特征表示，从而更好地捕捉输入序列中的关系；

对于实体和实体间的关系，引入一个可训练的实体类型表，输入标记

与

，通过Transformer编码器得到主体实体和客体实体隐藏层向量/>

和/>

，为了让关系对的表征向量可训练，将两个隐藏层向量进行拼接，平均池化，再送入线性层得到实体类型—类型关系表征。

Step5、根据Transformer编码得到的字符的隐藏层向量得到实体的上下文表征，将包含实体的上下文表征与主体实体和客体实体的语义表征进行特征融合，将融合后的表征和实体类型—类型关系表征进行拼接；

在步骤Step5中，在通过编码器得到的字符的隐藏层向量

后，首先采用字符级注意机制将其合并成句子级特征向量，记为/>

，即实体的上下文表征，这里，

表示隐藏状态的维度，/>

表示序列长度，句子级特征向量/>

被计算为句子中所有字符隐藏特征向量的加权和；

根据输入标记

与/>

，得到主体实体的token序列{/>

…/>

，同理可得到客体实体的token序列{/>

…/>

，i和j分别表示主体实体和客体实体的长度，然后使用max-pooling操作得到句子中主体实体和客体实体的语义表征/>

和/>

；为了更好的识别主体实体和客体实体的关系类型，将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合，得到上下文增强后的主体表征、客体表征；

在步骤Step5中，将上下文增强后的主体表征、客体表征和实体类型-类型关系表征进行拼接，得到实体类型增强后的融合表征。

Step6、标签预测：将步骤Step5得到的表征送入到Softmax层，以获得最终的预测。

所述Step6中，为了计算每个关系的条件概率，实体类型增强后的融合表征

被馈送到Soft Max分类器进行预测分类抽取；最后，使用交叉熵损失函数训练模型。

本发明的有益效果是：

1、本发明提出了一种使用实体类型标签和位置嵌入来增强中文字符的方式，其中，实体类型标签中不仅包含实体的类型信息，还有实体在文本中的位置信息以及主体实体和客体实体的标记，位置嵌入进一步增强实体的相对位置信息，再通过注意力机制得到文本中和实体间的局部上下文表征，结合实体类型对应的关系，最终推断出主体实体与客体实体的关系；

2、本发明在一定程度上解决了以往相关研究工作中对主体实体和客体实体的位置信息获取不充分，且未考虑以实体类型的相关性信息来引导实体类型、上下文语意、主体实体和客体实体位置关系三者的交互建模的问题；

3、本发明使用注意力机制使得抽取模型选取最适合当前语境的实体类型及上下文语意信息，提升模型对实体关系抽取性能，并在一定程度上提高了模型的泛化能力；

4、本发明提出了一种基于实体类型相关性和实体增强的关系抽取方法；本发明综合考虑了先验知识在嵌入层中的作用，并利用注意机制来提取更完整和重要的信息；本发明分别在医学领域数据集CMeIE和文学领域SanWen数据集上进行了实验，不仅可以用于处理医学领域的关系抽取问题，还可以用于处理通用文学领域的关系抽取问题，实验结果也表明了本发明所提出方法的有效性。

附图说明

图1为本发明提出的基于类型相关性表征的实体关系抽取方法实现的流程图；

图2为本发明提出的基于类型相关性表征的实体关系抽取方法插入实体标记的数据预处理示例图；

图3为CMeIE数据集消融实验结果图。

具体实施方式

实施例1：如图1-图3所示，一种基于类型相关性表征的实体关系抽取方法，针对本发明提出的方法在中文医学关系抽取（CMeIE）数据集和中文文学SanWen数据集进行了实验验证，所述方法的具体步骤如下：

Step1、对数据集进行预处理：将带有实体类型及主体实体和客体实体的标记插入到数据集中，得到带有实体类型及主体实体和客体实体标记的数据集；本发明中采用了中文医学关系抽取（CMeIE）数据集，包含一万四千多条句子。数据集包含儿科和百种常见疾病训练数据语料，实体分为主体实体和客体实体，关系共有43种子类型，包括手术治疗，影像学检查，死亡率，传播途径，临床表现等。为了使测试领域更加多样化，还使用中文文学SanWen数据集，中国文学文章的关系包含9种类型，本文通过随机抽取的方式，将其中的75%数据集来训练模型，剩余的用来评估。

关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型，在每一句中插入键入的标记；具体来说，将给定的一个句子

, 和一对主体实体/>

和客体实体/>

以及它们的类型/>

, />

，然后将文本标记符<S: />

>和</S: />

>插入到句子S中对应的主体实体间，将文本标记符<O: />

>和</O: />

>插入到句子S中对应的客体实体间；为了方便计算，将标记符全部移到句子最后面，对应的标记符共享实体头部的位置嵌入，本发明的数据预处理示例如图2所示，图2中以脑膜炎症患者会出现脑膜炎症体征，如头痛，畏光一句为例，阐述了本发明在插入实体类型标记符的流程，首先，将主体实体和客体实体进行标记，并赋予其类型标签，如脑膜炎症作为主体实体（S），其实体类型为病症disease（dis），畏光作为客体实体（O），其实体类型为症状symptom（sym），随后为方便计算，将插入的实体类型标记符，挪移到句子尾部，可以看出，插入实体类型标记符后的主体实体的文本标记符头部位置为<S:dis >、尾部位置为</S:dis >；插入实体类型标记符后的客体实体的文本标记符头部位置为<O: sym >、尾部位置为</O: sym >，图1中的<S:dis >、</S:dis >、<O: sym >、</O:sym >也表示上述意思，另外，对于图1，本发明有如下说明，图1中的英文表述为本领域专业术语的表达，为了方便理解，对其中的英文表达本发明可以作如下翻译：position index（位置索引）；Character（字符）；Encoder layer （编码器层）；Max-pool（最大池化）；concat（拼接）；subject entity（主体实体）；sentence（句子即本发明中句子级特征向量）；Fusion（融合）；object entity（客体实体）；Linear（线性层）；type-type representation（类型-类型表示法）；relation classifier（关系分类器）；Muti-representations Fusion Layer（多表征融合层）；relation Classifier（关系分类器）；

Step2、获取字符嵌入：将带有实体类型及主体实体和客体实体标记的输入文本序列中的每个token通过word2vec模型训练的字典映射到一个密集向量，通过密集向量获取字符嵌入；所述Step2中包括如下内容：采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征，这种表征通常蕴含了字符的上下文信息，即也是一种字符粒度的局部信息；然后使用word2vec模型预训练字符嵌入查找表

来获得每一个字符/>

字符嵌入：

（1）/>

和/>

；/>

的计算公式如下：

（2）

其中,

和/>

表示头实体的开始和结束索引，同理可得出/>

；

然后通过查找表将其转化为对应的向量

，维度大小都是/>

，然后将两者拼接得到相对位置嵌入/>

；

= [/>

; />

] （3）

最后，由字符嵌入

和相对位置嵌入/>

的拼接得到输入字符的表征/>

,

，/>

字符嵌入的维度；

（4）

Step4、利用Transformer进行上下文特征提取，使用Transformer对输入序列进行编码，输入序列中包含输入字符的表征，将输出的隐藏层向量使用注意力机制进行特征压缩，得到实体类型—类型关系表征；

所述Step4中包括如下内容：由于主体实体和客体实体之间可能存在较强的依赖关系，而 Transformer神经网络模型的多头注意力机制对全局特征提取效果显著，所以在Step4中使用Transformer作为编码器，多头注意力机制通过引入多个不同的子空间，扩展了模型关注不同位置的能力，这种方法使模型能够在不同的空间中并行地学习到不同的特征表示，从而更好地捕捉输入序列中的关系；

计算多头注意力A(Q,K,V)的公式如下：

（5）

,/>

；

其中,

表示输入向量，/>

, />

, />

代表可学习的参数。

,/>

) （6）

（7）

其中，

和/>

分别为可学习的参数。然后送入到前馈神经网络层，最后正则化，然后输出：

（8）

与

，通过Transformer编码器得到主体实体和客体实体隐藏层向量/>

和/>

，为了让关系对的表征向量可训练，将两个隐藏层向量进行拼接，平均池化，再送入线性层得到实体类型—类型关系表征/>

：/>

,/>

; （9）

; （10）

; （11）

在步骤Step5中，在通过编码器得到的字符的隐藏层向量

，即实体的上下文表征，这里，

表示隐藏状态的维度，/>

表示序列长度，句子级特征向量/>

被计算为句子中所有字符隐藏特征向量的加权和：

（12）

（13）

（14）

其中

是训练参数，/>

是/>

的权重向量。

根据输入标记

与/>

，得到主体实体的token序列{/>

…/>

，同理可得到客体实体的token序列{/>

…/>

和/>

；

…/>

（15）

…/>

（16）

为了更好的识别主体实体和客体实体的关系类型，将句子级特征向量与主体实体和客体实体的语义表征分别进行特征融合，得到上下文增强后的主体表征、客体表征；

公式如下：

（17）

（18）

其中

和/>

是可学习的参数，/>

分别是/>

的转置。/>

则是非线性激活函数，/>

表示逐个元素的乘法。

在步骤Step5中，将上下文增强后的主体表征、客体表征和实体类型-类型关系表征进行拼接，得到实体类型增强后的融合表征：

（19）

被馈送到Soft Max分类器进行预测分类抽取；

（20）

其中

是变换矩阵，/>

是偏差向量。/>

表示关系类型的总数，/>

是每种类型的预测概率；最后，使用交叉熵损失函数训练模型：

（21）

其中,

表示主体实体和目标实体间的关系，/>

表示主体实体和客观实体。

为验证本发明所提模型的有效性，本发明从深度学习方面，选择以下与本发明相关的且具有代表性的系统作为baseline模型。

本发明采用

值作为评价指标来衡量模型性能：

（22）

（23）

（24）

其中，TP为真正例的数量，FP为假正例的数量，FN为假负例的数量。

为准确率，/>

为召回率。

BiLSTM (Zhang and Wang, 2015)提出了一个双向LSTM的关系抽取模型。

PCNN (Zeng et al., 2015)提出了具有多实例学习的分段式CNN模型。

PCNN+ATT (Lin et al., 2016)改善了PCNN具有选择性注意机制的模型。

MG Lattice(Li et at., 2019) 基于Lattice LSTM结构引入了外部信息hownet手工标注的多义词，从而减轻多义歧义。

TableSeq (Wang and Lu, 2020)使用两个独立的编码器，表格编码器和序列编码器相互作用捕捉特定的任务信息，并多维循环神经网络来更好地利用表的结构信息，实现了更好的性能。

PURE (Zhong and Chen, 2021)提出了一种简单的pipeline方式，在关系模型早期融合实体信息以及整合全局上下文表示，并提出一个有效的近似模型，牺牲很小准确率得提升训练效率。

UniRE(Wang et al., 2021d)为实体检测和关系分类设置了两个独立的标签空间，促进两个任务的交互提出了一种可以共享标签空间的方法, 并设计了一种近似联合解码算法来输出最终提取的实体和关系。从表2可以看出，本发明提出的关系抽取方法，在CMeIE和SanWen数据集中取得了一个很好的结果。

为了验证位置编码和实体类型对模型结果的有效性，做了如下消融实验：

分别使用CNN,LSTM和Transformer编码器来进行上下文信息编码，然后分别去掉位置嵌入和实体类型嵌入，表3中，word embedding：字符嵌入，Pos：relative position相对位置嵌入，Entity type：实体类型信息；实验结果如下表2所示，从表3中可以看出本发明使用的Transformer编码器，相对于LSTM，CNN等编码器在相同条件下对关系抽取任务具有更好的实验效果；

进一步对模型各个组件进行消融实验，以考察不同组件对关系抽取模型的贡献程度：

w/o type marks表示去掉实体类型标记，保留实体类型关系和位置编码模型部分。

w/o relation of types表示去掉类型关系表征，保留实体类型标记和位置编码模型部分。

w/o relative position表示去掉相对位置编码表征，保留实体类型标记和实体类型关系部分。

w/o muti-features fusion表示去掉多特征融合部分，保留实体类型标记和实体类型关系部分。

从图3可以看出，与本发明方法所对应模型相比，当给出目标实体时，没有实体类型标记的模型在CMeIE数据集上的F1下降了1.69%，没有实体类型关系表征的模型的F1下降了1.13%，去掉多特征融合部分后，F1下降了1.34%。这验证了实体类型关系、实体类型标记和多特征融合部分对于本发明模型性能的保证都具有重要作用。值得注意的是，去掉实体类型标记后，模型的召回率和F1值都有较大幅度的下降，本发明分析，去掉实体类型标记后，模型中实体的上下文信息不包含实体类型信息了，对模型的判断有一定影响，其次，实体类型标记也影响实体类型-类型关系表示，由于去掉标记，所以只能用固定的向量来表示这个关系表，不能随模型的训练而更新参数，对于测试集的一些关系不能很好的识别，导致模型的性能下降。

与其他消融结果相比，移除掉位置编码表征后，召回率提高了一点，F1值和精确率都下降了，这种现象的原因可能是实体位置附近的上下文位置信息对关系的判断有帮助，进而提升准确率，而位置信息也可能带来部分噪声，影响模型召回率。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于类型相关性表征的实体关系抽取方法，其特征在于，所述抽取方法的步骤如下：

2.根据权利要求1的基于类型相关性表征的实体关系抽取方法，其特征在于，所述Step1中包括如下内容：关系抽取模型在输入层突出显示主体实体和客体实体以及它们的类型，在每一句中插入键入的标记；具体来说，将给定的一个句子

, 和一对主体实体/>

和客体实体/>

以及它们的类型/>

, />

，然后将文本标记符<S: />

>和</S: />

>插入到句子S中对应的主体实体间，将文本标记符<O: />

>和</O: />

>插入到句子S中对应的客体实体间。

3.根据权利要求1的基于类型相关性表征的实体关系抽取方法，其特征在于，所述Step2中包括如下内容：采用在大规模语料上所训练的密集向量中的字符向量来作为字符的初始嵌入来获取语料句子的字符的初始表征，这种表征通常蕴含了字符的上下文信息，即也是一种字符粒度的局部信息；然后使用word2vec模型预训练字符嵌入查找表

来获得字符嵌入。

4.根据权利要求1的基于类型相关性表征的实体关系抽取方法，其特征在于，所述Step3中包括如下内容：在Step3中分别计算第i个字符相对两个实体的相对位置

和/>

然后通过查找表将其转化为对应的向量/>

，维度大小都是/>

，然后将两者拼接得到相对位置嵌入/>

；最后，由字符嵌入/>

和相对位置嵌入/>

的拼接得到输入字符的表征/>

, />

，/>

字符嵌入的维度。

5.根据权利要求1的基于类型相关性表征的实体关系抽取方法，其特征在于，所述Step4中包括如下内容：在Step4中使用Transformer作为编码器，多头注意力机制通过引入多个不同的子空间，扩展了模型关注不同位置的能力，这种方法使模型能够在不同的空间中并行地学习到不同的特征表示，从而更好地捕捉输入序列中的关系；