CN114547298A

CN114547298A - 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质

Info

Publication number: CN114547298A
Application number: CN202210131493.7A
Authority: CN
Inventors: 王健; 孙逸; 林鸿飞; 杨志豪
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-02-14
Filing date: 2022-02-14
Publication date: 2022-05-27

Abstract

本发明涉及一种基于多头注意力和图卷积网络结合R‑Drop机制的生物医学关系抽取方法、装置和介质，要点是包括以下步骤：(1)构建医学语料的关系实例，(2)构建句法依存树，(3)使用BERT预训练模型和多头注意力提取文本的加权上下文语义表示，(4)使用ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示，(5)使用解码器对特征表示进行解码，(6)使用R‑Drop机制对神经网络进行正则化，最终得到关系类别。效果是使用端到端的训练方法，可以自动学习医学文本中的语义特征和结构特征；引入R‑Drop机制，提升模型的泛化性能；在不引入外部知识的情况下，取得了较强的关系抽取性能。

Description

基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质

技术领域

本发明涉及一种基于神经网络的生物医学关系抽取方法，更确切的说，本发明提出一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法。

背景技术

在生物医学领域，海量的医学文献逐渐构成了一个巨大的知识宝库。医学文献中各类实体的关系为专家提供了重要信息。从文档中提取实体关系可以将非结构化文本转换为元组结构化文本，可用于临床诊断、医学知识映射等许多医学研究中。因此从文本中进行医学关系的自动提取至关重要:(1)从应用的角度来看，手工数据库注释需要大量的人力和物力。数据质量不仅难以保证，而且耗时且难以跟踪最新文献。利用文本挖掘技术辅助数据库建设，可以提高数据挖掘的效率和数据质量。(2)从社会价值上看，药物与疾病之间的相互作用是从生物医学关系中提取出来的，这种相互作用将给医药公司、医疗机构和公众带来巨大的利益，并减少相关费用。

此外，在数量庞大医学文献中，大量的关系事实是以多个句子表达的，且文档中的多个实体之间，往往存在复杂的相互关系。目前，生物医学关系抽取方法的研究已经逐步从二元实体的句子级关系拓展到多元实体的跨句级关系。多元跨句级别的关系抽取需要考虑更加复杂的实体语义关系和句子结构。

到目前为止，已经提出了一些基于自动提取生物医学关系的方法，主要分为基于特征的方法和基于神经网络的方法。基于特征的方法是从关系句子实例的上下文中提取包括词法信息和句法信息在内的有用信息来构造特征向量，并通过计算特征向量的相似度来训练关系抽取模型。如利用上下文信息和实体信息特征来训练支持向量机；如采用最短独立路径树来获取化学物与疾病之间的语义信息和句法信息。有些基于特征的方法具有良好的性能，但手工特征提取是一项费时费力的工作。随着深度学习的飞速发展，很多研究人员开始选择基于深度神经网络的方法，可以自动提取特征，实现端到端的学习。两种常见的神经网络基本模型是卷积神经网络和长短期记忆网络如将基于字符的词表示引入基于卷积神经网络的关系提取模型，如使用长短期记忆网络自动提取最短依赖路径特征。但是利用这些传统的神经网络仍然存在精度不高的问题，无法在医学领域落地施行。

而在2017年，有研究者(Peng等人)构建了一个基于PubMed的医学语料数据集，其是关于药物、基因以及突变的实体关系抽取数据集，研究者将其构造为存在二元和三元关系的复杂数据，其中不仅包含单句内的关系，也包含跨句子间的关系，并且其中含有5种关系类别。

综上所述，如何充分利用文本中的语义和句法信息，提高复杂语境下医学实体关系抽取的性能，构建高性能的多元跨句级医学生物关系抽取的模型，使其拥有实际的应用价值是迫切需要解决的问题。

发明内容

为克服现有技术中存在的不足，本发明提供了一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取模型(简称R-AGN)。该方法首先通过斯坦福NLP工具对构造的实例构建句法依存树，然后使用BERT预训练模型和多头注意力网络提取文本的上下文语义表示，再通过ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示，将两个网络提取的特征经过拼接后通过解码器对特征表示进行解码，(6)使用R-Drop机制对神经网络进行正则化，最终得到关系类别。

为了实现上述发明目的，解决现有技术中所存在的问题，本发明采取的技术方案是：一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，包括以下步骤：

通过启发式规则对篇章级医学语料构造医学实体关系的句子内和句子间实例；

通过BERT预训练模型和多头注意力网络与关系表示交互提取文本的加权上下文语义特征表示，

通过ELMo预训练模型、图卷积网络、句法依存树提取文本的结构化特征表示；

拼接提取的语义特征表示和结构化特征表示并通过解码器进行解码；

使用R-Drop正则化对网络进行增强，得到生物医学关系类别。

进一步的，构造的医学实体关系的实例的同一句子中提到的每一对实体对都是作为句内实例构建、在同一文档中未同时出现在同一个句子中的实体对被作为句间实例构造、重复的实体对只选择距离最接近的一对作为实例、每个实例标注每个单词的POS标记和句法依存标记和绝对位置。

进一步的，所述句法依存树的的节点是来自文本的每个单词，其节点间边的类型包括：由斯坦福语法分析器获得的句法依存边设置为句子内部的有向的句法依存边、将相邻句中的作为依存根的单词连接形成的相邻句边、每个节点上具有自节点的自节点边。

进一步的，提取文本的加权上下文语义特征表示具体为：

(a)多头注意力模块的输入用BERT预训练语言模型作为输入表示，输入表示由公式(1)进行描述：

w₁＝[w_BERT；w_POS；w_dis] (1)

w_BERT为BERT对输入文本进行编码后的表示，w_POS为词性标注嵌入表示文本中的词性信息，w_dis为位置嵌入表示实体在文档中的位置；

(b)使用Bi-LSTM对输入表示进行前向和后向编码，最终的文本表示为两个状态的拼接，由公式(2)进行描述：

为前向LSTM的隐状态，

为后向LSTM的隐状态；

(c)将关系向量表示为尾实体和头实体向量的差值，由公式(3)表示：

h_relation＝h_tail-h_head (3)

h_tail为尾实体经过Bi-LSTM编码后的输出向量，h_head为头实体经过Bi-LSTM编码后的输出向量；

(d)通过多头注意力网络将经过Bi-LSTM编码的文本表示和关系向量进行交互，对于每一个注意力头使用归一化放缩点积注意力机制计算相关度，由公式(4)表示：

其中Q,K,V∈R^n×d表示查询和键值矩阵，在多头注意力网络中的查询是由Bi-LSTM的输出h_t和权重矩阵W_q相乘得到，表示为文本序列，键和值是由关系向量h_relation分别与权重矩阵W_k和W_v相乘得到，d是Bi-LSTM模型输出的维数，

是放缩因子；

(e)将n个头的结果连接起来作为多头注意力层的输出表示作为加权上下文语义特征表示，由公式5描述：

h_att＝[h₁；h₂；…；h_n] (5)

h₁,h₂,…,h_n为n个注意力头的输出表示。

进一步的，提取文本的结构化特征表示具体为：

(a)图卷积网络的输入文本用ELMo预训练模型作为输入表示，由公式(6)描述：

w₂＝[w_ELMo；w_POS；w_dis] (6)

w_ELMo为ELMo对输入文本进行编码后的表示，w_POS为词性标注嵌入表示文本中的词性信息，w_dis为位置嵌入表示实体在文档中的位置；

(b)使用Bi-LSTM对输入表示进行前向和后向编码，最终的文本表示为两个状态的拼接；

(c)将构造的句法依存树转换为邻接矩阵A，其中A_i,j＝1表示单词i和单词j之间存在依赖边，A_i,j＝0表示没有依赖关系，A_i,i＝1表示每个节点的自节点边，第l层节点i与邻接矩阵的图卷积操作由公式(7)描述：

其中W^(l)是权重矩阵，b^(l)是偏置向量，

是依存图中节点i的度，ρ是激活函数，图卷积网络的输入

是Bi-LSTM的输出；

结构化特征表示由下式描述：

进一步的，拼接提取的语义特征表示和结构化特征表示通过下式描述：

h_final＝[h_att；h_GCN] (9)

输入到一个两层的感知机，由公式(10)、(11)表示：

为权重矩阵，

为偏置向量；

再通过Softmax函数来判别生物医学关系类型，通过公式(12)描述：

o＝softmax(W_oh₂+b_o) (12)

W_o为权重矩阵，b_o为偏置向量。

进一步的，通过R-Drop机制对神经网络进行正则化得到更精确的生物医学关系类别：通过R-Drop机制修改损失函数为整个神经网络训练两次计算的交叉熵损失与双向KL散度正则化结合的损失函数，由公式(13)、(14)、(15)描述：

L＝L_CE+αL_KL (15)

P₁(y_i|x_i)和P₂(y_i|x_i)表示两次前向计算得到的两个子模型分别预测的概率分布，D_KL()为KL散度计算函数，L_CE为网络训练两次得到平均交叉熵损失，L_KL为网络训练两次得到的两个子网络之间的双向KL散度损失，α是用于调节KL散度正则的权重系数，经过R-Drop机制正则化之后，最终获取更精确的关系类型。

一种装置，包括处理器以及存储器，述处理器执行所述存储器中的代码以实现所述的方法。

一种计算机存储介质，存储有计算机程序，所述计算机程序被硬件执行以实现所述的方法。

本发明有益效果是：一种基于神经网络结合R-Drop机制的生物医学关系抽取方法，包括以下步骤：(1)构建医学语料的关系实例，(2)构建句法依存树，(3)使用BERT预训练模型和多头注意力提取文本的上下文语义表示，(4)使用ELMo预训练模型和图卷积网络结合句法依存树提取文本的结构化表示，(5)使用解码器对特征表示进行解码，(6)使用R-Drop机制对神经网络进行正则化，最终得到关系类别。与已有的技术对比，本发明具有以下优点：使用端到端的训练方法，可以自动学习医学文本中的语义特征和结构特征；引入R-Drop机制，提升模型的泛化性能；在不引入外部知识的情况下，取得了较强的关系抽取性能。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上，在不同情况下的关系抽取中均取得了良好结果。

附图说明

图1是本发明方法步骤流程图。

图2是本发明提出的医学关系抽取模型框架图。

具体实施方式

下面结合附图对本发明作进一步说明。

实施例1：如图1所示，基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，包括以下步骤：

步骤1、对于官方提供的训练集、验证集和测试集，构建了医学实体关系的所有实例，使用启发式规则构造句子内和句子间实例：

(a)同一句子中提到的每一对实体对都是作为句内实例构建。

(b)在同一文档中，未同时出现在同一个句子中的实体对被作为句间实例构造。

(c)对于重复的实体对，只选择距离最接近的一对作为实例。

关于其他预处理过程，对于每个实例，使用StanfordCoreNLP工具标记每个单词的POS标记和句法依存标记；标记每个单词的绝对位置。

步骤2、构造一个文档级的句法依存树，它的节点是来自文本的每个单词，节点之间有三种类型的边：

(a)句法依存边：将由斯坦福语法分析器获得的句法依存边设置为句子内部的有向边。

(b)相邻句边：将相邻句中的作为依存根的单词连接起来，形成相邻句边。这使得模型能够学习句子之间的依存关系信息，这对于文档级别的关系抽取是有用的。

(c)自节点边：在每个节点上加上自节点边，使模型也能从节点本身学习信息。

步骤3、使用BERT预训练模型和多头注意力网络提取文本的上下文语义表示。

(a)基于BERT的强大性能，引入BERT预训练语言模型作为输入文本在输入表示层的嵌入。此外，我们还提取了额外语义信息使模型能够更好地学习。词性标注可以表示文本中的词性信息。而位置嵌入代表了实体在文档中的位置，这使模型可以定位实体对，更好地学习实体上下文信息。该模块的输入表示由公式(1)进行描述：

w₁＝[w_BERT；w_POS；w_dis] (1)

w_BERT为BERT对输入文本进行编码后的表示，w_POS为词性标注嵌入表示文本中的词性信息，w_dis为位置嵌入表示实体在文档中的位置。

(b)使用Bi-LSTM对输入表示进行前向和后向编码。指定前向LSTM的隐状态为

后向LSTM的隐状态为

最终的隐层状态为两个状态的拼接，由公式(2)进行描述：

为前向LSTM的隐状态，

为后向LSTM的隐状态。

h_relation＝h_tail-h_head (3)

h_tail为尾实体经过Bi-LSTM编码后的输出向量，h_head为头实体经过Bi-LSTM编码后的输出向量。

然后利用多头注意力网络将文本表示和关系向量进行交互，对于每一个注意力头，使用归一化放缩点积注意力机制来计算相关度，由公式(4)表示：

是放缩因子。

最后，将n个头的结果连接起来作为多头注意力层的输出表示，由公式5表示：

h_att＝[h₁；h₂；…；h_n] (5)

步骤4、通过ELMo预训练模型和图卷积网络(GCN)结合句法依存树提取文本的结构化表示。

(a)由于句法依存树的节点是单词组成，而BERT的tokenizer会将单词拆分，无法有效地与依存树和GCN结合，因此选择ELMo预训练模型作为GCN模块的输入嵌入。同样地，在输入表示中加入文本的POS和位置信息，由公式(6)描述：

w₂＝[w_ELMo；w_POS；w_dis] (6)

w_ELMo为ELMo对输入文本进行编码后的表示，w_POS为词性标注嵌入表示文本中的词性信息，w_dis为位置嵌入表示实体在文档中的位置。

后向LSTM的隐状态为

最终的隐层状态为两个状态的拼接。

(c)使用GCN来学习文本的结构信息，首先将构造的句法依存图转换为邻接矩阵A，其中A_i,j＝1表示单词i和单词j之间存在依赖边，A_i,j＝0表示没有依赖关系，A_i,i＝1表示每个节点的自节点边，以学习关于节点本身的信息。此外，在采用激活函数之前，将图卷积网络中的结果进行规范化，以解决依存图中节点度过大的问题。最后，第l层节点i与邻接矩阵的图卷积操作可以由公式(7)描述：

其中W^(l)是权重矩阵，b^(l)是偏置向量，

是依存图中节点i的度，ρ是激活函数(例如ReLU)。GCN网络的输入是Bi-LSTM的输出

通过l层的卷积操作得到输出表示

步骤5、将多头注意层和GCN层的输出合并到最终表示h_final＝[h_att；h_GCN]，然后喂入一个两层的感知机，由公式(8)、(9)表示：

为权重矩阵，

为偏置向量。

再通过Softmax函数来判别关系类型，通过公式(10)描述：

o＝softmax(W_oh₂+b_o) (9)

W_o为权重矩阵，b_o为偏置向量。

步骤6、为了增强模型的性能和泛化能力，引入R-Drop机制，修改损失函数为模型预测两次计算的交叉熵损失与双向KL散度正则化结合的损失函数，由公式(10)、(11)、(12)描述：

L＝L_CE+αL_KL (12)

实施例2：一种基于神经网络的生物医学关系抽取方法，包括如下步骤：

(a)同一句子中提到的每一对实体对都是作为句内实例构建。

(c)对于重复的实体对，只选择距离最接近的一对作为实例。

w₁＝[w_BERT；w_POS；w_dis] (1)

后向LSTM的隐状态为

最终的隐层状态为两个状态的拼接，由公式(2)进行描述：

为前向LSTM的隐状态，

为后向LSTM的隐状态。

h_relation＝h_tail-h_head (3)

是放缩因子。由公式5表示：

h_att＝[h₁；h₂；…；h_n] (5)

w₂＝[w_ELMo；w_POS；w_dis] (6)

后向LSTM的隐状态为

最终的隐层状态为两个状态的拼接。

其中W^(l)是权重矩阵，b^(l)是偏置向量，

通过l层的卷积操作得到输出表示

为权重矩阵，

为偏置向量。

再通过Softmax函数来判别关系类型，通过公式(10)描述：

o＝softmax(W_oh₂+b_o) (9)

W_o为权重矩阵，b_o为偏置向量。

L＝L_CE+αL_KL (12)

其中，α是用于调节KL散度正则的权重系数，在本发明中设为0.5。经过R-Drop机制正则化之后，最终获取更精确的关系类型。

本发明属于软件发明，涉及一种装置，其包括处理器以及存储器，述处理器执行所述存储器中的代码以实现所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法。本发明还涉及一种计算机存储介质，存储有计算机程序，所述计算机程序被硬件执行以实现所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法。

本发明方法所采用的评价指标是基于准确率(Precision，P)、召回率(Recall，R)的F1值。为了验证本发明提出的模型的有效性，本发明在Peng提出的数据集进行实验，根据原始数据进行分区后采用五折交叉验证形式进行验证，数据集中的数据实例如表1所示。

将本发明提出的模型结果的F1值与GCN、AGGCN和LF-GCN三个模型结果的F1值进行比较，证明精度的提升，其中GCN模型是2018年提出的采用图卷积神经网络对剪枝树进行编码的方法，AGGCN模型是2019年提出的通过注意力矩阵构建依存森林的生物医学关系抽取模型，LF-GCN模型是2020年提出用矩阵树定理的变体自动诱导依赖结构的生物医学关系抽取模型。实验结果如表2所示。

表1

表2

从表2的实验结果可以看出，本发明提出的模型在多分类关系抽取中，在三元和二元的结果中都得到了显著的提升，其中二元关系的多分类关系抽取在baseline的基础上F1值提升11.1％，可以说明在捕获二元和三元关系多分类抽取的特征更加准确，有效提升了关系抽取的效率。在二分类的情况下，也均有1％左右的F1值提升，可以说明本发明提出的模型在不同情况下的关系抽取中均取得了良好的效果。

本发明方法具有以下优点：使用端到端的训练方法，可以自动学习医学文本中的语义特征和结构特征；引入R-Drop机制，提升模型的泛化性能；在不引入外部知识的情况下，取得了较强的关系抽取性能。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上，在不同情况下的关系抽取中均取得了良好结果。

Claims

1.一种基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，包括以下步骤：

使用R-Drop正则化对网络进行增强得到生物医学关系类别。

2.如权利要求1所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，构造的医学实体关系的实例的同一句子中提到的每一对实体对都是作为句内实例构建、在同一文档中未同时出现在同一个句子中的实体对被作为句间实例构造、重复的实体对只选择距离最接近的一对作为实例、每个实例标注每个单词的POS标记和句法依存标记和绝对位置。

3.如权利要求1所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，所述句法依存树的的节点是来自文本的每个单词，其节点间边的类型包括：由斯坦福语法分析器获得的句法依存边设置为句子内部的有向的句法依存边、将相邻句中的作为依存根的单词连接形成的相邻句边、每个节点上具有自节点的自节点边。

4.如权利要求1所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，提取文本的加权上下文语义特征表示具体为：

w₁＝[w_BERT；w_POS；w_dis] (1)

为前向LSTM的隐状态，

为后向LSTM的隐状态；

h_relation＝h_tail-h_head (3)

是放缩因子；

h_att＝[h₁；h₂；…；h_n] (5)

h₁,h₂,…,h_n为n个注意力头的输出表示。

5.如权利要求4所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，提取文本的结构化特征表示具体为：

w₂＝[w_ELMo；w_POS；w_dis] (6)

其中W^(l)是权重矩阵，b^(l)是偏置向量，

是依存图中节点i的度，ρ是激活函数，图卷积网络的输入

是Bi-LSTM的输出；

结构化特征表示由下式描述：

6.如权利要求5所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，拼接提取的语义特征表示和结构化特征表示通过下式描述：

h_final＝[h_att；h_GCN] (9)

输入到一个两层的感知机，由公式(10)、(11)表示：

为权重矩阵，

为偏置向量；

o＝softmax(W_oh₂+b_o) (12)

W_o为权重矩阵，b_o为偏置向量。

7.如权利要求6所述的基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法，其特征在于，通过R-Drop机制对神经网络进行正则化得到更精确的生物医学关系类别：通过R-Drop机制修改损失函数为整个神经网络训练两次计算的交叉熵损失与双向KL散度正则化结合的损失函数，由公式(13)、(14)、(15)描述：

L＝L_CE+αL_KL (15)

8.一种装置，其特征在于，包括处理器以及存储器，述处理器执行所述存储器中的代码以实现权利要求1至7任一项权利要求所述的方法。

9.一种计算机存储介质，其特征在于，存储有计算机程序，所述计算机程序被硬件执行以实现权利要求1至7任一项权利要求所述的方法。