CN113468874B

CN113468874B - 一种基于图卷积自编码的生物医学关系抽取方法

Info

Publication number: CN113468874B
Application number: CN202110643976.0A
Authority: CN
Inventors: 王健; 钱梦媛; 徐博; 林鸿飞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2024-04-16
Anticipated expiration: 2041-06-09
Also published as: CN113468874A

Abstract

一种基于图卷积自编码的生物医学关系抽取方法，为了充分利用依赖关系，有效捕获语义结构，并降低计算成本，包括卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码，通过解码器对编码器输出的邻接矩阵进行重构，得到维度与输入矩阵相同的邻接矩阵；将从获得单词的隐层状态表示和重构的邻接矩阵输入到N个单独图卷积网络中，编码不同子空间表示，使图卷积网络编码依存森林中长距离依赖特征；将不同子空间表示串联，获得所有子空间信息的输出向量，经过全连接层获得各节点输出向量后进行关系分类，实验结果证明，本模型可以更有效地捕获依赖信息，获取语义结构。

Description

一种基于图卷积自编码的生物医学关系抽取方法

技术领域

本发明属于文本信息处理领域，确切的说，是一种基于卷积自编码器的图神经网络生物医学关系抽取方法。

背景技术

医学关系抽取作为信息抽取的一种形式，旨在从互联网中海量的医学信息中快速、准确地检测出与医学相关的多个实体之间关系事实，将非结构化描述的自然文本转化为结构化数据，为辅助医疗、药物开发、生命科学等多种研究提供了重要基础。同时，生物医学关系抽取是信息检索、智能问答、智能对话等人工智能应用任务的基石，所以，提升医学关系抽取的效率和精确度具有实际意义。

现今生物医学文献中，实体对位于不同句子中的情况十分常见，生物医学实体关系抽取已经从句子级别逐步扩展到语境特征更加复杂的跨句级别抽取。跨句级别的实体关系抽取需要处理多个句子，不仅句子信息大幅度增加，而且跨句子实体语义关系也更为复杂。

以往的方法将生物医学关系抽取当作多分类任务，通过构造特征表示，进行训练并给出分类结果。现有的关系抽取模型可以分为两类：基于序列的模型和基于依赖的模型。基于序列的模型只对单词序列进行编码，获得文本的上下文语义信息，如常见的卷积神经网络和循环神经网络；基于依赖的模型则运用依存树得到的语义图来获得句子的表示，在获得长距离依赖关系方面被证明是有效的，可以捕获更加有用的信息。如：用依存树捕获文本特征，可以实现跨句多元关系的抽取，但是计算成本很高，并且在医学领域的分析精度较低。使用完全依存森林对所有可能的树进行编码，提升精度，但是降低了运算速率，不利于在海量文献中进行关系抽取。

综上所述，如何充分利用依赖关系，提高复杂语境下生物医学关系抽取的性能，建立表现优秀的跨句级生物医学关系抽取模型，提高关系抽取的效率，使其拥有实际的应用价值是迫切需要解决的问题。

发明内容

为实现充分利用依赖关系，有效捕获语义结构，并降低计算成本，本发明提供了一种基于图卷积自编码的生物医学关系抽取方法，包括以下步骤：

步骤1、使用生物领域的文本信息，将基于通用领域获得的Glove英文词向量进行训练，获得词向量表示，引入位置信息得到最终的词向量表示；

步骤2、通过上下文编码器捕获词向量的向量序列中的上下文信息，获取单词的隐层状态表示；

步骤3、采用多头注意力机制获得不同子空间的特征，构建多个邻接矩阵，并构建依存森林；

步骤4、卷积自编码器通过编码器对所述不同子空间的邻接矩阵编码，通过解码器对编码器输出的邻接矩阵进行重构，得到维度、通道数与输入矩阵相同的邻接矩阵；

步骤5、将从步骤2获得的单词的隐层状态表示和步骤4重构的邻接矩阵输入到N个单独的图卷积网络中，编码不同子空间表示，使图卷积网络编码依存森林中的长距离依赖特征；

步骤6、将不同子空间表示串联，获得所有子空间信息的输出向量，经过全连接层获得各节点的输出向量；

步骤7、将所述输出向量进行聚合特征，获得句子表示；对依存图节点中表示实体的节点的输出向量进行聚合特征，获得节点的实体表示，将句子表示和实体表示进行拼接，获得用于分类目的的最终节点表示；

步骤8、获得在关系标签上的概率分布，识别生物医学文本中的关系类型。

进一步的，步骤2中将步骤1得到的词向量输入到每个LSTM单元中，得到不同LSTM单元的隐层表示h_i，将当前单词前向和后向序列的最后一个单元隐层状态输出拼接，作为当前单词隐层状态表示。

进一步的，步骤2中双向LSTM层数设置为1层，输出维度设置为300维，两层神经网络之间设置dropout函数防止过拟合，dropout值设置为0.5。

进一步的，

步骤2中LSTM单元的隐藏层主要包含三个门控机制：

在t时刻的输入门i_t、遗忘门f_t和输出门O_t，

LSTM隐藏层的计算通过公式(1)～(5)进行描述：

i_t＝σ(W_ix_t+U_ih_t-1+V_ic_t-1) (1)

f_t＝σ(W_fx_t+U_fh_t-1+V_fc_t-1) (2)

O_t＝σ(W_ox_t+U_oh_t-1+V_oc_t-1) (3)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1) (4)

h_t＝o_t*tanh(c_t) (5)

其中，c_t表示当前记忆单元，c_t-1表示上一层记忆单元，h_t表示隐层状态节点，h_t-1代表前一个隐层状态节点，x_t表示当前时刻t的输入，σ表示激活函数，W_i、U_i、V_i表示输入门权重矩阵，W_f、U_f、V_f表示遗忘门权重矩阵，W_o、U_o、V_o表示输出门权重矩阵，W_c、U_c表示记忆单元权重矩阵；

将前向和后向序列的最后一个单元隐层状态输出拼接，作为当前单词的隐层状态表示，通过公式(6)进行描述：

表示单词的隐层状态表示，/>表示后向序列的最后一个单元隐层状态输出，/>表示前向序列的最后一个单元隐层状态输出，/>表示拼接。

进一步的，步骤3中依存森林第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分，然后通过softmax函数进行归一化，将有限项离散概率分布的梯度对数归一化，获得权重图，通过公式(7)描述邻接矩阵；

其中，Q、K分别表示查询向量序列，键向量序列，是缩放因子，/>和/>表示第k个头的可训练权重矩阵，/>的权重矩阵维度都是d*d。

进一步的，步骤4中编码器采用卷积层和池化层，共包含3层卷积，每个卷积操作的滤波器大小和步长分别是1×1和1，将多头注意力机制生成N个子空间表示的邻接矩阵A⁽¹⁾,A⁽²⁾,A⁽³⁾作为一个整体特征A^*输入编码器得到改变的邻接矩阵，l表示句子的长度，N表示输入编码器的通道数，A^*∈R^N×l×l，维度为N×l×l；将编码器输出的邻接矩阵输入解码器，解码器使用逆卷积方法，共包含3个逆卷积层，最后通过激活函数进行激活，得到通道数和维数与输入卷积自编码器的编码器矩阵相同的邻接矩阵。通过改变通道数捕获其余子空间的特征信息，使得邻接矩阵关注图更多的结构信息；

编码器通过公式(8)进行描述：

A′^*＝σ₁(A^**ω₁+b₁) (8)

解码器通过公式(9)进行描述：

其中，ω₁和ω₂为权重矩阵，b₁和b₂分别为编码器和解码器的偏置，σ₁和σ₂分别为编码器和解码器的激活函数，A′^*和分别表示经过编码器和解码器获得的邻接矩阵。

进一步的，步骤5中计算第k个邻接矩阵l层节点i的卷积，根据邻接矩阵，使用第l-1层的卷积向量计算第l层的卷积向量，当向量/>与权重矩阵/>计算后，再与邻接矩阵/>相乘，加上偏置，通过ReLU函数进行激活，代表着节点i获取了邻居节点的特征；通过多层叠加，获得包含邻居节点及更远节点特征的节点表示，图卷积网络编码依存森林中的长距离依赖特征，通过公式(10)进行描述：

其中和/>是第1层中第k个权值图的权重矩阵和偏置向量，n是节点个数，σ是ReLU激活函数。

进一步的，步骤6中通过公式(11)进行描述：

h_com＝W_comh_all+b_com (11)

其中，h_com表示所有子空间的组合，W_com是一个权重矩阵，b_com是偏置向量。

进一步的，步骤7中通过公式(12)进行描述：

h_final＝[h_sent；e₁；…；e_i] (12)

其中，h_sent表示句子表示向量，e₁，…，e_i表示i个不同节点的节点表示，h_final表示最终节点表示。

进一步的，步骤8中用Softmax进行分类获得在关系标签上的概率分布。

本发明有益效果是：本发明是跨句级别的生物医学关系抽取方法，使用端到端的训练方法，可以自动学习依存森林中的结构特征；提出多头注意力-卷积自编码器的特征提取模型，通过引入卷积自编码器可以更有效地捕获依存信息；在提高关系抽取精确度的基础上，提升了关系抽取效率，增强了实际应用价值。本发明在Peng提出的跨句级别生物医学关系抽取的语料的测试集上取得了良好结果。

附图说明

图1是本发明方法步骤流程图。

图2是本发明提出的医学关系抽取模型框架图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明提供了一种基于图卷积自编码的生物医学关系抽取方法及模型(简称ACA-GCN)。该方法首先通过双向LSTM网络获得包含上下文信息的隐层状态表示，通过注意力机制(Attention)有效地融合跨句级别的特征，然后通过卷积自编码器进一步对特征进行提取，获得邻接矩阵，再通过图卷积网络聚合长距离依赖关系，经过线性组合后通过分类器，得到生物医学实体之间的关系，完成关系抽取。其中基于图卷积自编码的生物医学关系抽取方法，简要的包括以下步骤：(1)构建单词的分布式表示，(2)生成隐层表示，(3)构造基于多头注意力-卷积自编码器的特征表示，(4)使用图卷积网络编码依存森林，(5)选择分类器对生物医学关系进行识别。与已有技术对比，方法具有以下优点：使用端到端的训练方法，可以自动的学习依存森林中的结构特征；提出多头注意力-卷积自编码器模型，通过引入卷积自编码器可以更有效地进行特征提取；在提高关系抽取精确度的基础上，提升了关系抽取效率，增强了实际应用价值。

具体的：

如图1所示，一种基于图卷积自编码的生物医学关系抽取方法，包括以下步骤：

步骤1、使用生物领域的文本信息，将基于通用领域获得的Glove英文词向量进行训练，获得词向量表示。引入位置信息后，得到最终的词表示。

步骤2、将上一步骤中获得的词向量输入到上下文编码器，捕获向量序列中的上下文信息。为了获取句子中跨度较远词的特征，获取长依赖的，有效的上下文信息，将步骤1得到的词向量按照公式输入到每个LSTM的单元中，得到不同LSTM单元的隐层表示h_i。LSTM的隐藏层主要包含三个门控机制：在t时刻的输入门i_t、遗忘门f_t和输出门O_t。LSTM隐藏层的计算通过公式(1)～(5)进行描述：

i_t＝σ(W_ix_t+U_ih_t-1+V_ic_t-1) (1)

f_t＝σ(W_fx_t+U_fh_t-1+V_fc_t-1) (2)

O_t＝σ(W_ox_t+U_oh_t-1+V_oc_t-1) (3)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1) (4)

h_t＝o_t*tanh(c_t) (5)

其中，c_t表示当前记忆单元，c_t-1表示上一层记忆单元，h_t表示隐层状态节点，h_t-1代表前一个隐层状态节点，x_t表示当前时刻t的输入，σ表示激活函数，W_i、U_i、V_i表示输入门权重矩阵，W_f、U_f、V_f表示遗忘门权重矩阵，W_o、U_o、V_o表示输出门权重矩阵，W_c、U_c表示记忆单元权重矩阵。将前向和后向序列的最后一个单元的隐层状态输出拼接，作为这个单词的隐层状态表示，通过公式(6)进行描述：

将双向LSTM层数设置为1层，输出维度设置为300维，两层神经网络之间设置dropout函数防止过拟合，dropout值设置为0.5；

步骤3、采用多头注意力-卷积自编码器(Muti-Head Attention-ConvolutionalAutoencoder)的端到端训练模型,可以进行软剪枝，有效提取特征。

(a)采用多头注意力机制以端到端的方式获得权重图，权重图代表依存树中节点之间的权重信息。将原始依存树转化为一个完全连通的权重图，每条边的权重视为节点之间关系的强度。因为节点之间的关系通过邻接矩阵表示，所以每一个邻接矩阵A对应于一个完全连通的图。为从不同角度捕捉关系特征，采用多头注意力机制，注意力机制的头数对应子空间的个数，获得不同子空间的特征，构建多个邻接矩阵，构建依存森林。第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分，然后通过softmax函数归一化，即将有限项离散概率分布的梯度对数归一化，获得权重图。可以通过公式(7)进行描述；

其中，Q,K分别为查询向量序列，键向量序列，是缩放因子，/>和/>第k个头的可训练权重矩阵，/>

(b)为进一步挖掘丰富的依赖信息，采用卷积自编码器对步骤a获得的邻接矩阵进一步编码，进行特征的提取。利用编码器来提取特征，利用解码器进行重构，从而提高依存树中有效信息的利用率。编码器采用卷积层和池化层，共包含3层卷积，每个卷积操作的滤波器大小和步长分别是1×1和1。将多头注意力机制生成N个子空间表示的邻接矩阵A⁽¹⁾,A⁽²⁾,A⁽³⁾作为一个整体特征A^*∈R^N×l×l输入编码器得到改变的邻接矩阵，l表示句子的长度，N表示输入编码器的通道数。将编码器输出的邻接矩阵输入解码器，解码器使用逆卷积方法，共包含3个逆卷积层，最后通过激活函数进行激活，得到维度和通道数与输入卷积自编码器的编码器矩阵相同的邻接矩阵。通过改变通道数捕获其余子空间的特征信息，使得邻接矩阵关注图更多的结构信息。

其中，编码器通过公式(8)进行描述：

A′^*＝σ₁(A^**ω₁+b₁) (8)解码器通过公式(9)进行描述：

其中，ω₁和ω₂为权重矩阵，b₁和b₂分别为编码器和解码器的偏置，σ₁和σ₂分别为编码器和解码器的激活函数，A′^*和分别表示经过编码器和解码器获得的邻接矩阵。使用Adam作为优化器，通过网络模型训练后，得到包含更多信息的临界矩阵。

步骤4、应用图卷积网络(GCN)编码依存森林中的长距离依赖特征。将所述单词的隐层状态表示和经过卷积自编码器获得的邻接矩阵作为GCN层的输入。为了进一步编码子空间表示，邻接矩阵被输入到N个单独的图卷积网络中。具体来说，在计算第k个邻接矩阵l层节点i的卷积计算，根据邻接矩阵，使用第l-1层的卷积向量计算第l层的卷积向量。当向量/>与权重矩阵/>计算后，与邻接矩阵/>相乘加上偏置，通过ReLU函数进行激活，代表着节点i获取了邻居节点的特征。通过多层叠加，能够有效利用多层邻居的信息，获得了包含邻居节点及更远节点特征的节点表示。这样经过图卷积网络编码了依存森林中的长距离依赖特征。通过公式(10)进行描述：

步骤5、将上述步骤训练得到模型输出的不同子空间的结果进行串联，获得整合所有子空间信息的输出向量，再通过全连接获得节点的输出向量，通过公式(11)进行描述：

h_com＝W_comh_all+b_com (11)

选择分类器对生物医学关系进行识别，通过以上步骤在权重图基础上应用GCN模型经过全连接后，得到所有标记的表示h_com。将上述步骤获得的输出向量h_com，进行maxpooling聚合特征,获得句子表示的向量。取出依存图节点中表示实体的节点，将该节点信息作为实体信息，对每个节点的进行maxpooling，得到节点i的实体表示。本发明将句子表示和实体表示进行拼接，以获得用于分类目的的最终节点表示，通过公式(12)进行描述：

h_final＝[h_sent；e₁；…；e_i] (12)

用Softmax进行分类获得在关系标签上的概率分布，识别生物医学文本中的关系类型。本文的模型在训练过程中使用交叉熵损失函数。

本发明方法所采用的评价指标是精确度(accuracy)。为了验证本发明提出模型的有效性，本发明在Peng提出的数据集进行实验，根据原始数据进行分区后采用五折交叉验证形式进行验证。

将本发明提出模型结果与AGGCN和LF-GCN两个模型结果进行比较，证明精度的提升，其中AGGCN模型是2019年由Guo等人提出的通过注意力矩阵构建依存森林的生物医学关系抽取模型，LF-GCN模型是2020年由Guo等人提出用矩阵树定理的变体自动诱导依赖结构的生物医学关系抽取模型。实验结果如表1所示:

表1

从表1的实验结果可以看出，本发明提出的模型在三元关系抽取中，在二分类和多分类的结果中都得到有效提升，其中三元关系的多分类关系抽取在LF-GCN的基础上提升3％，可以说明在捕获三元关系多分类抽取的特征更加准确，有效提升了关系抽取的精度。在二元关系抽取的多分类结果中也得到提升，虽然在跨句二元关系抽取的二分类结果上，本模型比LF-GCN结果相差0.2个百分点，但我们模型提高了关系抽取的效率。

表2

我们在单个NVIDIA TITAN XP GPU上进行测试，以50作为batch size得到表2的结果。从表2的实验结果可以看出，在训练和验证过程中，我们的模型速度有较大提升，证明模型提高了医学关系抽取的效率。

本发明方法具有以下优点：使用端到端的训练方法，可以自动的学习依存森林中的结构特征；提出多头注意力-卷积自编码器的特征提取模型，通过引入卷积自编码器可以更有效地捕获依存信息；在提高关系抽取精确度基础上，提升了关系抽取效率，增强了实际应用价值。本发明在Peng提出的跨句级别生物医学关系抽取语料的测试集上取得良好效果。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种基于图卷积自编码的生物医学关系抽取方法，其特征在于包括以下步骤：

步骤8、获得在关系标签上的概率分布，识别生物医学文本中的关系类型；

步骤3中依存森林第k棵树的邻接矩阵具体计算方法是将当前词与文档中的每一个词计算一个得分，然后通过softmax函数进行归一化，将有限项离散概率分布的梯度对数归一化，获得权重图，通过公式(7)描述邻接矩阵；

其中，Q、K分别表示查询向量序列，键向量序列，是缩放因子，/>和/>表示第k个头的可训练权重矩阵，/>的权重矩阵维度都是d*d；

步骤4中编码器采用卷积层和池化层，共包含3层卷积，每个卷积操作的滤波器大小和步长分别是1×1和1，将多头注意力机制生成N个子空间表示的邻接矩阵A⁽¹⁾,A⁽²⁾,A⁽³⁾作为一个整体特征A^*输入编码器得到改变的邻接矩阵，l表示句子的长度，N表示输入编码器的通道数，A^*∈R^N×l×l，维度为N×l×l；将编码器输出的邻接矩阵输入解码器，解码器使用逆卷积方法，共包含3个逆卷积层，最后通过激活函数进行激活，得到通道数和维数与输入卷积自编码器的编码器矩阵相同的邻接矩阵，通过改变通道数捕获其余子空间的特征信息，使得邻接矩阵关注图更多的结构信息；

编码器通过公式(8)进行描述：

A'^*＝σ₁(A^**ω₁+b₁) (8)

解码器通过公式(9)进行描述：

其中，ω₁和ω₂分别为卷积核与反卷积核，b₁和b₂分别为编码器和解码器的偏置，σ₁和σ₂分别为编码器和解码器的激活函数，A'^*和分别表示经过编码器和解码器获得的邻接矩阵。

2.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤2中将步骤1得到的词向量输入到每个LSTM单元中，得到不同LSTM单元的隐层表示h_i，将当前单词前向和后向序列的最后一个单元隐层状态输出拼接，作为当前单词隐层状态表示。

3.如权利要求2所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤2中双向LSTM层数设置为1层，输出维度设置为300维，两层神经网络之间设置dropout函数防止过拟合，dropout值设置为0.5。

4.如权利要求2所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤2中LSTM单元的隐藏层主要包含三个门控机制：

在t时刻的输入门i_t、遗忘门f_t和输出门O_t，

LSTM隐藏层的计算通过公式(1)～(5)进行描述：

i_t＝σ(W_ix_t+U_ih_t-1+V_ic_t-1) (1)

f_t＝σ(W_fx_t+U_fh_t-1+V_fc_t-1) (2)

O_t＝σ(W_ox_t+U_oh_t-1+V_oc_t-1) (3)

c_t＝f_t*c_t-1+i_t*tanh(W_cx_t+U_ch_t-1) (4)

h_t＝o_t*tanh(c_t) (5)

表示单词的隐层状态表示，/>表示后向序列的最后一个单元隐层状态输出，表示前向序列的最后一个单元隐层状态输出，/>表示拼接。

5.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤5中计算第k个邻接矩阵l层节点i的卷积，根据邻接矩阵，使用第l-1层的卷积向量计算第l层的卷积向量，当向量/>与权重矩阵/>计算后，再与邻接矩阵/>相乘，加上偏置，通过ReLU函数进行激活，代表着节点i获取了邻居节点的特征；通过多层叠加，获得包含邻居节点及更远节点特征的节点表示，图卷积网络编码依存森林中的长距离依赖特征，通过公式(10)进行描述：

6.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤6中通过公式(11)进行描述：

h_com＝W_comh_all+b_com (11)

7.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤7中通过公式(12)进行描述：

h_final＝[h_sent；e₁；…；e_i] (12)

8.如权利要求1所述的基于图卷积自编码的生物医学关系抽取方法，其特征在于，步骤8中用Softmax进行分类获得在关系标签上的概率分布。