CN113868374B

CN113868374B - 基于多头注意力机制的图卷积网络生物医学信息提取方法

Info

Publication number: CN113868374B
Application number: CN202111083061.5A
Authority: CN
Inventors: 李辰; 吴佳伦; 林思源; 张若楠; 龚铁梁; 汤凯雯
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2024-04-12
Anticipated expiration: 2041-09-15
Also published as: CN113868374A

Abstract

一种基于多头注意力机制的图卷积网络生物医学信息提取方法，首先建立基于多头注意力机制的图卷积网络模型；然后对该混合模型进行训练；再对模型进行优化，调整参数，得到最终模型；最后使用最终模型进行生物医学文本中的关系提取以及病理报告的特征提取；本发明在提高关系抽取的性能的能够同时有效降低噪声数据的影响，有效地保留了生物医学文本中长距离信息中有价值的内容；使用迁移学习方法处理不同格式和写作风格的病理报告，具有良好的通用性和可重用性；应用于以癌症病理报告为数据源的信息与关系提取，识别效果好，通用性强，有效提高病理检测效率。

Description

基于多头注意力机制的图卷积网络生物医学信息提取方法

技术领域

本发明属于生物医学信息提取技术领域，涉及一种使用图卷积网络的文本信息提取方法，具体涉及基于多头注意力机制的图卷积网络生物医学信息提取方法。

背景技术

癌症是人类健康的第一杀手，表型作为一种重要且容易观察的癌症形态学特征，为认识这一复杂事物提供了宝贵的窗口，而病理报告为研究表型形态学定义，以及恶性程度的重要数据资源，需要自动从中抽取表型与诊断的关系，对海量病人病理报告进行信息抽取和语义理解。然而，病理表型的复杂性以及诊断逻辑的复杂性使得相应的描述是以长难句的形式存在于病理报告中，这对基于自然语言处理技术的关系提取任务带来了很大的挑战。针对这一问题，学者们进行了广泛的研究，提出了多种方法。现有方法依赖传统神经网络对长难句实现关系提取，主要采用卷积神经网络或循环神经网络，但是传统神经网络对于过长句子处理一直存在瓶颈，随着句子长度不断变长，性能不断下降，难以满足病理场景下关系抽取任务的要求。

现有技术主要基于循环神经网络、卷积神经网络进行医学文本信息提取，然而，病理报告包括了长文本以及复杂描述，因而跨句子的实体难以被检测，这将导致关键信息在提取中很容易被遗漏。与传统机器学习和神经网络方法相比，图神经网络能够依靠句子之间的依赖结构捕捉不相邻的句子中的语义语法信息，然而，使用现有方法依然很难分辨文本特征的相关性。

发明内容

为了克服现有技术中存在的问题，本发明的目的在于提供一种基于多头注意力机制的图卷积网络生物医学文本信息提取方法，能够较好地满足病理场景下文本关系提取任务的需求，应用于以癌症病理报告为数据源的信息与关系提取，识别效果好，通用性强，有效提高病理检测效率。

为实现以上目的，本发明通过如下技术方案实现：

一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，具体包括以下步骤：

步骤1.建立基于多头注意力机制的图卷积网络模型：

1.1利用python将生物医学文本序列输入初始化层，生成词向量；对于给定的输入的生物医学文本，使用BioBERT预训练模型，得到输入生物医学文本中每个词生物特征，并利用每个词汇在生物医学文本中的位置信息特征和每个词自己独有的词性信息特征，将以上每个词对应的三种不同特征联系起来，初始化层的输出为每个词三种特征的组合；

1.2Bi-LSTM层：由前向LSTM与后向LSTM组合而成，将词的表示组合成句子的表示，通过Bi-LSTM捕捉句子从前到后、从后到前的双向语义依赖；

Bi-LSTM层从步骤1.1的初始化层的输出获得特征组合，并从特征组合中获取相隔距离较远的生物医学文本信息，捕捉双向的语义依赖，然后输出具有语义依赖信息的生物医学文本信息；

1.3多头注意力机制层：

引入Self-Attention，通过Self-Attention对步骤1.2中输出的具有语义依赖信息的生物医学文本信息，在计算过程中将生物医学文本信息的句子中任意两个单词联系起来，使长距离依赖特征之间的距离被缩短利用，然后应用自注意力机制获取其中长距离生物医学文本信息的相互依赖的特征，通过多头注意力机制中多个独立的单个注意力机制的计算，通过线性转换，构建多个依赖关系树输出；

1.4图卷积网络层：

图卷积网络层将步骤1.3输出结果的每一个句子中具有语义依赖的单词进行提取，并对其中长距离的相互依赖的特征聚合生成新的长距离生物医学文本信息输出；

1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起，结合后的生物医学文本信息通过DropOut和SoftMax层得到用于生物医学文本信息分类的结果；

步骤2.训练步骤1建立的图卷积神经网络模型，计算该模型训练测试得到的结果和真实结果的误差，并进一步训练图卷积神经网络模型；

步骤3.优化步骤2得到的图卷积神经网络模型，得到最终对于确定任务的深度学习的图卷积神经网络模型的参数；

步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的生物医学文本的信息提取。

所述步骤1.2中通过Bi-LSTM层获得文本特征与长距离文本关系信息的具体过程如下：

其中，h_t-1为前一个隐藏状态的输出，w_t为在t时刻当前状态的输入，h_t为当前时间t的隐藏状态，和/>分别表示前向和反向LSTM模型的输出，/>为连接操作，最终隐藏状态h_t是前向和反向LSTM模型的连接。

所述步骤1.3中Bi-LSTM层的隐藏输出是多头注意力层的输入，多头注意力层对于每个从Bi-LSTM层输入的内容，给定查询Q、键K和值V，通过以下标度点积计算方法获得注意力分数：

其中，d为隐藏单元输出的维度；

前向和反向LSTM模型通过多头注意力机制学到不同种类的信息，由于多头注意力机制包含h个头，最终多头注意层将把每一个头连接为：

Multihead(Q，K，V)＝Concat(head₁，head₂，...，head_h，)W。

所述步骤1.4的具体方法为：对步骤1.3的输出结果，根据词与词之间的依赖关系，通过图卷积网络构建三种类型的边的图：基于语义的图、基于语法的图以及基于序列的图，并对图卷积网络，采取图内传播与图间传播的传播学习，计算如下：

其中h_j ^(l-1)为图卷积网络层的输出，d_i为三种类型边的图的节点i在图中的度，b^(j)与b^(l)是偏置项，b^(j)与b^(l)激活函数f为非线性函数。

所述步骤1.5中，在得到多头注意力层与图卷积网络层的输出特征结果后，先对二者进行最大池化操作，然后将其拼接结合，再送入softmax函数，得到用于文本信息分类的结果。

所述步骤2的具体方法为：通过迁移学习，提高模型对不同机构的病理报告分析的适用性，首先在主数据集TCGA上训练步骤1建立的模型，其次在目标医院数据集上TFAH通过微调模型参数，再次训练迁移模型的参数，然后将TFAH作为主数据集，TCGA作为目标数据集，再次训练模型；

使用选取的生物医学文本及病理报告数据集对步骤2中训练好的模型进行调参与测试，并使用k折交叉验证方法对训练好的模型进行正确性验证：

采用准确率P、召回率R和F得分F作为模型性能的评估参数，根据评估结果调整模型的超参数以对其进行调整优化，选取最优超参数，从而得到最优模型，其计算方法如下：

其中，TP、FN和FP分别代表真阳性、假阴性和假阳性；F得分是准确率和召回率的调和平均值。

与现有技术相比，本发明具有的有益效果在于：

本发明从生物医学文本和非结构化病理报告中进行关系提取的混合神经网络，以图卷积网络为基础，引入多头注意力机制用以捕获句子中的复杂关系和上下文信息，完成关系提取的任务。

首先，使用GCN来获得基于语义、语法和序列的图表示，以提高关系抽取的性能；其次，使用多头注意力机制，可以有效降低噪声数据的影响，在不丢失有价值信息的前提下获得相对重要的上下文特征；第三，将多头注意力机制与GCN相结合可以进一步提高模型的性能。

实验表明，本发明的模型在两大生物医学关系抽取语料库和跨医院泛癌病理报告语料库上都有很好的表现，在七种不同的癌症特征提取中取得了85.3％的识别效果(F得分)，效果大幅优于其他传统模型；通过评估本发明在迁移学习环境下的适用性，表明本发明在处理不同格式和写作风格的病理报告方面取得了良好的效果。

进一步的，本发明用于提取生物医学文本中的关系，包括化学物质、疾病关系(CDR)和化学物质、蛋白质相互作用(CPI)以及在跨医院的癌症病理报告语料库中进行特征提取。

进一步的，在实际情况下，描述性病理报告的格式和写作风格在不同医院风格差别较大，本发明使用迁移学习方法，可以证明该模型的通用性和可重用性得到了提高。

进一步的，本发明通过使用图卷积神经网络和多头注意力机制，提高了跨句子的关系抽取效率，同时降低了噪声数据造成的影响。

附图说明

图1是本发明中进行关系提取的混合神经网络模型。

具体实施方式

下面结合具体实施例和附图，对本发明做进一步的详细说明。

步骤1.建立基于多头注意力机制的图卷积网络模型：

1.1利用python将生物医学文本序列输入初始化层，生成词向量；对于给定的输入的生物医学文本，使用BioBERT预训练模型得到输入生物医学文本中每个词生物特征，并利用每个词汇在生物医学文本中的位置信息特征和每个词自己独有的词性信息特征，将以上每个词对应的三种不同特征联系起来，初始化层的输出为每个词三种特征的组合；

1.2Bi-LSTM(Bi-directional Long Short-Term Memory双向长短期记忆网络)层：由前向LSTM与后向LSTM组合而成，在自然语言处理任务中都常被用来建模上下文信息；将词的表示组合成句子的表示，可以采用相加的方法，即将所有词的表示进行加和或者取平均等方法，但是这些方法没有考虑到词语在句子中前后顺序。使用LSTM模型可以更好的捕捉到较长距离的依赖关系；因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息；但是利用LSTM对句子进行建模还存在一个问题：无法编码从后到前的信息。在更细粒度的分类时，如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务需要注意情感词、程度词、否定词之间的交互；通过Bi-LSTM可以更好的捕捉句子从前到后、从后到前的双向语义依赖；

Bi-LSTM从初始化层的输出获得特征组合，并从特征组合中获取相隔距离较远的文本信息，更好的捕捉双向的语义依赖，Bi-LSTM层的输出是具有语义依赖信息的文本信息；

1.3多头注意力机制层：注意力机制：相比于RNN或者LSTM：引入Self-Attention后会更容易捕获句子中长距离的相互依赖的特征。因为如果是RNN或者LSTM，需要依次序序列计算，对于远距离的相互依赖的特征，要经过若干时间步步骤的信息累积才能将两者联系起来，而距离越远，有效捕获的可能性越小。但是Self-Attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来，所以远距离依赖特征之间的距离被极大缩短，有利于有效地利用这些特征；除此外，Self-Attention对于增加计算的并行性也有直接帮助作用；

多头注意力机制中多头的本质是多个独立的单个注意力机制的计算，作为一个集成的作用，防止过拟合；通过线性转换，每个注意力机制函数只负责最终输出序列中一个子空间；

引入Self-Attention，通过Self-Attention对步骤1.2中输出的具有语义依赖信息的生物医学文本信息，在计算过程中将生物医学文本信息的句子中任意两个单词的联系起来，使长距离依赖特征之间的距离被缩短利用，然后应用自注意力机制获取其中长距离生物医学文本信息的相互依赖的特征，通过多头注意力机制中多个独立的单个注意力机制的计算，通过线性转换，构建多个依赖关系树进行输出；

1.4图卷积网络层：卷积网络的本质是通过滤波器来对某个空间区域的像素点进行加权求和,得到新的特征表示的过程，加权系数就是卷积核的参数；

1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起，结合后的文本信息通过DropOut和SoftMax层得到用于生物医学文本信息分类的结果；

步骤2.训练步骤1建立的图卷积神经网络模型，计算该模型训练测试得到的结果和真实结果的误差并进一步训练图卷积神经网络模型；

步骤3.优化步骤2得到的图卷积神经网络模型，得到最终对于确定任务的深度学习的图卷积神经网络模型的参数；具体操作为本领域所熟知，不再赘述；

步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的生物医学文本的信息提取；具体操作为本领域所熟知，不再赘述。

所述步骤1.2中，Bi-LSTM模型可以更好地捕捉双向语义依赖和长距离依赖，自动高效地学习潜在的输入序列的特征；通过Bi-LSTM层获得文本特征与长距离生物医学文本关系信息的具体过程如下：

所述步骤1.3中，由于生物医学关系提取任务中，不同的特征权重不同，为了突出相对重要的特征，我们引入多头注意力机制，用以生成不同的子空间并减少噪音数据带来的影响；多头注意力机制的本质是自注意机制的多重应用，模型从不同的表示子空间中学习相对重要的特征；Bi-LSTM层的隐藏输出是多头注意力层的输入，多头注意力层对于每个从Bi-LSTM层输入的内容，给定查询Q、键K和值V，通过以下标度点积计算方法获得注意力分数：

其中，d为隐藏单元输出的维度。

Multihead(Q，K，V)＝Concat(head₁，head₂，...，head_h，)W。

所述步骤1.5中，在得到多头注意力层与图卷积网络层的输出特征结果后，先对二者进行了最大池化操作，然后将其拼接结合，再送入softmax函数，得到用于文本信息分类的结果。

所述步骤2的具体方法为：通过迁移学习提高模型对不同机构的病理报告分析的适用性，首先在主数据集TCGA上训练步骤1建立的模型，其次在目标医院数据集上TFAH通过微调模型参数，再次训练迁移模型的参数，然后将TFAH作为主数据集，TCGA作为目标数据集，再次训练模型。

k折交叉验证指：将上述生物医学文本及病理报告数据集分为k份，每次将其中k-1份作为训练数据集，其余一份另1份作为测试数据集，在测试数据集上进行测试获得验证结果，经过k次测试后获得验证结果；最后汇总所有验证结果，得到最终结果；

为了评估不同的模型的准确性，采用准确率(P)、召回率(R)和F得分(F)作为模型性能的评估参数，根据评估结果调整模型的超参数以对其进行调整优化，选取最优超参数，从而得到最优模型，其计算方法如下：

实施例1

基于多头注意力机制使用图卷积网络的生物医学信息提取方法，应用于如下场景：

数据集：采用两种公开的生物医学数据集：CDR语料库和Chemprot语料库，同时，构建一个癌症病理报告的跨机构数据集，特征如下，CDR语料库：化学物质与疾病之间是否存在关系。

Chemprot语料库：化学物与蛋白质之间是否存在关系；

癌症病理报告：包括癌症种类、肿瘤切除位置、最大肿瘤直径、组织学亚型、组织学级别、TNM分期和淋巴结转移情况。

具体步骤如下：

1.对数据集的文本数据信息建立基于多头注意力机制的图卷积网络模型

1.1使用python实现初始化层，利用BioBERT预训练模型中的词向量将词和对应的特征进行拼接，输出词嵌入向量和位置嵌入的连接；

1.2使用python实现Bi-LSTM层；

1.3使用python实现多头注意力层，应用自注意力机制获取词之间关系的权重；

1.4使用python构建GCN层；

1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起。

步骤2.训练步骤1建立的图卷积神经网络模型，计算该模型训练测试得到的结果和真实结果的误差并进一步训练网络；每次将10％的数据作为测试集，其余90％的数据作为训练集；将验证结果保存。

步骤3.优化图卷积神经网络模型，得到最终对于确定任务的深度学习的图卷积神经网络模型的参数，根据步骤2中的结果，计算准确率(Precison)、召回率(Recall)和F得分(F-score)，将其作为评价指标对验证结果进行评价，并不断调整图卷积神经网络模型超参数以优化评价指标。

步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的医学文本的信息提取。

Claims

1.一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，其特征在于，具体包括以下步骤：

步骤1.建立基于多头注意力机制的图卷积网络模型：

1.2 Bi-LSTM层：由前向LSTM与后向LSTM组合而成，将词的表示组合成句子的表示，通过Bi-LSTM捕捉句子从前到后、从后到前的双向语义依赖；

1.3多头注意力机制层：

引入Self-Attention，通过Self-Attention对步骤1.2中输出的具有语义依赖信息的生物医学文本信息，在计算过程中将生物医学文本信息的句子中任意两个单词的联系起来，使长距离依赖特征之间的距离被缩短利用，然后应用自注意力机制获取其中长距离生物医学文本信息的相互依赖的特征，通过多头注意力机制中多个独立的单个注意力机制的计算，通过线性转换，构建多个依赖关系树输出；

1.4图卷积网络层：

2.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，其特征在于，所述步骤1.2中通过Bi-LSTM层获得文本特征与长距离生物医学文本关系信息的具体过程如下：

其中，h_t-1为前一个隐藏状态的输出，w_t为在t时刻当前状态的输入，h_t为当前时间t的隐藏状态，和/>分别表示前向和反向LSTM模型的输出，⊕为连接操作，最终隐藏状态h_t是前向和反向LSTM模型的连接。

3.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，其特征在于，所述步骤1.3中Bi-LSTM层的隐藏输出是多头注意力层的输入，多头注意力层对于每个从Bi-LSTM层输入的内容，给定查询Q、键K和值V，通过以下标度点积计算方法获得注意力分数：

其中，d为隐藏单元输出的维度；

Multihead(Q,K,V)＝Concat(head_i,head_z,...,head_h,)W。

4.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，其特征在于，所述步骤1.4的具体方法为：对步骤1.3的输出结果，根据词与词之间的依赖关系，通过图卷积网络构建三种类型的边的图：基于语义的图、基于语法的图以及基于序列的图，并对图卷积网络，采取图内传播与图间传播的传播学习，计算如下：

5.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，其特征在于，所述步骤1.5中，在得到多头注意力层与图卷积网络层的输出特征结果后，先对二者进行了最大池化操作，然后将其拼接结合，再送入softmax函数，得到用于文本信息分类的结果。

6.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法，其特征在于，所述步骤2的具体方法为：通过迁移学习提高模型对不同机构的病理报告分析的适用性，首先在主数据集TCGA上训练步骤1建立的模型，其次在目标医院数据集上TFAH通过微调模型参数，再次训练迁移模型的参数，然后将TFAH作为主数据集，TCGA作为目标数据集，再次训练模型；