CN115238700B

CN115238700B - 基于多任务学习的生物医学实体抽取方法

Info

Publication number: CN115238700B
Application number: CN202210989050.1A
Authority: CN
Inventors: 卢禹炜; 杨洋; 严文颖
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2024-07-26
Anticipated expiration: 2042-08-17
Also published as: CN115238700A

Abstract

本发明公开了一种基于多任务学习的生物医学实体抽取方法，本发明基于多任务学习的生物医学实体抽取方法通过多任务实体抽取模型进行实体抽取，将第一预训练语言模型作为共享的编码层，来学习各个子任务的共同语义特征，并将学习的语义特征共享给各个子任务，以加强模型之间的联系并减少对训练数据量的依赖，并通过各个交互式指针网络解码层学习各个子任务特有的特征信息，多任务实体抽取模型可以并行地从文本中抽取多种类别的实体，从而可以更快地、准确地完成任务。

Description

基于多任务学习的生物医学实体抽取方法

技术领域

本发明涉及信息抽取技术领域，特别涉及一种基于多任务学习的生物医学实体抽取方法。

背景技术

当前生物医学领域的相关研究资料在不断增加，PubMed已有3400多万的医学文献引用。这些医学文献包含着海量的知识，记录着最新的医学研究进展，但是医学文献以文本的形式存储知识，研究人员在查阅资料时会花费较多的时间。当前开始逐渐使用医学知识图谱来组织和管理知识，研究人员可以方便地检索内容，也可以基于医学知识图谱开发药物发现、知识问答及数据分析平台等应用。但是当前构建医学知识图谱由医学相关的专家手动地从文本资料中抽取知识，可以保证数据内容的准确性，但是会花费较高的人工成本和时间成本，并且需要后期维护和更新数据内容。因此自动地从文本资料中抽取结构化知识构建医学知识图谱是当前的重要研究方向。

实体抽取(Entity Extraction,EE)的目标是从医学文本中正确地抽取出医学实体。早期方法主要是基于词典和规则，根据具体任务要求来人工地构建，此类方法泛化性比较差。近年来深度学习方法被广泛应用，Kocaman等人基于双向长短期记忆网络-卷积神经网络(BiLSTM-CNN)构建混合模型用于医学实体抽取任务。该方法使用预训练的词嵌入来获取词表征，但是词表征不包含上下文信息。Xu等人使用预训练语言模型BERT从文本中提取上下文语义特征，然后基于BERT和BiLSTM-CRF构建混合模型完成生物医学实体抽取任务。上述基于深度学习的实体抽取方法采用单任务学习方式训练模型，并没有关注各个任务之间的关联性。

在生物医学领域中，实体名称普遍存在同义词的情况，例如Cancer的同义词有Tumor、Neoplasm、Malignancy等等。实体标准化目标是将表示同一实体的不同实体名称建立起映射关系，此任务也被称为实体链接、实体消岐等。在构建医学知识图谱时一般会从多个知识来源中获取知识，可能会使用不同的名称来表示同一个实体。因此实体标准化是一个重要的任务，这可以有效地减少医学知识图谱的冗余性和歧义性。早期主要是基于规则和词典的方法，根据词形变换规则、词典映射完成任务，此类方法的精确率较高但是召回率较低。当前逐渐使用深度学习方法，使用预训练语言模型得到实体名称的实体表征，然后通过计算实体表征之间的相似度来完成任务。Sung等人提出了BioSyn模型，使用BioBERT对实体名称进行编码得到表征，称为密集表征。BioSyn除了使用密集表征，额外引入了实体的字形特征，使用词频-逆向文件频率(Term Frequency–Inverse Document Frequency，TF-IDF)计算得到稀疏表征。将密集表征与稀疏表征进行加权求和得到实体表征。Liu等人构建了专用于实体标准化的预训练语言模型SapBERT，使得实体表征额外包含同义词信息。上述基于深度学习的实体标准化模型同样采用单任务学习方式训练模型，忽略子任务之间的关联性。因此，存在准确率低的问题。

发明内容

本发明要解决的技术问题是提供一种准确率高的基于多任务学习的生物医学实体抽取方法。

为了解决上述问题，本发明提供了一种基于多任务学习的生物医学实体抽取方法，所述基于多任务学习的生物医学实体抽取方法包括以下步骤：

S1、获取一段医学文本；

S2、将医学文本输入多任务实体抽取模型，利用多任务实体抽取模型从医学文本中抽取实体；

其中，所述多任务实体抽取模型包括第一预训练语言模型和多个交互式指针网络解码层，每个交互式指针网络解码层对应一个子任务，每个子任务对应目标实体类别的实体抽取，所述交互式指针网络解码层包括中间层、起始层、线性交互层和结束层；医学文本输入所述第一预训练语言模型得到文本表征，所述中间层对文本表征进行特征提取和降维后输入所述起始层，所述起始层得到实体开始表征，所述实体开始表征输入所述线性交互层得到交互表征，交互表征与文本表征进行求和并输入所述结束层得到实体结束表征，将实体开始表征和实体结束表征进行解码得到实体的开始边界和结束边界，完成从文本中抽取实体。

作为本发明的进一步改进，所述多任务实体抽取模型包括八个交互式指针网络解码层，分别对应基因/蛋白质、化合物/药物、疾病、DNA、RNA、细胞类型、细胞系、物种共八种实体类别的实体抽取。

作为本发明的进一步改进，所述第一预训练语言模型采用BioBERT。

作为本发明的进一步改进，还包括以下步骤：

S3、为不同的实体类别分别构建对应的医学词典，每个实体由ID标识；

S4、构建多任务实体标准化模型，将抽取的实体输入所述多任务实体标准化模型，并输出得到实体密集表征；

S5、计算出实体稀疏表征，将实体密集表征与实体稀疏表征进行加权求和得到实体表征，分别计算出抽取的实体和医学词典中所有实体的实体表征，通过内积计算它们之间的相似度，从而得到抽取的实体在医学词典中的ID。

作为本发明的进一步改进，所述多任务实体标准化模型包括第二预训练语言模型和多个Bert层，每个Bert层对应一个子任务，每个子任务对应目标类别的实体标准化；将抽取的实体输入所述第二预训练语言模型得到实体上下文表征，并根据实体类别将实体上下文表征输入到对应的Bert层，Bert层输出得到实体密集表征。

作为本发明的进一步改进，所述第二预训练语言模型采用SapBERT。

作为本发明的进一步改进，步骤S5中，利用TF-IDF算法计算出实体稀疏表征。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任意一项所述方法的步骤。

本发明的有益效果：

本发明基于多任务学习的生物医学实体抽取方法通过多任务实体抽取模型进行实体抽取，将第一预训练语言模型作为共享的编码层，来学习各个子任务的共同语义特征，并将学习的语义特征共享给各个子任务，以加强模型之间的联系并减少对训练数据量的依赖，并通过各个交互式指针网络解码层学习各个子任务特有的特征信息，多任务实体抽取模型可以并行地从文本中抽取多种类别的实体，从而可以更快地、准确地完成任务。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明优选实施例中多任务实体抽取模型的结构示意图；

图2是本发明优选实施例中多任务实体标准化模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

实施例一

本实施例公开了一种基于多任务学习的生物医学实体抽取方法，包括以下步骤：

S1、获取一段医学文本；

通常的，实体抽取模型由编码层和解码层组成。编码层从文本中提取语义特征，解码层根据语义特征来抽取出存在的实体。实体抽取方法常用的解码层有MLP，CRF以及PN。MLP使用全局特征信息预测实体标签。CRF通过局部特征信息预测实体的标签。例如，在BIO标注模式下，如果预测当前单词的标签为B，则CRF预测后面相邻单词的标签为I的概率更大。由于CRF的解码速度较慢，训练会花费较长的时间。PN由两个独立的模块组成，分别用于预测实体的开始边界和结束边界。特别地，在抽取医学实体时，实体的开始边界和结束边界之间存在着一定的关联，因此本发明基于指针网络提出交互式指针网络(InteractivePointer Network,IPN)，将预测实体开始边界的特征信息用于预测实体结束边界。

具体地，本发明中多任务实体抽取模型包括第一预训练语言模型和多个交互式指针网络(Interactive Pointer Network,IPN)解码层，每个交互式指针网络解码层对应一个子任务，每个子任务对应目标实体类别的实体抽取，所述交互式指针网络解码层包括中间层(Middle Layer)、起始层(Start Layer)、线性交互层(Interactive Linear Layer)和结束层(End Layer)，参照图1。具体地，中间层包括线性层、Dropout层及ReLU激活函数。

医学文本输入所述第一预训练语言模型得到文本表征，所述中间层对文本表征进行特征提取和降维后输入所述起始层，所述起始层得到实体开始表征，所述实体开始表征输入所述线性交互层得到交互表征，交互表征与文本表征进行求和并输入所述结束层得到实体结束表征，将实体开始表征和实体结束表征进行解码得到实体的开始边界和结束边界，完成从文本中抽取实体。

在本实施例中，所述多任务实体抽取模型包括八个交互式指针网络解码层，分别对应基因/蛋白质(Gene/Protein)、化合物/药物(Chemical/Drug)、疾病(Disease)、DNA、RNA、细胞类型(Cell type)、细胞系(Cell line)、物种(Species)共八种实体类别的实体抽取。

当前预训练语言模型已经得到广泛的关注，自BERT(Bidirectional EncoderRepresentation from Transformers)模型的提出，预训练语言模型在各个领域得到应用。BERT基于Transformer模型架构，通过深层网络和自注意力机制，使得模型可以从文本中提取深层次的语义特征。BERT通过自监督任务完成模型参数的更新和优化。相比于预训练的词嵌入，预训练语言模型得到的文本表征包含上下文信息，可以提高模型的性能。BioBERT与BERT模型架构相同，使用来自PubMed和PMC的医学文献作为语料集。相比于BERT，在生物医学领域的多个任务中取得更优实验结果。本发明中在实体抽取模型中使用BioBERT作为预训练语言模型。用于学习各个子任务的共同语义特征，并将这些特征共享给每个子任务，这可以加强模型之间的联系并减少对训练数据量的依赖。在实体抽取任务中，识别目标类别的实体是一个子任务，每种实体类别分别对应一个IPN解码层，将编码层输出的共享特征输入到每个解码层，使得交互式指针网络解码层学习到每个子任务特有的特征信息。

在一些实施例中，本发明一种基于多任务学习的生物医学实体抽取方法还包括以下步骤：

可选地，本发明中从5个数据库收集相关内容，共构建了6个医学词典，词典内容统计如表1所示。例如对于疾病实体和化合物实体，从医学主题词表(Medical SubjectHeadings,MeSH)中收集医学实体的同义词，然后构建得到词典。

表1生物医学词典内容统计

所述多任务实体标准化模型包括第二预训练语言模型和多个Bert层，每个Bert层对应一个子任务，每个子任务对应目标类别的实体标准化；将抽取的实体输入所述第二预训练语言模型得到实体上下文表征，并根据实体类别将实体上下文表征输入到对应的Bert层，Bert层输出得到实体密集表征。参照图2。其中，模型利用实体的语义特征和字形特征完成实体之间相似度的计算，相比于利用单一特征，可以取得更好的实验结果。

通常地，BioBERT、BERT等模型适用于自然语言处理领域的绝大多数任务，训练模型所使用的语料集为文本。此外，通常也会为特定任务构建预训练语言模型，Liu等人基于度量学习构建了专用于实体标准化的预训练模型SapBERT。SapBERT的语料集来自统一医学语言系统(Unified Medical Language System，UMLS)，将UMLS ID与实体名称组合为(name,UMLS ID)，然后基于度量学习完成模型的自监督训练。本发明在实体标准化模型中使用SapBERT作为预训练语言模型。SapBERT作为共享模型，每个BertLayer对应特定子任务，共计5个子任务。

S5、计算出实体稀疏表征，将实体密集表征与实体稀疏表征进行加权求和得到实体表征，分别计算出抽取的实体和医学词典中所有实体的实体表征，通过内积计算它们之间的相似度，从而得到抽取的实体在医学词典中的ID。可选地，利用TF-IDF算法计算出实体稀疏表征。

为了验证本发明的有效性，在生物医学领域7个公共数据集及5个私有数据集上训练和评估模型，公开数据集的统计如表2所示。

由于生物医学领域实体标准化数据集较少，在已得到医学词典的基础上构建私有实体标准化数据集。首先从词典中随机选择实体名称，然后按照一定的规则进行转变，主要是大小写的转变、单词的随机替换或删除。这些规则可以让模型使用这些数据集训练之后更具有鲁棒性和泛化性。最终共得到6个私有数据集，训练集共6000个实体，测试集共4000个实体。

表2公开数据集统计

深度学习框架Pytorch1.7.0搭建实验模型。预训练语言模型使用BioBERT-Basev1.1与SapBERT，隐藏层维度设为768，输入序列长度为512。训练集的批次大小为32，学习率为1e-5，优化器为Adam，训练轮数为15。Middle Layer和Interactive Layer的维数设为128，Dropout率设为0.2。

实体抽取任务使用F1值作为评测指标。实体标准化任务使用Hits@k来评估模型性能，Hits@k表示在预测的k个结果中存在正确结果的概率，k为1时等价于准确率。

解码层IPN、PN、CRF及MLP的实验比较如表3所示，从中可以看出IPN的实验结果优于其他三种解码层，在8个数据集上的平均F1值分别比PN、CRF、MLP高0.3％、0.57％、1.04％。这证明了IPN解码层的有效性，通过将实体开始边界的特征信息用于预测实体的结束边界，促进了特征之间的交互，从而提高了模型的实验效果。

表3不同解码层的性能对比

为了验证多任务实体抽取模型(Multi-Task Entity Extraction Model,MT-EEM)的有效性，使用每个数据集训练对应的单任务实体抽取模型(Single-Task EntityExtraction Model，ST-EEM)。ST-EEM与MT-EEM的实验比较结果如表4所示，从表中看出MT-EEM的实验结果明显优于ST-EEM。MT-EEM在五个数据集上的性能表现更优，平均F1值比ST-EEM高0.59％。这证明了多任务学习方式在实体抽取任务中的有效性。

表4 ST-EEM与MT-EEM的性能比较

BERN2是常用的生物医学实体抽取工具，其共有两个版本，这里对比的版本是使用BioBERT作为预训练语言模型。MTM-CW是基于BiLSTM-CRF的多任务实体抽取模型，由于数据集的不统一，这里仅作参考作用。MT-EEM与BERN2及MTM-CW的实验对比结果如表5所示，从中可以看出MT-EEM的实验结果优于BERN2，平均F1值比BERN2高0.7％。BERN2同样采用多任务学习方式，但是解码层使用MLP，因此这也证明IPN解码层的有效性。此外，MTM-CW使用预训练的词嵌入获取词表征，这证明BioBERT获取的词表征可以使得模型取得更好的性能。

表5与其他实体抽取模型的性能比较

多任务实体标准化模型(Multi-Task Entity Normalization Model,MT-ENM)首先在3个公开的数据集上完成训练与评估。单任务实体标准化模型(Single-Task EntityNormalization Model,ST-ENM)的实验结果来自SapBERT论文，SapBERT在多个数据集上取得了目前最高的性能表现。MT-ENM和ST-ENM在公共数据集的实验比较结果如表6所示，从中看出MT-ENM的实验结果优于ST-ENM，在两个任务上Hits@1值高于ST-ENM。但是在NCBI-disease数据集上MT-ENM的性能表现比较低，原因可能是子任务的数量较少，并没有充分地利用子任务之间的特征信息。

表6ST-ENM与MT-ENM在公开数据集的性能比较

多任务实体抽取模型可识别8种实体类别，因此多任务实体标准化模型在已构建的5个私有数据集进行训练与评估。MT-ENM与ST-ENM的实验比较如表7所示，MT-ENM在三个任务上取得更佳的性能表现，平均Hits@1值为94.52％，比ST-ENM高0.47％。MT-ENM共有5个子任务，使得共享模型学习到更多促进子任务的特征信息。这证明当子任务数量越多的时候，多任务实体标准化模型可以取得更佳的实验结果。

由于Species实体对应的NCBI-Taxonomy词典数据内容过多，暂时无法完成模型的训练与评估，因此MT-ENM只在5个私有数据集上完成训练和评估。

表7 ST-ENM与MT-ENM在私有数据集的性能比较

本发明提出了基于多任务学习的生物医学实体抽取模型和实体标准化模型。相比于单任务学习方式，多任务学习方式可以提高模型的实验结果以及减少模型的训练时间。特别地，当子任务数量较多时，多任务模型的参数量会远少于单任务模型从而可以快速地准确地从医学文献中抽取结构化知识，完成自动构建医学知识图谱。在实体抽取任务中提出的交互式指针网络相比于其他的解码层取得了更优的实验结果。

实施例二

本实施例公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实施例一中所述基于多任务学习的生物医学实体抽取方法的步骤。

实施例三

本实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例一中所述基于多任务学习的生物医学实体抽取方法的步骤。

以上实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.基于多任务学习的生物医学实体抽取方法，其特征在于，包括以下步骤：

S1、获取一段医学文本；

S5、计算出实体稀疏表征，将实体密集表征与实体稀疏表征进行加权求和得到实体表征，分别计算出抽取的实体和医学词典中所有实体的实体表征，通过内积计算它们之间的相似度，从而得到抽取的实体在医学词典中的ID；

其中，所述多任务实体抽取模型包括第一预训练语言模型和多个交互式指针网络解码层，每个交互式指针网络解码层对应一个子任务，每个子任务对应目标实体类别的实体抽取，所述交互式指针网络解码层包括中间层、起始层、线性交互层和结束层；医学文本输入所述第一预训练语言模型得到文本表征，所述中间层对文本表征进行特征提取和降维后输入所述起始层，所述起始层得到实体开始表征，所述实体开始表征输入所述线性交互层得到交互表征，交互表征与文本表征进行求和并输入所述结束层得到实体结束表征，将实体开始表征和实体结束表征进行解码得到实体的开始边界和结束边界，完成从文本中抽取实体；

所述多任务实体标准化模型包括第二预训练语言模型和多个Bert层，每个Bert层对应一个子任务，每个子任务对应目标类别的实体标准化；将抽取的实体输入所述第二预训练语言模型得到实体上下文表征，并根据实体类别将实体上下文表征输入到对应的Bert层，Bert层输出得到实体密集表征。

2.如权利要求1所述的基于多任务学习的生物医学实体抽取方法，其特征在于，所述多任务实体抽取模型包括八个交互式指针网络解码层，分别对应基因/蛋白质、化合物/药物、疾病、DNA、RNA、细胞类型、细胞系、物种共八种实体类别的实体抽取。

3.如权利要求1所述的基于多任务学习的生物医学实体抽取方法，其特征在于，所述第一预训练语言模型采用BioBERT。

4.如权利要求1所述的基于多任务学习的生物医学实体抽取方法，其特征在于，所述第二预训练语言模型采用SapBERT。

5.如权利要求1所述的基于多任务学习的生物医学实体抽取方法，其特征在于，步骤S5中，利用TF-IDF算法计算出实体稀疏表征。

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5中任意一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5任意一项所述方法的步骤。