CN111428036B

CN111428036B - 一种基于生物医学文献的实体关系挖掘方法

Info

Publication number: CN111428036B
Application number: CN202010208715.1A
Authority: CN
Inventors: 陈铭; 陈琦; 周银聪; 胡大辉; 吴文怡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2022-05-27
Anticipated expiration: 2040-03-23
Also published as: US20230007965A1; CN111428036A; WO2021190236A1

Abstract

本发明公开了一种基于生物医学文献的实体关系挖掘方法，包括以下步骤：(1)在公共数据库中查询疾病相关的生物医学文献，经数据预处理后，获得生物医学文本数据；(2)结合正则匹配模版和深度学习模型，对得到的生物医学文本数据进行生物医学命名实体识别；(3)基于实体识别结果，采用迁移学习和强化学习的方法对实体关系进行挖掘。本发明通过从网络上获取疾病相关的生物医学文献，抽取出摘要和标题并进行实体识别和关系挖掘，可有效地识别出文献中的生物医学名词实体，并挖掘出各类实体之间潜藏的关系。

Description

一种基于生物医学文献的实体关系挖掘方法

技术领域

本发明属于文本数据挖掘技术领域，尤其是涉及一种基于生物医学文献的实体关系挖掘方法。

背景技术

随着生物医学技术的飞速发展，目前生物医学文献的数量正在以前所未有的速度爆炸式增长。生物医学研究人员面对着海量的文献数据库，有效的信息获取已成为一项艰巨的任务。非编码RNA和蛋白质编码基因是疾病研究中的重要对象。研究成果中揭示的基因、非编码RNA、蛋白质等与疾病的潜在关系能够帮助生物学家更有效得探索生命发生、健康维系以及疾病救治的奥秘。目前大多数从生物医学文献中挖掘构建的数据库由领域专家以人工方式编纂而成。然而，面对指数型增加的文献数量，人工收集的方式存在着很大的局限性。

随着深度学习模型的发展，深度学习模型在文本数据处理领域已经有了广泛的使用，如CN110750640A的中国专利文献公开了一种基于神经网络模型的文本分类方法，包括：收集文本数据，对所述文本数据进行预处理操作，得到预处理后的文本数据；将所述预处理后的文本数据转换为文本向量；利用基于决策树优化的BP神经网络分类模型对所述文本向量进行特征选择，得到初始文本特征；根据上述得到的初始文本特征，利用随机梯度下降算法与fine-turing方法训练所述BP神经网络分类模型，直到得到最佳的文本特征；根据所述最佳的文本特征，利用分类器对所述文本数据进行分类，输出所述文本数据的分类结果。

公开号为CN109710763A的中国专利文献公开了一种文本数据的分类方法，包括：获取文本数据集；对所述文本数据集进行预处理，形成训练数据集；构建深度神经网络模型；基于所述训练数据集对所述深度神经网络模型进行训练；使用训练完成的深度神经网络模型，对待分类的文本数据进行分类识别。

近年来，深度学习模型在生物医学文本挖掘任务中取得了比较好的效果，但是深度学习方法需要巨大的训练数据集。由于构建大型的生物医学文本训练集成本非常高，限制了深度学习应用于生物医学文本挖掘的发展。因此，目前疾病相关的数据库普遍以人工收集、基于模板为主，未能充分利用深度学习模型来挖掘实体关系，严重依赖机器学习复杂的特征工程。

发明内容

为解决现有技术存在的上述问题，本发明提供了一种基于生物医学文献的实体关系挖掘方法，可有效地识别出文献中的生物医学名词实体，并挖掘出各类实体之间潜藏的关系。

一种基于生物医学文献的实体关系挖掘方法，包括以下步骤：

(1)在公共数据库中查询疾病相关的生物医学文献，经数据预处理后，获得生物医学文本数据；

(2)结合正则匹配模版和深度学习模型，对得到的生物医学文本数据进行生物医学命名实体识别；

(3)基于实体识别结果，采用迁移学习和强化学习的方法对实体关系进行挖掘。

本发明通过从网络上获取疾病相关的生物医学文献，抽取出摘要和标题并进行实体识别和关系挖掘，可有效地识别出文献中的生物医学名词实体，并挖掘出各类实体之间潜藏的关系。

步骤(1)中，所述的数据预处理具体为：

获取生物医学文献的摘要文本数据，过滤掉文本数据的网页html标签、期刊信息等，并移除过长或过短的摘要；采用Stanford CoreNLP工具包对文本进行分句，最终获得所需的高质量的生物医学文本数据。

步骤(2)的具体步骤为：

交叉引用现有的生物医学数据库构建非编码RNA实体词字典，设计正则匹配模板，对得到的生物医学文本数据进行非编码RNA的实体识别；

构建并训练双向LSTM-CRF神经网络模型，对得到的生物医学文本进行疾病和基因实体识别。

所述的双向LSTM-CRF神经网络模型包括输入层、双向LSTM层、全连接层和CRF层：

第一层是输入层，每个句子被表示成一串由向量组成的序列：X＝(e₁,…e_i,…,e_n)，作为模型的输入，其中e代表每个词的分布式表示，n表示句子的长度；在双向LSTM层中，将每一步前向和后向的隐向量进行拼接后输出到全连接层，得到每一步对应各个标签的概率；全连接层的结果作为发射概率输入CRF层，解码出所有可能的标签序列中的最佳标签序列。

所述的双向LSTM-CRF神经网络模型进行疾病和基因实体识别时的输入特征为：

单词特征，分词后的词语本身；

词性特征，词性标注器所标注的多种词性；

字符特征，例如大小写、拼写规律等，模型输入端随机初始化后，通过模型训练自动学习得到；

分块特征，为词语组合。

命名实体识别为监督学习的方法，采用标注数据训练获得疾病和基因命名实体识别的有效神经网络模型。

步骤(3)的具体步骤为：

(3-1)整合生物医学数据库中与疾病相关的关系实例作为非标准化任务创建的标记数据集，利用实体对齐的方法，构建具有丰富关系类别的实体关系训练数据集，包括基因-疾病关系数据集和非编码RNA-疾病关系数据集；

(3-2)使用单关系对抽取模型进行单关系分类任务；所述的单关系对抽取模型基于生物医学领域的BioBERT模型，通过使用实体关系训练数据集对该模型进行微调后得到；

(3-3)使用多关系对抽取模型进行多关系分类任务；所述的多关系对抽取模型采用编码器-解码器的框架，并使用强化学习辅助训练来优化三元组解码顺序；

(3-4)从公开的疾病、基因、非编码RNA的数据库中挖掘实体属性，对三元组信息对进行筛选，整合疾病-基因关系、疾病-非编码RNA关系数据，利用图数据库—Neo4j对数据进行存储和查询。

步骤(3-1)中，进行实体对齐时，对于无法对齐的标注实体，使用实体字典，获得标注实体的同义词，再用同义词集合匹配句子中的词语。

步骤(3-3)中，使用强化学习辅助训练来优化三元组解码顺序具体为：

解码器读取编码器产生的语义向量，在生成每个三元组时，解码器首先生成关系类别，接着采用复制机制，直接从源语句中复制第一个实体，作为头实体，紧接着从源语句复制第二个实体，作为尾部实体；每三个输出为一个三元组，之后解码器会生成下一个三元组的关系类别、头实体和尾实体，或者结束解码。当一个实体需要参与不同的三元组时，该被解码器多次复制。

与现有技术相比，本发明具有以下有益效果：

1、本发明实现了从生物医学文本中自动化挖掘生物医学实体间的关系。通过利用标注数据进行模型训练，可以得到实体识别的有效模型，进而对大量医疗实体进行自动识别。在实体关系挖掘上，通过迁移学习的方式将已有的生物医学领域的预训练模型迁移到本发明的关系抽取任务上，对预训练网络参数进行了优化，极大得缩短了模型训练的时间和降低了训练所需的服务器资源，同时保持了良好的分类效果。对于生物医学文本中常见的关系重叠情况，本发明利用带有拷贝机制的端到端模型，同时处理了实体对重叠和单实体重叠这两种情况，并在后期训练中利用了强化学习的思想，优化了三元组抽取顺序。

2、疾病相关的关系抽取任务主要集中在与基因和药物两种实体类别的联系。非编码RNA是转录水平的产物，是生物医学领域越来越受关注的生物分子。本发明首次提出了非编码RNA-疾病关系挖掘的框架，自动从文献中挖掘出疾病相关的非编码RNA，并对两者关系进行了细致的分类。

附图说明

图1为本发明一种基于生物医学文献的实体关系挖掘方法的流程示意图；

图2为本发明中双向LSTM-CRF神经网络模型的整体框架示意图；

图3为本发明中单关系对抽取模型的的示意图；

图4为本发明中多关系对抽取模型的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于生物医学文献的实体关系挖掘方法，包括：生物医学文献数据获取，生物医学实体识别，实体关系挖掘。

对从公共数据库上下载得到的生物医学文献进行预处理。其中具有与附录、勘误、或收回相匹配的类别的文章被丢弃，摘要过长或者过短的文章也被移除。部分文章存在多余的html标签，期刊信息，实验登记信息，我们利用基于规则的方法将这些冗余的无效信息删除。合并每一篇文献的标题和摘要信息作为原始的非结构化文本数据。

分句和分词是大部分信息抽取任务的标准预处理流程。本实施例使用StanfordCoreNLP，一组用Java编写的自然语言分析工具对文本进行分句和分词。对于英文而言，分词通常以空格和标点符号作为切分点。

采Stanford CoreNLP工具包对文本进行分句，获得高质量的生物医学文本数据；

结合正则匹配模版和深度学习模型，进行生物医学命名实体识别，步骤具体为：

交叉引用现有的生物医学数据库构建非编码RNA实体词字典，设计了有效的正则匹配模板，进行非编码RNA的实体识别。

在提取的生物医学文本中通过双向LSTM-CRF神经网络模型的特征，进行疾病和基因实体识别。

双向LSTM-CRF神经网络模型的输入特征如下：

单词特征，分词后的词语本身；

词性特征，词性标注器所标注的多种词性；

字符特征，大小写、拼写规律等，模型输入端随机初始化后，通过模型训练自动学习得到；

分块特征，词语组合；

命名实体识别的数据标注采用BIO模型，采用标注数据训练获得疾病和基因命名实体识别的有效神经网络模型。

模型训练的目标是对于给定的一个句子，输出句子中每一个词的标签。双向LSTM-CRF模型的整体框架如图2所示：第一层是输入层，每个句子被表示成一串由向量组成的序列：X＝(e₁,…e_i,…,e_n)，作为模型的输入，其中e代表每个词的分布式表示，n表示句子的长度。在双向LSTM层中，fw为前向传播的LSTM层隐状态，bw为反向传播的LSTM层隐状态。将每一步的前向和后向的隐向量进行拼接，得到H＝(h₁,…h_i,…h_n)，输出到一个大小为[隐藏层维度，标签类别数]的全连接层，得到每一步对应各个标签的概率。该层的结果作为发射概率输入CRF层，解码所有可能的标签序列中的最佳标签序列。在训练阶段，模型的目标是使正确标签序列的对数概率最大化。在解码阶段，预测获得最大分数的最佳标签路径。

基于实体识别结果，采用迁移学习和强化学习的方法对实体关系进行挖掘，步骤具体为：

整合来自生物医学数据库中描述疾病相关的关系实例作为非标准化任务创建的标记数据集，利用实体对齐的思想，构建了具有丰富关系类别的基因-疾病关系数据集和非编码RNA-疾病关系数据集。对于那些无法对齐的标注实体，借助实体字典，获得标注实体的同义词，再用同义词集合匹配句子中的词语。能够匹配上同义词集合中的词语即为标注实体，其中，实体字典的构建来源于多个数据库的数据整合。

单关系对抽取任务采用迁移学习的方式，如图3所示。BERT模型是在公开领域的数据集(新闻文章和维基百科)上训练而成，并不适合生物医学文本的挖掘应用。BioBERT模型基于BERT，在英文的维基百科数据和书籍数据预训练的基础上，进一步在生物医学文本(PMC全文和Pubmed文献摘要)进行训练。基于上述生物医学预训练模型，利用基因-疾病关系数据集，非编码RNA-疾病关系数据集对模型进行微调，获得疾病相关的生物医学关系抽取模型。关系分类数据集的构建基于其他非标准化任务创建的标记数据集。基因-疾病关系参考了Disgenet数据库，非编码RNA-疾病关系参考了三种数据库，分别为LncRNADisease、MNDR、DEXTER。利用基因和疾病术语库中的同义词字典，将标注的实体和实例句子中的词语对齐，构建具有丰富关系类别的基因-疾病关系数据集和非编码RNA-疾病关系数据集。

多关系对抽取模型如图4所示。使用在生物医学文本上微调后的BERT模型产生词向量，作为编码器GRU的输入。解码器读取编码器产生的语义向量直接生成三元组信息。在生成每个三元组时，解码器首先生成关系类别，接着采用复制机制，直接从源语句中复制第一个实体，作为头实体，紧接着从源语句复制第二个实体，作为尾部实体。以此类推，解码器这可以提取多个三元组。当一个实体需要参与不同的三元组时，它可以被解码器多次复制。

上述关系抽取模型为强化学习中的策略，用于生成三元组数据，动作是在每个时间步中生成的。模型假设更好的抽取顺序可以产生更多有效的三元组。奖励与生成的三元组有关，生成的正确的三元组越多，奖励就越高。强化学习将获得的奖励反馈给关系抽取模型，更新参数进行策略优化，形成一种循环式的学习过程。

通过直接下载及爬虫技术，获取HGNC和CTD数据库中基因和疾病信息作为属性内容。基因的属性包括名称，NCBI GENE中的ID号，类别，染色体上的位置信息，序列信息，别名，家族类别以及在其他数据库中的ID号等。疾病的属性包括名称，MEDIC中的ID号，定义，别名，分类系统中的父类别以及在其他数据库中的ID号(MESH，DO)等。非编码RNA实体主要参考mirBase，LNCipedia，circBase数据库中信息。使用图数据库—Neo4j作为疾病-基因/非编码RNA关联信息存储的数据库。

将本方法应用在6万余篇生物医学文献，最终获得15万余条疾病-基因关系对和11万余条疾病-非编码RNA关系对。其中包括近2万个疾病实体，1.6万个基因实体，1.2万个非编码RNA实体，有效地挖掘出了各类实体之间潜藏的关系。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于生物医学文献的实体关系挖掘方法，其特征在于，包括以下步骤：

(3)基于实体识别结果，采用迁移学习和强化学习的方法对实体关系进行挖掘；具体步骤为：

(3-4)从公开的疾病、基因、非编码RNA的数据库中挖掘实体属性，对三元组信息对进行筛选，整合疾病-基因关系、疾病-非编码RNA关系数据，利用图数据库对数据进行存储和查询。

2.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法，其特征在于，步骤(1)中，所述的数据预处理具体为：

获取生物医学文献的摘要文本数据，过滤掉文本数据的网页html标签和期刊信息，并移除过长或过短的摘要；采用Stanford CoreNLP工具包对文本进行分句，最终获得所需的生物医学文本数据。

3.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法，其特征在于，步骤(2)的具体步骤为：

4.根据权利要求3所述的基于生物医学文献的实体关系挖掘方法，其特征在于，所述的双向LSTM-CRF神经网络模型包括输入层、双向LSTM层、全连接层和CRF层：

5.根据权利要求3所述的基于生物医学文献的实体关系挖掘方法，其特征在于，所述的双向LSTM-CRF神经网络模型进行疾病和基因实体识别时的输入特征为：

单词特征，分词后的词语本身；

词性特征，词性标注器所标注的多种词性；

字符特征，包括大小写、拼写规律，模型输入端随机初始化后，通过模型训练自动学习得到；

分块特征，为词语组合。

6.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法，其特征在于，步骤(3-1)中，进行实体对齐时，对于无法对齐的标注实体，使用实体字典，获得标注实体的同义词，再用同义词集合匹配句子中的词语。

7.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法，其特征在于，步骤(3-3)中，使用强化学习辅助训练来优化三元组解码顺序具体为：

解码器读取编码器产生的语义向量，在生成每个三元组时，解码器首先生成关系类别，接着采用复制机制，直接从源语句中复制第一个实体，作为头实体，紧接着从源语句复制第二个实体，作为尾部实体；每三个输出为一个三元组，之后解码器生成下一个三元组的关系类别、头实体和尾实体，或者结束解码。