CN111428036B - 一种基于生物医学文献的实体关系挖掘方法 - Google Patents

一种基于生物医学文献的实体关系挖掘方法 Download PDF

Info

Publication number
CN111428036B
CN111428036B CN202010208715.1A CN202010208715A CN111428036B CN 111428036 B CN111428036 B CN 111428036B CN 202010208715 A CN202010208715 A CN 202010208715A CN 111428036 B CN111428036 B CN 111428036B
Authority
CN
China
Prior art keywords
entity
biomedical
relation
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010208715.1A
Other languages
English (en)
Other versions
CN111428036A (zh
Inventor
陈铭
陈琦
周银聪
胡大辉
吴文怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010208715.1A priority Critical patent/CN111428036B/zh
Publication of CN111428036A publication Critical patent/CN111428036A/zh
Priority to US17/780,649 priority patent/US20230007965A1/en
Priority to PCT/CN2021/077892 priority patent/WO2021190236A1/zh
Application granted granted Critical
Publication of CN111428036B publication Critical patent/CN111428036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于生物医学文献的实体关系挖掘方法,包括以下步骤:(1)在公共数据库中查询疾病相关的生物医学文献,经数据预处理后,获得生物医学文本数据;(2)结合正则匹配模版和深度学习模型,对得到的生物医学文本数据进行生物医学命名实体识别;(3)基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘。本发明通过从网络上获取疾病相关的生物医学文献,抽取出摘要和标题并进行实体识别和关系挖掘,可有效地识别出文献中的生物医学名词实体,并挖掘出各类实体之间潜藏的关系。

Description

一种基于生物医学文献的实体关系挖掘方法
技术领域
本发明属于文本数据挖掘技术领域,尤其是涉及一种基于生物医学文献的实体关系挖掘方法。
背景技术
随着生物医学技术的飞速发展,目前生物医学文献的数量正在以前所未有的速度爆炸式增长。生物医学研究人员面对着海量的文献数据库,有效的信息获取已成为一项艰巨的任务。非编码RNA和蛋白质编码基因是疾病研究中的重要对象。研究成果中揭示的基因、非编码RNA、蛋白质等与疾病的潜在关系能够帮助生物学家更有效得探索生命发生、健康维系以及疾病救治的奥秘。目前大多数从生物医学文献中挖掘构建的数据库由领域专家以人工方式编纂而成。然而,面对指数型增加的文献数量,人工收集的方式存在着很大的局限性。
随着深度学习模型的发展,深度学习模型在文本数据处理领域已经有了广泛的使用,如CN110750640A的中国专利文献公开了一种基于神经网络模型的文本分类方法,包括:收集文本数据,对所述文本数据进行预处理操作,得到预处理后的文本数据;将所述预处理后的文本数据转换为文本向量;利用基于决策树优化的BP神经网络分类模型对所述文本向量进行特征选择,得到初始文本特征;根据上述得到的初始文本特征,利用随机梯度下降算法与fine-turing方法训练所述BP神经网络分类模型,直到得到最佳的文本特征;根据所述最佳的文本特征,利用分类器对所述文本数据进行分类,输出所述文本数据的分类结果。
公开号为CN109710763A的中国专利文献公开了一种文本数据的分类方法,包括:获取文本数据集;对所述文本数据集进行预处理,形成训练数据集;构建深度神经网络模型;基于所述训练数据集对所述深度神经网络模型进行训练;使用训练完成的深度神经网络模型,对待分类的文本数据进行分类识别。
近年来,深度学习模型在生物医学文本挖掘任务中取得了比较好的效果,但是深度学习方法需要巨大的训练数据集。由于构建大型的生物医学文本训练集成本非常高,限制了深度学习应用于生物医学文本挖掘的发展。因此,目前疾病相关的数据库普遍以人工收集、基于模板为主,未能充分利用深度学习模型来挖掘实体关系,严重依赖机器学习复杂的特征工程。
发明内容
为解决现有技术存在的上述问题,本发明提供了一种基于生物医学文献的实体关系挖掘方法,可有效地识别出文献中的生物医学名词实体,并挖掘出各类实体之间潜藏的关系。
一种基于生物医学文献的实体关系挖掘方法,包括以下步骤:
(1)在公共数据库中查询疾病相关的生物医学文献,经数据预处理后,获得生物医学文本数据;
(2)结合正则匹配模版和深度学习模型,对得到的生物医学文本数据进行生物医学命名实体识别;
(3)基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘。
本发明通过从网络上获取疾病相关的生物医学文献,抽取出摘要和标题并进行实体识别和关系挖掘,可有效地识别出文献中的生物医学名词实体,并挖掘出各类实体之间潜藏的关系。
步骤(1)中,所述的数据预处理具体为:
获取生物医学文献的摘要文本数据,过滤掉文本数据的网页html标签、期刊信息等,并移除过长或过短的摘要;采用Stanford CoreNLP工具包对文本进行分句,最终获得所需的高质量的生物医学文本数据。
步骤(2)的具体步骤为:
交叉引用现有的生物医学数据库构建非编码RNA实体词字典,设计正则匹配模板,对得到的生物医学文本数据进行非编码RNA的实体识别;
构建并训练双向LSTM-CRF神经网络模型,对得到的生物医学文本进行疾病和基因实体识别。
所述的双向LSTM-CRF神经网络模型包括输入层、双向LSTM层、全连接层和CRF层:
第一层是输入层,每个句子被表示成一串由向量组成的序列:X=(e1,…ei,…,en),作为模型的输入,其中e代表每个词的分布式表示,n表示句子的长度;在双向LSTM层中,将每一步前向和后向的隐向量进行拼接后输出到全连接层,得到每一步对应各个标签的概率;全连接层的结果作为发射概率输入CRF层,解码出所有可能的标签序列中的最佳标签序列。
所述的双向LSTM-CRF神经网络模型进行疾病和基因实体识别时的输入特征为:
单词特征,分词后的词语本身;
词性特征,词性标注器所标注的多种词性;
字符特征,例如大小写、拼写规律等,模型输入端随机初始化后,通过模型训练自动学习得到;
分块特征,为词语组合。
命名实体识别为监督学习的方法,采用标注数据训练获得疾病和基因命名实体识别的有效神经网络模型。
步骤(3)的具体步骤为:
(3-1)整合生物医学数据库中与疾病相关的关系实例作为非标准化任务创建的标记数据集,利用实体对齐的方法,构建具有丰富关系类别的实体关系训练数据集,包括基因-疾病关系数据集和非编码RNA-疾病关系数据集;
(3-2)使用单关系对抽取模型进行单关系分类任务;所述的单关系对抽取模型基于生物医学领域的BioBERT模型,通过使用实体关系训练数据集对该模型进行微调后得到;
(3-3)使用多关系对抽取模型进行多关系分类任务;所述的多关系对抽取模型采用编码器-解码器的框架,并使用强化学习辅助训练来优化三元组解码顺序;
(3-4)从公开的疾病、基因、非编码RNA的数据库中挖掘实体属性,对三元组信息对进行筛选,整合疾病-基因关系、疾病-非编码RNA关系数据,利用图数据库—Neo4j对数据进行存储和查询。
步骤(3-1)中,进行实体对齐时,对于无法对齐的标注实体,使用实体字典,获得标注实体的同义词,再用同义词集合匹配句子中的词语。
步骤(3-3)中,使用强化学习辅助训练来优化三元组解码顺序具体为:
解码器读取编码器产生的语义向量,在生成每个三元组时,解码器首先生成关系类别,接着采用复制机制,直接从源语句中复制第一个实体,作为头实体,紧接着从源语句复制第二个实体,作为尾部实体;每三个输出为一个三元组,之后解码器会生成下一个三元组的关系类别、头实体和尾实体,或者结束解码。当一个实体需要参与不同的三元组时,该被解码器多次复制。
与现有技术相比,本发明具有以下有益效果:
1、本发明实现了从生物医学文本中自动化挖掘生物医学实体间的关系。通过利用标注数据进行模型训练,可以得到实体识别的有效模型,进而对大量医疗实体进行自动识别。在实体关系挖掘上,通过迁移学习的方式将已有的生物医学领域的预训练模型迁移到本发明的关系抽取任务上,对预训练网络参数进行了优化,极大得缩短了模型训练的时间和降低了训练所需的服务器资源,同时保持了良好的分类效果。对于生物医学文本中常见的关系重叠情况,本发明利用带有拷贝机制的端到端模型,同时处理了实体对重叠和单实体重叠这两种情况,并在后期训练中利用了强化学习的思想,优化了三元组抽取顺序。
2、疾病相关的关系抽取任务主要集中在与基因和药物两种实体类别的联系。非编码RNA是转录水平的产物,是生物医学领域越来越受关注的生物分子。本发明首次提出了非编码RNA-疾病关系挖掘的框架,自动从文献中挖掘出疾病相关的非编码RNA,并对两者关系进行了细致的分类。
附图说明
图1为本发明一种基于生物医学文献的实体关系挖掘方法的流程示意图;
图2为本发明中双向LSTM-CRF神经网络模型的整体框架示意图;
图3为本发明中单关系对抽取模型的的示意图;
图4为本发明中多关系对抽取模型的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于生物医学文献的实体关系挖掘方法,包括:生物医学文献数据获取,生物医学实体识别,实体关系挖掘。
对从公共数据库上下载得到的生物医学文献进行预处理。其中具有与附录、勘误、或收回相匹配的类别的文章被丢弃,摘要过长或者过短的文章也被移除。部分文章存在多余的html标签,期刊信息,实验登记信息,我们利用基于规则的方法将这些冗余的无效信息删除。合并每一篇文献的标题和摘要信息作为原始的非结构化文本数据。
分句和分词是大部分信息抽取任务的标准预处理流程。本实施例使用StanfordCoreNLP,一组用Java编写的自然语言分析工具对文本进行分句和分词。对于英文而言,分词通常以空格和标点符号作为切分点。
采Stanford CoreNLP工具包对文本进行分句,获得高质量的生物医学文本数据;
结合正则匹配模版和深度学习模型,进行生物医学命名实体识别,步骤具体为:
交叉引用现有的生物医学数据库构建非编码RNA实体词字典,设计了有效的正则匹配模板,进行非编码RNA的实体识别。
在提取的生物医学文本中通过双向LSTM-CRF神经网络模型的特征,进行疾病和基因实体识别。
双向LSTM-CRF神经网络模型的输入特征如下:
单词特征,分词后的词语本身;
词性特征,词性标注器所标注的多种词性;
字符特征,大小写、拼写规律等,模型输入端随机初始化后,通过模型训练自动学习得到;
分块特征,词语组合;
命名实体识别的数据标注采用BIO模型,采用标注数据训练获得疾病和基因命名实体识别的有效神经网络模型。
模型训练的目标是对于给定的一个句子,输出句子中每一个词的标签。双向LSTM-CRF模型的整体框架如图2所示:第一层是输入层,每个句子被表示成一串由向量组成的序列:X=(e1,…ei,…,en),作为模型的输入,其中e代表每个词的分布式表示,n表示句子的长度。在双向LSTM层中,fw为前向传播的LSTM层隐状态,bw为反向传播的LSTM层隐状态。将每一步的前向和后向的隐向量进行拼接,得到H=(h1,…hi,…hn),输出到一个大小为[隐藏层维度,标签类别数]的全连接层,得到每一步对应各个标签的概率。该层的结果作为发射概率输入CRF层,解码所有可能的标签序列中的最佳标签序列。在训练阶段,模型的目标是使正确标签序列的对数概率最大化。在解码阶段,预测获得最大分数的最佳标签路径。
基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘,步骤具体为:
整合来自生物医学数据库中描述疾病相关的关系实例作为非标准化任务创建的标记数据集,利用实体对齐的思想,构建了具有丰富关系类别的基因-疾病关系数据集和非编码RNA-疾病关系数据集。对于那些无法对齐的标注实体,借助实体字典,获得标注实体的同义词,再用同义词集合匹配句子中的词语。能够匹配上同义词集合中的词语即为标注实体,其中,实体字典的构建来源于多个数据库的数据整合。
单关系对抽取任务采用迁移学习的方式,如图3所示。BERT模型是在公开领域的数据集(新闻文章和维基百科)上训练而成,并不适合生物医学文本的挖掘应用。BioBERT模型基于BERT,在英文的维基百科数据和书籍数据预训练的基础上,进一步在生物医学文本(PMC全文和Pubmed文献摘要)进行训练。基于上述生物医学预训练模型,利用基因-疾病关系数据集,非编码RNA-疾病关系数据集对模型进行微调,获得疾病相关的生物医学关系抽取模型。关系分类数据集的构建基于其他非标准化任务创建的标记数据集。基因-疾病关系参考了Disgenet数据库,非编码RNA-疾病关系参考了三种数据库,分别为LncRNADisease、MNDR、DEXTER。利用基因和疾病术语库中的同义词字典,将标注的实体和实例句子中的词语对齐,构建具有丰富关系类别的基因-疾病关系数据集和非编码RNA-疾病关系数据集。
多关系对抽取模型如图4所示。使用在生物医学文本上微调后的BERT模型产生词向量,作为编码器GRU的输入。解码器读取编码器产生的语义向量直接生成三元组信息。在生成每个三元组时,解码器首先生成关系类别,接着采用复制机制,直接从源语句中复制第一个实体,作为头实体,紧接着从源语句复制第二个实体,作为尾部实体。以此类推,解码器这可以提取多个三元组。当一个实体需要参与不同的三元组时,它可以被解码器多次复制。
上述关系抽取模型为强化学习中的策略,用于生成三元组数据,动作是在每个时间步中生成的。模型假设更好的抽取顺序可以产生更多有效的三元组。奖励与生成的三元组有关,生成的正确的三元组越多,奖励就越高。强化学习将获得的奖励反馈给关系抽取模型,更新参数进行策略优化,形成一种循环式的学习过程。
通过直接下载及爬虫技术,获取HGNC和CTD数据库中基因和疾病信息作为属性内容。基因的属性包括名称,NCBI GENE中的ID号,类别,染色体上的位置信息,序列信息,别名,家族类别以及在其他数据库中的ID号等。疾病的属性包括名称,MEDIC中的ID号,定义,别名,分类系统中的父类别以及在其他数据库中的ID号(MESH,DO)等。非编码RNA实体主要参考mirBase,LNCipedia,circBase数据库中信息。使用图数据库—Neo4j作为疾病-基因/非编码RNA关联信息存储的数据库。
将本方法应用在6万余篇生物医学文献,最终获得15万余条疾病-基因关系对和11万余条疾病-非编码RNA关系对。其中包括近2万个疾病实体,1.6万个基因实体,1.2万个非编码RNA实体,有效地挖掘出了各类实体之间潜藏的关系。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于生物医学文献的实体关系挖掘方法,其特征在于,包括以下步骤:
(1)在公共数据库中查询疾病相关的生物医学文献,经数据预处理后,获得生物医学文本数据;
(2)结合正则匹配模版和深度学习模型,对得到的生物医学文本数据进行生物医学命名实体识别;
(3)基于实体识别结果,采用迁移学习和强化学习的方法对实体关系进行挖掘;具体步骤为:
(3-1)整合生物医学数据库中与疾病相关的关系实例作为非标准化任务创建的标记数据集,利用实体对齐的方法,构建具有丰富关系类别的实体关系训练数据集,包括基因-疾病关系数据集和非编码RNA-疾病关系数据集;
(3-2)使用单关系对抽取模型进行单关系分类任务;所述的单关系对抽取模型基于生物医学领域的BioBERT模型,通过使用实体关系训练数据集对该模型进行微调后得到;
(3-3)使用多关系对抽取模型进行多关系分类任务;所述的多关系对抽取模型采用编码器-解码器的框架,并使用强化学习辅助训练来优化三元组解码顺序;
(3-4)从公开的疾病、基因、非编码RNA的数据库中挖掘实体属性,对三元组信息对进行筛选,整合疾病-基因关系、疾病-非编码RNA关系数据,利用图数据库对数据进行存储和查询。
2.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(1)中,所述的数据预处理具体为:
获取生物医学文献的摘要文本数据,过滤掉文本数据的网页html标签和期刊信息,并移除过长或过短的摘要;采用Stanford CoreNLP工具包对文本进行分句,最终获得所需的生物医学文本数据。
3.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(2)的具体步骤为:
交叉引用现有的生物医学数据库构建非编码RNA实体词字典,设计正则匹配模板,对得到的生物医学文本数据进行非编码RNA的实体识别;
构建并训练双向LSTM-CRF神经网络模型,对得到的生物医学文本进行疾病和基因实体识别。
4.根据权利要求3所述的基于生物医学文献的实体关系挖掘方法,其特征在于,所述的双向LSTM-CRF神经网络模型包括输入层、双向LSTM层、全连接层和CRF层:
第一层是输入层,每个句子被表示成一串由向量组成的序列:X=(e1,…ei,…,en),作为模型的输入,其中e代表每个词的分布式表示,n表示句子的长度;在双向LSTM层中,将每一步前向和后向的隐向量进行拼接后输出到全连接层,得到每一步对应各个标签的概率;全连接层的结果作为发射概率输入CRF层,解码出所有可能的标签序列中的最佳标签序列。
5.根据权利要求3所述的基于生物医学文献的实体关系挖掘方法,其特征在于,所述的双向LSTM-CRF神经网络模型进行疾病和基因实体识别时的输入特征为:
单词特征,分词后的词语本身;
词性特征,词性标注器所标注的多种词性;
字符特征,包括大小写、拼写规律,模型输入端随机初始化后,通过模型训练自动学习得到;
分块特征,为词语组合。
6.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(3-1)中,进行实体对齐时,对于无法对齐的标注实体,使用实体字典,获得标注实体的同义词,再用同义词集合匹配句子中的词语。
7.根据权利要求1所述的基于生物医学文献的实体关系挖掘方法,其特征在于,步骤(3-3)中,使用强化学习辅助训练来优化三元组解码顺序具体为:
解码器读取编码器产生的语义向量,在生成每个三元组时,解码器首先生成关系类别,接着采用复制机制,直接从源语句中复制第一个实体,作为头实体,紧接着从源语句复制第二个实体,作为尾部实体;每三个输出为一个三元组,之后解码器生成下一个三元组的关系类别、头实体和尾实体,或者结束解码。
CN202010208715.1A 2020-03-23 2020-03-23 一种基于生物医学文献的实体关系挖掘方法 Active CN111428036B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010208715.1A CN111428036B (zh) 2020-03-23 2020-03-23 一种基于生物医学文献的实体关系挖掘方法
US17/780,649 US20230007965A1 (en) 2020-03-23 2021-02-25 Entity relation mining method based on biomedical literature
PCT/CN2021/077892 WO2021190236A1 (zh) 2020-03-23 2021-02-25 一种基于生物医学文献的实体关系挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010208715.1A CN111428036B (zh) 2020-03-23 2020-03-23 一种基于生物医学文献的实体关系挖掘方法

Publications (2)

Publication Number Publication Date
CN111428036A CN111428036A (zh) 2020-07-17
CN111428036B true CN111428036B (zh) 2022-05-27

Family

ID=71555416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010208715.1A Active CN111428036B (zh) 2020-03-23 2020-03-23 一种基于生物医学文献的实体关系挖掘方法

Country Status (3)

Country Link
US (1) US20230007965A1 (zh)
CN (1) CN111428036B (zh)
WO (1) WO2021190236A1 (zh)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428036B (zh) * 2020-03-23 2022-05-27 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN111986818A (zh) * 2020-08-21 2020-11-24 南通大学 一种基于tmprss2的新冠covid-19治疗药物筛选系统
CN112036151B (zh) * 2020-09-09 2024-04-05 平安科技(深圳)有限公司 基因疾病关系知识库构建方法、装置和计算机设备
CN112287665B (zh) * 2020-10-19 2024-05-03 南京南邮信息产业技术研究院有限公司 基于自然语言处理和集成训练的慢病数据分析方法及系统
CN112256828B (zh) * 2020-10-20 2023-08-08 平安科技(深圳)有限公司 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN112364166B (zh) * 2020-11-02 2022-02-01 北京中科凡语科技有限公司 关系抽取模型的建立方法以及关系抽取方法
CN112395428B (zh) * 2020-12-01 2022-09-06 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN112685513A (zh) * 2021-01-07 2021-04-20 昆明理工大学 一种基于文本挖掘的Al-Si合金材料实体关系抽取方法
EP4318267A1 (en) * 2021-03-26 2024-02-07 BGI Genomics Co., Limited Method for constructing variation literature interpretation knowledge base, and interpretation method and electronic device
CN112906395B (zh) * 2021-03-26 2023-08-15 平安科技(深圳)有限公司 药物关系提取方法、装置、设备及存储介质
CN112967820B (zh) * 2021-04-12 2023-09-19 平安科技(深圳)有限公司 药性认知信息抽取方法、装置、设备及存储介质
CN113051922A (zh) * 2021-04-20 2021-06-29 北京工商大学 一种基于深度学习的三元组抽取方法及系统
CN113076432B (zh) * 2021-04-30 2024-05-03 平安科技(深圳)有限公司 文献知识脉络生成方法、装置及存储介质
CN113160917B (zh) * 2021-05-18 2022-11-01 山东浪潮智慧医疗科技有限公司 一种电子病历实体关系抽取方法
CN113095081A (zh) * 2021-06-11 2021-07-09 深圳市北科瑞声科技股份有限公司 疾病的识别方法及装置、存储介质、电子装置
CN113626567A (zh) * 2021-07-28 2021-11-09 上海基绪康生物科技有限公司 一种从生物医学文献中挖掘基因与疾病相关性信息的方法
CN113779995B (zh) * 2021-08-26 2023-07-18 北京科技大学 一种基于文本挖掘的科技文献数据自动抽取方法及系统
CN114139610B (zh) * 2021-11-15 2024-04-26 中国中医科学院中医药信息研究所 基于深度学习的中医药临床文献数据结构化方法及装置
CN114255877A (zh) * 2021-12-06 2022-03-29 北京华彬立成科技有限公司 靶点信息挖掘和检索方法、装置、电子设备和存储介质
CN114238524B (zh) * 2021-12-21 2022-05-31 军事科学院系统工程研究院网络信息研究所 基于增强样本模型的卫星频轨数据信息抽取方法
CN114373512A (zh) * 2021-12-28 2022-04-19 大连海事大学 基于高斯增强及辅助任务的蛋白质相互作用关系抽取方法
CN114444506B (zh) * 2022-01-11 2023-05-02 四川大学 一种融合实体类型的关系三元组抽取方法
CN114064938B (zh) * 2022-01-17 2022-04-22 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114662659B (zh) * 2022-03-11 2022-09-16 南京信息工程大学 一种基于多阶段迁移学习策略综合的众包文本集成方法
CN115169326A (zh) * 2022-04-15 2022-10-11 山西长河科技股份有限公司 一种中文关系抽取方法、装置、终端及存储介质
CN114708931B (zh) * 2022-04-22 2023-01-24 中国海洋大学 结合机器学习和构象计算提高药-靶活性预测精度的方法
CN115130468B (zh) * 2022-05-06 2023-04-07 北京安智因生物技术有限公司 基于字词融合表示与图注意力网络的心梗实体识别方法
CN115168599B (zh) * 2022-06-20 2023-06-20 北京百度网讯科技有限公司 多三元组抽取方法、装置、设备、介质及产品
CN114783559B (zh) * 2022-06-23 2022-09-30 浙江太美医疗科技股份有限公司 医学影像报告信息抽取方法、装置、电子设备和存储介质
CN114842982B (zh) * 2022-07-06 2022-09-23 广东省科技基础条件平台中心 一种面向医疗信息系统的知识表达方法、装置及系统
CN114913953B (zh) * 2022-07-19 2022-10-04 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN115270801B (zh) * 2022-09-28 2022-12-30 浙江太美医疗科技股份有限公司 文本信息抽取模型的训练方法、文本信息抽取方法和应用
CN115563250A (zh) * 2022-10-10 2023-01-03 江苏国光信息产业股份有限公司 一种医疗自助语音服务设备及方法
CN116070700A (zh) * 2023-02-02 2023-05-05 北京交通大学 融合迭代式主动学习的生物医学关系抽取方法及系统
CN116341554B (zh) * 2023-05-22 2023-08-29 中国科学技术大学 面向生物医学文本的命名实体识别模型的训练方法
CN116501830B (zh) * 2023-06-29 2023-09-05 中南大学 一种生物医学文本的重叠关系联合抽取方法及相关设备
CN117271800B (zh) * 2023-09-27 2024-05-03 数据空间研究院 一种专利的产业信息挖掘方法、挖掘系统及存储介质
CN117725222A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 融合知识图谱与大语言模型的文献复杂知识对象抽取方法
CN117290510B (zh) * 2023-11-27 2024-01-30 浙江太美医疗科技股份有限公司 文档信息抽取方法、模型、电子设备及可读介质
CN117316372B (zh) * 2023-11-30 2024-04-09 天津大学 一种基于深度学习的耳疾电子病历解析方法
CN117435748B (zh) * 2023-12-20 2024-03-12 深圳前海环融联易信息科技服务有限公司 基于对比学习的命名实体处理方法、装置、设备及介质
CN117494806B (zh) * 2023-12-28 2024-03-08 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于知识图谱和大语言模型的关系抽取方法、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444308B2 (en) * 2001-06-15 2008-10-28 Health Discovery Corporation Data mining platform for bioinformatics and other knowledge discovery
US20130262091A1 (en) * 2012-03-30 2013-10-03 The Florida State University Research Foundation, Inc. Automated extraction of bio-entity relationships from literature
EP2824586A1 (en) * 2013-07-09 2015-01-14 Universiteit Twente Method and computer server system for receiving and presenting information to a user in a computer network
US9858261B2 (en) * 2014-06-23 2018-01-02 International Business Machines Corporation Relation extraction using manifold models
US10474958B2 (en) * 2014-12-31 2019-11-12 Information Extraction Systems, Inc. Apparatus, system and method for an adaptive or static machine-learning classifier using prediction by partial matching (PPM) language modeling
US9965726B1 (en) * 2015-04-24 2018-05-08 Amazon Technologies, Inc. Adding to a knowledge base using an ontological analysis of unstructured text
WO2017100356A1 (en) * 2015-12-07 2017-06-15 Data4Cure, Inc. A method and system for ontology-based dynamic learning and knowledge integration from measurement data and text
US20170286390A1 (en) * 2016-04-04 2017-10-05 Contextors Ltd. Dynamic and automatic generation of interactive text related objects
US10628738B2 (en) * 2017-01-31 2020-04-21 Conduent Business Services, Llc Stance classification of multi-perspective consumer health information
EP3447663A1 (en) * 2017-08-23 2019-02-27 Tata Consultancy Services Limited System and method for event profiling
CN107609163B (zh) * 2017-09-15 2021-08-24 南京深数信息科技有限公司 医学知识图谱的生成方法、存储介质及服务器
US11861491B2 (en) * 2017-10-16 2024-01-02 Illumina, Inc. Deep learning-based pathogenicity classifier for promoter single nucleotide variants (pSNVs)
US11586970B2 (en) * 2018-01-30 2023-02-21 Wipro Limited Systems and methods for initial learning of an adaptive deterministic classifier for data extraction
US10872122B2 (en) * 2018-01-30 2020-12-22 Government Of The United States Of America, As Represented By The Secretary Of Commerce Knowledge management system and process for managing knowledge
US11574122B2 (en) * 2018-08-23 2023-02-07 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109446338B (zh) * 2018-09-20 2020-07-21 大连交通大学 基于神经网络的药物疾病关系分类方法
CN111428036B (zh) * 2020-03-23 2022-05-27 浙江大学 一种基于生物医学文献的实体关系挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种集成深度神经网络和正则表达式的基因变异命名实体识别;罗哲恒等;《军事医学》;20181130;第42卷(第11期);第872-873页 *
基于BiLSTM-CRF的中文生物医学开放式概念关系抽取;王序文等;《中华医学图书情报杂志》;20181115(第11期);全文 *

Also Published As

Publication number Publication date
US20230007965A1 (en) 2023-01-12
CN111428036A (zh) 2020-07-17
WO2021190236A1 (zh) 2021-09-30

Similar Documents

Publication Publication Date Title
CN111428036B (zh) 一种基于生物医学文献的实体关系挖掘方法
US11580415B2 (en) Hierarchical multi-task term embedding learning for synonym prediction
CN109299472B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN111858944B (zh) 一种基于注意力机制的实体方面级情感分析方法
Qiu et al. DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN104298651A (zh) 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN110675962A (zh) 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN111460147B (zh) 一种基于语义增强的标题短文本分类方法
CN115019906A (zh) 多任务序列标注的药物实体和相互作用联合抽取方法
CN115510242A (zh) 一种中医文本实体关系联合抽取方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN114021584A (zh) 基于图卷积网络和翻译模型的知识表示学习方法
Hong et al. BioPREP: deep learning-based predicate classification with SemMedDB
CN116070700A (zh) 融合迭代式主动学习的生物医学关系抽取方法及系统
CN114996462A (zh) 基于人机协作的科技文献专业知识候选挖掘方法及系统
Boudjellal et al. A silver standard biomedical corpus for Arabic language
Fu et al. Exploiting named entity recognition via pre-trained language model and adversarial training
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法
CN112347761B (zh) 基于bert的药物关系抽取方法
Zhang et al. Named Entity Recognition of Ancient Wine Texts Based on Deep Learning Models
CN113268951B (zh) 一种基于深度学习的引文推荐方法
Bentabet et al. Automatic Table-of-Contents Generation for Efficient Information Access

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant