CN115934948A - 一种基于知识增强的药物实体关系联合抽取方法及系统 - Google Patents

一种基于知识增强的药物实体关系联合抽取方法及系统 Download PDF

Info

Publication number
CN115934948A
CN115934948A CN202211692436.2A CN202211692436A CN115934948A CN 115934948 A CN115934948 A CN 115934948A CN 202211692436 A CN202211692436 A CN 202211692436A CN 115934948 A CN115934948 A CN 115934948A
Authority
CN
China
Prior art keywords
entity
drug
interaction
interaction relation
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211692436.2A
Other languages
English (en)
Inventor
李芬
宋勃升
林轩
刘元盛
曾湘祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202211692436.2A priority Critical patent/CN115934948A/zh
Publication of CN115934948A publication Critical patent/CN115934948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识增强的药物实体关系联合抽取方法,包括:获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集,针对预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,将预处理后的药物实体相互作用关系数据集及其外部知识信息,输入预训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。本发明能够解决现有使用传统深度学习模型的方法不适用于生物医学这一特殊领域的技术问题。

Description

一种基于知识增强的药物实体关系联合抽取方法及系统
技术领域
本发明药物实体关系联合抽取技术领域,更具体地,涉及一种基于知识增强的药物实体关系联合抽取方法及系统。
背景技术
随着深度学习的快速发展,越来越多人将深度学习的方法运用到生物医学领域。此外信息技术的快速发展也让生物医学文本成爆炸式的增长,这些文本中包含更丰富的生物医学信息。其中药物-药物相互作用(Drug DrugInteraction,简称DDI)是人们最关注的信息之一,从文献中直接获取DDI,能更快的了解到最新的资讯,同时也更直接,这就需要更快更好的药物实体关系抽取技术,如实体识别和关系抽取等。
现有的从DDI中抽取信息的方法主要通过以下两种方式实现:第一种是使用传统深度学习模型学习文本特征,这些文本特征通常包含词性、句子组成成分、句法分析等,通过学习这些特征,对每个药物实体对分类,预测DDI关系;第二种是在深度学习模型基础上增加一些外部知识库的信息,辅助模型得到更准确的结果。
然而,上述两种现有的药物实体关系抽取方法均存在一些不可忽略的技术问题,针对上述第一种方法而言,模型过分依赖于句子本身的结构信息,未能充分结合生物医学知识库中的有利信息,导致该抽取方法不适用于生物医学这一特殊领域;而在上述第二种方法中,其未能充分结合知识库中的实体描述信息和药物相互子图作用信息,从而容易导致知识干扰和遗漏一些相关知识,使得抽取结果不够准确。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于知识增强的药物实体关系联合抽取方法及系统,其目的在于,解决现有使用传统深度学习模型的方法由于过分依赖于句子本身的结构信息,未能充分结合生物医学知识库中的有利信息,导致该抽取方法不适用于生物医学这一特殊领域的技术问题,以及现有在深度学习模型基础上增加一些外部知识库信息的方法由于未能充分结合知识库中的实体描述信息和药物相互子图作用信息,从而容易导致知识干扰和遗漏一些相关知识,使得抽取结果不够准确的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于知识增强的药物实体关系联合抽取方法,包括如下步骤:
(1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集。
(2)针对步骤(1)预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
(3)将步骤(1)得到的预处理后的药物实体相互作用关系数据集和步骤(2)得到的药物实体相互作用关系数据集的外部知识信息,输入预先训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。
优选地,步骤(1)具体为,所首先执行指令xml.dom.minidom.parse,以得到文档对象模型(Document Object Model,简称DOM)树,根据该DOM树获取DDIExtaction 2013数据集的内容;然后,根据获取的DDIExtaction 2013数据集的内容得到多个药物实体的相互作用关系;然后根据得到的多个药物实体的相互作用关系进一步获取多个生物医学文本句子、每个生物医学文本句子中药物实体的位置、所有药物实体中任意一对药物实体间的相互作用关系类型、以及每个生物医学文本句子中包含的药物实体;最后,根据每对药物实体间的相互作用关系类型和以及每个生物医学文本句子中包含的药物实体获取每对药物实体的药物相互作用关系三元组,所有药物实体的药物相互作用关系三元组构成预处理后的药物实体相互作用关系数据集。
优选地,步骤(2)具体为,首先,使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图信息,然后,针对每个药物实体而言,使用BioBERT-Basev1.0预训练词向量模型对该药物实体对应的实体描述信息进行处理,以得到该药物实体对应的实体描述特征,然后,针对每个药物实体而言,使用GCN模型对该药物实体对应的相互作用关系子图信息进行处理,以得到该药物实体对应的相互作用关系子图特征,最后,针对每个药物实体而言,根据其对应的实体描述特征和相互作用关系子图特征获取该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
优选地,使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图特征这一过程具体为,使用xml.dom.minidom.parse指令,以得到DrugBank知识库的DOM树,根据该DOM树获取DrugBank的内容,进而得到DrugBank知识库中的药物实体的相关信息,这些相关信息包含药物实体的实体描述、同义词、近义词、与其他药物实体的相互作用关系;然后根据步骤(1)中预处理后的药物实体相互作用关系数据集中的药物实体,同义匹配DrugBank知识库中的药物实体的相关信息;然后根据匹配到的DrugBank知识库中的药物实体的相关信息得到实体描述信息和相互作用关系子图信息。
使用DrugBank知识库获取每个药物实体对应的相互作用关系子图特征这一过程具体为,使用K-means聚类的方法将DrugBank知识库中的药物实体的相互作用关系映射到DDIExtaction 2013数据集中对应的Advice、Int、Effect、以及Mechanism4种关系,得到药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息;最后使用GCN将药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息转换成相互作用关系子图特征。
优选地,实体关系联合抽取模型包括一个掩码注意力模块、两个完全相同的BERT模型、以及一个特征融合模块。
掩码注意力模块的输入为大小为n·n的掩码矩阵和步骤(2)得到的大小为n·h1的相互作用关系子图特征,输出为n·h1的知识掩蔽后的相互作用关系子图特征,其中掩码矩阵是根据药物实体在该生物医学文本句子中的位置关系而设计的,用于掩蔽该药物实体的相互作用关系子图对其他药物实体的影响,以得到知识掩蔽后的相互作用关系子图特征,n表示步骤(1)预处理后的药物实体相互作用关系数据集中的生物医学文本句子的长度,h1表示相互作用关系子图特征的向量维度。
每个BERT模型使用12层Transformer编码器,其中第一个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及步骤(2)得到的所有生物医学文本句子中的所有药物实体对应的所有实体描述特征;第二个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及掩码注意力模块得到的知识掩蔽后的相互作用关系子图特征。第一个BERT模型的输出为N·h2维的融合了实体描述特征的特征向量,第二个BERT模型的输出N·h2维的融合了相互作用关系子图特征的特征向量,N表示步骤(1)中提取出的生物医学文本句子的总数吧,h2表示每个BERT模型输出的特征向量维度;
特征融合模块将第一个BERT模型输出的N·h2维的融合了实体描述特征的特征向量和第二个BERT模型输出的N·h2维的融合了相互作用关系子图特征的特征向量进行融合,以得到预测模型结果。
优选地,特征融合模块的具体的网络结构为:
第一层是特征拼接层,其输入为两个BERT模型分别输出的大小为N·h2维的融合了实体描述特征的特征向量、以及大小为N·h2维的融合了相互作用关系子图特征的特征向量,输出为拼接了这两个不同特征向量的N·(2*h2)的特征向量。
第二层是全连接层,其输入为第一层输出的拼接了两个不同特征的大小为N·(2*h2)的特征向量,该层使用sigmoid激活函数,输出为实体关系预测结果。
优选地,实体关系联合抽取模型是通过以下步骤训练得到的:
(3-1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集,针对预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息,将药物实体相互作用关系数据集及其外部知识信息二者进行合并后,按照8:1:1的比例将合并后的结果随机划分成训练集、验证集、测试集。
(3-2)初始化Bert模型的权重参数,以得到初始化后的Bert模型;
(3-3)将步骤(3-1)划分得到的训练集输入到步骤(3-2)初始化后的BERT模型中进行训练,以得到融合了实体描述特征和相互作用关系子图特征的输出值。
(3-4)将步骤(3-3)得到的输出值进行特征拼接,并输入特征融合模块,以预测得到实体关系联合抽取模型的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果Pij,其中i∈[1,N],j∈[1,n],N表示训练集中的生物医学文本句子数量,n表示每个生物医学文本句子的最大长度;
(3-5)根据步骤(3-4)得到的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果yij,得到步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的预测值
Figure BDA0004021784440000061
以及步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r预测值
Figure BDA0004021784440000062
根据
Figure BDA0004021784440000063
计算实体关系联合抽取模型的损失函数,并利用该损失函数对该实体关系联合抽取模型进行迭代训练,直到该实体关系联合抽取模型的损失函数达到最小值为止。
(3-6)使用步骤(3-1)中划分的验证集对迭代训练后的实体关系联合抽取模型迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的实体关系联合抽取模型。
优选地,步骤(3-4)的计算公式为:
Figure BDA0004021784440000064
Figure BDA0004021784440000065
其中
Figure BDA0004021784440000066
表示融合了实体描述特征d的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,d表示步骤(3-3)得到的每个药物实体对应的实体描述特征;
Figure BDA0004021784440000067
表示融合了相互作用关系子图特征k的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,k表示步骤(3-3)得到的每个药物实体对应的相互作用关系子图特征;pij表示对步骤(3-3)得到的输出值进行特征拼接后的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的融合特征,yij表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,Concatenate表示拼接函数。
优选地,实体关系联合抽取模型的损失函数Loss为:
Figure BDA0004021784440000071
其中Losse表示实体预测值与真实标签之间的交叉熵,其具体表示为:
Figure BDA0004021784440000072
其中
Figure BDA0004021784440000073
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的预测值,
Figure BDA0004021784440000074
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的真实标签;
Lossr表示关系预测值与真实标签之间的交叉熵,其具体表示为:
Figure BDA0004021784440000075
其中
Figure BDA0004021784440000076
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r预测值,
Figure BDA0004021784440000077
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r真实标签。
按照本发明的另一方面,提供了一种基于知识增强的药物实体关系联合抽取系统,包括:
第一模块,用于获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集。
第二模块,用于针对第一模块预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
第三模块,用于将第一模块得到的预处理后的药物实体相互作用关系数据集和第二模块得到的药物实体相互作用关系数据集的外部知识信息,输入预先训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了步骤(3-2)到步骤(3-3),其使用BERT模型作为基础,充分学习生物医学文本句子中的特征,实体描述特征,以及相互作用关系子图特征,因此能够解决现有第一种方法由于模型过分依赖于句子本身的结构信息,未能充分结合生物医学知识库中的有利信息,导致该抽取方法不适用于生物医学这一特殊领域的技术问题;
(2)由于本发明采用了步骤(3-4),其使用特征融合模块,在模型最后融合实体描述特征和相互作用关系子图特征,然后预测结果,避免了不同特征之间的相互影响,造成知识干扰的情况,因此能够解决现有第二种方法由于未能充分结合知识库中的实体描述信息和药物相互子图作用信息,从而容易导致知识干扰和遗漏一些相关知识,使得抽取结果不够准确的技术问题;
(3)由于本发明采用了步骤(3),其使用实体关系联合抽取模型,同时进行实体识别和关系抽取这两个任务,充分利用实体信息,因此具有减少实体冗余的优点。
附图说明
图1是本发明基于知识增强的药物实体关系联合抽取方法的流程图;
图2是本发明方法中使用的实体关系联合抽取模型的框架图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基本思路在于,提供一种基于知识增强的药物实体关系联合抽取方法和系统,其使用药物实体相互作用关系数据集,对比基于知识增强的药物实体关系联合抽取方法与其他方法性能的好坏;使用DrugBank知识库作为外部知识库,为每个药物实体提供实体描述信息和相互作用子图信息,增强了模型性能;使用实体关系联合抽取模型,充分考虑了实体信息,减少了实体冗余;使用特征融合模块在最后融合实体描述特征和相互作用关系子图特征,降低了知识噪声,增强了模型性能。
如图1所示,本发明提供了一种基于知识增强的药物实体关系联合抽取方法,包括如下步骤:
(1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集。
具体而言,本发明中获取的药物实体相互作用关系数据集是DDIExtaction 2013数据集,此数据集常被用来训练和评估药物相互作用关系抽取模型的性能。此数据集是药物相互作用关系语义注释语料库,所有的注释文本都来源于DrugBank文档和MedLine文章摘要,该数据集包含Advice、Int、Effect、以及Mechanism4种关系类型。本发明需要从生物医学文本中抽取出药物实体相互作用关系,因此需要对DDIExtaction 2013数据集进行预处理,排除无关信息,只提取出生物医学文本句子、每个生物医学文本句子中的药物实体位置、每对药物实体间的相互作用关系类型以及该生物医学文本句子中包含的药物实体,得到预处理后的药物实体相互作用关系数据集。
更具体而言,由于下载的原始DDIExtaction 2013数据集是xml格式的,模型无法直接读取该文件,得到文件中的内容,所以本步骤首先执行指令xml.dom.minidom.parse,以得到文档对象模型(Document Object Model,简称DOM)树,根据该DOM树获取DDIExtaction 2013数据集的内容;然后,根据获取的DDIExtaction 2013数据集的内容得到多个药物实体的相互作用关系;然后根据得到的多个药物实体的相互作用关系进一步获取多个生物医学文本句子、每个生物医学文本句子中药物实体的位置、所有药物实体中任意一对药物实体间的相互作用关系类型、以及每个生物医学文本句子中包含的药物实体;最后,根据每对药物实体间的相互作用关系类型和以及每个生物医学文本句子中包含的药物实体获取每对药物实体的药物相互作用关系三元组,所有药物实体的药物相互作用关系三元组构成预处理后的药物实体相互作用关系数据集。
本步骤的优点在于,将每对药物实体和这对药物实体之间的相互作用关系处理成药物相互作用关系三元组,增加了药物实体和相互作用关系之间的关联性。
(2)针对步骤(1)预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
本步骤具体为,首先,使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图信息,然后,针对每个药物实体而言,使用BioBERT-Basev1.0预训练词向量模型对该药物实体对应的实体描述信息进行处理,以得到该药物实体对应的实体描述特征,然后,针对每个药物实体而言,使用GCN模型对该药物实体对应的相互作用关系子图信息进行处理,以得到该药物实体对应的相互作用关系子图特征,最后,针对每个药物实体而言,根据其对应的实体描述特征和相互作用关系子图特征获取该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
上述使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图特征这一过程具体为,由于DrugBank知识库的数据是以xml格式存储的,所以本步骤同样使用xml.dom.minidom.parse指令,以得到DrugBank知识库的DOM树,根据该DOM树获取DrugBank的内容,进而得到DrugBank知识库中的药物实体的相关信息,这些相关信息包含药物实体的实体描述、同义词、近义词、与其他药物实体的相互作用关系;然后根据步骤(1)中预处理后的药物实体相互作用关系数据集中的药物实体,同义匹配DrugBank知识库中的药物实体的相关信息;然后根据匹配到的DrugBank知识库中的药物实体的相关信息得到实体描述信息和相互作用关系子图信息。
上述使用DrugBank知识库获取每个药物实体对应的相互作用关系子图特征这一过程具体为,由于DrugBank知识库中的药物实体的相互作用关系是一个句子描述,因此本步骤使用K-means聚类的方法将DrugBank知识库中的药物实体的相互作用关系映射到DDIExtaction 2013数据集中对应的Advice、Int、Effect、以及Mechanism4种关系,得到药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息;最后使用GCN将药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息转换成相互作用关系子图特征。
本步骤的优点在于,使用DrugBank知识库提供实体描述信息和相互作用关系子图信息,提供了生物医学知识库中的有利信息。
(3)将步骤(1)得到的预处理后的药物实体相互作用关系数据集和步骤(2)得到的药物实体相互作用关系数据集的外部知识信息,输入预先训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。
如图2所示,本发明的实体关系联合抽取模型包括一个掩码注意力模块、两个完全相同的BERT模型、以及一个特征融合模块。
掩码注意力模块的输入为大小为n·n的掩码矩阵和步骤(2)得到的大小为n·h1的相互作用关系子图特征,输出为n·h1的知识掩蔽后的相互作用关系子图特征,其中掩码矩阵是根据药物实体在该生物医学文本句子中的位置关系而设计的,用于掩蔽该药物实体的相互作用关系子图对其他药物实体的影响,以得到知识掩蔽后的相互作用关系子图特征,n表示步骤(1)预处理后的药物实体相互作用关系数据集中的生物医学文本句子的长度,h1表示相互作用关系子图特征的向量维度。
每个BERT模型使用12层Transformer编码器,其中第一个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及步骤(2)得到的所有生物医学文本句子中的所有药物实体对应的所有实体描述特征;第二个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及掩码注意力模块得到的知识掩蔽后的相互作用关系子图特征。第一个BERT模型的输出为N·h2维的融合了实体描述特征的特征向量,第二个BERT模型的输出N·h2维的融合了相互作用关系子图特征的特征向量,N表示步骤(1)中提取出的生物医学文本句子的总数吧,h2表示每个BERT模型输出的特征向量维度,这里h2通常取128。
特征融合模块将第一个BERT模型输出的N·h2维的融合了实体描述特征的特征向量和第二个BERT模型输出的N·h2维的融合了相互作用关系子图特征的特征向量进行融合,以得到预测模型结果。
对于特征融合模块而言,其具体的网络结构为:
第一层是特征拼接层,其输入为两个BERT模型分别输出的大小为N·h2维的融合了实体描述特征的特征向量、以及大小为N·h2维的融合了相互作用关系子图特征的特征向量,输出为拼接了这两个不同特征向量的N·(2*h2)的特征向量。
第二层是全连接层,其输入为第一层输出的拼接了两个不同特征的大小为N·(2*h2)的特征向量,该层使用sigmoid激活函数,输出为实体关系预测结果。
具体而言,本发明中的实体关系联合抽取模型是通过以下步骤训练得到的:
(3-1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集,针对预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息,将药物实体相互作用关系数据集及其外部知识信息二者进行合并后,按照8:1:1的比例将合并后的结果随机划分成训练集、验证集、测试集。
具体而言,本步骤中采用的药物实体相互作用关系数据集是DDIExtaction 2013数据集,其包含Int、Advice、Effect以及Mechanism四种关系,DDIExtaction 2013数据集原始划分比例为77%的训练集,23%的测试集,其中训练集包含DrugBank中注释的文章572篇和Medline中的摘要147篇,测试集包含DrugBank中注释的文章158篇,Medline中的摘要33篇。
需要说明的是,本步骤中的处理过程和前述步骤(1)和(2)中的对应过程完全相同,在此不再赘述。
(3-2)初始化Bert模型的权重参数,以得到初始化后的Bert模型;
具体而言,BERT模型的权重参数的初始值是使用发表在PubMed和PMC的文章进行预训练得到的值BioBERT-Base v1.0,初始学习率l r=0.00005,为了加快损失值的下降速度,本步骤采用Adam-Optimizer作为优化器,这是由于该优化器具有动量以及自适应学习率的优势。
(3-3)将步骤(3-1)划分得到的训练集输入到步骤(3-2)初始化后的BERT模型中进行训练,以得到融合了实体描述特征和相互作用关系子图特征的输出值。
(3-4)将步骤(3-3)得到的输出值进行特征拼接,并输入特征融合模块,以预测得到实体关系联合抽取模型的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果Pij,其中i∈[1,N],j∈[1,n],N表示训练集中的生物医学文本句子(即样本)数量,n表示每个生物医学文本句子的最大长度;
具体而言,本步骤的计算公式为:
Figure BDA0004021784440000141
Figure BDA0004021784440000142
其中
Figure BDA0004021784440000143
表示融合了实体描述特征d的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,d表示步骤(3-3)得到的每个药物实体对应的实体描述特征;
Figure BDA0004021784440000144
表示融合了相互作用关系子图特征k的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,k表示步骤(3-3)得到的每个药物实体对应的相互作用关系子图特征;pij表示对步骤(3-3)得到的输出值进行特征拼接后的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的融合特征,yij表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,Concatenate表示拼接函数。
上述步骤(3-3)到(3-4)的优点在于,融合了外部知识信息同时又避免了不同知识之间相互干扰,能更好的利用知识库中的知识。
(3-5)根据步骤(3-4)得到的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果yij,得到步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的预测值
Figure BDA0004021784440000145
以及步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r预测值
Figure BDA0004021784440000151
根据
Figure BDA0004021784440000152
计算实体关系联合抽取模型的损失函数,并利用该损失函数对该实体关系联合抽取模型进行迭代训练,直到该实体关系联合抽取模型的损失函数达到最小值为止。
具体而言,实体关系联合抽取模型的损失函数是由实体预测值与真实标签之间的交叉熵损失值,关系预测值与真实标签之间的交叉熵损失值,二者取平均得到的;
实体预测值与真实标签之间的交叉熵,其具体表示为:
Figure BDA0004021784440000153
其中
Figure BDA0004021784440000154
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的预测值,
Figure BDA0004021784440000155
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的真实标签。
关系预测值与真实标签之间的交叉熵,其具体表示为:
Figure BDA0004021784440000156
其中
Figure BDA0004021784440000157
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r预测值,
Figure BDA0004021784440000158
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r真实标签。
实体关系联合抽取模型的损失函数Loss为:
Figure BDA0004021784440000159
(3-6)使用步骤(3-1)中划分的验证集对迭代训练后的实体关系联合抽取模型迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的实体关系联合抽取模型。
上述步骤(3-2)到(3-5)的优点在于,使用BioBERT-Base v1.0作为BERT模型初始化参数,加快模型参数拟合,快速地得到最终模型结果;使用掩码注意力模块,掩蔽该药物实体的相互作用关系子图对其他药物实体的影响。
实验结果
针对本发明提供的所述基于知识增强的药物实体关系联合抽取系统进行性能评测,在本实施方式中,对所述DDIExtaction2013数据集中药物实体相互作用关系进行了评估实验。在这组实验中,采用Predict,Recall和F1得分作为模型性能的评价指标,同时与7种模型进行5折交叉验证的对比实验。这7种方法分别为:CNN-based、SCNN、SDP RNN、JointAB-LSTM、BERE、SciBERT CNN、3DGT-DDI。
本发明提供的具体实验参数设置如下表1所示。
表1实验执行的超参设置
参数 设置
批大小 8
学习率 1e-5
向量维度大小 128
本发明方法在药物实体相互作用关系数据集上的性能测试结果如下表2所示。
表2本发明方法在药物实体相互作用关系数据集上的性能测试结果
Figure BDA0004021784440000161
Figure BDA0004021784440000171
由上表2的实验结果可以看出,本发明提供的基于知识增强的药物实体关系联合抽取系统在药物实体相互作用关系数据集上的测试性能均优于其他比较方法,具体的,相对于所有的比较方法,本发明方法在Predict和F1得分上至少分别有3.05%和2.51%的性能提升,实现了高标准的分类效果。
与相关技术相比,本发明提出一种基于知识增强的药物实体关系联合抽取方法及系统,将所述药物实体相互作用关系数据集中的生物医学文本句子、每个生物医学文本句子中的药物实体位置、每对药物实体间的相互作用关系类型以及该生物医学文本句子中包含的药物实体和生物医学文本句子中的每个药物实体的实体描述信息和相互作用子图信息输入至所述药物实体关系联合抽取模型,以学习药物实体的药物实体特征和药物实体之间的相互作用关系信息;另外,通过比较几种著名的用于药物相互作用关系抽取的机器学习模型,本发明提供的基于知识增强的药物实体关系联合抽取方法及系统在药物实体相互作用关系数据集上的表现均优于其他比较模型的性能,能够达到高稳定和高精准的要求;本发明提供的基于知识增强的药物实体关系联合抽取方法及系统具有准确度高、训练耗时短的优点。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识增强的药物实体关系联合抽取方法,其特征在于,包括如下步骤:
(1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集。
(2)针对步骤(1)预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
(3)将步骤(1)得到的预处理后的药物实体相互作用关系数据集和步骤(2)得到的药物实体相互作用关系数据集的外部知识信息,输入预先训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。
2.根据权利要求1所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,步骤(1)具体为,所首先执行指令xml.dom.minidom.parse,以得到文档对象模型(DocumentObject Model,简称DOM)树,根据该DOM树获取DDIExtaction 2013数据集的内容;然后,根据获取的DDIExtaction 2013数据集的内容得到多个药物实体的相互作用关系;然后根据得到的多个药物实体的相互作用关系进一步获取多个生物医学文本句子、每个生物医学文本句子中药物实体的位置、所有药物实体中任意一对药物实体间的相互作用关系类型、以及每个生物医学文本句子中包含的药物实体;最后,根据每对药物实体间的相互作用关系类型和以及每个生物医学文本句子中包含的药物实体获取每对药物实体的药物相互作用关系三元组,所有药物实体的药物相互作用关系三元组构成预处理后的药物实体相互作用关系数据集。
3.根据权利要求1或2所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,步骤(2)具体为,首先,使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图信息,然后,针对每个药物实体而言,使用BioBERT-Base v1.0预训练词向量模型对该药物实体对应的实体描述信息进行处理,以得到该药物实体对应的实体描述特征,然后,针对每个药物实体而言,使用GCN模型对该药物实体对应的相互作用关系子图信息进行处理,以得到该药物实体对应的相互作用关系子图特征,最后,针对每个药物实体而言,根据其对应的实体描述特征和相互作用关系子图特征获取该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
4.根据权利要求1至3中任意一项所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,
使用DrugBank知识库获取每个药物实体对应的实体描述信息和相互作用关系子图特征这一过程具体为,使用xml.dom.minidom.parse指令,以得到DrugBank知识库的DOM树,根据该DOM树获取DrugBank的内容,进而得到DrugBank知识库中的药物实体的相关信息,这些相关信息包含药物实体的实体描述、同义词、近义词、与其他药物实体的相互作用关系;然后根据步骤(1)中预处理后的药物实体相互作用关系数据集中的药物实体,同义匹配DrugBank知识库中的药物实体的相关信息;然后根据匹配到的DrugBank知识库中的药物实体的相关信息得到实体描述信息和相互作用关系子图信息。
使用DrugBank知识库获取每个药物实体对应的相互作用关系子图特征这一过程具体为,使用K-means聚类的方法将DrugBank知识库中的药物实体的相互作用关系映射到DDIExtaction 2013数据集中对应的Advice、Int、Effect、以及Mechanism4种关系,得到药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息;最后使用GCN将药物实体相互作用关系数据集中的药物实体的相互作用关系子图信息转换成相互作用关系子图特征。
5.根据权利要求1所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,
实体关系联合抽取模型包括一个掩码注意力模块、两个完全相同的BERT模型、以及一个特征融合模块。
掩码注意力模块的输入为大小为n·n的掩码矩阵和步骤(2)得到的大小为n·h1的相互作用关系子图特征,输出为n·h1的知识掩蔽后的相互作用关系子图特征,其中掩码矩阵是根据药物实体在该生物医学文本句子中的位置关系而设计的,用于掩蔽该药物实体的相互作用关系子图对其他药物实体的影响,以得到知识掩蔽后的相互作用关系子图特征,n表示步骤(1)预处理后的药物实体相互作用关系数据集中的生物医学文本句子的长度,h1表示相互作用关系子图特征的向量维度。
每个BERT模型使用12层Transformer编码器,其中第一个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及步骤(2)得到的所有生物医学文本句子中的所有药物实体对应的所有实体描述特征;第二个BERT模型输入为步骤(1)得到的药物实体相互作用关系数据集,以及掩码注意力模块得到的知识掩蔽后的相互作用关系子图特征。第一个BERT模型的输出为N·h2维的融合了实体描述特征的特征向量,第二个BERT模型的输出N·h2维的融合了相互作用关系子图特征的特征向量,N表示步骤(1)中提取出的生物医学文本句子的总数吧,h2表示每个BERT模型输出的特征向量维度;
特征融合模块将第一个BERT模型输出的N·h2维的融合了实体描述特征的特征向量和第二个BERT模型输出的N·h2维的融合了相互作用关系子图特征的特征向量进行融合,以得到预测模型结果。
6.根据权利要求5所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,特征融合模块的具体的网络结构为:
第一层是特征拼接层,其输入为两个BERT模型分别输出的大小为N·h2维的融合了实体描述特征的特征向量、以及大小为N·h2维的融合了相互作用关系子图特征的特征向量,输出为拼接了这两个不同特征向量的N·(2*h2)的特征向量。
第二层是全连接层,其输入为第一层输出的拼接了两个不同特征的大小为N·(2*h2)的特征向量,该层使用sigmoid激活函数,输出为实体关系预测结果。
7.根据权利要求1所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,实体关系联合抽取模型是通过以下步骤训练得到的:
(3-1)获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集,针对预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息,将药物实体相互作用关系数据集及其外部知识信息二者进行合并后,按照8:1:1的比例将合并后的结果随机划分成训练集、验证集、测试集。
(3-2)初始化Bert模型的权重参数,以得到初始化后的Bert模型;
(3-3)将步骤(3-1)划分得到的训练集输入到步骤(3-2)初始化后的BERT模型中进行训练,以得到融合了实体描述特征和相互作用关系子图特征的输出值。
(3-4)将步骤(3-3)得到的输出值进行特征拼接,并输入特征融合模块,以预测得到实体关系联合抽取模型的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果Pij,其中i∈[1,N],j∈[1,n],N表示训练集中的生物医学文本句子数量,n表示每个生物医学文本句子的最大长度;
(3-5)根据步骤(3-4)得到的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果yij,得到步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的预测值
Figure FDA0004021784430000051
以及步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r预测值
Figure FDA0004021784430000052
根据
Figure FDA0004021784430000053
计算实体关系联合抽取模型的损失函数,并利用该损失函数对该实体关系联合抽取模型进行迭代训练,直到该实体关系联合抽取模型的损失函数达到最小值为止。
(3-6)使用步骤(3-1)中划分的验证集对迭代训练后的实体关系联合抽取模型迭代验证,直到得到的分类精度达到最优为止,从而得到训练好的实体关系联合抽取模型。
8.根据权利要求7所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,
步骤(3-4)的计算公式为:
Figure FDA0004021784430000054
Figure FDA0004021784430000055
其中
Figure FDA0004021784430000056
表示融合了实体描述特征d的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,d表示步骤(3-3)得到的每个药物实体对应的实体描述特征;
Figure FDA0004021784430000057
表示融合了相互作用关系子图特征k的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,k表示步骤(3-3)得到的每个药物实体对应的相互作用关系子图特征;pij表示对步骤(3-3)得到的输出值进行特征拼接后的步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的融合特征,yij表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置的最终输出结果,Concatenate表示拼接函数。
9.根据权利要求7所述的基于知识增强的药物实体关系联合抽取方法,其特征在于,实体关系联合抽取模型的损失函数Loss为:
Figure FDA0004021784430000061
其中Losse表示实体预测值与真实标签之间的交叉熵,其具体表示为:
Figure FDA0004021784430000062
其中
Figure FDA0004021784430000063
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的预测值,
Figure FDA0004021784430000064
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置实体e的真实标签;
Lossr表示关系预测值与真实标签之间的交叉熵,其具体表示为:
Figure FDA0004021784430000065
其中
Figure FDA0004021784430000066
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r预测值,
Figure FDA0004021784430000067
表示步骤(3-1)划分的训练集中第i个生物医学文本句子的第j个位置关系r真实标签。
10.一种基于知识增强的药物实体关系联合抽取系统,其特征在于,包括:
第一模块,用于获取药物实体相互作用关系数据集,对该药物实体相互作用关系数据集进行预处理,以得到预处理后的药物实体相互作用关系数据集。
第二模块,用于针对第一模块预处理后的药物实体相互作用关系数据集中的每个药物实体而言,获取该药物实体对应的实体描述信息和相互作用关系子图信息,对实体描述信息和相互作用关系子图信息进行预处理,以得到实体描述特征和相互作用关系子图特征,实体描述特征和相互作用关系子图特征组成该药物实体对应的外部知识信息,所有药物实体对应的外部知识信息构成药物实体相互作用关系数据集的外部知识信息。
第三模块,用于将第一模块得到的预处理后的药物实体相互作用关系数据集和第二模块得到的药物实体相互作用关系数据集的外部知识信息,输入预先训练好的实体关系联合抽取模型中,以得到最终的药物实体关系抽取结果。
CN202211692436.2A 2022-12-28 2022-12-28 一种基于知识增强的药物实体关系联合抽取方法及系统 Pending CN115934948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211692436.2A CN115934948A (zh) 2022-12-28 2022-12-28 一种基于知识增强的药物实体关系联合抽取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211692436.2A CN115934948A (zh) 2022-12-28 2022-12-28 一种基于知识增强的药物实体关系联合抽取方法及系统

Publications (1)

Publication Number Publication Date
CN115934948A true CN115934948A (zh) 2023-04-07

Family

ID=86655733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211692436.2A Pending CN115934948A (zh) 2022-12-28 2022-12-28 一种基于知识增强的药物实体关系联合抽取方法及系统

Country Status (1)

Country Link
CN (1) CN115934948A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151117A (zh) * 2023-10-30 2023-12-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151117A (zh) * 2023-10-30 2023-12-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质
CN117151117B (zh) * 2023-10-30 2024-03-01 国网浙江省电力有限公司营销服务中心 电网轻量级非结构化文档内容自动识别方法、装置及介质

Similar Documents

Publication Publication Date Title
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Yang et al. A joint sequential and relational model for frame-semantic parsing
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
Bharadiya A comprehensive survey of deep learning techniques natural language processing
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN110335653B (zh) 基于openEHR病历格式的非标准病历解析方法
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
CN111475650B (zh) 一种俄语语义角色标注方法、系统、装置以及存储介质
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN115934948A (zh) 一种基于知识增强的药物实体关系联合抽取方法及系统
CN114756678A (zh) 一种未知意图文本的识别方法及装置
Toleu et al. Language-independent approach for morphological disambiguation
CN115965030A (zh) 一种区域数据监测方法和系统
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
WO2022227196A1 (zh) 一种数据分析方法、装置、计算机设备及存储介质
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
CN114611529A (zh) 意图识别方法和装置、电子设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114595329A (zh) 一种原型网络的少样本事件抽取系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination