CN114064938A - 医学文献的关系抽取方法、装置、电子设备及存储介质 - Google Patents

医学文献的关系抽取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114064938A
CN114064938A CN202210045975.0A CN202210045975A CN114064938A CN 114064938 A CN114064938 A CN 114064938A CN 202210045975 A CN202210045975 A CN 202210045975A CN 114064938 A CN114064938 A CN 114064938A
Authority
CN
China
Prior art keywords
module
extraction
entity
medical
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210045975.0A
Other languages
English (en)
Other versions
CN114064938B (zh
Inventor
李宗任
钟琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese PLA General Hospital
Original Assignee
Chinese PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese PLA General Hospital filed Critical Chinese PLA General Hospital
Priority to CN202210045975.0A priority Critical patent/CN114064938B/zh
Publication of CN114064938A publication Critical patent/CN114064938A/zh
Application granted granted Critical
Publication of CN114064938B publication Critical patent/CN114064938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请公开了一种医学文献的关系抽取方法、装置、电子设备及存储介质。其中,医学文献的关系抽取方法,包括:获得数据集,并基于数据集预训练Bert模型,数据集包括外部医学文献数据库中的医学文献,医学文献预先标注实体,Bert模型用于实体监督;构建关系抽取模型,关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,头实体抽取模块以及关联模块的编码器基于实体监督的Bert模型进行微调;获得渐进式的权重损失函数,以利用关系抽取模型对医学文献进行关系抽取。本申请实施例,可以提升医学文献的关系抽取效果,提升了后续得到临床知识图谱的专业性。

Description

医学文献的关系抽取方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种医学文献的关系抽取方法、装置、电子设备及存储介质。
背景技术
相关技术中,通常是基于资深医生少量精标注的医学文献,然后进行关系抽取模型的训练,并基于训练所得模型,推理出新入组医学文献的关系。然而,受限于时间有限和标注工作量大,资深医生所提供的精标注医学文献是非常有限的,因此,训练所得模型泛化性能较差,即:目前针对医学文献关系抽取的方案存在以下缺点:
标注样本的质量依赖于资深医生的大力投入,由于资深医生本身时间的稀缺性,导致即使是少量的标注也耗时漫长。关系抽取过程只是共享编码层,难以很好的联合且损失函数不准确,导致关系抽取效果不理想。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种医学文献的关系抽取方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种医学文献的关系抽取方法,包括:
获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;
构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;
获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
在一些示例中,所述关系抽取模型中采用指针网络作为解码器,其中,所述解码器为每个语句中的位置分配一个二进制标记,所述二进制标记指示所述语句中的位置是否正确,并提供每个位置的置信度以检测实体的开始和结束位置,所述关系抽取模型的损失函数为:
Figure 247006DEST_PATH_IMAGE002
其中,N表示语句的长度,
Figure 492042DEST_PATH_IMAGE003
表示主语的第i个token的label,如果第i个token是真实的位置,则
Figure 341619DEST_PATH_IMAGE005
,否则为
Figure 940090DEST_PATH_IMAGE007
表示第i个token的置信度。
在一些示例中,在所述关联模块中,所述编码器的向量表示和头实体抽取模块的向量表示的头尾位置token的平均值以多头注意力机制来结合。
在一些示例中,所述尾实体/关系抽取模块由双指针网络构成,所述双指针网络的数量由关系的数量决定。
在一些示例中,所述尾实体/关系抽取模块的损失函数为:
Figure 347938DEST_PATH_IMAGE009
,其中,N表示语句的长度,
Figure 249029DEST_PATH_IMAGE010
表示宾语中第i个token的label,如果第i个token是真实的位置则
Figure 984904DEST_PATH_IMAGE012
,否则为
Figure 511700DEST_PATH_IMAGE014
表示关系的数量。
在一些示例中,所述渐进式的权重损失函数为:
Figure 259207DEST_PATH_IMAGE016
第二方面,本申请实施例提供一种医学文献的关系抽取装置,包括:
获取模块,用于获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;
构建模块,用于构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;
关系抽取模块,用于获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
第三方面,本申请实施例提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面所述的医学文献的关系抽取方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的医学文献的关系抽取方法。
第五方面,本申请实施例提供一种计算机程序产品,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的医学文献的关系抽取方法。
本申请实施例提供的医学文献的关系抽取方法、装置、电子设备及存储介质,首先基于资深医生少量精标注的医学文献,并使用外部文献实体标注数据来预训练Bert模型。然后用迁移学习的方式,共享编码层进行头实体、尾实体/关系的联合抽取,使得模型能有更多的文献知识以及更好的泛化能力。此外,通过关联模块来使得尾实体/关系抽取模块能含有头实体抽取模块的信息,以及使用设计的损失函数来使得关系抽取模型具有更好的关系抽取效果,进而,提升医学文献的关系抽取效果,提升了后续得到临床知识图谱的专业性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例的医学文献的关系抽取方法的流程图;
图2为本申请实施例的医学文献的关系抽取装置的结构示意图;
图3为本申请实施例的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与公开相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
以下结合附图描述根据本发明实施例的医学文献的关系抽取方法、装置、电子设备及存储介质。首先,在描述本发明实施例的医学文献的关系抽取方法、装置、电子设备及存储介质之前,首先对术语进行解释:
命名实体识别(NER,Named entity recognition)是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括:(1)实体边界识别;(2)确定实体类别(人名、地名、机构名或其他)。命名实体识别是信息提取、问答系统、句法分析、机器翻译、知识图谱等应用领域的重要基础工具。
临床知识图谱(Clinical Knowledge Graph)是将知识图谱理论与医生的临床医学知识进行融合,打通医学知识点(信息、数据)及其之间符合医学知识内在逻辑机制而形成的专业型图谱,为辅助临床诊断系统(CDSS)的研发提供了有力工具。
知识表示(KR,knowledge representation)是在人工智能中,知识表示就是要把问题求解中所需要的对象、前提条件、算法等知识构造为计算机可处理的数据结构以及解释这种结构的某些过程。这种数据结构与解释过程的结合,将导致智能的行为。
关系抽取(RE,Relation Extraction)是信息抽取的关键任务之一。关系抽取的主要目标是从自然语言文本中识别并判定实体对之间存在的特定关系,这为智能检索、语义分析等提供了基础支持,有助于提高搜索效率,促进知识库的自动构建。
深度学习(DL,Deep Learning)是机器学习中一种基于对数据进行表征学习的法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。深度学习的好处是用非监督式或者半监督式的特征学习和分层特征提取高效算法来替代手工获取特征
图1是本申请一个实施例的医学文献的关系抽取方法的流程图,如图1所示,根据本申请实一个实施例的医学文献的关系抽取方法,包括如下步骤:
S101:获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督。
其中,数据集例如使用Pubtator数据集,即:使用Pubtator数据集来预训练Bert模型用作实体监督模块。该数据集有着标注好的医学文献中的实体,所以使用该数据集来训练命名实体识别任务来使得Bert预训练模型有着较好的文献类的信息。后续的模型将会在这个预训练模型Bert上fine-tune(即:微调)。
Bert的全称为:Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked languagemodel(MLM),以致能生成深度的双向语言表征。Bert模型有以下主要优点:
1)采用MLM对双向的Transformers进行预训练,以生成深层的双向语言表征。
2)预训练后,只需要添加一个额外的输出层进行fine-tune,就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。
S102:构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调。
其中,关系抽取模型中采用指针网络作为解码器,其中,所述解码器为每个语句中的位置分配一个二进制标记,所述二进制标记指示所述语句中的位置是否正确,并提供每个位置的置信度以检测实体的开始和结束位置,所述关系抽取模型的损失函数为:
Figure 721413DEST_PATH_IMAGE018
其中,N表示语句的长度,
Figure 803638DEST_PATH_IMAGE003
表示主语的第i个token的label,如果第i个token是真实的位置,则
Figure 619279DEST_PATH_IMAGE019
,否则为
Figure 611505DEST_PATH_IMAGE007
表示第i个token的置信度。
在所述关联模块中,所述编码器的向量表示和头实体抽取模块的向量表示的头尾位置token的平均值以多头注意力机制来结合。
所述尾实体/关系抽取模块由双指针网络构成,所述双指针网络的数量由关系的数量决定。
所述尾实体/关系抽取模块的损失函数为:
Figure 369246DEST_PATH_IMAGE021
,其中,N表示语句的长度,
Figure 79713DEST_PATH_IMAGE010
表示宾语中第i个token的label,如果第i个token是真实的位置则
Figure 430535DEST_PATH_IMAGE022
,否则为
Figure 667482DEST_PATH_IMAGE023
表示关系的数量。
具体来说,关系抽取模型包括头实体抽取、关联模块以及尾实体/关系抽取模块。头实体抽取部分,编码器部分从实体监督的预训练模型进行fine-tune。采用更适合长语句较多的英文文献的指针网络作为解码器。解码器为每个语句中的位置分配一个二进制标记(0/1),该标记指示它是否正确,并提供每个位置的置信度以检测实体的开始和结束位置。
在关联模块中,为了能在尾实体/关系抽取模块得到更好的效果,将编码器的向量表示和头实体抽取模块的向量表示的头尾位置token的平均值使用多头注意力机制来结合,从而输入尾实体/关系抽取模块的embedding将不仅仅来自于编码器还有来自头实体的信息。
在尾实体/关系抽取模块中,它由一系列的类似头实体抽取中的双指针网络构成,双指针网络的数量由关系的数量决定。
S103:获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
所述渐进式的权重损失函数为:
Figure 205910DEST_PATH_IMAGE024
即:本发明的实施例中,提出了一个渐进式的权重损失函数。由于命名实体识别任务经过几个epoch后即可得到较好的训练,所以将会在前几个epoch中更关注与头实体抽取任务然后后续再更关注于尾实体/关系的抽取。
最后,在前向推理过程中,如果置信度超过一定的阈值,无论是在头实体还是尾实体,都认为其是正确的开始或结束位置,这样就可以有多个头-尾实体对。对于多个开始-结束匹配,采用最近开始-结束对匹配原则,获得实体的所有结果。对于多个主谓宾匹配,采用全匹配原则,得到最终的主谓宾结果。
本发明实施例的医学文献的关系抽取方法,首先基于资深医生少量精标注的医学文献,并使用外部文献实体标注数据来预训练Bert模型。然后用迁移学习的方式,共享编码层进行头实体、尾实体/关系的联合抽取,使得模型能有更多的文献知识以及更好的泛化能力。此外,通过关联模块来使得尾实体/关系抽取模块能含有头实体抽取模块的信息,以及使用设计的损失函数来使得关系抽取模型具有更好的关系抽取效果,进而,提升医学文献的关系抽取效果,提升了后续得到临床知识图谱的专业性。
另一方面,如图2所示,本申请实施例提供了一种医学文献的关系抽取装置,包括:获取模块210、构建模块220和关系抽取模块230,其中:
获取模块210,用于获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;
构建模块220,用于构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;
关系抽取模块230,用于获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
在本发明的一个实施例中,所述关系抽取模型中采用指针网络作为解码器,其中,所述解码器为每个语句中的位置分配一个二进制标记,所述二进制标记指示所述语句中的位置是否正确,并提供每个位置的置信度以检测实体的开始和结束位置,所述关系抽取模型的损失函数为:
Figure 13460DEST_PATH_IMAGE026
其中,N表示语句的长度,
Figure 420171DEST_PATH_IMAGE003
表示主语的第i个token的label,如果第i个token是真实的位置,则
Figure 386990DEST_PATH_IMAGE005
,否则为
Figure 237265DEST_PATH_IMAGE027
表示第i个token的置信度。
在本发明的一个实施例中,在所述关联模块中,所述编码器的向量表示和头实体抽取模块的向量表示的头尾位置token的平均值以多头注意力机制来结合。
在本发明的一个实施例中,所述尾实体/关系抽取模块由双指针网络构成,所述双指针网络的数量由关系的数量决定。
在本发明的一个实施例中,所述尾实体/关系抽取模块的损失函数为:
Figure 515800DEST_PATH_IMAGE029
,其中,N表示语句的长度,
Figure 867147DEST_PATH_IMAGE010
表示宾语中第i个token的label,如果第i个token是真实的位置则
Figure 298259DEST_PATH_IMAGE030
,否则为
Figure 834283DEST_PATH_IMAGE031
表示关系的数量。
在本发明的一个实施例中,所述渐进式的权重损失函数为:
Figure 475480DEST_PATH_IMAGE032
本发明实施例的医学文献的关系抽取装置,首先基于资深医生少量精标注的医学文献,并使用外部文献实体标注数据来预训练Bert模型。然后用迁移学习的方式,共享编码层进行头实体、尾实体/关系的联合抽取,使得模型能有更多的文献知识以及更好的泛化能力。此外,通过关联模块来使得尾实体/关系抽取模块能含有头实体抽取模块的信息,以及使用设计的损失函数来使得关系抽取模型具有更好的关系抽取效果,进而,提升医学文献的关系抽取效果,提升了后续得到临床知识图谱的专业性。
需要说明的是,本申请实施例的医学文献的关系抽取装置的具体实现方式与本申请实施例的医学文献的关系抽取方法的具体实现方式类似,具体请参见方法部分的描述,此处不做赘述。
图3为本申请实施例的电子设备的结构示意图。
如图3所示,电子设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分602加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的电子设备中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行电子设备、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的处理接收设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的电子设备来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,处理器用于执行所述程序时实现医学文献的关系抽取方法:获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的医学文献的关系抽取方法:获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
作为另一方面,本申请还提供了一种计算机程序产品,该计算机程序产品可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机程序产品存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的医学文献的关系抽取方法:获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种医学文献的关系抽取方法,其特征在于,包括:
获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;
构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;
获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
2.根据权利要求1所述的医学文献的关系抽取方法,其特征在于,所述关系抽取模型中采用指针网络作为解码器,其中,所述解码器为每个语句中的位置分配一个二进制标记,所述二进制标记指示所述语句中的位置是否正确,并提供每个位置的置信度以检测实体的开始和结束位置,所述关系抽取模型的损失函数为:
Figure 629892DEST_PATH_IMAGE001
其中,N表示语句的长度,
Figure 839156DEST_PATH_IMAGE002
表示主语的第i个token的label,如果第i个token是真实的位置,则
Figure 601576DEST_PATH_IMAGE003
,否则为
Figure 333558DEST_PATH_IMAGE004
表示第i个token的置信度。
3.根据权利要求1所述的医学文献的关系抽取方法,其特征在于,在所述关联模块中,所述编码器的向量表示和头实体抽取模块的向量表示的头尾位置token的平均值以多头注意力机制来结合。
4.根据权利要求1所述的医学文献的关系抽取方法,其特征在于,所述尾实体/关系抽取模块由双指针网络构成,所述双指针网络的数量由关系的数量决定。
5.根据权利要求4所述的医学文献的关系抽取方法,其特征在于,所述尾实体/关系抽取模块的损失函数为:
Figure 585548DEST_PATH_IMAGE006
,其中,N表示语句的长度,
Figure 298420DEST_PATH_IMAGE007
表示宾语中第i个token的label,如果第i个token是真实的位置则
Figure 926848DEST_PATH_IMAGE008
,否则为
Figure 838303DEST_PATH_IMAGE009
表示关系的数量。
6.根据权利要求1所述的医学文献的关系抽取方法,其特征在于,所述渐进式的权重损失函数为:
Figure 261194DEST_PATH_IMAGE010
7.一种医学文献的关系抽取装置,其特征在于,包括:
获取模块,用于获得数据集,并基于所述数据集预训练Bert模型,其中,所述数据集包括外部医学文献数据库中的医学文献,所述医学文献预先标注实体,所述Bert模型用于实体监督;
构建模块,用于构建关系抽取模型,所述关系抽取模型包括头实体抽取模块、关联模块以及尾实体/关系抽取模块,所述头实体抽取模块以及关联模块的编码器基于所述实体监督的Bert模型进行微调;
关系抽取模块,用于获得渐进式的权重损失函数,以利用所述关系抽取模型对医学文献进行关系抽取。
8.一种电子设备,其特征在于,所述电子设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器用于执行所述程序时实现根据权利要求1-6任一项所述的医学文献的关系抽取方法。
9.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于实现根据权利要求1-6任一项所述的医学文献的关系抽取方法。
10.一种计算机程序产品,其特征在于,其上存储有计算机程序,所述计算机程序用于实现根据权利要求1-6任一项所述的医学文献的关系抽取方法。
CN202210045975.0A 2022-01-17 2022-01-17 医学文献的关系抽取方法、装置、电子设备及存储介质 Active CN114064938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210045975.0A CN114064938B (zh) 2022-01-17 2022-01-17 医学文献的关系抽取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210045975.0A CN114064938B (zh) 2022-01-17 2022-01-17 医学文献的关系抽取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114064938A true CN114064938A (zh) 2022-02-18
CN114064938B CN114064938B (zh) 2022-04-22

Family

ID=80230917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210045975.0A Active CN114064938B (zh) 2022-01-17 2022-01-17 医学文献的关系抽取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114064938B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691895A (zh) * 2022-05-31 2022-07-01 南京航天数智科技有限公司 一种基于指针网络的刑事案情实体关系联合抽取方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法
CN112860904A (zh) * 2021-04-06 2021-05-28 哈尔滨工业大学 一种融入外部知识的生物医疗关系抽取方法
US20210224651A1 (en) * 2020-01-21 2021-07-22 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113535984A (zh) * 2021-08-11 2021-10-22 华侨大学 一种基于注意力机制的知识图谱关系预测方法及装置
CN113807079A (zh) * 2020-06-11 2021-12-17 四川大学 一种基于序列到序列的端到端实体和关系联合抽取方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110059320A (zh) * 2019-04-23 2019-07-26 腾讯科技(深圳)有限公司 实体关系抽取方法、装置、计算机设备和存储介质
US20210224651A1 (en) * 2020-01-21 2021-07-22 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN111428036A (zh) * 2020-03-23 2020-07-17 浙江大学 一种基于生物医学文献的实体关系挖掘方法
WO2021190236A1 (zh) * 2020-03-23 2021-09-30 浙江大学 一种基于生物医学文献的实体关系挖掘方法
CN113807079A (zh) * 2020-06-11 2021-12-17 四川大学 一种基于序列到序列的端到端实体和关系联合抽取方法
CN112818676A (zh) * 2021-02-02 2021-05-18 东北大学 一种医学实体关系联合抽取方法
CN112860904A (zh) * 2021-04-06 2021-05-28 哈尔滨工业大学 一种融入外部知识的生物医疗关系抽取方法
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113535984A (zh) * 2021-08-11 2021-10-22 华侨大学 一种基于注意力机制的知识图谱关系预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王东: "基于深度学习的实体关系抽取方法研究", 《中国优秀博硕士学位论文全文数据库》 *
钟华帅: "基于深度学习的实体和关系联合抽取模型研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114691895A (zh) * 2022-05-31 2022-07-01 南京航天数智科技有限公司 一种基于指针网络的刑事案情实体关系联合抽取方法

Also Published As

Publication number Publication date
CN114064938B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
US11501182B2 (en) Method and apparatus for generating model
CN111090987B (zh) 用于输出信息的方法和装置
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN112992317B (zh) 一种医学数据处理方法、系统、设备及介质
CN109522552B (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN113569554B (zh) 一种数据库中实体对匹配方法、装置、电子设备及存储介质
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
CN115205880A (zh) 一种医学影像报告生成方法及装置
CN114064938B (zh) 医学文献的关系抽取方法、装置、电子设备及存储介质
Sun et al. Study on medical image report generation based on improved encoding-decoding method
CN114416995A (zh) 信息推荐方法、装置及设备
CN114020874A (zh) 一种病历检索系统、方法、设备和计算机可读存储介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN111666405A (zh) 用于识别文本蕴含关系的方法和装置
CN116266268A (zh) 基于对比学习与语义感知的语义解析方法及装置
CN112989032A (zh) 实体关系分类方法、装置、介质及电子设备
CN114611497B (zh) 语病诊断模型的训练方法、语病诊断方法、装置及设备
CN114637852B (zh) 医学文本的实体关系抽取方法、装置、设备及存储介质
CN112927806B (zh) 病历结构化网络跨疾病迁移训练方法、装置、介质及设备
CN111292114B (zh) 用于生成标签的方法和装置
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质
CN115688735A (zh) 文本处理方法、设备、介质和程序产品
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN114974599A (zh) 生成标签预测模型的方法、设备、介质及程序产品
CN114218954A (zh) 病历文本中疾病实体和症状实体阴阳性的判别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant