CN112818676A - 一种医学实体关系联合抽取方法 - Google Patents

一种医学实体关系联合抽取方法 Download PDF

Info

Publication number
CN112818676A
CN112818676A CN202110142037.8A CN202110142037A CN112818676A CN 112818676 A CN112818676 A CN 112818676A CN 202110142037 A CN202110142037 A CN 202110142037A CN 112818676 A CN112818676 A CN 112818676A
Authority
CN
China
Prior art keywords
entity
text
medical
vector representation
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110142037.8A
Other languages
English (en)
Other versions
CN112818676B (zh
Inventor
杨晓春
郑婷月
李雨繁
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202110142037.8A priority Critical patent/CN112818676B/zh
Publication of CN112818676A publication Critical patent/CN112818676A/zh
Application granted granted Critical
Publication of CN112818676B publication Critical patent/CN112818676B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种医学实体关系联合抽取方法,涉及实体关系抽取方法。包括:创建面向医疗领域的中文预训练模型ChineseMedBert,并获取训练实例;利用训练实例对ChineseMedBert进行微调,并通过ChineseMedBert获取给定医学文本的词向量表示;根据文本的词向量表示,获取文本的特征向量表示;获取文本的增强语义向量表征;利用文本的增强语义向量表征,预测给定医学文本的标签序列;根据预测的标签序列,抽取出文本的关系三元组。缓解了传统流水线方法的误差累积问题,解决了基于参数共享的联合抽取方法忽略子任务交互信息的问题和医学文本中普遍存在的重叠关系问题,可以有效抽取各种重叠关系类型的事实三元组信息,提高医学实体关系抽取的准确性。

Description

一种医学实体关系联合抽取方法
技术领域
本发明涉及实体关系抽取方法,具体涉及一种医学实体关系联合抽取方法。
背景技术
现如今,知识图谱已应用到各行各业,在医疗领域也得到了广泛的研究与应用。其中,医学知识抽取任务是构建医疗知识图谱的关键。医学知识抽取是指利用人工或自动化的方法从临床数据、医学文献、医学书籍等半结构化或非结构化原始数据中抽取出医疗事实三元组。例如,在"小儿急性喉炎易合并小儿急性喉炎呼吸道感染"这句话中,(小儿急性喉炎,并发症,小儿急性喉炎呼吸道感染)便构成了医疗事实三元组,其中,"小儿急性喉炎"与"小儿急性喉炎呼吸道感染"是疾病类型的实体,二者间的关系属于"并发症"。
早期的知识抽取采用pipeline(流水线)方法,即先抽取实体,再抽取关系。然而,这种方式存在误差累积问题,实体抽取的准确性会密切影响关系抽取,且忽略了实体与关系之间的内在联系和依赖关系。近年来,许多研究工作考虑将实体识别和关系抽取任务进行联合建模,这种端到端的模型会有更优的效果。现有的许多研究工作通过参数共享,例如,共享输入特征或者内部隐层状态,来联合抽取实体及其关系,此种方法对子模型没有限制,但是由于使用独立的解码算法,导致实体模型和关系模型训练目标分离,忽略了两个子任务之间的相互影响,无法利用其交互信息来提升模型性能。另一方面,现有的大多数医学实体关系抽取方法没有考虑重叠关系的抽取问题,然而在海量医学文本中,这种重叠关系普遍存在。重叠关系的类型大致可以分为两种:EPO(EntityPairOverlap,实体对重叠)和SEO(SingleEntityOverlap,单实体重叠)。前者指的是头尾实体相同但关系不同的三元组;后者指的是单个实体和关系相同的三元组。
发明内容
在现有的医学实体关系联合抽取方法中,通过共享参数联合抽取实体和关系,实体识别和关系抽取两个子模型之间的交互性不强,二者仍然是两个独立的过程,没有实现真正的“联合”。同时,现有的方法不能很好地识别各种重叠关系类型的事实三元组。针对现有技术存在的不足,本发明提供一种医学实体关系联合抽取方法,将实体关系联合抽取问题建模为序列标注任务,旨在加强实体和关系之间的交互,实现联合解码的同时更好地识别各种重叠关系三元组,从而提高实体关系抽取的准确性。
本发明的技术方案是:
一种医学实体关系联合抽取方法,包括如下步骤:
步骤1:获取训练实例以及面向医疗领域的中文预训练模型ChineseMedBert;
步骤2:利用获得的训练实例对ChineseMedBert进行微调,并通过微调后的ChineseMedBert获取给定医学文本的词向量表示;
步骤3:根据给定医学文本的词向量表示,获取给定医学文本的特征向量表示;
步骤4:获取给定医学文本的增强语义向量表征;
步骤5:利用文本的增强语义向量表征,预测给定医学文本的标签序列;
步骤6:根据预测的标签序列,抽取出给定医学文本的关系三元组。
进一步地,根据所述的医学实体关系联合抽取方法,所述创建面向医疗领域的中文预训练模型ChineseMedBert的方法为:使用若干中文医学文献对Bert中文预训练模型进行再训练,得到面向医疗领域的中文预训练模型ChineseMedBert。
进一步地,根据所述的医学实体关系联合抽取方法,所述获取训练实例的方法为:获取现有中文医学领域的实体关系联合抽取数据集,并对数据集中的文本进行序列标注,得到与文本对应的标签序列作为训练实例。
进一步地,根据所述的医学实体关系联合抽取方法,所述现有中文医学领域的实体关系联合抽取数据集为中文医学信息抽取数据集CMeIE。
进一步地,根据所述的医学实体关系联合抽取方法,所述序列标注的模式为:基于BIO标注模式,一方面按照标注顺序依次增加头实体类型、尾实体类型、关系类型以及实体位置的标注,且采取自定义不同的标签分别对头实体类型、尾实体类型、关系类型以及实体位置进行标注;另一方面,对于待标注当前字所属实体对应两个以上头实体、待标注当前字所属实体对应两个以上尾实体、待标注当前字所属实体参与两个以上不同类型的关系、以及待标注当前字处于重叠关系中的不同位置这四种情况分别使用自定义的特定标签分别对应地对当前字的头实体类型标注位置处、尾实体类型标注位置处、关系类型标注位置处和实体位置标注处进行标注。
进一步地,根据所述的医学实体关系联合抽取方法,步骤3中所述获取文本的特征向量表示的方法为:将文本的词向量表示传入至Bi-LSTM层进行编码,抽取每个词的上下文语义信息表征,学习文本的序列特征,最终得到文本的特征向量表示。
进一步地,根据所述的医学实体关系联合抽取方法,所述步骤4具体包括如下步骤:根据文本特征向量表示,利用self-attention机制获取文本在一个表示子空间中的特征向量表示;使用Multi-Head Attention机制学习文本在多个表示子空间中的特征向量表示,获取文本最终的增强语义向量表征。
进一步地,根据所述的医学实体关系联合抽取方法,所述步骤5具体包括如下步骤:所述预测给定医学文本的标签序列的方法为:采用CRF进行全局标签优化,预测标签序列。
进一步地,根据所述的医学实体关系联合抽取方法,步骤6的具体内容为:根据预测的标签序列,遵循最近距离匹配的原则进行关系三元组抽取,对于每个实体,查找与其距离最近的头实体类型、尾实体类型、关系类型及实体位置可匹配的实体,组成一个关系三元组;可匹配实体的查找方向有如下要求:实体位置标注为表示当前字所属实体为头实体标签的实体只能向后查找,实体位置标注为表示当前字所属实体为尾实体标签的实体只能向前查找,实体位置标注为表示当前字处于重叠关系中的不同位置的特定标签的实体需要沿前后两个方向进行查找。
进一步地,根据所述的医学实体关系联合抽取方法,表示当前字所属实体对应两个以上头实体的特定标签可与任何头实体类型标签匹配;表示当前字所属实体对应两个以上尾实体的特定标签可与任何尾实体类型标签匹配;表示当前字所属实体参与两个以上不同类型的关系的特定标签可与任何关系类型标签匹配。
本发明提供的医学实体关系联合抽取方法,与现有技术相比具有如下有益效果:首先,为了加强实体关系联合抽取任务中实体和关系之间的交互,针对医疗领域的数据特点,将信息抽取任务转化为序列标注任务,缓解了传统流水线方法的误差累积问题,解决了基于参数共享的联合抽取方法忽略子任务交互信息的问题。与此同时,也解决了医学文本中普遍存在的重叠关系问题,可以有效抽取各种重叠关系类型的事实三元组信息。其次,利用大量的中文医学文献对目前已有的Bert(Bidirectional Encoder Representationfrom Transformers,双向编码表征模型)中文预训练语言模型进行再训练,得到特定于医疗领域的中文预训练语言模型ChineseMedBert。与Bert模型相比,该模型会更加适用于医学领域的信息抽取任务,提高医学实体关系抽取的准确性。此外,采用Multi-HeadAttention(多头注意力机制)有效学习实体之间的依赖关系,从多个表示子空间中学习多种特征表达,可以更好地学习文本的表征。采用本发明的医学实体关系联合抽取方法,可以从海量非结构化医学文本中抽取更多的结构化三元组,从而构建更加完备的医学知识图谱,间接为医疗智能问答和医疗决策支持系统等应用提供了重要的数据支持,为医疗行业提供更有力的支持和保障。
附图说明
图1为本实施方式的医学实体关系联合抽取方法流程图;
图2为本实施方式的序列标注模式应用示例示意图;
图3为本实施方式中获取文本在一个表示子空间中的特征向量表示的示例示意图;
图4为本实施方式中执行6次Self-Attention操作时注意力权重的可视化效果示例示意图;
图5为本实施方式中根据预测的标签序列抽取出对应的关系三元组的示例示意图。
具体实施方式
下面将结合附图,对本发明的具体实施方式进行清楚、完整地描述。
为了便于理解本申请,下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施方式。但是,本申请可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本申请的公开内容理解的更加透彻全面。
本实施方式的医学实体关系联合抽取方法,如图1所示,包括以下步骤:
步骤1:获取训练实例以及面向医疗领域的中文预训练模型;本步骤具体包括如下两方面内容,执行时不分先后次序:
一方面:获取现有中文医学领域的实体关系联合抽取数据集,并对数据集中的文本进行序列标注,得到与文本对应的标签序列,从而获得训练实例;
所述现有中文医学领域的实体关系联合抽取数据集,例如,中文医学信息抽取数据集CMeIE(Chinese Medical Information Extraction)、中文糖尿病标注数据集等。在本实施方式中,获取的现有中文医学领域的实体关系联合抽取数据集是中文医学信息抽取数据集CMeIE(Chinese Medical Information Extraction)。该数据集中已标注出文本中存在的三元组信息,具体包括关系、实体及其类型。该数据集的数据格式如表1所示,其中,"text"字段记录来源于文本,抽取语料时,如果三元组来源于上下多个句子,此时将句子进行拼接;"spo_list"中的Combined字段记录拼接信息,若句子中存在多个三元组,则记录在"spo_list"字段中;"predicate"字段记录实体之间的关系;"subject"字段记录头实体;"subject_type"字段记录头实体类型;"object"字段记录尾实体;"object_type"字段记录尾实体类型。
表1中文医学信息抽取数据集的数据格式
Figure BDA0002929026570000041
Figure BDA0002929026570000051
根据从CMeIE得到的三元组信息,利用序列标注模式对CMeIE中的文本逐字进行反向标注,得到对应的标签序列,从而获得所需的训练实例。本实施方式针对中文医学实体关系的类型特点,在BIO标注模式的基础上,提供一种序列标注模式。现有序列标注的BIO(B-begin,I-inside,O-outside)标注模式,通过“BIO”标注的是实体边界,其中,“B”表示实体首部,“I”表示实体除首部以外的部分,“O”表示非实体。本实施方式提供的序列标注模式基于BIO标注模式,一方面按照标注顺序依次增加头实体类型、尾实体类型、关系类型以及实体位置的标注,以丰富实体信息。本领域技术人员可以自定义不同的标签分别用于对头实体类型、尾实体类型、关系类型以及实体位置进行标注,例如,图2中示出的文本S中的字“部”的标注“I-dis-che-r1-t”中,依次为“I”表示实体除首部以外的部分,“dis”表示头实体类型,“che”表示尾实体类型、“r1”表示关系类型、“t”表示实体位置。如图2所示,其他字也按照相同的标注顺序进行标注。另一方面,若待标注当前字所属实体对应两个以上头实体时,则直接使用自定义的标签例如“MS”标签对头实体类型进行标注;若待标注当前字所属实体对应两个以上尾实体时,则直接使用自定义的标签例如“MO”标签对尾实体类型进行标注,例如在图2中,由于头实体“胰腺癌”对应了两个尾实体“上腹部超声检查”和“胰腺肿块”,因此对属于头实体“胰腺癌”中的字“胰”、“腺”和“癌”进行标注时,对其各自的尾实体类型标注位置处直接使用“MO”标签进行标注;若待标注当前字所属实体参与两个以上不同类型的关系,则直接使用自定义的标签例如“MR”标签对关系类型进行标注,例如在图2中,由于头实体“胰腺癌”参与“检查”和“症状”两种类型的关系,因此对字“胰”、“腺”和“癌”进行标注时,对其各自的关系类型标注位置处直接使用“MR”标签进行标注。实体位置表示实体在三元组中的位置,若待标注当前字所属实体为头实体,则使用自定义的标签例如“h”标签对当前字的实体位置标注处进行标注,例如图2中示出的头实体“胰腺癌”中的字“胰”、“腺”和“癌”的实体位置标注处均为“h”标签;若待标注当前字所属实体为尾实体,则使用自定义的标签例如“t”标签对当前字的实体位置标注处进行标注,例如图2中示出的属于两个尾实体“上腹部超声检查”和“胰腺肿块”中的字的实体位置标注处均为“t”标签;若待标注当前字处于重叠关系中的不同位置,则直接使用自定义的标签例如“MP”标签对当前字的实体位置标注处进行标注。
本实施方式以CMeIE中的文本S“胰腺癌首次治疗4个月后,上腹部超声检查显示胰腺肿块”为例,从CMeIE中可以得到如表2所示的文本S的两个关系三元组,根据文本S的两个关系三元组,利用本实施方式提供的序列标注模式对该文本S进行序列标注,得到的标签序列如图2所示。
表2文本S中包含的关系三元组
头实体 医学关系 尾实体
胰腺癌 检查 上腹部超声检查
胰腺癌 症状 胰腺肿块
另一方面:使用若干中文医学文献对Bert中文预训练模型进行再训练,得到面向医疗领域的中文预训练模型ChineseMedBert;
本实施方式从PubMed生物医学文献数据库中获得所需中文医学文献对Bert中文预训练模型进行再训练,当然本领域的技术人员可以理解出PubMed生物医学文献数据库只是获取中文医学文献的一个途径,本领域技术人员也可以从医学书籍等其他途径获取所需的中文医学文献用于对Bert中文预训练模型进行再训练。
步骤2:利用获得的训练实例对中文预训练模型ChineseMedBert进行微调,并通过微调后的中文预训练模型ChineseMedBert获取给定医学文本的词向量表示。
例如,给定医学文本输入序列X={x1,x2,…,xn},其中xi表示文本中的每个字,i代表1,2,…,n,本实施方式利用面向医疗领域的中文预训练模型ChineseMedBert来获取该文本的词向量表示W={w1,w2,…,wn},wj为句子中第j个字的向量表示,其中j代表1,2,…,n。
以文本S为例,通过中文预训练模型ChineseMedBert获取的文本词向量表示为:
Figure BDA0002929026570000061
步骤3:根据给定医学文本的词向量表示,获取文本的特征向量表示。
在本实施方式中,将文本的词向量表示传入至Bi-LSTM层进行编码,抽取每个词的上下文语义信息表征,学习文本的序列特征,最终得到文本的特征向量表示。
Bi-LSTM(Bi-directional Long and Short Term Memory,双向长短时记忆神经网络)是一种通过捕捉双向语义依赖来编码句子语义信息的方法。Bi-LSTM由前向LSTM和后向LSTM组合而成,通过向量连接等方式结合两个方向的信息,能够有效利用整个医疗文本输入序列学习到上下文潜在的隐含信息。
在本实施方式中,将前向和后向LSTM网络传递过程中所有时间步长的隐藏状态h执行向量拼接操作,即每个时间步t输出ht=[ht f,ht b],其中,ht f表示前向LSTM在时间步t时的隐藏状态,ht b表示后向LSTM在时间步t时的隐藏状态。LSTM的前向和后向隐藏状态维度都是[batch_size,time_step,hidden_size],拼接后ht的维度为[batch_size,time_step,hidden_size*2],其中,batch_size为批处理大小,time_step为时间步数,hidden_size为Bi-LSTM网络的隐藏节点数。本实施方式中将文本S的词向量表示W输入Bi-LSTM中,得到文本对应的特征向量表示h的维度为[32,128,600],其中,批处理大小为32,时间步数为128,Bi-LSTM网络的隐藏节点数为300。
步骤4:在步骤3获取的文本特征向量表示的基础上,进一步获取文本的增强语义向量表征。
为了能够捕捉到不同表示空间中的不同特征信息,更好地学习医学文本的表征,本实施方式使用Multi-Head Attention(多头注意力机制)对Bi-LSTM的输出向量进行进一步增强。Multi-Head Attention同时进行了多次Self-Attention(自注意力机制)计算,从多个表示子空间中学习到多种特征表达,以更好地学习文本的表示。在本实施方式中,该步骤4进一步包括如下具体步骤:
步骤4-1:根据Bi-LSTM最终输出的文本特征向量表示,利用Self-Attention机制获取文本在一个表示子空间中的特征向量表示。
在本实施方式中,首先使用激活函数对Bi-LSTM的最终输出h做非线性转换得到矩阵M,然后将M输入至特征抽取器Self-Attention,再然后初始化三个权重参数矩阵WQ、WK、WV,并分别与输入矩阵M做矩阵运算,如公式(1)、(2)、(3)所示,以此构建三个辅助矩阵Query、Key、Value。
M×WQ=Q (1)
M×WK=K (2)
M×WV=V (3)
其中,Q、K、V分别代表辅助矩阵Query、Key、Value,WQ、WK和WV的维度均为[batch_size,time_step,hidden_size],M的维度为[batch_size,time_step,1],这里的hidden_size为Self-Attention的隐藏节点数。本实施例中WQ、WK和WV的维度为[32,128,256],M的维度为[32,128,1]。
根据辅助矩阵Q、K、V的表示,首先计算Q与K的矩阵内积,其中,Q与K的矩阵内积值越大,表示对应的词之间的关系越密切,若内积为0,则表示线性无关;为了避免其内积结果过大,然后采用Scaled Dot-Product Attention(比例点积注意力机制)对内积进行放缩处理;再然后使用softmax函数进行归一化得到注意力权重概率分布;最后将矩阵V与注意力权重概率分布进行加权线性求和,从而得到文本在一个表示子空间中的特征向量表示,如公式(4)所示。
Figure BDA0002929026570000081
其中,调节因子dk为辅助矩阵K的列数,作用是对Q与K的矩阵内积进行压缩。
例如,在图3中,“胰”字的输入特征向量表示为x1,“腺”字的输入特征向量表示为x2,当处理“胰”字时,需要计算该字对文本中所有字的注意力分数,即将当前字作为查询,与文本中所有字(包含该字本身)的键去匹配,查询当前字和文本中所有字的关系以及特征向量的表达。图中q1表示“胰”字对应的查询向量,k1和k2分别表示“胰”和“腺”字对应的键向量,v1和v2分别表示“胰”和“腺”字对应的值向量。计算q1与k1和k2的内积,表示“胰”字对自身的注意力分数为144,“腺”字对“胰”字的注意力分数为120。然后对内积进行压缩处理,使用softmax函数进行归一化得到对应的注意力权重概率分别为0.95和0.05。最后将v1和v2与对应的注意力权重概率进行加权线性求和,从而得到每个字在一个表示子空间中的特征向量表示z1和z2
步骤4-2:使用Multi-Head Attention机制学习文本在多个表示子空间中的特征向量表示,获取文本最终的增强语义向量表征。
首先使用Multi-Head Attention机制,即执行n次Self-Attention操作,得到n个不同表示子空间的特征向量,再对n个不同表示子空间的特征向量进行拼接,并通过全连接层进行降维,得到文本最终的增强语义向量表征。如公式(5)和(6)所示。
Zi=Attention(Qi,Ki,Vi) (5)
Z=FC(concat(Z0,...,Zn-1)) (6)
其中,Zi表示第i次Self-Attention计算得到的特征向量表示;concat(Z0,…,Zn-1)表示对n次Self-Attention在n个不同表示子空间的特征向量表示Z0,…,Zn-1进行拼接,从而得到文本最终的增强语义向量表征;FC函数表示全连接网络。
图4示出的是一个执行6次Self-Attention操作时注意力权重的可视化效果示例图。
步骤5:利用文本的增强语义向量表征,预测给定医学文本的标签序列。
本实施方式采用CRF(Conditional Random Field,条件随机场)进行全局标签优化,预测标签序列。
因为标签序列本身存在着一定的上下文关联,而CRF可以学习到医学实体、关系标签之间的潜在依赖关系,会考虑标签之间的顺序依赖,为最终的标签预测添加条件约束来保证其合法性。在本实施例中,文本S中“胰腺癌”三个字的正确标签应分别为B-dis-MO-MR-h、I-dis-MO-MR-h和I-dis-MO-MR-h。在训练过程中,CRF层可以自动学习到一些约束,例如,文本中的第一个字总是以标签“B-”或“O”开始,而不是“I-”;标签序列“B-label1,I-label2,I-label3,I-…”,label1,label2,label3应该属于同一种实体类型;标签序列“O,I-label”是非法的,实体标签的首个标签应该是“B-”,而非“I-”,即有效的标签序列应该为“O,B-label”。
CRF的损失函数由两部分组成,一个是发射概率矩阵,在本实施例中即为文本的增强语义向量表征;一个是标签转移概率矩阵,对该转移矩阵参数进行随机初始化,经过不断训练学习得到标签之间的转移概率。训练时使用自适应学习率算法Adam进行参数优化,采用MLE(Maximum Likelihood Estimate,极大似然估计)来计算损失,损失函数如公式(7)所示。
Figure BDA0002929026570000091
其中,
Figure BDA0002929026570000092
表示正确的路径得分,
Figure BDA0002929026570000093
是在第t个时刻某个标签为i的得分,
Figure BDA0002929026570000094
Figure BDA0002929026570000095
为某个时刻所有标签的总得分,
Figure BDA0002929026570000096
表示编码层输出的值,
Figure BDA0002929026570000097
表示转移矩阵的值。
步骤6:根据预测的标签序列,抽取出给定医学文本的关系三元组。
根据预测的标签序列结果,遵循最近距离匹配的原则来进行关系三元组抽取,对于每个实体,查找与其距离最近的头实体类型、尾实体类型、关系类型及实体位置可匹配的实体,组成一个关系三元组。其中需要注意的是,“MS”标签可与任何头实体类型标签匹配,“MO”标签可与任何尾实体类型标签匹配,“MR”标签可与任何关系类型标签匹配。可匹配实体的查找方向有如下要求:实体位置标注为“h”的实体只能向后查找,实体位置标注为“t”的实体只能向前查找,实体位置标注为“MP”的实体需要沿前后两个方向进行查找。
例如在图5中,“肛门癌”的头实体类型标签、尾实体类型标签、关系类型标签分别为“dis”、“sym”和“r2”,且实体位置标签为“h”,因此沿序列向后进行查找,可找到实体位置标签为“t”的尾实体“出血”以及“肛门疼痛”,并且两个尾实体的头实体类型标签、尾实体类型标签、关系类型标签都可与“肛门癌”的相应标签相匹配,因此从该文本中可抽取出两个关系三元组:<肛门癌,症状,出血>、<肛门癌,症状,肛门疼痛>。
应当理解的是,本领域技术人员在本发明技术构思的启发下,在不脱离本发明内容的基础上,可以根据上述说明做出各种改进或变换,这仍落在本发明的保护范围之内。

Claims (10)

1.一种医学实体关系联合抽取方法,其特征在于,包括:
步骤1:获取训练实例以及面向医疗领域的中文预训练模型ChineseMedBert;
步骤2:利用获得的训练实例对ChineseMedBert进行微调,并通过微调后的ChineseMedBert获取给定医学文本的词向量表示;
步骤3:根据给定医学文本的词向量表示,获取给定医学文本的特征向量表示;
步骤4:获取给定医学文本的增强语义向量表征;
步骤5:利用文本的增强语义向量表征,预测给定医学文本的标签序列;
步骤6:根据预测的标签序列,抽取出给定医学文本的关系三元组。
2.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,所述获取训练实例的方法为:获取现有中文医学领域的实体关系联合抽取数据集,并对数据集中的文本进行序列标注,得到与文本对应的标签序列作为训练实例。
3.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,获取面向医疗领域的中文预训练模型ChineseMedBert的方法为:使用若干中文医学文献对Bert中文预训练模型进行再训练,得到面向医疗领域的中文预训练模型ChineseMedBert。
4.根据权利要求2所述的医学实体关系联合抽取方法,其特征在于,所述现有中文医学领域的实体关系联合抽取数据集为中文医学信息抽取数据集CMeIE。
5.根据权利要求2所述的医学实体关系联合抽取方法,其特征在于,所述序列标注的模式为:基于BIO标注模式,一方面按照标注顺序依次增加头实体类型、尾实体类型、关系类型以及实体位置的标注,且采取自定义不同的标签分别对头实体类型、尾实体类型、关系类型以及实体位置进行标注;另一方面,对于待标注当前字所属实体对应两个以上头实体、待标注当前字所属实体对应两个以上尾实体、待标注当前字所属实体参与两个以上不同类型的关系、以及待标注当前字处于重叠关系中的不同位置这四种情况分别使用自定义的特定标签分别对应地对当前字的头实体类型标注位置处、尾实体类型标注位置处、关系类型标注位置处和实体位置标注处进行标注。
6.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,步骤3中所述获取文本的特征向量表示的方法为:将文本的词向量表示传入至Bi-LSTM层进行编码,抽取每个词的上下文语义信息表征,学习文本的序列特征,最终得到文本的特征向量表示。
7.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,所述步骤4具体包括如下步骤:根据文本特征向量表示,利用Self-Attention机制获取文本在一个表示子空间中的特征向量表示;使用Multi-Head Attention机制学习文本在多个表示子空间中的特征向量表示,获取文本最终的增强语义向量表征。
8.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,所述步骤5具体包括如下步骤:所述预测给定医学文本的标签序列的方法为:采用CRF进行全局标签优化,预测标签序列。
9.根据权利要求1所述的医学实体关系联合抽取方法,其特征在于,步骤6的具体内容为:根据预测的标签序列,遵循最近距离匹配的原则进行关系三元组抽取,对于每个实体,查找与其距离最近的头实体类型、尾实体类型、关系类型及实体位置可匹配的实体,组成一个关系三元组;可匹配实体的查找方向有如下要求:实体位置标注为表示当前字所属实体为头实体标签的实体只能向后查找,实体位置标注为表示当前字所属实体为尾实体标签的实体只能向前查找,实体位置标注为表示当前字处于重叠关系中的不同位置的特定标签的实体需要沿前后两个方向进行查找。
10.根据权利要求9所述的医学实体关系联合抽取方法,其特征在于,表示当前字所属实体对应两个以上头实体的特定标签可与任何头实体类型标签匹配;表示当前字所属实体对应两个以上尾实体的特定标签可与任何尾实体类型标签匹配;表示当前字所属实体参与两个以上不同类型的关系的特定标签可与任何关系类型标签匹配。
CN202110142037.8A 2021-02-02 2021-02-02 一种医学实体关系联合抽取方法 Active CN112818676B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110142037.8A CN112818676B (zh) 2021-02-02 2021-02-02 一种医学实体关系联合抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110142037.8A CN112818676B (zh) 2021-02-02 2021-02-02 一种医学实体关系联合抽取方法

Publications (2)

Publication Number Publication Date
CN112818676A true CN112818676A (zh) 2021-05-18
CN112818676B CN112818676B (zh) 2023-09-26

Family

ID=75860506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110142037.8A Active CN112818676B (zh) 2021-02-02 2021-02-02 一种医学实体关系联合抽取方法

Country Status (1)

Country Link
CN (1) CN112818676B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113779260A (zh) * 2021-08-12 2021-12-10 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN114048727A (zh) * 2021-11-22 2022-02-15 北京富通东方科技有限公司 一种面向医学领域的关系抽取方法
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114417846A (zh) * 2021-11-25 2022-04-29 湘潭大学 一种基于注意力贡献度的实体关系抽取方法及其用途
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115169350A (zh) * 2022-07-14 2022-10-11 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质
WO2020244475A1 (zh) * 2019-06-05 2020-12-10 腾讯科技(深圳)有限公司 用于语言序列标注的方法、装置、存储介质及计算设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020244475A1 (zh) * 2019-06-05 2020-12-10 腾讯科技(深圳)有限公司 用于语言序列标注的方法、装置、存储介质及计算设备
CN111368528A (zh) * 2020-03-09 2020-07-03 西南交通大学 一种面向医学文本的实体关系联合抽取方法
CN111554360A (zh) * 2020-04-27 2020-08-18 大连理工大学 基于生物医学文献和领域知识数据的药物重定位预测方法
CN111666427A (zh) * 2020-06-12 2020-09-15 长沙理工大学 一种实体关系联合抽取方法、装置、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO QIU等: "Efficient Regular Expression Matching Based on Positional Inverted Index", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》, vol. 34, no. 3, pages 1133 - 1148 *
杨兵等: "一种面向医学文本数据的结构化信息抽取方法", 《小型微型计算机系统》, no. 7, pages 1479 - 1485 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486667A (zh) * 2021-07-26 2021-10-08 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113486667B (zh) * 2021-07-26 2024-03-05 辽宁工程技术大学 一种基于实体类型信息的医疗实体关系联合抽取方法
CN113779260B (zh) * 2021-08-12 2023-07-18 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN113779260A (zh) * 2021-08-12 2021-12-10 华东师范大学 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统
CN114048727A (zh) * 2021-11-22 2022-02-15 北京富通东方科技有限公司 一种面向医学领域的关系抽取方法
CN114417846A (zh) * 2021-11-25 2022-04-29 湘潭大学 一种基于注意力贡献度的实体关系抽取方法及其用途
CN114417846B (zh) * 2021-11-25 2023-12-19 湘潭大学 一种基于注意力贡献度的实体关系抽取方法
CN114064938A (zh) * 2022-01-17 2022-02-18 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114064938B (zh) * 2022-01-17 2022-04-22 中国人民解放军总医院 医学文献的关系抽取方法、装置、电子设备及存储介质
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114596931B (zh) * 2022-05-10 2022-08-02 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114841151B (zh) * 2022-07-04 2022-11-18 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN114841151A (zh) * 2022-07-04 2022-08-02 武汉纺织大学 基于分解-重组策略的医学文本实体关系联合抽取方法
CN115169350A (zh) * 2022-07-14 2022-10-11 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序
CN115169350B (zh) * 2022-07-14 2024-03-12 中国电信股份有限公司 情报信息的处理方法、装置、设备、介质及程序

Also Published As

Publication number Publication date
CN112818676B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN112818676B (zh) 一种医学实体关系联合抽取方法
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
CN110309267B (zh) 基于预训练模型的语义检索方法和系统
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109033068B (zh) 基于注意力机制的用于阅读理解的方法、装置和电子设备
Qiu et al. Chinese clinical named entity recognition using residual dilated convolutional neural network with conditional random field
CN110263325B (zh) 中文分词系统
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN112015868A (zh) 基于知识图谱补全的问答方法
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN110852089B (zh) 基于智能分词与深度学习的运维项目管理方法
CN115688752A (zh) 一种基于多语义特征的知识抽取方法
CN112101031A (zh) 一种实体识别方法、终端设备及存储介质
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN117094395B (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
Huang et al. An effective multimodal representation and fusion method for multimodal intent recognition
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN116384371A (zh) 一种基于bert和依存句法联合实体及关系抽取方法
Zhong et al. Chinese named entity recognition based on gated graph neural network
CN113704481B (zh) 一种文本处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant