CN116127978A - 基于医学文本的嵌套命名实体抽取方法 - Google Patents

基于医学文本的嵌套命名实体抽取方法 Download PDF

Info

Publication number
CN116127978A
CN116127978A CN202310148213.8A CN202310148213A CN116127978A CN 116127978 A CN116127978 A CN 116127978A CN 202310148213 A CN202310148213 A CN 202310148213A CN 116127978 A CN116127978 A CN 116127978A
Authority
CN
China
Prior art keywords
entity
medical
conditional random
attention
random field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310148213.8A
Other languages
English (en)
Inventor
刘淇
陈恩红
程明月
蒋浚哲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310148213.8A priority Critical patent/CN116127978A/zh
Publication of CN116127978A publication Critical patent/CN116127978A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于医学文本的嵌套命名实体抽取方法,所述方法包括:自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别;以及注意条件随机场,用于解码以获得并行任务之间的识别结果关系;输入文本通过所述自适应共享的预训练语言模型时,根据预定义的实体类别类获得与不同实体类别匹配的编码特征,然后,所述注意条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。该基于医学文本的嵌套命名实体抽取方法能够从医学文本中抽取嵌套的命名实体知识以建立医学领域知识图谱,数据处理高效、准确、全面。

Description

基于医学文本的嵌套命名实体抽取方法
技术领域
本发明涉及计算机应用技术领域,具体地,涉及一种基于医学文本的嵌套命名实体抽取方法。
背景技术
医学领域的自然语言文档,如医学教科书、医学百科全书、临床病例、检测报告等,包含了大量的医学专业知识和术语。理解医学数据的关键思想是准确地从医学文本中提取关键知识。因此,准确快速地提取医学实体并将这些非结构化数据转换为结构化领域知识图谱对于获取和利用医学信息至关重要。基于深度学习的命名实体识别(NER)应用机器阅读医学文本,显著提高医学研究的效率和质量,服务于下游子任务。
但是,医学领域的文本中经常会出现嵌套命名实体的情况。最重要的序列标记方法仅对非嵌套实体有效。现有的研究已经给出了一些解决方案,将NER视为问答、跨度分类、依赖解析任务或离散联合模型。然而,尽管基于跨度分类的系统取得了成功,但这种方法存在一些不可忽视的弱点。首先,由于解码过程与跨度预测是分离的,这种方法存在边界不一致问题。其次,由于许多低质量的候选跨度,这些方法需要很高的计算成本。然后,其很难识别医学文本中经常出现的长实体,因为在训练期间枚举的跨度长度不是无限的。
与上述研究不同的是,分层方法通过多级序列标注来解决这一任务,它可以捕捉相邻词级标签之间的依赖关系,并最大限度地提高预测标签在整个句子上的概率。然而,该方法总是简单地将实体划分为几个层次,重复并独立地执行序列标注任务。可见,这种方法没有注意到实体类别之间的差异,而只是独立识别每一层的结果。并且,不同实体类别的识别结果之间往往存在隐含的关系,但这种关系很容易被忽略,或者更简单的,仅仅只将结果从下层传递到上层而没有反向的传递。
发明内容
本发明的目的是提供一种基于医学文本的嵌套命名实体抽取方法,该基于医学文本的嵌套命名实体抽取方法能够从医学文本中抽取嵌套的命名实体知识以建立医学领域知识图谱,数据处理高效、准确、全面。
为了实现上述目的,本发明提供了一种基于医学文本的嵌套命名实体抽取方法,所述方法包括:
自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别;
以及注意条件随机场,用于解码以获得并行任务之间的识别结果关系;
输入文本通过所述自适应共享的预训练语言模型时,根据预定义的实体类别类获得与不同实体类别匹配的编码特征,然后,所述注意条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。
优选地,所述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重αij,并在反向传播期间更新权重的值;其中,i表示实体类别类的数量,预训练模型的Transformer编码器层数定义了j的最大值;计算公式为:
hj+1=TransformerEncoder(hj)
Figure BDA0004089857590000021
其中,n表示预训练语言模型的Transformer编码器层的总数,Ei表示第i个实体类别类的编码器结果。
优选地,使用softmax函数计算后输出权重的校正值,公式如下:
Figure BDA0004089857590000031
以保证每批学习后权重能更好地反映每一层的实际动作,防止权重消失或爆炸。
优选地,在注意条件随机场中,假设预先定义了m个实体类别类,则有m个并行的CRF;对于每个CRF,其他并行CRF的推理结果作为注意力机制的查询;集合C表示除当前CRF之外的所有CRF的Viterbi解码结果,用dl表示每个输入文本的最大序列长度;将第i个CRF的注意力值计算为:
Figure BDA0004089857590000032
其中,
Figure BDA0004089857590000033
c表示填充常数,此处设置为0;dt表示标签的数量加上填充零;
然后,利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系,并捕获句子的内部结构信息:
Figure BDA0004089857590000034
其中,
Figure BDA0004089857590000035
分别代表key矩阵和value矩阵;设Kiii,表示第o个CRF的输入;并再次将残差Ri和之前结果Hi加到第i个CRF,得到最终的预测标签列表:
Figure BDA0004089857590000036
根据上述技术方案,本发明基于端到端序列标记的具有注意条件随机场的自适应共享网络架构,利用预训练词向量来处理医学文本的嵌套命名实体。此外,该模型不仅利用了序列标记的基本方法,并且同样考虑了不同层实体之间的隐含区别和关系。在识别每一层实体时,能有效利用其它层实体中蕴含的信息。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明提供的基于医学文本的嵌套命名实体抽取方法流程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参见图1,本发明提供一种基于医学文本的嵌套命名实体抽取方法,该方法可以分为两个模块。前一部分是一个自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别。后一部分是注意条件随机场,用于解码以获得并行任务之间的识别结果关系。输入文本通过前一个模块,根据预定义的实体类别类获得与不同实体类别匹配的编码特征。之后注意力的条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。
上述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重αij,并在反向传播期间更新权重的值;其中,i表示实体类别类的数量,预训练模型的Transformer编码器层数定义了j的最大值;计算公式为:
hj+1=TransformerEncoder(hj)
Figure BDA0004089857590000051
其中,n表示预训练语言模型的Transformer编码器层的总数,Ei表示第i个实体类别类的编码器结果。
另外,为了保证每批学习后权重能更好地反映每一层的实际动作,防止权重消失或爆炸,使用softmax函数计算后输出权重的校正值,公式如下:
Figure BDA0004089857590000052
注意条件随机场的原理是:假设预先定义了m个实体类别类,则有m个并行的CRF;对于每个CRF,其他并行CRF的推理结果作为注意力机制的查询;集合C表示除当前CRF之外的所有CRF的Viterbi解码结果,用dl表示每个输入文本的最大序列长度;将第i个CRF的注意力值计算为:
Figure BDA0004089857590000053
其中,
Figure BDA0004089857590000054
c表示填充常数,此处设置为0;dt表示标签的数量加上填充零;
然后,利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系,并捕获句子的内部结构信息:
Figure BDA0004089857590000055
其中,
Figure BDA0004089857590000056
分别代表key矩阵和value矩阵;设Ki=Vi=Hi,表示第i个CRF的输入;并再次将残差Ri和之前结果Hi加到第i个CRF,得到最终的预测标签列表:
Figure BDA0004089857590000061
在具体的实施例中,根据医疗文本数据的特性设计一系列临床麻醉领域的实体类型作为实体抽取方法的抽取对象,如疾病实体、临床表现实体以及医疗程序实体等;进而基于先验知识定义了各实体类型下的少量实体,用于后续构建训练模型所需文本数据。下表列出了本发明能够处理的部分实体类型以及样例对应实体:
Figure BDA0004089857590000062
另外,本发明采用了自适应共享技术的预训练模型作为医学文本编码的方式,可以通过更换其它技术对预训练模型进行处理,形成另外的实施例;
同时,本发明还采用了注意条件随机场作为标签解码的方式,可以通过更换其它解码器或解码方案形成另外的实施例。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (4)

1.一种基于医学文本的嵌套命名实体抽取方法,其特征在于,所述方法包括:
自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别;
以及注意条件随机场,用于解码以获得并行任务之间的识别结果关系;
输入文本通过所述自适应共享的预训练语言模型时,根据预定义的实体类别类获得与不同实体类别匹配的编码特征,然后,所述注意条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。
2.根据权利要求1所述的基于医学文本的嵌套命名实体抽取方法,其特征在于,所述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重αij,并在反向传播期间更新权重的值;其中,i表示实体类别类的数量,预训练模型的Transformer编码器层数定义了j的最大值;计算公式为:
hj+1=TransformerEncoder(hj)
Figure FDA0004089857560000011
其中,n表示预训练语言模型的Transformer编码器层的总数,Ei表示第i个实体类别类的编码器结果。
3.根据权利要求2所述的基于医学文本的嵌套命名实体抽取方法,其特征在于,使用softmax函数计算后输出权重的校正值,公式如下:
Figure FDA0004089857560000012
以保证每批学习后权重能更好地反映每一层的实际动作,防止权重消失或爆炸。
4.根据权利要求1所述的基于医学文本的嵌套命名实体抽取方法,其特征在于,在注意条件随机场中,假设预先定义了m个实体类别类,则有m个并行的CRF;对于每个CRF,其他并行CRF的推理结果作为注意力机制的查询;集合C表示除当前CRF之外的所有CRF的Viterbi解码结果,用dl表示每个输入文本的最大序列长度;将第i个CRF的注意力值计算为:
Figure FDA0004089857560000021
其中,
Figure FDA0004089857560000022
c表示填充常数,此处设置为0;dt表示标签的数量加上填充零;
然后,利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系,并捕获句子的内部结构信息:
Figure FDA0004089857560000023
其中,
Figure FDA0004089857560000024
分别代表key矩阵和value矩阵;设Kiii,表示第i个CRF的输入;并再次将残差Ri和之前结果Hi加到第i个CRF,得到最终的预测标签列表:
Figure FDA0004089857560000025
CN202310148213.8A 2023-02-15 2023-02-15 基于医学文本的嵌套命名实体抽取方法 Pending CN116127978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310148213.8A CN116127978A (zh) 2023-02-15 2023-02-15 基于医学文本的嵌套命名实体抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310148213.8A CN116127978A (zh) 2023-02-15 2023-02-15 基于医学文本的嵌套命名实体抽取方法

Publications (1)

Publication Number Publication Date
CN116127978A true CN116127978A (zh) 2023-05-16

Family

ID=86311665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310148213.8A Pending CN116127978A (zh) 2023-02-15 2023-02-15 基于医学文本的嵌套命名实体抽取方法

Country Status (1)

Country Link
CN (1) CN116127978A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644755A (zh) * 2023-07-27 2023-08-25 中国科学技术大学 基于多任务学习的少样本命名实体识别方法、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116644755A (zh) * 2023-07-27 2023-08-25 中国科学技术大学 基于多任务学习的少样本命名实体识别方法、装置及介质
CN116644755B (zh) * 2023-07-27 2023-11-17 中国科学技术大学 基于多任务学习的少样本命名实体识别方法、装置及介质

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN111897908A (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN111309918A (zh) 一种基于标签关联性的多标签文本分类方法
CN111597340A (zh) 一种文本分类方法及装置、可读存储介质
CN114580424A (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN116127978A (zh) 基于医学文本的嵌套命名实体抽取方法
CN116416480A (zh) 一种基于多模板提示学习的视觉分类方法和装置
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN116663539A (zh) 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN114372441B (zh) 一种中文文本自动纠错方法及装置
CN116595979A (zh) 一种基于标签提示的命名实体识别方法、装置及介质
CN116204643A (zh) 一种基于多任务学习知识增强的级联标签分类方法
CN115906846A (zh) 一种基于双图的层次特征融合的文档级命名实体识别方法
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN114580423A (zh) 一种基于Bert与Scat的页岩气领域命名实体识别方法
CN114398488A (zh) 一种基于注意力机制的bilstm多标签文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination