CN116127978A - 基于医学文本的嵌套命名实体抽取方法 - Google Patents
基于医学文本的嵌套命名实体抽取方法 Download PDFInfo
- Publication number
- CN116127978A CN116127978A CN202310148213.8A CN202310148213A CN116127978A CN 116127978 A CN116127978 A CN 116127978A CN 202310148213 A CN202310148213 A CN 202310148213A CN 116127978 A CN116127978 A CN 116127978A
- Authority
- CN
- China
- Prior art keywords
- entity
- medical
- conditional random
- attention
- random field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013459 approach Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010002091 Anaesthesia Diseases 0.000 description 1
- 230000037005 anaesthesia Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于医学文本的嵌套命名实体抽取方法,所述方法包括:自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别;以及注意条件随机场,用于解码以获得并行任务之间的识别结果关系;输入文本通过所述自适应共享的预训练语言模型时,根据预定义的实体类别类获得与不同实体类别匹配的编码特征,然后,所述注意条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。该基于医学文本的嵌套命名实体抽取方法能够从医学文本中抽取嵌套的命名实体知识以建立医学领域知识图谱,数据处理高效、准确、全面。
Description
技术领域
本发明涉及计算机应用技术领域,具体地,涉及一种基于医学文本的嵌套命名实体抽取方法。
背景技术
医学领域的自然语言文档,如医学教科书、医学百科全书、临床病例、检测报告等,包含了大量的医学专业知识和术语。理解医学数据的关键思想是准确地从医学文本中提取关键知识。因此,准确快速地提取医学实体并将这些非结构化数据转换为结构化领域知识图谱对于获取和利用医学信息至关重要。基于深度学习的命名实体识别(NER)应用机器阅读医学文本,显著提高医学研究的效率和质量,服务于下游子任务。
但是,医学领域的文本中经常会出现嵌套命名实体的情况。最重要的序列标记方法仅对非嵌套实体有效。现有的研究已经给出了一些解决方案,将NER视为问答、跨度分类、依赖解析任务或离散联合模型。然而,尽管基于跨度分类的系统取得了成功,但这种方法存在一些不可忽视的弱点。首先,由于解码过程与跨度预测是分离的,这种方法存在边界不一致问题。其次,由于许多低质量的候选跨度,这些方法需要很高的计算成本。然后,其很难识别医学文本中经常出现的长实体,因为在训练期间枚举的跨度长度不是无限的。
与上述研究不同的是,分层方法通过多级序列标注来解决这一任务,它可以捕捉相邻词级标签之间的依赖关系,并最大限度地提高预测标签在整个句子上的概率。然而,该方法总是简单地将实体划分为几个层次,重复并独立地执行序列标注任务。可见,这种方法没有注意到实体类别之间的差异,而只是独立识别每一层的结果。并且,不同实体类别的识别结果之间往往存在隐含的关系,但这种关系很容易被忽略,或者更简单的,仅仅只将结果从下层传递到上层而没有反向的传递。
发明内容
本发明的目的是提供一种基于医学文本的嵌套命名实体抽取方法,该基于医学文本的嵌套命名实体抽取方法能够从医学文本中抽取嵌套的命名实体知识以建立医学领域知识图谱,数据处理高效、准确、全面。
为了实现上述目的,本发明提供了一种基于医学文本的嵌套命名实体抽取方法,所述方法包括:
自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别;
以及注意条件随机场,用于解码以获得并行任务之间的识别结果关系;
输入文本通过所述自适应共享的预训练语言模型时,根据预定义的实体类别类获得与不同实体类别匹配的编码特征,然后,所述注意条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。
优选地,所述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重αij,并在反向传播期间更新权重的值;其中,i表示实体类别类的数量,预训练模型的Transformer编码器层数定义了j的最大值;计算公式为:
hj+1=TransformerEncoder(hj)
其中,n表示预训练语言模型的Transformer编码器层的总数,Ei表示第i个实体类别类的编码器结果。
优选地,使用softmax函数计算后输出权重的校正值,公式如下:
以保证每批学习后权重能更好地反映每一层的实际动作,防止权重消失或爆炸。
优选地,在注意条件随机场中,假设预先定义了m个实体类别类,则有m个并行的CRF;对于每个CRF,其他并行CRF的推理结果作为注意力机制的查询;集合C表示除当前CRF之外的所有CRF的Viterbi解码结果,用dl表示每个输入文本的最大序列长度;将第i个CRF的注意力值计算为:
然后,利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系,并捕获句子的内部结构信息:
根据上述技术方案,本发明基于端到端序列标记的具有注意条件随机场的自适应共享网络架构,利用预训练词向量来处理医学文本的嵌套命名实体。此外,该模型不仅利用了序列标记的基本方法,并且同样考虑了不同层实体之间的隐含区别和关系。在识别每一层实体时,能有效利用其它层实体中蕴含的信息。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明提供的基于医学文本的嵌套命名实体抽取方法流程示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
参见图1,本发明提供一种基于医学文本的嵌套命名实体抽取方法,该方法可以分为两个模块。前一部分是一个自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别。后一部分是注意条件随机场,用于解码以获得并行任务之间的识别结果关系。输入文本通过前一个模块,根据预定义的实体类别类获得与不同实体类别匹配的编码特征。之后注意力的条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。
上述自适应共享机制将为BERT预训练模型的每个Transformer编码器层分配一个可学习的权重αij,并在反向传播期间更新权重的值;其中,i表示实体类别类的数量,预训练模型的Transformer编码器层数定义了j的最大值;计算公式为:
hj+1=TransformerEncoder(hj)
其中,n表示预训练语言模型的Transformer编码器层的总数,Ei表示第i个实体类别类的编码器结果。
另外,为了保证每批学习后权重能更好地反映每一层的实际动作,防止权重消失或爆炸,使用softmax函数计算后输出权重的校正值,公式如下:
注意条件随机场的原理是:假设预先定义了m个实体类别类,则有m个并行的CRF;对于每个CRF,其他并行CRF的推理结果作为注意力机制的查询;集合C表示除当前CRF之外的所有CRF的Viterbi解码结果,用dl表示每个输入文本的最大序列长度;将第i个CRF的注意力值计算为:
然后,利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系,并捕获句子的内部结构信息:
在具体的实施例中,根据医疗文本数据的特性设计一系列临床麻醉领域的实体类型作为实体抽取方法的抽取对象,如疾病实体、临床表现实体以及医疗程序实体等;进而基于先验知识定义了各实体类型下的少量实体,用于后续构建训练模型所需文本数据。下表列出了本发明能够处理的部分实体类型以及样例对应实体:
另外,本发明采用了自适应共享技术的预训练模型作为医学文本编码的方式,可以通过更换其它技术对预训练模型进行处理,形成另外的实施例;
同时,本发明还采用了注意条件随机场作为标签解码的方式,可以通过更换其它解码器或解码方案形成另外的实施例。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
Claims (4)
1.一种基于医学文本的嵌套命名实体抽取方法,其特征在于,所述方法包括:
自适应共享的预训练语言模型,用于对输入文本进行编码,以捕捉预定义的不同实体类别之间的区别;
以及注意条件随机场,用于解码以获得并行任务之间的识别结果关系;
输入文本通过所述自适应共享的预训练语言模型时,根据预定义的实体类别类获得与不同实体类别匹配的编码特征,然后,所述注意条件随机场使模型根据其他类的标签结果学习残差值,并利用注意力机制对原始条件随机场的输出进行修正。
4.根据权利要求1所述的基于医学文本的嵌套命名实体抽取方法,其特征在于,在注意条件随机场中,假设预先定义了m个实体类别类,则有m个并行的CRF;对于每个CRF,其他并行CRF的推理结果作为注意力机制的查询;集合C表示除当前CRF之外的所有CRF的Viterbi解码结果,用dl表示每个输入文本的最大序列长度;将第i个CRF的注意力值计算为:
然后,利用注意力机制来显式地学习原始分数和并行结果之间的依赖关系,并捕获句子的内部结构信息:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310148213.8A CN116127978A (zh) | 2023-02-15 | 2023-02-15 | 基于医学文本的嵌套命名实体抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310148213.8A CN116127978A (zh) | 2023-02-15 | 2023-02-15 | 基于医学文本的嵌套命名实体抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116127978A true CN116127978A (zh) | 2023-05-16 |
Family
ID=86311665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310148213.8A Pending CN116127978A (zh) | 2023-02-15 | 2023-02-15 | 基于医学文本的嵌套命名实体抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116127978A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644755A (zh) * | 2023-07-27 | 2023-08-25 | 中国科学技术大学 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
-
2023
- 2023-02-15 CN CN202310148213.8A patent/CN116127978A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644755A (zh) * | 2023-07-27 | 2023-08-25 | 中国科学技术大学 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
CN116644755B (zh) * | 2023-07-27 | 2023-11-17 | 中国科学技术大学 | 基于多任务学习的少样本命名实体识别方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN109299273B (zh) | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
CN111563166A (zh) | 一种针对数学问题分类的预训练模型方法 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
CN111597340A (zh) | 一种文本分类方法及装置、可读存储介质 | |
CN111309918A (zh) | 一种基于标签关联性的多标签文本分类方法 | |
CN118227769B (zh) | 一种基于知识图谱增强的大语言模型问答生成方法 | |
CN116127978A (zh) | 基于医学文本的嵌套命名实体抽取方法 | |
CN116663539A (zh) | 基于RoBERTa和指针网络的中文实体与关系联合抽取方法及系统 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN114372441B (zh) | 一种中文文本自动纠错方法及装置 | |
CN116204643A (zh) | 一种基于多任务学习知识增强的级联标签分类方法 | |
CN115906846A (zh) | 一种基于双图的层次特征融合的文档级命名实体识别方法 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
CN114692596A (zh) | 基于深度学习算法的债券信息解析方法、装置及电子设备 | |
CN114757154A (zh) | 基于深度学习的作业生成方法、装置、设备及存储介质 | |
CN114580423A (zh) | 一种基于Bert与Scat的页岩气领域命名实体识别方法 | |
CN114492387B (zh) | 基于句法结构的领域自适应方面术语抽取方法及系统 | |
CN116341555B (zh) | 命名实体识别方法和系统 | |
CN117932487B (zh) | 一种风险分类模型训练、风险分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |