CN114564959B - 中文临床表型细粒度命名实体识别方法及系统 - Google Patents
中文临床表型细粒度命名实体识别方法及系统 Download PDFInfo
- Publication number
- CN114564959B CN114564959B CN202210041524.XA CN202210041524A CN114564959B CN 114564959 B CN114564959 B CN 114564959B CN 202210041524 A CN202210041524 A CN 202210041524A CN 114564959 B CN114564959 B CN 114564959B
- Authority
- CN
- China
- Prior art keywords
- clinical
- character
- sequence
- features
- bert
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000015654 memory Effects 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 208000024891 symptom Diseases 0.000 abstract description 32
- 238000004458 analytical method Methods 0.000 abstract description 9
- 238000002474 experimental method Methods 0.000 abstract description 7
- 230000010365 information processing Effects 0.000 abstract description 3
- 206010008479 Chest Pain Diseases 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 235000019580 granularity Nutrition 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 206010011224 Cough Diseases 0.000 description 3
- 206010037660 Pyrexia Diseases 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010013082 Discomfort Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011362 coarse particle Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000010419 fine particle Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于中文临床表型细粒度命名实体识别方法及系统,属于临床病历信息处理技术领域,通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。本发明建立了用于细粒度命名实体实验的临床细粒度表型实体标准数据集,其区分了阴性症状和阳性症状,为临床分析提供更为精确的结构化数据。
Description
技术领域
本发明涉及临床病历信息处理技术领域,具体涉及一种中文临床表型细粒度命名实体识别方法及系统。
背景技术
中文临床电子病历(Chinese Electronic Medical Records,CEMRs)作为重要临床数据,以文本或半结构化的形式记录了患者的症状体征、既往史及诊断等信息。因此,结构化地提取病历文本中的信息对于后续临床数据分析尤其重要,其中命名实体识别(NamedEntity Recognition,NER)是关键技术之一。中文临床病历命名实体识别是指利用人工智能、数据挖掘等计算机技术,通过对临床电子病历数据进行训练和学习,构建实体抽取模型。这种模型可以自动地从病历文本中提取患者的表型实体,通常包含症状、疾病诊断、检查、检验指标等医学实体。
目前已有的中文临床病历NER方法与技术如下:
目前的表型谱抽取方法以机器学习,尤其是其中近年来取得较大进展的深度学习方法为主。原旎等人分别提出了基于词嵌入Word2Vec和基于网络嵌入Node2Vec的方法构建现病史特征,并使用基于CRF和结构化支持向量机的方法进行现病史病历症状表型命名实体识别研究。Zhang等人针对中文特点提出Lattice LSTM模型,同时处理中文文本中的字和词的特征。近期,Devlin等人提出了一种预训练的双向语言模型,并在许多NLP任务中表现出色。
在临床领域,已经形成一些基于规则的方法用于否定表达的检测。例如,Chapman等人开发了NegEx系统来识别叙述性医学报告中对症状和疾病的否定。Auerbuch等人开发了一种算法来自动学习临床病历中的负面情景模式。该算法利用信息增益学习上下文模式。Morante和Daelemans开发了一种两阶段的方法来检测生物医学文献中否定的范围。
由于中文形式的复杂性和缺乏词边界问题,现有中文命名实体识别方法的准确性相对较低。此外,现有的命名实体识别方法大多基于粗粒度数据集,因此在提取临床信息时,阴性症状和阳性症状没有体现出区别。事实上,症状是疾病的主观指征,准确提取症状及其相应的持续时间对于临床分析非常重要。例如,在电子病历中有一句话:“患者9天前出现发热、咳嗽,无胸闷、胸痛等不适。”。其中,“发热”和“咳嗽”是阳性症状,这意味着患者确实有这些症状;而“无胸闷、胸痛等不适”是阴性症状,意味着患者没有“胸闷”和“胸痛”的症状。如果只进行症状级的抽取,则模型会提取“发热”、“咳嗽”、“胸闷”和“胸痛”作为症状用于临床分析,对分析结果造成误导。
发明内容
本发明的目的在于提供一种充分利用中文病历文本中的全局和局部信息及实体标签之间的依赖关系,能够区分阴阳性症状,为临床分析提供准确的结构化数据的中文临床表型细粒度命名实体识别方法及系统,以解决上述背景技术中存在的至少一项技术问题。
为了实现上述目的,本发明采取了如下技术方案:
一方面,本发明提供一种中文临床表型细粒度命名实体识别方法,包括:
通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
优选的,自然语言预训练模型BERT的输入数据为患者的临床病历文本序列,它使用双向Transformer捕获文本中的上下文信息;在进行训练时,BERT会随机掩盖部分字信息,通过对掩盖信息的预测完成上下文的学习。
优选的,通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征。
优选的,双向长短词记忆模型BiLSTM,对于字符级嵌入特征,分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示,通过将两个方向的特征的潜在表示进行融合,得到每个字符隐藏层表示。
优选的,将隐藏层表示按照句子中每个字的顺序排列,得到句子的向量序列,句子的向量序列对应于一个标注序列,基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数。
优选的,在CRF层中,使用维特比算法得到最优的标签序列,得到的标签序列就是对于临床病历文本的最优命名实体标注结果。
第二方面,本发明提供一种中文临床表型细粒度命名实体识别系统,包括:
提取模块,用于通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
编码模块,用于利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
解码模块,用于利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的中文临床表型细粒度命名实体识别方法。
第四方面,本发明提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如上所述的中文临床表型细粒度命名实体识别方法。
第五方面,本发明提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的中文临床表型细粒度命名实体识别方法。
本发明有益效果:建立了用于细粒度命名实体实验的临床细粒度表型实体标准数据集,其区分了阴性症状和阳性症状,为临床分析提供更为精确的结构化数据。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述的中文临床表型细粒度命名实体识别方法流程框架图。
具体实施方式
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
实施例1
本实施例1提供一种中文临床表型细粒度命名实体识别系统,该系统包括:
提取模块,用于通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
编码模块,用于利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
解码模块,用于利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
本实施例1中,利用上述的系统,实现了中文临床表型细粒度命名实体识别方法,该方法包括:
通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
自然语言预训练模型BERT的输入数据为患者的临床病历文本序列,它使用双向Transformer捕获文本中的上下文信息;在进行训练时,BERT会随机掩盖部分字信息,通过对掩盖信息的预测完成上下文的学习。具体的,BERT是一种预训练语言表示模型,它使用双向Transformer捕获文本中的上下文信息。在进行训练时,BERT会随机掩盖部分字信息,一般掩盖的信息占总体的15%,通过对掩盖信息的预测完成上下文的学习。相对于word2vec和one-hot等词向量模型,BERT模型构建的字向量更注重语义变化,即同一个字在不同语境之中向量表示也不同。最终,通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征。
其中,通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征。
双向长短词记忆模型BiLSTM,对于字符级嵌入特征,分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示,通过将两个方向的特征的潜在表示进行融合,得到每个字符隐藏层表示。具体的,双向长短词记忆模型BiLSTM在自然语言处理任务中常被用来建模文本的上下文信息,其是由前向LSTM(Long Short-Term Memory,长短词记忆模型)与后向LSTM组合而成。相比于LSTM,BiLSTM可以更好的捕捉双向的语义依赖。
对于BERT层得到的字符嵌入特征e1,e2,...,en,其中ei表示BERT对ci的字符级嵌入,ci是病历文本序列c1,c2,...,cn中的第i个字符,BiLSTM分别从左到右和从右到左的方向得到以上字符嵌入特征的潜在表示,即和通过将两个方向的特征融合,可以得到每个字符隐藏层hi,如下:
将隐藏层表示按照句子中每个字的顺序排列,得到句子的向量序列,句子的向量序列对应于一个标注序列,基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数。
在CRF层中,使用维特比算法得到最优的标签序列,得到的标签序列就是对于临床病历文本的最优命名实体标注结果。
具体的,在预测序列标签的部分,当标签彼此独立时,一种简单有效的策略是:直接将BERT得到的字符隐藏层状态和预测分类层进行连接,给出预测标签。但是表型实体通常由几个字组成,这意味着当前标签与其上下文标签存在一定关联。例如,在CoNLL-2003任务中,I-ORG(即组织机构实体ORG中间部分)不能跟在B-PER(即实体PER的头部)或O(即非实体)之后。条件随机场CRF是一种常用于命名实体识别的判别模型,其通过全局归一化克服了标签偏性问题。同时,CRF还可以通过添加一些约束以避免错误的预测。
对于具有n个字的句子,将hi定义为句子中第i个字符的隐藏层表示,h=h1,h2,...,hn是句子的向量序列,y=y1,y2,...,yn是h的标注序列,Y(h)是所有可能的标注序列的集合。
综上,本实施例1中,通过不同粒度的数据集进行训练学习,使模型能够自动地、准确地从病历文本中提取患者的表型实体,并且能够区分阴阳性症状,为临床分析提供更为精确的结构化数据。
实施例2
本实施例2中,提供一种基于中文临床病历的细粒度表型命名实体识别方法Phenonizer,如下图1所示。在本方法框架,首先通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取,再利用双向长短词记忆模型BiLSTM对字符级特征和文本序列特征进行整合并进行特征编码,最后利用条件随机场CRF进行标签的解码预测。
本实施例2中,Phenonizer技术框架共包含三层文本信息处理模块,具体流程阐述如下:
1)基于BERT层进行字符级嵌入表示
自然语言预训练模型BERT方法的输入数据为患者的临床病历文本序列。
BERT是一种预训练语言表示模型,它使用双向Transformer捕获文本中的上下文信息。在进行训练时,BERT会随机掩盖部分字信息,一般掩盖的信息占总体的15%,通过对掩盖信息的预测完成上下文的学习。相对于word2vec和one-hot等词向量模型,BERT模型构建的字向量更注重语义变化,即同一个字在不同语境之中向量表示也不同。最终,通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征。
2)以字符级嵌入为输入进行BiLSTM层编码
BiLSTM层对BERT层得到的字符嵌入向量进行编码。
双向长短词记忆模型BiLSTM在自然语言处理任务中常被用来建模文本的上下文信息,其是由前向LSTM(Long Short-Term Memory,长短词记忆模型)与后向LSTM组合而成。相比于LSTM,BiLSTM可以更好的捕捉双向的语义依赖。
对于BERT层得到的字符嵌入特征e1,e2,...,en,其中ei表示BERT对ci的字符级嵌入,ci是病历文本序列c1,c2,...,cn中的第i个字符,BiLSTM分别从左到右和从右到左的方向得到以上字符嵌入特征的潜在表示,即和通过将两个方向的特征融合,可以得到每个字符隐藏层hi,如下:
3)基于条件随机场CRF层进行解码标签解码
在预测序列标签的部分,当标签彼此独立时,一种简单有效的策略是:直接将BERT得到的字符隐藏层状态和预测分类层进行连接,给出预测标签。但是表型实体通常由几个字组成,这意味着当前标签与其上下文标签存在一定关联。例如,在CoNLL-2003任务中,I-ORG(即组织机构实体ORG中间部分)不能跟在B-PER(即实体PER的头部)或O(即非实体)之后。条件随机场CRF是一种常用于命名实体识别的判别模型,其通过全局归一化克服了标签偏性问题。同时,CRF还可以通过添加一些约束以避免错误的预测。
对于具有n个字的句子,将hi定义为句子中第i个字符的隐藏层表示,h=h1,h2,...,hn是句子的向量序列,y=y1,y2,...,yn是h的标注序列,Y(h)是所有可能的标注序列的集合。于是,可以定义损失函数,如下:
Y(h)中共有N个可能的标注序列,Si表示第i个标注序列的分数。hi,yi对应于从BiLSTM层获得的标注为yi的第i个字符。T是转移矩阵,其中tp,q表示从标签p转移到标签q的分数。在训练过程中,对模型参数进行更新以不断减少损失。于是,可以获得分值最高的标注序列,表示如下:
在CRF层中,使用维特比(Viterbi)算法来解决优化问题并得到最优的标签序列。这个标签序列就是对于临床病历文本,整个模型Phenonizer给出的最优命名实体标注结果。
实验验证:
1)基准数据集
本实施例2中,使用了三个用于中文临床命名实体识别的基准数据集TCM-CV19,TCM-HN和TCM-HB。如表1所示,这三个数据集基于临床病例文本,由中医专业人员进行细粒度的手工标注而形成的。
表1基准数据集中各类实体数量分布
2)粗粒度和细粒度的实体抽取实验对比
阴性症状和阳性症状的区分提取是本技术的重点。迄今为止,大多数现有研究都仅仅关注粗粒度的实体抽取。在本实验中,基于TCM-CV19数据集,构建了区分阴阳性症状以及不区分阴阳性症状的两个子数据集,其目的是对比本技术框架在这两种情况下的性能。这两个数据集分别命名为Non-Negation(NonNeg)和WithNegation(WithNeg)。其中,NonNeg是症状级别的数据集,而WithNeg是区分阴阳性症状的数据集。在训练部分,我们在两个数据集上分别训练了具有相同结构和参数的模型,称为退化模型(Degraded)和正常模型(Normal),最后我们在WithNeg数据集测试并对比两种模型的性能。
为了评价方法的性能,采用了准确率、召回率和F1值作为实验的评价指标,实验结果如下表2所示:
表2命名实体识别实验结果对比
一方面,无论是退化模型还是正常模型,本实施例中Phenonizer方法比现有的基线方法在准确率、召回率和F1-score上都有更好的预测性能。另一方面,从结果可以看到,退化模型的召回率几乎保持不变,但精确率显著下降。召回率高于0.9,这表明大多数的阳性症状已经被退化模型正确识别。精确度下降至约0.6,这是因为退化模型没有考虑到阴性症状的前缀或后缀,从而导致将阴性症状识别为阳性症状,而这正是临床分析所不希望看到的。
因此,如果NER模型对症状的识别粒度仅停留在症状的级别,则每份中文临床病历的结构化结果中都包含大量错误的阳性症状,这将误导临床分析的结果。
3)模型的泛化性能
为了评估模型相对于不同数据集(来自不同医院的相似数据)的泛化性能,本节使用TCM-HN数据作为训练集和验证集来训练模型,TCM-HB作为测试集。数据设置方面,将TCM-HN数据按3:1的比例分为训练集和验证集,然后将所有TCM-HB作为异源测试集。由于数据来自不同的医院,因此标注的实体标签集略有不同。在实验过程中,在两个数据集中选择了相同的标签(阳性症状、阴性症状和舌脉)。
实验结果如下表3所示:
表3命名实体识别泛化能力评估实验结果
从上表可以看出,各模型在异源数据集上的迁移能力较差,但相比于基线方法,Phenonizer依旧获得了最好的预测性能。此外,从实验结果发现Phenonizer的准确率未达到最优。可能的原因是Phenonizer强大的表型实体抽取能力使其识别出TCM-HB中可能被遗漏的正确实体(此类实体在TCM-HN是正确的,但对于TCM-HB来说可有可无,故未被完整标注),以致在评估性能时,Phenonizer的准确率未达到最优。
综上,本实施例2所述的中文临床表型细粒度命名实体识别方法,首先通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取,再利用双向长短词记忆模型BiLSTM对字符级特征和文本序列特征进行整合并进行特征编码,最后利用条件随机场CRF进行标签的解码预测;将BERT、BiLSTM和CRF等结合,充分利用中文病历文本中的全局和局部信息及实体标签间的依赖关系,在构建的标准数据集上取得了优异的表型实体识别性能,并能准确地识别并区分阴阳性症状。
实施例3
本发明实施例3提供一种电子设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行中文临床表型细粒度命名实体识别方法,该方法包括如下流程步骤:
通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
实施例4
本发明实施例4提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现中文临床表型细粒度命名实体识别方法,该方法包括如下流程步骤:
通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
实施例5
本发明实施例5提供一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行中文临床表型细粒度命名实体识别方法及系统,该方法包括如下步骤:
通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种中文临床表型细粒度命名实体识别方法,其特征在于,包括:
通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果;
自然语言预训练模型BERT的输入数据为患者的临床病历文本序列,它使用双向Transformer捕获文本中的上下文信息;在进行训练时,BERT会随机掩盖部分字信息,通过对掩盖信息的预测完成上下文的学习;
通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征;
双向长短词记忆模型BiLSTM,对于字符级嵌入特征,分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示,通过将两个方向的特征的潜在表示进行融合,得到每个字符隐藏层表示;
将隐藏层表示按照句子中每个字的顺序排列,得到句子的向量序列,句子的向量序列对应于一个标注序列,基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数;
在CRF层中,使用维特比算法得到最优的标签序列,得到的标签序列就是对于临床病历文本的最优命名实体标注结果。
2.一种中文临床表型细粒度命名实体识别系统,其特征在于,包括:
提取模块,用于通过自然语言预训练模型BERT进行临床文本的字符级嵌入特征抽取;
编码模块,用于利用双向长短词记忆模型BiLSTM对字符级嵌入特征和临床文本的序列特征进行整合并进行特征编码,得到标签;
解码模块,用于利用条件随机场CRF进行标签的解码预测,得到命名实体识别结果;
其中,
自然语言预训练模型BERT的输入数据为患者的临床病历文本序列,它使用双向Transformer捕获文本中的上下文信息;在进行训练时,BERT会随机掩盖部分字信息,通过对掩盖信息的预测完成上下文的学习;通过BERT模型对患者的临床病历文本进行字符嵌入表示,得到病历文本每个字的字符级嵌入向量特征;双向长短词记忆模型BiLSTM,对于字符级嵌入特征,分别以从左到右和从右到左的方向得到字符嵌入特征的潜在表示,通过将两个方向的特征的潜在表示进行融合,得到每个字符隐藏层表示;将隐藏层表示按照句子中每个字的顺序排列,得到句子的向量序列,句子的向量序列对应于一个标注序列,基于所有可能的标注序列的集合得到用于训练条件随机场CRF的损失函数;在CRF层中,使用维特比算法得到最优的标签序列,得到的标签序列就是对于临床病历文本的最优命名实体标注结果。
3.一种计算机设备,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求1所述的中文临床表型细粒度命名实体识别方法。
4.一种电子设备,其特征在于,包括存储器和处理器,所述处理器和所述存储器相互通信,所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令执行如权利要求1所述的中文临床表型细粒度命名实体识别方法。
5.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1所述的中文临床表型细粒度的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041524.XA CN114564959B (zh) | 2022-01-14 | 2022-01-14 | 中文临床表型细粒度命名实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041524.XA CN114564959B (zh) | 2022-01-14 | 2022-01-14 | 中文临床表型细粒度命名实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114564959A CN114564959A (zh) | 2022-05-31 |
CN114564959B true CN114564959B (zh) | 2024-07-05 |
Family
ID=81712300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210041524.XA Active CN114564959B (zh) | 2022-01-14 | 2022-01-14 | 中文临床表型细粒度命名实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564959B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861600B (zh) | 2022-07-07 | 2022-12-13 | 之江实验室 | 一种面向ner的中文临床文本数据增强方法及装置 |
CN115859983B (zh) * | 2022-12-14 | 2023-08-25 | 成都信息工程大学 | 一种细粒度中文命名实体识别方法 |
CN116644719B (zh) * | 2023-05-29 | 2024-07-23 | 南通大学 | 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 |
CN116956927A (zh) * | 2023-07-31 | 2023-10-27 | 北京奥德塔数据科技有限公司 | 一种破产文书命名实体识别方法及系统 |
CN117954038B (zh) * | 2024-03-27 | 2024-06-18 | 江西曼荼罗软件有限公司 | 一种临床病历文本识别方法、系统、可读存储介质及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741732B (zh) * | 2018-08-30 | 2022-06-21 | 京东方科技集团股份有限公司 | 命名实体识别方法、命名实体识别装置、设备及介质 |
CN110223742A (zh) * | 2019-06-14 | 2019-09-10 | 中南大学 | 中文电子病历数据的临床表现信息抽取方法和设备 |
CN111967268B (zh) * | 2020-06-30 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本中的事件抽取方法、装置、电子设备和存储介质 |
CN112597774B (zh) * | 2020-12-14 | 2023-06-23 | 山东师范大学 | 中文医疗命名实体识别方法、系统、存储介质和设备 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
-
2022
- 2022-01-14 CN CN202210041524.XA patent/CN114564959B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
CN111709241A (zh) * | 2020-05-27 | 2020-09-25 | 西安交通大学 | 一种面向网络安全领域的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114564959A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114564959B (zh) | 中文临床表型细粒度命名实体识别方法及系统 | |
CN112992317B (zh) | 一种医学数据处理方法、系统、设备及介质 | |
CN113241135B (zh) | 一种基于多模态融合的疾病风险预测方法和系统 | |
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
Gao et al. | Classifying cancer pathology reports with hierarchical self-attention networks | |
CN117077786A (zh) | 一种基于知识图谱的数据知识双驱动智能医疗对话系统和方法 | |
Vadyala et al. | Natural language processing accurately categorizes indications, findings and pathology reports from multicenter colonoscopy | |
CN112614559A (zh) | 病历文本处理方法、装置、计算机设备和存储介质 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN117391092B (zh) | 一种基于对比学习的电子病历多模态医疗语义对齐方法 | |
Wang et al. | Hierarchical pretraining on multimodal electronic health records | |
Shin et al. | Automatic classification of thyroid findings using static and contextualized ensemble natural language processing systems: development study | |
CN111696674B (zh) | 一种电子病历的深度学习方法及系统 | |
CN117313732A (zh) | 一种医疗命名实体识别方法、装置及存储介质 | |
Pan et al. | Multi-label classification for clinical text with feature-level attention | |
Zaghir et al. | Real-world patient trajectory prediction from clinical notes using artificial neural networks and UMLS-based extraction of concepts | |
CN116630062A (zh) | 一种医保欺诈行为检测方法、系统、存储介质 | |
Si et al. | Scaling up prediction of psychosis by natural language processing | |
Al-Ash et al. | Indonesian protected health information removal using named entity recognition | |
Zhou et al. | Extracting bi-rads features from mammography reports in Chinese based on machine learning | |
CN112836485A (zh) | 一种基于神经机器翻译的相似病历预测方法 | |
Li et al. | Thyroid discharge summary NER based on BERT-BiLSTM-CRF model | |
Vieira et al. | A decision support system for ICU readmissions prevention | |
CN115017910B (zh) | 基于中文电子病历的实体关系联合抽取方法、网络、设备和计算机可读存储介质 | |
CN118072899B (zh) | 一种基于扩散模型文本生成技术的骨密度报告生成平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |