CN113990420A - 一种电子病历命名实体识别方法 - Google Patents

一种电子病历命名实体识别方法 Download PDF

Info

Publication number
CN113990420A
CN113990420A CN202111214838.7A CN202111214838A CN113990420A CN 113990420 A CN113990420 A CN 113990420A CN 202111214838 A CN202111214838 A CN 202111214838A CN 113990420 A CN113990420 A CN 113990420A
Authority
CN
China
Prior art keywords
word
electronic medical
vector
medical record
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111214838.7A
Other languages
English (en)
Inventor
李超凡
马凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Medical University
Original Assignee
Xuzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Medical University filed Critical Xuzhou Medical University
Priority to CN202111214838.7A priority Critical patent/CN113990420A/zh
Publication of CN113990420A publication Critical patent/CN113990420A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

一种电子病历命名实体识别方法,首先以预训练语言模型的字向量和词向量对原始电子病历数据集的文本序列进行向量化表示,作为神经网络的输入,然后使用并行结构的多头自注意力机制模块与BiLSTM神经网络模块分别对输入的向量进行训练,神经网络层的输出由两个模块的输出向量进行拼接获得,表征多层面更为丰富的文本特征和特征关联权重,最后利用CRF对神经网络层的输出进行解码和序列标注,输出实体预测标签。本发明构建的电子病历命名实体识别模型能够全面的对文本序列进行建模和预测,模型性能更为优异,且能够确保实体识别更加快速、精确的进行。

Description

一种电子病历命名实体识别方法
技术领域
本发明是一种电子病历命名实体识别方法,属于自然语言处理技术领域。
背景技术
医院信息系统的应用加速了医疗信息化的发展,承载了海量的包含患者临床诊疗的电子病历。面对非结构化文本存储类型的医学临床信息,如何进行有效的数据挖掘和知识发现是自然语言处理在医疗领域的研究重点。
命名实体识别(Named Entity Recognition,NER)作为自然语言处理研究的关键基础任务之一,旨在从非结构化文本中识别出具备特定意义的实体,如人名、地名和组织机构等专有名词,为实现关系抽取、知识图谱等任务做基础。在医疗电子病历领域,主要是挖掘与临床知识密切相关的医学知识。
命名实体识别早期主要基于规则和字典的方法,但需要消耗大量的精力进行人工标注,并且规则可用性较差,导致规则无法普及使用。基于机器学习模型包括最大熵模型(Maximum Entropy Models,MEM)、隐马尔可夫模型(Hidden Markov Models,HMM)、支持向量机(SVM)、条件随机场(Conditional Random Fields,CRF)等,虽然具备良好的灵活性和鲁棒性,但是存在需要大量标注集和过度依赖特征选择的正确性等缺点。随着深度学习神经网络技术的不断涌现,逐渐摒弃人工对数据的预处理,实现自动化的提取特征,相比于传统的基于统计规则或基于机器学习算法,具有避免人工提取特征的高成本与复杂性、降低对分词的依赖性、增强模型泛化性的优点。BiLSTM-CRF作为中文命名实体识别模型主流的架构,虽然可以有效的建立上下文关联信息,但是并没有考虑到不同词语、字符在句子中的重要性,识别结果仍有进一步提升的空间。
发明内容
本发明的目的是提供一种电子病历命名实体识别方法,通过全面的对文本序列进行建模和预测,模型性能更为优异,能够确保实体识别更加快速、精确的进行。
为了实现上述目的,本发明提供一种电子病历命名实体识别方法,包括以下步骤:
步骤1:电子病历数据集引入医学术语词典后经预处理获得原始语料库,并对词进行随机向量初始化,得到电子病历词向量查找表word_emb;结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量,形成预训练语言模型,对于电子病历的文本输入序列S=(w1,w2,…,wn),其中,wi为句子内的词语,wi内含有m个字,则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vecchar和词向量查找表vecword进行匹配赋值得到:
Figure BDA0003310232360000021
式中:ei为预训练语言模型的词向量查找表vecword中的词向量;
pij是预训练语言模型的字向量查找表vecchar中的字向量;
步骤2:依据步骤1所获得的电子病历词向量查找表word_emb,对于电子病历的文本输入序列S的向量化表示vecinput
vecinput=wi∩word_emb,wi∈S;
步骤3:依据步骤2所获得的电子病历的文本输入序列S的向量化表示vecinput,作为以并行结构组成的神经网络层的输入,并分别输入到BiLSTM神经网络模块和多头自注意力模块,以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征,得到输出向量Ht,以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重,得到输出向量Attt
步骤4:对步骤3所获得的输出向量Ht和Attt进行拼接,以此作为神经网络层的整体输出文本特征向量Ot
Figure BDA0003310232360000022
步骤5:利用CRF层对步骤4所获得的文本特征向量Ot进行解码和预测,设定电子病历的文本输入序列S的标签序列y={y1,y2,…,yn},通过文本特征向量O=(O1,O2,…,On),计算输出标签序列y的条件概率:
P(y|O)=CRF(O,y);
步骤6:对于步骤1的电子病历的文本输入序列S=(w1,w2,…,wn),步骤4的文本特征向量Ot,步骤5的标签序列y的条件概率,将条件概率最大的预测标签y*作为电子病历的文本输入序列S的最终输出标签序列:
y*=argmaxP(y|O)。
本发明步骤1中的预处理为分句和分词。
本发明步骤3中输出向量Ht由双向长短期记忆网络LSTM训练的输出向量拼接得到:
Figure BDA0003310232360000031
与现有技术相比,本发明提出的模型主要包含四层:输入层、神经网络层、CRF层以及输出层。首先通过引入医学术语词典,结合相同领域内大规模未标注病历文本训练字符向量和词向量,通过字和词融合的方式对电子病历的文本输入序列进行向量表示,再分别输入到BiLSTM神经网络模块和多头自注意力模块,其中BiLSTM神经网络模块用于学习文本序列的时序特征和上下文信息,自注意力机制用于获取文本序列的全局特征以及词语之间的关联强度,神经网络层的输出由两个模块的输出向量进行拼接获得,表征多层面更为丰富的文本特征和特征关联权重,最后利用CRF对神经网络层的输出进行解码和序列标注,输出实体预测标签。本发明构建的电子病历命名实体识别模型能够全面的对文本序列进行建模和预测,模型性能更为优异,能够确保实体识别更加快速、精确的进行。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种电子病历命名实体识别方法,包括以下步骤:
步骤1:电子病历数据集引入医学术语词典后经分句和分词后获得原始语料库,并对词进行随机向量初始化,得到电子病历词向量查找表word_emb;结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量,形成预训练语言模型,对于电子病历的文本输入序列S=(w1,w2,…,wn),其中,wi为句子内的词语,wi内含有m个字,则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vecchar和词向量查找表vecword进行匹配赋值得到:
Figure BDA0003310232360000032
式中:word_embi为电子病历词向量查找表word_emb的第i个词;
ei为预训练语言模型的词向量查找表vecword中的词向量;
pij是预训练语言模型的字向量查找表vecchar中的字向量;
步骤2:依据步骤1所获得的电子病历词向量查找表word_emb,对于电子病历的文本输入序列S的向量化表示vecinput
vecinput=wi∩word_emb,wi∈S;
步骤3:依据步骤2所获得的电子病历的文本输入序列S的向量化表示vecinput,作为以并行结构组成的神经网络层的输入,并分别输入到BiLSTM神经网络模块和多头自注意力模块,以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征,得到输出向量Ht,以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重,得到输出向量Attt
步骤4:对步骤3所获得的输出向量Ht和Attt进行拼接,以此作为神经网络层的整体输出文本特征向量Ot
Figure BDA0003310232360000041
该步骤4为一个时序过程,对于t时刻,由输出向量Ht和Attt进行拼接形成文本特征向量Ot,Ot可代表任意时刻的文本特征向量,所有时刻的文本特征向量Ot组成了O,O可以称为文本特征向量,也可以称为文本特征向量矩阵;
步骤5:利用CRF层对步骤4所获得的文本特征向量Ot进行解码和预测,设定电子病历的文本输入序列S的标签序列y={y1,y2,…,yn},通过文本特征向量O=(O1,O2,…,On),计算输出标签序列y的条件概率:
P(y|O)=CRF(O,y);
步骤6:对于步骤1的电子病历的文本输入序列S=(w1,w2,…,wn),步骤4的文本特征向量Ot,步骤5的标签序列y的条件概率,将条件概率最大的预测标签y*作为电子病历的文本输入序列S的最终输出标签序列:
y*=argmaxP(y|O)。
所述步骤3中输出向量Ht由双向长短期记忆网络LSTM训练的输出向量拼接得到:
Figure BDA0003310232360000051
本发明提出一种电子病历命名实体识别方法,利用字符和词语结合的方法,按照多头自注意力机制模块和BiLSTM神经网络模块的并行结构,学习电子病历文本语义关联信息的多层面特征,捕获句子的内部结构特征与依赖关系,以此提升中文临床命名实体识别模型的效果。
为了验证本发明模型的有效性,在2019年全国知识图谱与语义计算大会的命名实体识别任务上进行测评,同时设置四组对比实验进行模型比较,对比模型设计如下:
(1)简称记为:BiLSTM-CRF,以字词向量融合的形式,利用BiLSTM神经网络进行文本特征向量训练,以CRF进行解码和预测。
(2)简称记为:BiLSTM-CRF-SA,在(1)的基础上,以Self-attention对BiLSTM的输出向量进行权重分配,再利用CRF进行解码和预测。
(3)简称记为:BiLSTM-CRF-MHSA,在(1)的基础上,利用Multi-head Self-attention对BiLSTM的输出向量计算特征关联权重,再利用CRF进行解码和预测。
(4)本发明的模型,简称记为:MHSA-BiLSTM-CRF,在(1)的基础上,依据步骤1—6的方式进行电子病历的命名实体识别。
实体识别模型采用了精确率(precision)、召回率(recall)和F值(F-score)作为评价指标;精确率能够表示预测结果中正例样本是真正正例的比例,召回率能够表示出标准答案中的正例样本被正确预测的比例;F值是精确率和召回率的调和平均值,能够平衡衡量精确率和召回率两个指标;correct表示标注正确的实体个数,recognized表示总共标注出的实体个数,entities为标准答案总共包含的实体个数,则精确率、召回率、F值的具体计算方法如下公式所示:
Figure BDA0003310232360000052
Figure BDA0003310232360000053
Figure BDA0003310232360000054
则实验结果如表1所示:
Figure BDA0003310232360000061
本发明的模型在多个对比实验的结果中取得了最优异的效果,在精确率、召回率和F值都取得了最好的识别结果,F-score达到了82.95%,证明了模型对于命名实体识别任务的有效性。

Claims (1)

1.一种电子病历命名实体识别方法,其特征在于,包括以下步骤:
步骤1:电子病历数据集引入医学术语词典后经预处理获得原始语料库,并对词进行随机向量初始化,得到电子病历词向量查找表word_emb;结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量,形成预训练语言模型,对于电子病历的文本输入序列S=(w1,w2,…,wn),其中,wi为句子内的词语,wi内含有m个字,则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vecchar和词向量查找表vecword进行匹配赋值得到:
Figure FDA0003310232350000011
式中:ei为预训练语言模型的词向量查找表vecword中的词向量;
pij是预训练语言模型的字向量查找表vecchar中的字向量;
步骤2:依据步骤1所获得的电子病历词向量查找表word_emb,对于电子病历的文本输入序列S的向量化表示vecinput
vecinput=wi∩word_emb,wi∈S;
步骤3:依据步骤2所获得的电子病历的文本输入序列S的向量化表示vecinput,作为以并行结构组成的神经网络层的输入,并分别输入到BiLSTM神经网络模块和多头自注意力模块,以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征,得到输出向量Ht,以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重,得到输出向量Attt
步骤4:对步骤3所获得的输出向量Ht和Attt进行拼接,以此作为神经网络层的整体输出文本特征向量Ot
Figure FDA0003310232350000012
步骤5:利用CRF层对步骤4所获得的文本特征向量Ot进行解码和预测,设定电子病历的文本输入序列S的标签序列y={y1,y2,…,yn},通过文本特征向量O=(O1,O2,…,On),计算输出标签序列y的条件概率:
P(y|O)=CRF(O,y);
步骤6:对于步骤1的电子病历的文本输入序列S=(w1,w2,…,wn),步骤4的文本特征向量Ot,步骤5的标签序列y的条件概率,将条件概率最大的预测标签y*作为电子病历的文本输入序列S的最终输出标签序列:
y*=arg max P(y|O)。
CN202111214838.7A 2021-10-19 2021-10-19 一种电子病历命名实体识别方法 Pending CN113990420A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111214838.7A CN113990420A (zh) 2021-10-19 2021-10-19 一种电子病历命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111214838.7A CN113990420A (zh) 2021-10-19 2021-10-19 一种电子病历命名实体识别方法

Publications (1)

Publication Number Publication Date
CN113990420A true CN113990420A (zh) 2022-01-28

Family

ID=79739316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111214838.7A Pending CN113990420A (zh) 2021-10-19 2021-10-19 一种电子病历命名实体识别方法

Country Status (1)

Country Link
CN (1) CN113990420A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906845A (zh) * 2022-11-08 2023-04-04 重庆邮电大学 一种电商商品标题命名实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115906845A (zh) * 2022-11-08 2023-04-04 重庆邮电大学 一种电商商品标题命名实体识别方法
CN115906845B (zh) * 2022-11-08 2024-05-10 芽米科技(广州)有限公司 一种电商商品标题命名实体识别方法

Similar Documents

Publication Publication Date Title
Li et al. Know more say less: Image captioning based on scene graphs
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN113205817B (zh) 语音语义识别方法、系统、设备及介质
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111488739A (zh) 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN112000778A (zh) 一种基于语义识别的自然语言处理方法、装置和系统
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN111523320A (zh) 一种基于深度学习的中文病案分词方法
Yu et al. Cross-Domain Slot Filling as Machine Reading Comprehension.
CN112651225B (zh) 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
CN113990420A (zh) 一种电子病历命名实体识别方法
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116306653A (zh) 一种正则化领域知识辅助的命名实体识别方法
CN114020871B (zh) 基于特征融合的多模态社交媒体情感分析方法
CN116127954A (zh) 一种基于词典的新工科专业中文知识概念抽取方法
CN116049349A (zh) 基于多层次注意力和层次类别特征的小样本意图识别方法
CN113204679B (zh) 一种代码查询模型的生成方法和计算机设备
CN114511084A (zh) 增强问答交互信息的自动问答系统答案抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination