CN113990420A - 一种电子病历命名实体识别方法 - Google Patents
一种电子病历命名实体识别方法 Download PDFInfo
- Publication number
- CN113990420A CN113990420A CN202111214838.7A CN202111214838A CN113990420A CN 113990420 A CN113990420 A CN 113990420A CN 202111214838 A CN202111214838 A CN 202111214838A CN 113990420 A CN113990420 A CN 113990420A
- Authority
- CN
- China
- Prior art keywords
- word
- electronic medical
- vector
- medical record
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
一种电子病历命名实体识别方法,首先以预训练语言模型的字向量和词向量对原始电子病历数据集的文本序列进行向量化表示,作为神经网络的输入,然后使用并行结构的多头自注意力机制模块与BiLSTM神经网络模块分别对输入的向量进行训练,神经网络层的输出由两个模块的输出向量进行拼接获得,表征多层面更为丰富的文本特征和特征关联权重,最后利用CRF对神经网络层的输出进行解码和序列标注,输出实体预测标签。本发明构建的电子病历命名实体识别模型能够全面的对文本序列进行建模和预测,模型性能更为优异,且能够确保实体识别更加快速、精确的进行。
Description
技术领域
本发明是一种电子病历命名实体识别方法,属于自然语言处理技术领域。
背景技术
医院信息系统的应用加速了医疗信息化的发展,承载了海量的包含患者临床诊疗的电子病历。面对非结构化文本存储类型的医学临床信息,如何进行有效的数据挖掘和知识发现是自然语言处理在医疗领域的研究重点。
命名实体识别(Named Entity Recognition,NER)作为自然语言处理研究的关键基础任务之一,旨在从非结构化文本中识别出具备特定意义的实体,如人名、地名和组织机构等专有名词,为实现关系抽取、知识图谱等任务做基础。在医疗电子病历领域,主要是挖掘与临床知识密切相关的医学知识。
命名实体识别早期主要基于规则和字典的方法,但需要消耗大量的精力进行人工标注,并且规则可用性较差,导致规则无法普及使用。基于机器学习模型包括最大熵模型(Maximum Entropy Models,MEM)、隐马尔可夫模型(Hidden Markov Models,HMM)、支持向量机(SVM)、条件随机场(Conditional Random Fields,CRF)等,虽然具备良好的灵活性和鲁棒性,但是存在需要大量标注集和过度依赖特征选择的正确性等缺点。随着深度学习神经网络技术的不断涌现,逐渐摒弃人工对数据的预处理,实现自动化的提取特征,相比于传统的基于统计规则或基于机器学习算法,具有避免人工提取特征的高成本与复杂性、降低对分词的依赖性、增强模型泛化性的优点。BiLSTM-CRF作为中文命名实体识别模型主流的架构,虽然可以有效的建立上下文关联信息,但是并没有考虑到不同词语、字符在句子中的重要性,识别结果仍有进一步提升的空间。
发明内容
本发明的目的是提供一种电子病历命名实体识别方法,通过全面的对文本序列进行建模和预测,模型性能更为优异,能够确保实体识别更加快速、精确的进行。
为了实现上述目的,本发明提供一种电子病历命名实体识别方法,包括以下步骤:
步骤1:电子病历数据集引入医学术语词典后经预处理获得原始语料库,并对词进行随机向量初始化,得到电子病历词向量查找表word_emb;结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量,形成预训练语言模型,对于电子病历的文本输入序列S=(w1,w2,…,wn),其中,wi为句子内的词语,wi内含有m个字,则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vecchar和词向量查找表vecword进行匹配赋值得到:
式中:ei为预训练语言模型的词向量查找表vecword中的词向量;
pij是预训练语言模型的字向量查找表vecchar中的字向量;
步骤2:依据步骤1所获得的电子病历词向量查找表word_emb,对于电子病历的文本输入序列S的向量化表示vecinput:
vecinput=wi∩word_emb,wi∈S;
步骤3:依据步骤2所获得的电子病历的文本输入序列S的向量化表示vecinput,作为以并行结构组成的神经网络层的输入,并分别输入到BiLSTM神经网络模块和多头自注意力模块,以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征,得到输出向量Ht,以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重,得到输出向量Attt;
步骤4:对步骤3所获得的输出向量Ht和Attt进行拼接,以此作为神经网络层的整体输出文本特征向量Ot;
步骤5:利用CRF层对步骤4所获得的文本特征向量Ot进行解码和预测,设定电子病历的文本输入序列S的标签序列y={y1,y2,…,yn},通过文本特征向量O=(O1,O2,…,On),计算输出标签序列y的条件概率:
P(y|O)=CRF(O,y);
步骤6:对于步骤1的电子病历的文本输入序列S=(w1,w2,…,wn),步骤4的文本特征向量Ot,步骤5的标签序列y的条件概率,将条件概率最大的预测标签y*作为电子病历的文本输入序列S的最终输出标签序列:
y*=argmaxP(y|O)。
本发明步骤1中的预处理为分句和分词。
本发明步骤3中输出向量Ht由双向长短期记忆网络LSTM训练的输出向量拼接得到:
与现有技术相比,本发明提出的模型主要包含四层:输入层、神经网络层、CRF层以及输出层。首先通过引入医学术语词典,结合相同领域内大规模未标注病历文本训练字符向量和词向量,通过字和词融合的方式对电子病历的文本输入序列进行向量表示,再分别输入到BiLSTM神经网络模块和多头自注意力模块,其中BiLSTM神经网络模块用于学习文本序列的时序特征和上下文信息,自注意力机制用于获取文本序列的全局特征以及词语之间的关联强度,神经网络层的输出由两个模块的输出向量进行拼接获得,表征多层面更为丰富的文本特征和特征关联权重,最后利用CRF对神经网络层的输出进行解码和序列标注,输出实体预测标签。本发明构建的电子病历命名实体识别模型能够全面的对文本序列进行建模和预测,模型性能更为优异,能够确保实体识别更加快速、精确的进行。
附图说明
图1是本发明的流程图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种电子病历命名实体识别方法,包括以下步骤:
步骤1:电子病历数据集引入医学术语词典后经分句和分词后获得原始语料库,并对词进行随机向量初始化,得到电子病历词向量查找表word_emb;结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量,形成预训练语言模型,对于电子病历的文本输入序列S=(w1,w2,…,wn),其中,wi为句子内的词语,wi内含有m个字,则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vecchar和词向量查找表vecword进行匹配赋值得到:
式中:word_embi为电子病历词向量查找表word_emb的第i个词;
ei为预训练语言模型的词向量查找表vecword中的词向量;
pij是预训练语言模型的字向量查找表vecchar中的字向量;
步骤2:依据步骤1所获得的电子病历词向量查找表word_emb,对于电子病历的文本输入序列S的向量化表示vecinput:
vecinput=wi∩word_emb,wi∈S;
步骤3:依据步骤2所获得的电子病历的文本输入序列S的向量化表示vecinput,作为以并行结构组成的神经网络层的输入,并分别输入到BiLSTM神经网络模块和多头自注意力模块,以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征,得到输出向量Ht,以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重,得到输出向量Attt;
步骤4:对步骤3所获得的输出向量Ht和Attt进行拼接,以此作为神经网络层的整体输出文本特征向量Ot;
该步骤4为一个时序过程,对于t时刻,由输出向量Ht和Attt进行拼接形成文本特征向量Ot,Ot可代表任意时刻的文本特征向量,所有时刻的文本特征向量Ot组成了O,O可以称为文本特征向量,也可以称为文本特征向量矩阵;
步骤5:利用CRF层对步骤4所获得的文本特征向量Ot进行解码和预测,设定电子病历的文本输入序列S的标签序列y={y1,y2,…,yn},通过文本特征向量O=(O1,O2,…,On),计算输出标签序列y的条件概率:
P(y|O)=CRF(O,y);
步骤6:对于步骤1的电子病历的文本输入序列S=(w1,w2,…,wn),步骤4的文本特征向量Ot,步骤5的标签序列y的条件概率,将条件概率最大的预测标签y*作为电子病历的文本输入序列S的最终输出标签序列:
y*=argmaxP(y|O)。
所述步骤3中输出向量Ht由双向长短期记忆网络LSTM训练的输出向量拼接得到:
本发明提出一种电子病历命名实体识别方法,利用字符和词语结合的方法,按照多头自注意力机制模块和BiLSTM神经网络模块的并行结构,学习电子病历文本语义关联信息的多层面特征,捕获句子的内部结构特征与依赖关系,以此提升中文临床命名实体识别模型的效果。
为了验证本发明模型的有效性,在2019年全国知识图谱与语义计算大会的命名实体识别任务上进行测评,同时设置四组对比实验进行模型比较,对比模型设计如下:
(1)简称记为:BiLSTM-CRF,以字词向量融合的形式,利用BiLSTM神经网络进行文本特征向量训练,以CRF进行解码和预测。
(2)简称记为:BiLSTM-CRF-SA,在(1)的基础上,以Self-attention对BiLSTM的输出向量进行权重分配,再利用CRF进行解码和预测。
(3)简称记为:BiLSTM-CRF-MHSA,在(1)的基础上,利用Multi-head Self-attention对BiLSTM的输出向量计算特征关联权重,再利用CRF进行解码和预测。
(4)本发明的模型,简称记为:MHSA-BiLSTM-CRF,在(1)的基础上,依据步骤1—6的方式进行电子病历的命名实体识别。
实体识别模型采用了精确率(precision)、召回率(recall)和F值(F-score)作为评价指标;精确率能够表示预测结果中正例样本是真正正例的比例,召回率能够表示出标准答案中的正例样本被正确预测的比例;F值是精确率和召回率的调和平均值,能够平衡衡量精确率和召回率两个指标;correct表示标注正确的实体个数,recognized表示总共标注出的实体个数,entities为标准答案总共包含的实体个数,则精确率、召回率、F值的具体计算方法如下公式所示:
则实验结果如表1所示:
本发明的模型在多个对比实验的结果中取得了最优异的效果,在精确率、召回率和F值都取得了最好的识别结果,F-score达到了82.95%,证明了模型对于命名实体识别任务的有效性。
Claims (1)
1.一种电子病历命名实体识别方法,其特征在于,包括以下步骤:
步骤1:电子病历数据集引入医学术语词典后经预处理获得原始语料库,并对词进行随机向量初始化,得到电子病历词向量查找表word_emb;结合相同领域内大规模未标注病历文本训练低维稠密字向量和词向量,形成预训练语言模型,对于电子病历的文本输入序列S=(w1,w2,…,wn),其中,wi为句子内的词语,wi内含有m个字,则对于电子病历词向量查找表word_emb的词向量表示可由预训练语言模型的字向量查找表vecchar和词向量查找表vecword进行匹配赋值得到:
式中:ei为预训练语言模型的词向量查找表vecword中的词向量;
pij是预训练语言模型的字向量查找表vecchar中的字向量;
步骤2:依据步骤1所获得的电子病历词向量查找表word_emb,对于电子病历的文本输入序列S的向量化表示vecinput:
vecinput=wi∩word_emb,wi∈S;
步骤3:依据步骤2所获得的电子病历的文本输入序列S的向量化表示vecinput,作为以并行结构组成的神经网络层的输入,并分别输入到BiLSTM神经网络模块和多头自注意力模块,以BiLSTM神经网络模块对输入向量进行训练获得文本序列的上下文特征,得到输出向量Ht,以多头自注意力模块对输入向量进行训练获得文本序列的全局特征和特征关联权重,得到输出向量Attt;
步骤4:对步骤3所获得的输出向量Ht和Attt进行拼接,以此作为神经网络层的整体输出文本特征向量Ot;
步骤5:利用CRF层对步骤4所获得的文本特征向量Ot进行解码和预测,设定电子病历的文本输入序列S的标签序列y={y1,y2,…,yn},通过文本特征向量O=(O1,O2,…,On),计算输出标签序列y的条件概率:
P(y|O)=CRF(O,y);
步骤6:对于步骤1的电子病历的文本输入序列S=(w1,w2,…,wn),步骤4的文本特征向量Ot,步骤5的标签序列y的条件概率,将条件概率最大的预测标签y*作为电子病历的文本输入序列S的最终输出标签序列:
y*=arg max P(y|O)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214838.7A CN113990420A (zh) | 2021-10-19 | 2021-10-19 | 一种电子病历命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111214838.7A CN113990420A (zh) | 2021-10-19 | 2021-10-19 | 一种电子病历命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113990420A true CN113990420A (zh) | 2022-01-28 |
Family
ID=79739316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111214838.7A Pending CN113990420A (zh) | 2021-10-19 | 2021-10-19 | 一种电子病历命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990420A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906845A (zh) * | 2022-11-08 | 2023-04-04 | 重庆邮电大学 | 一种电商商品标题命名实体识别方法 |
-
2021
- 2021-10-19 CN CN202111214838.7A patent/CN113990420A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906845A (zh) * | 2022-11-08 | 2023-04-04 | 重庆邮电大学 | 一种电商商品标题命名实体识别方法 |
CN115906845B (zh) * | 2022-11-08 | 2024-05-10 | 芽米科技(广州)有限公司 | 一种电商商品标题命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Know more say less: Image captioning based on scene graphs | |
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN113205817B (zh) | 语音语义识别方法、系统、设备及介质 | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
CN111738007B (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN111488739A (zh) | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN112000778A (zh) | 一种基于语义识别的自然语言处理方法、装置和系统 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
CN111523320A (zh) | 一种基于深度学习的中文病案分词方法 | |
Yu et al. | Cross-Domain Slot Filling as Machine Reading Comprehension. | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN113990420A (zh) | 一种电子病历命名实体识别方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116306653A (zh) | 一种正则化领域知识辅助的命名实体识别方法 | |
CN114020871B (zh) | 基于特征融合的多模态社交媒体情感分析方法 | |
CN116127954A (zh) | 一种基于词典的新工科专业中文知识概念抽取方法 | |
CN116049349A (zh) | 基于多层次注意力和层次类别特征的小样本意图识别方法 | |
CN113204679B (zh) | 一种代码查询模型的生成方法和计算机设备 | |
CN114511084A (zh) | 增强问答交互信息的自动问答系统答案抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |