CN113990421A - 一种基于数据增强的电子病历命名实体识别方法 - Google Patents
一种基于数据增强的电子病历命名实体识别方法 Download PDFInfo
- Publication number
- CN113990421A CN113990421A CN202111215692.8A CN202111215692A CN113990421A CN 113990421 A CN113990421 A CN 113990421A CN 202111215692 A CN202111215692 A CN 202111215692A CN 113990421 A CN113990421 A CN 113990421A
- Authority
- CN
- China
- Prior art keywords
- word
- char
- original
- electronic medical
- medical record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Machine Translation (AREA)
Abstract
一种基于数据增强的电子病历命名实体识别方法,构建以汉字、汉字在词语的位置、词性、汉字的偏旁部首和汉字拼音的五元组,以词向量工具训练100维低维稠密的向量,分别将字位置、词性、偏旁部首、拼音的四元组分别编码为50、50、50、50的向量表示,则基于字特征增强的五元组形成300维的组合向量作为神经网络的输入,基于BiLSTM‑CRF命名实体识别模型进行文本特征向量的训练,进行实体标签的标记;本发明通过中文汉字在词语中的位置、词性、字的偏旁部首、字的拼音与汉字所处词语的前后信息进行融合,使基于字嵌入的形式包含更丰富的文本特征,以此提升电子病历命名实体识别模型的效果,确保实体识别更加快速、精确的进行。
Description
技术领域
本发明涉及一种电子病历命名实体识别方法,具体是一种基于数据增强的电子病历命名实体识别方法,属于自然语言处理技术领域。
背景技术
随着医疗卫生事业信息化的发展,医院信息系统(Hospital Informationstem,HIS)已经应用于各大医院并逐步建立主导地位。电子病历承载了患者就诊过程中基本信息、实验室检查、疾病症状、诊断信息、治疗方案等一体化的病例信息。面对于知识冗杂、种类复杂、疾病差异的文本存储类型的非结构化医学临床信息,如何分辨包含专业术语与疾病信息的关键医疗信息是自然语言处理(Natural Language Processing,NLP)在医疗领域的重点研究领域。
命名实体识别(Named Entity Recognition,NER)作为自然语言处理研究的关键基础任务之一,旨在从非结构化文本中识别出具备特定意义的实体,如人名、地名和组织机构等专有名词。在电子病历的命名实体识别任务中,主要是挖掘与临床信息密切相关的知识,与英文语法不同的是,中文命名实体识别有基于字和基于词语的两种方法,基于字符的方式减少了陌生词的影响,但是单个字符包含的语义信息不足;基于词语的方法首先面临分词精确的问题,尤其是对于特殊领域,如医学电子病历包含众多密集型术语,分词的准确性直接影响模型的效果。
发明内容
本发明的目的是提供一种基于数据增强的电子病历命名实体识别方法,通过中文汉字在词语中的位置、词性、字的偏旁部首、字的拼音与汉字所处词语的前后信息进行融合,使基于字嵌入的形式包含更丰富的文本特征,以此提升电子病历命名实体识别模型的效果,确保实体识别更加快速、精确的进行。
为了实现上述目的,本发明提供一种基于数据增强的电子病历命名实体识别方法,包括以下步骤:
步骤1:获取原始电子病历文本语料,对文本进行预处理,形成原始语料库,对原始语料库进行中文文本分词,形成原始词表;对原始语料库进行切字处理,形成原始字典;
针对原始词表和原始字典,利用词向量工具训练100维向量表示,对于电子病历文本的同一个序列S,在原始词表中表示为Sword=(word1,word2,…,wordn),在原始字典中表示为Schar=(char1,char2,…,charm),对于chari在序列Sword所在的词语wordj或在wordj前后连续的词语中也出现,则chari的字向量ei表示为:
步骤2:依据步骤1所获得的原始词表、字典以及字典对应的组合字向量E=(e1,e2,…,em)、电子病历文本的同一个序列S,依据BIOES标注策略对原始词典中的词语进行标注,即获得词语中每个字在词语内部位置的标签,以此对原始字典中的字进行编码:
eposition=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤3:依据步骤1所获得的原始词表、字典,对于电子病历文本的同一个序列S,依据词性对Sword=(word1,word2,…,wordn)为每个词语标记词性,同时将词性赋值给词语的每个汉字,然后对Schar=(char1,char2,…,charm)每个字的词性进行编码:
eflag=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤4:依据步骤1获得的原始字典,提取每个字的偏旁部首,形成字典的偏旁部首映射表,将偏旁部首映射表编码为50维向量,并依据字典中的每个字的偏旁部首进行赋值:
ecnradical=one-hot(Schar);
步骤5:依据步骤1所获得的原始字典,对于电子病历文本的同一个序列Schar=(char1,char2,…,charm),将汉语拼音字母表编码为50维向量,对电子病历文本的同一个序列S每个汉字所出现的拼音字母频数进行编码:
epinyin=one-hot(Schar);
步骤6:依据步骤1-5所述的原始字典和电子病历文本的同一个序列S,结合得到的字向量ei,字位置向量eposition,词性向量eflag,字偏旁部首向量ecnradical,字拼音向量epinyin,则以汉字、字位置、词性、偏旁部首和拼音组成的五元组,实现了基于汉字特征的数据增强,命名实体识别模型的字嵌入特征向量矩阵W=(w1,w2,…,wn)表示为:
步骤7:依据步骤6的字嵌入特征向量矩阵W=(w1,w2,…,wn)作为BiLSTM-CRF模型的输入,使用BiLSTM神经网络进行文本特征提取,使用CRF进行解码和实体标签的预测,从而实现基于数据增强的电子病历命名实体识别方法。
所述步骤1中针对原始电子病历文本的预处理主要包括,去除文本停用字词、标点符号与切分句子。
与现有技术相比,本发明对基于字的命名实体识别模型进行数据增强,构建以汉字、汉字在词语的位置、词性、汉字的偏旁部首和汉字拼音的五元组,以词向量工具训练100维低维稠密的向量,分别将字位置、词性、偏旁部首、拼音的四元组分别编码为50、50、50、50的向量表示,则基于字特征增强的五元组形成300维的组合向量作为神经网络的输入,然后基于BiLSTM-CRF命名实体识别模型进行文本特征向量的训练,从而进行实体标签的标记;本发明通过中文汉字在词语中的位置、词性、字的偏旁部首、字的拼音与汉字所处词语的前后信息进行融合,使基于字嵌入的形式包含更丰富的文本特征,以此提升电子病历命名实体识别模型的效果,确保实体识别更加快速、精确的进行。
附图说明
图1是本发明的基于字嵌入形式进行数据增强的命名实体识别模型图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,一种基于数据增强的电子病历命名实体识别方法,包括以下步骤:
步骤1:获取原始电子病历文本语料,经过去除文本停用字词、标点符号与切分句子的预处理操作,形成原始语料库,对原始语料库进行中文文本分词,形成原始词表;对原始语料库进行切字处理,形成原始字典;
针对原始词表和原始字典,利用词向量工具训练100维向量表示,对于电子病历文本的同一个序列S,在原始词表中表示为Sword=(word1,word2,…,wordn),在原始字典中表示为Schar=(char1,char2,…,charm),对于chari在序列Sword所在的词语wordj或在wordj前后连续的词语中也出现,则chari的字向量ei表示为:
步骤2:依据步骤1所获得的原始词表、字典以及字典对应的组合字向量E=(e1,e2,…,em)、电子病历文本的同一个序列S,依据BIOES标注策略对原始词典中的词语进行标注,即获得词语中每个字在词语内部位置的标签,以此对原始字典中的字进行编码:
eposition=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤3:依据步骤1所获得的原始词表、字典,对于电子病历文本的同一个序列S,依据词性对Sword=(word1,word2,…,wordn)为每个词语标记词性,同时将词性赋值给词语的每个汉字,然后对Schar=(char1,char2,…,charm)每个字的词性进行编码:
eflag=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤4:依据步骤1获得的原始字典,提取每个字的偏旁部首,形成字典的偏旁部首映射表,将偏旁部首映射表编码为50维向量,并依据字典中的每个字的偏旁部首进行赋值:
ecnradical=one-hot(Schar);
步骤5:依据步骤1所获得的原始字典,对于电子病历文本的同一个序列Schar=(char1,char2,…,charm),将汉语拼音字母表编码为50维向量,对电子病历文本的同一个序列S每个汉字所出现的拼音字母频数进行编码:
epinyin=one-hot(Schar);
步骤6:依据步骤1-5所述的原始字典和电子病历文本的同一个序列S,结合得到的字向量ei,字位置向量eposition,词性向量eflag,字偏旁部首向量ecnradical,字拼音向量epinyin,则以汉字、字位置、词性、偏旁部首和拼音组成的五元组,实现了基于汉字特征的数据增强,命名实体识别模型的字嵌入特征向量矩阵W=(w1,w2,…,wn)表示为:
步骤7:依据步骤6的字嵌入的300维特征向量矩阵W=(w1,w2,…,wn)作为BiLSTM-CRF模型的输入,使用BiLSTM神经网络进行文本特征提取,使用CRF进行解码和实体标签的预测,从而实现基于数据增强的电子病历命名实体识别方法。
针对本发明提出的一种基于数据增强的电子病历命名实体识别方法,给出一个具体实例,实验数据为随机抽取徐州医科大学附属医院500份帕金森病患者住院病历,并对患者信息进行脱敏处理,获取去隐私的真实临床病历语料集,从入院记录、病程记录与诊疗计划等方面合理筛选片段进行序列标注。
对于原始病历文本,以实体为对象按照<实体类别标签>实体</实体类别标签>的格式规范,在住院医师标注示例后进行人工标注;
实体类别标签包含身体部位(Body)、症状与体征(Symptom)、疾病与诊断(Diagnosis)、检查与检验(Check)和治疗(Treatment)五类临床实体,采用BIOES标注策略,使用“-”连接标注策略与实体类别,其中“B-”表示实体开始部位,“I-”表示实体中间部位,“E-”表示实体结束部位,“O”表示非实体,“S”表示实体是由单个字表示。
实验软件环境为Window10操作系统,Python3.6编程语言,深度学习框架Tensorflow1.14.0,Keras2.2.5,分词工具为jieba0.42;经本发明的步骤1-7获得基于字嵌入形式进行数据增强的300维文本特征向量,然后输入BiLSTM-CRF命名实体识别模型,模型超参数依据模型整体的损失函数变化进行调整,采用交叉验证的方式进行实验,每次实验按照3:1:1的比例划分训练集、验证集与测试集;实验结束常采用精确率(Preciscion,P)、召回率(Recall,R)及F1值(F-measure)作为模型性能评价的指标:
同时,为了验证本发明实体识别方法的有效性,设置对比实验的常规命名实体识别模型包括:(1)BiLSTM-CRF;(2)基于字词融合的BiLSTM-CRF;(3)本发明实体识别方法
表1各类模型的实体识别效果
模型 | P | R | F1 |
(1) | 70.49 | 65.28 | 67.79 |
(2) | 74.42 | 76.81 | 75.60 |
(3) | 80.16 | 78.72 | 79.43 |
由表可以得出,本发明基于数据增强的电子病历命名实体识别方法在识别效果上最为优异,且对比于常规模型,模型效果得到了很大的改善。
以上所述发明内容与具体实施示例中,基于字特征的五元组形成的数据增强表示,其中五元组内部各个元素的维度是本发明的较好实施示例,并不用以限制五元组内各个元素的向量维度。凡在基于字特征的五元组的数据增强表示的基础上,对各个元素的维度做出的任何修改,均应该包含在本发明的保护范畴之内。
Claims (2)
1.一种基于数据增强的电子病历命名实体识别方法,其特征在于,包括以下步骤:
步骤1:获取原始电子病历文本语料,对文本进行预处理,形成原始语料库,对原始语料库进行中文文本分词,形成原始词表;对原始语料库进行切字处理,形成原始字典;
针对原始词表和原始字典,利用词向量工具训练100维向量表示,对于电子病历文本的同一个序列S,在原始词表中表示为Sword=(word1,word2,…,wordn),在原始字典中表示为Schar=(char1,char2,…,charm),对于chari在序列Sword所在的词语wordj或在wordj前后连续的词语中也出现,则chari的字向量ei表示为:
步骤2:依据步骤1所获得的原始词表、字典以及字典对应的组合字向量E=(e1,e2,…,em)、电子病历文本的同一个序列S,依据BIOES标注策略对原始词典中的词语进行标注,即获得词语中每个字在词语内部位置的标签,以此对原始字典中的字进行编码:
eposition=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤3:依据步骤1所获得的原始词表、字典,对于电子病历文本的同一个序列S,依据词性对Sword=(word1,word2,…,wordn)为每个词语标记词性,同时将词性赋值给词语的每个汉字,然后对Schar=(char1,char2,…,charm)每个字的词性进行编码:
eflag=one-hot(wordi),0≤i≤l;
式中:one-hot编码为50维,词语wordi中含有l个汉字;
步骤4:依据步骤1获得的原始字典,提取每个字的偏旁部首,形成字典的偏旁部首映射表,将偏旁部首映射表编码为50维向量,并依据字典中的每个字的偏旁部首进行赋值:
ecnradical=one-hot(Schar);
步骤5:依据步骤1所获得的原始字典,对于电子病历文本的同一个序列Schar=(char1,char2,…,charm),将汉语拼音字母表编码为50维向量,对电子病历文本的同一个序列S每个汉字所出现的拼音字母频数进行编码:
epinyin=one-hot(Schar);
步骤6:依据步骤1-5所述的原始字典和电子病历文本的同一个序列S,结合得到的字向量ei,字位置向量eposition,词性向量eflag,字偏旁部首向量ecnradical,字拼音向量epinyin,则以汉字、字位置、词性、偏旁部首和拼音组成的五元组,实现基于汉字特征的数据增强,命名实体识别模型的字嵌入特征向量矩阵W=(w1,w2,…,wn)表示为:
步骤7:依据步骤6的字嵌入特征向量矩阵W=(w1,w2,…,wn)作为BiLSTM-CRF模型的输入,使用BiLSTM神经网络进行文本特征提取,使用CRF进行解码和实体标签的预测,从而实现基于数据增强的电子病历命名实体识别方法。
2.根据权利要求1所述的一种基于数据增强的电子病历命名实体识别方法,其特征在于,所述步骤1中针对原始电子病历文本的预处理主要包括,去除文本停用字词、标点符号与切分句子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111215692.8A CN113990421A (zh) | 2021-10-19 | 2021-10-19 | 一种基于数据增强的电子病历命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111215692.8A CN113990421A (zh) | 2021-10-19 | 2021-10-19 | 一种基于数据增强的电子病历命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113990421A true CN113990421A (zh) | 2022-01-28 |
Family
ID=79739313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111215692.8A Withdrawn CN113990421A (zh) | 2021-10-19 | 2021-10-19 | 一种基于数据增强的电子病历命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113990421A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114927177A (zh) * | 2022-05-27 | 2022-08-19 | 浙江工业大学 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
-
2021
- 2021-10-19 CN CN202111215692.8A patent/CN113990421A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114927177A (zh) * | 2022-05-27 | 2022-08-19 | 浙江工业大学 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
CN114927177B (zh) * | 2022-05-27 | 2024-06-11 | 浙江工业大学 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN107133220B (zh) | 一种地理学科领域命名实体识别方法 | |
CN111737975A (zh) | 文本内涵质量的评估方法、装置、设备及存储介质 | |
CN106844351B (zh) | 一种面向多数据源的医疗机构组织类实体识别方法及装置 | |
CN110502750B (zh) | 中医文本分词过程中的消歧方法、系统、设备及介质 | |
CN111079377A (zh) | 一种面向中文医疗文本命名实体识别的方法 | |
CN106980609A (zh) | 一种基于词向量表示的条件随机场的命名实体识别方法 | |
Kann et al. | Neural morphological analysis: Encoding-decoding canonical segments | |
CN109003677B (zh) | 病历数据结构化分析处理方法 | |
CN110335653A (zh) | 基于openEHR病历格式的非标准病历解析方法 | |
Bebah et al. | Hybrid approaches for automatic vowelization of Arabic texts | |
Ljubešić et al. | Predicting the level of text standardness in user-generated content | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN110457715B (zh) | 融入分类词典的汉越神经机器翻译集外词处理方法 | |
CN108563725A (zh) | 一种中文症状体征构成识别方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN113704415B (zh) | 医学文本的向量表示生成方法和装置 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN113486141A (zh) | 一种基于SegaBert预训练模型的文本、简历和理财公告抽取方法 | |
CN114927177B (zh) | 一种融合中文医疗领域特征的医疗实体识别方法及系统 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN113297851B (zh) | 一种针对易混淆运动损伤实体词的识别方法 | |
CN113990421A (zh) | 一种基于数据增强的电子病历命名实体识别方法 | |
CN111274354B (zh) | 一种裁判文书结构化方法及装置 | |
CN108511036A (zh) | 一种中文症状标注的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220128 |
|
WW01 | Invention patent application withdrawn after publication |