CN113990421A

CN113990421A - 一种基于数据增强的电子病历命名实体识别方法

Info

Publication number: CN113990421A
Application number: CN202111215692.8A
Authority: CN
Inventors: 马凯; 李超凡
Original assignee: Xuzhou Medical University
Current assignee: Xuzhou Medical University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-01-28

Abstract

一种基于数据增强的电子病历命名实体识别方法，构建以汉字、汉字在词语的位置、词性、汉字的偏旁部首和汉字拼音的五元组，以词向量工具训练100维低维稠密的向量，分别将字位置、词性、偏旁部首、拼音的四元组分别编码为50、50、50、50的向量表示，则基于字特征增强的五元组形成300维的组合向量作为神经网络的输入，基于BiLSTM‑CRF命名实体识别模型进行文本特征向量的训练，进行实体标签的标记；本发明通过中文汉字在词语中的位置、词性、字的偏旁部首、字的拼音与汉字所处词语的前后信息进行融合，使基于字嵌入的形式包含更丰富的文本特征，以此提升电子病历命名实体识别模型的效果，确保实体识别更加快速、精确的进行。

Description

一种基于数据增强的电子病历命名实体识别方法

技术领域

本发明涉及一种电子病历命名实体识别方法，具体是一种基于数据增强的电子病历命名实体识别方法，属于自然语言处理技术领域。

背景技术

随着医疗卫生事业信息化的发展，医院信息系统(Hospital Informationstem，HIS)已经应用于各大医院并逐步建立主导地位。电子病历承载了患者就诊过程中基本信息、实验室检查、疾病症状、诊断信息、治疗方案等一体化的病例信息。面对于知识冗杂、种类复杂、疾病差异的文本存储类型的非结构化医学临床信息，如何分辨包含专业术语与疾病信息的关键医疗信息是自然语言处理(Natural Language Processing，NLP)在医疗领域的重点研究领域。

命名实体识别(Named Entity Recognition，NER)作为自然语言处理研究的关键基础任务之一，旨在从非结构化文本中识别出具备特定意义的实体，如人名、地名和组织机构等专有名词。在电子病历的命名实体识别任务中，主要是挖掘与临床信息密切相关的知识，与英文语法不同的是，中文命名实体识别有基于字和基于词语的两种方法，基于字符的方式减少了陌生词的影响，但是单个字符包含的语义信息不足；基于词语的方法首先面临分词精确的问题，尤其是对于特殊领域，如医学电子病历包含众多密集型术语，分词的准确性直接影响模型的效果。

发明内容

本发明的目的是提供一种基于数据增强的电子病历命名实体识别方法，通过中文汉字在词语中的位置、词性、字的偏旁部首、字的拼音与汉字所处词语的前后信息进行融合，使基于字嵌入的形式包含更丰富的文本特征，以此提升电子病历命名实体识别模型的效果，确保实体识别更加快速、精确的进行。

为了实现上述目的，本发明提供一种基于数据增强的电子病历命名实体识别方法，包括以下步骤：

步骤1：获取原始电子病历文本语料，对文本进行预处理，形成原始语料库，对原始语料库进行中文文本分词，形成原始词表；对原始语料库进行切字处理，形成原始字典；

针对原始词表和原始字典，利用词向量工具训练100维向量表示，对于电子病历文本的同一个序列S，在原始词表中表示为S_word＝(word₁,word₂,…,word_n)，在原始字典中表示为S_char＝(char₁,char₂,…,char_m)，对于char_i在序列S_word所在的词语word_j或在word_j前后连续的词语中也出现，则char_i的字向量e_i表示为：

式中：

表示char_i所在序列S_word中对应词word_j的词向量；

表示char_i所在序列S_word中对应词word_j的前面连续k个词均匀出现char_i词向量；

表示char_i所在序列S_word中对应词word_j的后面连续k个词均匀出现char_i词向量；

步骤2：依据步骤1所获得的原始词表、字典以及字典对应的组合字向量E＝(e₁,e₂,…,e_m)、电子病历文本的同一个序列S，依据BIOES标注策略对原始词典中的词语进行标注，即获得词语中每个字在词语内部位置的标签，以此对原始字典中的字进行编码：

e_position＝one-hot(word_i),0≤i≤l；

式中：one-hot编码为50维，词语word_i中含有l个汉字；

步骤3：依据步骤1所获得的原始词表、字典，对于电子病历文本的同一个序列S，依据词性对S_word＝(word₁,word₂,…,word_n)为每个词语标记词性，同时将词性赋值给词语的每个汉字，然后对S_char＝(char₁,char₂,…,char_m)每个字的词性进行编码：

e_flag＝one-hot(word_i),0≤i≤l；

式中：one-hot编码为50维，词语word_i中含有l个汉字；

步骤4：依据步骤1获得的原始字典，提取每个字的偏旁部首，形成字典的偏旁部首映射表，将偏旁部首映射表编码为50维向量，并依据字典中的每个字的偏旁部首进行赋值：

e_cnradical＝one-hot(S_char)；

步骤5：依据步骤1所获得的原始字典，对于电子病历文本的同一个序列S_char＝(char₁,char₂,…,char_m)，将汉语拼音字母表编码为50维向量，对电子病历文本的同一个序列S每个汉字所出现的拼音字母频数进行编码：

e_pinyin＝one-hot(S_char)；

步骤6：依据步骤1-5所述的原始字典和电子病历文本的同一个序列S，结合得到的字向量e_i，字位置向量e_position，词性向量e_flag，字偏旁部首向量e_cnradical，字拼音向量e_pinyin，则以汉字、字位置、词性、偏旁部首和拼音组成的五元组，实现了基于汉字特征的数据增强，命名实体识别模型的字嵌入特征向量矩阵W＝(w₁,w₂,…,w_n)表示为：

步骤7：依据步骤6的字嵌入特征向量矩阵W＝(w₁,w₂,…,w_n)作为BiLSTM-CRF模型的输入，使用BiLSTM神经网络进行文本特征提取，使用CRF进行解码和实体标签的预测，从而实现基于数据增强的电子病历命名实体识别方法。

所述步骤1中针对原始电子病历文本的预处理主要包括，去除文本停用字词、标点符号与切分句子。

与现有技术相比，本发明对基于字的命名实体识别模型进行数据增强，构建以汉字、汉字在词语的位置、词性、汉字的偏旁部首和汉字拼音的五元组，以词向量工具训练100维低维稠密的向量，分别将字位置、词性、偏旁部首、拼音的四元组分别编码为50、50、50、50的向量表示，则基于字特征增强的五元组形成300维的组合向量作为神经网络的输入，然后基于BiLSTM-CRF命名实体识别模型进行文本特征向量的训练，从而进行实体标签的标记；本发明通过中文汉字在词语中的位置、词性、字的偏旁部首、字的拼音与汉字所处词语的前后信息进行融合，使基于字嵌入的形式包含更丰富的文本特征，以此提升电子病历命名实体识别模型的效果，确保实体识别更加快速、精确的进行。

附图说明

图1是本发明的基于字嵌入形式进行数据增强的命名实体识别模型图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于数据增强的电子病历命名实体识别方法，包括以下步骤：

步骤1：获取原始电子病历文本语料，经过去除文本停用字词、标点符号与切分句子的预处理操作，形成原始语料库，对原始语料库进行中文文本分词，形成原始词表；对原始语料库进行切字处理，形成原始字典；

式中：

表示char_i所在序列S_word中对应词word_j的词向量；

e_position＝one-hot(word_i),0≤i≤l；

式中：one-hot编码为50维，词语word_i中含有l个汉字；

e_flag＝one-hot(word_i),0≤i≤l；

式中：one-hot编码为50维，词语word_i中含有l个汉字；

e_cnradical＝one-hot(S_char)；

e_pinyin＝one-hot(S_char)；

步骤7：依据步骤6的字嵌入的300维特征向量矩阵W＝(w₁,w₂,…,w_n)作为BiLSTM-CRF模型的输入，使用BiLSTM神经网络进行文本特征提取，使用CRF进行解码和实体标签的预测，从而实现基于数据增强的电子病历命名实体识别方法。

针对本发明提出的一种基于数据增强的电子病历命名实体识别方法，给出一个具体实例，实验数据为随机抽取徐州医科大学附属医院500份帕金森病患者住院病历，并对患者信息进行脱敏处理，获取去隐私的真实临床病历语料集，从入院记录、病程记录与诊疗计划等方面合理筛选片段进行序列标注。

对于原始病历文本，以实体为对象按照<实体类别标签>实体</实体类别标签>的格式规范，在住院医师标注示例后进行人工标注；

实体类别标签包含身体部位(Body)、症状与体征(Symptom)、疾病与诊断(Diagnosis)、检查与检验(Check)和治疗(Treatment)五类临床实体，采用BIOES标注策略，使用“-”连接标注策略与实体类别，其中“B-”表示实体开始部位，“I-”表示实体中间部位，“E-”表示实体结束部位，“O”表示非实体，“S”表示实体是由单个字表示。

实验软件环境为Window10操作系统，Python3.6编程语言，深度学习框架Tensorflow1.14.0，Keras2.2.5，分词工具为jieba0.42；经本发明的步骤1-7获得基于字嵌入形式进行数据增强的300维文本特征向量，然后输入BiLSTM-CRF命名实体识别模型，模型超参数依据模型整体的损失函数变化进行调整，采用交叉验证的方式进行实验，每次实验按照3:1:1的比例划分训练集、验证集与测试集；实验结束常采用精确率(Preciscion，P)、召回率(Recall，R)及F1值(F-measure)作为模型性能评价的指标：

同时，为了验证本发明实体识别方法的有效性，设置对比实验的常规命名实体识别模型包括：(1)BiLSTM-CRF；(2)基于字词融合的BiLSTM-CRF；(3)本发明实体识别方法

表1各类模型的实体识别效果

模型	P	R	F1
				(1)	70.49	65.28	67.79
(2)	74.42	76.81	75.60
				(3)	80.16	78.72	79.43

由表可以得出，本发明基于数据增强的电子病历命名实体识别方法在识别效果上最为优异，且对比于常规模型，模型效果得到了很大的改善。

以上所述发明内容与具体实施示例中，基于字特征的五元组形成的数据增强表示，其中五元组内部各个元素的维度是本发明的较好实施示例，并不用以限制五元组内各个元素的向量维度。凡在基于字特征的五元组的数据增强表示的基础上，对各个元素的维度做出的任何修改，均应该包含在本发明的保护范畴之内。

Claims

1.一种基于数据增强的电子病历命名实体识别方法，其特征在于，包括以下步骤：

式中：

表示char_i所在序列S_word中对应词word_j的词向量；

e_position＝one-hot(word_i),0≤i≤l；

式中：one-hot编码为50维，词语word_i中含有l个汉字；

e_flag＝one-hot(word_i),0≤i≤l；

式中：one-hot编码为50维，词语word_i中含有l个汉字；

e_cnradical＝one-hot(S_char)；

e_pinyin＝one-hot(S_char)；

步骤6：依据步骤1-5所述的原始字典和电子病历文本的同一个序列S，结合得到的字向量e_i，字位置向量e_position，词性向量e_flag，字偏旁部首向量e_cnradical，字拼音向量e_pinyin，则以汉字、字位置、词性、偏旁部首和拼音组成的五元组，实现基于汉字特征的数据增强，命名实体识别模型的字嵌入特征向量矩阵W＝(w₁,w₂,…,w_n)表示为：

2.根据权利要求1所述的一种基于数据增强的电子病历命名实体识别方法，其特征在于，所述步骤1中针对原始电子病历文本的预处理主要包括，去除文本停用字词、标点符号与切分句子。