CN112949308A

CN112949308A - 基于功能结构的中文电子病历命名实体识别方法及系统

Info

Publication number: CN112949308A
Application number: CN202110212911.0A
Authority: CN
Inventors: 胡吉明; 钱玮; 吕晓光; 付文麟; 吕浩
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-06-11

Abstract

本发明公开了一种基于功能结构的中文电子病历命名实体识别方法及系统，该方法包括以下步骤：获取电子病历数据，对电子病历数据进行结构化处理；依据功能结构，对结构化的数据进行内容抽取；对抽取的各功能结构内容进行人工标注，并分为训练集和测试集；利用各功能结构下的训练集训练BiLSTM‑CRF模型；通过测试集验证各模型效果并对模型进行调优，最后利用模型对未标注文本进行命名实体识别。本发明将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据，创新了医疗实体标注策略，结合深度神经网络和统计机器学习方法实现了医疗命名实体识别，提高医疗命名实体识别的准确度，为电子病历术语规范化和后续文本挖掘工作提供参考。

Description

基于功能结构的中文电子病历命名实体识别方法及系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于功能结构的中文电子病历命名实体识别方法及系统。

背景技术

电子病历作为患者人口统计学信息诊断、实验室测试结果、药物处方和临床记录的重要载体，蕴含着丰富的医疗信息与专家知识，日益成为文本挖掘领域的研究热点。而进行中文电子病历文本研究，首要解决的基础性工作就是医疗实体识别。医疗实体是医疗文本中用于描述患者详细病情、症状、用药和治疗情况等的概念；医疗实体识别，即自动识别和分类病例中的医疗实体，为分词、向量化等后续文本处理工作打下基础。

已有的命名实体识别方法主要包括基于规则的方法、基于词典的方法、统计机器学习方法和深度学习方法。其中基于BiLSTM-CRF的深度学习模型是应用于电子病历命名实体识别的主流模型，该模型依靠BiLSTM层实现上下文特征提取，再由CRF层从所有可能的标记路径解码出最优预测集。该方法考虑了上下文语境，从而有效提升了命名实体识别准确度。但值得注意的是，区别于一般性中文文本，电子病历具有一定的结构化或模块化特征，语言模式化也较强，不同模块内的同一词汇、术语或实体代表了不同的语义内涵或功能作用。而已有的实体识别方法大多忽略了上述特征，降低了命名实体识别的语义准确性，因此需要针对中文电子病历的特点对命名实体识别方法加以改进与应用。

发明内容

本发明的目的在于，提供一种基于功能结构的中文电子病历命名实体识别方法及系统，从电子病历的内容模块、功能结构入手，改进医疗实体标注的策略与框架，弥补当前电子病历命名实体识别研究中对电子病历领域特性考虑不足的问题，有效保留实体蕴含的功能结构信息，进一步提升面向临床电子病历的命名实体识别模型的效果。

本发明提供一种基于功能结构的中文电子病历命名实体识别方法，包括以下步骤：

S1、获取电子病历数据，对电子病历数据进行结构化处理；

S2、依据功能结构，对结构化的数据进行内容抽取；

S3、对抽取的各功能结构内容进行人工标注，并分为训练集和测试集；

S4、利用各功能结构下的训练集训练BiLSTM-CRF模型；

S5、通过测试集验证各模型效果并对模型进行调优，最后利用模型对未标注文本进行命名实体识别。

进一步地，电子病历数据为电子病历中的临床住院记录，包括入院情况、入院诊断、治疗经过、出院情况和出院诊断。

进一步地，步骤S2包括：

S21、确定功能结构，包括入院情况、入院诊断、治疗经过、出院情况和出院诊断五个模块；

S22、根据模块对结构化的电子病历数据进行内容抽取。

进一步地，步骤S3中，采用YEDDA标注工具进行人工标注，将实体类型信息和实体边界信息组合形成完整的标注体系，将识别任务转化为字粒度的标记。

进一步地，实体类型包括：症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST&

&EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)。

进一步地，实体边界界定采用BIO标注模式，其定义如下：B表示实体首部字，I表示实体内部字，O表示非实体构成字。

进一步地，步骤S4包括：

S41、加载字向量表，获得语料中每个字符的字向量表示，生成训练用的字向量矩阵；

S42、将字向量矩阵作为模型输入，通过BiLSTM层实现上下文信息特征提取，经tanh层输出字符对应各标签的置信度；

S43、利用CRF层在所有可能标记路径中解码出最优标记集。

进一步地，S51、将测试集对应的原始文本输入到模型进行预测，输出对应的标签预测

结果；

S52、对比预测结果与测试集人工标注结果，计算正确率、召回率、F值三个指标；

S53、根据F值结果调优BiLSTM-CRF模型参数；

S54、将调优后的模型应用到未标注数据样本上实现命名实体的自动识别。

进一步地，该方法还包括步骤：

S6、对电子病历各功能结构下文本字符及其标签进行实体合并和统计，构建出电子病历功能结构下的命名实体集。

本发明还提供一种实现上述基于功能结构的中文电子病历命名实体识别方法的系统，包括：

数据获取模块，用于获取电子病历数据，对电子病历数据进行结构化处理；

内容抽取模块，用于依据功能结构，对结构化的数据进行内容抽取；

人工标注模块，用于对抽取的各功能结构内容进行人工标注，并分为训练集和测试集；

模型训练模块，用于利用各功能结构下的训练集训练BiLSTM-CRF模型；

实体识别模块，用于通过测试集验证各模型效果并对模型进行调优，最后利用模型对未标注文本进行命名实体识别。

本发明的有益效果是：本发明的基于功能结构的中文电子病历命名实体识别方法及系统，将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据，创新了医疗实体标注策略，结合深度神经网络和统计机器学习方法实现了医疗命名实体识别，提高医疗命名实体识别的准确度，同时实现了医疗实体信息语义增强，系统的构建也有助于探究电子病历术语组成，为电子病历术语规范化和后续文本挖掘工作提供了参考。

附图说明

图1是本发明的基于功能结构的中文电子病历命名实体识别方法的流程图。

图2是本发明实施例的中文电子病历命名实体识别方法过程图。

图3是本发明的BiLSTM-CRF模型及其输入输出的示意图。

图4是本发明的基于功能结构的中文电子病历命名实体识别系统示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明：

本发明属于医疗与计算机技术交叉领域，提供一种基于功能结构的中文电子病历命名实体识别方法及系统。该方法及系统将中文电子病历文本的内容结构及其功能内涵作为医疗命名实体标注和识别的基本依据，创新了医疗实体标注策略，结合深度神经网络和统计机器学习方法实现了医疗命名实体识别，提高了医疗命名实体识别的准确度，增强了医疗实体信息的语义；构建的电子病历命名识别系统可高效实现医疗实体自动识别，为该领域专家的病历撰写、药物发现、疾病规律总结等提供参考。

本发明实施例的基于功能结构的中文电子病历命名实体识别方法，如图1和2所示，包括但不限于以下步骤：

S1、从医院电子病历系统中获取电子病历原始数据，使用Python等编程语言进行结构化处理并存为excel表格。电子病历指来源于医院电子病历系统的临床住院记录，应包括但不限于入院情况、入院诊断、治疗经过、出院情况、出院诊断等诊疗信息，可利用excel进行归纳整理，使每个患者形成一行记录。

S2、确定需要研究的文本功能结构模块，使用Python等编程语言抽取各模块下一定数量的病例内容作为实验数据，依次存为txt文件。

S3、确定标注策略，使用标注工具对S2中抽取的内容进行人工标注，标注完成后划分训练集与测试集。

S4、使用S3中获得的各模块训练集训练BiLSTM-CRF模型。

S5、使用S3中各模块测试集验证相应模块下模型的效果并调优，使用模型实现未标注文本的命名实体识别任务并构建命名实体集。

具体来说，步骤S2旨在抽取用于实验的文本数据，先确定待研究的文本功能结构，再根据功能结构抽取内容作为研究语料。具体包括但不限于以下步骤：

S21、确定病历文本模块，如入院情况、入院诊断、治疗经过、出院情况、出院诊断五个模块，则根据模块对上述结构化文档进行内容抽取；

S22、设置研究病例数，在模块内容基础上进一步抽取用于训练测试的文本内容。

在本实施例中，文本功能结构的选取原则主要是要选择富含患者诊疗信息的结构，包括但不限于入院情况、入院诊断、治疗经过、出院情况、出院诊断五个模块，随后对上述结构化文档进行内容抽取，分为待标注数据和未标注数据，为保证模型效果和避免训练时间过长，待标注数据量可设置为2000条左右。

在本实施例中，如表1所示，选取的入院情况、入院诊断、治疗经过、出院情况、出院诊断五个模块的内涵功能有：

表1中文电子病历的主要内容模块及其内涵功能

具体来说，步骤S3中，确定标注策略并据此进行人工标注，对标注后的文档划分训练集、测试集。

在本实施例中，步骤S3确定的命名实体类型包括症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST&&EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)七个类型，针对中文临床电子病历领域命名实体，具体分类如下：

症状类(SYMPTOM)：患者主观描述症状，位于患者主诉中，包括但不限于腹痛、呕吐、腹胀等。

身体部位(BODY)：身体的解剖学部位或器官，包括但不限于腹、胃、肝等。

化验和检查(TEST&&EXAMINATION)：化验主要指血粪尿实验室化验指标，检查要指影像学、核医学等结果，包括但不限于T(体温)、胃镜、CT等。

疾病(DISEASE):各类疾病医学名词及缩写，位于患者既往疾病史及入院诊断和出院诊断中，包括但不限于胃癌、溃疡、高血压等。

体征(SIGN)：体格检查来发现身体客观异常表现，包括但不限于压痛、反跳痛、呼吸等。

治疗(TREATMENT):止血、营养支持以及特殊手术名称，包括但不限于化疗、手术、营养等。

药物(DRUG):药物名称，位于既往史、药物过敏史以及治疗经过中，包括但不限于奥沙利铂、替吉奥、维康达等。

在本实施例的该步骤中，为提高模型对词边界的识别能力，步骤S3中采用BIO标注模式对医疗实体进行边界界定；BIO标注模型定义如下：B表示实体首部字；I体内部字；O表示非实体构成字。

在本实施例的该步骤中，将类型信息(SYMPTOM，BODY……)和边界信息(B,I,O)组合形成完整的标注体系，将识别任务转化为字粒度的标记，结合步骤S2实施例选取的5个模块，依次记文本所在结构为1、2、……、5，具体标记示例如表2：

表2医疗命名实体识别标注编码

在本实施例的该步骤中，基于标注工具YEDDA使用上述标注策略对各结构下待标注文本进行医疗实体标注。

在本实施例的该步骤中，标注完成的结果按比例划分训练集与测试集，比例的选取一般为训练：测试在2:1-5:1间即可。

具体来说，如图3所示，在步骤S4中，使用各模块下训练集，依次对BiLSTM-CRF模型进行训练，包括但不限于以下步骤：

步骤S41、加载通用字向量表，并使用样本数据到字向量中查表，生成训练用的字向量矩阵；

步骤S42、将字向量矩阵作为embedding层输入，经过Bi-LSTM层进行编码，实现上下文信息特征提取，经tanh层输出字符对应各标签的置信度；

步骤S43、引入CRF层，在上一层输出的所有可能标记路径中解码出最优标记集，即CRF层中加入对Bi-LSTM层输出字的标签之间顺序性的考虑，实现句子级的标签约束。

在本实施例的该步骤中，模型训练会生成各结构模块下对应的模型，可记为bilstm_crf_model_1、bilstm_crf_model_2、……、bilstm_crf_model_5。

具体来说，在步骤S5中，利用测试集对步骤S4中训练生成的BiLSTM-CRF模型进行效果验证，并实现对未标注语料的标注，包括但不限于以下步骤：

S51、将测试集对应的原始文本输入模型进行预测，输出对应的标签预测结果；

S52、使用Python代码对比预测结果与测试集人工标注结果，计算正确率、召回率、F值三个评价指标；

S53、根据F值结果，判断是否返回步骤S4调优BiLSTM-CRF模型参数；

在本实施例的该步骤中，若F值小于90％,则调整BiLSTM-CRF模型中迭代次数、输入字符长度等参数，不断调整直至验证结果达最优。

S54、将调优后的模型应用到未标注数据样本上实现命名实体的自动识别，对电子病历各结构下文本字符及其标签进行实体合并和统计，构建出电子病历功能结构下的命名实体集。

在本实施例的该步骤中，实体集的形式可展现如表3：

表3入院情况实体集

本发明还提供一种实现上述基于功能结构的中文电子病历命名实体识别方法的基于功能结构的中文电子病历命名实体识别系统，如图4所示，包括：

数据获取模块101，用于获取电子病历数据，对电子病历数据进行结构化处理。

内容抽取模块102，用于依据功能结构，对结构化的数据进行内容抽取；上传电子病历原始excel文件后，用户可根据需求填写待识别的文本结构(即excel表的列名)。

人工标注模块103，用于对抽取的各功能结构内容进行人工标注，并分为训练集和测试集；可以调用YEDDA这一标注接口，方便使用提供好的标注策略对文本处理模块生成的训练集进行标注。

模型训练模块104，用于利用各功能结构下的训练集训练BiLSTM-CRF模型。

实体识别模块105，用于通过测试集验证各模型效果并对模型进行调优，最后利用模型对未标注文本进行命名实体识别；模型训练中利用标注数据训练模型，系统可以将模型准确度直观反馈给用户，用户可据此进行调参来优化模型。

实体集模块106，用于对电子病历各功能结构下文本字符及其标签进行实体合并和统计，构建出电子病历功能结构下的命名实体集。用户上传测试集数据，平台将根据训练得到的模型进行测试数据的自动标注，自动生成实体集。

本领域的技术人员容易理解，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于功能结构的中文电子病历命名实体识别方法，其特征在于，包括以下步骤：

S1、获取电子病历数据，对电子病历数据进行结构化处理；

S2、依据功能结构，对结构化的数据进行内容抽取；

S4、利用各功能结构下的训练集训练BiLSTM-CRF模型；

2.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，电子病历数据为电子病历中的临床住院记录，包括入院情况、入院诊断、治疗经过、出院情况和出院诊断。

3.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，步骤S2包括：

S22、根据模块对结构化的电子病历数据进行内容抽取。

4.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，步骤S3中，采用YEDDA标注工具进行人工标注，将实体类型信息和实体边界信息组合形成完整的标注体系，将识别任务转化为字粒度的标记。

5.根据权利要求4所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，实体类型包括：症状(SYMPTOM)、身体部位(BODY)、化验和检查(TEST&&EXAMINATION)、疾病(DISEASE)、体征(SIGN)、治疗(TREATMENT)、药物(DRUG)。

6.根据权利要求4所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，实体边界界定采用BIO标注模式，其定义如下：B表示实体首部字，I表示实体内部字，O表示非实体构成字。

7.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，步骤S4包括：

S43、利用CRF层在所有可能标记路径中解码出最优标记集。

8.根据权利要求1所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，

S51、将测试集对应的原始文本输入到模型进行预测，输出对应的标签预测结果；

S53、根据F值结果调优BiLSTM-CRF模型参数；

9.根据权利要求1-8中任一项所述的基于功能结构的中文电子病历命名实体识别方法，其特征在于，该方法还包括步骤：

10.一种基于功能结构的中文电子病历命名实体识别系统，其特征在于，包括：