CN109509557A

CN109509557A - 一种基于大数据平台的中文电子病历信息抽取预处理方法

Info

Publication number: CN109509557A
Application number: CN201811363273.7A
Authority: CN
Inventors: 赵杰; 翟运开; 陈昊天; 徐军; 陈保站; 王振博; 石金铭; 曹明波
Original assignee: First Affiliated Hospital of Zhengzhou University
Current assignee: First Affiliated Hospital of Zhengzhou University
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-03-22
Anticipated expiration: 2038-11-16
Also published as: CN109509557B

Abstract

本发明公开了一种基于大数据平台的中文电子病历信息抽取预处理方法，属于大数据技术领域，通过对非结构化的电子病历进行预处理，使用文本分割，判定非结构化的电子病历所属类别，并根据不同的类别再次分解为部分，最终形成按照业务逻辑分解为HIVE表字段的分区表；根据不同标注设计，分别输出预标注语料，解决了快速方便的进行语料标注的技术问题，本发明通过合理设计的信息预处理，利用大数据技术，能够极大提高语料标注的效率。

Description

一种基于大数据平台的中文电子病历信息抽取预处理方法

技术领域

本发明属于大数据技术领域，特别涉及一种基于大数据平台的中文电子病历信息抽取预处理方法。

背景技术

在医疗领域中，临床一线积累下的大量珍贵数据蕴藏在非结构化的电子病历中，电子病历信息抽取是智慧医疗应用开发的基础，主要技术为规则和统计相结合的自然语言处理，其中统计的核心算法正逐渐迁移到深度学习平台。

目前现有技术中，部分研究机构、软件厂商在测试数据集上取得了不错的成绩，但普遍面临着几个问题：医学语料标注工作量大、效率低；缺乏海量数据的实践检验；模型泛化性不高，其精确率、召回率、F1值一般限定于某一科室，某一医院。

发明内容

本发明的目的是提供一种基于大数据平台的中文电子病历信息抽取预处理方法，解决了快速方便的进行语料标注的技术问题。

为实现上述目的，本发明采用以下技术方案：

一种基于大数据平台的中文电子病历信息抽取预处理方法，包括如下步骤：

步骤1：建立HDFS数据平台，在HDFS数据平台中汇集EMR、HIS和LIS中的非结构化的电子病历；

步骤2：对非结构化的电子病历进行预处理，使用文本分割，判定非结构化的电子病历所属类别，并根据不同的类别再次分解为部分，最终形成按照业务逻辑分解为HIVE表字段的分区表；根据不同标注设计，分别输出预标注语料，其具体步骤如下：

步骤S1：合并文件导入HDFS：首先进行隐形信息识别，隐形信息包括文件名为住院号和文件路径名为年月的信息；其次，对非结构化的电子病历的文本中回车符号替换成预定的不可见特殊字符；再次，将批量电子病历的文本进行合并；最后导入到HDFS中，形成合并后的EMR文件；

步骤S2：文本分割：首先，读取步骤S1中获得的合并后的EMR文件，确定其文件所属分类，文件所属分类包括入院记录、病程记录、出院记录、诊断证明书和手术记录；其次，根据不同分类，进行划分部分，最后形成分割后文件；

步骤S3：导入HIVE：首先，按照年份、月份、类别进行分区设计；其次，将文件导入到HIVE中，形成有元数据描述表结构；再次，使用join方式与其他结构数据关联；再次，补充或完善其他元数据信息；最后，形成按照不同分割类型对应的各类字段的HIVE表；

步骤S4：导出预标注语料：预置不同场景的SQL语句，使用SPARK-SQL数据库软件将数据按照不同的分类部分进行导出，形成预标注语料；或是按照科室、疾病的方式导出，形成预标注语料；

步骤3：语料标注：首先按照电子病历的分布特点选择需要标注的电子病历，其次采用人工标注按照规范对电子病历进行标注，最后生成各类标注语料；

步骤4：模型训练：依据不同的标注语料分别进行模型训练，即，使用LSTM+CRF模型训练包括分词模型训练、实体识别模型训练和语义模型训练；

步骤5：信息抽取：首先将非结构化的电子病历进行段落文本分割，其次将不同的电子病历文本段带入对应训练模型进行分析，最后将非结构化电子病历生成结构化数据。

在执行步骤S2时，文本分割部分在信息抽取过程仍需要负责段落、句子分割以及选择不同模型解析文本的功能。

本发明所述的一种基于大数据平台的中文电子病历信息抽取预处理方法，解决了快速方便的进行语料标注的技术问题，本发明通过合理设计的信息预处理，利用大数据技术，能够极大提高语料标注的效率。

附图说明

图1是本发明的总体流程图；

图2是本发明的对非结构化的电子病历进行预处理的流程图；

图3是本发明的郑州大学第一附属医院2013-2016入院病历统计图。

具体实施方式

在医疗领域中，临床一线积累下的大量珍贵数据蕴藏在非结构化的电子病历中。利用自然语言处理(NLP)技术将非结构化电子病历转化为可分析的结构化电子病历是医疗大数据分析的基础。

电子病历是指医务人员在医疗活动过程中，使用信息系统生成的文字、符号、图表、图形、数字、影像等数字化信息，并能实现存储、管理、传输和重现的医疗记录，是病历的一种记录形式，包括门(急)诊病历和住院病历。

如图1所示的一种基于大数据平台的中文电子病历信息抽取预处理方法，包括如下步骤：

步骤2：对非结构化的电子病历进行预处理，使用文本分割，判定非结构化的电子病历所属类别，并根据不同的类别再次分解为部分(如：入院记录，分解为：主诉、现病史等)，最终形成按照业务逻辑分解为HIVE表字段的分区表；根据不同标注设计，分别输出预标注语料，其具体步骤如下：

步骤S1：合并文件导入HDFS：首先进行隐形信息识别，隐形信息包括文件名为住院号和文件路径名为年月的信息；其次，对非结构化的电子病历的文本中回车符号替换成预定的不可见特殊字符，如，将回车符号替换成双空格符号等，用户可以自行制定替换的符号；再次，将批量电子病历进行文本合并；最后导入到HDFS中，形成合并后的EMR文件；

步骤S2：文本分割：首先，读取步骤S1中获得的合并后的EMR文件，确定其文件所属分类，文件所属分类包括入院记录、病程记录、出院记录、诊断证明书和手术记录；其次，根据不同分类，进行划分部分(如：“入院记录”，分解为“主诉”、“现病史”、“既往史”和“个人史”等)，，最后形成分割后文件；

步骤S3：导入HIVE：首先，按照年份、月份、类别进行分区设计，以便于快速的提出数据，并为之后增量导入数据提供便利；其次，将文件导入到HIVE中，形成有元数据描述表结构；再次，使用join方式与其他结构数据关联；再次，补充或完善其他元数据信息；最后，形成按照不同分割类型对应的各类字段的HIVE表；

如图3所示，郑州大学第一附属医院2013-2016入院病历总计13,918,200份，其中，2013年2,451,612份，2014年3,462,614，2015年3,821,440份，2016年4,182,534份；

如表1所示，以2014年部分示例，其分区方式采用年year、月month和类别class三级分区；表2为类别class的分类表。

表1

编号	分类
		1	入院记录
2	病程记录
		3	出院记录
4	病情告知书
		5	沟通记录单
6	病历质量评定表
		7	情评估表
8	转科知情同意书
		9	诊断证明书
10	住院患者病情评估表
		11	VTE风险评分
12	手术同意书
		13	患者授权委托书
14	知情同意书
		15	告知同意书
16	手术风险评估表NNIS分级
		17	术前讨论
18	手术记录
		19	患者出院须知
20	出院证明书

表2

如表3所示，在所示2014年部分示例中，共计预置导出了299个字段，其中基本字段为54个，将这299个字段作为预标注语料使用；

表3

步骤3：语料标注：首先按照电子病历的分布特点选择需要标注的电子病历，其次采用人工标注按照规范对电子病历进行标注,最后生成各类标注语料；

语料标注在人工标注时采用的规范为用户自行制定的标注规范。

步骤4：模型训练：依据不同的标注语料分别进行模型训练，使用LSTM+CRF模型训练包括分词模型训练、实体识别模型训练和语义模型训练；

Claims

1.一种基于大数据平台的中文电子病历信息抽取预处理方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于大数据平台的中文电子病历信息抽取预处理方法，其特征在于：在执行步骤S2时，文本分割部分在信息抽取过程仍需要负责段落、句子分割以及选择不同模型解析文本的功能。