CN110517788A

CN110517788A - 一种中文电子病历信息抽取的方法

Info

Publication number: CN110517788A
Application number: CN201910815041.9A
Authority: CN
Inventors: 曹梦莉; 王国超
Original assignee: Shandong Health And Medical Big Data Co Ltd
Current assignee: Shandong Health And Medical Big Data Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29

Abstract

本发明特别涉及一种中文电子病历信息抽取的方法。该中文电子病历信息抽取的方法，通过获取数据源，并在抽取数据时进行数据映射，对数据进行解析、清洗、匹配和转换的，将不同医院不同电子病历厂商非结构化病历数据变成可用于查询、统计及分析的结构化病历数据，并将抽取结果批量入库。该中文电子病历信息抽取的方法，不仅能够促进各医疗机构之间的数据整合及互联互通，加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库，还便于利用电子病历中的临床数据进行医疗数据分析，挖掘健康医疗大数据中的价值信息。

Description

一种中文电子病历信息抽取的方法

技术领域

本发明涉及机器学习算法与数据挖掘技术领域，特别涉及一种中文电子病历信息抽取的方法。

背景技术

随着电子病历的不断普及，大量的医疗数据以电子病历的形式被不断地积累下来。其中，相当大部分的数据依然以叙述性文本的形式存在，如何抽取电子病历中的医学概念，将非结构文本结构化，已成为电子病历发展过程中亟待解决的问题。

目前，由于各医院非结构化病历系统厂商繁多，每位医护人员记录和表述习惯的不同以及病人就诊数据极难获取等各种原因，使得国内在电子病历方面的推进的步伐比较缓慢。

为了促进各医疗机构之间的数据整合及互联互通，加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库，便于利用电子病历中的临床数据进行医疗数据分析，挖掘健康医疗大数据中的价值信息，帮助医疗机构改善居民的健康水平，本发明提出了一种中文电子病历信息抽取的方法。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的中文电子病历信息抽取的方法。

本发明是通过如下技术方案实现的：

一种中文电子病历信息抽取的方法，其特征在于：包括以下步骤：

第一步，数据源获取

读取各医院原始非结构化相关数据，包括入院记录、首次病程录、病程记录、体温记录单、体格检查、护理记录、查房记录和出院小结；

第二步，数据抽取

将不同医院、不同电子病历厂商和不同类型的非结构化病历数据进行信息抽取、转换并整合，变成可用于查询、统计及分析的结构化病历数据；

第三步，数据映射

在数据提取过程中对各类异常数据进行预处理，包括自动对各类异常值、格式异常及脏乱数据进行映射及清洗；

第四步，将数据抽取结果批量入库。

所述第一步中，使用生成器读取各医院原始非结构化相关数据，并且支持多种非结构化数据源存储格式，包括BLOB二进制大型对象和CLOB字符大型对象。

所述第二步中，单一结果字段抽取时，包括以下几种情况：

第一，对于后台数据库存储中不含XML标签的非结构化病历数据源，直接进行抽取；

第二，对于后台数据库存储中含有英文XML标签的非结构化病历数据源，抽取该字段对应的所有标签中的标签值，并用空白字符进行拼接，形成该字段最终值；

第三，对于后台数据库存储中含有中文XML标签的非结构化病历数据源，先判断标签是否存在于标签值中，若存在则直接提取标签值，若不存在则对标签内的属性值及标签值进行拼接后形成该字段。(例：体格检查)

所述第二步中，在抽取各类诊断信息及其他非单一结果的多结果字段时，先以各类标点符号、特殊字符和/或阿拉伯数字进行分割，并过滤掉不含中文字符的元素后，再分多行入库；不同非结构化病历厂商数据抽取时，参考单一结果字段抽取时的实现逻辑。

所述第二步中，在抽取非结构化病历数据中存在的多项并一项存储的混合结果字段时，(例：月经史\婚育史\月经及婚育史)，先分别抽取单项，如若为空则抽取混合项，并对混合项进行拆分，将混合箱拆分为多个单一结果字段；不同非结构化病历厂商数据抽取时，参考单一结果字段抽取时的实现逻辑。

所述第三步中，对抽取结果中的数值型字段进行校验，如果不符合实际情况，则将该数值型字段视为异常数据，并依据具体情况做进行修改。

所述第三步中，对非结构化病历中数值型字段的格式进行判断，如果存在关系型数据库识别不了的阿拉伯数字，则自动进行映射成可识别的正常格式的数字，并将由于格式异常无法转换成数值型的抽取结果进行格式转换。

所述第三步中，在数据入库前对脏乱数据进行清洗过滤，包括剔除首尾非中文特殊符号以及过滤掉无效抽取内容。

所述第四步中，数据入库时可任意指定每次入库的数据量，以确保大量非结构化病历数据解析的执行效率。

本发明的有益效果是：该中文电子病历信息抽取的方法，不仅能够促进各医疗机构之间的数据整合及互联互通，加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库，还便于利用电子病历中的临床数据进行医疗数据分析，挖掘健康医疗大数据中的价值信息。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该中文电子病历信息抽取的方法，包括以下步骤：

第一步，数据源获取

第二步，数据抽取

第三步，数据映射

第四步，将数据抽取结果批量入库。

所述第二步中，单一结果字段抽取时，包括以下几种情况：

所述第三步中，对抽取结果中的数值型字段进行校验，如果不符合实际情况，则将该数值型字段视为异常数据，并依据具体情况做进行修改。例：将“体温3.67度、脉搏10400次每分”修改为“体温36.7度、脉搏104次每分”。

所述第三步中，对非结构化病历中数值型字段的格式进行判断，如果存在关系型数据库识别不了的阿拉伯数字，则自动进行映射成可识别的正常格式的数字，并将由于格式异常无法转换成数值型的抽取结果进行格式转换。例：将“体温36..7度、体温36.度”自动映射为“体温36.7度、体温36.0度”。

该中文电子病历信息抽取的方法，主要语言使用Python实现模式匹配、数据清洗、数据分析、异常数据映射和异常数据转换等功能。

与现有技术相比，该中文电子病历信息抽取的方法，具有以下特点：

1、能够促进各医疗机构之间的数据整合及互联互通；

2、加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库；

3、便于利用电子病历中的临床数据进行医疗数据分析，挖掘健康医疗大数据中的价值信息。

以上所述的实施例，只是本发明具体实施方式的一种，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种中文电子病历信息抽取的方法，其特征在于，包括以下步骤：

第一步，数据源获取

第二步，数据抽取

第三步，数据映射

第四步，将数据抽取结果批量入库。

2.根据权利要求1所述的中文电子病历信息抽取的方法，其特征在于：所述第一步中，使用生成器读取各医院原始非结构化相关数据，并且支持多种非结构化数据源存储格式，包括BLOB二进制大型对象和CLOB字符大型对象。

3.根据权利要求1所述的中文电子病历信息抽取的方法，其特征在于：所述第二步中，单一结果字段抽取时，包括以下几种情况：

第三，对于后台数据库存储中含有中文XML标签的非结构化病历数据源，先判断标签是否存在于标签值中，若存在则直接提取标签值，若不存在则对标签内的属性值及标签值进行拼接后形成该字段。

4.根据权利要求3所述的中文电子病历信息抽取的方法，其特征在于：所述第二步中，在抽取各类诊断信息及其他非单一结果的多结果字段时，先以各类标点符号、特殊字符和/或阿拉伯数字进行分割，并过滤掉不含中文字符的元素后，再分多行入库；不同非结构化病历厂商数据抽取时，参考单一结果字段抽取时的实现逻辑。

5.根据权利要求3所述的中文电子病历信息抽取的方法，其特征在于：所述第二步中，在抽取非结构化病历数据中存在的多项并一项存储的混合结果字段时，先分别抽取单项，如若为空则抽取混合项，并对混合项进行拆分，将混合箱拆分为多个单一结果字段；不同非结构化病历厂商数据抽取时，参考单一结果字段抽取时的实现逻辑。

6.根据权利要求1所述的中文电子病历信息抽取的方法，其特征在于：所述第三步中，对抽取结果中的数值型字段进行校验，如果不符合实际情况，则将该数值型字段视为异常数据，并依据具体情况做进行修改。

7.根据权利要求1所述的中文电子病历信息抽取的方法，其特征在于：所述第三步中，对非结构化病历中数值型字段的格式进行判断，如果存在关系型数据库识别不了的阿拉伯数字，则自动进行映射成可识别的正常格式的数字，并将由于格式异常无法转换成数值型的抽取结果进行格式转换。

8.根据权利要求1所述的中文电子病历信息抽取的方法，其特征在于：所述第三步中，在数据入库前对脏乱数据进行清洗过滤，包括剔除首尾非中文特殊符号以及过滤掉无效抽取内容。

9.根据权利要求1所述的中文电子病历信息抽取的方法，其特征在于：所述第四步中，数据入库时可任意指定每次入库的数据量，以确保大量非结构化病历数据解析的执行效率。