CN110517788A - 一种中文电子病历信息抽取的方法 - Google Patents

一种中文电子病历信息抽取的方法 Download PDF

Info

Publication number
CN110517788A
CN110517788A CN201910815041.9A CN201910815041A CN110517788A CN 110517788 A CN110517788 A CN 110517788A CN 201910815041 A CN201910815041 A CN 201910815041A CN 110517788 A CN110517788 A CN 110517788A
Authority
CN
China
Prior art keywords
data
electronic health
health record
information extraction
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910815041.9A
Other languages
English (en)
Inventor
曹梦莉
王国超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Health And Medical Big Data Co Ltd
Original Assignee
Shandong Health And Medical Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Health And Medical Big Data Co Ltd filed Critical Shandong Health And Medical Big Data Co Ltd
Priority to CN201910815041.9A priority Critical patent/CN110517788A/zh
Publication of CN110517788A publication Critical patent/CN110517788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明特别涉及一种中文电子病历信息抽取的方法。该中文电子病历信息抽取的方法,通过获取数据源,并在抽取数据时进行数据映射,对数据进行解析、清洗、匹配和转换的,将不同医院不同电子病历厂商非结构化病历数据变成可用于查询、统计及分析的结构化病历数据,并将抽取结果批量入库。该中文电子病历信息抽取的方法,不仅能够促进各医疗机构之间的数据整合及互联互通,加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库,还便于利用电子病历中的临床数据进行医疗数据分析,挖掘健康医疗大数据中的价值信息。

Description

一种中文电子病历信息抽取的方法
技术领域
本发明涉及机器学习算法与数据挖掘技术领域,特别涉及一种中文电子病历信息抽取的方法。
背景技术
随着电子病历的不断普及,大量的医疗数据以电子病历的形式被不断地积累下来。其中,相当大部分的数据依然以叙述性文本的形式存在,如何抽取电子病历中的医学概念,将非结构文本结构化,已成为电子病历发展过程中亟待解决的问题。
目前,由于各医院非结构化病历系统厂商繁多,每位医护人员记录和表述习惯的不同以及病人就诊数据极难获取等各种原因,使得国内在电子病历方面的推进的步伐比较缓慢。
为了促进各医疗机构之间的数据整合及互联互通,加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库,便于利用电子病历中的临床数据进行医疗数据分析,挖掘健康医疗大数据中的价值信息,帮助医疗机构改善居民的健康水平,本发明提出了一种中文电子病历信息抽取的方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的中文电子病历信息抽取的方法。
本发明是通过如下技术方案实现的:
一种中文电子病历信息抽取的方法,其特征在于:包括以下步骤:
第一步,数据源获取
读取各医院原始非结构化相关数据,包括入院记录、首次病程录、病程记录、体温记录单、体格检查、护理记录、查房记录和出院小结;
第二步,数据抽取
将不同医院、不同电子病历厂商和不同类型的非结构化病历数据进行信息抽取、转换并整合,变成可用于查询、统计及分析的结构化病历数据;
第三步,数据映射
在数据提取过程中对各类异常数据进行预处理,包括自动对各类异常值、格式异常及脏乱数据进行映射及清洗;
第四步,将数据抽取结果批量入库。
所述第一步中,使用生成器读取各医院原始非结构化相关数据,并且支持多种非结构化数据源存储格式,包括BLOB二进制大型对象和CLOB字符大型对象。
所述第二步中,单一结果字段抽取时,包括以下几种情况:
第一,对于后台数据库存储中不含XML标签的非结构化病历数据源,直接进行抽取;
第二,对于后台数据库存储中含有英文XML标签的非结构化病历数据源,抽取该字段对应的所有标签中的标签值,并用空白字符进行拼接,形成该字段最终值;
第三,对于后台数据库存储中含有中文XML标签的非结构化病历数据源,先判断标签是否存在于标签值中,若存在则直接提取标签值,若不存在则对标签内的属性值及标签值进行拼接后形成该字段。(例:体格检查)
所述第二步中,在抽取各类诊断信息及其他非单一结果的多结果字段时,先以各类标点符号、特殊字符和/或阿拉伯数字进行分割,并过滤掉不含中文字符的元素后,再分多行入库;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
所述第二步中,在抽取非结构化病历数据中存在的多项并一项存储的混合结果字段时,(例:月经史\婚育史\月经及婚育史),先分别抽取单项,如若为空则抽取混合项,并对混合项进行拆分,将混合箱拆分为多个单一结果字段;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
所述第三步中,对抽取结果中的数值型字段进行校验,如果不符合实际情况,则将该数值型字段视为异常数据,并依据具体情况做进行修改。
所述第三步中,对非结构化病历中数值型字段的格式进行判断,如果存在关系型数据库识别不了的阿拉伯数字,则自动进行映射成可识别的正常格式的数字,并将由于格式异常无法转换成数值型的抽取结果进行格式转换。
所述第三步中,在数据入库前对脏乱数据进行清洗过滤,包括剔除首尾非中文特殊符号以及过滤掉无效抽取内容。
所述第四步中,数据入库时可任意指定每次入库的数据量,以确保大量非结构化病历数据解析的执行效率。
本发明的有益效果是:该中文电子病历信息抽取的方法,不仅能够促进各医疗机构之间的数据整合及互联互通,加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库,还便于利用电子病历中的临床数据进行医疗数据分析,挖掘健康医疗大数据中的价值信息。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该中文电子病历信息抽取的方法,包括以下步骤:
第一步,数据源获取
读取各医院原始非结构化相关数据,包括入院记录、首次病程录、病程记录、体温记录单、体格检查、护理记录、查房记录和出院小结;
第二步,数据抽取
将不同医院、不同电子病历厂商和不同类型的非结构化病历数据进行信息抽取、转换并整合,变成可用于查询、统计及分析的结构化病历数据;
第三步,数据映射
在数据提取过程中对各类异常数据进行预处理,包括自动对各类异常值、格式异常及脏乱数据进行映射及清洗;
第四步,将数据抽取结果批量入库。
所述第一步中,使用生成器读取各医院原始非结构化相关数据,并且支持多种非结构化数据源存储格式,包括BLOB二进制大型对象和CLOB字符大型对象。
所述第二步中,单一结果字段抽取时,包括以下几种情况:
第一,对于后台数据库存储中不含XML标签的非结构化病历数据源,直接进行抽取;
第二,对于后台数据库存储中含有英文XML标签的非结构化病历数据源,抽取该字段对应的所有标签中的标签值,并用空白字符进行拼接,形成该字段最终值;
第三,对于后台数据库存储中含有中文XML标签的非结构化病历数据源,先判断标签是否存在于标签值中,若存在则直接提取标签值,若不存在则对标签内的属性值及标签值进行拼接后形成该字段。(例:体格检查)
所述第二步中,在抽取各类诊断信息及其他非单一结果的多结果字段时,先以各类标点符号、特殊字符和/或阿拉伯数字进行分割,并过滤掉不含中文字符的元素后,再分多行入库;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
所述第二步中,在抽取非结构化病历数据中存在的多项并一项存储的混合结果字段时,(例:月经史\婚育史\月经及婚育史),先分别抽取单项,如若为空则抽取混合项,并对混合项进行拆分,将混合箱拆分为多个单一结果字段;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
所述第三步中,对抽取结果中的数值型字段进行校验,如果不符合实际情况,则将该数值型字段视为异常数据,并依据具体情况做进行修改。例:将“体温3.67度、脉搏10400次每分”修改为“体温36.7度、脉搏104次每分”。
所述第三步中,对非结构化病历中数值型字段的格式进行判断,如果存在关系型数据库识别不了的阿拉伯数字,则自动进行映射成可识别的正常格式的数字,并将由于格式异常无法转换成数值型的抽取结果进行格式转换。例:将“体温36..7度、体温36.度”自动映射为“体温36.7度、体温36.0度”。
所述第三步中,在数据入库前对脏乱数据进行清洗过滤,包括剔除首尾非中文特殊符号以及过滤掉无效抽取内容。
所述第四步中,数据入库时可任意指定每次入库的数据量,以确保大量非结构化病历数据解析的执行效率。
该中文电子病历信息抽取的方法,主要语言使用Python实现模式匹配、数据清洗、数据分析、异常数据映射和异常数据转换等功能。
与现有技术相比,该中文电子病历信息抽取的方法,具有以下特点:
1、能够促进各医疗机构之间的数据整合及互联互通;
2、加快建设和完善以居民电子健康档案、电子病历、电子处方等为核心的基础数据库;
3、便于利用电子病历中的临床数据进行医疗数据分析,挖掘健康医疗大数据中的价值信息。
以上所述的实施例,只是本发明具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (9)

1.一种中文电子病历信息抽取的方法,其特征在于,包括以下步骤:
第一步,数据源获取
读取各医院原始非结构化相关数据,包括入院记录、首次病程录、病程记录、体温记录单、体格检查、护理记录、查房记录和出院小结;
第二步,数据抽取
将不同医院、不同电子病历厂商和不同类型的非结构化病历数据进行信息抽取、转换并整合,变成可用于查询、统计及分析的结构化病历数据;
第三步,数据映射
在数据提取过程中对各类异常数据进行预处理,包括自动对各类异常值、格式异常及脏乱数据进行映射及清洗;
第四步,将数据抽取结果批量入库。
2.根据权利要求1所述的中文电子病历信息抽取的方法,其特征在于:所述第一步中,使用生成器读取各医院原始非结构化相关数据,并且支持多种非结构化数据源存储格式,包括BLOB二进制大型对象和CLOB字符大型对象。
3.根据权利要求1所述的中文电子病历信息抽取的方法,其特征在于:所述第二步中,单一结果字段抽取时,包括以下几种情况:
第一,对于后台数据库存储中不含XML标签的非结构化病历数据源,直接进行抽取;
第二,对于后台数据库存储中含有英文XML标签的非结构化病历数据源,抽取该字段对应的所有标签中的标签值,并用空白字符进行拼接,形成该字段最终值;
第三,对于后台数据库存储中含有中文XML标签的非结构化病历数据源,先判断标签是否存在于标签值中,若存在则直接提取标签值,若不存在则对标签内的属性值及标签值进行拼接后形成该字段。
4.根据权利要求3所述的中文电子病历信息抽取的方法,其特征在于:所述第二步中,在抽取各类诊断信息及其他非单一结果的多结果字段时,先以各类标点符号、特殊字符和/或阿拉伯数字进行分割,并过滤掉不含中文字符的元素后,再分多行入库;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
5.根据权利要求3所述的中文电子病历信息抽取的方法,其特征在于:所述第二步中,在抽取非结构化病历数据中存在的多项并一项存储的混合结果字段时,先分别抽取单项,如若为空则抽取混合项,并对混合项进行拆分,将混合箱拆分为多个单一结果字段;不同非结构化病历厂商数据抽取时,参考单一结果字段抽取时的实现逻辑。
6.根据权利要求1所述的中文电子病历信息抽取的方法,其特征在于:所述第三步中,对抽取结果中的数值型字段进行校验,如果不符合实际情况,则将该数值型字段视为异常数据,并依据具体情况做进行修改。
7.根据权利要求1所述的中文电子病历信息抽取的方法,其特征在于:所述第三步中,对非结构化病历中数值型字段的格式进行判断,如果存在关系型数据库识别不了的阿拉伯数字,则自动进行映射成可识别的正常格式的数字,并将由于格式异常无法转换成数值型的抽取结果进行格式转换。
8.根据权利要求1所述的中文电子病历信息抽取的方法,其特征在于:所述第三步中,在数据入库前对脏乱数据进行清洗过滤,包括剔除首尾非中文特殊符号以及过滤掉无效抽取内容。
9.根据权利要求1所述的中文电子病历信息抽取的方法,其特征在于:所述第四步中,数据入库时可任意指定每次入库的数据量,以确保大量非结构化病历数据解析的执行效率。
CN201910815041.9A 2019-08-30 2019-08-30 一种中文电子病历信息抽取的方法 Pending CN110517788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910815041.9A CN110517788A (zh) 2019-08-30 2019-08-30 一种中文电子病历信息抽取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910815041.9A CN110517788A (zh) 2019-08-30 2019-08-30 一种中文电子病历信息抽取的方法

Publications (1)

Publication Number Publication Date
CN110517788A true CN110517788A (zh) 2019-11-29

Family

ID=68628497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910815041.9A Pending CN110517788A (zh) 2019-08-30 2019-08-30 一种中文电子病历信息抽取的方法

Country Status (1)

Country Link
CN (1) CN110517788A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111341404A (zh) * 2020-02-26 2020-06-26 山东健康医疗大数据有限公司 一种基于ernie模型的电子病历数据组解析方法及系统
CN111370132A (zh) * 2020-02-28 2020-07-03 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN111984987A (zh) * 2020-09-01 2020-11-24 上海梅斯医药科技有限公司 一种用于电子病历脱敏及还原的方法、装置、系统和介质
CN113052410A (zh) * 2019-12-26 2021-06-29 医渡云(北京)技术有限公司 一种电子病历数据的质控方法及装置
CN116842128A (zh) * 2023-09-01 2023-10-03 合肥机数量子科技有限公司 一种文本关系抽取方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239580A (zh) * 2014-10-13 2014-12-24 武汉大学 基于值-列映射的通用单字段拆分数据抽取方法和装置
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
CN109036576A (zh) * 2018-07-23 2018-12-18 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质
CN109509557A (zh) * 2018-11-16 2019-03-22 郑州大学第附属医院 一种基于大数据平台的中文电子病历信息抽取预处理方法
CN110032617A (zh) * 2019-03-05 2019-07-19 中电科软件信息服务有限公司 基于规则的卒中数据抽取管理系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239580A (zh) * 2014-10-13 2014-12-24 武汉大学 基于值-列映射的通用单字段拆分数据抽取方法和装置
CN107341264A (zh) * 2017-07-19 2017-11-10 东北大学 一种支持自定义实体的电子病历检索系统及方法
CN108538395A (zh) * 2018-04-02 2018-09-14 上海市儿童医院 一种通用的医疗专病数据系统的构建方法
CN109036576A (zh) * 2018-07-23 2018-12-18 无锡慧方科技有限公司 电子病历数据解析方法、装置、计算机及可读存储介质
CN109509557A (zh) * 2018-11-16 2019-03-22 郑州大学第附属医院 一种基于大数据平台的中文电子病历信息抽取预处理方法
CN110032617A (zh) * 2019-03-05 2019-07-19 中电科软件信息服务有限公司 基于规则的卒中数据抽取管理系统及方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052410A (zh) * 2019-12-26 2021-06-29 医渡云(北京)技术有限公司 一种电子病历数据的质控方法及装置
CN111341404A (zh) * 2020-02-26 2020-06-26 山东健康医疗大数据有限公司 一种基于ernie模型的电子病历数据组解析方法及系统
CN111341404B (zh) * 2020-02-26 2023-07-14 山东浪潮智慧医疗科技有限公司 一种基于ernie模型的电子病历数据组解析方法及系统
CN111370132A (zh) * 2020-02-28 2020-07-03 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN111370132B (zh) * 2020-02-28 2022-04-15 平安医疗健康管理股份有限公司 电子文件的解析方法及装置、计算机设备、存储介质
CN111984987A (zh) * 2020-09-01 2020-11-24 上海梅斯医药科技有限公司 一种用于电子病历脱敏及还原的方法、装置、系统和介质
CN111984987B (zh) * 2020-09-01 2024-04-02 上海梅斯医药科技有限公司 一种用于电子病历脱敏及还原的方法、装置、系统和介质
CN116842128A (zh) * 2023-09-01 2023-10-03 合肥机数量子科技有限公司 一种文本关系抽取方法、装置、计算机设备及存储介质
CN116842128B (zh) * 2023-09-01 2023-11-21 合肥机数量子科技有限公司 一种文本关系抽取方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN110517788A (zh) 一种中文电子病历信息抽取的方法
US11093688B2 (en) Enhancing reading accuracy, efficiency and retention
Friedman Towards a comprehensive medical language processing system: methods and issues.
Chandrasekaran et al. Conceptual representation of medical knowledge for diagnosis by computer: MDX and related systems
CN109920540A (zh) 辅助诊疗决策系统的构建方法、装置及计算机设备
CN111221979B (zh) 药品知识图谱构建方法及系统
CN106095913A (zh) 一种电子病历文本结构化方法
US20060235881A1 (en) System and method for parsing medical data
CN108320808A (zh) 病历分析方法和装置、设备、计算机可读存储介质
CN107408154A (zh) 计算机辅助的护理阶段构建
CN113488180B (zh) 一种临床指南知识建模方法及系统
Rector Description logics in medical informatics
de Bruin et al. Separating business logic from medical knowledge in digital clinical workflows using business process model and notation and arden syntax
Deléger et al. Extracting medication information from French clinical texts
CN108154910A (zh) 用于药品使用规则架构的数据处理方法及其智能装置
Grabar et al. Lexically-based terminology structuring: Some inherent limits
CN114093455A (zh) 基于人工智能的互联网医院合理用药引擎构建方法
CN109935285A (zh) 一种icu护理单数据的结构化处理方法及处理系统
CN117236342B (zh) 结合知识图谱的中医典籍语义分析方法及系统
CN108198626A (zh) 中医糖尿病智能问诊单的建立方法及系统
Pilán et al. Building a Norwegian Lexical Resource for Medical Entity Recognition
CN116894685B (zh) 一种面向医疗行为片段的费用自动测算方法与系统
Mäkelä-Bengs et al. Manual annotation of narrative patient charts–Finnish experiences related to a multilingual text corpus
Lönneker Building Concept Frames based on Text Corpora.
Bodenreider et al. Relationships among knowledge structures: Vocabulary integration within a subject domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129

RJ01 Rejection of invention patent application after publication