CN110032617A - 基于规则的卒中数据抽取管理系统及方法 - Google Patents

基于规则的卒中数据抽取管理系统及方法 Download PDF

Info

Publication number
CN110032617A
CN110032617A CN201910164653.6A CN201910164653A CN110032617A CN 110032617 A CN110032617 A CN 110032617A CN 201910164653 A CN201910164653 A CN 201910164653A CN 110032617 A CN110032617 A CN 110032617A
Authority
CN
China
Prior art keywords
case history
rule
history
stroke data
data pick
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910164653.6A
Other languages
English (en)
Inventor
赵政达
王永明
崔修涛
章玉宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC SOFTWARE INFORMATION SERVICES Co.,Ltd.
Original Assignee
Shanghai Changjiang Science And Technology Development Co Ltd
Zhong Electricity Ke Software Information Services Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Changjiang Science And Technology Development Co Ltd, Zhong Electricity Ke Software Information Services Co Ltd filed Critical Shanghai Changjiang Science And Technology Development Co Ltd
Priority to CN201910164653.6A priority Critical patent/CN110032617A/zh
Publication of CN110032617A publication Critical patent/CN110032617A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种电子病历信息抽取领域内的基于规则的卒中数据抽取管理系统,包括:病历预处理模块,用于抽取病人对应的病历、切分病历结构以及病历内容预处理;病历结构化信息抽取模块,用于确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;生成结构化结果模块,用于按照抽取规则生成结果以及对结果的进一步优化。本发明可以对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,并且抽取结果有较高的准确度,可以节省医生手工抽取所需要的大量的时间和精力,为医疗试验做基础。

Description

基于规则的卒中数据抽取管理系统及方法
技术领域
本发明涉及电子病历的信息抽取方法,具体地,涉及一种基于规则的卒中数据抽取管理系统及方法。
背景技术
“脑卒中”(cerebral stroke)又称“中风”、“脑血管意外”,是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病,包括缺血性和出血性卒中。脑卒中已经成为中国疾病死亡病因中的第一位疾病,超过恶性肿瘤与慢性呼吸系统疾病。
医生在进行脑卒中科学研究,或者向医疗防治体系上报患者信息的时候,需要手工从大量的文本病历中抽取相关信息,有时抽取一位病人的病历信息就要花费1 小时以上,故而不能更快更好的为患者提供服务,甚至影响医院的问诊质量。
电子病历(EMR,Electronic Medical Record)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录使用电子病历。在医院使用电子病历的过程中,积累了大量的病历记录。如何高效率以及高效益的处理好各大医院所收集的海量医学数据是每一个从事医疗健康行业的企业所急切关注的问题。
经对现有技术的检索,中国发明专利CN201710057346.9,发明名称为一种心脑血管疾病风险预测方法及系统,该方法包括以下步骤:步骤一,心脑血管疾病预后风险预测问题定义,步骤二,采集心脑血管患者的健康医疗数据,步骤三,对数据进行预处理,包括数据集成、数据清洗以及缺失数据处理,步骤四,进行特征构造和特征选择,识别出潜在的风险因子,步骤五,将识别出的风险因子和康复结局组成输入-输出样本集,输入到随机森林算法中进行模型训练,并对模型的预测性能进行评估。本发明临床医生输入模型方法需要的心脑血管患者的健康医疗数据,通过模型得到患者未来某个时间段的预测康复结局,能够很好的进行预后风险预测,从而实现个性化的精准康复治疗。但对非结构化的病历文本中的结构化信息不能进行高效的自动化抽取。
发明内容
针对现有技术的缺陷,本发明的目的是提供一种基于规则的卒中数据抽取管理系统。本发明可以对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,并且抽取结果有较高的准确度,可以节省医生手工抽取所需要的大量的时间和精力,为医疗试验做基础。
本发明涉及一种基于规则的卒中数据抽取管理系统,包括:
病历预处理模块,用于抽取病人对应的病历、切分病历结构以及病历内容预处理;
病历结构化信息抽取模块,用于确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;
生成结构化结果模块,用于按照抽取规则生成结果以及对结果的进一步优化。
优选的,所述抽取病人对应的病历采用从医院ods库中拉取病人的病历信息,进行切分与合并。
优选的,所述抽取病人对应的病历采用从病人与病历对应表中取出入院录、首次病程录、出院小结相相关病历文本,并对入院录、首次病程录的病历结构进一步切分。
优选的,所述切分病历的结构为入院录时,以“主诉”、“现病史”以及“既往史”等模块划分病历。
优选的,所述切分病历的结构为首次病程录时,以“查体”、“现病史”、“既往史”、“辅助检查”、“诊断及诊断依据”、“鉴别诊断”、“诊疗计划”、“替代医疗方案”、“记录者”及“医生签名”等模块划分病历。
优选的,所述病历内容预处理包括时间的识别与格式标准化、汉字大写数字改成阿拉伯数字以及从数据库读取医嘱、检查报告单、检验报告单、日常病程录时,需要按时间合并相应内容。
优选的,所述确定字段提取逻辑包括跟医生确定上报系统中每条信息在病历中记录的位置以及判断逻辑、药品的分类。
优选的,所述根据配置文件内容进行抽取的逻辑包括基于其他字段内容的模板,默认字段以及填空、选择相关模板,药品相关规则模板,模板内容说明和规则提取逻辑。
优选的,对结果进一步优化采取的解决方式为根据已有信息推测、已有信息矛盾则修改或不能适用模板提取规则的字段单独处理。
本发明还涉及一种基于规则的卒中数据抽取管理方法,包括如下步骤:
步骤一:病历预处理:包括抽取病人对应的病历、切分病历结构以及病历内容预处理;
步骤二:病历结构化信息抽取,包括确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;
步骤三:生成结构化结果,用于按照抽取规则生成结果以及对结果的进一步优化。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可以帮助医生自动化抽取文本病历中的非结构化信息,并且准确率较高可以达到90%,具有较高的准确率
2、本发明对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,效率比原来医生所用的提取方法至少提高10倍以上,可以节省医生大量的时间和精力。
3、本发明进行抽取之后,信息所对应的原文也可以同时切割出来,方便医生纠错,可作为标记数据为之后的实验做准备。
4、抽取结果既可以帮助医生完成上报系统的工作,也可以帮助医生进行医疗领域的科学研究。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明管理方法的流程图;
图2为本发明管理系统的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进,包括字段内容的增加或者减少,字段名称和内容的更改,判断逻辑内容的调整,以及其他疾病病历的信息提取等,这些都属于本发明的保护范围。
实施例
为了方便医院把脑卒中病历信息上报到4s系统(上海市脑卒中预防与救治服务体系)中,以抽取上报系统所需的病历信息为例。
一、读取病历;
1、以医院脑卒中病人信息抽取为例,可以通过两种方式获取病历;
(1)从医院ods库中拉取病人的病历信息,不必再对病历进行切分
(2)从病人与病历对应表中取出入院录、首次病程录、出院小结相相关病历文本。需要对入院录、首次病程录的病历结构进行进一步的切分。
2、切分病历结构。以入院录为例,根据病历结构,病历开头为基本信息、其他部分若病历的某一行内容符合格式,以入院录为例,根据病历结构,病历开头为基本信息、其他部分若病历的某一行内容符合格式“【…】”,例如“【主诉】”,则以此部分(主诉)为结构名称,后面的部分为结构的内容,由此可以得到主诉、现病史、既往史等结构内容。同理首次病程录以“查体”、“现病史”、“既往史”、“辅助检查”、“诊断及诊断依据”、“鉴别诊断”、“诊疗计划”、“替代医疗方案”、“记录者”、“医生签名”等模块划分病历。
3、病历内容预处理。
(1)时间的识别与格式标准化。识别出凌晨,中午等信息,没有具体时间,要换成具体时间。日期统一为2019-01-01格式,时间统一为2019-01-01 00:00格式,
(2)汉字大写数字改成阿拉伯数字。比如十改成10
(3)从数据库读取医嘱、检查报告单、检验报到单、日常病程录时,需要按时间合并相应内容,比如第一天入院相关内容,最后一天住院相关内容。
二、病历结构化信息抽取
1、确定字段提取逻辑。跟医生确定上报系统中每条信息在病历中记录的位置,以及判断逻辑、药品的分类
2、根据配置文件内容和规则提取的逻辑进行规则抽取,首先依据“source”内的内容,确定信息在病历中的来源,如果配置文件中有“cut_re”相关的信息,则根据“cut_re”的内容对“source”的内容做进一步的切分。然后如果存在“base”的内容,先判断“base”内包含的内容是否成立,如果成立则进行其他判断,不成立取“value”中“【False】”相关内容,或者记为空值。如果没有“base”字段,则可以直接判断“select”,“fill”的内容,其中键值为条件符合的正则。如果存在“check_medicine”模块,则需要去相应的药品分类中查找药品,再按照“value”中内容确定分类。如果存在“default”,则可以直接取“default”对应的内容。此部分共有369条规则,举例:
(1)基于其他字段内容的模板
(2)填空相关模板
(3)药品相关规则模板
(4)内容说明:
(5)规则提取逻辑:首先依据“source”内的内容,确定信息在病历中的来源,如果配置文件中有“cut_re”相关的信息,则根据“cut_re”的内容对“source”的内容做进一步的切分。然后如果存在“base”的内容,先判断“base”内包含的内容是否成立,如果成立则进行其他判断,不成立取“value”中“【False】”相关内容,或者记为空值。如果没有“base”字段,则可以直接判断“select”,“fill”的内容,其中键值为条件符合的正则。如果存在“check_medicine”模块,则需要去相应的药品分类中查找药品,再按照“value”中内容确定分类。如果存在“default”,则可以直接取“default”对应的内容。
三、生成结构化结果。包括按照抽取规则生成结果以及对结果的进一步优化。
因为医生记录病历信息不完全,以及规则判断准确率的限制,会存在信息缺失、药品使用和疾病情况矛盾的问题。需要对结果进行进一步的优化。这一部分主要有三种解决方式,因为字段内容较多,只介绍典型例子,不一一说明了
(1)根据已有信息推测。比如医生接诊时间为空值,则把到院时间晚十分钟的时间记为医生的接诊时间;没有写患病年数的要按照患病时间推算。
(2)已有信息矛盾则修改。因为医生填写病历不规范导致的抽取出来的信息矛盾。比如使用了降糖药物,即使病历没有提到降糖,也要选择进行了降糖治疗。
(3)不能适用模板提取规则的字段,要单独处理。比如溶栓禁忌相关内容,结构较复杂,部分字段需要计算,要单独写成一个模块。
生成的结果记录具体的取值还有相关来源信息,以方便医生后续审核。
综上所述,本发明此方法可以帮助医生自动化抽取文本病历中的非结构化信息,并且准确率较高可以达到90%;本发明可以对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,并且抽取结果有较高的准确度,可以节省医生手工抽取所需要的大量的时间和精力,为医疗试验做基础。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于规则的卒中数据抽取管理系统,其特征在于,包括:
病历预处理模块,用于抽取病人对应的病历、切分病历结构以及病历内容预处理;
病历结构化信息抽取模块,用于确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;
生成结构化结果模块,用于按照抽取规则生成结果以及对结果进一步优化。
2.根据权利要求1所述的基于规则的卒中数据抽取管理系统,其特征是,所述抽取病人对应的病历采用从医院ods库中拉取病人的病历信息,进行切分与合并。
3.根据权利要求1所述的基于规则的卒中数据抽取管理系统,其特征是,所述抽取病人对应的病历采用从病人与病历对应表中取出入院录、首次病程录、出院小结相关病历文本,并对入院录、首次病程录的病历结构进一步切分。
4.根据权利要求1所述的基于规则的卒中数据抽取管理系统,其特征是,所述切分病历结构为入院录时,以“基本信息”、“主诉”、“现病史”、“既往史”、“个人史”、“婚育史”、“月经史”、“家族史”、“体格检查”、“专科检查”、“辅助检查”、“初步诊断”、“48小时主治医师诊断”、“补充诊断”,“更正诊断”模块划分病历。
5.根据权利要求4所述的基于规则的卒中数据抽取管理系统,其特征是,所述切分病历的结构为首次病程录时,以“查体”、“现病史”、“既往史”、“辅助检查”、“诊断及诊断依据”、“鉴别诊断”、“诊疗计划”、“替代医疗方案”、“记录者”及“医生签名”模块划分病历。
6.根据权利要求1所述的基于规则的卒中数据抽取管理系统,其特征是,所述病历内容预处理包括时间的识别与格式标准化、汉字大写数字改成阿拉伯数字以及从数据库读取医嘱、检查报告单、检验报告单、日常病程录时,需要按时间合并相应内容。
7.根据权利要求1所述的基于规则的卒中数据抽取管理系统,其特征是,所述确定字段提取逻辑包括确定上报系统中每条信息在病历中记录的位置以及判断逻辑、药品的分类。
8.根据权利要求1所述的基于规则的卒中数据抽取管理系统,其特征是,所述根据配置文件内容进行抽取的逻辑包括基于其他字段内容的模板,默认字段以及填空、选择相关模板,药品相关规则模板,模板内容说明和规则提取逻辑。
9.根据权利要求7所述的基于规则的卒中数据抽取管理系统,其特征是,对结果进一步优化采取的解决方式为根据已有信息推测、已有信息矛盾则修改、不能适用模板提取规则的字段单独处理。
10.一种基于规则的卒中数据抽取管理方法,其特征是,包括如下步骤:
步骤一:病历预处理,包括抽取病人对应的病历、切分病历结构以及病历内容预处理;
步骤二:病历结构化信息抽取,包括确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;
步骤三:生成结构化结果,用于按照抽取规则生成结果以及对结果的进一步优化。
CN201910164653.6A 2019-03-05 2019-03-05 基于规则的卒中数据抽取管理系统及方法 Pending CN110032617A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910164653.6A CN110032617A (zh) 2019-03-05 2019-03-05 基于规则的卒中数据抽取管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910164653.6A CN110032617A (zh) 2019-03-05 2019-03-05 基于规则的卒中数据抽取管理系统及方法

Publications (1)

Publication Number Publication Date
CN110032617A true CN110032617A (zh) 2019-07-19

Family

ID=67235765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910164653.6A Pending CN110032617A (zh) 2019-03-05 2019-03-05 基于规则的卒中数据抽取管理系统及方法

Country Status (1)

Country Link
CN (1) CN110032617A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517788A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种中文电子病历信息抽取的方法
CN110827941A (zh) * 2019-11-06 2020-02-21 山东众阳健康科技集团有限公司 电子病历信息校正方法及系统
CN111161819A (zh) * 2019-12-31 2020-05-15 重庆亚德科技股份有限公司 一种中医病历数据处理系统及方法
CN112507722A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN113160997A (zh) * 2021-03-01 2021-07-23 中电云脑(天津)科技有限公司 肿瘤检验报告的处理方法、模型训练方法及相关装置
CN113205490A (zh) * 2021-04-19 2021-08-03 华中科技大学 基于Mask R-CNN网络的辅助诊断系统和辅助诊断信息生成方法
CN115910316A (zh) * 2022-09-08 2023-04-04 杭州脉兴医疗科技有限公司 一种基于电子病历推断发病时间的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110517788A (zh) * 2019-08-30 2019-11-29 山东健康医疗大数据有限公司 一种中文电子病历信息抽取的方法
CN110827941A (zh) * 2019-11-06 2020-02-21 山东众阳健康科技集团有限公司 电子病历信息校正方法及系统
CN111161819A (zh) * 2019-12-31 2020-05-15 重庆亚德科技股份有限公司 一种中医病历数据处理系统及方法
CN112507722A (zh) * 2020-11-30 2021-03-16 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN112507722B (zh) * 2020-11-30 2023-08-01 北京百度网讯科技有限公司 电子病历内涵质控方法和装置
CN113160997A (zh) * 2021-03-01 2021-07-23 中电云脑(天津)科技有限公司 肿瘤检验报告的处理方法、模型训练方法及相关装置
CN113205490A (zh) * 2021-04-19 2021-08-03 华中科技大学 基于Mask R-CNN网络的辅助诊断系统和辅助诊断信息生成方法
CN115910316A (zh) * 2022-09-08 2023-04-04 杭州脉兴医疗科技有限公司 一种基于电子病历推断发病时间的方法

Similar Documents

Publication Publication Date Title
CN110032617A (zh) 基于规则的卒中数据抽取管理系统及方法
CN107680676B (zh) 一种基于电子病历数据驱动的妊娠期糖尿病预测方法
CN106529177B (zh) 一种基于医疗大数据的患者画像方法及装置
CN111863267B (zh) 数据信息获取方法、数据分析方法、装置以及存储介质
De Georgia et al. Information technology in critical care: review of monitoring and data acquisition systems for patient care and research
CN109346145B (zh) 一种药物不良反应的主动监测方法和系统
US8086468B2 (en) Method for computerising and standardizing medical information
CN109785927A (zh) 基于互联网一体化医疗平台的临床文档结构化处理方法
Thiessard et al. RAVEL: retrieval and visualization in ELectronic health records
Pecoraro et al. Designing ETL tools to feed a data warehouse based on electronic healthcare record infrastructure
Segagni et al. The ONCO-I2b2 project: integrating biobank information and clinical data to support translational research in oncology
CN105930639A (zh) 一种智能医学信息科普系统及其方法
CN114649074A (zh) 一种病历数据处理方法、平台和装置
CN110070929A (zh) 一种针对房颤单病种数据的采集和清洗方法
CN115762769A (zh) 一种ercp术后风险智能预警系统
Advani et al. Integrating a modern knowledge-based system architecture with a legacy VA database: the ATHENA and EON projects at Stanford.
Bonney et al. Mapping local codes to read codes
Son et al. Korean Pharmacovigilance System Based on EHR-CDM.
CN110010231A (zh) 一种数据处理系统及计算机可读存储介质
EP2798545A1 (en) System and method for extracting and monitoring multidimensional attributes regarding personal health status and evolution
CN111667922A (zh) 一种临床诊疗数据录入系统和方法
CN118522396B (zh) 一种临床诊疗数据录入方法及系统
US20230253100A1 (en) Machine learning model to evaluate healthcare facilities
CN115691740B (zh) 一种病历数据结构化分析处理方法及系统
US11636933B2 (en) Summarization of clinical documents with end points thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right

Effective date of registration: 20200615

Address after: Room 501-503, building 43, No. 1485, Jialuo Road, Jiading District, Shanghai, 201899

Applicant after: CETC SOFTWARE INFORMATION SERVICES Co.,Ltd.

Applicant after: CHANGJIANG COMPUTER Group Corp.

Address before: Room 501-503, 43 Block 1485, Jialuo Road, Jiading District, Shanghai, 201800

Applicant before: CETC SOFTWARE INFORMATION SERVICES Co.,Ltd.

Applicant before: SHANGHAI CHANGJIANG TECHNOLOGY DEVELOPMENT Co.,Ltd.

TA01 Transfer of patent application right
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190719

WD01 Invention patent application deemed withdrawn after publication