基于规则的卒中数据抽取管理系统及方法
技术领域
本发明涉及电子病历的信息抽取方法,具体地,涉及一种基于规则的卒中数据抽取管理系统及方法。
背景技术
“脑卒中”(cerebral stroke)又称“中风”、“脑血管意外”,是一种急性脑血管疾病,是由于脑部血管突然破裂或因血管阻塞导致血液不能流入大脑而引起脑组织损伤的一组疾病,包括缺血性和出血性卒中。脑卒中已经成为中国疾病死亡病因中的第一位疾病,超过恶性肿瘤与慢性呼吸系统疾病。
医生在进行脑卒中科学研究,或者向医疗防治体系上报患者信息的时候,需要手工从大量的文本病历中抽取相关信息,有时抽取一位病人的病历信息就要花费1 小时以上,故而不能更快更好的为患者提供服务,甚至影响医院的问诊质量。
电子病历(EMR,Electronic Medical Record)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化信息,并能实现存储、管理、传输和重现的医疗记录使用电子病历。在医院使用电子病历的过程中,积累了大量的病历记录。如何高效率以及高效益的处理好各大医院所收集的海量医学数据是每一个从事医疗健康行业的企业所急切关注的问题。
经对现有技术的检索,中国发明专利CN201710057346.9,发明名称为一种心脑血管疾病风险预测方法及系统,该方法包括以下步骤:步骤一,心脑血管疾病预后风险预测问题定义,步骤二,采集心脑血管患者的健康医疗数据,步骤三,对数据进行预处理,包括数据集成、数据清洗以及缺失数据处理,步骤四,进行特征构造和特征选择,识别出潜在的风险因子,步骤五,将识别出的风险因子和康复结局组成输入-输出样本集,输入到随机森林算法中进行模型训练,并对模型的预测性能进行评估。本发明临床医生输入模型方法需要的心脑血管患者的健康医疗数据,通过模型得到患者未来某个时间段的预测康复结局,能够很好的进行预后风险预测,从而实现个性化的精准康复治疗。但对非结构化的病历文本中的结构化信息不能进行高效的自动化抽取。
发明内容
针对现有技术的缺陷,本发明的目的是提供一种基于规则的卒中数据抽取管理系统。本发明可以对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,并且抽取结果有较高的准确度,可以节省医生手工抽取所需要的大量的时间和精力,为医疗试验做基础。
本发明涉及一种基于规则的卒中数据抽取管理系统,包括:
病历预处理模块,用于抽取病人对应的病历、切分病历结构以及病历内容预处理;
病历结构化信息抽取模块,用于确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;
生成结构化结果模块,用于按照抽取规则生成结果以及对结果的进一步优化。
优选的,所述抽取病人对应的病历采用从医院ods库中拉取病人的病历信息,进行切分与合并。
优选的,所述抽取病人对应的病历采用从病人与病历对应表中取出入院录、首次病程录、出院小结相相关病历文本,并对入院录、首次病程录的病历结构进一步切分。
优选的,所述切分病历的结构为入院录时,以“主诉”、“现病史”以及“既往史”等模块划分病历。
优选的,所述切分病历的结构为首次病程录时,以“查体”、“现病史”、“既往史”、“辅助检查”、“诊断及诊断依据”、“鉴别诊断”、“诊疗计划”、“替代医疗方案”、“记录者”及“医生签名”等模块划分病历。
优选的,所述病历内容预处理包括时间的识别与格式标准化、汉字大写数字改成阿拉伯数字以及从数据库读取医嘱、检查报告单、检验报告单、日常病程录时,需要按时间合并相应内容。
优选的,所述确定字段提取逻辑包括跟医生确定上报系统中每条信息在病历中记录的位置以及判断逻辑、药品的分类。
优选的,所述根据配置文件内容进行抽取的逻辑包括基于其他字段内容的模板,默认字段以及填空、选择相关模板,药品相关规则模板,模板内容说明和规则提取逻辑。
优选的,对结果进一步优化采取的解决方式为根据已有信息推测、已有信息矛盾则修改或不能适用模板提取规则的字段单独处理。
本发明还涉及一种基于规则的卒中数据抽取管理方法,包括如下步骤:
步骤一:病历预处理:包括抽取病人对应的病历、切分病历结构以及病历内容预处理;
步骤二:病历结构化信息抽取,包括确定字段提取逻辑,根据配置文件内容进行抽取的逻辑;
步骤三:生成结构化结果,用于按照抽取规则生成结果以及对结果的进一步优化。
与现有技术相比,本发明具有如下的有益效果:
1、本发明可以帮助医生自动化抽取文本病历中的非结构化信息,并且准确率较高可以达到90%,具有较高的准确率
2、本发明对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,效率比原来医生所用的提取方法至少提高10倍以上,可以节省医生大量的时间和精力。
3、本发明进行抽取之后,信息所对应的原文也可以同时切割出来,方便医生纠错,可作为标记数据为之后的实验做准备。
4、抽取结果既可以帮助医生完成上报系统的工作,也可以帮助医生进行医疗领域的科学研究。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明管理方法的流程图;
图2为本发明管理系统的示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进,包括字段内容的增加或者减少,字段名称和内容的更改,判断逻辑内容的调整,以及其他疾病病历的信息提取等,这些都属于本发明的保护范围。
实施例
为了方便医院把脑卒中病历信息上报到4s系统(上海市脑卒中预防与救治服务体系)中,以抽取上报系统所需的病历信息为例。
一、读取病历;
1、以医院脑卒中病人信息抽取为例,可以通过两种方式获取病历;
(1)从医院ods库中拉取病人的病历信息,不必再对病历进行切分
(2)从病人与病历对应表中取出入院录、首次病程录、出院小结相相关病历文本。需要对入院录、首次病程录的病历结构进行进一步的切分。
2、切分病历结构。以入院录为例,根据病历结构,病历开头为基本信息、其他部分若病历的某一行内容符合格式,以入院录为例,根据病历结构,病历开头为基本信息、其他部分若病历的某一行内容符合格式“【…】”,例如“【主诉】”,则以此部分(主诉)为结构名称,后面的部分为结构的内容,由此可以得到主诉、现病史、既往史等结构内容。同理首次病程录以“查体”、“现病史”、“既往史”、“辅助检查”、“诊断及诊断依据”、“鉴别诊断”、“诊疗计划”、“替代医疗方案”、“记录者”、“医生签名”等模块划分病历。
3、病历内容预处理。
(1)时间的识别与格式标准化。识别出凌晨,中午等信息,没有具体时间,要换成具体时间。日期统一为2019-01-01格式,时间统一为2019-01-01 00:00格式,
(2)汉字大写数字改成阿拉伯数字。比如十改成10
(3)从数据库读取医嘱、检查报告单、检验报到单、日常病程录时,需要按时间合并相应内容,比如第一天入院相关内容,最后一天住院相关内容。
二、病历结构化信息抽取
1、确定字段提取逻辑。跟医生确定上报系统中每条信息在病历中记录的位置,以及判断逻辑、药品的分类
2、根据配置文件内容和规则提取的逻辑进行规则抽取,首先依据“source”内的内容,确定信息在病历中的来源,如果配置文件中有“cut_re”相关的信息,则根据“cut_re”的内容对“source”的内容做进一步的切分。然后如果存在“base”的内容,先判断“base”内包含的内容是否成立,如果成立则进行其他判断,不成立取“value”中“【False】”相关内容,或者记为空值。如果没有“base”字段,则可以直接判断“select”,“fill”的内容,其中键值为条件符合的正则。如果存在“check_medicine”模块,则需要去相应的药品分类中查找药品,再按照“value”中内容确定分类。如果存在“default”,则可以直接取“default”对应的内容。此部分共有369条规则,举例:
(1)基于其他字段内容的模板
(2)填空相关模板
(3)药品相关规则模板
(4)内容说明:
(5)规则提取逻辑:首先依据“source”内的内容,确定信息在病历中的来源,如果配置文件中有“cut_re”相关的信息,则根据“cut_re”的内容对“source”的内容做进一步的切分。然后如果存在“base”的内容,先判断“base”内包含的内容是否成立,如果成立则进行其他判断,不成立取“value”中“【False】”相关内容,或者记为空值。如果没有“base”字段,则可以直接判断“select”,“fill”的内容,其中键值为条件符合的正则。如果存在“check_medicine”模块,则需要去相应的药品分类中查找药品,再按照“value”中内容确定分类。如果存在“default”,则可以直接取“default”对应的内容。
三、生成结构化结果。包括按照抽取规则生成结果以及对结果的进一步优化。
因为医生记录病历信息不完全,以及规则判断准确率的限制,会存在信息缺失、药品使用和疾病情况矛盾的问题。需要对结果进行进一步的优化。这一部分主要有三种解决方式,因为字段内容较多,只介绍典型例子,不一一说明了
(1)根据已有信息推测。比如医生接诊时间为空值,则把到院时间晚十分钟的时间记为医生的接诊时间;没有写患病年数的要按照患病时间推算。
(2)已有信息矛盾则修改。因为医生填写病历不规范导致的抽取出来的信息矛盾。比如使用了降糖药物,即使病历没有提到降糖,也要选择进行了降糖治疗。
(3)不能适用模板提取规则的字段,要单独处理。比如溶栓禁忌相关内容,结构较复杂,部分字段需要计算,要单独写成一个模块。
生成的结果记录具体的取值还有相关来源信息,以方便医生后续审核。
综上所述,本发明此方法可以帮助医生自动化抽取文本病历中的非结构化信息,并且准确率较高可以达到90%;本发明可以对非结构化的病历文本中的结构化信息进行高效的自动化的抽取,并且抽取结果有较高的准确度,可以节省医生手工抽取所需要的大量的时间和精力,为医疗试验做基础。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。