CN112420145A - 电子病历文书数据处理方法、装置及计算机可读存储介质 - Google Patents
电子病历文书数据处理方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112420145A CN112420145A CN202011423953.0A CN202011423953A CN112420145A CN 112420145 A CN112420145 A CN 112420145A CN 202011423953 A CN202011423953 A CN 202011423953A CN 112420145 A CN112420145 A CN 112420145A
- Authority
- CN
- China
- Prior art keywords
- medical record
- model
- record document
- structured
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 17
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000004806 packaging method and process Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 68
- 230000011218 segmentation Effects 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 27
- 238000001914 filtration Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005538 encapsulation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012950 reanalysis Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种电子病历文书数据处理方法、装置及计算机可读存储介质。其中,方法包括对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书。调用后结构化模型对标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据;后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口。根据待处理电子病历文书的文书类型和业务需求信息对初始后结构化解析数据进行解析,解决了相关技术中后结构化效率不高的问题,有效地提高电子病历文书后结构化解析效率和结果准确度,还能够支持医院信息化系统的本地化部署,能够在医院信息化系统中快速部署和迭代。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种电子病历文书数据处理方法、装置及计算机可读存储介质。
背景技术
随着计算机技术在各行各业的广泛应用,医院的信息化管理也逐渐渗透至日常工作中的方方面面,这就导致医院历年来积攒了大量的、具有很大使用、参考价值的病历文书数据。但是,病历文书数据的数据量巨大,结构化程度不高,版本差异大,医院间不同系统间数据格式差异较大等因素导致挖掘和分析利用的难度较高。
病历结构化是医院信息化和医疗智能化发展的重要环节,是使计算机能像医生一样进行诊断和判断的基础。电子病历文书的后结构化是对医生书写的文本型非结构化数据进行事后处理,利用自然语言处理方法,从中提取结构化信息,并在电子病历模板中进行填充。总结来说,首先要有某种结构化的电子病历规范或称为模板,先由医生来填写;再通过后结构化,从医生写的病历中抽取相应的信息来填写。相关技术在对病历结构化过程中,是直接针对全文本进行后结构化,而由于电子病历文书中不同段落差异较大,而且一般来说医院前些年的电子病历系统没有对段落进行很好的界定,全文本结构化的效果并不好,无法满足精度要求。在从病历中抽取信息时通常可采用机器学习模型,由于病历文书数据具有较高的隐私性,这些数据不能出院,因此常规的训练模型解析结果过程需要迁移到医院本地信息化系统上去。常用的实体属性抽取模型通常基于多任务学习,同时进行实体属性识别以及关系抽,该模型一般需要较大的数据量而且采用比较新颖的NLP预训练模型fine-tuning模式,需要较多的训练时间才能达到较好的效果,但达到医院需求的高精度尚有不少的差距,而且还有关键的一点是复杂的模型预测时间长,对于医院系统性能也有一定的要求,在解析千万级别的电子病历文书上,需要的时间更加长,导致整个后结构化处理周期很长,效率较低。此外,相关技术的电子病历文书结构化后,与医院本地信息化系统不兼容,不支持医院本地信息化系统实际部署及应用。
发明内容
本申请提供了一种电子病历文书数据处理方法、装置及计算机可读存储介质,解决了相关技术中后结构化效率不高的问题,有效地提高电子病历文书后结构化解析效率和结果准确度,还能够支持医院信息化系统的本地化部署,能够在医院信息化系统中快速部署和迭代。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种电子病历文书数据处理方法,包括:
对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书;
调用后结构化模型对所述标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据;所述后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口;
根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析。
可选的,所述根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析之后,还包括:
基于预先设置的数据库解析结果表结构,对所述初始后结构化解析数据的解析结果进行格式转化;
将转化后的解析结果存储至相应数据库中。
可选的,所述后结构化模型包括病历文书段落切分模型、段落主题识别模型和实体属性关系模型;所述段落主题识别模型和所述实体属性关系模型采用tensorflow-serving框架;
其中,所述病历文书段落切分模型基于识别的段落开始和/或结束标志对所述标准病历文书进行段落切分;
所述段落主题识别模型基于医学专业词库识别各段落的类别;
所述实体属性关系模型包括实体属性识别模型和关系抽取模型,所述实体属性识别模型用于识别各段落中的实体信息和属性信息,所述关系抽取模型用于按照医学逻辑构建规则形成实体-属性关系对。
可选的,所述后结构化模型还包括属性关系对过滤模块;
所述属性关系对过滤模块用于利用医学知识图谱对所述实体属性关系模型输出的所有实体-属性关系对进行过滤,剔除不符合医学逻辑的实体-属性关系对。
可选的,所述后结构化模型还包括前优化模块、模型结果修正模块和链接模块;
所述前优化模块用于按照预设规则对所述病历文书段落切分模型和/或所述段落主题识别模型和/或所述实体属性关系模型的训练样本数据格式进行处理;
所述模型结果修正模块用于根据预设标准要求对所述病历文书段落切分模型和/或所述段落主题识别模型和/或所述实体属性关系模型的输出结果进行校正;
所述链接模块用于按照所述后结构化模型的数据处理流程将各所述前优化模块、所述病历文书段落切分模型、所述段落主题识别模型、所述实体属性关系模型和所述模型结果修正模块进行链接和整合。
可选的,所述根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析包括:
从所述后结构化模型的应用程序接口读取解析数据字符串;
根据所述业务需求信息从所述解析数据字符串中提取相应目标指标数据;
调用与所述目标指标数据相匹配的文书格式模板对所述目标指标数据进行解析,得到初始解析结果。
可选的,所述调用与所述目标指标数据相匹配的文书格式模板对所述目标指标数据进行解析之后,还包括:
对所述初始解析结果进行优化处理操作,所述优化处理操作包括以下任意一项或任意组合:
段落类型的错误修正、添加段落更新标识、生成日志记录。
本发明实施例另一方面提供了一种电子病历文书数据处理装置,包括:
数据预处理模块,用于对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书;
后结构化处理模块,用于调用后结构化模型对所述标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据;所述后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口;
再解析模块,用于根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析。
本发明实施例还提供了一种电子病历文书数据处理装置,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述电子病历文书数据处理方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有电子病历文书数据处理程序,所述电子病历文书数据处理程序被处理器执行时实现如前任一项所述电子病历文书数据处理方法的步骤。
本申请提供的技术方案的优点在于,对电子病历文书数据进行数据预处理,统一文本格式,剔除无用段落文书,将病历文书预处理整合后进行后结构化,提取文书中主要的信息存储下来,即节省了数据存储空间,又能降低后续数据处理量,提高整个病历文书数据的处理效率;在进行后结构化处理时,先段落切分和段落识别,然后进行信息抽取,可以有效后结构化处理效率和处理结果的精确度,利用模型封装来满足不同医院环境下的本地化部署实现,在医院本地能够很快的实现数据后结构化,能够在医院信息化系统中快速部署和迭代。
此外,本发明实施例还针对电子病历文书数据处理方法提供了相应的实现装置及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子病历文书数据处理方法的流程示意图;
图2为本发明实施例提供的后结构化系统-医院本地化部署的具体实现流程示意图;
图3为本发明实施例提供的后结构化模型的实现框架示意图;
图4为本发明实施例提供的后结构化模型中服务解析的框架示意图;
图5为本发明实施例提供的tensorflow serving框架下的后结构化模型实现示意图;
图6为本发明实施例提供的电子病历文书数据处理装置的一种具体实施方式结构图;
图7为本发明实施例提供的电子病历文书数据处理装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种电子病历文书数据处理方法的流程示意图,本发明实施例可包括以下内容:
S101:对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书。
在本步骤中,数据预处理与预设文件筛选条件相匹配,也即对电子病历文书进行数据处理是为了得到满足设文件筛选条件的病历文书,所属领域技术人员可根据实际应用场景所需求的病历文书类型或格式制定相应的数据预处理手段,本申请对此不作任何限定。
S102:调用后结构化模型对标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据。
本申请的后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口。举例来说,后结构化模型可采用Docker封装。后结构化模型用于对输入的病历文书进行后结构化处理,该模型的后结构化处理过程包括对病历文书数据进行段落切分,段落主题识别和实体属性关系抽取这三个过程,经过后结构化模型处理后得到待处理电子病历文书的初始后结构化解析数据。
S103:根据待处理电子病历文书的文书类型和业务需求信息对初始后结构化解析数据进行解析。
其中,不同电子病历文书的格式不同,有些电子病历文书具有特定格式,在对其进行解析时,可采用与电子病历文书类型相匹配的规则进行处理。业务需求信息即为待处理电子病历文书所适用于的应用场景对电子病历文书的一些特殊要求,在解析时需要考虑电子病历文书的这些特殊要求。
在本发明实施例提供的技术方案中,对电子病历文书数据进行数据预处理,统一文本格式,剔除无用段落文书,将病历文书预处理整合后进行后结构化,提取文书中主要的信息存储下来,即节省了数据存储空间,又能降低后续数据处理量,提高整个病历文书数据的处理效率;在进行后结构化处理时,先段落切分和段落识别,然后进行信息抽取,可以有效后结构化处理效率和处理结果的精确度,利用模型封装来满足不同医院环境下的本地化部署实现,在医院本地能够很快的实现数据后结构化,能够在医院信息化系统中快速部署和迭代。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
可以理解的是,在实际应用过程中,后结构化处理后的数据需要进行存储以便后续使用,基于上述实施例,在S103之后,还可包括:
基于预先设置的数据库解析结果表结构,对初始后结构化解析数据的解析结果进行格式转化;将转化后的解析结果存储至相应数据库中。
数据库解析结果表结构可根据使用应用场景进行预先设置,本申请对此不作任何限定。在制定数据库解析结果表结构之后,可根据整个系统的总存储空间和实际应用场景设置解析结果存储空间大小,也可设置一个初始存储空间,后续随着使用时间的增长和存储数据的增多,在进行拓展存储空间,灵活性更好,可以有效提升系统存储空间资源的利用率。
本实施例通过设计解析结果表结构,可以配置的形式封装Docker解析服务,实现全自动高效地解析和存储。
上述实施例对后结构化模型的结构并未进行限定,本申请还提供了后结构化模型的一种实施方式,可包括:
后结构化模型包括病历文书段落切分模型、段落主题识别模型和实体属性关系模型。为了提升模型调用速度,段落主题识别模型和实体属性关系模型采用tensorflow-serving框架来支持高并发,快速迭代。
其中,病历文书段落切分模型可基于识别的段落开始和/或结束标志对标准病历文书进行段落切分。可选的,病历文书段落切分模型可利用人工标注的段落结果转化为训练样本数据和验证样本数据,构造CRF模型来识别段落结束开始标志。
段落主题识别模型可基于医学专业词库识别各段落的类别。可选的,段落识别模型可首先利用BERT预训练模型来生成医学领域常见的字和词的向量表达;然后利用char+word Embedding的信息,构造速度较快的RNN模型系列BISRU模型来判别段落的类别。
实体属性关系模型可包括实体属性识别模型和关系抽取模型,实体属性识别模型用于识别各段落中的实体信息和属性信息,关系抽取模型用于按照医学逻辑构建规则形成实体-属性关系对。可选的,实体属性识别模型又可分为两类,实体利用基于医学领域字典构造的双向最大匹配算法进行识别,属性基于BISRU+CRF模型进行识别;关系抽取模型,构建最小语义块识别规则模型,对最小语义块中的实体和属性按照医学逻辑构建规则模型进行挂靠,形成实体和属性关系对。
考虑到实际应用的效率和精确度,可将后结构化模型拆分为独立的三块,分开训练提高病历文书段落切分模型、段落主题识别模型和实体属性关系模型的准确率,最后再整合在一起,也即后结构化模型还可包括并行整合模块,该模块支持病历文书段落切分模型、段落主题识别模型和实体属性关系模型并行运行并将其整合为一个整体,最后链接完善整个后结构化模型框架,可利用Flask框架进行服务封装。
作为本实施例的一种可选的实施方式,为了进一步提升模型的准确度,后结构化模型还可包括属性关系对过滤模块;属性关系对过滤模块用于利用医学知识图谱对实体属性关系模型输出的所有实体-属性关系对进行过滤,剔除不符合医学逻辑的实体-属性关系对。
本实施例对实体属性关系抽取模型的结果,利用医学知识图谱对实体和属性对进行过滤,归一化实体名称,剔除不符合逻辑关系对剔除不符合医学逻辑的实体属性关系对。
作为本实施例的一种可选的实施方式,为了进一步提升模型的准确度,后结构化模型还可包括前优化模块、模型结果修正模块和链接模块;
前优化模块用于按照预设规则对病历文书段落切分模型和/或段落主题识别模型和/或实体属性关系模型的训练样本数据格式进行处理;
模型结果修正模块用于根据预设标准要求对病历文书段落切分模型和/或段落主题识别模型和/或实体属性关系模型的输出结果进行校正;
链接模块用于按照后结构化模型的数据处理流程将各前优化模块、病历文书段落切分模型、段落主题识别模型、实体属性关系模型和模型结果修正模块进行链接和整合。
上述实施例对再解析过程并未进行限定,本申请还提供了对结构化解析数据进行再解析的一种实施方式,可包括:
从后结构化模型的应用程序接口读取解析数据字符串;
根据业务需求信息从解析数据字符串中提取相应目标指标数据;
调用与目标指标数据相匹配的文书格式模板对目标指标数据进行解析,得到初始解析结果;
对初始解析结果进行优化处理操作,优化处理操作包括以下任意一项或任意组合:
段落类型的错误修正、添加段落更新标识、生成日志记录。
本实施例通过对解析结果进行优化处理操作,可得到更加精准的解析结果。
为了使所述领域技术人员更加清楚明白本申请的技术方案,本申请还结合图2-图5给出了一个后结构化系统的示意性例子,并优化其中后结构化模型,提高准确性和解析效果,该系统可包括:
基于python的Cx_oracle、MySQLdb、pymssql包构建python和不同数据库链接模块来构造数据抽取和写入模块,连通数据库和python环境。数据抽取和写入模块可用于提取和写入数据。
批量提取不同年份不同类型的文书数据,查看文书格式和内容,总结文本类型。
基于文书包含的内容,选取要解析的非空的文书类型。具体的,可基于选取的文书类型,利用数据库sql正则表达式判断文书类型提取待解析的非空目标文书类型。
批量提取不同年份不同类型的文书数据,分辨文书格式,对不同格式的文书构建不同的解析模型。具体的,由于不同的文本类型差异较大,可构建不同的后结构化解析模型,也即针对医疗病历文书的特点进行个性化的模型训练,其中包括利用规则模型、实体识别、关系抽取模型等。
构建统一的规范的纯文本格式,剔除过多的换行和空格。举例来说,部分文书有xml和html格式,可统一提取文本内容并转化为TXT纯文本,利用现有的html和xml解析框架进行解析即可。
调用后结构化API服务接口,生成后结构化解析结果。后结构化API服务是对后结构化模型框架的封装,该部分是后结构化系统的核心算法模块,包含病历文书段落切分模型、段落主题识别模型、实体属性关系抽取模型三个模型的请求调用,后两个深度学习模型通过tensorflow-serving框架来支持并发,实现高吞吐量;后续对实体属性关系抽取模型的结果,利用医学知识图谱进行过滤,剔除不符合医学逻辑的实体属性关系对,最后链接完善整个后结构化模型框架,利用Flask框架进行服务封装。
基于知识图谱对实体和属性对进行过滤,归一化实体名称,剔除不符合逻辑关系对。
整合流程,添加前优化模块。前优化模块用于补充规则,使得不同医院的数据贴合训练样本的格式,提高模型识别结果的准确度。同时还可修正病历文书段落切分模型、段落主题识别模型、实体属性关系抽取模型的结果。具体过程可为添加规则,空格、标点符号、特殊符号处理,段落标识词统一等,根据各模型的输入输出关系,例如某个模型的结果为某个模型的输入,链接病历文书段落切分模型、段落主题识别模型、实体属性关系抽取模型,整合为最终的后结构化模型。
添加API服务,利用Flask框架构建支持多进程的后结构化服务。
后结构化模型最后利用Docker封装,完整的后结构化模型和运行环境打包成为镜像,当启用容器后,调用容器服务接口即为后结果化模型的接口。
设计电子病历文书后结构化的数据库表结构。其中,数据库表结构格式包括解析出两张数据库表,设计表字段名称、类型如字符型和数值型字段,便于后续业务使用。
拓展数据库表结构存储表空间的大小,可参考医院的电子病历文书数量,来预估需要的表空间大小,目前三甲医院的建议大小为1.5-2.0T。
对后结构化解析的结果进行再解析,再解析过程可包括:API接口返回为json串,需要对json串再解析,由于API接口返回的是所有的指标,但只有部分指标是业务需要的,所以可利用解析代码模块提取需要的指标。
添加规则优化,部分较为规则的段落类型利用规则模板进行识别。举例来说,某些电子病历文书有特定文书书写格式的,如体格检查,其有一定的表结构。这种较为规则的非结构化数据,可以拿出来单独利用规则解析。医院电子病历文档内容有固定的格式模板,同一个模板下的内容又有其固定格式,对于格式较为规整的,严格按照格式书写的电子病历,采用对应的格式规则进行结构化解析。
添加后优化模块,该模块可根据部分解析的结果修正错误的段落类别,优化网页界面显示,添加段落更新,类型修正,日志记录等功能。
为了符合数据库的格式可转化解析结果,然后按照设计好的数据库解析结果表结构进行数据插入。
利用Docker将请求后结构化模型Docker容器服务代码,以及数据库链接配置封装到后结构化解析镜像中,启动容器即可进行历年电子病历文书的解析和存储。此外,还利用Docker的桥连接,使得Docker内部的服务可自主调用,减少配置。
本实施例能够支持医院本地化部署以及提高后结构化结果的准确性和解析效率;首先,提取医院文书,进行数据清洗,统一文本格式,剔除无用段落文书;其次考虑实际应用的效率和精确度,将文书的后结构化解析模型拆分为独立的三块,分开训练提高各个模块的准确率,最后再整合在一起,添加一些规则优化,模型最终的识别效果也达到预期;模型的服用调用框架应用了tensorflow-serving来支持高并发,快速迭代,模型的调用速度有显著提高;利用docker封装来满足不同医院环境下的本地化部署实现;设计解析结果存储表结构,以配置的形式封装docker解析服务,实现全自动高效的解析和存储。
本发明实施例还针对电子病历文书数据处理方法提供了相应的装置,进一步使得所述方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的电子病历文书数据处理装置进行介绍,下文描述的电子病历文书数据处理装置与上文描述的电子病历文书数据处理方法可相互对应参照。
基于功能模块的角度,参见图6,图6为本发明实施例提供的电子病历文书数据处理装置在一种具体实施方式下的结构图,该装置可包括:
数据预处理模块601,用于对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书。
后结构化处理模块602,用于调用后结构化模型对标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据;后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口。
再解析模块603,用于根据待处理电子病历文书的文书类型和业务需求信息对初始后结构化解析数据进行解析。
可选的,在本实施例的一些实施方式中,上述装置例如还可以包括数据存储模块,该模块用于基于预先设置的数据库解析结果表结构,对初始后结构化解析数据的解析结果进行格式转化;将转化后的解析结果存储至相应数据库中。
作为一种可选的实施方式,后结构化模型可包括病历文书段落切分模型、段落主题识别模型和实体属性关系模型;段落主题识别模型和实体属性关系模型采用tensorflow-serving框架;
其中,病历文书段落切分模型基于识别的段落开始和/或结束标志对标准病历文书进行段落切分;段落主题识别模型基于医学专业词库识别各段落的类别;实体属性关系模型包括实体属性识别模型和关系抽取模型,实体属性识别模型用于识别各段落中的实体信息和属性信息,关系抽取模型用于按照医学逻辑构建规则形成实体-属性关系对。
作为本实施例的另外一种可选的实施方式,后结构化模型还可包括属性关系对过滤模块、前优化模块、模型结果修正模块和链接模块
属性关系对过滤模块用于利用医学知识图谱对实体属性关系模型输出的所有实体-属性关系对进行过滤,剔除不符合医学逻辑的实体-属性关系对。
前优化模块用于按照预设规则对病历文书段落切分模型和/或段落主题识别模型和/或实体属性关系模型的训练样本数据格式进行处理。
模型结果修正模块用于根据预设标准要求对病历文书段落切分模型和/或段落主题识别模型和/或实体属性关系模型的输出结果进行校正。
链接模块用于按照后结构化模型的数据处理流程将各前优化模块、病历文书段落切分模型、段落主题识别模型、实体属性关系模型和模型结果修正模块进行链接和整合。
可选的,在本实施例的另一些实施方式中,上述再解析模块603可以包括:
解析数据读取子模块,用于从后结构化模型的应用程序接口读取解析数据字符串;
指标提取子模块,用于根据业务需求信息从解析数据字符串中提取相应目标指标数据;
初始解析结果得到子模块,用于调用与目标指标数据相匹配的文书格式模板对目标指标数据进行解析,得到初始解析结果。
作为另外一种可选的实施方式,再解析模块603例如还可以包括:
优化处理子模块,用于对初始解析结果进行优化处理操作,优化处理操作包括以下任意一项或任意组合:
段落类型的错误修正、添加段落更新标识、生成日志记录。
本发明实施例所述电子病历文书数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了相关技术中后结构化效率不高的问题,有效地提高电子病历文书后结构化解析效率和结果准确度,还能够支持医院信息化系统的本地化部署,能够在医院信息化系统中快速部署和迭代。
上文中提到的电子病历文书数据处理装置是从功能模块的角度描述,进一步的,本申请还提供一种电子病历文书数据处理装置,是从硬件角度描述。图7为本申请实施例提供的另一种电子病历文书数据处理装置的结构图。如图7所示,该装置包括存储器70,用于存储计算机程序;
处理器71,用于执行计算机程序时实现如上述任一实施例提到的电子病历文书数据处理方法的步骤。
其中,处理器71可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器71可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器71也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器71可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器71还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器70可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器70还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器70至少用于存储以下计算机程序701,其中,该计算机程序被处理器71加载并执行之后,能够实现前述任一实施例公开的电子病历文书数据处理方法的相关步骤。另外,存储器70所存储的资源还可以包括操作系统702和数据703等,存储方式可以是短暂存储或者永久存储。其中,操作系统702可以包括Windows、Unix、Linux等。数据703可以包括但不限于电子病历文书数据处理结果对应的数据等。
在一些实施例中,电子病历文书数据处理装置还可包括有显示屏72、输入输出接口73、通信接口74、电源75以及通信总线76。
本领域技术人员可以理解,图7中示出的结构并不构成对电子病历文书数据处理装置的限定,可以包括比图示更多或更少的组件,例如还可包括传感器77。
本发明实施例所述电子病历文书数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了相关技术中后结构化效率不高的问题,有效地提高电子病历文书后结构化解析效率和结果准确度,还能够支持医院信息化系统的本地化部署,能够在医院信息化系统中快速部署和迭代。
可以理解的是,如果上述实施例中的电子病历文书数据处理方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,存储有电子病历文书数据处理程序,所述电子病历文书数据处理程序被处理器执行时如上任意一实施例所述电子病历文书数据处理方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了相关技术中后结构化效率不高的问题,有效地提高电子病历文书后结构化解析效率和结果准确度,还能够支持医院信息化系统的本地化部署,能够在医院信息化系统中快速部署和迭代。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种电子病历文书数据处理方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种电子病历文书数据处理方法,其特征在于,包括:
对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书;
调用后结构化模型对所述标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据;所述后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口;
根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析。
2.根据权利要求1所述的电子病历文书数据处理方法,其特征在于,所述根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析之后,还包括:
基于预先设置的数据库解析结果表结构,对所述初始后结构化解析数据的解析结果进行格式转化;
将转化后的解析结果存储至相应数据库中。
3.根据权利要求1所述的电子病历文书数据处理方法,其特征在于,所述后结构化模型包括病历文书段落切分模型、段落主题识别模型和实体属性关系模型;所述段落主题识别模型和所述实体属性关系模型采用tensorflow-serving框架;
其中,所述病历文书段落切分模型基于识别的段落开始和/或结束标志对所述标准病历文书进行段落切分;
所述段落主题识别模型基于医学专业词库识别各段落的类别;
所述实体属性关系模型包括实体属性识别模型和关系抽取模型,所述实体属性识别模型用于识别各段落中的实体信息和属性信息,所述关系抽取模型用于按照医学逻辑构建规则形成实体-属性关系对。
4.根据权利要求3所述的电子病历文书数据处理方法,其特征在于,所述后结构化模型还包括属性关系对过滤模块;
所述属性关系对过滤模块用于利用医学知识图谱对所述实体属性关系模型输出的所有实体-属性关系对进行过滤,剔除不符合医学逻辑的实体-属性关系对。
5.根据权利要求3所述的电子病历文书数据处理方法,其特征在于,所述后结构化模型还包括前优化模块、模型结果修正模块和链接模块;
所述前优化模块用于按照预设规则对所述病历文书段落切分模型和/或所述段落主题识别模型和/或所述实体属性关系模型的训练样本数据格式进行处理;
所述模型结果修正模块用于根据预设标准要求对所述病历文书段落切分模型和/或所述段落主题识别模型和/或所述实体属性关系模型的输出结果进行校正;
所述链接模块用于按照所述后结构化模型的数据处理流程将各所述前优化模块、所述病历文书段落切分模型、所述段落主题识别模型、所述实体属性关系模型和所述模型结果修正模块进行链接和整合。
6.根据权利要求1至5任意一项所述的电子病历文书数据处理方法,其特征在于,所述根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析包括:
从所述后结构化模型的应用程序接口读取解析数据字符串;
根据所述业务需求信息从所述解析数据字符串中提取相应目标指标数据;
调用与所述目标指标数据相匹配的文书格式模板对所述目标指标数据进行解析,得到初始解析结果。
7.根据权利要求6所述的电子病历文书数据处理方法,其特征在于,所述调用与所述目标指标数据相匹配的文书格式模板对所述目标指标数据进行解析之后,还包括:
对所述初始解析结果进行优化处理操作,所述优化处理操作包括以下任意一项或任意组合:
段落类型的错误修正、添加段落更新标识、生成日志记录。
8.一种电子病历文书数据处理装置,其特征在于,包括:
数据预处理模块,用于对待处理电子病历文书进行数据预处理,得到满足预设文件筛选条件的标准病历文书;
后结构化处理模块,用于调用后结构化模型对所述标准病历文书进行段落切分,段落主题识别和实体属性关系抽取,得到初始后结构化解析数据;所述后结构化模型预先利用与医院信息化系统封装方法兼容的封装方法进行封装,并设置应用程序服务接口;
再解析模块,用于根据所述待处理电子病历文书的文书类型和业务需求信息对所述初始后结构化解析数据进行解析。
9.一种电子病历文书数据处理装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述电子病历文书数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有电子病历文书数据处理程序,所述电子病历文书数据处理程序被处理器执行时实现如权利要求1至7任一项所述电子病历文书数据处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423953.0A CN112420145A (zh) | 2020-12-08 | 2020-12-08 | 电子病历文书数据处理方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011423953.0A CN112420145A (zh) | 2020-12-08 | 2020-12-08 | 电子病历文书数据处理方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112420145A true CN112420145A (zh) | 2021-02-26 |
Family
ID=74775205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011423953.0A Pending CN112420145A (zh) | 2020-12-08 | 2020-12-08 | 电子病历文书数据处理方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420145A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988073A (zh) * | 2021-10-26 | 2022-01-28 | 迪普佰奥生物科技(上海)股份有限公司 | 适用于生命科学的文本识别方法和系统 |
CN114140810A (zh) * | 2022-01-30 | 2022-03-04 | 北京欧应信息技术有限公司 | 用于文档结构化识别的方法、设备和介质 |
CN114418521A (zh) * | 2021-12-13 | 2022-04-29 | 华能核能技术研究院有限公司 | 用于核电厂运行技术规格书的数据处理方法和装置 |
CN116759040A (zh) * | 2023-08-17 | 2023-09-15 | 北方健康医疗大数据科技有限公司 | 一种用于医疗大数据的数据治理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036576A (zh) * | 2018-07-23 | 2018-12-18 | 无锡慧方科技有限公司 | 电子病历数据解析方法、装置、计算机及可读存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN111274806A (zh) * | 2020-01-20 | 2020-06-12 | 医惠科技有限公司 | 分词和词性识别方法、装置及电子病历的分析方法、装置 |
-
2020
- 2020-12-08 CN CN202011423953.0A patent/CN112420145A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036576A (zh) * | 2018-07-23 | 2018-12-18 | 无锡慧方科技有限公司 | 电子病历数据解析方法、装置、计算机及可读存储介质 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN111274806A (zh) * | 2020-01-20 | 2020-06-12 | 医惠科技有限公司 | 分词和词性识别方法、装置及电子病历的分析方法、装置 |
Non-Patent Citations (1)
Title |
---|
唯老: "Docker", 《HTTPS://WWW.JIANSHU.COM/P/DC872D23A51C》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113988073A (zh) * | 2021-10-26 | 2022-01-28 | 迪普佰奥生物科技(上海)股份有限公司 | 适用于生命科学的文本识别方法和系统 |
CN114418521A (zh) * | 2021-12-13 | 2022-04-29 | 华能核能技术研究院有限公司 | 用于核电厂运行技术规格书的数据处理方法和装置 |
CN114140810A (zh) * | 2022-01-30 | 2022-03-04 | 北京欧应信息技术有限公司 | 用于文档结构化识别的方法、设备和介质 |
CN114140810B (zh) * | 2022-01-30 | 2022-04-22 | 北京欧应信息技术有限公司 | 用于文档结构化识别的方法、设备和介质 |
CN116759040A (zh) * | 2023-08-17 | 2023-09-15 | 北方健康医疗大数据科技有限公司 | 一种用于医疗大数据的数据治理系统及方法 |
CN116759040B (zh) * | 2023-08-17 | 2024-01-09 | 北方健康医疗大数据科技有限公司 | 一种用于医疗大数据的数据治理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112420145A (zh) | 电子病历文书数据处理方法、装置及计算机可读存储介质 | |
JP7488006B2 (ja) | 機械学習を使用した表形式データの内容特定方法、システム、プログラム | |
US11537797B2 (en) | Hierarchical entity recognition and semantic modeling framework for information extraction | |
US9754083B2 (en) | Automatic creation of clinical study reports | |
JP2020191075A (ja) | Web APIおよび関連エンドポイントの推薦 | |
CN114595686B (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN113360654A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN114239588A (zh) | 文章处理方法、装置、电子设备及介质 | |
US20220129623A1 (en) | Performance characteristics of cartridge artifacts over text pattern constructs | |
CN109299467A (zh) | 医学文本识别方法及装置、语句识别模型训练方法及装置 | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
CN116521621A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN116360794A (zh) | 数据库语言解析方法、装置、计算机设备及存储介质 | |
CN115130437A (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN114089980A (zh) | 编程处理方法、装置、解释器及非易失性存储介质 | |
CN113722421B (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN114154489A (zh) | 一种三元组抽取方法、装置、设备及存储介质 | |
CN112836477B (zh) | 代码注释文档的生成方法、装置、电子设备及存储介质 | |
CN115329151B (zh) | 图数据库的优化方法、装置、电子设备及存储介质 | |
CN115905297B (zh) | 用于检索数据的方法、设备和介质 | |
CN111581184B (zh) | 基于数据库迁移的语义对比方法及装置 | |
CN115408453A (zh) | 一种配置化报表生成方法、装置、计算机设备及存储介质 | |
CN115146070A (zh) | 键值生成方法、知识图谱生成方法、装置、设备及介质 | |
CN117707536A (zh) | 一种流程图绘制方法及系统、计算机可读存储介质、终端 | |
CN116451684A (zh) | 一种网络协议文档标注和有限状态机提取的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210226 |
|
RJ01 | Rejection of invention patent application after publication |