CN116469500A

CN116469500A - 一种基于医疗文档后结构化的数据质量控制方法及系统

Info

Publication number: CN116469500A
Application number: CN202310201233.7A
Authority: CN
Inventors: 马江泉; 李昂; 孟波
Original assignee: Jiangsu Speed Technology Co ltd
Current assignee: Jiangsu Speed Technology Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-07-21

Abstract

本发明公开了一种基于医疗文档后结构化的数据质量控制方法及系统，通过将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，基于医疗专属语义模型，将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据，根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，提高了质控质检效率。另外，本发明能够对自由化输入的电子病历文档进行结构化处理，自动地、智能化地从电子病历中提取关键内容，兼容了自由化输入与结构化存储的长处。

Description

一种基于医疗文档后结构化的数据质量控制方法及系统

技术领域

本发明涉及结构化数据领域，更具体的，涉及一种基于医疗文档后结构化的数据质量控制方法及系统。

背景技术

现有的病历质控都是基于电子病历系统的质控，依托于电子病历系统结构化标准化要求，以接口对接的方式提取电子病历系统结构化数据，进行质控。以人工质控书写内容，机器识别完整性、时效性等非内涵内容，病案质量控制是由基本质量控制、环节质量控制和终末质量控制三个部分组成的手工作业。基本质控管理包括质控标准的制定、质控组织体系等；环节质控则指病案形成过程中的质量控制，包括每周质控查房和科室质控组的有效运作，是质控中的重要环节；终期质量控制一般指专家评审，其作用主要是为环节质控提供质控侧重点，并对医院医疗、病案质量状况进行评估。

但是，当前的电子病历依然存在诸多问题，例如，电子病历格式很难统一。在很多基层单位，电子病历还没有得到立法的支持，也没有统一的标准。各个厂商所使用的医疗记录文件种类繁多，电子医疗记录文件可能包含完全不同的格式。不同的电子病案格式，其数据组合可能有很大差异。例如，有些电子病历的主诉、病史、既往史等字段写在一起，而有些则是分开的；另外，大多数病历的诊断、检查、化验报告等文件结构化程度较高，而主诉、临床表现、诊断、病程录、治疗过程内容等结构化程度较低。因此，导致科室之间无法数据共享，降低了医院的信息化水平。另外，统一的结构化电子病历影响医生思维。电子病案是体现医生诊断和治疗思想的重要文书，每一位医生都有其独特的病案书写习惯，如果使用固定的模板，就会严重影响医生的书写思维方式。并且对于各医科、各种病症、各种病案千差万别，如果套用一个固定的病历格式，就会产生“克隆”病案、简化病案资料的现象。

发明内容

本发明克服了现有技术的缺陷，提出了一种基于医疗文档后结构化的数据质量控制方法及系统。

本发明第一方面提供了一种基于医疗文档后结构化的数据质量控制方法，包括：

获取待识别医疗文档数据；

将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据；

基于医疗专属语义模型，将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据；

根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制。

本方案中，所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，之前包括：

构建医疗数据识别模型；

从历史医疗病历大数据中进行数据抽取，得到预设数据量的病历训练数据；

将所述病历训练数据导入医疗数据识别模型进行医疗数据识别训练，得到训练识别结果；

对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率，若占比率小于预设占比率，则进行重复训练，直至占比率大于等于预设占比率。

本方案中，所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，具体为：

获取预设医疗文书数据；

根据所述预设医疗文书数据进行数据特征与结构分析，得到对应医疗文书特征信息；

将待识别医疗文档数据导入医疗数据识别模型进行内容识别得到初步识别结果数据；

基于医疗文书特征信息将初步识别结果数据进行数据结构化处理，得到医疗文书大数据。

本方案中，所述基于医疗专属语义模型，将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据，具体为：

获取医学知识标准语义库；

获取当前医疗文档数据库；

将当前医疗文档数据库中的医疗文档数据进行语义分割与专业术语词汇提取，得到当前医学语义库；

将当前医学语义库与医学知识标准语义库进行术语词汇融合得到第一医学语义库；

将医疗文书大数据进行数据清洗与去冗余；

根据第一医学语义库构造医疗专属语义模型，将医疗文书大数据导入医疗专属语义模型进行医疗语义关系分析与数据对象关系提取，得到关联结构信息；

根据关联结构信息对医疗文书大数据进行结构转化得到历史病历结构化数据。

本方案中，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，具体为：

将历史病历结构化数据进行病种数据与病案表征信息统计，得到表征病案数据与病种数据；

将所述表征病案数据与病种数据进行数据关联，得到病种关联信息；

基于病种关联信息，在标准诊断库中进行标准诊断信息检索，并将检索结果数据与病种数据进行映射得到病种诊断映射关系。

本方案中，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，还包括：

获取预设病历编码规则；

根据预设病历编码规则，结合病种关联信息与病种诊断映射关系，从历史病历结构化数据进行数据提取与数据编码，得到编码后的病历数据。

获取预设病历质控规则；

根据所述预设病历质控规则结合病种诊断映射关系进行质检流程点分析，得到多个病历质检点；

根据所述病历质检点，结合病种诊断映射关系，对编码后的病历数据进行相应质检点的审核。

本发明第二方面还提供了一种基于医疗文档后结构化的数据质量控制系统，该系统包括：存储器、处理器，所述存储器中包括基于医疗文档后结构化的数据质量控制程序，所述基于医疗文档后结构化的数据质量控制程序被所述处理器执行时实现如下步骤：

获取待识别医疗文档数据；

获取预设病历编码规则；

通过本发明方案，能够实现以下有益效果：

本发明能够在不影响医生用户自由输入的情况下爱，实现医疗数据的结构化，从容能够实现医院不同科室的病历互动、互通、互换的目的。通过本发明能够解读自然语言描述的病历，后台系统对自由化输入的电子病历文档进行结构化处理，自动的、智能化地从电子病历中提取关键内容，兼容了自由化输入与结构化存储的长处。

通过自然语义处理技术结合医学知识库，能够快速处理更复杂的文本分析任务，实现高效地将文本数据转化为病历数据。

对非结构化数据进行深度分析，细颗粒化的结构化处理，能更精准的对病历内容进行深度分析，全病历分析，实现深度内涵质控，实现了质控的深度、广度和准确度的提高。

附图说明

图1示出了本发明一种基于医疗文档后结构化的数据质量控制方法的流程图；

图2示出了本发明构建医疗数据识别模型流程图；

图3示出了本发明获取医疗文书大数据流程图；

图4示出了本发明一种基于医疗文档后结构化的数据质量控制系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于医疗文档后结构化的数据质量控制方法的流程图。

如图1所示，本发明第一方面提供了一种基于医疗文档后结构化的数据质量控制方法，包括：

S102，获取待识别医疗文档数据；

S104，将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据；

S106，基于医疗专属语义模型，将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据；

S108，根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制。

需要说明的是，所述待识别医疗文档数据可以为图片、文档、医疗扫描数据等，也可以是用户手写的医疗扫描文档。

图2示出了本发明构建医疗数据识别模型流程图。

根据本发明实施例，所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，之前包括：

S202，构建医疗数据识别模型；

S204，从历史医疗病历大数据中进行数据抽取，得到预设数据量的病历训练数据；

S206，将所述病历训练数据导入医疗数据识别模型进行医疗数据识别训练，得到训练识别结果；

S208，对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率，若占比率小于预设占比率，则进行重复训练，直至占比率大于等于预设占比率。

需要说明的是，所述病历训练数据包括图片与文本格式数据。所述医疗数据识别模型具体为基于ORC、RPA等文字识别技术的模型，通过医疗数据识别模型能够识别复杂的文档扫描数据并转化为特定的病历数据。所述对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率中，若占比率低于预设占比率，则代表识别出来的医学语义数据量较低，需要进行重复训练。

图3示出了本发明获取医疗文书大数据流程图。

根据本发明实施例，所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，具体为：

S302，获取预设医疗文书数据；

S304，根据所述预设医疗文书数据进行数据特征与结构分析，得到对应医疗文书特征信息；

S306，将待识别医疗文档数据导入医疗数据识别模型进行内容识别得到初步识别结果数据；

S308，基于医疗文书特征信息将初步识别结果数据进行数据结构化处理，得到医疗文书大数据。

需要说明的是，所述预设医疗文书数据具体为由用户设定的数据，且具有一定的规范与格式。本发明通过对预设医疗文书数据的特征提取并基于特征对当前初步识别结果数据进行一定的结构转化，能够得到具有预设结构要求的医疗文书大数据。

根据本发明实施例，所述基于医疗专属语义模型，将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据，具体为：

获取医学知识标准语义库；

获取当前医疗文档数据库；

将医疗文书大数据进行数据清洗与去冗余；

需要说明的是，所述关系提取具体为将医疗文书大数据中的各种医学数据之间的关联关系进行提取，所述各种医学数据包括不同格式的医学数据，本发明通过将医疗文书大数据进行结构转化得到历史病历结构化数据，能够进一步对医疗文书大数据进行数据挖掘并形成有医学分析价值的结构数据，并对后续的病历编码与质控提供数据基础。

根据本发明实施例，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，具体为：

需要说明的是，所述病种关联信息具体为病种与表征信息的关联关系，通过获取关联信息，能够基于病种进行快速的相关表征信息提取。所述病种诊断映射关系具体为病种信息与诊断信息的一一映射关系数据，所述映射关系数据采用表格方式对映射内容进行存储，通过病种诊断映射关系能够对病种与诊断等数据进行快速的关系提取与相关数据的提取，有效提高病历数据的查询与检索。

根据本发明实施例，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，还包括：

获取预设病历编码规则；

需要说明的是，所述预设病历编码规则为用户设定的规则，用以对病历数据进行标准化编码与后续质控处理。

获取预设病历质控规则；

需要说明的是，本发明通过病种诊断映射关系，能够对质检点进行快速定位与数据检索，进一步加快病历数据质检质控过程。

根据本发明实施例，所述根据所述病历质检点，结合病种诊断映射关系，对编码后的病历数据进行相应质检点的审核，具体为：

根据获取病历质检点；

根据所述病历质检点，基于病种诊断映射关系从历史病历结构化数据中进行快速定位，得到相应病历数据位置；

根据所述病历数据位置从编码后的病历数据中进行数据提取并将提取的数据与预设标准化数据进行对比；

若出现不符合预设标准化数据情况，将对应的质检点进行汇总，得到质检错误统计信息；

用户通过质检错误统计信息，对相应数据进行纠错与修正。

需要说明的是，本发明通过病种诊断映射关系，对相关质检点进行快速的数据检索，能够进一步提高病历质检的效率，从而实现高效病历质控。

根据本发明实施例，还包括：

获取需求指标信息；

根据需求指标信息进行信息提取得到检索指标信息；

根据检索指标信息，从病种诊断映射关系中进行检索，得到指标所在的病种信息与诊断信息；

根据所述病种信息与诊断信息，从历史病历结构化数据中进行二次检索得到检索指标相对应的病历数据；

将所述病历数据进行数据整合得到检索结果病历数据。

需要说明的是，在病历数据采集与使用过程中，常常会需要对相关指标进行抽取，此时，如果简单地从病历数据库中进行检索将花费大量的硬件资源，耗时耗力，且简单检索的结果数据存在大量冗余数据，还有与指标相关的数据吻合度低等问题，需要进一步对数据进行筛选。而本发明通过在病种诊断映射关系先进行映射关系的提取得到相应的病种信息与诊断信息，再进行二次的病历数据检索能够大大提高病历中相关指标与相关病历数据的提取，且得到的检索结果病历数据冗余量低，符合指标相关的数据吻合度高。

本发明第二方面还提供了一种基于医疗文档后结构化的数据质量控制系统4，该系统包括：存储器41、处理器42，所述存储器中包括基于医疗文档后结构化的数据质量控制程序，所述基于医疗文档后结构化的数据质量控制程序被所述处理器执行时实现如下步骤：

获取待识别医疗文档数据；

构建医疗数据识别模型；

获取预设医疗文书数据；

获取医学知识标准语义库；

获取当前医疗文档数据库；

将医疗文书大数据进行数据清洗与去冗余；

获取预设病历编码规则；

获取预设病历质控规则；

根据获取病历质检点；

用户通过质检错误统计信息，对相应数据进行纠错与修正。

根据本发明实施例，还包括：

获取需求指标信息；

根据需求指标信息进行信息提取得到检索指标信息；

将所述病历数据进行数据整合得到检索结果病历数据。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于医疗文档后结构化的数据质量控制方法，其特征在于，包括：

获取待识别医疗文档数据；

2.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法，其特征在于，所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，之前包括：

构建医疗数据识别模型；

3.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法，其特征在于，所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据，具体为：

获取预设医疗文书数据；

4.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法，其特征在于，所述基于医疗专属语义模型，将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据，具体为：

获取医学知识标准语义库；

获取当前医疗文档数据库；

将医疗文书大数据进行数据清洗与去冗余；

5.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法，其特征在于，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，具体为：

6.根据权利要求5所述的一种基于医疗文档后结构化的数据质量控制方法，其特征在于，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，还包括：

获取预设病历编码规则；

7.根据权利要求6所述的一种基于医疗文档后结构化的数据质量控制方法，其特征在于，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，还包括：

获取预设病历质控规则；

8.一种基于医疗文档后结构化的数据质量控制系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括基于医疗文档后结构化的数据质量控制程序，所述基于医疗文档后结构化的数据质量控制程序被所述处理器执行时实现如下步骤：

获取待识别医疗文档数据；

9.根据权利要求8所述的一种基于医疗文档后结构化的数据质量控制系统，其特征在于，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，具体为：

10.根据权利要求8所述的一种基于医疗文档后结构化的数据质量控制系统，其特征在于，所述根据历史病历结构化数据，将病种信息与标准诊断库进行关联映射，形成映射关系信息，并基于映射关系对历史病历结构化数据进行编码与质量控制，还包括：

获取预设病历编码规则；