CN112185575B

CN112185575B - 一种确定待比对医疗数据的方法和装置

Info

Publication number: CN112185575B
Application number: CN202011095863.3A
Authority: CN
Inventors: 马龙彪
Original assignee: Beijing Goodwill Meikang Information Technology Co ltd
Current assignee: Beijing Goodwill Meikang Information Technology Co ltd
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2024-01-16
Anticipated expiration: 2040-10-14
Also published as: CN112185575A

Abstract

本申请公开了一种确定待比对医疗数据的方法和装置，该方法包括：将目标数据类型的多条待处理医疗数据划分为对应预设抽取比对时间范围的多条第一待处理医疗数据，以及多条第二待处理医疗数据；预设抽取比对时间范围是基于目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例确定的；利用预设数据变化概率预测模型获得每条第二待处理医疗数据的预测数据变化概率；预设数据变化概率预测模型是基于聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；预测数据变化概率大于等于预设概率的第二待处理医疗数据、第一待处理医疗数据为待比对医疗数据。

Description

一种确定待比对医疗数据的方法和装置

技术领域

本申请涉及医疗数据处理技术领域，尤其涉及一种确定待比对医疗数据的方法和装置。

背景技术

随着数据挖掘技术的快速发展，数据挖掘技术在医疗领域具有巨大的价值。医疗数据的数据挖掘首先需要解决数据采集的问题。医疗数据相较于其他行业数据存在重复转抄、反复修改删除等特点，即，医疗数据在不断变化；各种监管和财务等方面需要，需要对不断变化的医疗数据进行数据采集以便汇总和统计。如何在数据采集时快速对医疗数据进行一致性抽取比对，保障医疗数据一致性，是当前医疗数据的数据采集所面临的最大难题。

现有技术中，通常选择一段时间范围内医疗数据确定为待比对医疗数据进行全量比对。但是，一段时间范围是预先设置的，若一段时间范围过大，则确定的待比对医疗数据的数据量过大，全量比对耗时太长；若一段时间范围过小，则确定的待比对医疗数据数据量过小，缺失很多变化医疗数据，无法保障医疗数据一致性。即，采用现有技术方式在数据采集时对医疗数据进行一致性抽取比对，所确定的待比对医疗数据不合适。

发明内容

有鉴于此，本申请实施例提供一种确定待比对医疗数据的方法和装置，既能涵盖基本所有的变化医疗数据，又尽可能降低待比对医疗数据的数据量，所确定的待比对医疗数据较为合适，以便后续提高医疗数据一致性抽取比对的效率和准确率。

第一方面，本申请实施例提供了一种确定待比对医疗数据的方法，所述方法包括：

将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，所述第一待处理医疗数据对应预设抽取比对时间范围；所述预设抽取比对时间范围是基于所述目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的；

将每条所述第二待处理医疗数据输入预设数据变化概率预测模型，获得每条所述第二待处理医疗数据的预测数据变化概率；所述预设数据变化概率预测模型是基于所述聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；

将所述预测数据变化概率大于等于预设概率的第二待处理医疗数据、多条所述第一待处理医疗数据确定为待比对医疗数据。

可选的，所述预设抽取比对时间范围的确定步骤包括：

采集第一预设时间段内所述目标数据类型的历史医疗数据进行全量比对，记录数据变化情况连续执行第二预设时间段，获得多条数据变化记录；

聚合相同患者的数据变化记录，统计对应的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录；

基于聚合后的每条数据变化记录中数据变化次数和数据变化时间区间的数值，计算各个所述预设时间范围的数据变化比例；

将大于等于所述预设比例的数据变化比例对应的预设时间范围，确定为所述预设抽取比对时间范围。

可选的，所述数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据操作、记录时间和患者标识；

所述聚合后的数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据变化次数和数据变化时间区间。

可选的，所述聚合相同患者的数据变化记录，统计对应的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录，包括：

基于每条变化医疗数据中所述患者标识或所述数据主键的数据内容，聚合所述相同患者的数据变化记录；

基于所述相同患者的变化医疗数据中所述数据操作、所述记录时间的数据内容，统计所述相同患者的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录。

可选的，所述预设数据变化概率预测模型的获得步骤包括：

对所述聚合后的多条数据变化记录和对应的其他业务医疗数据进行特征提取，获得多条数据变化特征；

将每条数据变化特征输入所述逻辑回归模型，获得所述聚合后的每条数据变化记录对应的预测数据变化概率；

基于所述聚合后的每条数据变化记录对应的预测数据变化概率和统计数据变化概率训练所述逻辑回归模型的参数，获得所述预设数据变化概率预测模型。

第一方面，本申请实施例提供了一种确定待比对医疗数据的装置，所述装置包括：

划分单元，用于将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，所述第一待处理医疗数据对应预设抽取比对时间范围；所述预设抽取比对时间范围是基于所述目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的；

第一获得单元，用于将每条所述第二待处理医疗数据输入预设数据变化概率预测模型，获得每条所述第二待处理医疗数据的预测数据变化概率；所述预设数据变化概率预测模型是基于所述聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；

第一确定单元，用于将所述预测数据变化概率大于等于预设概率的第二待处理医疗数据、多条所述第一待处理医疗数据确定为待比对医疗数据。

可选的，所述装置还包括预设抽取比对时间范围的确定单元，所述第二确定单元包括：

第一获得子单元，用于采集第一预设时间段内所述目标数据类型的历史医疗数据进行全量比对，记录数据变化情况连续执行第二预设时间段，获得多条数据变化记录；

第二获得子单元，用于采聚合相同患者的数据变化记录，统计对应的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录；

计算子单元，用于采基于聚合后的每条数据变化记录中数据变化次数和数据变化时间区间的数值，计算各个所述预设时间范围的数据变化比例；

确定子单元，用于采将大于等于所述预设比例的数据变化比例对应的预设时间范围，确定为所述预设抽取比对时间范围。

可选的，所述数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据操作、记录时间和患者标识；

所述聚合后的数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据变化次数和数据变化时间区间。

可选的，所述第二获得子单元包括：

聚合模块，用于基于每条变化医疗数据中所述患者标识或所述数据主键的数据内容，聚合所述相同患者的数据变化记录；

获得模块，用于基于所述相同患者的变化医疗数据中所述数据操作、所述记录时间的数据内容，统计所述相同患者的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录。

可选的，所述装置还包括预设数据变化概率预测模型的第二获得单元，所述第二获得单元包括：

第三获得子单元，用于对所述聚合后的多条数据变化记录和对应的其他业务医疗数据进行特征提取，获得多条数据变化特征；

第四获得子单元，用于将每条数据变化特征输入所述逻辑回归模型，获得所述聚合后的每条数据变化记录对应的预测数据变化概率；

第五获得子单元，用于基于所述聚合后的每条数据变化记录对应的预测数据变化概率和统计数据变化概率训练所述逻辑回归模型的参数，获得所述预设数据变化概率预测模型。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，第一待处理医疗数据对应预设抽取比对时间范围；预设抽取比对时间范围是基于目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的；将每条第二待处理医疗数据输入预设数据变化概率预测模型，获得每条第二待处理医疗数据的预测数据变化概率；预设数据变化概率预测模型是基于聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；将预测数据变化概率大于等于预设概率的第二待处理医疗数据、第一待处理医疗数据确定为待比对医疗数据。由此可见，预设抽取比对时间范围对应的第一待处理医疗数据涵盖大部分变化医疗数据，预测数据变化概率大于等于预设概率的第二待处理医疗数据涵盖剩余小部分变化医疗数据；将这些数据作为待比对医疗数据，既能涵盖基本所有的变化医疗数据，又尽可能降低待比对医疗数据的数据量，所确定的待比对医疗数据较为合适，以便后续提高医疗数据一致性抽取比对的效率和准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种确定待比对医疗数据的方法的流程示意图；

图3为本申请实施例提供的一种确定待比对医疗数据的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在医疗数据进行数据采集过程中，需要快速对医疗数据进行一致性抽取比对，保障医疗数据一致性。现阶段，一般是选择一段时间范围内医疗数据确定为待比对医疗数据进行全量比对。但是，一段时间范围是预先设置的，若一段时间范围过大，则确定的待比对医疗数据的数据量过大，全量比对耗时太长；若一段时间范围过小，则确定的待比对医疗数据数据量过小，缺失很多变化医疗数据，无法保障医疗数据一致性。即，采用现有技术方式在数据采集时对医疗数据进行一致性抽取比对，所确定的待比对医疗数据不合适。

为了解决这一问题，在本申请实施例中，将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，第一待处理医疗数据对应预设抽取比对时间范围；预设抽取比对时间范围是基于目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的；将每条第二待处理医疗数据输入预设数据变化概率预测模型，获得每条第二待处理医疗数据的预测数据变化概率；预设数据变化概率预测模型是基于聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；将预测数据变化概率大于等于预设概率的第二待处理医疗数据、第一待处理医疗数据确定为待比对医疗数据。可见，预设抽取比对时间范围对应的第一待处理医疗数据涵盖大部分变化医疗数据，预测数据变化概率大于等于预设概率的第二待处理医疗数据涵盖剩余小部分变化医疗数据，将这些数据作为待比对医疗数据，既能涵盖基本所有的变化医疗数据，又尽可能降低待比对医疗数据的数据量，所确定的待比对医疗数据较为合适，以便后续提高医疗数据一致性抽取比对的效率和准确率。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括数据采集器101、数据处理器102和数据库103。其中，数据采集器101采集目标数据类型的多条待处理医疗数据发送至数据处理器102；数据处理器102采用本申请实施例提供的实施方式确定待比对医疗数据，将待比对医疗数据与数据库103中对应的数据进行比对，基于比对结果更新数据库103中的数据，以保障医疗数据一致性。

首先，在上述应用场景中，虽然将本申请实施例提供的实施方式的动作描述由数据处理器102执行；但是，本申请实施例在执行主体方面不受限制，只要执行了本申请实施例提供的实施方式所公开的动作即可。

其次，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中确定待比对医疗数据的方法和装置的具体实现方式。

示例性方法

参见图2，示出了本申请实施例中一种确定待比对医疗数据的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，所述第一待处理医疗数据对应预设抽取比对时间范围；所述预设抽取比对时间范围是基于所述目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的。

在医疗数据进行数据采集过程中，需要快速对医疗数据进行一致性抽取比对，保障医疗数据一致性。现有技术中选择预先设置的一段时间范围内医疗数据确定为待比对医疗数据进行全量比对，若预先设置的一段时间范围过大，待比对医疗数据的数据量过大，全量比对耗时太长；若预先设置的一段时间范围过小，待比对医疗数据的数据量过小，缺失很多变化医疗数据，无法保障医疗数据一致性；即，该方式所确定的待比对医疗数据不合适。

因此，在本申请实施例中，医疗数据的任意一种数据类型均可作为目标数据类型，比如，医嘱类型、诊断类型、病历类型等等；在目标类型的医疗数据进行数据采集过程中，预先记录目标数据类型的历史医疗数据的数据变化情况，以得到目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录；分别计算各个预设时间范围的数据变化比例，将大于等于预设比例的数据变化比例对应的预设时间范围确定为预设抽取比对时间范围。基于此，针对目标数据类型的多条待处理医疗数据而言，利用预设抽取比对时间范围将其划分为多条第一待处理医疗数据和多条第二待处理医疗数据，其中对应预设抽取比对时间范围的多条待处理医疗数据作为第一待处理医疗数据，多条第一待处理医疗数据涵盖了大部分变化医疗数据，其数据量相对而言较小；目标数据类型的多条待处理医疗数据中除多条第一待处理医疗数据之外的其他多条待处理医疗数据作为多条第二待处理医疗数据，多条第二待处理医疗数据涵盖了剩余小部分变化医疗数据和大量的无变化医疗数据，后续需要进行筛选。

具体地，目标数据类型的医疗数据所对应的预设抽取比对时间范围的确定过程是：首先，每次采集第一预设时间段内目标数据类型的历史医疗数据与上一次进行全量比对，记录数据变化情况；连续执行第二预设时间段，累计足够的数据变化记录，以得到多条数据变化记录；例如，第一预设时间段可以为最近3个月，第二预设时间段可以为1个月等等。其次，在上述多条数据变化记录中，存在相同患者的多条数据变化记录，需要对其进行聚合，同时统计聚合后所对应的数据变化次数和数据变化时间区间，以得到聚合后的多条数据变化记录，其中，数据变化时间区间是指数据变化的记录时间的最大值与最小值的差值。然后，基于聚合后的数据变化记录中数据变化时间区间的数值，可以预先设置多个预设时间范围，在聚合后的每条数据变化记录中数据变化次数和数据变化时间区间的数值基础上，可以计算各个预设时间范围的数据变化比例。最后，预先设置一个数据变化比例下限为预设比例，将大于等于预设比例的数据变化比例对应的预设时间范围，确定为预设抽取比对时间范围；例如，预设比例可以为1％等。即，在本申请实施例一种可选的实施方式中，所述预设抽取比对时间范围的确定步骤例如可以包括以下步骤：

步骤A：采集第一预设时间段内所述目标数据类型的历史医疗数据进行全量比对，记录数据变化情况连续执行第二预设时间段，获得多条数据变化记录。

在本申请实施例一种可选的实施方式中，所述数据变化记录的数据格式包括以下数据项：来源系统、数据主键、数据操作、记录时间和患者标识。其中，来源系统表示产生历史医疗数据的原始业务系统；数据主键表示历史医疗数据的业务主键；数据操作表示历史医疗数据的数据操作类型，比如修改或者删除等；记录时间表示历史医疗数据的记录时间；患者标识表示历史数据所关联患者的唯一标识。例如，数据变化记录的数据格式如下表格1所示：

表格1数据变化记录的数据格式

来源系统	数据主键	数据操作	记录时间	患者标识
					……	……	……	……	……

步骤B：聚合相同患者的数据变化记录，统计对应的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录。

在步骤B具体实施时，首先，可以根据每条变化医疗数据中患者标识或数据主键的数据内容，找到相同患者的数据变化记录将其聚合；然后，在相同患者的变化医疗数据中数据操作、记录时间的数据内容的基础上，可以统计相同患者的数据变化次数和数据变化时间区间，以得到聚合后的多条数据变化记录。因此，在本申请实施例一种可选的实施方式中，所述步骤B例如可以包括以下步骤：

步骤B1：基于每条变化医疗数据中所述患者标识或所述数据主键的数据内容，聚合所述相同患者的数据变化记录。

步骤B2：基于所述相同患者的变化医疗数据中所述数据操作、所述记录时间的数据内容，统计所述相同患者的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录。

在本申请实施例一种可选的实施方式中，所述聚合后的数据变化记录的数据格式包括以下数据项：来源系统、数据主键、数据变化次数和数据变化时间区间。数据变化次数是指聚合相同患者的数据变化记录后，每条数据变化记录对应的数据操作总次数，数据变化时间区间是指聚合相同患者的数据变化记录后，每条数据变化记录对应的最大记录时间与最小记录时间的差值。

例如，聚合后的数据变化记录的数据格式如下表格2所示：

表格2聚合后的数据变化记录的数据格式

来源系统	数据主键	数据变化次数	数据变化时间区间
				……	……	……

步骤C：基于聚合后的每条数据变化记录中数据变化次数和数据变化时间区间的数值，计算各个所述预设时间范围的数据变化比例。

作为一种示例，针对医嘱类型的历史医疗数据，执行步骤A-步骤C后得到各个预设时间范围的数据变化比例为：2日以下的数据变化比例78％，2-3日的数据变化比例52％，3-7日的数据变化比例12％，7-10日的数据变化比例8％，10-15日的数据变化小于1％，15-20日以下的数据变化比例小于1％，20-30日以下的数据变化比例小于1％，30-45日以下的数据变化比例小于1％，45-60日以下的数据变化比例小于1％，60日以上的数据变化比例小于1％。

步骤D：将大于等于所述预设比例的数据变化比例对应的预设时间范围，确定为所述预设抽取比对时间范围。

在上述示例的基础上，假设预设比例为1％，将大于等于预设比例1％的数据变化比例78％、52％、12％分别对应的预设时间范围2日以下、2-3日、3-7日确定为预设抽取比对时间范围，则预设抽取比对时间范围为7日内。

步骤202：将每条所述第二待处理医疗数据输入预设数据变化概率预测模型，获得每条所述第二待处理医疗数据的预测数据变化概率；所述预设数据变化概率预测模型是基于所述聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的。

在本申请实施例中，为了从多条第二待处理医疗数据中筛选得到剩余小部分变化医疗数据，需要预测每条第二待处理医疗数据的数据变化概率，通过数据变化概率判断每条第二待处理医疗数据是否为变化医疗数据。为了预测每条第二待处理医疗数据的数据变化概率，需要预先基于上述聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型，将训练好的逻辑回归模型作为预设数据变化概率预测模型，该预设数据变化概率预测模型用于预测输入的医疗数据的数据变化概率。即，将每条第二待处理医疗数据输入预设数据变化概率预测模型，即可输出每条第二待处理医疗数据的预测数据变化概率。

具体地，预设数据变化概率预测模型的获得过程是：首先，对上述聚合后的多条数据变化记录和对应的其他业务医疗数据进行特征提取，以得到多条数据变化特征，以便适应逻辑回归模型；例如，采用ONE-HOT编码处理、离散化处理等方式实现特征提取。然后，将每条数据变化特征输入逻辑回归模型，以输出数据变化概率作为聚合后的每条数据变化记录对应的预测数据变化概率。最后，在聚合后的每条数据变化记录对应的预测数据变化概率和统计数据变化概率的基础上，利用逻辑回归模型的损失函数，迭代训练逻辑回归模型的参数直至训练完成，将训练好的逻辑回归模型作为预设数据变化概率预测模型。因此，在本申请实施例一种可选的实施方式中，所述预设数据变化概率预测模型的获得步骤例如可以包括以下步骤：

步骤E：对所述聚合后的多条数据变化记录和对应的其他业务医疗数据进行特征提取，获得多条数据变化特征。

其中，其他业务医疗数据是基于数据变化记录中患者标识的数据内容所关联的其他业务系统的数据中获取的，例如可以是患者类型数据、住院医师数据、主治医师数据、主任医师数据、门诊医师数据、主诊断数据、手术数据、年龄数据、已住院天数数据中的一种或多种数据。

步骤F：将每条数据变化特征输入所述逻辑回归模型，获得所述聚合后的每条数据变化记录对应的预测数据变化概率。

步骤G：基于所述聚合后的每条数据变化记录对应的预测数据变化概率和统计数据变化概率训练所述逻辑回归模型的参数，获得所述预设数据变化概率预测模型。

步骤203：将所述预测数据变化概率大于等于预设概率的第二待处理医疗数据、多条所述第一待处理医疗数据确定为待比对医疗数据。

在本申请实施例中，对于多条第一待处理医疗数据而言，由于多条第一待处理医疗数据涵盖了大部分变化医疗数据，其数据量相对而言较小，因此，可直接将多条第一待处理医疗数据作为待比对医疗数据。对于多条第二待处理医疗数据而言，预先设置一个数据变化概率下限为预设概率，在获得每条第二待处理医疗数据的预测数据变化概率后，判断是否大于等于预设概率；若是，表示该条第二待处理医疗数据为变化医疗数据；因此，需要将预测数据变化概率大于等于预设概率的第二待处理医疗数据作为待比对医疗数据，预测数据变化概率大于等于预设概率的第二待处理医疗数据的数据量较小。即，采用本申请实施例的方式，既能涵盖基本所有的变化医疗数据，又尽可能降低待比对医疗数据的数据量，所确定的待比对医疗数据较为合适，以便后续提高医疗数据一致性抽取比对的效率和准确率。

还需要说明的是，在步骤203确定待比对医疗数据后，将待比对医疗数据的数据内容拼接后转码为哈希串，与数据库中对应的医疗数据的数据内容拼接后转码的哈希串进行比对，保障医疗数据一致性。

通过本实施例提供的各种实施方式，将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，第一待处理医疗数据对应预设抽取比对时间范围；预设抽取比对时间范围是基于目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的；将每条第二待处理医疗数据输入预设数据变化概率预测模型，获得每条第二待处理医疗数据的预测数据变化概率；预设数据变化概率预测模型是基于聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；将预测数据变化概率大于等于预设概率的第二待处理医疗数据、第一待处理医疗数据确定为待比对医疗数据。由此可见，预设抽取比对时间范围对应的第一待处理医疗数据涵盖大部分变化医疗数据，预测数据变化概率大于等于预设概率的第二待处理医疗数据涵盖剩余小部分变化医疗数据；将这些数据作为待比对医疗数据，既能涵盖基本所有的变化医疗数据，又尽可能降低待比对医疗数据的数据量，所确定的待比对医疗数据较为合适，以便后续提高医疗数据一致性抽取比对的效率和准确率。

示例性装置

参见图3，示出了本申请实施例中一种确定待比对医疗数据的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

划分单元301，用于将目标数据类型的多条待处理医疗数据划分为多条第一待处理医疗数据和多条第二待处理医疗数据，所述第一待处理医疗数据对应预设抽取比对时间范围；所述预设抽取比对时间范围是基于所述目标数据类型的历史医疗数据对应的聚合后的多条数据变化记录，计算各个预设时间范围的数据变化比例，由大于等于预设比例的数据变化比例对应的预设时间范围确定的；

第一获得单元302，用于将每条所述第二待处理医疗数据输入预设数据变化概率预测模型，获得每条所述第二待处理医疗数据的预测数据变化概率；所述预设数据变化概率预测模型是基于所述聚合后的多条数据变化记录关联对应的其他业务医疗数据和对应的统计数据变化概率训练逻辑回归模型获得的；

第一确定单元303，用于将所述预测数据变化概率大于等于预设概率的第二待处理医疗数据、多条所述第一待处理医疗数据确定为待比对医疗数据。

在本申请实施例一种可选的实施方式中，所述装置还包括预设抽取比对时间范围的确定单元，所述第二确定单元包括：

在本申请实施例一种可选的实施方式中，所述数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据操作、记录时间和患者标识；

所述聚合后的数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据变化次数和数据变化时间区间。

在本申请实施例一种可选的实施方式中，所述第二获得子单元包括：

在本申请实施例一种可选的实施方式中，所述装置还包括预设数据变化概率预测模型的第二获得单元，所述第二获得单元包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

Claims

1.一种确定待比对医疗数据的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设抽取比对时间范围的确定步骤包括：

采集第一预设时间段内所述目标数据类型的历史医疗数据进行全量比对，记录数据变化情况，连续执行第二预设时间段，获得多条数据变化记录；

3.根据权利要求2所述的方法，其特征在于，所述数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据操作、记录时间和患者标识；

所述聚合后的数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据变化次数和数据变化时间区间。

4.根据权利要求3所述的方法，其特征在于，所述聚合相同患者的数据变化记录，统计对应的数据变化次数和数据变化时间区间，获得所述聚合后的多条数据变化记录，包括：

5.根据权利要求1所述的方法，其特征在于，所述预设数据变化概率预测模型的获得步骤包括：

6.一种确定待比对医疗数据的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括预设抽取比对时间范围的第二确定单元，所述第二确定单元包括：

第一获得子单元，用于采集第一预设时间段内所述目标数据类型的历史医疗数据进行全量比对，记录数据变化情况，连续执行第二预设时间段，获得多条数据变化记录；

8.根据权利要求7所述的装置，其特征在于，所述数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据操作、记录时间和患者标识；

所述聚合后的数据变化记录的数据格式包括以下数据项：

来源系统、数据主键、数据变化次数和数据变化时间区间。

9.根据权利要求8所述的装置，其特征在于，所述第二获得子单元包括：

10.根据权利要求6所述的装置，其特征在于，所述装置还包括预设数据变化概率预测模型的第二获得单元，所述第二获得单元包括：