CN115545955A

CN115545955A - 医疗档案数据中异常数据的检测方法、装置和电子设备

Info

Publication number: CN115545955A
Application number: CN202211282263.7A
Authority: CN
Inventors: 吴及; 刘喜恩; 苏新鹏
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-12-30
Anticipated expiration: 2042-10-19

Abstract

本发明提供了一种医疗档案数据中异常数据的检测方法、装置及电子设备。方法包括：获取多位患者各自的医疗档案数据；医疗档案数据均包括：患者标识、结算数据和就诊数据；采用基于数据驱动的判断方式对多组结算数据进行异常核验处理，得到多组结算数据对应的核验结果数据，以及确定核验结果数据中核验异常数据对应的第一患者标识数据；将多组就诊数据分别与预设医疗知识库中的库数据进行比较处理，得到多组就诊数据对应的比较结果数据，以及确定比较结果数据中比对异常数据对应的第二患者标识数据；当第一患者标识数据与第二患者标识数据具有相同的患者标识时，则确定医疗档案数据中存在异常数据。能够提高异常数据的检测效率和准确性。

Description

医疗档案数据中异常数据的检测方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种医疗档案数据中异常数据的检测方法、装置和电子设备。

背景技术

目前，医疗保障制度是一个国家、一个地区按照保险原则为该地区的人民解决就诊、医疗等问题而筹集、分配医疗保障基金问题的制度。由于医疗保障制度所涉及的金额、人群以及其覆盖面都是相当巨大的，这一情况也就使得个人或组织伪造病例以及和医院勾结骗取医疗保障基金的行为层出不穷，造成医疗保障基金的大量流失。为了对医疗档案数据中的异常数据进行检测，采用的检测方式包括：最原始的人工审查、现场抽查以及利用基础的统计分析方法对明显不合理的情况进行范围性审查。上述进行医疗档案数据异常检测的方式的准确率较低。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种医疗档案数据中异常数据的检测方法、装置和电子设备。

第一方面，本发明实施例提供了一种医疗档案数据中异常数据的检测方法，包括：

获取多位患者各自的医疗档案数据；所述多位患者中的每位患者的医疗档案数据均包括：患者标识、结算数据和就诊数据；

采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理，得到多组所述结算数据对应的核验结果数据，以及确定所述核验结果数据中核验异常数据对应的第一患者标识数据；

将多组所述就诊数据分别与预设医疗知识库中的库数据进行比较处理，得到多组所述就诊数据对应的比较结果数据，以及确定所述比较结果数据中比对异常数据对应的第二患者标识数据；

当所述第一患者标识数据与所述第二患者标识数据具有相同的患者标识时，则确定所述医疗档案数据中存在异常数据。

第二方面，本发明实施例还提供了一种医疗档案数据中异常数据的检测装置，包括：

采集单元，用于获取多位患者各自对应的医疗档案数据；每位患者的医疗档案数据均包括：结算数据和就诊数据；

核验单元，用于采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理并得到多组所述结算数据对应的核验结果数据，以及确定所述核验结果数据中核验异常数据对应的第一患者名单数据；

比较单元，用于将多组所述就诊数据分别与预设医疗知识库中的库数据进行比较处理得到多组所述就诊数据对应的比较结果数据，以及确定所述比较结果数据中比对异常数据对应的第二患者名单数据；

检测单元，用于确定所述第一患者名单数据与所述第二患者名单数据出现数据重合，则确定所述医疗档案数据中存在异常数据。

第三方面，本发明实施例还提供了一种电子设备，包括处理器以及存储器，存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如第一方面所述的方法。

第四方面，本发明实施例还提供了一种可读存储介质，可读存储介质上包括计算机程序，计算机程序被计算机运行时，执行如第一方面所述的方法。

本申请实施例上述第一方面至第四方面提供的方案中，获取患者的医疗档案数据，通过基于数据驱动的判断方式对一部分医疗档案数据进行核验，可以获得在数据维度判定为可能存在欺诈行为的异常数据，实现对患者群体的医疗档案数据进行整体性分析；通过以医学知识作为先验条件得到的医疗知识库对另一部分医疗档案数据进行核对，可以获取在医学知识维度中存在异常的异常数据；实现对患者个体的个体性分析；与相关技术中采用人工审查、现场抽查以及利用基础的统计分析方进行范围性审查的方式相比，可以将基于数据驱动的判断方式的综合整体性分析和基于医疗知识库的个体性分析结合起来，对医疗档案数据进行异常检测，能够提高异常数据的检测效率和准确性。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种医疗档案数据中异常数据的检测方法的流程图；

图2示出了本发明实施例2所提供的一种医疗档案数据中异常数据的检测装置的结构示意图；

图3示出了本发明实施例4所提供的一种计算机可读存储介质的结构示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

医疗保险基金审查，对于保障医疗保险基金的合理调用、维护人民的生命财产安全甚至对于维护社会的稳定都发挥着巨大的作用。然而，在现实的医疗保险基金审查中，往往采用的方式还是最原始的人工审查、现场抽查以及利用基于数据驱动的分析方法对明显不合理的情况进行范围性审查。基于数据驱动的分析方法是从医疗的就诊数据和结算数据中选出可量化的指标，搭建无监督的模型或者有监督的模型对这些特征进行组合打分或者直接进行分类。一方面，医疗数据的产生速度极快；另一方面，医保欺诈行为往往具有极高的“迷惑性”，即在很多情况下医保欺诈的医疗数据和正常的医疗数据差异性较小。再一方面，医疗行为本身具有极高的互异性，换句话说即使两个人都患有同一种疾病，医生在其分别进行治疗的时候，由于患者本身基础性疾病的不同，对于其具体的治疗过程可能差异巨大。而基于数据驱动的方法往往并不会考虑到这些实际情况。因此基于数据驱动的医保欺诈行为检查方法存在一个很大的问题：在审查过程中无法有效的发现具有迷惑性质的欺诈数据，审查准确率较低。

基于此，本发明实施例提出的一种医疗档案数据中异常数据的检测方法、装置、电子设备和可读存储介质，获取患者的医疗档案数据，通过基于数据驱动的判断方式对一部分医疗档案数据进行核验，可以获得在数据维度判定为可能存在欺诈行为的异常数据，实现对患者群体的医疗档案数据进行整体性分析；通过以医学知识作为先验条件得到的医疗知识库对另一部分医疗档案数据进行核对，可以获取在医学知识维度中存在异常的异常数据；实现对患者个体的个体性分析；与相关技术中采用人工审查、现场抽查以及利用基础的统计分析方进行范围性审查的方式相比，可以将基于数据驱动的判断方式的综合整体性分析和基于医疗知识库的个体性分析结合起来，对医疗档案数据进行异常检测，能够提高异常数据的检测效率和准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明做进一步详细的说明。

实施例1

本发明实施例提供的一种医疗档案数据中异常数据的检测方法示意图，如图1所示，该医疗档案数据中异常数据的检测方法包括以下步骤：

S101：获取多位患者各自的医疗档案数据；所述多位患者中的每位患者的医疗档案数据均包括：患者标识、结算数据和就诊数据。

在本步骤中，获取的医疗档案数据可以从医院的医院信息系统或医院信息管理系统(Hospital Information System，HIS系统，是指利用计算机软硬件技术和网络通信技术等现代化手段，对医院及其所属各部门的人流、物流、财流进行综合管理，对在医疗活动各阶段产生的数据进行采集、存储、处理、提取、传输、汇总，加工形成各种信息，从而为医院的整体运行提供全面的自动化管理及各种服务的信息系统)中获取。然后从获取的数据中确定患者标识、结算数据和就诊数据。

本实施例中，患者标识可以是患者的姓名、证件号码等与患者有唯一对应关系的数据，也可以是根据是患者的姓名、证件号码等生成的与患者有唯一对应关系的数据。结算数据是与患者相关的结算信息，包括个人的基本可量化信息，例如：经过编码的就诊人性别、就诊年龄、住院天数、医疗结算资源信息、险种类别和人员类别。就诊数据是与诊疗机构相关的就诊医学信息，例如：诊疗信息、病程信息、用药信息、手术安排信息、科室信息、疾病诊断相关分组信息和病程记录信息。

需要说明的是，多位患者中的每位患者的各自的医疗档案数据设定为一组医疗档案数据，也就是说，多位患者对应了多组医疗档案数据。另外，可以理解的是，使用结算数据或就诊数据时，需要与患者标识一同使用，以便确定结算数据或就诊数据的来源或对应的患者。

S102：采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理，得到多组所述结算数据对应的核验结果数据，以及确定所述核验结果数据中核验异常数据对应的第一患者标识数据。

在本步骤中，通过数据驱动的判断方式对多组所述结算数据进行异常核验处理，是从整体的层次去锁定医疗档案数据中的异常数据。

所述数据驱动的判断方式，包括：随机森林算法、异常数据检测法和拟合回归算法。

在本实施例中，可以采用统计学上的方法，例如基于“伪标签”的随机森林算法。也可以从数据本身出发，通过依据异常数据本身一定或多或少的与正常数据之间存在着一定的差异这一问题本身出发的，采用高维的异常数据检测方法。还可以通过分析患者的医疗行为是否在患者自身因素所导致的预期的资源信息的可信范围区间内，通过这种方式反向推理患者的医疗数据本身是否异常，具体是采用数据端模型的拟合回归算法对医疗数据进行判断，实现反向推理患者的医疗数据本身是否异常。

本步骤中是采用数据驱动的判断方式对多组结算数据进行异常核验处理，能够得到符合核验规则的正常数据和不符合核验规则异常数据，通过结算数据对应的患者标识可以得到核验结果数据中核验异常数据对应的患者标识，确定该核验异常数据对应的患者标识为第一患者标识数据。

本步骤中基于数据驱动的判断方式，具体包括如下内容：

实现方式一，基于随机森林算法对多组结算数据进行异常核验处理，具体包括：

基于预先训练的随机森林模型对每组所述结算数据进行分类处理，得到该组所述结算数据对应的标签。

其中，标签用于表征结算数据是否为真实数据。随机森林模型是采用随机森林算法并基于历史结算数据和历史结算数据对应标签进行训练得到的。

在本实施例中，随机森林模型是通过如下步骤得到的：

首先，获取历史结算数据，将历史结算数据中的每一维度(例如：历史结算数据包括了就诊年龄、住院天数和医疗结算资源信息的三个维度的数据)经过标准分数(standardscore，简称Z-score，也称为Z分数)的标准化之后，依据其分布进行初次伪标注。分布在两端的数据先定义为伪标签的负样本，然后将每一棵小树的结果用独热编码(one-hot，又称为一位有效编码)进行编码。例如就诊年龄、住院天数、医疗结算资源信息为正常水平即编码结果为[1,1,1]；假设在统计上除住院天数处于异常分布外其余均正常，则编码结果为[1,0,1]。

在得到编码结果之后，通过该编码结果生成伪标签，具体可以根据编码结果中的每一项0或1通过采用投票法或者加权法得到伪标签0或伪标签1，伪标签0用来标识该编码结果对应的历史结算数据是正常的，伪标签1用来标识该编码结果对应的历史结算数据是异常的。然后直接利用伪标签作为历史结算数据的分类标签，之后通过随机抽取一定比例的数量的数据并以此进行构建原始随机森林模型并进行训练，得到随机森林模型。在训练好随机森林模型之后，利用这一模型对未获取伪标签的结算数据进行分类，至此通过这一流程，可以获取在“伪标签”的限定条件下的异常数据。

在本实施例中，通过随机森林模型对多组所述结算数据进行异常核验处理，得到的核验结果数据包括了标签为伪标签0的结算数据和标签为伪标签1的结算数据。确定核验结果数据中标签为伪标签0的结算数据为核验异常数据。标签为伪标签0的结算数据对应的患者标识即为核验异常数据对应的第一患者标识数据。

实现方式二，基于异常数据检测法对多组结算数据进行异常核验处理，具体包括：

采用主成分分析法对多组所述结算数据进行数据降维处理得到多组降维数据；采用基于密度的聚类算法对多组所述降维数据进行聚类处理得到离群数据和聚类数据。

采用主成分分析法对结算数据进行数据降维处理的目的是为了降维以及信息浓缩，是从三个维度的指标数据中得到k个维度的指标数据。这里k的取值是小于原先数据维度的正整数。本实施例中，对结算数据进行数据降维处理后，从三个维度的指标数据中选取特征根大于1的维度数据。

例如：结算数据包括了就诊年龄、住院天数和医疗结算资源信息的三个维度的数据，对该三个维度的结算数据进行数据降维处理，确定就诊年龄、住院天数和医疗结算资源信息各自对应的特征根，从三个特征中选取出特征根大于1的住院天数和医疗结算资源信息。住院天数和医疗结算资源信息构成了降维数据。

在本实施例中，考虑到维数陷阱问题，即当结算数据维度太高的时候，其数据会越稀疏，另一方面，维度太高也不利于聚类模型的计算收敛。因此，在进行异常数据检测之前，利用主成分分析方法对结算数据进行数据降维。

由于直接用所有的降维数据进行密度聚类分析，其收敛时间随着数据量爆炸性的增长，因此，在这里需要进行分批次的对降维数据进行聚类，通过分批的方式能够实现对降维数据的准确聚类，进而实现提高聚类的精度。由于数据取自于真实的数据，所以数据本身是分散的，即在进行随机取样的时候，全部的降维数据视作为一个整体数据，将降维数据划分为多个批次，每次对一个批次的降维数据进行聚类。每一批次数据的分布和整体的数据分布可以认定为一致。

具体的流程包括：将获取的结算数据进行主成分分析(Principal ComponentAnalysis，PCA)方法得到降维数据，然后对降维数据分批次进行密度聚类，在多次密度聚类之后会得到一个离群数据(记为存疑数据)和一个聚类数据(记为正常数据)。

本实施例中，通过聚类处理得到的核验结果数据包含了离群数据和聚类数据。确定核验结果数据中的离群数据对应的结算数据为异常数据。确定离群数据对应的结算数据患者标识为核验异常数据对应的第一患者标识数据。

进一步的，为了提高聚类处理得到的数据的准确性，在一次聚类处理后，进而二次聚类。也就是说，在采用基于密度的聚类算法对多组所述降维数据进行聚类处理的步骤之后，分别抽取所述离群数据中部分离群数据和所述聚类数据中部分聚类数据，并利用抽取到的所述部分离群数据和所述部分聚类数据形成迭代数据；采用基于密度的聚类算法对所述迭代数据进行聚类处理得到迭代离群数据和迭代聚类数据。

需要说明的是，在第二次进行聚类的时候，为了保证异常数据的离群数据环境相同，所选取的正常数据为降维数据被划为同一批次且标记为1的数据为同一批数据。另外，为了保证异常数据在二次聚类中仍然为少量样本数据，即保证在后续处理中不会将正常数据排斥认定为异常数据。至少保证聚类数据和离群数据的比例大于8：2。通过依据一定比例从存疑数据和正常数据中抽取数据进行二次聚类，确保所筛选的数据为异常数据，能够提高聚类处理得到的数据的准确性。

实现方式三，基于拟合回归算法对多组结算数据进行异常核验处理，具体包括：

统计多组所述结算数据中各组所述结算数据的总体资源信息；计算各组所述结算数据中每个维度的维度数据与总体资源信息数据之间的相关性系数；确定大于预设系数值的相关性系数所对应的目标维度数据；采用最小二乘法对多组所述目标维度数据进行拟合处理得到拟合曲线；确定拟合曲线的置信区间以及通过所述置信区间对所述多组所述结算数据进行分类处理。需要说明的是，目标维度数据是大于预设系数值的相关性系数对应维度的维度数据。

在本实施例中，通过分析医疗的行为是否在其一系列因素所导致的预期的资源信息的可信范围区间反推理这一医疗行为本身是否异常。

首先确定总体资源信息为因变量。自变量的选取和由自变量的特征与因变量的相关性有关，即在选取自变量之前先构建一个完整的特征量与总体资源信息之间的相关性系数。这里选取的相关性系数为皮尔逊相关系数(Pearson CorrelationCoefficient，Pearson相关性系数)。通过皮尔逊相关系数可以有效的筛选出其中与总体资源信息具有相关性的序列性变量。其余的例如性别、分组等编码表示的变量可以适用肯德尔相关性系数(kendall秩相关系数，又称作和谐系数)。

然后，利用这些选出的序列性变量去进行最小二乘法的拟合，并同时设定三西格玛准则(3sigma，又称为拉依达准则)为置信区间，将三西格玛准则外的数据认定为可能存在医保欺诈行为所产生的异常数据。

本实施例中，核验结果数据包括置信区间内的数据和置信区间外的数据，确定置信区间外的数据为异常数据；确定置信区间外的数据对应的患者标识，该部分患者标识即为核验异常数据对应的第一患者标识数据。

需要说明的是，本发明实施例的优选方式是同时采用上述公开的实现步骤S102的三种方式。同时采用三种实现方式得到三种第一患者标识数据，得到的三种第一患者标识数据可以采用交集、加权分类或引导聚集的方式进行处理，得到最终的第一患者标识数据。

需要说明的是，以上实现步骤S102的三种方式分别是从统计学、高维数据特征以及回归问题本身进行拟合分析处理的。在这里，异常的医疗就诊行为即使在某一层面与正常的数据中具有一定的偏差，但是，假设其在每一小项或者在其中两个都具有显著的离群特性，其可疑度就非常高了，至少可以将这些数据认定为高度可以数据，进行二次评估。

S103：将多组所述就诊数据分别与预设医疗知识库中的库数据进行比较处理，得到多组所述就诊数据对应的比较结果数据，以及确定所述比较结果数据中比对异常数据对应的第二患者标识数据。

在本步骤中，依据具体的医学知识去定点的分析就诊数据，实现可以在局部精确的定位异常数据。

预设医疗知识库是将药物的说明书编写成对应的资源库或数据库，以作为医学知识的判别模型。具体的编写规则是依据医保三目录对已获取的药物名称进行编写的，一般包括药物的适用疾病、药物的适用症状、药物的适用条件等。

具体的，依据专业的医生建立具体的药物、疾病的知识库，依据知识库中的知识构建具体的鉴定规则，以便进行专项管理以及鉴定。例如，在无指征用药检查模块中的ppi类药物检查中，ppi类药物要求有明确的诊断记录、有明确的症状情况要求。即可以依据建立的药品库中ppi类药物的药理信息与疾病知识库中满足药理信息的疾病联合判断是否符合用药情况。

本步骤中将多组就诊数据分别与预设医疗知识库中的库数据进行比较处理，能够得到每组数据对应的一个比较结果，多组比较结果构成了多组就诊数据对应的比较结果数据。

所述就诊数据，还包括：就诊名称。

具体的，基于就诊数据中的就诊名称，在预设医疗知识库查找该就诊名称，以预设医疗知识库就诊名称对应的就诊库数据为基准，判断就诊数据中的各项数据是否在就诊库数据的要求范围之内。每项数据若在要求范围之内，则该项数据是符合预设医疗知识库中对应规则的正常数据；若在要求范围之外，则该项数据是不符合预设医疗知识库中对应规则的异常数据。

其中，就诊数据中的各项数据包括：诊疗信息、病程信息、用药信息、手术安排信息、科室信息、疾病诊断相关分组信息和病程记录信息。该就诊名称为患者的用药名称或患者所患疾病的疾病名称。需要说明的是，就诊名称是用于在预设医疗知识库中进行搜索的关键字。

可以理解的是，比较结果数据中包含了符合预设医疗知识库中对应规则的正常数据以及不符合预设医疗知识库中对应规则的异常数据，通过就诊数据对应的患者标识可以得到比较结果数据中比对异常数据对应的患者标识，确定该部分的患者标识为第二患者标识数据。

S104：当所述第一患者标识数据与所述第二患者标识数据具有相同的患者标识时，则确定所述医疗档案数据中存在异常数据。

在本步骤中，将第一患者标识数据与第二患者标识数据进行取交集，确定具有相同的患者标识，确定医疗档案数据中存在异常数据。也就是说，将第一患者标识数据和第二患者标识数据中均为异常的数据(相同的患者标识对应的医疗档案数据)判定为异常数据。

进一步的，在确定医疗档案数据中存在异常数据，将第一患者标识数据与第二患者标识数据中相同的患者标识对应的医疗档案数据确定为异常数据。进而可对应异常数据进行可视化的处理。

另外，第一患者标识数据和第二患者标识数据中，其中一个判定为异常的数据判定为可疑数据，具体的，包括：

分别获取所述第一患者名单数据中未出现数据重合的第一核查数据和第二患者名单数据中未出现数据重合的第二核查数据；基于所述第一核查数据和所述第二核查数据生成用于人工核查的核查清单。将核查清单需交由人工复核。至此，完成审核。

在一可选的实施方式中，在获取多位患者各自对应的医疗档案数据的步骤之后，对多组所述医疗档案数据进行筛选处理并对筛选处理后的筛选数据进行缺省维度的补齐处理。

该筛选处理是对医疗档案数据中信息维度过低的数据进行去除；该补齐处理是对医疗档案数据中的缺省项的数据进行补齐。

通过对医疗档案数据的筛选和补齐，能够有效精简医疗档案数据，提高医疗档案数据的适用性，进而提高基于医疗档案数据的异常数据判断的准确定。

综上所述，本实施例提出的一种医疗档案数据中异常数据的检测方法，获取患者的医疗档案数据，通过基于数据驱动的判断方式对一部分医疗档案数据进行核验，可以获得在数据维度判定为可能存在欺诈行为的异常数据，实现对患者群体的医疗档案数据进行整体性分析；通过以医学知识作为先验条件得到的医疗知识库对另一部分医疗档案数据进行核对，可以获取在医学知识维度中存在异常的异常数据；实现对患者个体的个体性分析；与相关技术中采用人工审查、现场抽查以及利用基础的统计分析方进行范围性审查的方式相比，可以将基于数据驱动的判断方式的综合整体性分析和基于医疗知识库的个体性分析结合起来，对医疗档案数据进行异常检测，能够提高异常数据的检测效率和准确性。

实施例2

本实施例公开了一种医疗档案数据中异常数据的检测装置，如图2所示，该医疗档案数据中异常数据的检测装置，包括：

采集单元10，用于获取多位患者各自对应的医疗档案数据；每位患者的医疗档案数据均包括：结算数据和就诊数据；

核验单元20，用于采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理并得到多组所述结算数据对应的核验结果数据，以及确定所述核验结果数据中核验异常数据对应的第一患者名单数据；

比较单元30，用于将多组所述就诊数据分别与预设医疗知识库中的库数据进行比较处理得到多组所述就诊数据对应的比较结果数据，以及确定所述比较结果数据中比对异常数据对应的第二患者名单数据；

检测单元40，用于确定所述第一患者名单数据与所述第二患者名单数据出现数据重合，则确定所述医疗档案数据中存在异常数据。

进一步的，核验单元20包括：

第一核验子单元，用于基于预先训练的随机森林模型对每组所述结算数据进行分类处理，得到该组所述结算数据对应的标签；

其中，所述标签用于表征结算数据是否为真实数据。

进一步的，核验单元20还包括：

第二核验子单元，用于采用主成分分析法对多组所述结算数据进行数据降维处理得到多组降维数据；

采用基于密度的聚类算法对多组所述降维数据进行聚类处理得到离群数据和聚类数据。

其中，第二核验子单元包括：

聚类子单元，用于分别抽取所述离群数据中部分离群数据和所述聚类数据中部分聚类数据，并利用抽取到的所述部分离群数据和所述部分聚类数据形成迭代数据；采用基于密度的聚类算法对所述迭代数据进行聚类处理得到迭代离群数据和迭代聚类数据。

进一步的，核验单元20还包括：

第三核验子单元，用于统计多组所述结算数据中各组所述结算数据的总体资源信息数据；计算各组所述结算数据中每个维度的维度数据与总体资源信息数据之间的相关性系数；确定大于预设系数值的相关性系数所对应的目标维度数据；采用最小二乘法对多组所述目标维度数据进行拟合处理得到拟合曲线；确定拟合曲线的置信区间以及通过所述置信区间对所述多组所述结算数据进行分类处理。

在一实施例中，上述医疗档案数据中异常数据的检测装置，还包括：

预处理单元，用于对多组所述医疗档案数据进行筛选处理并对筛选处理后的筛选数据进行缺省维度的补齐处理。

生成单元，用于将所述第一患者标识数据与所述第二患者标识数据中相同的患者标识对应的医疗档案数据确定为异常数据。

本实施例中各个模块执行的流程和方式包括实施例1所公开的方式。在此不再赘述。

实施例3

本实施例公开了一种电子设备，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如上述实施例1描述的医疗档案数据中异常数据的检测方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

实施例4

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的医疗档案数据中异常数据的检测方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图3所示的一种电子设备的结构示意图，本实施例还提出一种电子设备，上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。

本实施例中，上述电子设备还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤：

获取多位患者各自的医疗档案数据；

所述多位患者中的每位患者的医疗档案数据均包括：患者标识、结算数据和就诊数据；

收发机53，用于在处理器52的控制下接收和发送数据。

其中，总线架构(用总线51来代表)，总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种医疗档案数据中异常数据的检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理，包括：

基于预先训练的随机森林模型对每组所述结算数据进行分类处理，得到该组所述结算数据对应的标签；

其中，所述标签用于表征结算数据是否为真实数据。

3.根据权利要求1或2所述的方法，其特征在于，所述采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理，包括：

采用主成分分析法对多组所述结算数据进行数据降维处理得到多组降维数据；

4.根据权利要求3所述的方法，其特征在于，在所述采用基于密度的聚类算法对多组所述降维数据进行聚类处理的步骤之后，还包括：

分别抽取所述离群数据中部分离群数据和所述聚类数据中部分聚类数据，并利用抽取到的所述部分离群数据和所述部分聚类数据形成迭代数据；

采用基于密度的聚类算法对所述迭代数据进行聚类处理得到迭代离群数据和迭代聚类数据。

5.根据权利要求3所述的方法，其特征在于，所述采用基于数据驱动的判断方式对多组所述结算数据进行异常核验处理，包括：

统计多组所述结算数据中各组所述结算数据的总体资源信息数据；

计算各组所述结算数据中每个维度的维度数据与总体资源信息数据之间的相关性系数；

确定大于预设系数值的相关性系数所对应的目标维度数据；

采用最小二乘法对多组所述目标维度数据进行拟合处理得到拟合曲线；

确定拟合曲线的置信区间以及通过所述置信区间对所述多组所述结算数据进行分类处理。

6.根据权利要求1所述的方法，其特征在于，在所述获取多位患者各自对应的医疗档案数据的步骤之后，还包括：

对多组所述医疗档案数据进行筛选处理并对筛选处理后的筛选数据进行缺省维度的补齐处理。

7.根据权利要求1所述的方法，其特征在于，在所述确定所述医疗档案数据中存在异常数据的步骤之后，还包括：

将所述第一患者标识数据与所述第二患者标识数据中相同的患者标识对应的医疗档案数据确定为异常数据。

8.一种医疗档案数据中异常数据的检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器以及存储器，所述存储器存储有计算机可读取指令，当所述计算机可读取指令由所述处理器执行时，运行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法。