CN113780417A

CN113780417A - 医保数据检测方法和装置

Info

Publication number: CN113780417A
Application number: CN202111063476.6A
Authority: CN
Inventors: 佟俊良; 范一凡; 李月
Original assignee: Taikang Insurance Group Co Ltd; Taikang Pension Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Pension Insurance Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10

Abstract

本发明公开了一种医保数据检测方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：对于多个医保数据中的任一数据，将多个医保数据中距离任一数据最近的第一预设数量的数据确定为任一数据的第一近邻数据；任一数据与任一第一近邻数据之间的距离为第一距离；将距离任一第一近邻数据最近的第二预设数量的数据确定为任一第一近邻数据的第二近邻数据；获取第二近邻数据与任一第一近邻数据之间的最大距离，将最大距离与第一距离的比较结果作为任一第一近邻数据对任一数据的投票值，第一预设数量的第一近邻数据对任一数据的投票值形成任一数据的特征向量；依据特征向量检测任一数据是否为异常数据。该实施方式能够准确鉴别医保异常数据。

Description

医保数据检测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种医保数据检测方法和装置。

背景技术

随着医疗技术的发展、人民生活水平的提高及国家医保政策的调整，医保覆盖人口数量迅速增加，但是目前也存在一些骗保行为。为降低基金支出的风险，有必要从医保数据中检测出涉及骗保等行为的异常数据。

目前，针对医保数据的异常检测方法主要有三种：

第一种为基于医学规则的传统检测方法，该方法由具备医学经验的医师提供一些关于日常门诊、住院中发生可疑费用的规则，将这些规则写入后台程序，对每笔发生的费用进行规则检测，由此发现可疑的费用。这种方法的缺点是：规则有限而新的骗保手段层出不穷，随着时间的推移，规则会逐渐失效，且更新规则需要专业的医疗经验，时效性差。

第二种基于监督式机器学习的智能检测模型，通过人工标注可疑费用数据集，训练有监督的机器学习模型来识别可疑费用，该方法是随人工智能潮流而兴起的新方法，这种方法的缺点是：人工标注的可疑数据集不能覆盖所有情况，且人工标注耗时耗力。

第三种是基于现有离群点检测算法的异常数据检测方法，近几年在医保风控领域，离群点检测算法以其不用标注数据、省人力成本的优势开始普及，但现有的离群点检测算法存在计算效率低、无法处理大量数据、可解释性差、需要人工设置污染点比例(污染点比例即异常数据比例，实际应用中，污染点比例的设置由工作人员根据经验设置，带有主观性和偶然性，容易影响模型检测的精度和稳定性，同时缺乏可解释性)等缺点。

发明内容

有鉴于此，本发明实施例提供一种医保数据检测方法和装置，能够在不依赖专业医疗经验、不依赖人工标注数据集的前提下准确鉴别医保数据中的异常数据，并且可解释性好、不需人工设置污染点比例。

为实现上述目的，根据本发明的一个方面，提供了一种医保数据检测方法。

本发明实施例的医保数据检测方法包括：对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；其中，所述任一数据与任一第一近邻数据之间的距离为第一距离；将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据；获取所述第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量；依据所述特征向量检测所述任一数据是否为异常数据。

可选地，所述将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据，包括：在所述多个医保数据中排除所述任一数据，将排除之后的数据中距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据。

可选地，所述将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，包括：在所述最大距离小于第一距离时，将所述投票值确定为异常值；在所述最大距离不小于第一距离时，将所述投票值确定为正常值。

可选地，所述依据所述特征向量检测所述任一数据是否为异常数据，包括：在所述特征向量中的异常值数量大于预设的第一阈值、或者异常值占比大于预设的第一比例时，将所述任一数据确定为异常数据。

可选地，所述方法执行在计算机集群的多个服务器，所述多个医保数据是全量医保数据根据当前的数据排列顺序被分配到一个服务器的数据，所述特征向量与所述当前的数据排列顺序对应；以及，所述方法进一步包括：对所述全量医保数据的数据排列顺序执行至少一次随机打乱，获取所述任一数据对应于每一新的数据排列顺序的至少一个特征向量；将所述至少一个特征向量与所述任一数据对应于所述当前的数据排列顺序的特征向量组合为所述任一数据的判别特征；所述依据所述特征向量检测所述任一数据是否为异常数据，包括：依据所述判别特征检测所述任一数据是否为异常数据。

可选地，所述依据所述判别特征检测所述任一数据是否为异常数据，包括：在所述判别特征中的异常值数量大于预设的第二阈值、或者异常值占比大于预设的第一比例时，将所述任一数据确定为异常数据。

可选地，所述医保数据具有以下字段中的至少一个字段：病案流水号、医院名称、医院编码、出院科室、住院天数、主要诊断、疾病编码、手术及操作编码、手术及操作名称、DRG编码、DRG名称、本次就诊总费用、日均费用、统筹支付费用、西药费、抗菌药物费、中成药费、中药饮片费、中药费、中药费占比、病理诊断费、实验室诊断费、影像学诊断费、临床诊断项目费、检查费、检查费占比；所述方法进一步包括：预先对所述医保数据中的每一字段执行Z分数标准化；在每一服务器使用球树Ball-Tree来存储所述医保数据，基于所述Ball-Tree来确定所述第一近邻数据和所述第二近邻数据。

为实现上述目的，根据本发明的另一方面，提供了一种医保数据检测装置。

本发明实施例的医保数据检测装置可以包括：近邻点计算单元，用于：对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；其中，所述任一数据与任一第一近邻数据之间的距离为第一距离；将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据；特征生成单元，用于：获取所述第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量；异常点判别单元，用于依据所述特征向量检测所述任一数据是否为异常数据。

为实现上述目的，根据本发明的又一方面，提供了一种电子设备。

本发明的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的医保数据检测方法。

为实现上述目的，根据本发明的再一方面，提供了一种计算机可读存储介质。

本发明的一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明所提供的医保数据检测方法。

根据本发明的技术方案，上述发明中的实施例具有如下优点或有益效果：

针对待检测的医保数据集中的目标数据，首先获取数据集中距离该目标数据最近的预设数量的第一近邻数据；针对其中一个第一近邻数据，获取距其最近的预设数量的第二近邻数据；接着获取第二近邻数据与该第一近邻数据的最大距离，并比较最大距离、与该第一近邻数据和目标数据之间距离的大小：如果前者小于后者，则说明目标数据并不位于该第一近邻数据邻域，则由该第一近邻数据向目标数据投一异常票(即投票值为异常值)；如果前者不小于后者，则说明目标数据位于该第一近邻数据邻域，则由该第一近邻数据向目标数据投一正常票(即投票值为正常值)，不同的第一近邻数据投出的以上投票值即可形成目标数据的特征向量，最后，检测特征向量中是否具有足够多的异常值即可实现异常检测。通过以上步骤，能够以运算量小、可解释性强的无监督方法实现异常医保数据的精确检测，有助于提高针对医保数据的风险控制应对能力，同时不依赖专利医疗经验和人工标注，不需人工设置污染点比例。进一步地，在本发明实施例中，可使用分布式计算方式进行异常检测。具体地，可以将待检测医保数据均衡分布到多个服务器，在每一服务器计算目标数据的特征向量，此后将数据排列顺序执行至少一次随机打乱，每一次随机打乱之后，都重新计算特征向量，最后，将对应于不同数据排列顺序的以上特征向量组合为目标数据的判别特征，检测特征向量中是否具有足够多的异常值即可实现异常检测。以上方式具有更高的时效性、更快的运算速度，能够处理海量数据。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是本发明实施例中医保数据检测方法的主要步骤示意图；

图2是本发明实施例中医保数据检测方法的具体执行步骤示意图；

图3是本发明实施例中医保数据检测装置的组成部分示意图；

图4是根据本发明实施例可以应用于其中的示例性系统架构图；

图5是用来实现本发明实施例中医保数据检测方法的电子设备结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要指出的是，在不冲突的情况下，本发明的实施例以及实施例中的技术特征可以相互结合。

图1是根据本发明实施例中医保数据检测方法的主要步骤示意图。

如图1所示，本发明实施例的医保数据检测方法可具体按照如下步骤执行：

步骤S101：对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；所述任一数据与任一第一近邻数据之间的距离为第一距离。

在本发明实施例中，医保数据指的是涉及到医疗保险报销、并与门诊或住院相关的数据，一条医保数据一般与一个患者以及一次就诊过程关联。实际应用中，可以预先选取与异常医保数据检测相关的字段(每一字段代表一个维度的特征)构造原始的医保数据，上述字段可如：病案流水号、医院名称、医院编码、出院科室、住院日期、出院日期、主要诊断、疾病编码、手术及操作编码、手术及操作名称、DRG编码、DRG名称、本次就诊总费用、统筹支付费用、西药费、抗菌药物费、中成药费、中药饮片费、病理诊断费、实验室诊断费、影像学诊断费、临床诊断项目费，并对以上字段进行处理，例如，将出院日期减去住院日期得到住院天数，将本次就诊总费用除以住院天数得到日均费用，将中成药费与中药饮片费相加得到中药费，将中药费除以本次就诊总费用得到中药费占比(以上住院天数、日均费用、中药费、中药费占比也作为医保数据的字段)。此后，可以对原始医保数据中的各字段进行标准化处理，例如首先对各字段执行Z分数标准化(即z-score标准化)，此后送入非线性函数ReLU，经过以上处理，即可形成上述医保数据。

在步骤S101中，针对待检测的多个医保数据中的任一数据(以下称为目标数据)，将多个医保数据中距离目标数据最近的第一预设数量(正整数)的数据确定为目标数据的第一近邻数据。具体应用中，执行以上计算使用的数据距离可以是欧式距离、曼哈顿距离、马氏距离、闵可夫斯基距离，本发明并不对此进行限制。在获取第一近邻数据时，可以采用直接比较距离的方法，即，首先计算目标数据与多个医保数据中每一其它数据的距离，之后从中选取距离最小的第一预设数量的数据作为目标数据的第一近邻数据；也可以预先使用球树(Ball-Tree)等数据结构存储医保数据，此后基于以上数据结构直接搜索距离最小的第一预设数量的数据作为目标数据的第一近邻数据，显然，后一方法具有更高的查找效率。在获得第一近邻数据之后，可以将第一近邻数据与目标数据之间的距离称为第一距离。

步骤S102：将距离任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据。

在本步骤中，针对任一第一近邻数据(以下称为特定数据)执行以下步骤。首先，可以按照直接比较数据距离的方法或者球树的方法计算距离特定数据最近的第二近邻数据。具体应用中，计算时可以首先排除目标数据以避免数据冗余，即，在上述多个医保数据中排除目标数据，将排除之后的数据中距离特定数据最近的第二预设数量(正整数)的数据确定为特定数据的第二近邻数据。

步骤S103：获取第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量。

在获得特定数据的第二近邻数据之后，首先确定第二近邻数据与特定数据之间的最大距离。此后判断最大距离、与特定数据和目标数据的距离的大小：如果特定数据和目标数据的距离大于最大距离，则说明目标数据并不位于特定数据的邻域，于是特定数据对目标数据的投票值为异常值；如果特定数据和目标数据的距离不大于最大距离，则说明目标数据位于特定数据的邻域，于是特定数据对目标数据的投票值为正常值；最后，不同的第一近邻数据对目标数据的投票值形成目标数据的特征向量。

步骤S104：依据特征向量检测所述任一数据是否为异常数据。

在本步骤中，可以通过检测目标数据的特征向量中异常值的数量来实现异常医保数据的检测。具体地，可以在特征向量中的异常值数量大于预设的第一阈值(例如第一预设数量的一半)、或者异常值占比大于预设的第一比例(例如50％)时，将目标数据确定为异常数据。

以下说明上述异常检测方法的原理：目标数据的第一近邻数据表示站在目标数据角度的与其最接近的数据，但是站在每一个第一近邻数据(如特定数据)的角度，第二近邻数据与其的最大距离能够代表其最大邻域，那么如果目标数据与特定数据的距离大于最大距离，说明站在特定数据角度，目标数据并位于其领域，也就是说，目标数据实际上并不与其接近，于是其向目标数据投出异常值表示目标数据与其距离较远。那么，如果数量较多的第一邻域数据都向目标数据投出异常值，则说明目标数据事实上距离这些数据都比较远，由于第一邻域数据是站在目标数据角度选取的具有较高权重的数据，因此这说明目标数据大概率是数据集中的离群点，于是将其确定为异常数据；反之，则为正常数据。以上算法可解释性强，运算量小，检测精度高。

以上异常检测方法可以在一个服务器执行，以下说明本发明实施例的医保数据检测方法应用在计算机集群的情况。

首先，将全量医保数据根据当前的数据排列顺序(以上数据排列顺序对应于全量医保数据)均衡分配在计算机集群的多个服务器。此后，将处在每一服务器的每一数据作为前述目标数据，执行步骤S101、步骤S102和步骤S103，得到目标数据的第一近邻数据(包括特定数据)、特定数据的第二近邻数据以及目标数据的特征向量。可以理解，在执行步骤S101、步骤S102和步骤S103时，需要在同一服务器进行计算，即不对跨服务器的数据进行计算，也即将目标数据所在服务器中存储的医保数据作为前述待检测的多个医保数据进行计算。

此后，对全量医保数据的数据排列顺序执行至少一次随机打乱(shuffle)，得到至少一个新的数据排列顺序；根据每一新的排列顺序，将全量医保数据均衡分配在计算机集群的多个服务器，执行以上步骤S101、步骤S102和步骤S103，得到目标数据对应于每一新的数据排列顺序的至少一个特征向量。可以理解，每一医保数据预先被配置索引号(用于将医保数据唯一标识)，通过该索引号能够在以上随机打乱的过程定位每一医保数据，从而实现目标数据对应于各数据排列顺序的各特征向量的关联。此后，将目标数据对应于每一数据排列顺序(包括上述当前的数据排列顺序以及至少一个新的数据排列顺序)的特征向量组合为目标数据的判别特征。示例性地，以上组合可以是拼接。

最后，依据判别特征检测目标数据是否为异常数据。具体地，可以通过检测目标数据的判别特征中异常值的数量来实现异常医保数据的检测。例如，可以在判别特征中的异常值数量大于预设的第二阈值(例如第一预设数量与数据排列顺序数量乘积的一半)、或者异常值占比大于预设的第一比例(例如50％)时，将目标数据确定为异常数据。如此，能够实现更高的异常检测效率，从而能够处理海量数据。

图2是本发明实施例中医保数据检测方法的具体执行步骤示意图，能够反映单机环境中本发明实施例的医保数据检测方法的整体流程，由于每一步骤已在前文详细说明，此处不再重复。

以下说明本发明的一个具体实施例。

该实施例的整体思路为，首先梳理各类型骗保行为，针对每类骗保行为梳理相应数据字段，对各字段进行特征处理生成待检测的医保数据，然后设计分布式近邻投票算法进行计算，最后得到医保数据中的异常数据。

该方案的整体流程主要分为四个步骤：第一步，梳理骗保类型，针对每类骗保行为整理相应的数据字段。第二步，特征工程，对每类骗保行为的字段进行数据处理及特征加工。第三步：设计分布式近邻投票算法。第四步：应用该算法到第二步中处理好的医保数据，标注异常标识。其中第三步中的分布式近邻投票算法是一种新型离群点检测算法。

第一步，梳理骗保类型，针对每类骗保行为从住院交易信息表、住院交易明细表、病案首页、诊断信息表、手术信息表、DRG(Diagnosis Related Groups，诊断相关分类)分组结果表中提取相关的数据字段。

本方案中提取的字段如下：

病案首页：病案流水号、医院名称、医院编码、出院科室、入院日期、出院日期、主要诊断、疾病编码、手术及操作编码、手术及操作名称；

DRG分组结果表：DRG编码、DRG名称；

住院交易信息表：本次就诊总费用、统筹支付费用；

住院交易明细表：西药费、抗菌药物费、中成药费、中药饮片费、病理诊断费、实验室诊断费、影像学诊断费、临床诊断项目费；

第二步，特征工程，对每类骗保行为的字段进行数据处理及特征加工。特征工程主要分为两个阶段：

第一阶段，使用原始字段组合初级特征，如使用入院日期、出院日期字段得到住院天数，再与住院总费用相除，得到日均总费用；使用西药费、抗菌药物费、中成药费、中药饮片费字段相加得到总药费，其中成药费、中药饮片费两个字段相加得到中药费，中药费与总药费相除得到中药费占药费比；使用病理诊断费、实验室诊断费、影像学诊断费、临床诊断项目费相加得到检查费，检查费与总费用相除得到检查费占比。

第二阶段，对原始医保数据中的字段进行统计学处理，其中统计公式如下：

其中，feature_handle为某字段处理后的数据，feature₀为该字段的原始数据，feature为该字段对应的随机变量，E(feature)表示该字段的期望，Var(feature)表示该字段的方差，group为医保数据的数量，f(x)为feature的概率密度函数。

经过特征处理后即形成入模数据data，即待检测的医保数据。

第三步：设计分布式近邻投票算法。

S1、数据分割存储，假设入模数据存储在集群中的n(大于1的整数)台服务器中，总数据量为g，此时数据data可表示为：

data＝[data₁,data₂,……data_n]

则在第i服务器上的数据为data_i，数据量大小为G_i，在每台服务器中的数据上使用ball-tree算法构建ball-tree来存储数据，降低后面近邻查找的时间复杂度。

S2、第i台服务器中的数据为data_i，用X_j表示data_i中第j个样本(即目标数据)，在ball-tree中查找距离X_j最近的k(即第一预设数量)个样本(即第一近邻数据)，表示如下：

XN＝[XN₁,XN₂,……XN_k]

该处使用的距离包括但不限于欧式距离、曼哈顿距离、马氏距离、闵可夫斯基距离等。

S3、样本X_j到它第i个邻居XN_i的距离为D(X_j,XN_i)，在ball-tree中查找距离XN_i最近的m(即第二预设数量)个样本(即第二近邻数据)，表示如下：

XNN＝[XNN₁,XNN₂,……XNN_m]

则XN_i到XNN_i的距离为D(XN_i,XNN_i),XN_i到它的m个最近邻居样本XNN的最大距离为：

max(D(XN_i,XNN))

＝max(D(XN_i,XNN₁),D(XN_i,XNN₂),……D(XN_i,XNN_m))

如果D(X_j,XN_i)＞max(D(XN_i,XNN))则样本X_j的第i个邻居XN_i对X_j投一票异常值，否则XN_i对X_j投一票正常值，样本X_j会收到它的邻居XN的k个投票值，表示为：X_ticket_j＝(T₁,T₂,T₃,……T_k)，其中T_i＝0or 1，其中，0表示正常值，1表示异常值。

第i台服务器中的数据data_i中的所有样本X都按照上述方法得到对应的投票向量，则样本X的投票矩阵如下：

其中，数据data_i共有G_i个样本，每个样本分别有k张票，则T_Gik是数据data_i中第G_i个样本的第k张票的投票值，此后将样本X设置为其投票矩阵X_ticket的索引值。

data＝[data₁,data₂,……data_n]分布式并行均使用以上方法计算，得到总的投票矩阵：

把data设置为总投票矩阵data_ticket的索引值。

S5、对数据data做s次shuffle，且每次shuffle均使用S1～S6中的方法计算一次data_ticket，则s个投票矩阵根据其索引值进行横向合并，得到最终的投票矩阵：

S6、由以上计算步骤可知，对数据data中的每一个样本，其投票向量(即判别特征)为：

data_vector＝[T₁,T₁,T₂,……,T_s×k]，其中投票决策逻辑为少数服从多数，即针对每一个样本的s×k票，只要

则该样本为离群样本。

第四步：应用该算法到第二步中处理好的医保数据，标注费用可疑标识。

以上算法有3个超参数：近邻数k、近邻邻居数m以及shuffle次数s，此处使用离群点检测的评估指标EM curves及网格搜索调参方法，寻找最优的超参数k、m、s。使用最优超参数k、m、s运行分布式近邻投票算法，对数据data进行打标，样本标识为正常则该样本是正常医保数据，样本标识为异常则该样本为异常医保数据。

在本发明实施例的技术方案中，针对待检测的医保数据集中的目标数据，首先获取数据集中距离该目标数据最近的预设数量的第一近邻数据；针对其中一个第一近邻数据，获取距其最近的预设数量的第二近邻数据；接着获取第二近邻数据与该第一近邻数据的最大距离，并比较最大距离、与该第一近邻数据和目标数据之间距离的大小：如果前者小于后者，则说明目标数据并不位于该第一近邻数据邻域，则由该第一近邻数据向目标数据投一异常票(即投票值为异常值)；如果前者不小于后者，则说明目标数据位于该第一近邻数据邻域，则由该第一近邻数据向目标数据投一正常票(即投票值为正常值)，不同的第一近邻数据投出的以上投票值即可形成目标数据的特征向量，最后，检测特征向量中是否具有足够多的异常值即可实现异常检测。通过以上步骤，能够以运算量小、可解释性强的无监督方法实现异常医保数据的精确检测，有助于提高针对医保数据的风险控制应对能力，同时不依赖专利医疗经验和人工标注，不需人工设置污染点比例。进一步地，在本发明实施例中，可使用分布式计算方式进行异常检测。具体地，可以将待检测医保数据均衡分布到多个服务器，在每一服务器计算目标数据的特征向量，此后将数据排列顺序执行至少一次随机打乱，每一次随机打乱之后，都重新计算特征向量，最后，将对应于不同数据排列顺序的以上特征向量组合为目标数据的判别特征，检测特征向量中是否具有足够多的异常值即可实现异常检测。以上方式具有更高的时效性、更快的运算速度，能够处理海量数据。

需要说明的是，对于前述的各方法实施例，为了便于描述，将其表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，某些步骤事实上可以采用其它顺序进行或者同时进行。此外，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是实现本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图3所示，本发明实施例提供的医保数据检测装置可以包括：近邻点计算单元301、特征生成单元302和异常点判别单元303。

其中，近邻点计算单元301可用于：对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；其中，所述任一数据与任一第一近邻数据之间的距离为第一距离；将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据；特征生成单元302可用于：获取所述第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量；异常点判别单元303可用于依据所述特征向量检测所述任一数据是否为异常数据。

在本发明实施例中，近邻点计算单元301可进一步用于：在所述多个医保数据中排除所述任一数据，将排除之后的数据中距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据。

作为一个优选方案，特征生成单元302可进一步用于：在所述最大距离小于第一距离时，将所述投票值确定为异常值；在所述最大距离不小于第一距离时，将所述投票值确定为正常值。

较佳地，异常点判别单元303可进一步用于：在所述特征向量中的异常值数量大于预设的第一阈值、或者异常值占比大于预设的第一比例时，将所述任一数据确定为异常数据。

具体应用中，所述装置300运行在计算机集群的多个服务器，所述多个医保数据是全量医保数据根据当前的数据排列顺序被分配到一个服务器的数据，所述特征向量与所述当前的数据排列顺序对应；所述装置300可进一步包括分布式计算单元，用于：对所述全量医保数据的数据排列顺序执行至少一次随机打乱，获取所述任一数据对应于每一新的数据排列顺序的至少一个特征向量；将所述至少一个特征向量与所述任一数据对应于所述当前的数据排列顺序的特征向量组合为所述任一数据的判别特征；异常点判别单元303可进一步用于：依据所述判别特征检测所述任一数据是否为异常数据。

实际应用中，异常点判别单元303可进一步用于：在所述判别特征中的异常值数量大于预设的第二阈值、或者异常值占比大于预设的第一比例时，将所述任一数据确定为异常数据。

此外，在本发明实施例中，所述医保数据具有以下字段中的至少一个字段：病案流水号、医院名称、医院编码、出院科室、住院天数、主要诊断、疾病编码、手术及操作编码、手术及操作名称、DRG编码、DRG名称、本次就诊总费用、日均费用、统筹支付费用、西药费、抗菌药物费、中成药费、中药饮片费、中药费、中药费占比、病理诊断费、实验室诊断费、影像学诊断费、临床诊断项目费、检查费、检查费占比；所述装置可进一步包括预处理单元，用于预先对所述医保数据中的每一字段执行Z分数标准化；近邻点计算单元301可进一步用于：在每一服务器使用球树Ball-Tree来存储所述医保数据，基于所述Ball-Tree来确定所述第一近邻数据和所述第二近邻数据。

根据本发明实施例的技术方案，针对待检测的医保数据集中的目标数据，首先获取数据集中距离该目标数据最近的预设数量的第一近邻数据；针对其中一个第一近邻数据，获取距其最近的预设数量的第二近邻数据；接着获取第二近邻数据与该第一近邻数据的最大距离，并比较最大距离、与该第一近邻数据和目标数据之间距离的大小：如果前者小于后者，则说明目标数据并不位于该第一近邻数据邻域，则由该第一近邻数据向目标数据投一异常票(即投票值为异常值)；如果前者不小于后者，则说明目标数据位于该第一近邻数据邻域，则由该第一近邻数据向目标数据投一正常票(即投票值为正常值)，不同的第一近邻数据投出的以上投票值即可形成目标数据的特征向量，最后，检测特征向量中是否具有足够多的异常值即可实现异常检测。通过以上步骤，能够以运算量小、可解释性强的无监督方法实现异常医保数据的精确检测，有助于提高针对医保数据的风险控制应对能力，同时不依赖专利医疗经验和人工标注，不需人工设置污染点比例。进一步地，在本发明实施例中，可使用分布式计算方式进行异常检测。具体地，可以将待检测医保数据均衡分布到多个服务器，在每一服务器计算目标数据的特征向量，此后将数据排列顺序执行至少一次随机打乱，每一次随机打乱之后，都重新计算特征向量，最后，将对应于不同数据排列顺序的以上特征向量组合为目标数据的判别特征，检测特征向量中是否具有足够多的异常值即可实现异常检测。以上方式具有更高的时效性、更快的运算速度，能够处理海量数据。

图4示出了可以应用本发明实施例的医保数据检测方法或医保数据检测装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405(此架构仅仅是示例，具体架构中包含的组件可以根据申请具体情况调整)。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如异常检测应用(仅为示例)。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所操作的异常检测应用提供支持的后台服务器(仅为示例)。后台服务器可以对接收到的数据检测请求等进行处理，并将处理结果(例如检测出的异常数据标识--仅为示例)反馈给终端设备401、402、403。

需要说明的是，本发明实施例所提供的医保数据检测方法一般由服务器405执行，相应地，医保数据检测装置一般设置于服务器405中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

本发明还提供了一种电子设备。本发明实施例的电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明所提供的医保数据检测方法。

下面参考图5，其示出了适于用来实现本发明实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中，还存储有计算机系统500操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括近邻点计算单元、特征生成单元和异常点判别单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，近邻点计算单元还可以被描述为“向特征生成单元提供第一近邻数据和第二近邻数据的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该设备执行时，使得该设备执行的步骤包括：对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；其中，所述任一数据与任一第一近邻数据之间的距离为第一距离；将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据；获取所述第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量；依据所述特征向量检测所述任一数据是否为异常数据。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种医保数据检测方法，其特征在于，包括：

对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；其中，所述任一数据与任一第一近邻数据之间的距离为第一距离；

将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据；

获取所述第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量；

依据所述特征向量检测所述任一数据是否为异常数据。

2.根据权利要求1所述的方法，其特征在于，所述将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据，包括：

在所述多个医保数据中排除所述任一数据，将排除之后的数据中距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据。

3.根据权利要求2所述的方法，其特征在于，所述将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，包括：

在所述最大距离小于第一距离时，将所述投票值确定为异常值；

在所述最大距离不小于第一距离时，将所述投票值确定为正常值。

4.根据权利要求3所述的方法，其特征在于，所述依据所述特征向量检测所述任一数据是否为异常数据，包括：

在所述特征向量中的异常值数量大于预设的第一阈值、或者异常值占比大于预设的第一比例时，将所述任一数据确定为异常数据。

5.根据权利要求3所述的方法，其特征在于，所述方法执行在计算机集群的多个服务器，所述多个医保数据是全量医保数据根据当前的数据排列顺序被分配到一个服务器的数据，所述特征向量与所述当前的数据排列顺序对应；以及，

所述方法进一步包括：对所述全量医保数据的数据排列顺序执行至少一次随机打乱，获取所述任一数据对应于每一新的数据排列顺序的至少一个特征向量；将所述至少一个特征向量与所述任一数据对应于所述当前的数据排列顺序的特征向量组合为所述任一数据的判别特征；

所述依据所述特征向量检测所述任一数据是否为异常数据，包括：依据所述判别特征检测所述任一数据是否为异常数据。

6.根据权利要求5所述的方法，其特征在于，所述依据所述判别特征检测所述任一数据是否为异常数据，包括：

在所述判别特征中的异常值数量大于预设的第二阈值、或者异常值占比大于预设的第一比例时，将所述任一数据确定为异常数据。

7.根据权利要求5或6所述的方法，其特征在于，所述医保数据具有以下字段中的至少一个字段：病案流水号、医院名称、医院编码、出院科室、住院天数、主要诊断、疾病编码、手术及操作编码、手术及操作名称、DRG编码、DRG名称、本次就诊总费用、日均费用、统筹支付费用、西药费、抗菌药物费、中成药费、中药饮片费、中药费、中药费占比、病理诊断费、实验室诊断费、影像学诊断费、临床诊断项目费、检查费、检查费占比；

所述方法进一步包括：预先对所述医保数据中的每一字段执行Z分数标准化；在每一服务器使用球树Ball-Tree来存储所述医保数据，基于所述Ball-Tree来确定所述第一近邻数据和所述第二近邻数据。

8.一种医保数据检测装置，其特征在于，包括：

近邻点计算单元，用于：对于待检测的多个医保数据中的任一数据，将所述多个医保数据中距离所述任一数据最近的第一预设数量的数据确定为所述任一数据的第一近邻数据；其中，所述任一数据与任一第一近邻数据之间的距离为第一距离；将距离所述任一第一近邻数据最近的第二预设数量的数据确定为所述任一第一近邻数据的第二近邻数据；

特征生成单元，用于：获取所述第二近邻数据与所述任一第一近邻数据之间的最大距离，将所述最大距离与第一距离的比较结果作为所述任一第一近邻数据对所述任一数据的投票值，第一预设数量的第一近邻数据对所述任一数据的投票值形成所述任一数据的特征向量；

异常点判别单元，用于依据所述特征向量检测所述任一数据是否为异常数据。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。