CN104408547B

CN104408547B - 一种基于数据挖掘的医保欺诈行为的检测方法

Info

Publication number: CN104408547B
Application number: CN201410598935.4A
Authority: CN
Inventors: 陈是维; 刘成昊; 孙建伶; 李善平; 彭志宇
Original assignee: Insigma Hengtian Software Ltd
Current assignee: Insigma Hengtian Software Ltd
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2017-09-15
Anticipated expiration: 2034-10-30
Also published as: CN104408547A

Abstract

本发明公开了一种基于数据挖掘的医保欺诈行为的检测方法，采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测，找到离群点对应的异常记录，这些异常记录即为潜在的欺诈行为。本发明从医保欺诈的特点出发，充分以医保参保人的信息资料为基础，引入数据挖掘技术进行建模，辅助工作人员进行检测欺诈行为，解决了人工监管模式面临的人手有限、监管范围大等难题。本发明采用的数据挖掘方法提高了医保欺诈行为的检测效率与正确率。

Description

一种基于数据挖掘的医保欺诈行为的检测方法

技术领域

本发明涉及一种医保欺诈行为的检测方法，更具体地讲，是基于数据挖掘的医保欺诈行为的检测方法。

背景技术

由于医保特有的复杂的委托代理关系和严重的信息不对称，使医疗费用控制难度加大，在利益的驱动下就会产生一些过度医疗服务行为和违规欺诈行为，导致医保基金不合理的流失。

另一方面的话，经办机构的监管力度不足，由于目前采用的基本都是人工审核监管模式，人手有限，而且监管的范围很大，就医量大，专业性强，定点机构分布范围广等等这些特点增加了监管的难度。

我国社会医保工作开展较晚，国内目前已有的研究主要从医疗基金收支监测、简单指标预警等方面开展基金风险管理工作，在医保欺诈行为检测方面，仍处于起步阶段，一些相关研究缺乏系统性和深度。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于数据挖掘的医保欺诈行为的检测方法。

本发明的目的是通过以下技术方案来实现的：一种基于数据挖掘的医保欺诈行为的检测方法，采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测，找到离群点对应的异常记录，这些异常记录即为潜在的欺诈行为；具体包括以下步骤：

(1)用统计学方法对医保参保人的信息记录进行离群点检测：根据总费用信息的离群程度对该条记录进行打分，打分范围为0到4分；根据住院天数信息的离群程度对该条记录进行打分，打分范围为0到2分；根据药费信息的离群程度对该条记录进行打分，打分范围为0到2分；根据诊疗费信息的离群程度对该条记录进行打分，打分范围为0到2分；该条记录的总得分为上述四个得分之和，范围为0到10分；具体如下：

(1.1)将所有医保参保人的总费用按升序排序，找出该数据集的第90个、第95个、第98个、第99个百分位数，分别记为Q₉₀，Q₉₅，Q₉₈，Q₉₉；

若该条记录的总费用小于Q₉₀，则得分为0；

若该条记录的总费用大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的总费用大于Q₉₅，小于Q₉₈，则得分为2；

若该条记录的总费用大于Q₉₈，小于Q₉₉，则得分为3；

若该条记录的总费用大于Q₉₉，则得分为4；

(1.2)将所有医保参保人的住院天数按升序排序，找出该数据集的第90个、第95个百分位数，分别记为Q₉₀，Q₉₅；

若该条记录的住院天数小于Q₉₀，则得分为0；

若该条记录的住院天数大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的住院天数大于Q₉₅，则得分为2；

(1.3)将所有医保参保人的药费按升序排序，找出该数据集的第90个、第95个百分位数，分别记为Q₉₀，Q₉₅；

若该条记录的药费小于Q₉₀，则得分为0；

若该条记录的药费大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的药费大于Q₉₅，则得分为2；

(1.4)将所有医保参保人的诊疗费按升序排序，找出该数据集的第90个、第95个百分位数，分别记为Q₉₀，Q₉₅；

若该条记录的诊疗费小于Q₉₀，则得分为0；

若该条记录的诊疗费大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的诊疗费大于Q₉₅，则得分为2；

(1.5)将步骤(1.1)-步骤(1.4)中的得分相加，即为该条记录基于统计学方法的得分；

(2)根据医保参保人的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息，通过调用随机森林模型得到一个分类器，将该分类器作为费用预测模型；将每条记录中的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息代入费用预测模型即可得到该条记录的预测费用，再计算预测费用与实际费用的差值与预测费用的商；将得到的商按升序排序，找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数，分别记为Q₇₅，Q₈₂，Q₈₆，Q₉₀，Q₉₃，Q₉₅，Q₉₇，Q₉₈，Q₉₉，Q_99.5；

若商小于Q₇₅，则得分为0；

若商大于Q₇₅，小于Q₈₂，则得分为1；

若商大于Q₈₂，小于Q₈₆，则得分为2；

若商大于Q₈₆，小于Q₉₀，则得分为3；

若商大于Q₉₀，小于Q₉₃，则得分为4；

若商大于Q₉₃，小于Q₉₅，则得分为5；

若商大于Q₉₅，小于Q₉₇，则得分为6；

若商大于Q₉₇，小于Q₉₈，则得分为7；

若商大于Q₉₈，小于Q₉₉，则得分为8；

若商大于Q₉₉，小于Q_99.5，则得分为9；

若商大于Q_99.5，则得分为10；

(3)用基于关联分析的方法对医保参保人的西药用药记录进行离群点检测：将医保参保人的西药用药记录转换成交易流数据，通过eclat算法找出支持度不低于0.1的频繁项集，且频繁项集为2项集；根据频繁项集的支持度对频繁项集进行排序；计算出一条记录中西药药品数与记录中出现的频繁项集支持度之和的商，根据计算出的商值进行打分；具体为：将得到的商按升序排序，找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数，分别记为Q₇₅，Q₈₂，Q₈₆，Q₉₀，Q₉₃，Q₉₅，Q₉₇，Q₉₈，Q₉₉，Q_99.5；

若商小于Q₇₅，则得分为0；

若商大于Q₇₅，小于Q₈₂，则得分为1；

若商大于Q₈₂，小于Q₈₆，则得分为2；

若商大于Q₈₆，小于Q₉₀，则得分为3；

若商大于Q₉₀，小于Q₉₃，则得分为4；

若商大于Q₉₃，小于Q₉₅，则得分为5；

若商大于Q₉₅，小于Q₉₇，则得分为6；

若商大于Q₉₇，小于Q₉₈，则得分为7；

若商大于Q₉₈，小于Q₉₉，则得分为8；

若商大于Q₉₉，小于Q_99.5，则得分为9；

若商大于Q_99.5，则得分为10；

(4)用基于聚类的方法对医保参保人的西药用药记录进行离群点检测，将医保参保人的西药用药记录转换成交易流数据，计算出每两条记录之间的jaccard距离；具体包括如下子步骤：

(4.1)计算一条记录与其他所有记录之间的jaccard距离之和，将所有记录对应的和按升序排序，找出该数据集的第90个、第95个、第98个、第99个百分位数，分别记为Q₉₀，Q₉₅，Q₉₈，Q₉₉；

若和小于Q₉₀，则得分为0；

若和大于Q₉₀，小于Q₉₅，则得分为1；

若和大于Q₉₅，小于Q₉₈，则得分为2；

若和大于Q₉₈，小于Q₉₉，则得分为3；

若和大于Q₉₉，则得分为4；

(4.2)将一条记录与其他所有记录之间的jaccard距离中的最大距离值按升序排序，找出该数据集的第90个、第95个百分位数，分别记为Q₉₀，Q₉₅；

若最大值小于Q₉₀，则得分为0；

若最大值大于Q₉₀，小于Q₉₅，则得分为1；

若最大值大于Q₉₅，则得分为2；

(4.3)将一条记录与其他所有记录之间的jaccard距离中的次大距离值按升序排序，找出该数据集的第90个、第95个百分位数，分别记为Q₉₀，Q₉₅；

若次大值小于Q₉₀，则得分为0；

若次大值大于Q₉₀，小于Q₉₅，则得分为1；

若次大值大于Q₉₅，则得分为2；

(4.4)将一条记录与其他所有记录之间的jaccard距离中的第三大距离值按升序排序，找出该数据集的第90个、第95个百分位数，分别记为Q₉₀，Q₉₅；

若和小于Q₉₀，则得分为0；

若和大于Q₉₀，小于Q₉₅，则得分为1；

若和大于Q₉₅，则得分为2；

(4.5)将步骤(4.1)-步骤(4.4)中的得分相加，即为该条记录基于聚类方法的得分。

(5)根据每种方法的打分对每条记录进行综合打分，综合分数为四个分数中最高分的七倍与其他分数之和的十分之一，范围为0到10分，其中0分为非异常记录，1-10分为异常记录，异常记录又划分为三个等级，1-3分为轻微异常，4-7分为一般异常，8-10分为高度异常，综合分数不为零的记录即为异常记录，从而完成医保欺诈行为的检测。

本发明的有益结果如下：

(1)本发明从医保欺诈的特点出发，充分以医保参保人的信息资料为基础，引入数据挖掘技术进行建模，辅助工作人员进行检测欺诈行为，解决了人工监管模式面临的人手有限、监管范围大等难题。

(2)本发明采用的数据挖掘方法提高了医保欺诈行为的检测效率与正确率。

附图说明

图1为基于数据挖掘进行医保欺诈行为检测方法的流程图；

图2为基于统计学的离群点检测模型图；

图3为基于随机森林模型的离群点检测模型图；

图4为基于关联分析的离群点检测模型图；

图5为基于聚类的离群点检测模型图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明一种基于数据挖掘的医保欺诈行为的检测方法，采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测，找到离群点对应的异常记录，这些异常记录即为潜在的欺诈行为；具体包括以下步骤：

(1)用统计学方法对医保参保人的信息记录进行离群点检测：如图2所示，根据总费用信息的离群程度对该条记录进行打分，打分范围为0到4分；根据住院天数信息的离群程度对该条记录进行打分，打分范围为0到2分；根据药费信息的离群程度对该条记录进行打分，打分范围为0到2分；根据诊疗费信息的离群程度对该条记录进行打分，打分范围为0到2分；该条记录的总得分为上述四个得分之和，范围为0到10分；具体如下：

若该条记录的总费用小于Q₉₀，则得分为0；

若该条记录的总费用大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的总费用大于Q₉₅，小于Q₉₈，则得分为2；

若该条记录的总费用大于Q₉₈，小于Q₉₉，则得分为3；

若该条记录的总费用大于Q₉₉，则得分为4；

若该条记录的住院天数小于Q₉₀，则得分为0；

若该条记录的住院天数大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的住院天数大于Q₉₅，则得分为2；

若该条记录的药费小于Q₉₀，则得分为0；

若该条记录的药费大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的药费大于Q₉₅，则得分为2；

若该条记录的诊疗费小于Q₉₀，则得分为0；

若该条记录的诊疗费大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的诊疗费大于Q₉₅，则得分为2；

(2)如图3所示，根据医保参保人的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息，通过调用随机森林模型(在R中可直接调用randomForest包中的randomForest函数。随机森林模型有现成的包可以直接调用)得到一个分类器，将该分类器作为费用预测模型；将每条记录中的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息代入费用预测模型即可得到该条记录的预测费用，再计算预测费用与实际费用的差值与预测费用的商；将得到的商按升序排序，找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数，分别记为Q₇₅，Q₈₂，Q₈₆，Q₉₀，Q₉₃，Q₉₅，Q₉₇，Q₉₈，Q₉₉，Q_99.5；

若商小于Q₇₅，则得分为0；

若商大于Q₇₅，小于Q₈₂，则得分为1；

若商大于Q₈₂，小于Q₈₆，则得分为2；

若商大于Q₈₆，小于Q₉₀，则得分为3；

若商大于Q₉₀，小于Q₉₃，则得分为4；

若商大于Q₉₃，小于Q₉₅，则得分为5；

若商大于Q₉₅，小于Q₉₇，则得分为6；

若商大于Q₉₇，小于Q₉₈，则得分为7；

若商大于Q₉₈，小于Q₉₉，则得分为8；

若商大于Q₉₉，小于Q_99.5，则得分为9；

若商大于Q_99.5，则得分为10；

(3)用基于关联分析的方法对医保参保人的西药用药记录进行离群点检测：如图4所示，将医保参保人的西药用药记录转换成交易流数据，通过eclat算法(在R中可直接调用arules包中的eclat函数)找出支持度不低于0.1的频繁项集，且频繁项集为2项集；根据频繁项集的支持度对频繁项集进行排序；计算出一条记录中西药药品数与记录中出现的频繁项集支持度之和的商，根据计算出的商值进行打分；具体为：将得到的商按升序排序，找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数，分别记为Q₇₅，Q₈₂，Q₈₆，Q₉₀，Q₉₃，Q₉₅，Q₉₇，Q₉₈，Q₉₉，Q_99.5；

若商小于Q₇₅，则得分为0；

若商大于Q₇₅，小于Q₈₂，则得分为1；

若商大于Q₈₂，小于Q₈₆，则得分为2；

若商大于Q₈₆，小于Q₉₀，则得分为3；

若商大于Q₉₀，小于Q₉₃，则得分为4；

若商大于Q₉₃，小于Q₉₅，则得分为5；

若商大于Q₉₅，小于Q₉₇，则得分为6；

若商大于Q₉₇，小于Q₉₈，则得分为7；

若商大于Q₉₈，小于Q₉₉，则得分为8；

若商大于Q₉₉，小于Q_99.5，则得分为9；

若商大于Q_99.5，则得分为10；

(4)如图5所示，用基于聚类的方法对医保参保人的西药用药记录进行离群点检测，将医保参保人的西药用药记录转换成交易流数据，计算出每两条记录之间的jaccard距离(可直接调用arules包中的dissimilarity函数来计算jaccard距离)；具体包括如下子步骤：

若和小于Q₉₀，则得分为0；

若和大于Q₉₀，小于Q₉₅，则得分为1；

若和大于Q₉₅，小于Q₉₈，则得分为2；

若和大于Q₉₈，小于Q₉₉，则得分为3；

若和大于Q₉₉，则得分为4；

若最大值小于Q₉₀，则得分为0；

若最大值大于Q₉₀，小于Q₉₅，则得分为1；

若最大值大于Q₉₅，则得分为2；

若次大值小于Q₉₀，则得分为0；

若次大值大于Q₉₀，小于Q₉₅，则得分为1；

若次大值大于Q₉₅，则得分为2；

若和小于Q₉₀，则得分为0；

若和大于Q₉₀，小于Q₉₅，则得分为1；

若和大于Q₉₅，则得分为2；

Claims

1.一种基于数据挖掘的医保欺诈行为的检测方法，其特征在于，采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测，找到离群点对应的异常记录，这些异常记录即为潜在的欺诈行为；具体包括以下步骤：

若该条记录的总费用小于Q₉₀，则得分为0；

若该条记录的总费用大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的总费用大于Q₉₅，小于Q₉₈，则得分为2；

若该条记录的总费用大于Q₉₈，小于Q₉₉，则得分为3；

若该条记录的总费用大于Q₉₉，则得分为4；

若该条记录的住院天数小于Q₉₀，则得分为0；

若该条记录的住院天数大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的住院天数大于Q₉₅，则得分为2；

若该条记录的药费小于Q₉₀，则得分为0；

若该条记录的药费大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的药费大于Q₉₅，则得分为2；

若该条记录的诊疗费小于Q₉₀，则得分为0；

若该条记录的诊疗费大于Q₉₀，小于Q₉₅，则得分为1；

若该条记录的诊疗费大于Q₉₅，则得分为2；

若商小于Q₇₅，则得分为0；

若商大于Q₇₅，小于Q₈₂，则得分为1；

若商大于Q₈₂，小于Q₈₆，则得分为2；

若商大于Q₈₆，小于Q₉₀，则得分为3；

若商大于Q₉₀，小于Q₉₃，则得分为4；

若商大于Q₉₃，小于Q₉₅，则得分为5；

若商大于Q₉₅，小于Q₉₇，则得分为6；

若商大于Q₉₇，小于Q₉₈，则得分为7；

若商大于Q₉₈，小于Q₉₉，则得分为8；

若商大于Q₉₉，小于Q_99.5，则得分为9；

若商大于Q_99.5，则得分为10；

若商小于Q₇₅，则得分为0；

若商大于Q₇₅，小于Q₈₂，则得分为1；

若商大于Q₈₂，小于Q₈₆，则得分为2；

若商大于Q₈₆，小于Q₉₀，则得分为3；

若商大于Q₉₀，小于Q₉₃，则得分为4；

若商大于Q₉₃，小于Q₉₅，则得分为5；

若商大于Q₉₅，小于Q₉₇，则得分为6；

若商大于Q₉₇，小于Q₉₈，则得分为7；

若商大于Q₉₈，小于Q₉₉，则得分为8；

若商大于Q₉₉，小于Q_99.5，则得分为9；

若商大于Q_99.5，则得分为10；

若和小于Q₉₀，则得分为0；

若和大于Q₉₀，小于Q₉₅，则得分为1；

若和大于Q₉₅，小于Q₉₈，则得分为2；

若和大于Q₉₈，小于Q₉₉，则得分为3；

若和大于Q₉₉，则得分为4；

若最大值小于Q₉₀，则得分为0；

若最大值大于Q₉₀，小于Q₉₅，则得分为1；

若最大值大于Q₉₅，则得分为2；

若次大值小于Q₉₀，则得分为0；

若次大值大于Q₉₀，小于Q₉₅，则得分为1；

若次大值大于Q₉₅，则得分为2；

若和小于Q₉₀，则得分为0；

若和大于Q₉₀，小于Q₉₅，则得分为1；

若和大于Q₉₅，则得分为2；

(4.5)将步骤(4.1)-步骤(4.4)中的得分相加，即为该条记录基于聚类方法的得分；