CN104408547B - 一种基于数据挖掘的医保欺诈行为的检测方法 - Google Patents

一种基于数据挖掘的医保欺诈行为的检测方法 Download PDF

Info

Publication number
CN104408547B
CN104408547B CN201410598935.4A CN201410598935A CN104408547B CN 104408547 B CN104408547 B CN 104408547B CN 201410598935 A CN201410598935 A CN 201410598935A CN 104408547 B CN104408547 B CN 104408547B
Authority
CN
China
Prior art keywords
scored
record
less
business
medical insurance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410598935.4A
Other languages
English (en)
Other versions
CN104408547A (zh
Inventor
陈是维
刘成昊
孙建伶
李善平
彭志宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Insigma Hengtian Software Ltd
Original Assignee
Insigma Hengtian Software Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Insigma Hengtian Software Ltd filed Critical Insigma Hengtian Software Ltd
Priority to CN201410598935.4A priority Critical patent/CN104408547B/zh
Publication of CN104408547A publication Critical patent/CN104408547A/zh
Application granted granted Critical
Publication of CN104408547B publication Critical patent/CN104408547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于数据挖掘的医保欺诈行为的检测方法,采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测,找到离群点对应的异常记录,这些异常记录即为潜在的欺诈行为。本发明从医保欺诈的特点出发,充分以医保参保人的信息资料为基础,引入数据挖掘技术进行建模,辅助工作人员进行检测欺诈行为,解决了人工监管模式面临的人手有限、监管范围大等难题。本发明采用的数据挖掘方法提高了医保欺诈行为的检测效率与正确率。

Description

一种基于数据挖掘的医保欺诈行为的检测方法
技术领域
本发明涉及一种医保欺诈行为的检测方法,更具体地讲,是基于数据挖掘的医保欺诈行为的检测方法。
背景技术
由于医保特有的复杂的委托代理关系和严重的信息不对称,使医疗费用控制难度加大,在利益的驱动下就会产生一些过度医疗服务行为和违规欺诈行为,导致医保基金不合理的流失。
另一方面的话,经办机构的监管力度不足,由于目前采用的基本都是人工审核监管模式,人手有限,而且监管的范围很大,就医量大,专业性强,定点机构分布范围广等等这些特点增加了监管的难度。
我国社会医保工作开展较晚,国内目前已有的研究主要从医疗基金收支监测、简单指标预警等方面开展基金风险管理工作,在医保欺诈行为检测方面,仍处于起步阶段,一些相关研究缺乏系统性和深度。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于数据挖掘的医保欺诈行为的检测方法。
本发明的目的是通过以下技术方案来实现的:一种基于数据挖掘的医保欺诈行为的检测方法,采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测,找到离群点对应的异常记录,这些异常记录即为潜在的欺诈行为;具体包括以下步骤:
(1)用统计学方法对医保参保人的信息记录进行离群点检测:根据总费用信息的离群程度对该条记录进行打分,打分范围为0到4分;根据住院天数信息的离群程度对该条记录进行打分,打分范围为0到2分;根据药费信息的离群程度对该条记录进行打分,打分范围为0到2分;根据诊疗费信息的离群程度对该条记录进行打分,打分范围为0到2分;该条记录的总得分为上述四个得分之和,范围为0到10分;具体如下:
(1.1)将所有医保参保人的总费用按升序排序,找出该数据集的第90个、第95个、第98个、第99个百分位数,分别记为Q90,Q95,Q98,Q99
若该条记录的总费用小于Q90,则得分为0;
若该条记录的总费用大于Q90,小于Q95,则得分为1;
若该条记录的总费用大于Q95,小于Q98,则得分为2;
若该条记录的总费用大于Q98,小于Q99,则得分为3;
若该条记录的总费用大于Q99,则得分为4;
(1.2)将所有医保参保人的住院天数按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的住院天数小于Q90,则得分为0;
若该条记录的住院天数大于Q90,小于Q95,则得分为1;
若该条记录的住院天数大于Q95,则得分为2;
(1.3)将所有医保参保人的药费按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的药费小于Q90,则得分为0;
若该条记录的药费大于Q90,小于Q95,则得分为1;
若该条记录的药费大于Q95,则得分为2;
(1.4)将所有医保参保人的诊疗费按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的诊疗费小于Q90,则得分为0;
若该条记录的诊疗费大于Q90,小于Q95,则得分为1;
若该条记录的诊疗费大于Q95,则得分为2;
(1.5)将步骤(1.1)-步骤(1.4)中的得分相加,即为该条记录基于统计学方法的得分;
(2)根据医保参保人的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息,通过调用随机森林模型得到一个分类器,将该分类器作为费用预测模型;将每条记录中的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息代入费用预测模型即可得到该条记录的预测费用,再计算预测费用与实际费用的差值与预测费用的商;将得到的商按升序排序,找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数,分别记为Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5
若商小于Q75,则得分为0;
若商大于Q75,小于Q82,则得分为1;
若商大于Q82,小于Q86,则得分为2;
若商大于Q86,小于Q90,则得分为3;
若商大于Q90,小于Q93,则得分为4;
若商大于Q93,小于Q95,则得分为5;
若商大于Q95,小于Q97,则得分为6;
若商大于Q97,小于Q98,则得分为7;
若商大于Q98,小于Q99,则得分为8;
若商大于Q99,小于Q99.5,则得分为9;
若商大于Q99.5,则得分为10;
(3)用基于关联分析的方法对医保参保人的西药用药记录进行离群点检测:将医保参保人的西药用药记录转换成交易流数据,通过eclat算法找出支持度不低于0.1的频繁项集,且频繁项集为2项集;根据频繁项集的支持度对频繁项集进行排序;计算出一条记录中西药药品数与记录中出现的频繁项集支持度之和的商,根据计算出的商值进行打分;具体为:将得到的商按升序排序,找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数,分别记为Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5
若商小于Q75,则得分为0;
若商大于Q75,小于Q82,则得分为1;
若商大于Q82,小于Q86,则得分为2;
若商大于Q86,小于Q90,则得分为3;
若商大于Q90,小于Q93,则得分为4;
若商大于Q93,小于Q95,则得分为5;
若商大于Q95,小于Q97,则得分为6;
若商大于Q97,小于Q98,则得分为7;
若商大于Q98,小于Q99,则得分为8;
若商大于Q99,小于Q99.5,则得分为9;
若商大于Q99.5,则得分为10;
(4)用基于聚类的方法对医保参保人的西药用药记录进行离群点检测,将医保参保人的西药用药记录转换成交易流数据,计算出每两条记录之间的jaccard距离;具体包括如下子步骤:
(4.1)计算一条记录与其他所有记录之间的jaccard距离之和,将所有记录对应的和按升序排序,找出该数据集的第90个、第95个、第98个、第99个百分位数,分别记为Q90,Q95,Q98,Q99
若和小于Q90,则得分为0;
若和大于Q90,小于Q95,则得分为1;
若和大于Q95,小于Q98,则得分为2;
若和大于Q98,小于Q99,则得分为3;
若和大于Q99,则得分为4;
(4.2)将一条记录与其他所有记录之间的jaccard距离中的最大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若最大值小于Q90,则得分为0;
若最大值大于Q90,小于Q95,则得分为1;
若最大值大于Q95,则得分为2;
(4.3)将一条记录与其他所有记录之间的jaccard距离中的次大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若次大值小于Q90,则得分为0;
若次大值大于Q90,小于Q95,则得分为1;
若次大值大于Q95,则得分为2;
(4.4)将一条记录与其他所有记录之间的jaccard距离中的第三大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若和小于Q90,则得分为0;
若和大于Q90,小于Q95,则得分为1;
若和大于Q95,则得分为2;
(4.5)将步骤(4.1)-步骤(4.4)中的得分相加,即为该条记录基于聚类方法的得分。
(5)根据每种方法的打分对每条记录进行综合打分,综合分数为四个分数中最高分的七倍与其他分数之和的十分之一,范围为0到10分,其中0分为非异常记录,1-10分为异常记录,异常记录又划分为三个等级,1-3分为轻微异常,4-7分为一般异常,8-10分为高度异常,综合分数不为零的记录即为异常记录,从而完成医保欺诈行为的检测。
本发明的有益结果如下:
(1)本发明从医保欺诈的特点出发,充分以医保参保人的信息资料为基础,引入数据挖掘技术进行建模,辅助工作人员进行检测欺诈行为,解决了人工监管模式面临的人手有限、监管范围大等难题。
(2)本发明采用的数据挖掘方法提高了医保欺诈行为的检测效率与正确率。
附图说明
图1为基于数据挖掘进行医保欺诈行为检测方法的流程图;
图2为基于统计学的离群点检测模型图;
图3为基于随机森林模型的离群点检测模型图;
图4为基于关联分析的离群点检测模型图;
图5为基于聚类的离群点检测模型图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1所示,本发明一种基于数据挖掘的医保欺诈行为的检测方法,采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测,找到离群点对应的异常记录,这些异常记录即为潜在的欺诈行为;具体包括以下步骤:
(1)用统计学方法对医保参保人的信息记录进行离群点检测:如图2所示,根据总费用信息的离群程度对该条记录进行打分,打分范围为0到4分;根据住院天数信息的离群程度对该条记录进行打分,打分范围为0到2分;根据药费信息的离群程度对该条记录进行打分,打分范围为0到2分;根据诊疗费信息的离群程度对该条记录进行打分,打分范围为0到2分;该条记录的总得分为上述四个得分之和,范围为0到10分;具体如下:
(1.1)将所有医保参保人的总费用按升序排序,找出该数据集的第90个、第95个、第98个、第99个百分位数,分别记为Q90,Q95,Q98,Q99
若该条记录的总费用小于Q90,则得分为0;
若该条记录的总费用大于Q90,小于Q95,则得分为1;
若该条记录的总费用大于Q95,小于Q98,则得分为2;
若该条记录的总费用大于Q98,小于Q99,则得分为3;
若该条记录的总费用大于Q99,则得分为4;
(1.2)将所有医保参保人的住院天数按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的住院天数小于Q90,则得分为0;
若该条记录的住院天数大于Q90,小于Q95,则得分为1;
若该条记录的住院天数大于Q95,则得分为2;
(1.3)将所有医保参保人的药费按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的药费小于Q90,则得分为0;
若该条记录的药费大于Q90,小于Q95,则得分为1;
若该条记录的药费大于Q95,则得分为2;
(1.4)将所有医保参保人的诊疗费按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的诊疗费小于Q90,则得分为0;
若该条记录的诊疗费大于Q90,小于Q95,则得分为1;
若该条记录的诊疗费大于Q95,则得分为2;
(1.5)将步骤(1.1)-步骤(1.4)中的得分相加,即为该条记录基于统计学方法的得分;
(2)如图3所示,根据医保参保人的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息,通过调用随机森林模型(在R中可直接调用randomForest包中的randomForest函数。随机森林模型有现成的包可以直接调用)得到一个分类器,将该分类器作为费用预测模型;将每条记录中的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息代入费用预测模型即可得到该条记录的预测费用,再计算预测费用与实际费用的差值与预测费用的商;将得到的商按升序排序,找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数,分别记为Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5
若商小于Q75,则得分为0;
若商大于Q75,小于Q82,则得分为1;
若商大于Q82,小于Q86,则得分为2;
若商大于Q86,小于Q90,则得分为3;
若商大于Q90,小于Q93,则得分为4;
若商大于Q93,小于Q95,则得分为5;
若商大于Q95,小于Q97,则得分为6;
若商大于Q97,小于Q98,则得分为7;
若商大于Q98,小于Q99,则得分为8;
若商大于Q99,小于Q99.5,则得分为9;
若商大于Q99.5,则得分为10;
(3)用基于关联分析的方法对医保参保人的西药用药记录进行离群点检测:如图4所示,将医保参保人的西药用药记录转换成交易流数据,通过eclat算法(在R中可直接调用arules包中的eclat函数)找出支持度不低于0.1的频繁项集,且频繁项集为2项集;根据频繁项集的支持度对频繁项集进行排序;计算出一条记录中西药药品数与记录中出现的频繁项集支持度之和的商,根据计算出的商值进行打分;具体为:将得到的商按升序排序,找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数,分别记为Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5
若商小于Q75,则得分为0;
若商大于Q75,小于Q82,则得分为1;
若商大于Q82,小于Q86,则得分为2;
若商大于Q86,小于Q90,则得分为3;
若商大于Q90,小于Q93,则得分为4;
若商大于Q93,小于Q95,则得分为5;
若商大于Q95,小于Q97,则得分为6;
若商大于Q97,小于Q98,则得分为7;
若商大于Q98,小于Q99,则得分为8;
若商大于Q99,小于Q99.5,则得分为9;
若商大于Q99.5,则得分为10;
(4)如图5所示,用基于聚类的方法对医保参保人的西药用药记录进行离群点检测,将医保参保人的西药用药记录转换成交易流数据,计算出每两条记录之间的jaccard距离(可直接调用arules包中的dissimilarity函数来计算jaccard距离);具体包括如下子步骤:
(4.1)计算一条记录与其他所有记录之间的jaccard距离之和,将所有记录对应的和按升序排序,找出该数据集的第90个、第95个、第98个、第99个百分位数,分别记为Q90,Q95,Q98,Q99
若和小于Q90,则得分为0;
若和大于Q90,小于Q95,则得分为1;
若和大于Q95,小于Q98,则得分为2;
若和大于Q98,小于Q99,则得分为3;
若和大于Q99,则得分为4;
(4.2)将一条记录与其他所有记录之间的jaccard距离中的最大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若最大值小于Q90,则得分为0;
若最大值大于Q90,小于Q95,则得分为1;
若最大值大于Q95,则得分为2;
(4.3)将一条记录与其他所有记录之间的jaccard距离中的次大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若次大值小于Q90,则得分为0;
若次大值大于Q90,小于Q95,则得分为1;
若次大值大于Q95,则得分为2;
(4.4)将一条记录与其他所有记录之间的jaccard距离中的第三大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若和小于Q90,则得分为0;
若和大于Q90,小于Q95,则得分为1;
若和大于Q95,则得分为2;
(4.5)将步骤(4.1)-步骤(4.4)中的得分相加,即为该条记录基于聚类方法的得分。
(5)根据每种方法的打分对每条记录进行综合打分,综合分数为四个分数中最高分的七倍与其他分数之和的十分之一,范围为0到10分,其中0分为非异常记录,1-10分为异常记录,异常记录又划分为三个等级,1-3分为轻微异常,4-7分为一般异常,8-10分为高度异常,综合分数不为零的记录即为异常记录,从而完成医保欺诈行为的检测。

Claims (1)

1.一种基于数据挖掘的医保欺诈行为的检测方法,其特征在于,采用基于统计学、聚类、关联分析、随机森林模型的无监督方法对医保参保人的数据记录进行离群点检测,找到离群点对应的异常记录,这些异常记录即为潜在的欺诈行为;具体包括以下步骤:
(1)用统计学方法对医保参保人的信息记录进行离群点检测:根据总费用信息的离群程度对该条记录进行打分,打分范围为0到4分;根据住院天数信息的离群程度对该条记录进行打分,打分范围为0到2分;根据药费信息的离群程度对该条记录进行打分,打分范围为0到2分;根据诊疗费信息的离群程度对该条记录进行打分,打分范围为0到2分;该条记录的总得分为上述四个得分之和,范围为0到10分;具体如下:
(1.1)将所有医保参保人的总费用按升序排序,找出该数据集的第90个、第95个、第98个、第99个百分位数,分别记为Q90,Q95,Q98,Q99
若该条记录的总费用小于Q90,则得分为0;
若该条记录的总费用大于Q90,小于Q95,则得分为1;
若该条记录的总费用大于Q95,小于Q98,则得分为2;
若该条记录的总费用大于Q98,小于Q99,则得分为3;
若该条记录的总费用大于Q99,则得分为4;
(1.2)将所有医保参保人的住院天数按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的住院天数小于Q90,则得分为0;
若该条记录的住院天数大于Q90,小于Q95,则得分为1;
若该条记录的住院天数大于Q95,则得分为2;
(1.3)将所有医保参保人的药费按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的药费小于Q90,则得分为0;
若该条记录的药费大于Q90,小于Q95,则得分为1;
若该条记录的药费大于Q95,则得分为2;
(1.4)将所有医保参保人的诊疗费按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若该条记录的诊疗费小于Q90,则得分为0;
若该条记录的诊疗费大于Q90,小于Q95,则得分为1;
若该条记录的诊疗费大于Q95,则得分为2;
(1.5)将步骤(1.1)-步骤(1.4)中的得分相加,即为该条记录基于统计学方法的得分;
(2)根据医保参保人的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息,通过调用随机森林模型得到一个分类器,将该分类器作为费用预测模型;将每条记录中的性别、年龄、工作状态、职业类型、资金类型、所在企业、医院等级、医院种类、住院天数、总费用信息代入费用预测模型即可得到该条记录的预测费用,再计算预测费用与实际费用的差值与预测费用的商;将得到的商按升序排序,找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数,分别记为Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5
若商小于Q75,则得分为0;
若商大于Q75,小于Q82,则得分为1;
若商大于Q82,小于Q86,则得分为2;
若商大于Q86,小于Q90,则得分为3;
若商大于Q90,小于Q93,则得分为4;
若商大于Q93,小于Q95,则得分为5;
若商大于Q95,小于Q97,则得分为6;
若商大于Q97,小于Q98,则得分为7;
若商大于Q98,小于Q99,则得分为8;
若商大于Q99,小于Q99.5,则得分为9;
若商大于Q99.5,则得分为10;
(3)用基于关联分析的方法对医保参保人的西药用药记录进行离群点检测:将医保参保人的西药用药记录转换成交易流数据,通过eclat算法找出支持度不低于0.1的频繁项集,且频繁项集为2项集;根据频繁项集的支持度对频繁项集进行排序;计算出一条记录中西药药品数与记录中出现的频繁项集支持度之和的商,根据计算出的商值进行打分;具体为:将得到的商按升序排序,找出该数据集的第75个、第82个、第86个、第90个、第93个、第95个、第97个、第98个、第99个、第995个百分位数,分别记为Q75,Q82,Q86,Q90,Q93,Q95,Q97,Q98,Q99,Q99.5
若商小于Q75,则得分为0;
若商大于Q75,小于Q82,则得分为1;
若商大于Q82,小于Q86,则得分为2;
若商大于Q86,小于Q90,则得分为3;
若商大于Q90,小于Q93,则得分为4;
若商大于Q93,小于Q95,则得分为5;
若商大于Q95,小于Q97,则得分为6;
若商大于Q97,小于Q98,则得分为7;
若商大于Q98,小于Q99,则得分为8;
若商大于Q99,小于Q99.5,则得分为9;
若商大于Q99.5,则得分为10;
(4)用基于聚类的方法对医保参保人的西药用药记录进行离群点检测,将医保参保人的西药用药记录转换成交易流数据,计算出每两条记录之间的jaccard距离;具体包括如下子步骤:
(4.1)计算一条记录与其他所有记录之间的jaccard距离之和,将所有记录对应的和按升序排序,找出该数据集的第90个、第95个、第98个、第99个百分位数,分别记为Q90,Q95,Q98,Q99
若和小于Q90,则得分为0;
若和大于Q90,小于Q95,则得分为1;
若和大于Q95,小于Q98,则得分为2;
若和大于Q98,小于Q99,则得分为3;
若和大于Q99,则得分为4;
(4.2)将一条记录与其他所有记录之间的jaccard距离中的最大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若最大值小于Q90,则得分为0;
若最大值大于Q90,小于Q95,则得分为1;
若最大值大于Q95,则得分为2;
(4.3)将一条记录与其他所有记录之间的jaccard距离中的次大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若次大值小于Q90,则得分为0;
若次大值大于Q90,小于Q95,则得分为1;
若次大值大于Q95,则得分为2;
(4.4)将一条记录与其他所有记录之间的jaccard距离中的第三大距离值按升序排序,找出该数据集的第90个、第95个百分位数,分别记为Q90,Q95
若和小于Q90,则得分为0;
若和大于Q90,小于Q95,则得分为1;
若和大于Q95,则得分为2;
(4.5)将步骤(4.1)-步骤(4.4)中的得分相加,即为该条记录基于聚类方法的得分;
(5)根据每种方法的打分对每条记录进行综合打分,综合分数为四个分数中最高分的七倍与其他分数之和的十分之一,范围为0到10分,其中0分为非异常记录,1-10分为异常记录,异常记录又划分为三个等级,1-3分为轻微异常,4-7分为一般异常,8-10分为高度异常,综合分数不为零的记录即为异常记录,从而完成医保欺诈行为的检测。
CN201410598935.4A 2014-10-30 2014-10-30 一种基于数据挖掘的医保欺诈行为的检测方法 Active CN104408547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410598935.4A CN104408547B (zh) 2014-10-30 2014-10-30 一种基于数据挖掘的医保欺诈行为的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410598935.4A CN104408547B (zh) 2014-10-30 2014-10-30 一种基于数据挖掘的医保欺诈行为的检测方法

Publications (2)

Publication Number Publication Date
CN104408547A CN104408547A (zh) 2015-03-11
CN104408547B true CN104408547B (zh) 2017-09-15

Family

ID=52646176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410598935.4A Active CN104408547B (zh) 2014-10-30 2014-10-30 一种基于数据挖掘的医保欺诈行为的检测方法

Country Status (1)

Country Link
CN (1) CN104408547B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260808A (zh) * 2015-06-15 2016-01-20 贵州云中海信息技术有限公司 一种新农合基金的安全预警与监管方法和系统
CN105184574B (zh) * 2015-06-30 2018-09-07 电子科技大学 一种套用商户类别码欺诈行为的检测方法
CN106408141A (zh) * 2015-07-28 2017-02-15 平安科技(深圳)有限公司 异常费用自动提取系统及方法
CN105159948B (zh) * 2015-08-12 2019-04-02 成都数联易康科技有限公司 一种基于多特征的医疗保险欺诈检测方法
CN105335618B (zh) * 2015-11-10 2018-01-30 成都数联易康科技有限公司 一种基于对病人特征进行刻画的挂床行为监测方法
CN106959954A (zh) * 2016-01-11 2017-07-18 华院数据技术(上海)有限公司 一种用于检测异常性医保报销条目的系统与方法
CN106326642A (zh) * 2016-08-16 2017-01-11 成都中医药大学 基于大数据分析建立医疗诊费点阵模型的方法
CN106874658A (zh) * 2017-01-18 2017-06-20 天津艾登科技有限公司 一种基于主成分分析算法的医保欺诈识别方法
CN107657536B (zh) * 2017-02-20 2018-07-31 平安科技(深圳)有限公司 社保欺诈行为的识别方法和装置
CN107038593B (zh) * 2017-04-06 2020-07-21 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于防伪溯源系统的异常数据处理方法及系统
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN107609980A (zh) * 2017-09-07 2018-01-19 平安医疗健康管理股份有限公司 医疗数据处理方法、装置、计算机设备及存储介质
CN108596770B (zh) * 2017-12-29 2022-04-01 山大地纬软件股份有限公司 基于离群值分析的医疗保险欺诈检测装置及方法
CN108446720A (zh) * 2018-02-27 2018-08-24 华青融天(北京)技术股份有限公司 异常数据检测方法和系统
CN108734479A (zh) * 2018-04-12 2018-11-02 阿里巴巴集团控股有限公司 保险欺诈识别的数据处理方法、装置、设备及服务器
CN108805729A (zh) * 2018-06-14 2018-11-13 四川久远银海软件股份有限公司 一种异常就医轨迹判断方法与装置
CN108899068A (zh) * 2018-06-14 2018-11-27 四川久远银海软件股份有限公司 一种异常治疗时间确定方法与装置
CN109118376A (zh) * 2018-08-14 2019-01-01 平安医疗健康管理股份有限公司 医疗保险保费定价方法、装置、计算机设备和存储介质
CN109584086B (zh) * 2018-10-30 2024-06-28 平安医疗健康管理股份有限公司 基于预测模型预测住院合理性的方法及相关产品
CN109377207B (zh) * 2018-10-30 2024-06-25 平安医疗健康管理股份有限公司 异常住院行为判定的方法及相关产品
CN109636192A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常购药的识别方法、装置、终端及计算机可读存储介质
CN109636646A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 异常就诊的识别方法、装置、终端及计算机可读存储介质
CN109636645A (zh) * 2018-12-13 2019-04-16 平安医疗健康管理股份有限公司 医保监管方法、设备、装置及计算机可读存储介质
CN109785174A (zh) * 2019-02-01 2019-05-21 泰康保险集团股份有限公司 识别高欺诈风险的方法和装置
CN110245960A (zh) * 2019-05-21 2019-09-17 何金星 一种基于计算机控制的医保防欺诈系统及方法
CN111430036B (zh) * 2020-03-23 2023-02-03 平安医疗健康管理股份有限公司 异常手术行为的医疗信息识别方法及装置
CN112541831B (zh) * 2020-12-16 2024-06-28 中国人寿保险股份有限公司 一种医疗保险的风险识别方法、装置、介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013084A (zh) * 2010-12-14 2011-04-13 江苏大学 用于检测医疗保险门诊欺诈性交易的系统和方法
CN102945235A (zh) * 2011-08-16 2013-02-27 句容今太科技园有限公司 面向医疗保险违规和欺诈行为的数据挖掘系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130006668A1 (en) * 2011-06-30 2013-01-03 Verizon Patent And Licensing Inc. Predictive modeling processes for healthcare fraud detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102013084A (zh) * 2010-12-14 2011-04-13 江苏大学 用于检测医疗保险门诊欺诈性交易的系统和方法
CN102945235A (zh) * 2011-08-16 2013-02-27 句容今太科技园有限公司 面向医疗保险违规和欺诈行为的数据挖掘系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
改进的Eclat数据挖掘算法的研究;宋长新 等;《微计算机信息》;20081231;第24卷;92-94 *
数据挖掘在医保系统中的应用;王艳春 等;《长春理工大学学报》;20070630;第30卷(第2期);70-72 *
浅谈医保系统与医院信息系统的数据挖掘;张勇 等;《中国医疗设备》;20120731;第27卷(第7期);93-94 *

Also Published As

Publication number Publication date
CN104408547A (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN104408547B (zh) 一种基于数据挖掘的医保欺诈行为的检测方法
CA2632730C (en) Analyzing administrative healthcare claims data and other data sources
Tsai Global data mining: An empirical study of current trends, future forecasts and technology diffusions
WO2017152802A1 (zh) 将文本类医疗报告转换为结构化数据的智能系统及方法
CN108492196A (zh) 通过数据分析推断医疗保险违规行为的风控方法
CN107610761B (zh) 一种基于医保数据的临床路径分析方法
CN106202891A (zh) 一种面向医疗质量评价的大数据挖掘方法
CN104395925B (zh) 诊疗过程分析系统
WO2015117056A1 (en) Evaluating data quality of clinical trials
Al-Mualemi et al. A deep learning-based sepsis estimation scheme
CN108898316A (zh) 理赔费用预警方法及系统
Chen et al. Improved interpretability of machine learning model using unsupervised clustering: predicting time to first treatment in chronic lymphocytic leukemia
CN114117226A (zh) 一种产品推荐方法、系统、设备及介质
Jiang Applied medical statistics
Malke et al. Enhancing case capture, quality, and completeness of primary melanoma pathology records via natural language processing
Tóth et al. Applicability of process mining in the exploration of healthcare sequences
CN119339952A (zh) 一种作业人员的健康评估方法、装置、电子设备及存储介质
CN114550859A (zh) 单病种质量监测方法、系统、设备及存储介质
CN104573045A (zh) 一种基于模板的仿真试验数据处理方法
Zexian et al. Using clinical narratives and structured data to identify distant recurrences in breast cancer
CN104834702A (zh) 针对科研项目申报的学科选择方法
CN112205965B (zh) 基于时间窗口切割的健康风险关键事件检测方法及系统
CN116030940A (zh) 一种基于大数据的心理评测管理方法及系统
Lee et al. An Efficient, Robust, and Customizable Information Extraction and Pre-processing Pipeline for Electronic Health Records.
Qi et al. Business intelligence data visualization for diabetes health prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Shiwei

Inventor after: Liu Chenghao

Inventor after: Sun Jianling

Inventor after: Li Shanping

Inventor after: Peng Zhiyu

Inventor before: Chen Shiwei

Inventor before: Liu Chenghao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant