CN111028088A

CN111028088A - 一种基于频繁集挖掘的团伙骗保行为识别方法与系统

Info

Publication number: CN111028088A
Application number: CN201911095935.1A
Authority: CN
Inventors: 闫续冉
Original assignee: Pacific Medical Health Management Co ltd
Current assignee: Pacific Medical Health Management Co ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2020-04-17

Abstract

本发明公开了一种基于频繁集挖掘的团伙骗保行为识别方法及系统，方法包括：S1.将就诊结算数据根据医疗类别分类，基于医疗类别采用人员编号、就诊日期、就诊机构名称、最小支持度等建立数据库，保留人员编号、就诊日期和就诊机构名称，在相同日期去同一医疗机构就诊的人员编号构成一个列表；S2.设定最小支持度：S3.创建FP‑tree；S4.创建条件FP‑Tree，频繁项搜索，得到整个频繁项集；S5.数据筛选，得到疑似团体欺诈案件的就诊行为原始数据。本发明根据历史医疗行为数据，结合业务逻辑将需审查数据大范围缩小，大力简化了团体医保欺诈案件审查过程，提高审查效率。

Description

一种基于频繁集挖掘的团伙骗保行为识别方法与系统

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于频繁集挖掘的团伙骗保行为识别方法与系统。

背景技术

基本医疗保险和大病医疗保险是我国社会保险的重要组成部分，其覆盖面广，受益人群广泛，照顾到广大人民群众基本的生活需求，意义重大，国家对其财政补助金额也日益增长。由于医保资金有着保障民生的重要作用，而对于医保基金的欺诈盗用会对基金的正常运行造成影响，与基本医疗保险制度保障人民生活，防止因病致贫的初衷相违背，是一种十分恶劣的行为，造成的社会影响非常不好，尤其是有组织的团伙案件，应该被严格制止并追回损失。但近年来，新闻报道中出现许多医保基金诈骗案件，其中有许多团伙作案，造成损失重大。在实际情况中，多人总是同一天去同一家医疗机构就诊的情况很少见，尤其在普通门诊和门诊慢性病的就诊中，多人总是同一天去同一家医疗机构的情况应该是医保基金诈骗的重点怀疑对象。但是我国参保人数众多，每年赔付案件数量巨大，医疗保险欺诈案件的侦破迫切需要高科技手段和大数据技术的支持。医疗保险覆盖面广，理赔量大，现在靠人工去发掘团体欺诈案件，目标不明确，耗费人工和时间。CN107145587A公开了一种基于大数据挖掘的医保反欺诈系统，它包括以下子系统：数据抽取、转换、加载子系统、大数据存储子系统、数据挖掘子系统、规则库和知识库子系统、实时流计算子系统和可视化子系统，数据抽取、转换、加载子系统与大数据存储子系统连接，大数据存储子系统与数据挖掘子系统连接，数据挖掘子系统与规则库和知识库子系统连接，规则库和知识库子系统与实时流子系统连接，大数据存储子系统、规则库和知识库子系统以及实时流计算子系统再分别与可视化子系统连接。上述系统内部结构及调度算法复杂，不适用于本案。

发明内容

有鉴于此，本发明的目的是提供一种基于频繁集挖掘的团伙骗保行为识别方法与系统，以解决现有技术中的不足。

为了达到上述目的，本发明的目的是通过下述技术方案实现的：

一方面，提供一种基于频繁集挖掘的团伙骗保行为识别方法，其中，包括下列步骤：

S1.将就诊结算数据根据医疗类别分类，每种医疗类别依据人员编号、就诊日期、就诊机构名称、最小支持度、同一天就诊人数、同时出现天数建立数据库，保留人员编号、就诊日期和就诊机构名称，就诊日期的精确度保留至日，在相同日期去同一医疗机构就诊的人员编号构成一个列表；

S2.设定最小支持度：支持度是指单个人员编号在所有输入列表出现的次数，扫描数据库，每种医疗类别都选定最小支持度参数，保留符合最小支持度的数据；

S3.创建FP-tree；

创建FP-tree的根结点，以null为标记，再次扫描数据库，对于数据库中的每一个列表，将其中支持度大于最小支持度的频繁项选出来并按降序排列；先取出其中一个列表，将该列表按照排好的顺序链接到根节点上，作为FP-tree的一个分支，每一个元素都是FP-tree中的一个节点，然后将其他列表按如下规则依次放入FP-tree；

S31.对于一个列表T，如果根结点null有子女节点N等于列表T中第一个元素P那么N项目数量记数增加1，否则创建一个新的节点P并设置计数为1，连接到根节点null，通过点链接将节点P连接到具有相同元素的头表节点；对于列表T中的其他元素Q，如果上一个节点M有子女节点Q，则Q的项目数量记数增加1，否则创建一个新的节点并设置计数为1，并通过点链接将该节点连接到具有相同元素的头表节点；对于数据库中经过筛选排序后的每一个列表都执行以上步骤，完成FP-tree的创建；建立一个头表，包含所有满足最小支持度的ID、该ID项的全局最小支持度、指向FP-tree中该ID项链表的表头的指针；

S32.重复上述S31，直至数据库中所有的列表被插入FP-tree中；

S4.频繁项搜索：对表头的每个项a进行挖掘，将对应的前缀路径生成一棵条件FP-tree，构造方式同S3步，首先把头表项a和a的条件FP树中的每一项取并集，得到一组频繁项集，继而对条件树进行递归挖掘，当条件树只有一条路径时，路径上所有元素的所有组合为条件频繁集，得到整个频繁项集；

S5.将从S4得到的结果数据，根据输入时设定的同一天就诊人数、同时出现天数对原始数据进行筛选，得到最后的疑似团体欺诈案件的就诊行为数据。

另一方面，提供一种基于频繁集挖掘的团伙骗保行为识别系统，其中，基于如上述方法实现。

本发明技术方案的有益效果是：

根据历史医疗行为数据，结合业务逻辑将需审查数据大范围缩小，大力简化了团体医保欺诈案件审查过程，提高审查效率。

附图说明

图1为本发明方法流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

本发明基于FP-growth(Frequent Pattern Growth)分析建模，对不同医疗类别，设定不同的最小支持度，对数据进行处理后，使用FP-growth算法，挖掘数据频繁集，作为团伙欺诈案件进行调查。具体来说，参看图1所示，本发明基于频繁集挖掘的团伙骗保行为识别方法，包括下列步骤：

S1.将就诊结算数据根据医疗类别分类，由于频繁项挖掘方法运算速度较慢，先根据业务意义对数据进行分组后再进行挖掘，可以大大提高运行效率。先将就诊结算数据分为4类，普通门诊数据，门诊慢性病数据，住院数据及药店购药数据后分别带入模型分析。

基于医疗类别采用人员编号、就诊日期、就诊机构名称、最小支持度、同一天就诊人数、同时出现天数建立数据库，保留人员编号、就诊日期和就诊机构名称，就诊日期的精确度保留至日，在相同日期去同一医疗机构就诊的人员编号构成一个列表。

S2.设定最小支持度：支持度是指单个人员编号在所有输入列表出现的次数，由于每种医疗类别的就诊频率是不一样的，一般人购药的频率会远大于住院的频率，所以不同医疗类别需要分别设定最小支持度，否则可能会出现结果集过大或过小的情况。扫描数据库，每种医疗类别都选定最小支持度参数，保留符合最小支持度的数据。

S3.创建FP-tree

创建FP-tree的根结点，以null为标记，再次扫描数据库，对于数据库中的每一个列表，将其中支持度大于最小支持度的频繁项选出来并按降序排列；先取出其中一个列表，将该列表按照排好的顺序链接到根节点上，作为FP-tree的一个分支，每一个元素都是FP-tree中的一个节点，然后将其他列表按如下规则依次放入FP-tree。

S31.对于一个列表T，如果根结点null有子女节点N等于列表T中第一个元素P那么N项目数量记数增加1，否则创建一个新的节点P并设置计数为1，连接到根节点null，通过点链接将节点P连接到具有相同元素的头表节点；对于列表T中的其他元素Q，如果上一个节点M有子女节点Q，则Q的项目数量记数增加1，否则创建一个新的节点并设置计数为1，并通过点链接将该节点连接到具有相同元素的头表节点；对于数据库中经过筛选排序后的每一个列表都执行以上步骤，完成FP-tree的创建；建立一个头表，包含所有满足最小支持度的ID、该ID项的全局最小支持度、指向FP-tree中该ID项链表的表头的指针。

S32.重复上述S31，直至数据库中所有的列表被插入FP-tree中。

S4.频繁项搜索：对表头的每个项a进行挖掘，将对应的前缀路径生成一棵条件FP-tree，构造方式同S3步，首先把头表项a和a的条件FP树中的每一项取并集，可以得到一组频繁项集，但并不完整，还要对条件树进行递归挖掘，当条件树只有一条路径时，路径上所有元素的所有组合为条件频繁集，得到整个频繁项集；

另外，本发明提供一种基于频繁集挖掘的团伙骗保行为识别系统，基于如上述方法实现。本发明可以用来发现多人团体多日去同一机构一起就诊诈骗案件，对于一日多次就诊的现象也可以挖掘。

本发明根据历史医疗行为数据，结合业务逻辑将需审查数据大范围缩小，大力简化了团体医保欺诈案件审查过程，提高审查效率。

以上仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种基于频繁集挖掘的团伙骗保行为识别方法，其特征在于，包括下列步骤：

S1.将就诊结算数据根据医疗类别分类，基于医疗类别采用人员编号、就诊日期、就诊机构名称、最小支持度、同一天就诊人数、同时出现天数建立数据库，保留人员编号、就诊日期和就诊机构名称，就诊日期的精确度保留至日，在相同日期去同一医疗机构就诊的人员编号构成一个列表；

S3.创建FP-tree；

S31.对于一个列表T，如果根结点null有子女节点N等于列表T中第一个元素P那么N项目数量记数增加1，否则创建一个新的节点P并设置计数为1，连接到根节点nul l，通过点链接将节点P连接到具有相同元素的头表节点；对于列表T中的其他元素Q，如果上一个节点M有子女节点Q，则Q的项目数量记数增加1，否则创建一个新的节点并设置计数为1，并通过点链接将该节点连接到具有相同元素的头表节点；对于数据库中经过筛选排序后的每一个列表都执行以上步骤，完成FP-tree的创建；建立一个头表，包含所有满足最小支持度的ID、该ID项的全局最小支持度、指向FP-tree中该ID项链表的表头的指针；

S32.重复上述S31，直至数据库中所有的列表被插入FP-tree中；

2.一种基于频繁集挖掘的团伙骗保行为识别系统，其特征在于，基于如权利要求1所述方法实现。