CN111028088A - 一种基于频繁集挖掘的团伙骗保行为识别方法与系统 - Google Patents
一种基于频繁集挖掘的团伙骗保行为识别方法与系统 Download PDFInfo
- Publication number
- CN111028088A CN111028088A CN201911095935.1A CN201911095935A CN111028088A CN 111028088 A CN111028088 A CN 111028088A CN 201911095935 A CN201911095935 A CN 201911095935A CN 111028088 A CN111028088 A CN 111028088A
- Authority
- CN
- China
- Prior art keywords
- tree
- list
- node
- treatment
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000005065 mining Methods 0.000 title claims abstract description 19
- 230000006399 behavior Effects 0.000 claims abstract description 21
- 238000012216 screening Methods 0.000 claims abstract description 7
- 230000008520 organization Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 238000003745 diagnosis Methods 0.000 abstract 1
- 238000007418 data mining Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 208000017667 Chronic Disease Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
Abstract
本发明公开了一种基于频繁集挖掘的团伙骗保行为识别方法及系统,方法包括:S1.将就诊结算数据根据医疗类别分类,基于医疗类别采用人员编号、就诊日期、就诊机构名称、最小支持度等建立数据库,保留人员编号、就诊日期和就诊机构名称,在相同日期去同一医疗机构就诊的人员编号构成一个列表;S2.设定最小支持度:S3.创建FP‑tree;S4.创建条件FP‑Tree,频繁项搜索,得到整个频繁项集;S5.数据筛选,得到疑似团体欺诈案件的就诊行为原始数据。本发明根据历史医疗行为数据,结合业务逻辑将需审查数据大范围缩小,大力简化了团体医保欺诈案件审查过程,提高审查效率。
Description
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于频繁集挖掘的团伙骗保行为识别方法与系统。
背景技术
基本医疗保险和大病医疗保险是我国社会保险的重要组成部分,其覆盖面广,受益人群广泛,照顾到广大人民群众基本的生活需求,意义重大,国家对其财政补助金额也日益增长。由于医保资金有着保障民生的重要作用,而对于医保基金的欺诈盗用会对基金的正常运行造成影响,与基本医疗保险制度保障人民生活,防止因病致贫的初衷相违背,是一种十分恶劣的行为,造成的社会影响非常不好,尤其是有组织的团伙案件,应该被严格制止并追回损失。但近年来,新闻报道中出现许多医保基金诈骗案件,其中有许多团伙作案,造成损失重大。在实际情况中,多人总是同一天去同一家医疗机构就诊的情况很少见,尤其在普通门诊和门诊慢性病的就诊中,多人总是同一天去同一家医疗机构的情况应该是医保基金诈骗的重点怀疑对象。但是我国参保人数众多,每年赔付案件数量巨大,医疗保险欺诈案件的侦破迫切需要高科技手段和大数据技术的支持。医疗保险覆盖面广,理赔量大,现在靠人工去发掘团体欺诈案件,目标不明确,耗费人工和时间。CN107145587A公开了一种基于大数据挖掘的医保反欺诈系统,它包括以下子系统:数据抽取、转换、加载子系统、大数据存储子系统、数据挖掘子系统、规则库和知识库子系统、实时流计算子系统和可视化子系统,数据抽取、转换、加载子系统与大数据存储子系统连接,大数据存储子系统与数据挖掘子系统连接,数据挖掘子系统与规则库和知识库子系统连接,规则库和知识库子系统与实时流子系统连接,大数据存储子系统、规则库和知识库子系统以及实时流计算子系统再分别与可视化子系统连接。上述系统内部结构及调度算法复杂,不适用于本案。
发明内容
有鉴于此,本发明的目的是提供一种基于频繁集挖掘的团伙骗保行为识别方法与系统,以解决现有技术中的不足。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
一方面,提供一种基于频繁集挖掘的团伙骗保行为识别方法,其中,包括下列步骤:
S1.将就诊结算数据根据医疗类别分类,每种医疗类别依据人员编号、就诊日期、就诊机构名称、最小支持度、同一天就诊人数、同时出现天数建立数据库,保留人员编号、就诊日期和就诊机构名称,就诊日期的精确度保留至日,在相同日期去同一医疗机构就诊的人员编号构成一个列表;
S2.设定最小支持度:支持度是指单个人员编号在所有输入列表出现的次数,扫描数据库,每种医疗类别都选定最小支持度参数,保留符合最小支持度的数据;
S3.创建FP-tree;
创建FP-tree的根结点,以null为标记,再次扫描数据库,对于数据库中的每一个列表,将其中支持度大于最小支持度的频繁项选出来并按降序排列;先取出其中一个列表,将该列表按照排好的顺序链接到根节点上,作为FP-tree的一个分支,每一个元素都是FP-tree中的一个节点,然后将其他列表按如下规则依次放入FP-tree;
S31.对于一个列表T,如果根结点null有子女节点N等于列表T中第一个元素P那么N项目数量记数增加1,否则创建一个新的节点P并设置计数为1,连接到根节点null,通过点链接将节点P连接到具有相同元素的头表节点;对于列表T中的其他元素Q,如果上一个节点M有子女节点Q,则Q的项目数量记数增加1,否则创建一个新的节点并设置计数为1,并通过点链接将该节点连接到具有相同元素的头表节点;对于数据库中经过筛选排序后的每一个列表都执行以上步骤,完成FP-tree的创建;建立一个头表,包含所有满足最小支持度的ID、该ID项的全局最小支持度、指向FP-tree中该ID项链表的表头的指针;
S32.重复上述S31,直至数据库中所有的列表被插入FP-tree中;
S4.频繁项搜索:对表头的每个项a进行挖掘,将对应的前缀路径生成一棵条件FP-tree,构造方式同S3步,首先把头表项a和a的条件FP树中的每一项取并集,得到一组频繁项集,继而对条件树进行递归挖掘,当条件树只有一条路径时,路径上所有元素的所有组合为条件频繁集,得到整个频繁项集;
S5.将从S4得到的结果数据,根据输入时设定的同一天就诊人数、同时出现天数对原始数据进行筛选,得到最后的疑似团体欺诈案件的就诊行为数据。
另一方面,提供一种基于频繁集挖掘的团伙骗保行为识别系统,其中,基于如上述方法实现。
本发明技术方案的有益效果是:
根据历史医疗行为数据,结合业务逻辑将需审查数据大范围缩小,大力简化了团体医保欺诈案件审查过程,提高审查效率。
附图说明
图1为本发明方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
本发明基于FP-growth(Frequent Pattern Growth)分析建模,对不同医疗类别,设定不同的最小支持度,对数据进行处理后,使用FP-growth算法,挖掘数据频繁集,作为团伙欺诈案件进行调查。具体来说,参看图1所示,本发明基于频繁集挖掘的团伙骗保行为识别方法,包括下列步骤:
S1.将就诊结算数据根据医疗类别分类,由于频繁项挖掘方法运算速度较慢,先根据业务意义对数据进行分组后再进行挖掘,可以大大提高运行效率。先将就诊结算数据分为4类,普通门诊数据,门诊慢性病数据,住院数据及药店购药数据后分别带入模型分析。
基于医疗类别采用人员编号、就诊日期、就诊机构名称、最小支持度、同一天就诊人数、同时出现天数建立数据库,保留人员编号、就诊日期和就诊机构名称,就诊日期的精确度保留至日,在相同日期去同一医疗机构就诊的人员编号构成一个列表。
S2.设定最小支持度:支持度是指单个人员编号在所有输入列表出现的次数,由于每种医疗类别的就诊频率是不一样的,一般人购药的频率会远大于住院的频率,所以不同医疗类别需要分别设定最小支持度,否则可能会出现结果集过大或过小的情况。扫描数据库,每种医疗类别都选定最小支持度参数,保留符合最小支持度的数据。
S3.创建FP-tree
创建FP-tree的根结点,以null为标记,再次扫描数据库,对于数据库中的每一个列表,将其中支持度大于最小支持度的频繁项选出来并按降序排列;先取出其中一个列表,将该列表按照排好的顺序链接到根节点上,作为FP-tree的一个分支,每一个元素都是FP-tree中的一个节点,然后将其他列表按如下规则依次放入FP-tree。
S31.对于一个列表T,如果根结点null有子女节点N等于列表T中第一个元素P那么N项目数量记数增加1,否则创建一个新的节点P并设置计数为1,连接到根节点null,通过点链接将节点P连接到具有相同元素的头表节点;对于列表T中的其他元素Q,如果上一个节点M有子女节点Q,则Q的项目数量记数增加1,否则创建一个新的节点并设置计数为1,并通过点链接将该节点连接到具有相同元素的头表节点;对于数据库中经过筛选排序后的每一个列表都执行以上步骤,完成FP-tree的创建;建立一个头表,包含所有满足最小支持度的ID、该ID项的全局最小支持度、指向FP-tree中该ID项链表的表头的指针。
S32.重复上述S31,直至数据库中所有的列表被插入FP-tree中。
S4.频繁项搜索:对表头的每个项a进行挖掘,将对应的前缀路径生成一棵条件FP-tree,构造方式同S3步,首先把头表项a和a的条件FP树中的每一项取并集,可以得到一组频繁项集,但并不完整,还要对条件树进行递归挖掘,当条件树只有一条路径时,路径上所有元素的所有组合为条件频繁集,得到整个频繁项集;
S5.将从S4得到的结果数据,根据输入时设定的同一天就诊人数、同时出现天数对原始数据进行筛选,得到最后的疑似团体欺诈案件的就诊行为数据。
另外,本发明提供一种基于频繁集挖掘的团伙骗保行为识别系统,基于如上述方法实现。本发明可以用来发现多人团体多日去同一机构一起就诊诈骗案件,对于一日多次就诊的现象也可以挖掘。
本发明根据历史医疗行为数据,结合业务逻辑将需审查数据大范围缩小,大力简化了团体医保欺诈案件审查过程,提高审查效率。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (2)
1.一种基于频繁集挖掘的团伙骗保行为识别方法,其特征在于,包括下列步骤:
S1.将就诊结算数据根据医疗类别分类,基于医疗类别采用人员编号、就诊日期、就诊机构名称、最小支持度、同一天就诊人数、同时出现天数建立数据库,保留人员编号、就诊日期和就诊机构名称,就诊日期的精确度保留至日,在相同日期去同一医疗机构就诊的人员编号构成一个列表;
S2.设定最小支持度:支持度是指单个人员编号在所有输入列表出现的次数,扫描数据库,每种医疗类别都选定最小支持度参数,保留符合最小支持度的数据;
S3.创建FP-tree;
创建FP-tree的根结点,以null为标记,再次扫描数据库,对于数据库中的每一个列表,将其中支持度大于最小支持度的频繁项选出来并按降序排列;先取出其中一个列表,将该列表按照排好的顺序链接到根节点上,作为FP-tree的一个分支,每一个元素都是FP-tree中的一个节点,然后将其他列表按如下规则依次放入FP-tree;
S31.对于一个列表T,如果根结点null有子女节点N等于列表T中第一个元素P那么N项目数量记数增加1,否则创建一个新的节点P并设置计数为1,连接到根节点nul l,通过点链接将节点P连接到具有相同元素的头表节点;对于列表T中的其他元素Q,如果上一个节点M有子女节点Q,则Q的项目数量记数增加1,否则创建一个新的节点并设置计数为1,并通过点链接将该节点连接到具有相同元素的头表节点;对于数据库中经过筛选排序后的每一个列表都执行以上步骤,完成FP-tree的创建;建立一个头表,包含所有满足最小支持度的ID、该ID项的全局最小支持度、指向FP-tree中该ID项链表的表头的指针;
S32.重复上述S31,直至数据库中所有的列表被插入FP-tree中;
S4.频繁项搜索:对表头的每个项a进行挖掘,将对应的前缀路径生成一棵条件FP-tree,构造方式同S3步,首先把头表项a和a的条件FP树中的每一项取并集,得到一组频繁项集,继而对条件树进行递归挖掘,当条件树只有一条路径时,路径上所有元素的所有组合为条件频繁集,得到整个频繁项集;
S5.将从S4得到的结果数据,根据输入时设定的同一天就诊人数、同时出现天数对原始数据进行筛选,得到最后的疑似团体欺诈案件的就诊行为数据。
2.一种基于频繁集挖掘的团伙骗保行为识别系统,其特征在于,基于如权利要求1所述方法实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911095935.1A CN111028088A (zh) | 2019-11-11 | 2019-11-11 | 一种基于频繁集挖掘的团伙骗保行为识别方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911095935.1A CN111028088A (zh) | 2019-11-11 | 2019-11-11 | 一种基于频繁集挖掘的团伙骗保行为识别方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111028088A true CN111028088A (zh) | 2020-04-17 |
Family
ID=70201235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911095935.1A Pending CN111028088A (zh) | 2019-11-11 | 2019-11-11 | 一种基于频繁集挖掘的团伙骗保行为识别方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028088A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241423A (zh) * | 2020-09-30 | 2021-01-19 | 易联众信息技术股份有限公司 | 基于关联规则算法在同质族群的挖掘方法 |
CN112463913A (zh) * | 2020-12-02 | 2021-03-09 | 北京明略软件系统有限公司 | 一种异常事件发现方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106056222A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于FP‑Tree序列模式挖掘的故障诊断与估价的方法 |
CN106408481A (zh) * | 2015-07-28 | 2017-02-15 | 平安科技(深圳)有限公司 | 异常刷卡人员信息自动提取系统及方法 |
CN109545316A (zh) * | 2018-10-30 | 2019-03-29 | 平安科技(深圳)有限公司 | 购药数据的处理方法及相关产品 |
-
2019
- 2019-11-11 CN CN201911095935.1A patent/CN111028088A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106408481A (zh) * | 2015-07-28 | 2017-02-15 | 平安科技(深圳)有限公司 | 异常刷卡人员信息自动提取系统及方法 |
CN106056222A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于FP‑Tree序列模式挖掘的故障诊断与估价的方法 |
CN109545316A (zh) * | 2018-10-30 | 2019-03-29 | 平安科技(深圳)有限公司 | 购药数据的处理方法及相关产品 |
Non-Patent Citations (1)
Title |
---|
熊贇等: "《大数据技术与应用》" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112241423A (zh) * | 2020-09-30 | 2021-01-19 | 易联众信息技术股份有限公司 | 基于关联规则算法在同质族群的挖掘方法 |
CN112463913A (zh) * | 2020-12-02 | 2021-03-09 | 北京明略软件系统有限公司 | 一种异常事件发现方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105787262B (zh) | 中医临床数字化评价体系及其基于大数据分析的评价方法 | |
Cheung et al. | Current trends in flow cytometry automated data analysis software | |
CN110300963A (zh) | 大规模数据储存库中的数据管理系统 | |
US20040122841A1 (en) | Method and system for evaluating intellectual property | |
CN104732154A (zh) | 将数据匿名化的方法和系统 | |
Gattoufi et al. | Epistemology of data envelopment analysis and comparison with other fields of OR/MS for relevance to applications | |
CN111028088A (zh) | 一种基于频繁集挖掘的团伙骗保行为识别方法与系统 | |
JP2003510694A (ja) | 匿名化された健康管理情報を分析するためのシステム及び方法 | |
CN106528778A (zh) | 用户留存类数据获取方法及装置 | |
Herrera-Flores et al. | Ecomorphological diversification of squamates in the Cretaceous | |
Venkateswaran et al. | A digital health registry with clinical decision support for improving quality of antenatal care in Palestine (eRegQual): a pragmatic, cluster-randomised, controlled, superiority trial | |
Khan et al. | Analysis of Tree-Family Machine Learning Techniques for Risk Prediction in Software Requirements | |
Andry et al. | The importance of big data for healthcare and its usage in clinical statistics of cardiovascular disease | |
CN117217634A (zh) | 一种基于复杂网络的企业合作社区发现方法 | |
Ahmed et al. | A proposed framework for detecting and predicting diseases through business intelligence applications | |
CN109241361A (zh) | 基于区块链的数据处理方法 | |
CN110502529B (zh) | 数据处理方法、装置、服务器及存储介质 | |
Valencia Cotera et al. | Identifying Strengths and Obstacles to Climate Change Adaptation in the German Agricultural Sector: A Group Model Building Approach | |
US20120246149A1 (en) | Automated method of generating reconciliation reports regarding mismatches of clinical data received from multiple sources during a clinical trial | |
CN110010231A (zh) | 一种数据处理系统及计算机可读存储介质 | |
CN111784495B (zh) | 担保圈识别方法、装置、计算机设备和存储介质 | |
CN111723129B (zh) | 报表生成方法、报表生成装置和电子设备 | |
Wah et al. | Development of a data warehouse for lymphoma cancer diagnosis and treatment decision support | |
CN114037245A (zh) | 一种多维度量化分析区块链公链项目成熟度的系统 | |
Bounsanga et al. | Using machine learning to identify factors associated with practice location of the heathcare workforce |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200417 |
|
WD01 | Invention patent application deemed withdrawn after publication |