CN104809216B - 基于数据挖掘分析模型的引擎系统 - Google Patents
基于数据挖掘分析模型的引擎系统 Download PDFInfo
- Publication number
- CN104809216B CN104809216B CN201510214187.XA CN201510214187A CN104809216B CN 104809216 B CN104809216 B CN 104809216B CN 201510214187 A CN201510214187 A CN 201510214187A CN 104809216 B CN104809216 B CN 104809216B
- Authority
- CN
- China
- Prior art keywords
- frequent
- item
- transaction
- data
- collections
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 7
- 238000007418 data mining Methods 0.000 title claims abstract description 7
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 2
- 238000007906 compression Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于数据挖掘的分析模型及引擎系统,它涉及医保监控软件开发技术领域,提取交易数据;先验知识输入;预处理;关联规则处理;判断挖掘完成;合并频繁项集处理;格式化显示。它合理组织事务数据库,动态计算支持度系数,消除遇到规模较大的事务数据库时产生大量候选集的困扰,避免重复扫描数据库,降低时间成本,提高违规行为检出效率。
Description
技术领域:
本发明涉及医保监控软件开发技术领域,具体涉及一种基于数据挖掘分析模型的引擎系统。
背景技术:
随着数据挖掘理论的完善及大数据技术的发展,现代生产生活越来越重视数据挖掘的应用。利用关联规则挖掘频繁项集,找出经常一起结算刷卡的卡号,理论上是可以满足应用需求的。但是常规关联算法面对大量事务数据时,重复扫描数据库,时间效率相当低下,并且可能产生大量的候选集,消耗大量的内存。另外,由于各家机构在不同时期的业务数据量也千差万别,最小支持度采用通用的比率数值难以确定是否符合业务需求、数据特征。这些问题直接导致现有的关联规则算法,无法高效的实施到实际的应用场景中。
发明内容:
本发明的目的是提供基于数据挖掘分析模型的引擎系统,它合理组织事务数据库,动态计算支持度系数,消除遇到规模较大的事务数据库时产生大量候选集的困扰,避免重复扫描数据库,降低时间成本,提高违规行为检出效率。
为了解决背景技术所存在的问题,本发明是采用以下技术方案:它的流程如下:
(一)、在系统任务开启时,按机构、月份从原始数据库中提取结算交易数据,以时间戳为事务标记保存相关事务数据到本地txt文件中,一个时间戳就代表一条事务数据,这样极大的提高磁盘IO效率,避免反复的数据库查询,而且对于多卡号集中程度的描述,直接通过时间戳的精度就可以表述;
(二)、由于各个机构或月份的数据数量级不同,变化范围也不同,需要动态计算最小支持度,由先验知识,可知两次以上包括两次的频数,可以确定疑似违规行为,所以最小支持度Smin=2/当前月份当前机构总的交易事务记录数;
(三)、任何长度为k的事务都不可能包含(k+1)-项子集,对原始事务文件中的每一个事务进行第一次扫描并计数后,立即删除长度为1的当前事务,同时删除计数为1的单项医保卡号,因为该事务或单项不会对后面的频繁2-项集的生成起作用,并且也不满足业务违规特征,所以以后的操作不再需要该事务了;
(四)、在对事务文件预处理完毕后,事务文件已经被压缩很小了,进行第二次扫描并对2-项集计数之后,在内存变量中保存频繁2-项集;
(五)、利用频繁(k-1)-项集计算频繁k-项集,若有频繁k-项集,则保存到内存变量中,结束挖掘频繁项集;
(六)、合并频繁项集,频繁k-项集包含频繁(k-1)-项集中的子集,初步挖掘出来的频繁项集还不能作为精确检出的结果,按频繁项数从高到低排序,遍历频繁k-项集的子集,依次合并删除频繁(k-1)-项集中重复子项集,直到所有的频繁项集中没有重复的子项集。
本发明具有以下有益效果:它合理组织事务数据库,动态计算支持度系数,消除遇到规模较大的事务数据库时产生大量候选集的困扰,避免重复扫描数据库,降低时间成本,提高违规行为检出效率。
附图说明:
图1是本发明的工作流程图。
具体实施方式:
下面结合附图,对本发明作详细的说明。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
参看图1,本具体实施方式是采用以下技术方案:它的流程如下:
步骤一、提取交易数据:首先从医保数据库中提取某家医院门诊结算数据,例如按时间戳[年月日时]作为一条事务记录,一条事务记录中包含的是在这个时间戳内的所有交易的医保卡号,从月初到月末一条一条保存到txt中;
步骤二、先验知识输入:这一先验知识根据不同地区的政策及数据特征可能略有调整,但基本是固定的,参数值为2,确认完毕后,最小支持度=2/这家机构本月的交易事务总量;
步骤三、预处理:由于每天都有大量的医保刷卡结算行为,日积月累,这数据量将是相当庞大的。针对目前的违规行为判定标准,至少需要2张及2张以上的医保卡同时段出现,才可能被认定违规,所以我们预处理的过程中可以对每月只交易一次的医保卡号数据记录进行删除,同时对应同一时间戳的交易卡数只有1的事务记录也可直接删除。这样提取分析的事务数据文件大大缩减,避免多次重复遍历无用的事务数据;
步骤四、关联规则处理:挖掘频繁(k‐1)‐项集;
步骤五、判断挖掘完成:频繁(k‐1)‐项集是否有效,如果无效,跳转到步骤四,基于频繁(k‐1)‐项集,挖掘频繁k‐项集;如果有效,转到步骤六;
步骤六、合并频繁项集处理:由于频繁k‐项集中的频繁项必定存在包含频繁(k‐1)‐项集中的子集,为了避免以上违规结果的重复,所以需要合并删除重复的结果项,以较大的频繁项结果为基准,逐步遍历频繁小项集,如遇大项集包含小项集,则删除小项集合;如若出现交集,则合并形成更大的集合,直到遍历结束,无法再合并删除。
步骤七、格式化显示:根据稽核人员的业务需求,拓展组织相关频繁项集中的数据并入库,完成疑似违规行为检出功能。
本具体实施方式具有以下有益效果:它合理组织事务数据库,动态计算支持度系数,消除遇到规模较大的事务数据库时产生大量候选集的困扰,避免重复扫描数据库,降低时间成本,提高违规行为检出效率。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.基于数据挖掘分析模型的引擎系统,其特征在于它的流程如下:
(一)、在系统任务开启时,按机构、月份从原始数据库中提取结算交易数据,以时间戳为事务标记保存相关事务数据到本地txt文件中,一个时间戳就代表一条事务数据,这样极大的提高磁盘IO效率,避免反复的数据库查询,而且对于多卡号集中程度的描述,直接通过时间戳的精度就可以表述;
(二)、由于各个机构或月份的数据数量级不同,变化范围也不同,需要动态计算最小支持度,由先验知识,可知两次以上包括两次的频数,可以确定疑似违规行为,所以最小支持度Smin=2/当前月份当前机构总的交易事务记录数;
(三)、任何长度为k的事务都不可能包含(k+1)-项子集,对原始事务文件中的每一个事务进行第一次扫描并计数后,立即删除长度为1的当前事务,同时删除计数为1的单项医保卡号,因为该事务或单项不会对后面的频繁2-项集的生成起作用,并且也不满足业务违规特征,所以以后的操作不再需要该事务了;
(四)、在对事务文件预处理完毕后,事务文件已经被压缩很小了,进行第二次扫描并对2-项集计数之后,在内存变量中保存频繁2-项集;
(五)、利用频繁(k-1)-项集计算频繁k-项集,若有频繁k-项集,则保存到内存变量中,结束挖掘频繁项集;
(六)、合并频繁项集,频繁k-项集包含频繁(k-1)-项集中的子集,初步挖掘出来的频繁项集还不能作为精确检出的结果,按频繁项数从高到低排序,遍历频繁k-项集的子集,依次合并删除频繁(k-1)-项集中重复子项集,直到所有的频繁项集中没有重复的子项集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510214187.XA CN104809216B (zh) | 2015-04-29 | 2015-04-29 | 基于数据挖掘分析模型的引擎系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510214187.XA CN104809216B (zh) | 2015-04-29 | 2015-04-29 | 基于数据挖掘分析模型的引擎系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104809216A CN104809216A (zh) | 2015-07-29 |
CN104809216B true CN104809216B (zh) | 2018-06-05 |
Family
ID=53694038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510214187.XA Active CN104809216B (zh) | 2015-04-29 | 2015-04-29 | 基于数据挖掘分析模型的引擎系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809216B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107085757B (zh) * | 2016-02-16 | 2021-06-29 | 中国移动通信集团江苏有限公司 | 一种确定风险类用户的方法及装置 |
CN111352954B (zh) * | 2020-02-20 | 2021-02-12 | 中国科学院自动化研究所 | 低资源条件下的关联规则挖掘方法、系统、装置 |
CN114238433B (zh) * | 2021-11-24 | 2022-09-16 | 北京融信数联科技有限公司 | 一种基于大数据的人口监测方法、系统和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937447A (zh) * | 2010-06-07 | 2011-01-05 | 华为技术有限公司 | 一种告警关联规则挖掘方法、规则挖掘引擎及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7490075B2 (en) * | 2005-01-24 | 2009-02-10 | Microsoft Corporation | Scaleable data itemsets and association rules |
-
2015
- 2015-04-29 CN CN201510214187.XA patent/CN104809216B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937447A (zh) * | 2010-06-07 | 2011-01-05 | 华为技术有限公司 | 一种告警关联规则挖掘方法、规则挖掘引擎及系统 |
Non-Patent Citations (2)
Title |
---|
An improved multiple minimum support based approach to mine rare association rules;Kiran R U等;《IEEE》;20090515;全文 * |
医保就医聚集行为挖掘;何俊华;《计算机应用与软件》;20110731;第28卷(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104809216A (zh) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sun et al. | Generalized optimal wavelet decomposing algorithm for big financial data | |
EP3082051A1 (en) | Data mining method | |
US20190362356A1 (en) | Systems and methods for detecting compromised automated teller machines | |
US20140254879A1 (en) | Location Classification Based on License Plate Recognition Information | |
CN104809216B (zh) | 基于数据挖掘分析模型的引擎系统 | |
US20200211019A1 (en) | Systems and methods for improved detection of network fraud events | |
CN109920506A (zh) | 医疗统计报告生成方法、装置、设备及存储介质 | |
CN110019324B (zh) | 一种生成纳税人资金回路的方法及系统 | |
CN110060087B (zh) | 异常数据的检测方法、装置和服务器 | |
CN110490750B (zh) | 数据识别的方法、系统、电子设备及计算机存储介质 | |
JP7372707B2 (ja) | 暗号通貨取引を分析するためのデータ取得方法及び装置 | |
CN106339481A (zh) | 基于最大置信度的中文复合新词发现方法 | |
US20240290128A1 (en) | Document analysis to identify document characteristics and appending the document characteristics to a record | |
CN112084448A (zh) | 相似信息处理方法以及装置 | |
CN108776857A (zh) | Nps短信调研方法、系统、计算机设备和存储介质 | |
CN110942312A (zh) | 一种pos机套现识别方法、系统、设备及存储介质 | |
CN109800215A (zh) | 一种对标处理的方法、装置、计算机存储介质及终端 | |
CN107016052A (zh) | 一种信息智能加工方法 | |
CN106709029A (zh) | 基于Hadoop和MySQL的文件分层处理方法及处理系统 | |
CN113487407A (zh) | 数据处理方法、装置及电子设备 | |
KR102285080B1 (ko) | 이슈 발생 예측 시스템 | |
Alagarsamy et al. | Pattern Recognition based Smart Billing System for Water Consumption | |
CN113420174A (zh) | 难样本挖掘方法、装置、设备以及存储介质 | |
CN111782917A (zh) | 用于对金融处罚数据进行可视化分析的方法及装置 | |
CN105373521A (zh) | 一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190415 Address after: Room B168, 1st floor, Lane 799, Huanlin East Road, Pudong New Area, Shanghai, 200123 Patentee after: Shanghai Jinshida Weining Software Technology Co., Ltd. Address before: Room 902, Baohua Center, 355 Guangzhong Road, Zhabei District, Shanghai Patentee before: Zhao Menghai |
|
TR01 | Transfer of patent right |