CN104809216B

CN104809216B - 基于数据挖掘分析模型的引擎系统

Info

Publication number: CN104809216B
Application number: CN201510214187.XA
Authority: CN
Inventors: 赵蒙海
Original assignee: Individual
Current assignee: Shanghai Jinshida Weining Software Technology Co Ltd
Priority date: 2015-04-29
Filing date: 2015-04-29
Publication date: 2018-06-05
Anticipated expiration: 2035-04-29
Also published as: CN104809216A

Abstract

基于数据挖掘的分析模型及引擎系统，它涉及医保监控软件开发技术领域，提取交易数据；先验知识输入；预处理；关联规则处理；判断挖掘完成；合并频繁项集处理；格式化显示。它合理组织事务数据库，动态计算支持度系数，消除遇到规模较大的事务数据库时产生大量候选集的困扰，避免重复扫描数据库，降低时间成本，提高违规行为检出效率。

Description

基于数据挖掘分析模型的引擎系统

技术领域：

本发明涉及医保监控软件开发技术领域，具体涉及一种基于数据挖掘分析模型的引擎系统。

背景技术：

随着数据挖掘理论的完善及大数据技术的发展，现代生产生活越来越重视数据挖掘的应用。利用关联规则挖掘频繁项集,找出经常一起结算刷卡的卡号，理论上是可以满足应用需求的。但是常规关联算法面对大量事务数据时，重复扫描数据库，时间效率相当低下，并且可能产生大量的候选集，消耗大量的内存。另外，由于各家机构在不同时期的业务数据量也千差万别，最小支持度采用通用的比率数值难以确定是否符合业务需求、数据特征。这些问题直接导致现有的关联规则算法，无法高效的实施到实际的应用场景中。

发明内容：

本发明的目的是提供基于数据挖掘分析模型的引擎系统，它合理组织事务数据库，动态计算支持度系数，消除遇到规模较大的事务数据库时产生大量候选集的困扰，避免重复扫描数据库，降低时间成本，提高违规行为检出效率。

为了解决背景技术所存在的问题，本发明是采用以下技术方案：它的流程如下：

(一)、在系统任务开启时，按机构、月份从原始数据库中提取结算交易数据，以时间戳为事务标记保存相关事务数据到本地txt文件中，一个时间戳就代表一条事务数据，这样极大的提高磁盘IO效率，避免反复的数据库查询，而且对于多卡号集中程度的描述，直接通过时间戳的精度就可以表述；

(二)、由于各个机构或月份的数据数量级不同，变化范围也不同，需要动态计算最小支持度，由先验知识，可知两次以上包括两次的频数，可以确定疑似违规行为，所以最小支持度Smin＝2/当前月份当前机构总的交易事务记录数；

(三)、任何长度为k的事务都不可能包含(k+1)-项子集，对原始事务文件中的每一个事务进行第一次扫描并计数后，立即删除长度为1的当前事务，同时删除计数为1的单项医保卡号，因为该事务或单项不会对后面的频繁2-项集的生成起作用，并且也不满足业务违规特征，所以以后的操作不再需要该事务了；

(四)、在对事务文件预处理完毕后，事务文件已经被压缩很小了，进行第二次扫描并对2-项集计数之后，在内存变量中保存频繁2-项集；

(五)、利用频繁(k-1)-项集计算频繁k-项集，若有频繁k-项集，则保存到内存变量中，结束挖掘频繁项集；

(六)、合并频繁项集，频繁k-项集包含频繁(k-1)-项集中的子集，初步挖掘出来的频繁项集还不能作为精确检出的结果，按频繁项数从高到低排序，遍历频繁k-项集的子集，依次合并删除频繁(k-1)-项集中重复子项集，直到所有的频繁项集中没有重复的子项集。

本发明具有以下有益效果：它合理组织事务数据库，动态计算支持度系数，消除遇到规模较大的事务数据库时产生大量候选集的困扰，避免重复扫描数据库，降低时间成本，提高违规行为检出效率。

附图说明：

图1是本发明的工作流程图。

具体实施方式：

下面结合附图，对本发明作详细的说明。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施方式，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅用以解释本发明，并不用于限定本发明。

参看图1，本具体实施方式是采用以下技术方案：它的流程如下：

步骤一、提取交易数据：首先从医保数据库中提取某家医院门诊结算数据，例如按时间戳[年月日时]作为一条事务记录，一条事务记录中包含的是在这个时间戳内的所有交易的医保卡号，从月初到月末一条一条保存到txt中；

步骤二、先验知识输入：这一先验知识根据不同地区的政策及数据特征可能略有调整，但基本是固定的，参数值为2，确认完毕后，最小支持度＝2/这家机构本月的交易事务总量；

步骤三、预处理：由于每天都有大量的医保刷卡结算行为，日积月累，这数据量将是相当庞大的。针对目前的违规行为判定标准，至少需要2张及2张以上的医保卡同时段出现，才可能被认定违规，所以我们预处理的过程中可以对每月只交易一次的医保卡号数据记录进行删除，同时对应同一时间戳的交易卡数只有1的事务记录也可直接删除。这样提取分析的事务数据文件大大缩减，避免多次重复遍历无用的事务数据；

步骤四、关联规则处理：挖掘频繁(k‐1)‐项集；

步骤五、判断挖掘完成：频繁(k‐1)‐项集是否有效，如果无效，跳转到步骤四，基于频繁(k‐1)‐项集，挖掘频繁k‐项集；如果有效，转到步骤六；

步骤六、合并频繁项集处理：由于频繁k‐项集中的频繁项必定存在包含频繁(k‐1)‐项集中的子集，为了避免以上违规结果的重复，所以需要合并删除重复的结果项，以较大的频繁项结果为基准，逐步遍历频繁小项集，如遇大项集包含小项集，则删除小项集合；如若出现交集，则合并形成更大的集合，直到遍历结束，无法再合并删除。

步骤七、格式化显示：根据稽核人员的业务需求，拓展组织相关频繁项集中的数据并入库，完成疑似违规行为检出功能。

本具体实施方式具有以下有益效果：它合理组织事务数据库，动态计算支持度系数，消除遇到规模较大的事务数据库时产生大量候选集的困扰，避免重复扫描数据库，降低时间成本，提高违规行为检出效率。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于数据挖掘分析模型的引擎系统，其特征在于它的流程如下：