CN111241136A

CN111241136A - 一种基于数据缓冲池的Top-k高效用项集挖掘方法

Info

Publication number: CN111241136A
Application number: CN202010012489.XA
Authority: CN
Inventors: 蒋华; 路昕宇; 王慧娇; 王鑫; 韦晓虎; 刘鼎立
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-05

Abstract

本发明公开一种基于数据缓冲池的Top‑k高效用项集挖掘方法，包括如下步骤：（1）数据挖掘运行参数初始化；（2）初次扫描事务数据库

并计算单一项的加权事务效用值，将最小阈值

初始化为0并创建初始化链表

；（3）将单一项的加权事务效用值存入初始化链表

并按加权事务效用值升序排列；（4）再次扫描数据库

，创建高效用项集队列；（5）调用搜索子程序Search，将初始化链表

、评估效用共现结构EUCS、数据缓冲池DBP和索引链表

传入子程序Search；（6）输出效用最高的前

个高效用项集，完成数据挖掘。本发明方法通过数据缓冲池的方式，对已使用的数据空间进行回收，提高内存的复用率，降低高效用项集挖掘的运行时间和内存消耗。

Description

一种基于数据缓冲池的Top-k高效用项集挖掘方法

技术领域

本发明涉及Top-k高效用项集数据挖掘，具体是一种基于数据缓冲池的Top-k高效用项集挖掘方法。

背景技术

在零售行业中，根据商品被购买次数的多寡，向决策制定者提供制定决策的数据依据是普遍现象。在现实生活中，每个商品的成本、售价、利润、重量、风险均不相同，那么仅考虑商品在交易数据库的被购买的次数并不能反映真实的情况。高效用项集挖掘(High-Utility Itemsets Mining，简称HUIM)算法不仅考虑到交易中商品出现的次数，还考虑到商品的单位利润(效用)，高效用项集挖掘算法的目标是在交易数据库中发现为零售商带来可观利润的项目和项集，被发掘的项集称作高效用项集。

近年来，高效用项集挖掘算法的效率方面取得了一定成果，但由于实际应用中，最小阈值的设定不但影响着算法挖掘高效用项集的数量，而且影响着算法运行时的效率。最小阈值设定过高，使得挖掘出的结果集过少无法满足用户需求；设定过低，则产生大量结果集使得算法运行时间过长，占用大量的内存空间甚至内存溢出导致算法运行失败。用户为了确定合适的最小阈值，往往需要经验和反复测试，但每当数据集中数据的变更很有可能使之前设定的最小阈值失去意义。Top-k高效用项集挖掘算法采用挖掘前k个效用值最大的项集的方式，将设定最小阈值的问题，转变为设定所需结果集数量的问题。

Top-k高效用项集挖掘算法主要分为以TKO(mining Top-K utility itemsets inOne phase) 算法为代表的一阶段算法和以TKU(Top-K Utility itemsets mining)算法为代表的二阶段算法。先前算法在优化挖掘高效用项集时，主要关注点在改进存储效用信息数据结构。例如TKU算法通过树结构UP-tree两次扫描数据库进行挖掘，而TKO采用效用链表结构在算法第一次扫描数据库时，将关键信息存入效用链表，之后只需扫描效用链表上的信息，通过大量连接操作和递归效用链表，构建过程挖掘高效用项集。随着数据库中项的增长，项集的增加，存储效用信息的数据结构中数据量也随之增长，挖掘过程中所需要的信息和已不再需要的信息大量影响着执行速度和内存消耗。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于数据缓冲池的Top-k高效用项集挖掘方法。

实现本发明目的的技术方案是：

一种基于数据缓冲池的Top-k高效用项集挖掘方法，具体包括如下步骤：

(1)数据挖掘运行参数初始化：设置需要被挖掘的数据库D，指定结果集数量k和利润表ptable；

(2)扫描数据库D：初次扫描事务数据库D并计算单一项的加权事务效用值，将最小阈值minUtil初始化为0并创建初始化链表I^*；

(3)将单一项的加权事务效用值存入初始化链表I^*并按加权事务效用值升序排列；

(4)再次扫描数据库D，建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构 EUCS，创建高效用项集队列；

(5)调用搜索子程序Search，将初始化链表I^*、评估效用共现结构EUCS、数据缓冲池 DBP和索引链表IndexList传入子程序Search；

(6)输出效用最高的前k个高效用项集，完成数据挖掘。

步骤(5)所述的调用搜索子程序Search，包括如下步骤：

(5.1)在搜索子程序Search中，对于项集P的一个分支项集Px，如果索引链表IndexList(Px)中存储的项集Px效用之和SumIutil不小于最小阈值minUtil，那么将项集Px加入到高效用项集队列；

在项集Px加入之前，判断队列长度是否大于结果集数量k值，若小于k值，直接将项集Px 插入队列；

若队列长度大于k值，则比较项集Px的效用值和高效用队列中的最小值，如果项集Px的效用值小于高效用队列中的最小值，则不插入队列；如果项集Px的效用值大于高效用队列中的最小值，则删除最小值的项集，插入项集Px并将minUtil更新为高效用项集最新的最小值；

(5.2)如果项集Px的索引链表IndexList(Px)中的效用之和SumIutil与剩余效用之和 SumRutil相加不小于最小阈值minUtil，那么项集Px的分支项集则可能是高效用项集；

(5.3)对于项集P的另一个分支项集Py，Py与项集Px合并使得y＞x并且 TWU({x,y})≥minUtil，形成新的分支项集Pxy继续执行；

(5.4)将项集P，Px，Py，数据缓冲池DBP，索引链表IndexList作为参数调用数据缓冲池构建过程。

步骤(5.4)所述的数据缓冲池构建过程，包括如下步骤：

(5.4.1)在数据缓冲池构建过程中，设指针PPnt，PxPnt，PyPnt分别为索引链表IndexList(P)，IndexList(Px)，IndexList(Py)的起始位置，指针指向数据缓冲池DBP中的元组；

(5.4.2)如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中Tids，那么将指针 PxPnt向右移动一位；

(5.4.3)如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中Tids，那么将指针 PyPnt向右移动一位；

(5.4.4)如果PxPnt指向的元组中Tids等于PyPnt指向的元组中Tids，并且索引链表 IndexList(P)不为空，那么PPnt的指针连续向右移动，直到PPnt移动到IndexList(P)的末位或者PPnt指向元组中的tids和PxPnt指向元组中的tids相同为止；

(5.4.5)数据缓冲池DBP的末位添加一个新元组，令Tids为PxPnt的Tids，Iutils为PxPnt 的Iutils加PyPnt的Iutils减去PPnt的Iutils，Rutils为PyPnt的Rutils；

(5.4.6)PxPnt和PyPnt同时右移一位；

(5.4.7)当指针PxPnt没有指向索引链表IndexList(Px)的末位置EndPos，并且指针 PyPnt没有指向索引链表IndexList(Py)的末位置EndPos时，重复执行数据缓冲池构建过程；

(5.4.8)更新索引链表IndexList(Pxy)和数据缓冲池DBP，结束数据缓冲池构建过程；

完成数据缓冲池构建后，若索引链表IndexList(Pxy)不为空，Pxy及其分支项集将被搜索进程Search继续挖掘，不断递归此程序直到没有分支项集。

本发明挖掘方法具有以下优点：

(1)数据缓冲池统一分配和回收内存空间，当发现搜索过程不再需要项集的效用链表时，将数据缓冲池中分配给项集的临时内存空间回收，并重新分配给其他需要存储的效用链表，通过内存复用的方式降低内存消耗。

(2)将项集的效用链表数据临时插入到数据缓冲池中，位置信息存储在索引链表中，通过读取位置信息可以直接访问所需要的项集，避免查找项集过程中大量比较操作，降低算法运行时间。

本发明挖掘方法主要应用于零售业，电子商务等交易系统后台事务数据库中的数据挖掘。

本发明方法通过数据缓冲池的方式，对效用链表的构建过程精细管理，高效的存储和检索缓冲池内的数据。对已使用的数据空间进行回收，提高内存的复用率，降低高效用项集挖掘的运行时间和内存消耗。

附图说明

图1为实施例中数据库缓冲池中的数据段结构示意图；

图2为实施例中TKBPH方法总体流程示意图；

图3为实施例中搜索子程序Search流程示意图；

图4为实施例中数据缓冲池构建过程流程示意图；

图5为实施例中TKBPH方法与TKO、TKU方法运行时间效果对比示意图；

图6为实施例中TKBPH方法与TKO、TKU方法内存消耗效果对比示意图。

具体实施方式

下面结合附图和实施例，对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

一种基于数据缓冲池的Top-k高效用项集挖掘方法，该方法提出数据缓冲池(DataBuffer Pool，简称DBP)结构，令I为数据库D中所有项的集合，Tid_D为数据库中所有事务标识符的集合，iutil为项集效用之和，rutil为项集剩余效用之和，DBP采用缓冲池的方式存储效用链表中的项集，元组的形式为

这些元组称为数据段。

为了快速访问存储在数据缓冲池中的信息，将数据缓冲池中的位置信息和效用信息存储在索引链表。项集X效用链表的索引链表为IndexList(X)，

令StartPos和EndPos元素分别表示效用链表中数据段开始位置和结束位置。

SumIutil元素存储项集X效用链表中iutil之和。

SumRutil元素存储项集X效用链表中rutil之和。

IndexList(X)存储的元组形式为(X,StartPos,EndPos,SumIutil,SumRutil)。如图1所示，项为g，链表中起始位置为0，末位置为1，g效用之和为8，g的剩余效用之和为29。

当搜索空间中项集X的分支项集可能是一个潜在的高效用项集，通过将项集X的效用链表数据临时插入到数据缓冲池中位置从StartPos到EndPos的数据段。当需要查找项集X时，此方法可以直接访问数据缓冲池中StartPos和EndPos的位置读取相关数据。当发现搜索过程不再需要项集X的效用链表时，此方法将数据缓冲池中分配给项集X的临时内存空间回收并重新分配给其他需要存储的效用链表。

参照图2-4，基于数据缓冲池的Top-k高效用项集挖掘方法，具体包括如下步骤：

(5.4)将项集P，Px，Py，数据缓冲池DBP，索引链表IndexList作为参数调用数据缓冲池构建过程；

(5.4.6)PxPnt和PyPnt同时右移一位；

完成数据缓冲池构建后，若索引链表IndexList(Pxy)不为空，Pxy及其分支项集将被搜索进程Search继续挖掘，不断递归此程序直到没有分支项集；

(6)输出效用最高的前k个高效用项集，完成数据挖掘。

本实施例数据挖掘方法TKBPH(Top-k Buffer Pool High utility itemsetsmining，简称 TKBPH)，可为零售业、电商等交易系统数据仓库进行更高效的数据挖掘。

通过对比，本实施例数据挖掘方法有以下优点：

(1)项集挖掘运行时间短：将TKO，TKU算法与TKBPH算法在不同数据集进行测试，运行结果如图5所示。在语义数据集T10I4D100K上，当k值等于4000时，TKBPH算法仅需5.28s，而TKU算法的运行时间已经高达121.47s，而TKO为24.46s。在稀疏数据集retail 上，TKBPH算法不仅运行时间最短，而且随着k值的增长，时间效率变化非常平稳。当k值从200上升至800，TKBPH算法的运行时间仅从25.76s上升至28.66s，然而TKU算法已经从35.76s上升至95.88s。在稠密数据集chess和mushroom上，TKBPH算法同样性能优异，对比在chess数据集上做实验的其他项集，在同等k值的情况下，仅需其他算法大约二分之一的运行时间。主要原因是单一项在链表初始化时已经插入到数据缓冲池中，当搜索子程序Search挖掘分支项集时，只需把合并的项集插入到缓冲池，根据索引链表IndexList中单一项的位置信息直接访问单一项进行计算，从而避免之前算法项集合并时大量比较操作，提高算法运行时的效率。

(2)挖掘过程所需内存空间小：通过将四种算法在不同数据集上运行，监测内存空间的使用量如图6。TKBPH算法提出的数据缓冲池结构，将单一项的效用信息存储在数据缓冲区，将缓冲区内效用信息的位置信息存储在索引链表。挖掘新的分支项集时只需在缓冲尾部加入新的项集，当完成挖掘操作不再需要此项集时，数据缓冲池会回收此项集所占用的内存空间等待分配给其他需要的项集。数据缓冲池充当内存管理者角色，将内存中不需要的空间回收再利用，使得算法运行时内存空间的消耗大幅降低。相比其他算法，TKBPH算法在实验中所需的内存仅需二分之一甚至更少。由于缓冲池结构的内存复用，在调整k值的过程中，内存消耗的波动非常平稳。在数据集T10I4D100K的实验中，TKBPH算法内存从50.32MB上升至54.14MB，然而其他算法中内存消耗最小的TKO算法内存消耗从286.1MB至538.38MB，内存波动最小的TKU算法在551.68MB到567.76MB，内存消耗比TKBPH算法多了一个数量级。

Claims

1.一种基于数据缓冲池的Top-k高效用项集挖掘方法，其特征在于，包括如下步骤：

(4)再次扫描数据库D，建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构EUCS，创建高效用项集队列；

(5)调用搜索子程序Search，将初始化链表I^*、评估效用共现结构EUCS、数据缓冲池DBP和索引链表IndexList传入子程序Search；

(6)输出效用最高的前k个高效用项集，完成数据挖掘。

2.根据权利要求1所述基于数据缓冲池的Top-k高效用项集挖掘方法，其特征在于，

步骤(5)所述的调用搜索子程序Search，包括如下步骤：

在项集Px加入之前，判断队列长度是否大于结果集数量k值，若小于k值，直接将项集Px插入队列；

若队列长度大于k值，则比较项集Px的效用值和高效用队列中的最小值，如果项集Px的效用值小于高效用队列中的最小值，则不插入队列；如果项集Px 的效用值大于高效用队列中的最小值，则删除最小值的项集，插入项集Px并将minUtil更新为高效用项集最新的最小值；

(5.2)如果项集Px的索引链表IndexList(Px)中的效用之和SumIutil与剩余效用之和SumRutil相加不小于最小阈值minUtil，那么项集Px的分支项集则可能是高效用项集；

(5.3)对于项集P的另一个分支项集Py，Py与项集Px合并使得y＞x并且TWU({x,y})≥minUtil，形成新的分支项集Pxy继续执行；

3.根据权利要求2所述基于数据缓冲池的Top-k高效用项集挖掘方法，其特征在于，步骤(5.4)所述的数据缓冲池构建过程，包括如下步骤：

(5.4.2)如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中Tids，那么将指针PxPnt向右移动一位；

(5.4.3)如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中Tids，那么将指针PyPnt向右移动一位；

(5.4.4)如果PxPnt指向的元组中Tids等于PyPnt指向的元组中Tids，并且索引链表IndexList(P)不为空，那么PPnt的指针连续向右移动，直到PPnt移动到IndexList(P)的末位或者PPnt指向元组中的tids和PxPnt指向元组中的tids相同为止；

(5.4.5)数据缓冲池DBP的末位添加一个新元组，令Tids为PxPnt的Tids，Iutils为PxPnt的Iutils加PyPnt的Iutils减去PPnt的Iutils，Rutils为PyPnt的Rutils；

(5.4.6)PxPnt和PyPnt同时右移一位；

(5.4.7)当指针PxPnt没有指向索引链表IndexList(Px)的末位置EndPos，并且指针PyPnt没有指向索引链表IndexList(Py)的末位置EndPos时，重复执行数据缓冲池构建过程；