CN114840577A

CN114840577A - 一种基于邻接比特压缩表的频繁闭项集挖掘算法

Info

Publication number: CN114840577A
Application number: CN202210391273.8A
Authority: CN
Inventors: 朱敏; 杨博超; 吴美璇
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-08-02
Anticipated expiration: 2042-04-14
Also published as: CN114840577B

Abstract

发明公开了一种基于邻接比特压缩表的频繁闭项集挖掘算法，定义使原始事务集高度压缩的，用于频繁闭项集挖掘的数据结构——邻接比特压缩表，通过该数据结构一方面将每个项或项集所包含的交易集压缩为比特数组，并通过邻接比特的位置标识去剔除传统比特表中的0比特，使交易集高度压缩；另一方面，建立项索引表，之后将项索引压缩到邻接比特压缩表中，当原始数据集中项的维度较高，或项标识较长时，压缩效果明显；其次，通过采用运算栈与检索栈的非递归运算方法，可以降低运算过程与闭合检索的空间占用；最后，通过邻接比特压缩表之间的与运算以及或运算代替项集求交或并运算，同时采用项集预处理、回溯校验的剪枝策略，来加快整体运算过程。

Description

一种基于邻接比特压缩表的频繁闭项集挖掘算法

技术领域

本发明涉及数据挖掘技术领域，具体为一种基于邻接比特压缩表的频繁闭项集挖掘算法。

背景技术

频繁项集(Frequent Items,FI)是若干频繁同时出现事物的集合，最早是在超市研究货物摆放规律以及客户购买商品组合时提出的概念。随着信息技术的迅猛发展以及大数据时代的到来，使得在许多场景下对事物关联关系挖掘的需求日益强烈，直接促进了频繁项集挖掘算法的研究与应用。除客户营销方面的应用外，金融风险防控、旅游路线规划、机械异常故障预警、网络日志分析等，都有实际应用。然而，FI存在大量冗余信息，于是有学者进一步提出了频繁闭项集(FCI:Frequent Closed Items)的概念，FCI可以在不损失任何信息、完整地保持事物之间关联关系的前提下，剔除所有频繁项集的冗余信息，进而解决上述问题。频繁项集或频繁闭项集挖掘算法输入的基础数据集有三种结构：水平数据集、前缀树、垂直数据集。

基于水平数据集挖掘频繁项是最早被提出的一种策略，其核心思想是通过项集的两两合并来生成候选集，之后通过候选集与原始数据集的比对来计算其支持度，进而得知其是否为频繁项。由于每个候选集都需要与原始数据集进行比对，所以原始数据集需要常驻内存，并被频繁访问。当原始数据集较大时，算法的空间效率和时间效率都较差。

基于前缀树策略的基本原理是首先扫描一遍原始数据集记录各项的支持度，之后再扫描一遍数据集，剔除非频繁项并降序排序，再之后根据排序后队列中前后项之间的位置关系构建前缀树，最后通过该前缀树可以高效地生成频繁项集。该策略的问题在于，当结点的父节点较多时，原始数据集的压缩效果较差，同时该树状结构需常驻内存，当数据规模较大时，内存占用依旧很高。

基于垂直数据集策略的基本原理是首先扫描一遍数据集，形成主索引为项ID，其内容是该项所包含交易集的一种垂直数据结构。之后基于该数据结构，由频繁K项集可快速生成频繁K+1项集。由于基于垂直数据集的策略只需扫描一遍数据集，频繁K项集运算结束后可释放其空间，故时间和空间效率可进一步提升。

频繁项集包含冗余信息，如项集{A,B}的支持度为10，项集{A,B,C}的支持度也是10，则{A,B}完全可由{A,B,C}替代。所以有学者提出了基于频发闭项集的挖掘算法来解决信息冗余的问题。由于频繁闭项集在挖掘过程中需要对待输出项集进行闭合校验，所以频繁闭项集挖掘算法又可基于是否采用哈希表校验分为两类。采用哈希表的算法需要在输出过程中首先对待输出项集进行哈希运算，之后通过哈希表快速检索其是否闭合，如闭合则将其放入哈希表中并输出，否则将其丢弃。不采用哈希表的算法在运行过程中可判断项集是否闭合。采用哈希表的算法属于由空间换时间的策略，所以普遍时间效率占优，而不使用哈希表校验的算法普遍空间效率占优。

对于空间效率优化的研究，从水平数据集到前缀树再到垂直数据集，从数据结构的角度出发使空间效率都有所提升。而对于数据结构中需要放入内存的每个元素单元，有学者提出了传统比特表的数据结构——BitTable，用位表来代替项所归属的事务标识，使初始垂直数据集有了大幅的压缩，同时用按位与运算代替之前的求交集运算，效率也极大的提升。但各项的位表需要按位对齐，导致该数据结构中存在大量的0。后来有学者进一步提出了Dynamic Bit-Vector数据结构，它剔除了BitTable首尾的0，使初始数据进一步压缩。但当BitTable中间位置的存在大量的0时，Dynamic Bit-Vector依旧要占用大量的内存。

发明内容

针对上述问题，本发明的目的在于针对现有技术中的挖掘算法空间效率不高的现状提供一种基于邻接比特压缩表的频繁闭项集挖掘算法，能够降低循环长度，加快运算效率，大幅提升运算的时间效率。技术方案如下：

一种基于邻接比特压缩表的频繁闭项集挖掘算法，包括如下步骤：

步骤1)定义基础数据结构，包括四种数据结构：原始数据集结构、邻接比特压缩表结构、初始运算数组结构，以及运算与检索栈结构；

步骤2)数据初始化：首先将原始数据集DataSet转换成垂直数据集并压缩到序列Inite″_table中，之后剔除小于最小支持度minsup的元素，并基于sup升序排列形成序列Inite′_table；最后将序列Inite′_table中的元素依次与其右侧元素做“项归并”操作，操作结束之后形成序列Inite_table；

步骤3)采用频繁闭项集挖掘主算法进行运算：运算指针P依次调用序列Inite_table中的元素与运算栈Cal_stuck顶部元素完成结合与闭合校验运算；结合形成新结点，若校验通过，则入运算栈Cal_stuck；当运算指针P溢出，则运算栈Cal_stuck顶部元素出运算栈入检索栈Check_stuck，当运算栈Cal_stuck为空同时，且运算指针P为溢出状态时，运算结束；

步骤4)确定检索栈Check_stuck的运算规则：运算栈Cal_stuck入栈元素基于该元素在运算栈Cal_stuck中的位置信息，在检索栈Check_stuck中自顶部至底部找到合适的位置后，完成入检索栈Check_stuck的操作。

进一步的，所述步骤1具体包括：

步骤1.1)定义原始数据集结构：

原始数据集为包含若干项id交易序列，数学表达式如下：

其中，Y是包含所有id信息的全集，X_i是Y的任意一个子集，原始数据集DataSet包含n个Y的子集；

步骤1.2)定义邻接比特压缩表结构：

邻接比特压缩表为包含m个元素的序列，每个元素包含位置信息与值信息，数学表达式如下：

其中，C_i为邻接比特元素，原始数据集分为八位一组的序列，pos位表示原始数据集中第几个序列的值，value位记录当前序列八位中，哪几位出现了目标id，出现用1表示，未出现用0表示；如果八位均为0，则该元素不出现，因此取值范围从1到255；Cab_table是包含m个邻接比特元素的序列；

步骤1.3)定义运算数组结构：

按照垂直数据集的结构将原始数据集进行调整与压缩，形成初始数据集；初始数据集包含三个部分，支持度、用邻接比特表压缩表示的项集合、用邻接比特表表示的交易集合，数学表达式如下：

其中，Inite_table是包含了k个元素的序列，在每个元素中，id_cab是对项id进行压缩后的邻接比特压缩表，按行从左至右扫描原始数据集过程中，每一个id用第一次出现的位置代替，若原始初级id值去重后共有m项，则创建一个长度为m的序列存储id值，id在原始数据集中先出现则占据序列前边的位置，然后将该序列八位一组拆分，之后用邻接比特压缩表表示，则将每个id转换成id_cab，同时多个id形成的数据集也由id_cab表示；sup表示当前id_cab在原始数据集中，有多少交易序列所包含；trade_cab表示在原始数据集中，具体哪几笔交易序列所包含；

步骤1.4)定义运算与检索栈结构：

在运算与检索的过程中用到的栈结构，每个栈元素包括两个部分，位置标识和邻接比特压缩表结构数据，数学表达式如下：

其中，Stuck是一个先进后出的栈结构，栈内元素的loc表示当前运算元素在Inite_table序列中的位置，y的数据结构与Inite_table中元素的数据结构相同，用来记录运算后的结果数据。

更进一步的，所述步骤2)中算法数据初始化过程如下：

步骤2.1)从原始数据集DataSet至序列Inite″_table：按行从左到右边依次扫描一次原始数据集DataSet，扫描过程中形成项索引序列ID＝{id₁,id₂,…,id_m}，原始数据集DataSet中的id标识根据第一次出现的次序插入到项索引序列ID之中，序列Inite″_table中元素id_cab由项索引id_j在项索引序列ID的位置j运算得到，元素sup记录扫描到项索引id_j的次数，元素trade_cab由项索引id_j在原始数据集DataSet中的行位置计算得到；函数运算如下：

其中，j表示项索引id_j在ID中的位次，id_cab.pos表示ID进行八位一组的划分后，项索引id_j在第几组之中，id_cab.value表示项索引id_j在该组八位中的第几位，然后转换成十进制；sup记录项索引id_j在原始数据集DataSet中出现的次数；原始数据集DataSet中的行标识也按照八位一组划分，(pos:value)_n表示项索引id_j在交易序列划分后的n个行组中出现过，其中pos记录项索引id_j在哪些行组中出现过，value表示项索引id_j在当前行组中哪些位置出现过，并用十进制存储；r_k表示id_j在交易序列中第k次出现的行数，除8取整转换为行组数，存储于trade_cab.pos_i；在trade_cab.pos_i所记录的行组中，所有项索引id_j出现的行数除8取余作为以2为底的指数幂，之后求和，来记录当前行组中具体出现的位置，存储于trade_cab.value_i。

步骤2.2)从序列Inite″_table至序列Inite′_table：依次扫描序列Inite″_table中的元素，剔除小于最小支持度minsup的元素，之后根据sup值进行升序排列；

步骤2.3)从序列Inite′_table至序列Inite_table：序列中的元素依次与右侧所有元素trade_cab做归属校验，如果当前元素的trade_cab被右侧元素的trade_cab所包含，则当前元素的id_cab，合并入被校验元素的id_cab，于此同时如果右侧被校验元素sup值相同，说明trade_cab相同，则删除当前被校验元素，数学表达式如下：

trade_cab归属校验具体为：

若

且当A.trade_cab.X.pos＝B.trade_cab.Y.pos时，

则B的交易集包含A的交易集，之后用A.id_cab与B.id_cab的归并结果替换A.id_cab。其中，X、Y表示结点A、B的trade_cab的当前序列。

当B的交易集包含A的交易集，且B.sup＝A.sup，则B的交易集与A的交易集完全相等，此时删除B结点。

id_cab归并：

A.id_cab∪B.id_cab＝C.id_cab

C.id_cab满足：

若A.id_cab.X.pos>B.id_cab.Y.pos，则C.id_cab.Z＝B.id_cab.Y；

若A.id_cab.X.pos<B.id_cab.Y.pos，则C.id_cab.Z＝A.id_cab.X；

若A.id_cab.X.pos＝B.id_cab.Y.pos，则C.id_cab.Z.pos＝A.id_cab.X.pos，C.id_cab.Z.valve＝A.id_cab.X.value∪B.id_cab.Y.value。

在id_cab归并过程中，结点A与结点B的id_cab序列依次从第一位到最后一位进行pos的大小判断，当结点B的id_cab当前序列的pos较小时，将B的id_cab当前序列插入到C.id_cab中，之后结点B的id_cab的下一个序列信息继续与结点A的id_cab的pos进行比较；当结点A的id_cab的pos较小时，进行同样操作；当结点A与结点B的id_cab的pos值相同时，C.id_cab的当前序列的pos值取结点A的id_cab的pos值，C.id_cab的当前序列的value值取结点A与结点B的id_cab的value值求并集结果，之后结点A的id_cab的下一个序列与结点B的id_cab的下一个序列继续进行比较；当某一个结点序列比较完毕，另一个结点未比较序列全部插入到C的id_cab的序列中；其中，X、Y、Z分别表示结点A、B、C的id_cab的当前序列。

更进一步的，所述步骤3)中主算法运算过程如下：

步骤3.1)入运算栈Cal_stuck操作：

若运算栈Cal_stuck为空，则运算指针P指向的元素直接入栈，Cal_stuck.top.loc取运算指针P当前在序列Inite_table的位次信息，之后运算指针P后移一位；

若运算栈Cal_stuck非空，则判断运算栈Cal_stuck顶部元素的id_cab是否包含P.id_cab，若包含则跳过当前元素，运算指针P向后位移一位；若不包含，则运算栈Cal_stuck顶部元素与运算指针P进行结点结合运算并形成临时结点TEMP；

若TEMP.sup＝Cal_stuck.top.sup，则运算栈Cal_stuck.top替换为Temp，运算指针P后移；

若TEMP.sup<minsup则运算指针P后移；

若TEMP.sup≥minsup则将TEMP在检索栈Check_stuck中进行闭合检验，校验通过则将TEMP入Cal_stuck，Cal_stuck.top.loc取运算指针P当前在序列Inite_table的位次信息，之后运算指针P后移；校验未通过则运算指针P直接后移；数学表达式如下：

运算栈Cal_stuck顶部元素与序列P进行结点结合运算：

Cal_stuck.top+P＝TEMP

TEMP.id_cab＝Cal_stuck.top.id_cab∪P.id_cab

TEMP.trade_cab＝Cal_stuck.top.trade_cab∩P.trade_cab

其中，count()表示trade_cab中1的个数；

其中trade_cab交集：

A.trade_cab∩B.trade_cab＝C.trade_cab

C.trade_cab满足：

C.trade_cab.pos＝A.trade_cab.pos＝B.trade_cab.pos；

C.trade_cab.value＝A.trade_cab.value∩B.trade_cab.value if C.trade_cab.pos＝

A.trade_cab.pos＝B.trade_cab.pos；

临时结点TEMP闭合检验运算：

若

则校验通过，否则不通过；

步骤3.2)出运算栈Cal_stuck操作：当序列Inite_table最后一个元素完成运算后，运算指针P继续后移一位将处于溢出状态，此时Cal_stuck.top将出栈，同时出栈元素一方面入检索栈Check_stuck，另一方面将该元素存储于外存中；最后，将运算指针P重定位，位置为出栈元素的loc+1；

步骤3.3)运算终止：当序列Inite_table最后一个元素入运算栈Cal_stuck，且为顶部元素时，运算指针P后移溢出，该元素将进行出运算栈入检索栈运算并存储于外存，之后运算栈Cal_stuck为空，运算指针P保持溢出状态，运算结束。

更进一步的，所述检索栈Check_stuck入栈运算具体为：若检索栈Check_stuck为空，则待入栈元素X直接入栈，Check_stuck.top.loc取X在检索栈Check_stuck中的位置信息top；若检索栈Check_stuck非空，则比较Check_stuck.top.loc与X.top；若X.top<Check_stuck.top.loc，则检索栈Check_stuck入栈运算，直到X.top≥Check_stuck.top.loc时，X入检索栈Check_stuck，Check_stuck.top.loc＝X.top。

本发明的有益效果是：

1)本发明邻接比特压缩表可用于交易集的压缩存储，通过邻接比特压缩表中的位置标识可以剔除传统比特表中的0比特，使数据高度压缩；另一方面由于数组长度变短，进而使运算时的循环长度变短，加快运算效率。

2)本发明邻接比特压缩表可用于项集的压缩存储，尤其当项标识较长(如身份ID、商品ID、地点名称等)时，运算空间占用将显著的减少；同时用邻接比特压缩表间的按位“或”运算来代替项标识间的并集运算，大幅提升运算的时间效率。

3)本发明设计出两种栈数据结构，其中运算栈作为基础运算空间执行主算法，检索栈作为检索空间执行待输出项集的闭合校验。同时采用基于双栈的非递归运算方法，可使运算时最大理论空间占用为O(2N+M)，其中N为基础运算表长度，M为检索表长度。

附图说明

图1为本发明的基于邻接比特压缩表的频繁闭项集挖掘算法流程图。

图2为本发明的原始数据集压缩至初始数据集的过程图。

图3为本发明的主算法运算逻辑，以及运算栈的演化过程。

图4为本发明的检索栈演化过程。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明为一种基于邻接比特压缩表的频繁闭项集挖掘算法，首先，定义了一种使原始事务集高度压缩的，用于频繁闭项集挖掘的数据结构——邻接比特压缩表，通过该数据结构一方面可以将每个项或项集所包含的交易集压缩为比特数组，并通过邻接比特的位置标识去剔除传统比特表中的0比特，使交易集高度压缩；另一方面，建立项索引表，之后将项索引压缩到邻接比特压缩表中，当原始数据集中项的维度较高，或项标识较长时，压缩效果明显。其次，基于邻接比特压缩表，提出一种运算空间效率极佳的频繁闭项集挖掘算法，通过采用运算栈与检索栈的非递归运算方法，可以降低运算过程与闭合检索的空间占用。最后，通过邻接比特压缩表之间的与运算以及或运算代替项集求交或并运算，同时采用项集预处理、回溯校验的剪枝策略，来加快整体运算过程。

参见图1，本发明所述的一种基于邻接比特压缩表的频繁闭项集挖掘算法，包括以下步骤：

步骤1)定义基础数据结构，算法相关数据结构包括：原始数据集结构、邻接比特压缩表结构、初始运算数组机构、运算与检索栈结构等四种数据结构，运算开始前需完成对上述数据结构的定义。

步骤1.1)定义原始数据集：原始数据集为包含若干项id交易序列，例如商品订单序列、仓储入库序列、机器故障序列等，数学表达式如下：

其中，Y是包含所有id信息的全集，X_i是Y的任意一个子集，原始数据集DataSet包含n各Y的子集。

步骤1.2)定义邻接比特压缩表：邻接比特压缩表是一个包含n个元素的集合，每个元素包含位置信息与值信息，数学表达式如下：

其中，X_i为邻接比特元素，原始数据集可分为八位一组的序列，pos位表示原始数据集中第几个序列的值，value位记录当前序列八位中，哪几位出现了目标id，出现用1表示，未出现用0表示，如果八位都为0，则该元素不出现，因此取值范围从1到255。Cab_Table是包含了n个邻接比特元素的序列。

步骤1.3)定义初始数据集：原始数据集在本算法下无法直接进行运算，需按照垂直数据集的结构进行调整与压缩，之后形成初始数据集。初始数据集包含三个部分，支持度、用邻接比特表压缩表示的项集合、用邻接比特表表示的交易集合，数学表达式如下：

其中，Inite_table是包含了n个元素的序列，在每个元素中，id_cab是对项id进行压缩后的邻接比特压缩表，按行从左至右扫描原始数据集过程中，每一个id可用第一次出现的位置代替，如果原始初级id值去重后共有m项，则创建一个长度为m的序列存储id值，id在原始数据集中先出现则占据序列前边的位置，然后将该序列八位一组拆分，之后用邻接比特压缩表表示，因此，每个id可转换成id_cab，同时多个id形成的数据集也可由id_cab表示；sup表示当前id_cab在原始数据集中，有多少交易序列所包含；trade_cab表示在原始数据集中，具体哪几笔交易序列所包含。

步骤1.4)定义栈数据结构：在运算与检索的过程中都需要用到该栈结构，每个栈元素包括两个部分，位置标识、邻接比特压缩表结构数据，数学表达式如下：

其中Stuck是一个先进后出的栈结构，栈内元素的loc表示当前运算元素在Inite_table序列中的位置，y的数据结构与Inite_table中元素的数据结构相同，用来记录运算后的结果数据。

图2分别展示了原始数据集结构、邻接比特压缩表数据结构、以及初始数据集结构。

步骤2)数据初始化：首先需要将原始数据集DataSet转换成垂直数据集并压缩到Inite″_table中，之后剔除小于最小支持度minsup的元素并基于sup升序排列形成Inite′_table，最后Inite′_table中的元素依次与其右侧元素做“项归并”操作，操作结束之后形成Inite_table。

步骤2.1)DataSet至Inite″_table：按行从左到右边依次扫描一次DataSet，扫描过程中形成项索引序列ID＝{id₁,id₂,…,id_m}，DataSet中的id标识根据第一次出现的次序插入到ID之中，Inite″_table中，元素id_cab由id_j在ID的位置j运算得到，元素sup记录扫描到id_j次数，元素trade_cab由id_j在DataSet中的行位置计算得到。函数运算如下：

其中，j表示id_j在ID中的位次，id_cab.pos表示ID进行八位一组的划分后，id_j在第几组之中，id_cab.value表示id_j在该组八位中的第几位，然后转换成十进制；sup记录id_j在DataSet中出现的次数；DataSet中的行标识也按照八位一组划分，trade_cab.pos记录id_j在哪些行组中出现过，trade_cab.value_i表示id_j在当前行组中哪些位置出现过，然后转换成十进制。

步骤2.2)Inite″_table至Inite′_table：依次扫描Inite″_table中的元素，剔除小于最小支持度minsup的元素，之后根据sup值进行升序排列，

步骤2.3)Inite′_table至Inite_table：序列中的元素依次与右侧所有元素做trade_cab归属校验，如果当前元素trade_cab被右侧元素trade_cab所包含，则当前元素id_cab，合并入被校验元素id_cab，于此同时如果右侧被校验元素sup值相同，说明trade_cab相同，则删除当前被校验元素，数学表达式如下：

trade_cab归属校验具体为：

若

且当A.trade_cab.X.pos＝B.trade_cab.Y.pos时，

则B的交易集包含A的交易集，之后用A.id_cab与B.id_cab的归并结果替换A.id_cab；其中，X、Y表示结点A、B的trade_cab的当前序列；

当B的交易集包含A的交易集，且B.sup＝A.sup，则B的交易集与A的交易集完全相等，此时删除B结点；

id_cab归并：

A.id_cab∪B.id_cab＝C.id_cab

C.id_cab满足：

若A.id_cab.X.pos>B.id_cab.Y.pos，则C.id_cab.Z＝B.id_cab.Y；

若A.id_cab.X.pos<B.id_cab.Y.pos，则C.id_cab.Z＝A.id_cab.X；

若A.id_cab.X.pos＝B.id_cab.Y.pos，则C.id_cab.Z.pos＝A.id_cab.X.pos，C.id_cab.Z.valve＝A.id_cab.X.value∪B.id_cab.Y.value；

步骤3)频繁闭项集挖掘主算法：运算指针P依次调用Inite_table中的元素与运算栈Cal_stuck顶部元素完成结合与闭合校验运算；结合形成新结点如校验通过则入运算栈Cal_stuck；当P溢出则Cal_stuck顶部元素出运算栈入检索栈Check_stuck，当Cal_stuck为空同时P为溢出状态时，运算结束。

步骤3.1)入Cal_stuck操作：若Cal_stuck为空，则P指向的元素直接入栈，Cal_stuck.top.loc取P当前在Inite_table的位次信息，之后P后移一位；若Cal_stuck非空，则判断Cal_stuck顶部元素的id_cab是否包含P.id_cab，如包含则跳过当前元素P向后位移一位。如不包含，则Cal_stuck顶部元素与P进行结点结合运算并形成临时结点TEMP，若TEMP.sup＝Cal_stuck.top.sup，则Cal_stuck.top替换为Temp，P后移；若TEMP.sup<minsup则P后移；若TEMP.sup≥minsup则将TEMP在Check_stuck中进行闭合检验，校验通过则将TEMP入Cal_stuck，Cal_stuck.top.loc取P当前在Inite_table的位次信息，之后P后移。校验未通过则P直接后移。数学表达式如下：

Cal_stuck顶部元素与P进行结点结合运算：

Cal_stuck.top+P＝TEMP

TEMP.id_cab＝Cal_stuck.top.id_cab∪P.id_cab

TEMP.trade_cab＝Cal_stuck.top.trade_cab∩P.trade_cab

其中，count()表示trade_cab中1的个数。

其中trade_cab交集：

A.trade_cab∩B.trade_cab＝C.trade_cab

C trade_cab满足：

C.trade_cab.pos＝A.trade_cab.pos＝B.trade_cab.pos；

C.trade_cab.value＝A.trade_cab.value∩B.trade_cab.value if C.trade_cab.pos＝

A.trade_cab.pos＝B.trade_cab.pos；

TEMP闭合检验运算：

若

则校验通过，否则不通过。

步骤3.2)出Cal_stuck操作：当Inite_table最后一个元素完成运算后，P继续后移一位将处于溢出状态，此时Cal_stuck.top将出栈，同时出栈元素一方面入检索栈Check_stuck，另一方面将该元素存储于外存中。最后，将P重定位，位置为出栈元素的loc+1。

步骤3.3)运算终止：当Inite_table最后一个元素入Cal_stuck，且为顶部元素时，P指针后移溢出，该元素将进行出运算栈入检索栈运算并存储于外存，之后Cal_stuck为空，P保持溢出状态，运算结束。

图3对主算法的运算逻辑进行了详细的展示。

步骤4)Check_stuck运算规则：Cal_stuck入栈元素基于该元素在Cal_stuck中的位置信息，在Check_stuck中自顶部至底部找到合适的位置后，完成入Check_stuck操作。

步骤4.1)Check_stuck入栈运算：若Check_stuck为空，则待入栈元素X直接入栈，Check_stuck.top.loc取X在Check_stuck中的位置信息top；若Check_stuck非空，则比较Check_stuck.top.loc与X.top，若X.top<Check_stuck.top.loc则Check_stuck进行出栈操作，直到X.top≥Check_stuck.top.loc时，X入Check_stuck，Check_stuck.top.loc＝X.top。

图4对检索栈的形成过程进行了详细的展示。

Claims

1.一种基于邻接比特压缩表的频繁闭项集挖掘算法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于邻接比特压缩表的频繁闭项集挖掘算法，其特征在于，所述步骤1具体包括：

步骤1.1)定义原始数据集结构：

原始数据集为包含若干项id交易序列，数学表达式如下：

步骤1.2)定义邻接比特压缩表结构：

步骤1.3)定义运算数组结构：

步骤1.4)定义运算与检索栈结构：

3.根据权利要求1所述的基于邻接比特压缩表的频繁闭项集挖掘算法，其特征在于，所述步骤2)中算法数据初始化过程如下：

其中，j表示项索引id_j在ID中的位次，id_cab.pos表示ID进行八位一组的划分后，项索引id_j在第几组之中，id_cab.value表示项索引id_j在该组八位中的第几位，然后转换成十进制；sup记录项索引id_j在原始数据集DataSet中出现的次数；原始数据集DataSet中的行标识也按照八位一组划分，(pos:value)_n表示项索引id_j在交易序列划分后的n个行组中出现过，其中pos记录项索引id_j在哪些行组中出现过，value表示项索引id_j在当前行组中哪些位置出现过，并用十进制存储；r_k表示id_j在交易序列中第k次出现的行数，除8取整转换为行组数，存储于trade_cab.pos_i；在trade_cab.pos_i所记录的行组中，所有项索引id_j出现的行数除8取余作为以2为底的指数幂，之后求和，来记录当前行组中具体出现的位置，存储于trade_cab.value_i；

trade_cab归属校验具体为：

若

且当A.trade_cab.X.pos＝B.trade_cab.Y.pos时，

id_cab归并：

A.id_cab∪B.id_cab＝C.id_cab

C.id_cab满足：

若A.id_cab.X.pos>B.id_cab.Y.pos，则C.id_cab.Z＝B.id_cab.Y；

若A.id_cab.X.pos<B.id_cab.Y.pos，则C.id_cab.Z＝A.id_cab.X；

4.根据权利要求1所述的基于邻接比特压缩表的频繁闭项集挖掘算法，其特征在于，所述步骤3)中主算法运算过程如下：

步骤3.1)入运算栈Cal_stuck操作：

若TEMP.sup<minsup则运算指针P后移；

运算栈Cal_stuck顶部元素与序列P进行结点结合运算：

Cal_stuck.top+P＝TEMP

TEMP.id_cab＝Cal_stuck.top.id_cab∪P.id_cab

TEMP.trade_cab＝Cal_stuck.top.trade_cab∩P.trade_cab

其中，count()表示trade_cab中所有value包含1的个数；

其中trade_cab交集：

A.trade_cab∩B.trade_cab＝C.trade_cab

C.trade_cab满足：

C.trade_cab.pos＝A.trade_cab.pos＝B.trade_cab.pos；

C.trade_cab.value＝A.trade_cab.value∩B.trade_cab.value if C.trade_cab.pos＝A.trade_cab.pos＝B.trade_cab.pos；

临时结点TEMP闭合检验运算：

若

则校验通过，否则不通过；步骤3.2)出运算栈Cal_stuck操作：当序列Inite_table最后一个元素完成运算后，运算指针P继续后移一位将处于溢出状态，此时Cal_stuck.top将出栈，同时出栈元素一方面入检索栈Check_stuck，另一方面将该元素存储于外存中；最后，将运算指针P重定位，位置为出栈元素的loc+1；

5.根据权利要求1所述的基于邻接比特压缩表的频繁闭项集挖掘算法，其特征在于，所述检索栈Check_stuck入栈运算具体为：若检索栈Check_stuck为空，则待入栈元素X直接入栈，Check_stuck.top.loc取X在检索栈Check_stuck中的位置信息top；若检索栈Check_stuck非空，则比较Check_stuck.top.loc与X.top；若X.top<Check_stuck.top.loc，则检索栈Check_stuck进行出栈操作，直到X.top≥Check_stuck.top.loc时，X入检索栈Check_stuck，Check_stuck.top.loc＝X.top。