CN111241136A - 一种基于数据缓冲池的Top-k高效用项集挖掘方法 - Google Patents

一种基于数据缓冲池的Top-k高效用项集挖掘方法 Download PDF

Info

Publication number
CN111241136A
CN111241136A CN202010012489.XA CN202010012489A CN111241136A CN 111241136 A CN111241136 A CN 111241136A CN 202010012489 A CN202010012489 A CN 202010012489A CN 111241136 A CN111241136 A CN 111241136A
Authority
CN
China
Prior art keywords
item set
utility
linked list
buffer pool
data buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010012489.XA
Other languages
English (en)
Inventor
蒋华
路昕宇
王慧娇
王鑫
韦晓虎
刘鼎立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010012489.XA priority Critical patent/CN111241136A/zh
Publication of CN111241136A publication Critical patent/CN111241136A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于数据缓冲池的Top‑k高效用项集挖掘方法,包括如下步骤:(1)数据挖掘运行参数初始化;(2)初次扫描事务数据库
Figure RE-DEST_PATH_IMAGE001
并计算单一项的加权事务效用值,将最小阈值
Figure RE-442099DEST_PATH_IMAGE002
初始化为0并创建初始化链表
Figure RE-DEST_PATH_IMAGE003
;(3)将单一项的加权事务效用值存入初始化链表
Figure RE-481468DEST_PATH_IMAGE003
并按加权事务效用值升序排列;(4)再次扫描数据库
Figure RE-829273DEST_PATH_IMAGE001
,创建高效用项集队列;(5)调用搜索子程序Search,将初始化链表
Figure RE-644913DEST_PATH_IMAGE003
、评估效用共现结构EUCS、数据缓冲池DBP和索引链表
Figure RE-230616DEST_PATH_IMAGE002
传入子程序Search;(6)输出效用最高的前
Figure RE-706465DEST_PATH_IMAGE004
个高效用项集,完成数据挖掘。本发明方法通过数据缓冲池的方式,对已使用的数据空间进行回收,提高内存的复用率,降低高效用项集挖掘的运行时间和内存消耗。

Description

一种基于数据缓冲池的Top-k高效用项集挖掘方法
技术领域
本发明涉及Top-k高效用项集数据挖掘,具体是一种基于数据缓冲池的Top-k高效用项集挖掘方法。
背景技术
在零售行业中,根据商品被购买次数的多寡,向决策制定者提供制定决策的数据依据是普遍现象。在现实生活中,每个商品的成本、售价、利润、重量、风险均不相同,那么仅考虑商品在交易数据库的被购买的次数并不能反映真实的情况。高效用项集挖掘(High-Utility Itemsets Mining,简称HUIM)算法不仅考虑到交易中商品出现的次数,还考虑到商品的单位利润(效用),高效用项集挖掘算法的目标是在交易数据库中发现为零售商带来可观利润的项目和项集,被发掘的项集称作高效用项集。
近年来,高效用项集挖掘算法的效率方面取得了一定成果,但由于实际应用中,最小阈值的设定不但影响着算法挖掘高效用项集的数量,而且影响着算法运行时的效率。最小阈值设定过高,使得挖掘出的结果集过少无法满足用户需求;设定过低,则产生大量结果集使得算法运行时间过长,占用大量的内存空间甚至内存溢出导致算法运行失败。用户为了确定合适的最小阈值,往往需要经验和反复测试,但每当数据集中数据的变更很有可能使之前设定的最小阈值失去意义。Top-k高效用项集挖掘算法采用挖掘前k个效用值最大的项集的方式,将设定最小阈值的问题,转变为设定所需结果集数量的问题。
Top-k高效用项集挖掘算法主要分为以TKO(mining Top-K utility itemsets inOne phase) 算法为代表的一阶段算法和以TKU(Top-K Utility itemsets mining)算法为代表的二阶段算法。先前算法在优化挖掘高效用项集时,主要关注点在改进存储效用信息数据结构。例如TKU算法通过树结构UP-tree两次扫描数据库进行挖掘,而TKO采用效用链表结构在算法第一次扫描数据库时,将关键信息存入效用链表,之后只需扫描效用链表上的信息,通过大量连接操作和递归效用链表,构建过程挖掘高效用项集。随着数据库中项的增长,项集的增加,存储效用信息的数据结构中数据量也随之增长,挖掘过程中所需要的信息和已不再需要的信息大量影响着执行速度和内存消耗。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于数据缓冲池的Top-k高效用项集挖掘方法。
实现本发明目的的技术方案是:
一种基于数据缓冲池的Top-k高效用项集挖掘方法,具体包括如下步骤:
(1)数据挖掘运行参数初始化:设置需要被挖掘的数据库D,指定结果集数量k和利润表ptable;
(2)扫描数据库D:初次扫描事务数据库D并计算单一项的加权事务效用值,将最小阈值minUtil初始化为0并创建初始化链表I*
(3)将单一项的加权事务效用值存入初始化链表I*并按加权事务效用值升序排列;
(4)再次扫描数据库D,建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构 EUCS,创建高效用项集队列;
(5)调用搜索子程序Search,将初始化链表I*、评估效用共现结构EUCS、数据缓冲池 DBP和索引链表IndexList传入子程序Search;
(6)输出效用最高的前k个高效用项集,完成数据挖掘。
步骤(5)所述的调用搜索子程序Search,包括如下步骤:
(5.1)在搜索子程序Search中,对于项集P的一个分支项集Px,如果索引链表IndexList(Px)中存储的项集Px效用之和SumIutil不小于最小阈值minUtil,那么将项集Px加入到高效用项集队列;
在项集Px加入之前,判断队列长度是否大于结果集数量k值,若小于k值,直接将项集Px 插入队列;
若队列长度大于k值,则比较项集Px的效用值和高效用队列中的最小值,如果项集Px的效用值小于高效用队列中的最小值,则不插入队列;如果项集Px的效用值大于高效用队列中的最小值,则删除最小值的项集,插入项集Px并将minUtil更新为高效用项集最新的最小值;
(5.2)如果项集Px的索引链表IndexList(Px)中的效用之和SumIutil与剩余效用之和 SumRutil相加不小于最小阈值minUtil,那么项集Px的分支项集则可能是高效用项集;
(5.3)对于项集P的另一个分支项集Py,Py与项集Px合并使得y>x并且 TWU({x,y})≥minUtil,形成新的分支项集Pxy继续执行;
(5.4)将项集P,Px,Py,数据缓冲池DBP,索引链表IndexList作为参数调用数据缓冲池构建过程。
步骤(5.4)所述的数据缓冲池构建过程,包括如下步骤:
(5.4.1)在数据缓冲池构建过程中,设指针PPnt,PxPnt,PyPnt分别为索引链表IndexList(P),IndexList(Px),IndexList(Py)的起始位置,指针指向数据缓冲池DBP中的元组;
(5.4.2)如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中Tids,那么将指针 PxPnt向右移动一位;
(5.4.3)如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中Tids,那么将指针 PyPnt向右移动一位;
(5.4.4)如果PxPnt指向的元组中Tids等于PyPnt指向的元组中Tids,并且索引链表 IndexList(P)不为空,那么PPnt的指针连续向右移动,直到PPnt移动到IndexList(P)的末位或者PPnt指向元组中的tids和PxPnt指向元组中的tids相同为止;
(5.4.5)数据缓冲池DBP的末位添加一个新元组,令Tids为PxPnt的Tids,Iutils为PxPnt 的Iutils加PyPnt的Iutils减去PPnt的Iutils,Rutils为PyPnt的Rutils;
(5.4.6)PxPnt和PyPnt同时右移一位;
(5.4.7)当指针PxPnt没有指向索引链表IndexList(Px)的末位置EndPos,并且指针 PyPnt没有指向索引链表IndexList(Py)的末位置EndPos时,重复执行数据缓冲池构建过程;
(5.4.8)更新索引链表IndexList(Pxy)和数据缓冲池DBP,结束数据缓冲池构建过程;
完成数据缓冲池构建后,若索引链表IndexList(Pxy)不为空,Pxy及其分支项集将被搜索进程Search继续挖掘,不断递归此程序直到没有分支项集。
本发明挖掘方法具有以下优点:
(1)数据缓冲池统一分配和回收内存空间,当发现搜索过程不再需要项集的效用链表时,将数据缓冲池中分配给项集的临时内存空间回收,并重新分配给其他需要存储的效用链表,通过内存复用的方式降低内存消耗。
(2)将项集的效用链表数据临时插入到数据缓冲池中,位置信息存储在索引链表中,通过读取位置信息可以直接访问所需要的项集,避免查找项集过程中大量比较操作,降低算法运行时间。
本发明挖掘方法主要应用于零售业,电子商务等交易系统后台事务数据库中的数据挖掘。
本发明方法通过数据缓冲池的方式,对效用链表的构建过程精细管理,高效的存储和检索缓冲池内的数据。对已使用的数据空间进行回收,提高内存的复用率,降低高效用项集挖掘的运行时间和内存消耗。
附图说明
图1为实施例中数据库缓冲池中的数据段结构示意图;
图2为实施例中TKBPH方法总体流程示意图;
图3为实施例中搜索子程序Search流程示意图;
图4为实施例中数据缓冲池构建过程流程示意图;
图5为实施例中TKBPH方法与TKO、TKU方法运行时间效果对比示意图;
图6为实施例中TKBPH方法与TKO、TKU方法内存消耗效果对比示意图。
具体实施方式
下面结合附图和实施例,对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
一种基于数据缓冲池的Top-k高效用项集挖掘方法,该方法提出数据缓冲池(DataBuffer Pool,简称DBP)结构,令I为数据库D中所有项的集合,TidD为数据库中所有事务标识符的集合,iutil为项集效用之和,rutil为项集剩余效用之和,DBP采用缓冲池的方式存储效用链表中的项集,元组的形式为
Figure RE-GDA0002433237280000041
这些元组称为数据段。
为了快速访问存储在数据缓冲池中的信息,将数据缓冲池中的位置信息和效用信息存储在索引链表。项集X效用链表的索引链表为IndexList(X),
Figure RE-GDA0002433237280000042
令StartPos和EndPos元素分别表示效用链表中数据段开始位置和结束位置。
SumIutil元素存储项集X效用链表中iutil之和。
SumRutil元素存储项集X效用链表中rutil之和。
IndexList(X)存储的元组形式为(X,StartPos,EndPos,SumIutil,SumRutil)。如图1所示,项为g,链表中起始位置为0,末位置为1,g效用之和为8,g的剩余效用之和为29。
当搜索空间中项集X的分支项集可能是一个潜在的高效用项集,通过将项集X的效用链表数据临时插入到数据缓冲池中位置从StartPos到EndPos的数据段。当需要查找项集X时,此方法可以直接访问数据缓冲池中StartPos和EndPos的位置读取相关数据。当发现搜索过程不再需要项集X的效用链表时,此方法将数据缓冲池中分配给项集X的临时内存空间回收并重新分配给其他需要存储的效用链表。
参照图2-4,基于数据缓冲池的Top-k高效用项集挖掘方法,具体包括如下步骤:
(1)数据挖掘运行参数初始化:设置需要被挖掘的数据库D,指定结果集数量k和利润表ptable;
(2)扫描数据库D:初次扫描事务数据库D并计算单一项的加权事务效用值,将最小阈值minUtil初始化为0并创建初始化链表I*
(3)将单一项的加权事务效用值存入初始化链表I*并按加权事务效用值升序排列;
(4)再次扫描数据库D,建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构 EUCS,创建高效用项集队列;
(5)调用搜索子程序Search,将初始化链表I*、评估效用共现结构EUCS、数据缓冲池 DBP和索引链表IndexList传入子程序Search;
(5.1)在搜索子程序Search中,对于项集P的一个分支项集Px,如果索引链表IndexList(Px)中存储的项集Px效用之和SumIutil不小于最小阈值minUtil,那么将项集Px加入到高效用项集队列;
在项集Px加入之前,判断队列长度是否大于结果集数量k值,若小于k值,直接将项集Px 插入队列;
若队列长度大于k值,则比较项集Px的效用值和高效用队列中的最小值,如果项集Px的效用值小于高效用队列中的最小值,则不插入队列;如果项集Px的效用值大于高效用队列中的最小值,则删除最小值的项集,插入项集Px并将minUtil更新为高效用项集最新的最小值;
(5.2)如果项集Px的索引链表IndexList(Px)中的效用之和SumIutil与剩余效用之和 SumRutil相加不小于最小阈值minUtil,那么项集Px的分支项集则可能是高效用项集;
(5.3)对于项集P的另一个分支项集Py,Py与项集Px合并使得y>x并且 TWU({x,y})≥minUtil,形成新的分支项集Pxy继续执行;
(5.4)将项集P,Px,Py,数据缓冲池DBP,索引链表IndexList作为参数调用数据缓冲池构建过程;
(5.4.1)在数据缓冲池构建过程中,设指针PPnt,PxPnt,PyPnt分别为索引链表IndexList(P),IndexList(Px),IndexList(Py)的起始位置,指针指向数据缓冲池DBP中的元组;
(5.4.2)如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中Tids,那么将指针 PxPnt向右移动一位;
(5.4.3)如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中Tids,那么将指针 PyPnt向右移动一位;
(5.4.4)如果PxPnt指向的元组中Tids等于PyPnt指向的元组中Tids,并且索引链表 IndexList(P)不为空,那么PPnt的指针连续向右移动,直到PPnt移动到IndexList(P)的末位或者PPnt指向元组中的tids和PxPnt指向元组中的tids相同为止;
(5.4.5)数据缓冲池DBP的末位添加一个新元组,令Tids为PxPnt的Tids,Iutils为PxPnt 的Iutils加PyPnt的Iutils减去PPnt的Iutils,Rutils为PyPnt的Rutils;
(5.4.6)PxPnt和PyPnt同时右移一位;
(5.4.7)当指针PxPnt没有指向索引链表IndexList(Px)的末位置EndPos,并且指针 PyPnt没有指向索引链表IndexList(Py)的末位置EndPos时,重复执行数据缓冲池构建过程;
(5.4.8)更新索引链表IndexList(Pxy)和数据缓冲池DBP,结束数据缓冲池构建过程;
完成数据缓冲池构建后,若索引链表IndexList(Pxy)不为空,Pxy及其分支项集将被搜索进程Search继续挖掘,不断递归此程序直到没有分支项集;
(6)输出效用最高的前k个高效用项集,完成数据挖掘。
本实施例数据挖掘方法TKBPH(Top-k Buffer Pool High utility itemsetsmining,简称 TKBPH),可为零售业、电商等交易系统数据仓库进行更高效的数据挖掘。
通过对比,本实施例数据挖掘方法有以下优点:
(1)项集挖掘运行时间短:将TKO,TKU算法与TKBPH算法在不同数据集进行测试,运行结果如图5所示。在语义数据集T10I4D100K上,当k值等于4000时,TKBPH算法仅需5.28s,而TKU算法的运行时间已经高达121.47s,而TKO为24.46s。在稀疏数据集retail 上,TKBPH算法不仅运行时间最短,而且随着k值的增长,时间效率变化非常平稳。当k值从200上升至800,TKBPH算法的运行时间仅从25.76s上升至28.66s,然而TKU算法已经从35.76s上升至95.88s。在稠密数据集chess和mushroom上,TKBPH算法同样性能优异,对比在chess数据集上做实验的其他项集,在同等k值的情况下,仅需其他算法大约二分之一的运行时间。主要原因是单一项在链表初始化时已经插入到数据缓冲池中,当搜索子程序Search挖掘分支项集时,只需把合并的项集插入到缓冲池,根据索引链表IndexList中单一项的位置信息直接访问单一项进行计算,从而避免之前算法项集合并时大量比较操作,提高算法运行时的效率。
(2)挖掘过程所需内存空间小:通过将四种算法在不同数据集上运行,监测内存空间的使用量如图6。TKBPH算法提出的数据缓冲池结构,将单一项的效用信息存储在数据缓冲区,将缓冲区内效用信息的位置信息存储在索引链表。挖掘新的分支项集时只需在缓冲尾部加入新的项集,当完成挖掘操作不再需要此项集时,数据缓冲池会回收此项集所占用的内存空间等待分配给其他需要的项集。数据缓冲池充当内存管理者角色,将内存中不需要的空间回收再利用,使得算法运行时内存空间的消耗大幅降低。相比其他算法,TKBPH算法在实验中所需的内存仅需二分之一甚至更少。由于缓冲池结构的内存复用,在调整k值的过程中,内存消耗的波动非常平稳。在数据集T10I4D100K的实验中,TKBPH算法内存从50.32MB上升至54.14MB,然而其他算法中内存消耗最小的TKO算法内存消耗从286.1MB至538.38MB,内存波动最小的TKU算法在551.68MB到567.76MB,内存消耗比TKBPH算法多了一个数量级。

Claims (3)

1.一种基于数据缓冲池的Top-k高效用项集挖掘方法,其特征在于,包括如下步骤:
(1)数据挖掘运行参数初始化:设置需要被挖掘的数据库D,指定结果集数量k和利润表ptable;
(2)扫描数据库D:初次扫描事务数据库D并计算单一项的加权事务效用值,将最小阈值minUtil初始化为0并创建初始化链表I*
(3)将单一项的加权事务效用值存入初始化链表I*并按加权事务效用值升序排列;
(4)再次扫描数据库D,建立数据缓冲池DBP、索引链表IndexList和评估效用共现结构EUCS,创建高效用项集队列;
(5)调用搜索子程序Search,将初始化链表I*、评估效用共现结构EUCS、数据缓冲池DBP和索引链表IndexList传入子程序Search;
(6)输出效用最高的前k个高效用项集,完成数据挖掘。
2.根据权利要求1所述基于数据缓冲池的Top-k高效用项集挖掘方法,其特征在于,
步骤(5)所述的调用搜索子程序Search,包括如下步骤:
(5.1)在搜索子程序Search中,对于项集P的一个分支项集Px,如果索引链表IndexList(Px)中存储的项集Px效用之和SumIutil不小于最小阈值minUtil,那么将项集Px加入到高效用项集队列;
在项集Px加入之前,判断队列长度是否大于结果集数量k值,若小于k值,直接将项集Px插入队列;
若队列长度大于k值,则比较项集Px的效用值和高效用队列中的最小值,如果项集Px的效用值小于高效用队列中的最小值,则不插入队列;如果项集Px 的效用值大于高效用队列中的最小值,则删除最小值的项集,插入项集Px并将minUtil更新为高效用项集最新的最小值;
(5.2)如果项集Px的索引链表IndexList(Px)中的效用之和SumIutil与剩余效用之和SumRutil相加不小于最小阈值minUtil,那么项集Px的分支项集则可能是高效用项集;
(5.3)对于项集P的另一个分支项集Py,Py与项集Px合并使得y>x并且TWU({x,y})≥minUtil,形成新的分支项集Pxy继续执行;
(5.4)将项集P,Px,Py,数据缓冲池DBP,索引链表IndexList作为参数调用数据缓冲池构建过程。
3.根据权利要求2所述基于数据缓冲池的Top-k高效用项集挖掘方法,其特征在于,步骤(5.4)所述的数据缓冲池构建过程,包括如下步骤:
(5.4.1)在数据缓冲池构建过程中,设指针PPnt,PxPnt,PyPnt分别为索引链表IndexList(P),IndexList(Px),IndexList(Py)的起始位置,指针指向数据缓冲池DBP中的元组;
(5.4.2)如果指针PxPnt指向的元组中Tids小于PyPnt指向的元组中Tids,那么将指针PxPnt向右移动一位;
(5.4.3)如果指针PxPnt指向的元组中Tids大于PyPnt指向的元组中Tids,那么将指针PyPnt向右移动一位;
(5.4.4)如果PxPnt指向的元组中Tids等于PyPnt指向的元组中Tids,并且索引链表IndexList(P)不为空,那么PPnt的指针连续向右移动,直到PPnt移动到IndexList(P)的末位或者PPnt指向元组中的tids和PxPnt指向元组中的tids相同为止;
(5.4.5)数据缓冲池DBP的末位添加一个新元组,令Tids为PxPnt的Tids,Iutils为PxPnt的Iutils加PyPnt的Iutils减去PPnt的Iutils,Rutils为PyPnt的Rutils;
(5.4.6)PxPnt和PyPnt同时右移一位;
(5.4.7)当指针PxPnt没有指向索引链表IndexList(Px)的末位置EndPos,并且指针PyPnt没有指向索引链表IndexList(Py)的末位置EndPos时,重复执行数据缓冲池构建过程;
(5.4.8)更新索引链表IndexList(Pxy)和数据缓冲池DBP,结束数据缓冲池构建过程;
完成数据缓冲池构建后,若索引链表IndexList(Pxy)不为空,Pxy及其分支项集将被搜索进程Search继续挖掘,不断递归此程序直到没有分支项集。
CN202010012489.XA 2020-01-07 2020-01-07 一种基于数据缓冲池的Top-k高效用项集挖掘方法 Pending CN111241136A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010012489.XA CN111241136A (zh) 2020-01-07 2020-01-07 一种基于数据缓冲池的Top-k高效用项集挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010012489.XA CN111241136A (zh) 2020-01-07 2020-01-07 一种基于数据缓冲池的Top-k高效用项集挖掘方法

Publications (1)

Publication Number Publication Date
CN111241136A true CN111241136A (zh) 2020-06-05

Family

ID=70870815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010012489.XA Pending CN111241136A (zh) 2020-01-07 2020-01-07 一种基于数据缓冲池的Top-k高效用项集挖掘方法

Country Status (1)

Country Link
CN (1) CN111241136A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693308A (zh) * 2012-05-24 2012-09-26 北京迅奥科技有限公司 一种面向实时搜索的缓存方法
US20140337272A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. Systems and methods for interactive displays based on associations for machine-guided rule creation
US20140337271A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. System for efficiently generating k-maximally predictive association rules with a given consequent
CN106682061A (zh) * 2016-10-17 2017-05-17 暨南大学 一种分布式起源数据收集与存储系统
US20180307722A1 (en) * 2016-09-27 2018-10-25 Tencent Technology (Shenzhen) Company Limited Pattern mining method, high-utility itemset mining method, and related device
CN109446235A (zh) * 2018-10-18 2019-03-08 哈尔滨工业大学(深圳) 多维高效用序列模式处理方法、装置和计算机设备
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
US20190205649A1 (en) * 2017-12-28 2019-07-04 Microsoft Technology Licensing, Llc Querying video data with reduced latency and cost
CN110413660A (zh) * 2019-07-26 2019-11-05 哈尔滨工业大学(深圳) 挖掘全局高效用项集的方法、装置及计算机可读存储介质
CN110471960A (zh) * 2019-08-21 2019-11-19 桂林电子科技大学 一种含负效用的高效用项集挖掘方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693308A (zh) * 2012-05-24 2012-09-26 北京迅奥科技有限公司 一种面向实时搜索的缓存方法
US20140337272A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. Systems and methods for interactive displays based on associations for machine-guided rule creation
US20140337271A1 (en) * 2012-09-21 2014-11-13 Sas Institute Inc. System for efficiently generating k-maximally predictive association rules with a given consequent
US20180307722A1 (en) * 2016-09-27 2018-10-25 Tencent Technology (Shenzhen) Company Limited Pattern mining method, high-utility itemset mining method, and related device
CN106682061A (zh) * 2016-10-17 2017-05-17 暨南大学 一种分布式起源数据收集与存储系统
US20190205649A1 (en) * 2017-12-28 2019-07-04 Microsoft Technology Licensing, Llc Querying video data with reduced latency and cost
CN109446235A (zh) * 2018-10-18 2019-03-08 哈尔滨工业大学(深圳) 多维高效用序列模式处理方法、装置和计算机设备
CN109739849A (zh) * 2019-01-02 2019-05-10 山东省科学院情报研究所 一种数据驱动的网络敏感信息挖掘与预警平台
CN110413660A (zh) * 2019-07-26 2019-11-05 哈尔滨工业大学(深圳) 挖掘全局高效用项集的方法、装置及计算机可读存储介质
CN110471960A (zh) * 2019-08-21 2019-11-19 桂林电子科技大学 一种含负效用的高效用项集挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QUANG-HUY DUONG 等: "Efficient high utility itemset mining using buffered utility-lists", 《APPLIED INTELLIGENCE》 *
蒋华 等: "基于DBP的Top-k高效用项集挖掘算法", 《计算机工程与设计》 *
路昕宇: "高效用项集挖掘算法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Similar Documents

Publication Publication Date Title
JP3466054B2 (ja) グループ化と集計演算処理方式
EP1393206B1 (en) Data structure for information systems
EP2731023B1 (en) Method and system for processing graph queries
US6439783B1 (en) Range-based query optimizer
US7739269B2 (en) Incremental repair of query plans
CN105975587B (zh) 一种高性能的内存数据库索引组织与访问方法
CN110110858B (zh) 一种基于强化学习的自动化机器学习方法
CN108897842A (zh) 计算机可读存储介质及计算机系统
JP2002501256A (ja) データベース装置
AU2002249161A1 (en) Data structure for information systems
CN112527735A (zh) 一种应用于键值存储系统中的数据合并方法和装置
US20090287660A1 (en) Bit string searching apparatus, searching method, and program
Dam et al. Towards efficiently mining closed high utility itemsets from incremental databases
CN107239549A (zh) 数据库术语检索的方法、装置及终端
CN111596945B (zh) 嵌入式系统动态多分区固件的差分升级方法
US7539988B1 (en) System and method for deferred rebalancing of a tree data structure
CN115017158A (zh) 节点信息查询方法
US20020059194A1 (en) Adaptive search method in feature vector space
KR101443285B1 (ko) 유용성 높은 패턴의 마이닝 방법
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN111241136A (zh) 一种基于数据缓冲池的Top-k高效用项集挖掘方法
Ansari et al. TFI-Apriori: Using new encoding to optimize the apriori algorithm
US20080306948A1 (en) String and binary data sorting
US20120054196A1 (en) System and method for subsequence matching
Kulalvaimozhi et al. Performance analysis of sorting algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination