CN107870956B - 一种高效用项集挖掘方法、装置及数据处理设备 - Google Patents

一种高效用项集挖掘方法、装置及数据处理设备 Download PDF

Info

Publication number
CN107870956B
CN107870956B CN201610866557.2A CN201610866557A CN107870956B CN 107870956 B CN107870956 B CN 107870956B CN 201610866557 A CN201610866557 A CN 201610866557A CN 107870956 B CN107870956 B CN 107870956B
Authority
CN
China
Prior art keywords
utility
item
item set
transaction
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610866557.2A
Other languages
English (en)
Other versions
CN107870956A (zh
Inventor
林浚玮
甘文生
肖磊
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen Graduate School Harbin Institute of Technology filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610866557.2A priority Critical patent/CN107870956B/zh
Priority to PCT/CN2017/102663 priority patent/WO2018059298A1/zh
Publication of CN107870956A publication Critical patent/CN107870956A/zh
Priority to US16/022,891 priority patent/US10776347B2/en
Application granted granted Critical
Publication of CN107870956B publication Critical patent/CN107870956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种高效用项集挖掘方法、装置及数据处理设备,该方法包括:确定事务数据库中各项集对应的项集效用值;根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。本发明实施例提高了高效用项集挖掘的准确性。

Description

一种高效用项集挖掘方法、装置及数据处理设备
技术领域
本发明涉及数据处理技术领域,具体涉及一种高效用项集挖掘方法、装置及数据处理设备。
背景技术
一个项集是由事务数据库中的至少一个数据项集合而成;事务数据库是一种可以记录交易、新闻等事务的数据库,事务数据库通常记录有至少一条事务,每条事务中包括至少一个数据项;比如交易类型的事务数据库中可以记录有至少一条关于交易记录的事务,一条关于交易记录的事务中可以包括至少一个商品的数据项(商品的数据项可以对应商品名称)及各商品的交易数量,而为表征事务数据库中数据项间的关联规则,至少一个数据项又会集合形成一个项集。
由于交易类型等的事务数据库往往能够反映用户的偏好,因此在向用户推荐信息时,往往会从事务数据库形成的多个项集中挖掘出向用户推荐的项集;而在挖掘项集的过程中,往往需要考虑效用值较高的项集(简称高效用项集)。
高效用项集是效用值较高的项集,而项集中往往有一个或多个数据项,如何综合考虑项集中各数据项的效用值,以提升挖掘出的高效用项集的准确性,显得尤为必要。
发明内容
有鉴于此,本发明实施例提供一种高效用项集挖掘方法、装置及数据处理设备,以提升挖掘出的高效用项集的准确性。
为实现上述目的,本发明实施例提供如下技术方案:
一种高效用项集挖掘方法,包括:
确定事务数据库中各项集对应的项集效用值;一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。
将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。
本发明实施例还提供一种高效用项集挖掘装置,包括:
项集效用值确定模块,用于确定事务数据库中各项集对应的项集效用值;一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
项集最低效用阈值确定模块,用于根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。
高效用项集确定模块,用于将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。
本发明实施例还提供一种数据处理设备,包括上述所述的高效用项集挖掘装置。
基于上述技术方案,本发明实施例定义了记录有各数据项对应的最低效用阈值的最低效用阈值表,在确定每一个项集所对应的项集最低效用阈值时,是通过比对项集包含的数据项所对应的最低效用阈值,从而将项集所包含的数据项对应的最低效用阈值中的最小最低效用阈值,作为项集所对应的项集最低效用阈值,使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况;基于所确定的各项集的项集最低效用阈值,将各项集的项集效用值与对应的项集最低效用阈值进行比对,从而确定出项集效用值不小于对应的项集最低效用阈值的高效用项集,实现高效用项集的挖掘。
本发明实施例提供的高效用项集挖掘方法并不是以唯一固定的最低效用阈值,作为高效用项集的挖掘标准,而是将每个项集所包含的数据项对应的最小最低效用阈值,作为每个项集的项集最低效用阈值,使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况,进而将各项集的项集效用值与项集对应的项集最低效用阈值进行比对,来实现高效用项集的挖掘,将使得挖掘结果更为准确;本发明实施例提高了高效用项集挖掘的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的高效用项集挖掘方法的流程图;
图2为本发明实施例提供的确定项集对应的项集效用值的方法流程图;
图3为本发明实施例提供的构建MIU树的方法流程图;
图4为MIU树的结构示意图;
图5为MIU树中第一个层级的各项集对应的效用列表的示意图;
图6为效用列表的组合示意图;
图7为效用列表的另一组合示意图;
图8为效用列表的再一组合示意图;
图9为本发明实施例提供的高效用项集挖掘装置的结构框图;
图10为本发明实施例提供的项集效用值确定模块的结构框图;
图11为本发明实施例提供的效用列表构建单元的结构框图;
图12为本发明实施例提供的数据处理设备的硬件结构框图。
具体实施方式
本发明的发明人经研究发现:
目前的项集挖掘技术主要有频繁项集挖掘(Frequent Itemset Mining,FIM)和关联规则挖掘(Association Rule Mining,ARM),高效用项集挖掘(High Utility ItemsetMining,HUIM)等;其中,频繁项集挖掘和关联规则挖掘旨在基于以先验知识设定的支持度(support)和置信度(confidence)等衡量准则,挖掘出频繁出现(即支持度不小于最低支持度阈值)而置信度高(即置信度不小于最低置信度阈值)的项集或关联规则;而HUIM是一种基于效用的项集挖掘技术,HUIM通过衡量项集对应的外部效用值(如利润值等)和内部效用值(如在事务中的发生次数,在交易场景下,可以是交易数量等),从而计算项集在数据库中的项集效用值,当项集的项集效用值大于或等于用户自定义的最低效用阈值时,则认为该项集是高效用项集;
目前在挖掘高效用项集时,是通过设定唯一固定的最低效用阈值作为高效用项集的衡量标准实现,即目前在计算出各项集的项集效用值后,是将各项集的项集效用值分别与该唯一固定的最低效用阈值进行比对,从而将项集效用值大于或等于该唯一固定的最低效用阈值的项集,作为高效用项集;
然而,一个项集中包括的数据项往往是一个或多个,而不同的数据项对应的最低效用阈值往往是不同的,这就导致不同项集对应的最低效用阈值也可能是不同的;因此目前通过设定唯一固定的最低效用阈值来实现高效用项集挖掘的方式,存在挖掘出的高效用项集不准确的问题;本发明实施例则是考虑改进高效用项集挖掘的方式,从而解决目前的高效用项集挖掘方式,所存在的挖掘出的高效用项集不准确的问题,提升挖掘出的高效用项集的准确性。
为便于理解本发明实施例描述的技术方案,下面先对本发明实施例涉及的名称概念进行介绍。
1、事务:事务数据库中的一条记录;比如,交易类型的事务数据库中记录的是商品的交易记录,则事务数据库中的每一条事务可以对应一条商品的交易记录。
2、事务编号(英文:TID):事务数据库中不同事务的编号;可选的,事务一般按照时态顺序编号。
3、数据项:事务中记录的信息项目,一条事务中包含至少一个数据项;比如,交易类型的事务数据中,每一条事务中包含交易的商品的数据项,及各商品的内部效用值(如交易数量);交易数量是内部效用值在交易场景下的一种体现形式,在其他场景的事务数据库中,内部效用值的形式可相应的调整;
如下表1所示,交易类型的事务数据库中包含10条事务,每条事务指示一条交易记录,每条事务中包含各交易的商品名称的数据项,及各商品的在事务中的交易数量(内部效用值的一种形式);
事务编号 事务(商品名称:交易数量)
T1 A:1,C:2,D:3
T2 A:2,D:1,E:2
T3 B:3,C:5
T4 A:1,C:3,D:1,E:2
T5 B:1,D:3,E:2
T6 B:2,D:2
T7 B:3,C:2,D:1,E:1
T8 A:2,C:3
T9 C:2,D:2,E:1
T10 A:2,C:2,D:1
表1
从表1中可以看出,在交易类型的事务数据库中,事务中的数据项可以是商品名称,内部效用值可以是事务中各商品的交易数量;表1中,事务数据库包含A、B、C、D和E这5个数据项,其中,T1事务的实际意义可以为:一条指示购买1件A商品、2件C商品和3件D商品的交易记录;而T7事务的实际意义可以为:一条指示购买3件B商品、2件C商品、1件D商品和1件E商品的购物记录;
而在新闻领域,表1中的各事务可以包含至少一条新闻,各事务可以记录每一条新闻的兴趣值、敏感度大小,新鲜度大小等;在股票等领域,表1中的各事务可以包含至少一个股票,各事务可以记录每一个股票的风险大小、收益大小等。
4、项集:至少一个数据项构成的集合,用于表征事务数据库内在的一种关联规则;事务与项集的不同的点是,事务通常是由实际的事件所触发生成的在事务数据库中的记录,而项集通常是从数据库挖掘而出的,并不一定有实际的含义。
5、k-项集:包含有k个数据项的集合;比如,1-项集可以是包含一个数据项的项集,如仅包含数据项A的项集A;2-项集可以是包含两个数据项的项集,如仅包含数据项A和B项集AB,以此类推。
6、外部效用值表(如利润表,Profit Table):记录事务数据库中各数据项对应的单位外部效用值的表格;在交易类型的事务数据库中,利润表可以是外部效用值表的一种体现形式,即外部效用值表可以记录事务数据库中各数据项的单位利润值;表2示出了利润表,可参照;
数据项 A B C D E
单位利润值 6 12 1 9 3
表2
从表2可以看出,利润表表示的是卖出一件商品可以获得的单位利润,比如卖出一件商品A可以获得利润6元;卖出一件商品B可以获得利润12元;相应的,外部效用值表可以表示,每个数据项对应的单位外部效用值。
7、数据项在事务中的效用值(Utility of an item in a transaction):一个数据项在一条事务中的效用值,可以是某一数据项在一事务中的内部效用值乘以该数据项的单位外部效用值;如在交易类型的事务数据库中,某一数据项在一事务中的效用值可以是,该数据项在该事务中的交易数量乘以该数据项的单位利润值;以表1和表2所示,数据项B在T3事务中的效用值可以是3×12=36。
8、项集在事务中的效用值(Utility of an itemset in a transaction):某一项集中的各数据项在某一事务中的效用值的加和;以表1和表2所示,项集BC(仅包含数据项B和C的项集)在T3事务中的效用值为3×12+5×1=41。
9、项集效用值(Itemset utility in Database):某一项集在事务数据库中的效用值,即某一项集在包含该项集的所有数据项的各事务中的效用值的加和。
10、最低效用阈值表(Minimum Utility threshold,MMU表):本发明实施例定义的,指示有各数据项对应的最低效用阈值的表格;表3示出了MMU表的一种可选形式,可参照;最低效用阈值表中定义的各数据项的最低效用阈值并不是固定的,而是可以由用户根据各数据项的实际情况设定,如可根据商品的价格波动情况,更新各商品的最低效用阈值。
数据项 A B C D E
最低效用阈值 56 65 53 50 70
表3
11、项集最低效用阈值(minimum utility threshold of an itemset,MIU),在本发明实施例中,由于不同数据项对应的最低效用阈值可能不同(如表3所示),这导致不同项集对应的最低效用阈值也可能是不同的;因此为解决现有技术为不同的项集设置固定唯一的最低效用阈值所带的准确性较低的问题,本发明实施例针对各项集,可根据项集中包含的数据项,为项集匹配适应的项集最低效用阈值;
具体的,针对各项集,本发明实施例可确定项集中最低效用阈值最小的数据项,将所确定的数据项的最低效用阈值作为该项集的项集最低效用阈值,从而得到各项集对应的项集最低效用阈值,为后续准确性较高的高效用项集的挖掘提供基础;
以项集AB的项集最低效用阈值确定为例,项集AB中包含数据项A和数据项B,从表3设置的MMU表可以看出,数据项A的最低效用阈值最小,因此可将数据项A的最低效用阈值作为项集AB的项集最低效用阈值,即项集AB的项集最低效用阈值为56;又如项集BC的项集最低效用阈值为,数据项C的最低效用阈值53。
12、事务的效用值(Transaction Utility):某一事务的效用值为,组成该事务的各个数据项在该事务中的效用值的加和;以表1所示,事务T5中包含数据项B、D和E,本发明实施例可确定事务T5的效用值为1×12+3×9+2×3=45。
13、数据库的总效用值:数据库中各事务的效用值的加和;以表1所示,数据库的总效用值为T1至T10的各事务的效用值的加和为:35+27+41+24+45+42+50+15+23+23=325。
14、最小最低效用阈值(Least Minimum Utility value,LMU):MMU表中最小的最低效用阈值,以表3所示为例,最小最低效用阈值为数据项D的最低效用阈值50。
15、高效用项集(High Utility Itemset,HUI):当项集的项集效用值≥该项集的项集最低效用阈值,则该项集为高效用项集;比如项集A的项集效用值为48,小于项集A的项集最低效用阈值56,则项集A不是高效用项集,又如,项集AD的项集效用值为90,大于项集AD的项集最低效用阈值50,则项集AD为高效用项集。
16、项集的事务加权效用(Transaction Weighted Utility,TWU):包含指定项集的事务的效用值之和;以表1和表2所示为例,当指定项集为B时(仅包含数据项B的项集),则包含项集B的事务为T3,T5,T6和T7,相应的T3,T5,T6和T7事务的效用值的加和为41+45+42+50=178,则项集B的事务加权效用为178。
17、高事务加权效用项集(High Transaction Weighted Utilization Itemset,HTWUI):当项集的TWU≥该项集的项集最低效用阈值时,则该项集为高事务加权效用项集;比如,项集B的事务加权效用为178,而项集B的最低效用阈值为65,项集B的事务加权效用大于最低效用阈值,确定项集B为高事务加权效用项集。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的高效用项集挖掘方法的流程图,该方法可应用于具有数据处理能力的数据处理设备,如应用于网络侧的数据处理服务器,可选的,根据数据挖掘场景的不同,高效用项集的挖掘也可能是在用户侧的计算机等设备上进行;参照图1,本发明实施例提供的高效用项集挖掘方法可以包括:
步骤S100、确定事务数据库中各项集对应的项集效用值;
可选的,一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
可选的,事务数据库中可以包括至少一条事务,一条事务可以记录有至少一个数据项及各数据项对应的内部效用值,一个项集可以包括至少一个数据项;
可选的,一个数据项在一个事务中的效用值表示的是,该数据项在该事务中的内部效用值及该数据项对应的单位外部效用值的乘积,各数据项对应的外部效用值可根据预定义的外部效用值表确定,外部效用值表记录有各数据项对应的单位外部效用值;
如在交易类型的数据库中,本发明实施例可预定义利润值表(利润值表为外部效用值表的一种形式),通过利润值表记录各商品的单位利润值(商品为数据项的一种形式,单位利润值为单位外部效用值的一种形式),则一个商品在一个交易事务中的效用值为,该商品在该交易事务中的交易数量(交易数量为内部效用值的一种形式)与该商品的单位利润值的乘积。
步骤S110、根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;
可选的,预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。
步骤S120、将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。
本发明实施例定义了记录有各数据项对应的最低效用阈值的最低效用阈值表,在确定每一个项集所对应的项集最低效用阈值时,是通过比对项集包含的数据项所对应的最低效用阈值,从而将项集所包含的数据项对应的最低效用阈值中的最小最低效用阈值,作为项集所对应的项集最低效用阈值,使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况;基于所确定的各项集的项集最低效用阈值,将各项集的项集效用值与对应的项集最低效用阈值进行比对,从而确定出项集效用值不小于对应的项集最低效用阈值的高效用项集,实现高效用项集的挖掘。
本发明实施例提供的高效用项集挖掘方法并不是以唯一固定的最低效用阈值,作为高效用项集的挖掘标准,而是将每个项集所包含的数据项对应的最小最低效用阈值,作为每个项集的项集最低效用阈值,使得所确定的各项集对应的项集最低效用阈值更为贴近项集的最低效用情况,进而将各项集的项集效用值与项集对应的项集最低效用阈值进行比对,来实现高效用项集的挖掘,将使得挖掘结果更为准确;本发明实施例提高了高效用项集挖掘的准确性。
以表1、2和3所示为例,下表4示出了项集效用值不小于项集最低效用阈值的高效用项集的示意图,可参照。
项集 项集最低效用阈值 项集效用值
(B) 65 108
(D) 50 126
(AD) 50 90
(BC) 53 79
(BD) 50 126
(CD) 50 83
(DE) 50 96
(ACD) 50 76
(BDE) 50 93
(CDE) 50 55
(BCDE) 50 50
表4
可选的,本发明实施例提供的确定事务数据库中各项集对应的项集效用值的方式可以是:对于各项集,先确定事务数据库中包含该项集的所有数据项的至少一目标事务,并确定该项集的所有数据项在所确定的各目标事务中的效用值,并将所确定各效用值相加和,得到该项集的项集效用值;
以表1和表2所示,项集B(仅包含数据项B的项集)的项集效用值为3×12+1×12+2×12+3×12=108,可选的,本发明实施例可确定包含数据项B的事务T3,T5,T6和T7,从而确定项集B在事务T3中的效用值3×12,确定项集B在事务T5种的效用值1×12,确定项集B在事务T6中的效用值2×12,确定项集B在事务T7中的效用值3×12,从而将所确定的各效用值加和,得到108的项集效用值;
项集BC(仅包含数据项B和C的项集)的项集效用值为(3×12+5×1)+(3×12+2×1)=79,可选的,本发明实施例可确定包含数据项B和C的事务T3和T7,确定项集BC在事务T3中的效用值3×12+5×1,确定项集BC在事务T7中的效用值3×12+2×1,从而将所确定的各效用值加和,得到79的项集效用值。
可选的,本发明实施例提供的确定事务数据库中各项集对应的项集效用值的另一种方式可以如图2所示,参照图2,确定各项集对应的项集效用值的过程可以包括:
步骤S200、根据各数据项在各事务对应的外部效用值,和预定义的最低效用阈值表中记录的各数据项的内部效用值,以递归方式构建各项集对应的效用列表;
可选的,一个项集对应的效用列表表示的是,该项集在数据库中出现的事务(即该项集的目标事务)中的一系列元组信息;具体的,一个项集对应的效用列表可以记录有该项集对应的各目标事务的事务编号,该项集在各目标事务对应的效用值,及该项集在各目标事务中的剩余效用值;一个项集在一个事务中的剩余效用值表示的是,一个事务中的数据项以最低效用阈值从小到大排序,并在该事务中除去该项集所包含的数据项后,排序在该事务右边的数据项的效用值的总和。
步骤S210、根据各项集对应的效用列表,计算出各项集的项集效用值。
在构建出各项集对应的效用列表后,本发明实施例可根据各项集对应的效用列表,计算出各项集的项集效用值;可选的,由于各项集对应的效用列表记录有各项集在各目标事务对应的效用值,本发明实施例可将各项集在各目标事务对应的效用值的加和,作为各项集的项集效用值。
在基于图2所示方法确定各项集对应的项集效用值时,如何以递归方式构建各项集对应的效用列表是一个关键点;本发明实施例可以分层级以递归方式构建各项集对应的效用列表,一个项集所处于的层级序数与该项集所包含的数据项的数量相对应,即第一层级的各项集仅包含一个数据项,第二层级的各项集仅包含两个数据项,以此类推;且下一层级的项集对应的效用列表,可通过至少两个能够组合成该项集的高层级项集的效用列表构建;
可选的,在分层级以递归方式构建各项集对应的效用列表时,本发明实施例可先构建枚举的最低效用阈值树(MIU树),枚举的MIU树可以认为是常规枚举树的扩展版,MIU树包含有分层级的项集,一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序;
可选的,在构建出MIU树后,本发明实施例可基于各数据项在各事务对应的外部效用值,和各数据项的内部效用值,构建出与MIU树相结合的各项集对应的效用列表,且下一层级的项集对应的效用列表,可通过至少两个能够组合成该项集的高层级项集的效用列表构建。
在构建MIU树时,本发明实施例可先确定事务数据库中包含一个数据项的各项集,并将所确定的各项集排序在MIU树的第一层级,构建出位于MIU树第一层级的项集;然后以深度优先搜索的方式,依序从MIU树第一层级的各项集出发,构建出分层级的项集,并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,从而形成MIU树;
可选的,在MIU树的一个层级中,项集可以随机的排序,也可以按照最低效用阈值从小到大的顺序排序;
相应的,图3示出了构建MIU树的可选方法流程图,参照图3,该方法可以包括:
步骤S300、确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集;
在构建MIU树时,本发明实施例可先确定事务数据库中包含一个数据项的各项集,即各1-项集;并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集;
步骤S310、以深度优先搜索的方式,依序从MIU树第一层级的各项集出发,构建出分层级的项集,并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序,形成MIU树。
在构建出位于MIU树第一层级的项集后,本发明实施例可以深度优先搜索的方式,构建出MIU树的分层级的项集。
图4示出了相应的MIU树结构可参照,结合图4所示,本发明实施例可先确定事务数据库中包含一个数据项的各项集A、B、C、D和E,结合表3所示,项集A、B、C、D和E的最低效用阈值从小到大的排序为项集D、C、A、B和E,从而将D、C、A、B和E依序排序在MIU树的第一层级;在构建出MIU树的第一层级的项集后,可从项集D出发,构建出第二层级中项集D对应的项集DC、DA、DB和DE,并将项集DC、DA、DB和DE按照最低效用阈值从小到大的排序,然后构建第三层级中项集DC对应的项集DCA、DCB、DCE、DAB和DAE并排序;再构建DCA在下一层级中对应的项集DCABE,然后回到项集DA构建其对应的下一层级的项集,以此类推,进而依序从MIU树第一层级的各项集出发,构建出分层级的项集。
可选的,本发明实施例在构建出MIU树,确定各项集在各层级的排序后,对于第一个层级中的各项集,可依序计算各项集在对应的各目标事务中的效用值,并且确定各项集在对应的各目标事务中的剩余效用值;如,本发明实施例可先记录第一个层级中的第一个项集所对应的各目标事务的事务编号,该项集在对应的各目标事务中的效用值,及该项集在对应的各目标事务中的剩余效用值,并通过表格进行记录,依此对第一个层级中的各项集进行处理,则可得到第一个层级中各项集对应的效用列表;结合表1、2和3,图5示出了MIU树中第一个层级的各项集对应的效用列表;图5中tid表示事务编号,iu表示效用值,ru表示剩余效用值;
在确定第一个层级的各项集对应的效用列表后,MIU树中下一层级的项集的效用列表可通过至少两个能够组合成该项集的高层级项集的效用列表构建;
可选的,此处的至少两个能够组合成该项集的高层级项集,可以是,高层级中能够直接组合成该项集的至少两个项集,也可能是高层级中至少两个组合后,通过去除重复数据项能够组合成该项集的项集。
如第二层级中的项集DC的效用列表可通过第一层级中项集D和C的效用列表组合形成,具体组合示意可如图6所示;参照图6,其中,2-项集DC的对应的目标事务的事务编号,为1-项集D和C的共同出现的目标事务的事务编号,即{T1,T4,T7,T9,T10};在T1中,项集DC的效用值等于为项集D和项集C在事务T1中的效用值的加和,即27+2=29,项集DC在其他目标事务中的效用值的处理类似;而项集DC在各目标事务中的剩余效用值,可以直接以项集D和C中排序在后的项集C在各目标事务的剩余效用值确定;
即在构建出第一层级中各项集的效用列表后,在构建第二层级的各项集的效用列表时,对于第二层级的各项集,本发明实施例可确定第一层级中能够组合成该第二层级的项集的两个项集,将该两个项集共同对应的目标事务,作为该第二层级的项集所对应的目标事务,将该两个项集在一共同对应的目标事务中的效用值的加和,作为该第二层级的项集在该目标事务中的效用值;并将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值,作为该第二层级的项集在该目标事务中的剩余效用值,从而得到该第二层级的项集的效用列表。
又如第三层级中的项集DCA的效用列表可通过第二层级中的项集DC和DA的效用列表组合形成,具体组合示意可如图7所示;参照图7,当需要确定效用列表的项集所在的层级不小于三时,项集的效用列表的构建过程可以与第二层级的项集的效用列表的构建过程存在差异,不同之处在于:层级不小于三的项集在各目标事务中的效用值,除需要将上一层级中能够组合成该项集的两个项集在目标事务中的效用值相加外,还需要再减去该项集的前缀数据项在该目标事务中的效用值;例如,图7中项集DCA在T10事务中的效用值为,DC在T10事务中的效用值11,加上DA在T10事务中的效用值21,再减去项集DCA的前缀数据项D在T1O中的效用值9,即11+21-9=23;相应的,层级不小于三的项集在各目标事务中的剩余效用值为,上一层级中能够组合成该项集的两个项集中排序在后的项集在各目标事务中的剩余效用值;
即在构建层级不小于三的项集的效用列表时,对于层级不小于三的各项集,本发明实施例可确定上一层级中能够组合成该项集的两个项集,将该两个项集共同对应的目标事务,作为该层级不小于三的项集所对应的目标事务;并将该两个项集在一共同对应的目标事务中的效用值的加和,减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值,将得到结果作为该层级不小于三的项集在该目标事务中的效用值;并将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值,作为该第二层级的项集在该目标事务中的剩余效用值,从而得到该层级不小于三的项集的效用列表。
相应的,上述构建各层级的项集所对应的效用列表的伪代码可以如下,具体算法过程可以如下文代码中的Line 5(k≥3的情况,即层级≥3的情况)和Line 7(k=1或2的情况,即层级=1或2的情况):
Input:X,an itemset;X.UL is the utility-list of X;Xab.UL,Xa.UL,Xb.UL,
Figure BDA0001122901510000151
Figure BDA0001122901510000152
and
Figure BDA0001122901510000153
Xa≠Xb.//输入:项集X;X对应的效用列表;Xab对应的效用列表;Xa对应的效用列表;Xb对应的效用列表,Xa、Xb均是X的子集,且Xa≠Xb
Output:Xab.UL.//输出:Xab的效用列表
Figure BDA0001122901510000154
可选的,在构建层级不小于三的项集的效用列表时,对于层级不小于三的各项集,本发明实施例也可确定高层级中可直接组合成该项集的至少两个项集,将该至少两个项集共同对应的目标事务,作为该层级不小于三的项集所对应的目标事务;将该至少两个项集在一共同对应的目标事务中的效用值的加和,作为该层级不小于三的项集在该目标事务中的效用值;并将该至少两个项集中最高层级的项集中排序在后的项集,在一共同对应的目标事务中的剩余效用值,作为该第二层级的项集在该目标事务中的剩余效用值,从而得到该层级不小于三的项集的效用列表;
如项集DCA可以由项集DC合项集A组合而成,项集DCA在各目标事务中的效用值,可以是项集DC和A在该目标事务中的效用值的加和,且项集DCA在各目标事务中的剩余效用值,可以是项集DC和A中最高层级,且排序在后的项集A在各目标事务中的剩余效用值;具体示意可如图8所示。
可选的,在构建出各项集对应的效用列表后,本发明实施例可在挖掘高效用项集的过程中,基于各项集对应的效用列表,计算各项集的项集效用值;并根据预定义的最低效用阈值表,将各项集所包含的数据项所对应的最小项集最低效用阈值,作为各项集对应的项集最低效用阈值;从而将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果,挖掘出高效用项集;
本发明挖掘高效用项集的算法伪代码可以如下算法1和算法2所示,可参照。
Figure BDA0001122901510000161
Figure BDA0001122901510000171
Figure BDA0001122901510000172
Figure BDA0001122901510000181
上述算法1中,Line 1为初始化几个变量,Line 2为由MMU表计算出LMU,然后扫描原始数据库计算各个1-项集的TWU值(Line 3),依据MMU表中设定的各个1-项集的最低效用阈值找出高事务加权效用1-项集的集合HTWUI1(Line 4,这里属于应用全局向下封闭特性(Global downward closure property,GDC property));Line 5是对找出的HTWUI1依据它们的最低效用阈值进行从小到大的排序。
Line 6是根据高事务加权效用1-项集生成第1-效用列表;然后调用挖掘函数HUI-Search,递归地根据第1-效用列表生成一系列的后续的效用列表(Line 7),并从生成的效用列表中挖掘高效用项集。
可见,本发明实施例在确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集时,具体可通过如下方式实现:计算包含一个数据项的各项集的项集的事务加权效用值(TWU值),根据包含一个数据项的各项集的最低效用阈值,确定包含一个数据项的各项集中的高事务加权效用项集,将高事务加权效用项集按照最低效用阈值从小到大进行排序;然后再递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表,形成各项集对应的效用列表。
函数HUI-Search的伪代码如算法2所示,其中Line 5应用了有条件的向下封闭特性(Conditional downward closure property,CDC property)进行提前剪枝操作,Line 8则应用了全局向下封闭特性(Global downward closure property,GDC property)进行剪枝操作。
剪枝策略1:当采用深度优先搜索方式遍历MIU树时,依据效用列表,如果某项集X的TWU值小于LMU值时,则X的所有超集都不会是高效用项集;项集的超集就是指包含该项集的所有数据项的集合,如项集A,它的项集就是前面的MIU树图中所有含有A的树节点,而不仅仅是项集A的所有子节点;
剪枝策略2:当采用深度优先搜索方式遍历MIU树时,依据效用列表,如果某项集X的效用值和剩余效用值的加和,小于该项集X的项集最低效用阈值时,则项集X的所有扩展节点(即其后代节点)都不会是高效用项集,因为它们的实际效用值都会小于MIU(X)值。
可选的,本实施例还可通过对生成的各项集的效用列表中,没有前途的项集的效用列表进行过滤,并根据剩余的有前途的项集的效用列表生成对应扩展集的效用列表,使得数据挖掘过程中只需要扫描一次数据库,并生成第一层级的各项集的效用列表,并在需要时,根据该第一层级的各项集的效用列表生成后续其他项集的效用列表,不仅减少了扫描数据库的次数,而且通过缩小所要挖掘数据的范围,提高了挖掘的速度,节约了计算资源。
本实施例还提出了两个特性,全局向下封闭特性(Global downward closureproperty,GDC property)和有条件的向下封闭特性(Conditional downward closureproperty,CDC property)。根据效用列表检测对应的项集是否有前途,并对没有前途的项集进行过滤,从而减少了后续生成的效用列表数量,达到了节约计算资源,提高挖掘速度的效果。
可选的,在通过深度优先搜索构建各项集对应的效用列表的过程中,本发明实施例还可EUCP(Estimated Utility Co-occurrence Pruning)技术,通过在第二次扫描事务数据库时构建的估计效用共现结构表(EUCS表)提高处理效率;EUCS表中包含所述k-项集与所述k-项集对应的事务加权效用上限,k≥2,即EUCS表中可以包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限;所述事务加权效用上限是指包含所述k-项集的所述事务对应的所述事务效用上限之和,所述事务效用上限指所述事务中所述数据项的效用之和;
例如,由示例数据库构建而得的EUCS如下所示,因此,下表5中项集BE的TWU(项集的事务加权效用)值的计算方法是,项集在事务T5中的效用值,与项集在事务T7中的效用值之和,即95。
Figure BDA0001122901510000201
表5
根据所述EUCS表,对所述事务加权效用上限<所述最低效用阈值的所述k-项集及其超集进行过滤,则可直接忽略其拓展项集的产生与判断,从而大大加速挖掘的性能,同时又保证了挖掘结果的完整性和准确性。一个项集的超集是指该项集的所有数据项的集合。如项集A,它的项集就是MIU树中所有含有项集A的树节点,而不仅仅是项集A的所有子节点。
基于上述特性,本发明实施例还可以得出如下推论:
如果一个项集是HTWUI(高事务加权效用项集),那么该项集的任一子项集(子项集包含该项集的所有数据项)也是HTWUI;如果一个项集不是HTWUI,那么该项集的任一超集均不是HTWUI;
因此,本发明实施例在得到包含一个数据项的项集后(即得到1-项集),可按照最低效用阈值的大小进行升序排序,得到排序后的1-项集。比如,根据表一得到1-项集候选项集中包括数据项A、B、C、D和E的最低效用阈值后,可按照升序得到排序后的1-项集D、C、A、B、E;
然后根据排序后的1-项集,自连接生成2-项集,显然,该2-项集中的数据项按照MMU表中1-项集的最低效用阈值的大小进行升序排序。其中,根据1-项集自连接生成2-项集的过程,即指定数据项与排在该指定数据项右边的数据项进行组合;比如,排序后的1-项集为D、C、A、B、E,对于项集D它的后续扩展,由自连接生成的2-项集则为DC、DA、DB、DE;
计算自连接生成的各个2-项集的TWU,并针对各2-项集,检测项集的效用值和的剩余效用值之和是否不小于≥项集的最低效用阈值,若是,则继续进行深度搜索,若否,则确定该2-项集及其超集均不是HTWUI,并对该2-项集进行过滤;与此同理,其他K-项集(k≥3)同样的处理,最后RUP算法返回最终的近期有效的高效用项集的完整集合。
需要说明的是,本文中项集的扩展集合均是指该项集与其排序后右边的各个项集自连接组合后生成的项集,而超集是传统意义上的包含该项集的所有数据项的集合。
可选的,本发明实施例在确定出高效用项集后,可在对用户进行内容推荐时,推荐高效用项集。
本技术发明的直接有益效果是能处理日常应用中常见的交易型等事务数据库,通过引入MMU表,根据该MMU表确定各个项集各自对应的MIU,并将项集的项集效用值与对应的MIU进行比较,从而确定该项集是否为HUI;解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题;达到了根据不同项集制定不同的HUI衡量标准,从而使挖掘出的HUI更准确、更可信、更有意义。
下面对本发明实施例提供的高效用项集挖掘装置进行介绍,下文描述的高效用项集挖掘装置可与上文描述的高效用项集挖掘方法相互对应参照。
图9为本发明实施例提供的高效用项集挖掘装置的结构框图,参照图9,该装置可以包括:
项集效用值确定模块100,用于确定事务数据库中各项集对应的项集效用值;一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
项集最低效用阈值确定模块200,用于根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。
高效用项集确定模块300,用于将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。
可选的,图10示出了项集效用值确定模块100的可选结构,参照图10,该项集效用值确定模块100可以包括:
效用列表构建单元110,用于根据各数据项在各事务对应的外部效用值,和预定义的最低效用阈值表中记录的各数据项的内部效用值,以递归方式构建各项集对应的效用列表;其中,一个项集对应的效用列表记录有该项集对应的各目标事务的事务编号,该项集在各目标事务对应的效用值,及该项集在各目标事务中的剩余效用值;一个项集在一个事务中的剩余效用值表示的是,一个事务中的数据项以最低效用阈值从小到大排序,并在该事务中除去该项集所包含的数据项后,排序在该事务右边的数据项的效用值的总和;
项集效用值计算单元120,用于根据各项集对应的效用列表,计算出各项集的项集效用值。
可选的,效用列表构建单元110以递归方式构建各项集对应的效用列表时,具体可用于,分层级以递归方式构建各项集对应的效用列表,一个项集所处于的层级序数与该项集所包含的数据项的数量相对应;且下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建。
具体的,图11示出了效用列表构建单元110的可选结构,参照图11,效用列表构建单元110可以包括:
MIU树构建子单元111,用于构建枚举的最低效用阈值MIU树,所述MIU树包含有分层级的项集,一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序;
效用列表构建执行子单元112,用于基于各数据项在各事务对应的外部效用值,和各数据项的内部效用值,构建出与MIU树相结合的各项集对应的效用列表,且下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建。
可选的,MIU树构建子单元111具体可用于,确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集;以深度优先搜索的方式,依序从MIU树第一层级的各项集出发,构建出分层级的项集,并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序,形成MIU树。
可选的,效用列表构建执行子单元112具体可用于:
在构建第二层级的各项集的效用列表时,对于第二层级的各项集,确定第一层级中能够组合成该第二层级的项集的两个项集;将该两个项集共同对应的目标事务,作为该第二层级的项集所对应的目标事务;将该两个项集在一共同对应的目标事务中的效用值的加和,作为该第二层级的项集在该目标事务中的效用值;将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值,作为该第二层级的项集在该目标事务中的剩余效用值。
可选的,效用列表构建执行子单元112具体可用于:
在构建层级不小于三的项集的效用列表时,对于层级不小于三的各项集,确定上一层级中能够组合成该项集的两个项集;将该两个项集共同对应的目标事务,作为该层级不小于三的项集所对应的目标事务;将该两个项集在一共同对应的目标事务中的效用值的加和,减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值,将得到结果作为该层级不小于三的项集在该目标事务中的效用值;将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值,作为该第二层级的项集在该目标事务中的剩余效用值。
可选的,MIU树构建子单元111在确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集时具体可用于:
计算包含一个数据项的各项集的项集的事务加权效用值,根据包含一个数据项的各项集的最低效用阈值,确定包含一个数据项的各项集中的高事务加权效用项集;将高事务加权效用项集按照最低效用阈值从小到大进行排序;
相应的,效用列表构建执行子单元112在构建出与MIU树相结合的各项集对应的效用列表时具体可用于:构建出包含一个数据项的各项集的效用列表,递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表,形成各项集对应的效用列表。
可选的,在本发明实施例中,高效用项集挖掘装置还可用于:在以深度优先搜索方式遍历MIU树时,如果一项集的事务加权效用值小于,该项集的最小最低效用阈值时,确定该项集的所有超集均不是高效用项集;
和/或,在以深度优先搜索方式遍历MIU树时,如果一项集的效用值和剩余效用值的加和,小于该项集的项集最低效用阈值,则确定该项集在MIU树中的所有扩展节点均不是高效用项集。
可选的,在本发明实施例中,高效用项集挖掘装置还可用于:获取EUCS表,所述EUCS表包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限;根据所述EUCS表,对事务加权效用上限小于最低效用阈值的不小于第二层级的项集及其超集进行过滤。
可选的,在本发明实施例中,高效用项集挖掘装置还可用于:如果一个项集是高事务加权效用项集,则确定该项集的任一子项集也是高事务加权效用项集,子项集包含该项集的所有数据项;如果一个项集不是高事务加权效用项集,则确定那么该项集的任一超集均不是高事务加权效用项集。
本发明实施例提供还提供一种数据处理设备,该数据处理设备可以包括上述所述的高效用项集挖掘装置;具体的,本发明实施例可在该数据处理设备中装置所述高效用项集挖掘装置。
可选的,图12示出了本发明实施例提供的数据处理设备的硬件结构框图,参照图12,该数据处理设备可以包括:处理器1,通信接口2,存储器3和通信总线4;
其中处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1,用于执行程序;
存储器3,用于存放程序;
程序可以包括程序代码,所述程序代码包括计算机操作指令。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序可具体用于:
确定事务数据库中各项集对应的项集效用值;一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值。
将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种高效用项集挖掘方法,其特征在于,包括:
确定事务数据库中各项集对应的项集效用值;一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值;
将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值;
所述确定事务数据库中各项集对应的项集效用值包括:
根据各数据项在各事务对应的外部效用值,和预定义的最低效用阈值表中记录的各数据项的内部效用值,以递归方式构建各项集对应的效用列表;其中,一个项集对应的效用列表记录有该项集对应的各目标事务的事务编号,该项集在各目标事务对应的效用值,及该项集在各目标事务中的剩余效用值;一个项集在一个事务中的剩余效用值表示的是,一个事务中的数据项以最低效用阈值从小到大排序,并在该事务中除去该项集所包含的数据项后,排序在该事务右边的数据项的效用值的总和;
根据各项集对应的效用列表,计算出各项集的项集效用值。
2.根据权利要求1所述的高效用项集挖掘方法,其特征在于,所述以递归方式构建各项集对应的效用列表包括:
分层级以递归方式构建各项集对应的效用列表,一个项集所处于的层级序数与该项集所包含的数据项的数量相对应;且下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建。
3.根据权利要求2所述的高效用项集挖掘方法,其特征在于,所述分层级以递归方式构建各项集对应的效用列表包括:
构建枚举的最低效用阈值MIU树,所述MIU树包含有分层级的项集,一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序;
基于各数据项在各事务对应的外部效用值,和各数据项的内部效用值,构建出与MIU树相结合的各项集对应的效用列表,且下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建。
4.根据权利要求3所述的高效用项集挖掘方法,其特征在于,所述构建枚举的MIU树包括:
确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集;
以深度优先搜索的方式,依序从MIU树第一层级的各项集出发,构建出分层级的项集,并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序,形成MIU树。
5.根据权利要求2-4任一项所述的高效用项集挖掘方法,其特征在于,所述下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建包括:
在构建第二层级的各项集的效用列表时,对于第二层级的各项集,确定第一层级中能够组合成该第二层级的项集的两个项集;
将该两个项集共同对应的目标事务,作为该第二层级的项集所对应的目标事务;
将该两个项集在一共同对应的目标事务中的效用值的加和,作为该第二层级的项集在该目标事务中的效用值;
将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值,作为该第二层级的项集在该目标事务中的剩余效用值。
6.根据权利要求2-4任一项所述的高效用项集挖掘方法,其特征在于,所述下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建包括:
在构建层级不小于三的项集的效用列表时,对于层级不小于三的各项集,确定上一层级中能够组合成该项集的两个项集;
将该两个项集共同对应的目标事务,作为该层级不小于三的项集所对应的目标事务;
将该两个项集在一共同对应的目标事务中的效用值的加和,减去该层级不小于三的项集的前缀数据项在该目标事务中的效用值,将得到结果作为该层级不小于三的项集在该目标事务中的效用值;所述项集的前缀数据项为所述项集中排序在最前的数据项;
将该两个项集中排序在后的项集在一共同对应的目标事务中的剩余效用值,作为第二层级的项集在该目标事务中的剩余效用值。
7.根据权利要求4所述的高效用项集挖掘方法,其特征在于,所述确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集包括:
计算包含一个数据项的各项集的项集的事务加权效用值,根据包含一个数据项的各项集的最低效用阈值,确定包含一个数据项的各项集中的高事务加权效用项集;
将高事务加权效用项集按照最低效用阈值从小到大进行排序;
所述构建出与MIU树相结合的各项集对应的效用列表包括:
构建出包含一个数据项的各项集的效用列表,递归地根据包含一个数据项的各项集的效用列表生成一系列的后续的效用列表,形成各项集对应的效用列表。
8.根据权利要求4所述的高效用项集挖掘方法,其特征在于,所述方法还包括:
在以深度优先搜索方式遍历MIU树时,如果一项集的事务加权效用值小于该项集的最小最低效用阈值,则确定该项集的所有超集均不是高效用项集;
和/或,在以深度优先搜索方式遍历MIU树时,如果一项集的效用值和剩余效用值的加和小于该项集的项集最低效用阈值,则确定该项集在MIU树中的所有扩展节点均不是高效用项集。
9.根据权利要求1-4任一项所述的高效用项集挖掘方法,其特征在于,所示方法还包括:
获取EUCS表,所述EUCS表包含不小于第二层级的各层级的项集与项集对应的事务加权效用上限;
根据所述EUCS表,对事务加权效用上限小于最低效用阈值的不小于第二层级的项集及其超集进行过滤。
10.根据权利要求1-4任一项所述的高效用项集挖掘方法,其特征在于,所示方法还包括:
如果一个项集是高事务加权效用项集,则确定该项集的任一子项集也是高事务加权效用项集,子项集包含该项集的所有数据项;
如果一个项集不是高事务加权效用项集,则确定那么该项集的任一超集均不是高事务加权效用项集。
11.一种高效用项集挖掘装置,其特征在于,包括:
项集效用值确定模块,用于确定事务数据库中各项集对应的项集效用值;一个项集对应的项集效用值表示的是,该项集在该项集对应的各目标事务中的效用值的加和,一个项集的目标事务为包含该项集所有数据项的事务;一个项集在目标事务中的效用值表示的是,该项集的各数据项在目标事务中的效用值的加和;
项集最低效用阈值确定模块,用于根据预定义的最低效用阈值表,确定各项集对应的项集最低效用阈值;预定义的最低效用阈值表记录有各数据项对应的最低效用阈值,一个项集对应的项集最低效用阈值表示的是,该项集包含的数据项所对应的最低效用阈值中的最小最低效用阈值;
高效用项集确定模块,用于将各项集的项集效用值与对应的项集最低效用阈值进行比对,根据比对结果确定高效用项集,其中,高效用项集的项集效用值不小于对应的项集最低效用阈值;
所述项集效用值确定模块包括:
效用列表构建单元,用于根据各数据项在各事务对应的外部效用值,和预定义的最低效用阈值表中记录的各数据项的内部效用值,以递归方式构建各项集对应的效用列表;其中,一个项集对应的效用列表记录有该项集对应的各目标事务的事务编号,该项集在各目标事务对应的效用值,及该项集在各目标事务中的剩余效用值;一个项集在一个事务中的剩余效用值表示的是,一个事务中的数据项以最低效用阈值从小到大排序,并在该事务中除去该项集所包含的数据项后,排序在该事务右边的数据项的效用值的总和;
项集效用值计算单元,用于根据各项集对应的效用列表,计算出各项集的项集效用值。
12.根据权利要求11所述的高效用项集挖掘装置,其特征在于,所述效用列表构建单元包括:
MIU树构建子单元,用于构建枚举的最低效用阈值MIU树,所述MIU树包含有分层级的项集,一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序;
效用列表构建执行子单元,用于基于各数据项在各事务对应的外部效用值,和各数据项的内部效用值,构建出与MIU树相结合的各项集对应的效用列表,且下一层级的项集对应的效用列表,通过至少两个能够组合成该项集的高层级项集的效用列表构建。
13.根据权利要求12所述的高效用项集挖掘装置,其特征在于,所述MIU树构建子单元具体用于:
确定事务数据库中包含一个数据项的各项集,并将所确定的各项集按照最低效用阈值从小到大的顺序排序在MIU树的第一层级,构建出位于MIU树第一层级的项集;以深度优先搜索的方式,依序从MIU树第一层级的各项集出发,构建出分层级的项集,并使得一个项集在MIU树中所处于的层级序数与该项集所包含的数据项的数量相对应,且各层级的项集按照最低效用阈值从小到大的顺序排序,形成MIU树。
14.一种数据处理设备,其特征在于,包括权利要求11-13任一项所述的高效用项集挖掘装置。
15.一种数据处理设备,其特征在于,包括处理器和存储器;
所述存储器用于存放程序;
所述处理器用于执行所述程序,以实现如权利要求1~10任一项所述的高效用项集挖掘方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,所述程序在被处理器执行时,以实现如权利要求1~10任一项所述的高效用项集挖掘方法。
CN201610866557.2A 2016-09-27 2016-09-28 一种高效用项集挖掘方法、装置及数据处理设备 Active CN107870956B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610866557.2A CN107870956B (zh) 2016-09-28 2016-09-28 一种高效用项集挖掘方法、装置及数据处理设备
PCT/CN2017/102663 WO2018059298A1 (zh) 2016-09-27 2017-09-21 模式挖掘方法、高效用项集挖掘方法及相关设备
US16/022,891 US10776347B2 (en) 2016-09-27 2018-06-29 Pattern mining method, high-utility itemset mining method, and related device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610866557.2A CN107870956B (zh) 2016-09-28 2016-09-28 一种高效用项集挖掘方法、装置及数据处理设备

Publications (2)

Publication Number Publication Date
CN107870956A CN107870956A (zh) 2018-04-03
CN107870956B true CN107870956B (zh) 2021-04-27

Family

ID=61761297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610866557.2A Active CN107870956B (zh) 2016-09-27 2016-09-28 一种高效用项集挖掘方法、装置及数据处理设备

Country Status (1)

Country Link
CN (1) CN107870956B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446235B (zh) * 2018-10-18 2020-10-02 哈尔滨工业大学(深圳) 多维高效用序列模式处理方法、装置和计算机设备
CN109408563B (zh) * 2018-11-07 2021-06-22 哈尔滨工业大学(深圳) 高平均效用项集挖掘方法、装置及计算机设备
CN110471960B (zh) * 2019-08-21 2022-04-05 桂林电子科技大学 一种含负效用的高效用项集挖掘方法
CN110955702B (zh) * 2019-11-28 2024-03-29 江南大学 一种基于改进遗传算法的模式数据挖掘方法
CN113407543A (zh) * 2021-06-29 2021-09-17 哈尔滨工业大学(深圳) 挖掘高效用连续序列模式的方法、装置及计算机存储介质
CN114528332A (zh) * 2022-01-19 2022-05-24 哈尔滨工业大学(威海) 海量数据中基于后缀划分的高效用高占用比项集挖掘算法
CN115617881B (zh) * 2022-12-20 2023-03-21 山东科技大学 一种不确定交易数据库中多序列的周期频繁模式挖掘方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591900A (zh) * 2010-11-18 2012-07-18 王彦尧 快速寻找高效用项目集的数据挖掘演算方法
CN102636991A (zh) * 2012-04-18 2012-08-15 国电科学技术研究院 一种基于模糊集关联规则的火电机组运行参数优化方法
CN103353864A (zh) * 2012-11-20 2013-10-16 深圳市华傲数据技术有限公司 一种数据库近似字典规则的挖掘方法、系统及数据库终端
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
US20150317363A1 (en) * 2012-12-18 2015-11-05 Telefonaktiebolaget L M Ericsson (Publ) Load shedding in a data stream management system
CN105046362A (zh) * 2015-07-24 2015-11-11 河南科技大学 一种基于关联规则挖掘的食品安全实时预测方法
CN105608182A (zh) * 2015-12-23 2016-05-25 一兰云联科技股份有限公司 面向不确定数据模型中的效用项集挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318425A1 (en) * 2009-06-12 2010-12-16 Meherzad Ratan Karanjia System and method for providing a personalized shopping assistant for online computer users

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591900A (zh) * 2010-11-18 2012-07-18 王彦尧 快速寻找高效用项目集的数据挖掘演算方法
CN102636991A (zh) * 2012-04-18 2012-08-15 国电科学技术研究院 一种基于模糊集关联规则的火电机组运行参数优化方法
CN103353864A (zh) * 2012-11-20 2013-10-16 深圳市华傲数据技术有限公司 一种数据库近似字典规则的挖掘方法、系统及数据库终端
US20150317363A1 (en) * 2012-12-18 2015-11-05 Telefonaktiebolaget L M Ericsson (Publ) Load shedding in a data stream management system
CN103927398A (zh) * 2014-05-07 2014-07-16 中国人民解放军信息工程大学 基于最大频繁项集挖掘的微博炒作群体发现方法
CN105046362A (zh) * 2015-07-24 2015-11-11 河南科技大学 一种基于关联规则挖掘的食品安全实时预测方法
CN105608182A (zh) * 2015-12-23 2016-05-25 一兰云联科技股份有限公司 面向不确定数据模型中的效用项集挖掘方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
PHM: Mining Periodic High-Utility Itemsets;Philippe Fournier-Viger等;《Applications and Theoretical Aspects》;20160628;64-79页 *
不产生候选项集的TOP-K高效用模式挖掘算法;王乐等;《计算机研究与发展》;20150215;第52卷(第2期);445-455页 *
基于多重最小支持度的髙效用频繁项集挖掘算法研究;王立俊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第2期);第2.1节,第4.2节 *
多最小支持度下的关联规则研究;王瑄;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090215(第02期);第4.2.1节 *
高效用项集挖掘算法综述;刘畅畅;《福建电脑》;20160325(第3期);90-92页 *

Also Published As

Publication number Publication date
CN107870956A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN107870956B (zh) 一种高效用项集挖掘方法、装置及数据处理设备
US11960471B2 (en) Using lineage to infer data quality issues
Marcus et al. Counting with the crowd
CN106600067B (zh) 多维立方体模型的优化方法和装置
WO2018059298A1 (zh) 模式挖掘方法、高效用项集挖掘方法及相关设备
JP2013504118A (ja) クエリのセマンティックパターンに基づく情報検索
US20200097483A1 (en) Novel olap pre-calculation model and method for generating pre-calculation result
US10255300B1 (en) Automatically extracting profile feature attribute data from event data
CN107832444B (zh) 基于搜索日志的事件发现方法及装置
CN111612499B (zh) 信息的推送方法及装置、存储介质、终端
JP2008027072A (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
WO2016093837A1 (en) Determining term scores based on a modified inverse domain frequency
CN110674865A (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
JP6696568B2 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
Adhikari et al. Advances in knowledge discovery in databases
CN116097242A (zh) 知识图谱构建方法和装置
CN114661568A (zh) 异常操作行为检测方法、装置、设备及存储介质
KR101621735B1 (ko) 추천 검색어 제공 방법 및 시스템
US20180322125A1 (en) Itemset determining method and apparatus, processing device, and storage medium
CN104199924B (zh) 选择具有快照关系的网络表格的方法及装置
KR101568800B1 (ko) 실시간 이슈 검색어 선별 방법 및 시스템
van der Laan reclin2: a Toolkit for Record Linkage and Deduplication.
JP5692087B2 (ja) 情報処理装置
CN106294096B (zh) 一种信息处理方法及装置
CN114185869A (zh) 一种基于数据标准的数据模型稽核的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant