CN106445975B - 项集挖掘方法及装置 - Google Patents

项集挖掘方法及装置 Download PDF

Info

Publication number
CN106445975B
CN106445975B CN201510493081.8A CN201510493081A CN106445975B CN 106445975 B CN106445975 B CN 106445975B CN 201510493081 A CN201510493081 A CN 201510493081A CN 106445975 B CN106445975 B CN 106445975B
Authority
CN
China
Prior art keywords
item
item set
utility
candidate
twu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510493081.8A
Other languages
English (en)
Other versions
CN106445975A (zh
Inventor
林浚玮
甘文生
王巨宏
管刚
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Tencent Technology Shenzhen Co Ltd
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Shenzhen Graduate School Harbin Institute of Technology filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201510493081.8A priority Critical patent/CN106445975B/zh
Publication of CN106445975A publication Critical patent/CN106445975A/zh
Application granted granted Critical
Publication of CN106445975B publication Critical patent/CN106445975B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种项集挖掘方法及装置,属于数据挖掘领域。所述方法包括:获取自定义的多重最低效用阈值MMU表;MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;计算数据库D中项集的项集效用值;根据MMU表,计算数据库D中各个项集各自对应的项集最低效用阈值MIU;项集中包含至少一个数据项;当项集效用值≥MIU时,将该项集确定为高效用项集HUI。本发明解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题,达到了根据不同项集制定不同的HUI衡量标准,从而提高挖掘出的HUI准确性的效果。

Description

项集挖掘方法及装置
技术领域
本发明实施例涉及数据挖掘领域,特别涉及一种项集挖掘方法及装置。
背景技术
数据库中通常包括有至少一个事务(英文:Transaction),每个事务中包括至少一个数据项(英文:item),比如,一条关于购物记录的事务中,包括商品名称和购买数量等数据项。
为了发现不同数据项之间的关联规则,需要进行目标数据项集的挖掘。项集(英文:Itemsets)是由至少一个数据项构成的集合,用于表征数据库中内在的一种关联规则。HUIM(High-Utility Itemsets Mining,高效用项集挖掘)作为一种常见的数据挖掘方式,用于从数据库中挖掘出由不同数据项组成的效用值较高的项集。在现有的基于HUIM的算法中,根据不同数据项各自对应的效用值,计算数据库中各个项集对应的效用值,当该项集对应的效用值大于或等于预设的最低效用阈值时,确定该项集为HUI(High-UtilityItemsets,高效用项集)并进行挖掘,从而实现从数据库中挖掘出HUI。
在实现本发明实施例的过程中,发明人发现上述技术至少存在以下问题:在现有的基于HUIM的算法中,都是将项集的效用值是否大于唯一的最低效用阈值作为衡量标准,而在实际情况中,不同的数据项对应的最低效用阈值不同,致使不同项集对应的最低效用阈值也不同,导致使用现有的基于HUIM的算法挖掘出的HUI不准确。比如,数据库中的数据项为不同的商品,其中,面包对应的最低效用阈值为5元,而电风扇对应的最低效用阈值则为50元,两者对应的最低效用阈值不同,若根据唯一的最低效用阈值(例如40元)进行挖掘,会导致挖掘出的HUI不准确。
发明内容
为了解决上述技术的问题,本发明实施例提供了一种项集挖掘方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种项集挖掘方法,该方法包括:
获取自定义的MMU(Multiple Minimum Utility threshold,多重最低效用阈值)表;该MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;
计算数据库D中各个项集的项集效用值;
根据该MMU表,计算数据库D中各个项集各自对应的MIU(Minimum ItemsetsUtility,项集最低效用阈值);该项集中包含至少一个数据项;
当项集效用值≥MIU时,将该项集确定为HUI。
根据本发明实施例的第二方面,提供一种项集挖掘装置,该装置包括:
获取模块,用于获取自定义的MMU表;该MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;
第一计算模块,用于计算数据库D中各个项集的项集效用值;
第二计算模块,用于根据MMU表,计算数据库D中各个项集各自对应的MIU;项集中包含至少一个数据项;
确定模块,用于当项集效用值≥MIU时,将该项集确定为HUI。
本发明实施例提供的技术方案带来的有益效果是:
通过引入MMU表,根据该MMU表确定各个项集各自对应的MIU,并将项集的项集效用值与对应的MIU进行比较,从而确定该项集是否为HUI;解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题;达到了根据不同项集制定不同的HUI衡量标准,从而提高挖掘出的HUI准确性的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本发明一个实施例提供的项集挖掘方法的方法流程图;
图1B是本发明一个实施例提供的项集挖掘方法所涉及的项集最低效用阈值确定过程的方法流程图;
图1C是本发明一个实施例提供的项集挖掘方法所涉及的项集效用值计算过程的方法流程图;
图2A是本发明另一实施例提供的项集挖掘方法的方法流程图;
图2B是本发明另一实施例提供的项集挖掘方法所涉及的候选项集生成过程的方法流程图;
图2C是图2B提供的项集挖掘方法中生成候选项集的实施示意图;
图3是本发明一个实施例提供的项集挖掘装置的结构方框图;
图4是本发明另一实施例提供的项集挖掘装置的结构方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于对本发明实施例进行说明,预先对本发明实施例涉及的基本概念进行如下介绍:
1、事务:指数据库中的一条记录。比如,当数据库中记录的是超市商品的购买记录,则数据库中的每一个事务对应商品的购买记录,该购买记录中包含购买商品的数量和名称等信息。
2、事务的编号(英文:TID):数据库中不同事务的编号。
3、数据项:事务中记录的每条信息项目,且一个事务中包含至少一个数据项。比如,当数据库中的事务对应顾客的购买记录时,事务中的数据项则可以是购买记录中,购买商品的数量和名称等信息。如表一所示,数据库中包含10个事务,每个事务指示一条购物记录,每个事务中包含购买商品的名称和数量。
表一
TID 事务
T<sub>1</sub> A:3、C:2、D:3
T<sub>2</sub> A:2、D:1、E:2
T<sub>3</sub> B:3、C:5
T<sub>4</sub> A:1、C:3、E:1、F:2
T<sub>5</sub> B:1、D:3、E:2
T<sub>6</sub> B:2、D:2
T<sub>7</sub> B:3、C:2、E:1、F:1
T<sub>8</sub> A:2、F:2
T<sub>9</sub> C:3、D:2、F:1
T<sub>10</sub> A:2、C:2、D:1
上述表一中,即包含A、B、C、D、E和F6个数据项。其中,TID为T1的事务的实际意义可以为:一条指示购买3件A商品、2件C商品和3件D商品的购物记录;TID为T7的事务的实际意义可以为:一条指示购买3件B商品、2件C商品、1件E商品和1件F商品的购物记录。
4、项集:至少一个数据项构成的集合,用于表征数据库内在的一种关联规则。事务与项集的不同的点是,事务通常是由实际的事件所触发生成的数据库中的记录;而项集通常是从数据库挖掘而出的,并不一定有实际的含义。
5、k-项集:包含有k个数据项的集合。比如,1-项集可以为A,即只包含数据项A;2-项集可以为AB,即包含数据项A和数据项B。
6、效用值:数据库中各个数据项对应的效用或利益,表示为效用值。比如,以数据库为包含超市商品的购买记录的数据库为例,效用值可以表示为卖出不同商品所带来的利润。
7、效用表(英文:Profit Table):记录数据库中不同数据项及其效用值对应关系的表。比如,结合上述表一所示的数据库,该数据库中各个数据项对应效用值,即数据库中数据项的效用表可以如表二所示。
表二
数据项 A B C D E F
效用值 4 16 3 1 9 7
其中,表二中效用值的实际意义可以为卖出一件商品可以获得的利润,比如,卖出一件商品A可以获得利润4元;卖出一件商品B可以获得利润16元。
8、项集效用值:指定项集在数据库中的效用值。比如,结合上述表一和表二,1-项集A在数据库中的项集效用值u(A)=(3+2+1+2+2)×4=40;2-项集AB在数据库中的项集效用值u(AC)=(3×4+2×3)+(1×4+3×3)+(2×4+2×3)=45。
9、MMU表:用户自定义的用于指示数据库中各个数据项各自对应的MU(MinimumUtility threshold,最低效用阈值),结合上述表一中的6个数据项,该MMU表可以示意性如表三所示。
表三
数据项 A B C D E F
MU 40 55 33 44 64 37
当数据项在数据库中的效用值(即1-项集的项集效用值)≥数据项对应的MU时,该数据项即为高效用数据项。比如,结合上述表一、表二和表三,数据项A在数据库中的效用值为(3+2+1+2+2)×4=40=MU(A),即数据项A为高效用数据项;数据项D在数据库中的效用值为(3+1+3+2+2+1)×1=12<MU(D),即数据项D不是高效用数据项。
需要说明的是,与现有的HUIM算法不同的是,现有的HUIM算法中,不同数据项对应的MU相同,而本发明中,不同数据项对应的MU可能相同也可能不同,用户可以根据数据挖掘的实际需要自行设置。
10、MIU:即项集最低效用阈值。由于现有的HUIM算法中,不同的数据项对应的MU相同,不论项集中包含的数据项是否相同,不同项集对应的MIU均相同;而本发明中,由于不同数据项对应的MU可能不同,导致不同项集对应的MIU也可能相同。本发明实施例中,将项集中各个数据项各自对应的最低效用阈值中最小的最低效用阈值确定为该项集的MIU,从而保证挖掘出的项集准确、完整。比如,项集AB的MIU(AB)=MU(A)=40;项集BC的MIU(BC)=MU(C)=33。
11、LMU(Least Minimum Utility value,最小最低效用阈值):即MMU表中最小的最低效用阈值。比如,结合上述表一、表二和表三,LMU即为MU(C)=33。
12、HUI:即高效用项集,当项集的项集效用值≥该项集对应的MIU时,该项集即为HUI。比如,项集A的项集效用值=40=MIU(A),项集A即为HUI;项集AE的效用值=39<40=MU(A)=MIU(AB),项集AB即不是HUI。
13、TWU(Transaction-Weighted Utility,事务加权效用):指包含指定项集的事务的效用值之和。比如,结合表一和表二,当指定项集为AE时,包含项集AE的事务的编号为T2和T4,事务T2和事务T4对应的效用值之和为(2×4+1×1+2×9)+(1×4+3×3+1×9+2×7)=63。
14、HTWUI(High Transaction-Weighted Utilization Itemset,高事务加权效用项集):当项集的TWU≥该项集对应的MIU时,该项集即为HTWUI。比如,项集AE的事务加权效用TWU(AE)=63>40=MU(A)=MIU(AE),项集AE即为HTWUI。
为了方便描述,下述各个实施例将结合上述表一、表二和表三中示出的数据进行示例性说明,并不对本发明构成限定。
请参考图1A,其示出了本发明一个实施例提供的项集挖掘方法的方法流程图。该方法包括:
步骤101,获取自定义的MMU表;MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系。
该MMU表可以示意性如表一所示,且数据库D中不同数据项对应的最低效用阈值可以不同也可以相同。
步骤102,计算数据库D中各个项集的项集效用值。
在计算项集在数据库D中的项集效用值时,首先需要根据数据库中包含的数据项,确定数据库中包含的项集,再根据数据项对应的效用值计算各个项集各自的项集效用值。
比如,如表二所示,该数据库D中包含6个数据项,分别为A、B、C、D、E和F,使用这6个数据项进行排列组合可以到6个1-项集,15个2-项集,20个3-项集,15个4-项集,6个5-项集和1个6-项集。根据组合得到的项集,分别计算这些项集在数据库D中的项集效用值。
步骤103,根据MMU表,计算数据库D中各个项集各自对应的项集最低效用阈值MIU;项集中包含至少一个数据项。
根据MMU表可知,不同的数据项对应不同的最低效用阈值,致使包含不同数据项的项集对应的MIU可能不同。
在计算项集对应的MIU时,首先需要确定该项集中包含的数据项,然后查询用户自定义的MMU表,确定数据项各自对应的最低效用阈值,并根据查询到的最低效用阈值进一步确定该项集对应的MIU。
作为一种可能的实施方式,如图1B所示,上述步骤103可以包括步骤103A和步骤103B。
步骤103A,根据MMU表,获取项集包含的各个数据项各自对应的最低效用阈值。
比如,当项集为ACD时,根据MMU表,获取到数据项A对应的最低效用阈值为40,数据项C对应的最低效用阈值为33,数据项D对应的最低效用阈值为44。
步骤103B,将最低效用阈值中最小的最低效用阈值确定为项集对应的MIU。
为了保证数据库中的高效用项集均能够被挖掘出,这里将项集中数据项对应的最低效用阈值中最小的最低效用阈值确定为该项集的MIU,即项集的MIU为:
MIU(X)=min{mu(ij)|ij∈X,1≤j≤k}
其中,k为项集X中数据项的个数。
比如,当项集为ACD时,通过查找MMU表,确定数据项A、C、D中,数据项C对应的最低效用阈值最小,即将数据项C对应的最低效用阈值33确定为项集ACD的MIU。
需要说明的是,上述步骤102和步骤103没有严格的先后关系,即步骤103可以在步骤102之前执行,也可以与步骤102同时执行,本实施例仅以步骤102在步骤103之前执行为例进行说明,并不对本发明构成限定。
步骤104,当项集效用值≥MIU时,将该项集确定为HUI。
确定了项集在数据库D中的项集效用值,以及项集对应的MIU后,即对项集效用值和MIU进行比较。根据HUI的定义,HUI可以被描述为:
HUI←{X|u(X)≥MIU(X)}
显而易见的,相较于现有的HUIM算法中,根据唯一的最低效用阈值在数据库中挖掘高效用项集,本发明实施例提供的项集挖掘方法中,用户可以为不同的数据项设置相同或不同的最低效用阈值,并进一步根据不同项集各自对应的最低效用阈值进行高效用项集的挖掘,挖掘出的高效用项集更加完整且准确。
综上所述,本实施例提供的项集挖掘方法,通过引入MMU表,根据该MMU表确定各个项集各自对应的MIU,并将项集的项集效用值与对应的MIU进行比较,从而确定该项集是否为HUI;解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题;达到了根据不同项集制定不同的HUI衡量标准,从而提高挖掘出的HUI准确性的效果。
在一种可能的实现方式中,如图1C所示,上述步骤102还可以包括如下步骤。
步骤102A,扫描数据库D,将数据库D中TWU≥LMU的1-项集添加到第1候选项集,1-项集中包含1个数据项;TWU表示包含指定项集的事务的效用值之和,LMU是MMU表中最小的最低效用阈值。
步骤102B,当第k候选项集不为空时,根据第k候选项集生成第(k+1)候选项集,k≥1,且k为整数。
步骤102C,当第k候选项集为空时,再次扫描数据库D,并计算各个候选项集中每个项集的项集效用值,k≥1,且k为整数。
对应的,上述步骤104中,即检测各个候选项集中每个项集的项集效用值是否大于各自对应的MIU,从而确定该项集是否为HUI。
由于计算数据库中所有项集的项集效用值,需要耗费大量的计算资源,且需要耗费大量时间,造成数据挖掘效率较低。为了减少数据挖掘过程中消耗的计算资源,从而提高挖掘的速度,本发明提出了一种优化的HUIM-MMU算法,下面采用一个实施例进行说明。
请参考图2A,其示出了本发明另一实施例提供的项集挖掘方法的方法流程图,该方法包括:
步骤201,获取自定义的MMU表;MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系。
现有的HUIM算法中,数据库中不同数据项对应的最低效用阈值相同,即在进行数据挖掘时,是根据用户自定义的单一最低效用阈值进行挖掘的。以数据库中的事务为商品的购买记录为例,为了从数据库中挖掘出利润较大的商品或商品组合,用户自定义了一个最低效用阈值,比如,该最低效用阈值为50元。当指定项集(即指定商品或指定商品组合)在数据库中的项集效用值大于等于50元时,即确定该指定项集为高效用项集。
但是在实际情况中,由于不同商品单件利润的不同,衡量商品是否高利润的标准也不同。比如,商品A成本较低,售价也较低,卖出单件商品A的利润为0.5元,当商品A在数据库中的效用值达到5元时,即可认为商品A是高利润的;而商品B成本较高,售价也较高,卖出单件商品B的利润为20元,当商品B在数据库中的效用值达到60元时,才认为商品B是高利润的。若仅根据单一的最低效用阈值(50元)进行挖掘的话,商品A可能会被忽略,但实际上商品A确实是高效用的。
为了避免使用单一最低效用阈值进行数据挖掘,导致的部分高效用项集无法被挖掘的问题,根据本发明实施例提供的项集挖掘方法进行数据挖掘时,首先需要获取自定义的MMU表,该MMU表中包括数据库中各个数据项各自对应的最低效用阈值。该MMU表可以如表三所示。该MMU表可以被描述为:
MMU-table={mu(i1),mu(i2),...,mu(im)}
其中,mu(im)表示数据库中数据项im的最低效用阈值,m≤数据库中数据项的个数。
步骤202,根据MMU表,获取项集包含的各个数据项各自对应的最低效用阈值。
比如,当项集为ACD时,根据MMU表,获取到数据项A对应的最低效用阈值为40,数据项C对应的最低效用阈值为33,数据项D对应的最低效用阈值为44。
步骤203,将最低效用阈值中最小的最低效用阈值确定为该项集对应的MIU。
为了保证数据库中的高效用项集均能够被挖掘出,这里将项集中数据项对应的最低效用阈值中最小的最低效用阈值确定为该项集的MIU,即项集的MIU为:
MIU(X)=min{mu(ij)|ij∈X,1≤j≤k}
其中,k为项集X中数据项的个数。
比如,当项集为ACD时,通过查找MMU表,确定数据项A、C、D中,数据项C对应的最低效用阈值最小,即将数据项C对应的最低效用阈值33确定为项集ACD的MIU。
步骤204,扫描数据库D,将数据库D中TWU≥LMU的1-项集添加到第1候选项集,1-项集中包含1个数据项;TWU表示包含指定项集的事务的效用值之和,LMU是MMU表中最小的最低效用阈值。
由于数据库D中每个事务中包含数据项对应的数量不同,所以定义数据项在事务中的效用值为u(ij,Tq),其中,
u(ij,Tq)=q(ij,Tq)×pr(ij)
ij表示数据项,Tq表示包含数据项ij的事务,q(ij,Tq)即表示数据项ij在事务Tq中的数量,pr(ij)表示数据项ij对应的效用值。
比如,从表一中可以得到,数据项A在事务T1中的数量q(A,T1)=3,从表二中可以得到,数据项A的效用值pr(A)=4,数据项A在事务T1中的效用值u(A,T1)=3×4=12。
能够思及的是,当项集X中包含多个数据项时,该项集X在事务中的效用值可以表示为u(X,Tq),其中,
Figure BDA0000779753030000101
比如,项集AC中包含数据项A和数据项C,项集AC在事务T1中的效用值即为数据项A在事务T1中的效用值与数据项C在事务T1中的效用值之和,即u(AC,T1)=u(A,T1)+u(C,T1)=12+6=18。
进一步的,数据项X在数据库D中的项集效用值即为数据项X在数据库D各个事务中的效用值之和,表示为:
Figure BDA0000779753030000102
比如,结合表一和表二,数据库D中的事务T1、T4和T10中均包含项集AC,项集AC在数据库D中的项集效用值即为:
u(AC)=u(AC,T1)+u(AC,T4)+u(AC,T10)=18+13+14=45。
若逐一计算数据库D中所有项集的项集效用值,需要花费大量的计算资源和时间,导致挖掘效率较低。为了提高挖掘的效率,在这里引入项集的事务加权效用TWU这一概念。
项集X在数据库D中的事务加权效用指数据库D中,包含项集X的事务的效用值之和,其中,事务的效用值表示为:
Figure BDA0000779753030000103
比如,事务T1的效用值tu(T1)=u(A,T1)+u(C,T1)+u(D,T1)=12+6+3=21,事务T7的效用值tu(T7)=u(B,T7)+u(C,T7)+u(E,T7)+u(F,T7)=48+6+9+7=70。
项集X在数据库D中的事务加权效用TWU(X)则可以表示为:
Figure BDA0000779753030000111
比如,包含项集ACD的事务为T1和T10,项集ACD的事务加权效用即为TWU(ACD)=tu(T1)+tu(T10)=21+15=36。
显而易见的,根据上述对项集效用值和事务加权效用的定义,可以得到如下定理1:TWU(X)≥u(X),即当项集X的事务加权效用小于项集X的MIU时,项集X的项集效用值也小于项集X的MIU,进一步的,当项集X的事务加权效用小于项集X的MIU时,该项集X不是HUI。
根据上述定理1,在确定项集是否为HUI时,可以先计算项集的事务加权效用,当事务加权效用<该项集的MIU时,确定该项集不是HUI,并进行过滤,当事务加权效用≥该项集的MIU时,将该项集确定为候选项集,并进一步根据项集效用值确定该候选项集是否为HUI。
由于项集的MIU为项集中包含的各个数据项对应的最低效用阈值中最小的,即数据库D中的任一项集(包括数据项)对应的MIU均不小于MMU表中最小的最低效用阈值(即MIU(X)≥LMU)。
结合TWU(X)≥u(X)和MIU(X)≥LMU可以得到,当项集的TWU(X)<LMU时,该项集的任一超集的TWU均小于LMU,即该项集及其超集均不是HUI,所以,在初次扫描数据库D,并计算得到数据库D中各个1-项集的TWU后,需要将TWU与LMU进行比较,当TWU<LMU时,直接将该1-项集及其超集进行过滤;当TWU≥LMU时,将该1-项集添加到第1候选项集中。
结合表一和表二,初次扫描数据库D后,计算得到数据库中TWU(A)=121,TWU(B)=204,TWU(C)=223,TWU(D)=152,TWU(E)=170,TWU(F)=146,均大于LMU,所以,将数据项A、B、C、D、E和F均添加到第1候选项集中。
在生成第1候选项集后,进一步根据第1候选项集生成第2候选项集,根据第2候选项集生成第3候选项集,并持续进行。当第k候选项集不为空时,根据第k候选项集生成第(k+1)候选项集,并执行步骤205;当第k候选项集为空时,即根据第k候选项集无法生成第(k+1)候选项集时,执行步骤206。
步骤205,当第k候选项集不为空时,根据第k候选项集生成第(k+1)候选项集,k≥1,且k为整数。
在根据第k候选项集生成第(k+1)候选项集时,可以根据SDC(Sorted DownwardClosure,排序向下封闭)特性,对没有前途的项集及其超集进行过滤,从而减少生成的候选项集的数量,进一步减少计算量,从而提高挖掘的效率。
作为一种可能的实现方式,如图2B所示,本步骤可以包括如下步骤。
步骤205A,当k=1时,将第1候选项集中的1-项集按照最低效用阈值的大小进行升序排序;根据排序后的1-项集,自连接生成2-项集;计算2-项集的TWU,并将TWU≥MIU的2-项集添加到第2候选项集。
现有的HUIM算法中,存在一种TWDC(Transaction-Weighted Downward Closure,事务加权向下封闭)特性,该特性指出,如果项集X不是HTWUI,那么项集X的超集均不是HTWUI。若将TWDC特性运用到HUIM-MMU中,将会发生挖掘错误,导致数据挖掘不完整。
比如,结合表一、表二和表三中的数据,在数据库D中,项集AEF的TWU为TWU(AEF)=36,而项集AEF的MIU为MIU(AEF)=40,显然,TWU(AEF)<MIU(AEF),即项集AEF不是HTWUI。根据TWDC特性,项集AEF的超集均不是HTWUI。实际上,项集AEF的超集ACEF的TWU为TWU(ACEF)=36,而项集ACEF的MIU为MIU(ACEF)=33,显然,TWU(ACEF)>MIU(ACEF),即项集ACEF是HTWUI。可见,TWDC并不适用于HUIM-MMU。
产生这种挖掘错误的原因在于,在HUIM-MMU中,项集X与其超集对应的MIU可能不同。为了弥补这一缺陷,本发明提出了一种SDC特性,将SDC特性运用到HUIM-MMU中,不仅能够提高挖掘效率,而且能够保证挖掘的准确性。
SDC特性指出,当项集中的数据项按照最低效用阈值的大小进行升序排序时,有k-项集Xk={i1,i2,...,ik},(k-1)-项集Xk-1={i1,i2,...,ik-1},其中,Xk-1是Xk的子集,当Xk是HTWUI时,Xk-1也是HTWUI。
SDC特性的证明如下:
由于Xk-1是Xk的子集,所以存在如下关系:
根据MIU的定义,有MIU(Xk-1)=min{mu(i1),mu(i2),...,mu(ik-1)},MIU(Xk)=min{mu(i1),mu(i2),...,mu(ik)},由于{i1,i2,...,ik}和{i1,i2,...,ik-1}是按照最低效用阈值的升序进行排序的,所以有MIU(Xk)=MIU(Xk-1)=mu(i1)。
由于
Figure BDA0000779753030000121
因此,如果Xk是HTWUI(即TWU(Xk)≥mu(i1)),那么Xk的任一子集Xk-1均是HTWUI,SDC特性得证。
基于上述SDC特性,还可以得到如下推论1:如果项集Xk是HTWUI,那么它的任一子集Xk-1也是HTWUI;如果项集Xk不是HTWUI,那么它的任一超集均不是HTWUI。
根据上述SDC特性和推论1,在生成第1候选项集后,按照最低效用阈值的大小进行升序排序,得到排序后的1-项集。比如,根据表一得到第一候选项集中包括数据项A、B、C、D、E和F,按照各个数据项的大小进行升序排序后得到排序后的1-项集为C<F<A<D<B<E。
根据排序后的1-项集,自连接生成2-项集,显然,该2-项集中的数据项按照低效用阈值的大小进行升序排序。其中,根据1-项集自连接生成2-项集的过程,即指定数据项与排在该指定数据项右边的数据项进行组合。比如,排序后的1-项集为C<F<A<D<B<E,自连接生成的2-项集则为CF、CA、CD、CB、CE、FA、FD、FB、FE、AD、AB、AE、DB、DE和BE。
计算自连接生成的各个2-项集的TWU,并检测2-项集的TWU是否大于MIU,当2-项集的TWU≥MIU时,将该2-项集添加到第2候选项集,当2-项集的TWU<MIU时,确定该2-项集及其超集均不是HTWUI,并对该2-项集进行过滤。
比如,通过计算得到,生成的2-项集中,TWU(AB)=0<40=MIU(AB),TWU(FD)=18<37=MIU(FD),所以,2-项集AB和FD及其超集(ABE、ADB、ADBE、FAD、FDB、FDE、FADB、FADE、FDBE)均不是HTWUI,并对AB和FD进行过滤;相应的,将TWU≥MIU的2-项集添加到第2候选项集。需要说明的是,本文中项集的超集均是指该项集与其排序后右边的各个项集自连接组合后生成的项集,如CAB,CABE,CFAB,CFABE等严格意义上来说也是AB的超集,但不同于本文中的超集,所以不能过滤掉。
步骤205B,当k≥2时,根据第k候选项集中的k-项集自连接生成(k+1)-项集,(k+1)-项集是k-项集的超集,(k+1)-项集是包含(k+1)个数据项的项集;计算(k+1)-项集的TWU,并将TWU≥MIU的(k+1)-项集添加到第(k+1)候选项集。
当k≥2时,即根据第2候选项集生成后续的候选项集时,由于经过上述步骤205A,项集中的数据项均按照升序进行排序,即项集均符合SDC特性,所以不再需要对项集中数据项进行排序,而是直接根据第k候选项集中的k-项集自连接生成(k+1)-项集。需要说明的是,根据k-项集自连接生成(k+1)-项集时,需要对进行自连接的2个k-项集进行去重操作,比如,根据2-项集CF和CA生成3-项集时,需要对数据项C进行去重,即生成的3-项集为CFA。
与上述步骤205A相似的,在生成(k+1)-项集后,还需要对(k+1)-项集中,TWU<MIU的(k+1)-项集进行过滤,从而缩小后续的挖掘范围;相应的,还需要将TWU≥MIU的(k+1)-项集添加到第(k+1)候选项集中,方便后续的挖掘。
为了方便理解,下面采用树状图,并结合表一至表三示出的数据,对生成候选项集的过程进行说明。
如图2C所示,根据生成的第1候选项集自连接生成的2-项集中,包括2-项集FA、FD、FB、FE,计算得到TWU(FA)>MIU(FA),TWU(FB)>MIU(FB)、TWU(FE)>MIU(FE),TWU(FD)<MIU(FD),即2-项集FA、FB和FE是HTWUI,FD不是HTWUI,根据SDC特性,将2-项集FA、FB和FE添加到第2候选项集,并将FD过滤,由于FD被过滤,在后续根据第2候选项集生成3-项集时,不会生成FD的超集FAD、FDB和FDE。
由于第2候选项集不为空,所以在生成第2候选项集后,根据第2候选项集中的2-项集(FA、FB和FE)自连接生成3-项集(FAB、FAE和FBE),计算得到TWU(FAB)<MIU(FAB),TWU(FAE)<MIU(FAE),TWU(FBE)>MIU(FBE),即3-项集FAB和FAE不是HTWUI,FBE是HTWUI,根据SDC特性,将3-项集FBE添加到第3候选项集,并将FAB和FAE过滤。此时,根据第3候选项集中的3-项集已无法生成4-项集,至此,停止生成候选项集。
步骤206,当第k候选项集为空时,再次扫描数据库D,并计算各个候选项集中每个项集的项集效用值,k≥1,且k为整数。
当第k候选项集为空,即无法根据k-项集生成(k+1)-项集时,即停止生成候选项集的步骤。由于候选项集中的项集为HTWUI,而HTWUI不一定为HUI,所以还需要再次扫描数据库,计算各个候选项集中的每个项集的项集效用值,并检测该项集效用值是否大于对应的MIU,从而确定该项集是否为HUI。
显而易见的,若直接计算数据库中各个项集的项集效用值,以F开头的项集为例(即项集中最小的数据项为F),需要计算F、FA、FD、FB、FE、FAD、FAB、FAE、FDB、FDE、FBE、FADB、FADE、FABE、FDBE和FADBE的项集效用值,而经过本发明提供的项集挖掘方法进行过滤后,仅需要计算F、FA、FB、FE和FBE的项集效用值,能够显著减少计算量,用于海量数据挖掘时,能够极大得提高挖掘的效率。
步骤207,当项集效用值≥MIU时,将该项集确定为HUI。
根据HUI的定义,当候选项集中项集的项集效用值≥MIU,即将该项集确定为HUI,从而实现数据库中高效用项集的挖掘。
结合上述表一至表三中的数据,从数据库D中挖掘出的高效用项集如表四所示。
表四
项集 MIU 项集效用值
A 40 40
B 55 144
C 33 51
F 37 42
AC 33 45
AF 37 40
BC 33 117
BD 44 53
BE 55 91
BF 37 55
CE 33 33
CF 33 52
EF 37 39
ACD 33 36
BCE 33 63
BCF 33 61
BEF 37 64
CEF 33 54
ACEF 33 36
BCEF 33 70
综上所述,本实施例提供的项集挖掘方法,通过引入MMU表,根据该MMU表确定各个项集各自对应的MIU,并将项集的项集效用值与对应的MIU进行比较,从而确定该项集是否为HUI;解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题;达到了根据不同项集制定不同的HUI衡量标准,从而提高挖掘出的HUI准确性的效果。
本实施例中,通过生成多级候选项集,在检测数据库中的项集是否为HUI时,仅需要检测候选项集中的项集即可,相较于计算数据库中所有项集的项集效用值,能够显著减少计算量,从而提高挖掘速度。
本实施例中,将项集中的数据项按照最低效用阈值的大小进行升序排序,并根据排序后的项集的SDC特性,对没有前途的项集及其超集进行过滤,从而缩小挖掘的范围,进一步减小了挖掘时的计算量,提高挖掘速度。
通过上述方法计算项集的TWU时,需要多次扫描数据库,而每次扫描数据库时需要花费较长时间,影响挖掘的效率,为了进一步加快挖掘的速度,作为一种可能的实现方式,在执行上述步骤204中生成第1-候选项集的同时,还将生成TID索引表,该TID索引表中包括数据项与数据项所在事务的TID的对应关系,结合上述表一中的数据,该TID索引表可以示意性如表五所示。
表五
数据项 TID
A T<sub>1</sub>,T<sub>2</sub>,T<sub>4</sub>,T<sub>8</sub>,T<sub>10</sub>
B T<sub>3</sub>,T<sub>5</sub>,T<sub>6</sub>,T<sub>7</sub>
C T<sub>1</sub>,T<sub>3</sub>,T<sub>4</sub>,T<sub>7</sub>,T<sub>9</sub>,T<sub>10</sub>
D T<sub>1</sub>,T<sub>2</sub>,T<sub>5</sub>,T<sub>6</sub>,T<sub>9</sub>,T<sub>10</sub>
E T<sub>2</sub>,T<sub>4</sub>,T<sub>5</sub>,T<sub>7</sub>
F T<sub>4</sub>,T<sub>7</sub>,T<sub>8</sub>,T<sub>9</sub>
在生成该TID索引表的同时,还将获取各个事务的效用值:tu(T1)=21,tu(T2)=27,tu(T3)=63,tu(T4)=36,tu(T5)=37,tu(T6)=34,tu(T7)=70,tu(T8)=22,tu(T9)=18,tu(T10)=15。
在上述步骤205B中,计算(k+1)-项集的TWU时,只需要根据TID索引表,获取(k+1)-项集中各个数据项对应的TID,将各个数据项对应的TID的交集确定为该(k+1)-项集所在事务的TID,并将TID所指示事务的效用值之和确定为该(k+1)-项集的TWU。
比如,计算项集FBE的TWU时,根据该TID索引表,获取FBE中数据项F对应的TID为T4,T7,T8,T9,数据项B对应的TID为T3,T5,T6,T7,数据项E对应的TID为T2,T4,T5,T7,三个数据项的交集TID为T7,则将T7所指示事务的效用值确定为FBE的TWU,即FBE的TWU为70。
通过构建上述TID索引表,在计算项集的TWU时,只需要进行简单的求交和求和操作,不再需要重复扫描数据库,进一步节约了计算资源,提高了挖掘效率。
本实施例提供的项集挖掘方法,可以通过HUIM-MMU算法实现,该算法的伪代码可以如下所示。
Input:D,ptable,MMU-table={mu(i1),mu(i2),...,mu(im)}.
Output:The set of complete HUIs.
Figure BDA0000779753030000171
Figure BDA0000779753030000181
HUI-MMU算法中首先读取用户自定义的MMU-table,从而确定最小最低效用值LMU(第1行)。然后,扫描数据库D,并计算数据库D中所有1-项集的事务加权效用TWU(第2行)。如果1-项集的TWU≥LMU,则将该1-项集添加到第1候选项集HTWUI1(第3至5行)。生成HTWUI1后,对HTWUI1中的1-项集按照最低效用阈值的大小进行升序排序(第6行)。当HTWUIk-1不为空时,根据HTWUIk-1中的(k-1)-项集自连接生成k-项集,并扫描数据库D,检测k-项集的TWU是否大于等于MIU,当k-项集的TWU大于等于MIU时,将该k-项集添加到第k候选项集HTWUIk(第8至14行);当k-项集的TWU小于MIU时,将该k-项集过滤。重复执行上述步骤,直至不再生成候选项集。再次扫描数据库,计算候选项集中每个项集的项集效用值,当项集效用值大于等于MIU时,确定该项集为HUI并进行挖掘(第15至20行)。
请参考图3,其示出了本发明一个实施例提供的项集挖掘装置的结构方框图,该项集挖掘装置,包括:
获取模块310,用于获取自定义的MMU表;MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;
第一计算模块320,用于计算数据库D中各个项集的项集效用值;
第二计算模块330,用于根据MMU表,计算数据库D中各个项集各自对应的项集MIU;项集中包含至少一个数据项;
确定模块340,用于当项集效用值≥MIU时,将该项集确定为HUI。
综上所述,本实施例提供的项集挖掘装置,通过引入MMU表,根据该MMU表确定各个项集各自对应的MIU,并将项集的项集效用值与对应的MIU进行比较,从而确定该项集是否为HUI;解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题;达到了根据不同项集制定不同的HUI衡量标准,从而提高挖掘出的HUI准确性的效果。
请参考图4,其示出了本发明另一实施例提供的项集挖掘装置的结构方框图,该项集挖掘装置,包括:
获取模块410,用于获取自定义的MMU表;MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;
第一计算模块420,用于计算数据库D中各个项集的项集效用值;
第二计算模块430,用于根据MMU表,计算数据库D中各个项集各自对应的项集MIU;项集中包含至少一个数据项;
确定模块440,用于当项集效用值≥MIU时,将该项集确定为HUI。
可选地,第二计算模块430,包括:
获取单元431,用于根据所述MMU表,获取所述项集包含的各个所述数据项各自对应的所述最低效用阈值;
确定单元432,用于将所述最低效用阈值中最小的所述最低效用阈值确定为所述项集对应的所述MIU。
可选地,第一计算模块420,包括:
添加单元421,用于扫描所述数据库D,将所述数据库D中事务加权效用TWU≥最小最低效用阈值LMU的1-项集添加到第1候选项集,所述1-项集中包含1个所述数据项;所述TWU表示包含指定项集的事务的效用值之和,所述LMU是所述MMU表中最小的所述最低效用阈值;
生成单元422,用于当第k候选项集不为空时,根据所述第k候选项集生成第(k+1)候选项集,k≥1,且k为整数;
计算单元423,用于当所述第k候选项集为空时,再次扫描所述数据库D,并计算各个候选项集中每个项集的所述项集效用值。
可选地,生成单元422,包括:
第一生成子单元422A,用于当k=1时,将所述第1候选项集中的所述1-项集按照所述最低效用阈值的大小进行升序排序;根据排序后的所述1-项集,自连接生成2-项集;计算所述2-项集的所述TWU,并将所述TWU≥所述MIU的所述2-项集添加到第2候选项集;
第二生成子单元422B,用于当k≥2时,根据所述第k候选项集中的k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含(k+1)个所述数据项的项集;计算所述(k+1)-项集的所述TWU,并将所述TWU≥所述MIU的所述(k+1)-项集添加到第(k+1)候选项集。
可选地,该装置,还包括:
过滤模块450,用于当所述k-项集的所述TWU<所述MIU时,确定所述k-项集及其超集均不是所述HUI,并对所述k-项集进行过滤。
可选地,该装置,还包括:
生成模块460,用于在生成所述第1-候选项集时,生成事务编号TID索引表,所述TID索引表中包括所述数据项与所述数据项所在事务的TID的对应关系;
第二生成子单元422B,还用于:
根据所述TID索引表,获取所述(k+1)-项集中各个所述数据项对应的所述TID;
将各个所述数据项对应的所述TID的交集确定为所述(k+1)-项集所在事务的所述TID,并将所述TID所指示事务的效用值之和确定为所述(k+1)-项集的所述TWU。
综上所述,本实施例提供的项集挖掘装置,通过引入MMU表,根据该MMU表确定各个项集各自对应的MIU,并将项集的项集效用值与对应的MIU进行比较,从而确定该项集是否为HUI;解决了现有的基于HUIM的算法中,都是将项集的项集效用值是否大于唯一的最低效用阈值作为衡量标准,导致挖掘出的HUI不准确的问题;达到了根据不同项集制定不同的HUI衡量标准,从而提高挖掘出的HUI准确性的效果。
本实施例中,通过生成多级候选项集,在检测数据库中的项集是否为HUI时,仅需要检测候选项集中的项集即可,相较于计算数据库中所有项集的项集效用值,能够显著减少计算量,从而提高挖掘速度。
本实施例中,将项集中的数据项按照最低效用阈值的大小进行升序排序,并根据排序后的项集的SDC特性,对没有前途的项集及其超集进行过滤,从而缩小挖掘的范围,进一步减小了挖掘时的计算量,提高挖掘速度。
本实施例中,通过构建TID索引表,在计算项集的TWU时,只需要进行简单的求交和求和操作,不再需要重复扫描数据库,进一步节约了计算资源,提高了挖掘效率。
需要说明的是:上述实施例提供的项集挖掘装置在进行项集挖掘时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的项集挖掘装置与项集挖掘方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种项集挖掘方法,其特征在于,所述方法包括:
获取自定义的多重最低效用阈值MMU表;所述MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;
扫描所述数据库D,将所述数据库D中事务加权效用TWU≥最小最低效用阈值LMU的1-项集添加到第1候选项集,所述1-项集中包含1个所述数据项;所述TWU表示包含指定项集的事务的效用值之和,所述LMU是所述MMU表中最小的所述最低效用阈值;
当第k候选项集不为空时,根据所述第k候选项集生成第(k+1)候选项集,k≥1,且k为整数;
当所述第k候选项集为空时,再次扫描所述数据库D,并计算各个候选项集中每个项集的所述项集效用值;
根据所述MMU表,计算所述数据库D中各个项集各自对应的项集最低效用阈值MIU;所述项集中包含至少一个所述数据项;
当所述项集效用值≥所述MIU时,将所述项集确定为高效用项集HUI。
2.根据权利要求1所述的方法,其特征在于,所述根据所述MMU表,根据所述MMU表,计算所述数据库D中各个项集各自对应的项集最低效用阈值MIU,包括:
根据所述MMU表,获取所述项集包含的各个所述数据项各自对应的所述最低效用阈值;
将所述最低效用阈值中最小的所述最低效用阈值确定为所述项集对应的所述MIU。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第k候选项集生成第(k+1)候选项集,包括:
当k=1时,将所述第1候选项集中的所述1-项集按照所述最低效用阈值的大小进行升序排序;根据排序后的所述1-项集,自连接生成2-项集;计算所述2-项集的所述TWU,并将所述TWU≥所述MIU的所述2-项集添加到第2候选项集;
当k≥2时,根据所述第k候选项集中的k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含(k+1)个所述数据项的项集;计算所述(k+1)-项集的所述TWU,并将所述TWU≥所述MIU的所述(k+1)-项集添加到第(k+1)候选项集。
4.根据权利要求3所述的方法,其特征在于,所述方法,还包括:
当所述k-项集的所述TWU<所述MIU时,确定所述k-项集及其超集均不是所述HUI,并对所述k-项集进行过滤。
5.根据权利要求3所述的方法,其特征在于,所述方法,还包括:
在生成所述第1-候选项集时,生成事务编号TID索引表,所述TID索引表中包括所述数据项与所述数据项所在事务的TID的对应关系;
所述计算所述(k+1)-项集的所述TWU,包括:
根据所述TID索引表,获取所述(k+1)-项集中各个所述数据项对应的所述TID;
将各个所述数据项对应的所述TID的交集确定为所述(k+1)-项集所在事务的所述TID,并将所述TID所指示事务的效用值之和确定为所述(k+1)-项集的所述TWU。
6.一种项集挖掘装置,其特征在于,所述装置包括获取模块、第一计算模块、第二计算模块和确定模块,所述第一计算模块包括添加单元、生成单元和计算单元:
所述获取模块,用于获取自定义的多重最低效用阈值MMU表;所述MMU表中包括数据库D中各个数据项与最低效用阈值的对应关系;
所述添加单元,用于扫描所述数据库D,将所述数据库D中事务加权效用TWU≥最小最低效用阈值LMU的1-项集添加到第1候选项集,所述1-项集中包含1个所述数据项;所述TWU表示包含指定项集的事务的效用值之和,所述LMU是所述MMU表中最小的所述最低效用阈值;
所述生成单元,用于当第k候选项集不为空时,根据所述第k候选项集生成第(k+1)候选项集,k≥1,且k为整数;
所述计算单元,用于当所述第k候选项集为空时,再次扫描所述数据库D,并计算各个候选项集中每个项集的所述项集效用值;
所述第二计算模块,用于根据所述MMU表,计算所述数据库D中各个项集各自对应的项集最低效用阈值MIU;所述项集中包含至少一个所述数据项;
所述确定模块,用于当所述项集效用值≥所述MIU时,将所述项集确定为高效用项集HUI。
7.根据权利要求6所述的装置,其特征在于,所述第二计算模块,包括:
获取单元,用于根据所述MMU表,获取所述项集包含的各个所述数据项各自对应的所述最低效用阈值;
确定单元,用于将所述最低效用阈值中最小的所述最低效用阈值确定为所述项集对应的所述MIU。
8.根据权利要求6所述的装置,其特征在于,所述生成单元,包括:
第一生成子单元,用于当k=1时,将所述第1候选项集中的所述1-项集按照所述最低效用阈值的大小进行升序排序;根据排序后的所述1-项集,自连接生成2-项集;计算所述2-项集的所述TWU,并将所述TWU≥所述MIU的所述2-项集添加到第2候选项集;
第二生成子单元,用于当k≥2时,根据所述第k候选项集中的k-项集自连接生成(k+1)-项集,所述(k+1)-项集是所述k-项集的超集,所述(k+1)-项集是包含(k+1)个所述数据项的项集;计算所述(k+1)-项集的所述TWU,并将所述TWU≥所述MIU的所述(k+1)-项集添加到第(k+1)候选项集。
9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:
过滤模块,用于当所述k-项集的所述TWU<所述MIU时,确定所述k-项集及其超集均不是所述HUI,并对所述k-项集进行过滤。
10.根据权利要求8所述的装置,其特征在于,所述装置,还包括:
生成模块,用于在生成所述第1-候选项集时,生成事务编号TID索引表,所述TID索引表中包括所述数据项与所述数据项所在事务的TID的对应关系;
所述第二生成子单元,还用于:
根据所述TID索引表,获取所述(k+1)-项集中各个所述数据项对应的所述TID;
将各个所述数据项对应的所述TID的交集确定为所述(k+1)-项集所在事务的所述TID,并将所述TID所指示事务的效用值之和确定为所述(k+1)-项集的所述TWU。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序由硬件执行以实现如权利要求1至5任一所述的项集挖掘方法。
CN201510493081.8A 2015-08-12 2015-08-12 项集挖掘方法及装置 Active CN106445975B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510493081.8A CN106445975B (zh) 2015-08-12 2015-08-12 项集挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510493081.8A CN106445975B (zh) 2015-08-12 2015-08-12 项集挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN106445975A CN106445975A (zh) 2017-02-22
CN106445975B true CN106445975B (zh) 2020-04-21

Family

ID=58092574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510493081.8A Active CN106445975B (zh) 2015-08-12 2015-08-12 项集挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN106445975B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733705B (zh) * 2017-04-20 2023-04-04 哈尔滨工业大学深圳研究生院 一种高效用序列模式挖掘方法及装置
CN110955702B (zh) * 2019-11-28 2024-03-29 江南大学 一种基于改进遗传算法的模式数据挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700005A (zh) * 2013-12-17 2014-04-02 南京信息工程大学 一种基于自适应多最小支持度的关联规则推荐方法
CN104239430A (zh) * 2014-08-27 2014-12-24 广西教育学院 基于项权值变化的教育数据关联规则挖掘方法及其系统
CN104809185A (zh) * 2015-04-20 2015-07-29 西北工业大学 面向不确定数据的闭项集挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9563669B2 (en) * 2012-06-12 2017-02-07 International Business Machines Corporation Closed itemset mining using difference update

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700005A (zh) * 2013-12-17 2014-04-02 南京信息工程大学 一种基于自适应多最小支持度的关联规则推荐方法
CN104239430A (zh) * 2014-08-27 2014-12-24 广西教育学院 基于项权值变化的教育数据关联规则挖掘方法及其系统
CN104809185A (zh) * 2015-04-20 2015-07-29 西北工业大学 面向不确定数据的闭项集挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"多最小支持度下的关联规则研究";王瑄;《中国优秀硕士学位论文全文数据库 信息科技辑》;20020215(第2009年第02期);I138-398 *

Also Published As

Publication number Publication date
CN106445975A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
US10540375B2 (en) Systems and methods for self-pairing databases
CN110297853B (zh) 频繁集挖掘方法和装置
CN107770783B (zh) 一种基站扩容改造方案设计方法及相关设备
WO2010054349A2 (en) Method and system for clustering data points
CN104850567A (zh) 一种识别网络用户之间关联关系的方法和装置
CN105335785B (zh) 一种基于向量运算的关联规则挖掘方法
CN106445975B (zh) 项集挖掘方法及装置
CN114118816B (zh) 一种风险评估方法、装置、设备及计算机存储介质
CN108932658A (zh) 数据处理方法、装置和计算机可读存储介质
CN106294494B (zh) 项集挖掘方法及装置
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN109947797A (zh) 一种数据检查装置及方法
WO2019168677A1 (en) Multi-dimensional organization of data for efficient analysis
CN113592529B (zh) 债券产品的潜在客户推荐方法和装置
CN111723122A (zh) 数据间关联规则的确定方法、装置、设备及可读存储介质
CN106033449B (zh) 项集挖掘方法及装置
CN111164633B (zh) 一种评分卡模型的调整方法、装置、服务器及存储介质
CN111984657A (zh) 数据归集方法、装置、存储介质及计算机设备
CN111797282A (zh) 产品标签权重确定方法、装置、电子设备及可读存储介质
CN111177188A (zh) 一种基于聚合边与时序聚合边的快速海量时序数据处理方法
Sridhar et al. Feature based Community Detection by extracting Facebook profile details
CN115438036B (zh) 电网统一指标库数据冗余处理系统及方法
CN107870936A (zh) 数据项相关的高效用项集挖掘方法、装置及数据处理设备
CN111768130B (zh) 用户分配方法、装置、电子设备及可读存储介质
CN110765127B (zh) 事实数据的评分方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Lin Junwei

Inventor after: Gan Wensheng

Inventor after: Wang Juhong

Inventor after: Guan Gang

Inventor after: Chen Wei

Inventor before: Lin Junwei

Inventor before: Wang Juhong

Inventor before: Guan Gang

Inventor before: Chen Wei

Inventor before: Gan Wensheng

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant