CN105608182A

CN105608182A - 面向不确定数据模型中的效用项集挖掘方法

Info

Publication number: CN105608182A
Application number: CN201510974903.4A
Authority: CN
Inventors: 兰雨晴; 王洋
Original assignee: Yilan Yunlian Technology Co Ltd
Current assignee: Yilan Yunlian Technology Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-05-25

Abstract

本发明涉及一种面向不确定数据模型中的效用项集挖掘方法，包括步骤：S1、验证项集的事务加权效用和期望支持度，将通过验证的项集作为候选集形成总候选集；以及S2、通过不确定数据模型验证总候选集中各项集的效用得到基于不确定性的高效用项集。其中，所述事务加权效用等于不确定数据模型中所有包含该项集的事务的事务效用之和，构成总候选集的项集包括通过步骤S1验证的k项集，其中，k＝1、2、3……n，n为不确定数据模型的项数最多的事务的项数，k大于1时，k项集是用总候选集中的k-1项集作为子集再通过步骤S1验证得到的。本发明通过在现有挖掘方法中加入优化方法，达到了节省资源的消耗，降低运行时间的技术效果。

Description

面向不确定数据模型中的效用项集挖掘方法

技术领域

本发明涉及一种数据挖掘技术，用于从大量的数据中，有效地提取出有用的信息，具体是涉及一种面向不确定数据模型中的效用项集挖掘方法，可以用于面向电商平台套装商品销售不确定数据模型中的效用项集的挖掘。

背景技术

数据挖掘技术的出现，使人们可以从大量的数据中，有效地提取出有用的信息。电商平台上广泛存在的套装销售模式(以洗护用品、化妆品为代表的多类商品)，使得不确定数据中的效用项集挖掘模型及方法逐渐受到关注。可以通过发现产品与产品间实际上的关联性，在盈利达到某一标准的前提下，制定正确的套装销售模式。同时必须注意到用户的反馈，这是用户是否对消费商品满意，或者说是某个消费数据是否有效的标准。

这一类不确定数据中的效用项集挖掘模型有三个关键点：

1.平台上套装类商品中实际包含的各种商品的数目可能并不相同；

2.平台上套装类商品中实际包含的各种商品所带来的利润各不相同；

3.平台上套装类商品的销售是将套装中的所有商品作为一件商品来销售的，用户评分、反馈意见、退换货的诉求同时针对了套装商品中的每一件商品。

基于以上三点，我们可以对该类不确定数据中的效用项集挖掘模型建模如下：

在效用项集挖掘中，一般用一条事务表示一条某件套装商品的消费记录，一个项代表一件单独的商品，一条事务中一个项包含的值表示此次消费中某套装商品中的某单独商品的数量，一条事务还有一个可能性值表示某件套装商品在此次消费中被用户认可的可能性，而且由于此次消费中的套装是1件商品，所以套装中任一单个商品被用户认可的可能性与套装商品的可能性一致，见表1；另外，每件单独商品都有各自的利润值，一般用项的单位效用来表示，见表2。

下面，我们用两张数据表带来一个不确定数据中的效用项集挖掘模型的实例：

表1不确定事务数据集

编号	A	B	C	D	E	可能性
							1	2	0	3	0	2	0.9
2	0	1	0	2	0	0.7
							3	1	2	1	0	3	0.85
4	0	0	2	0	0	0.5
							5	0	3	0	2	1	0.75
6	2	0	2	5	0	0.7
							7	1	1	0	4	1	0.45
8	0	4	0	0	1	0.36
							9	3	0	3	2	0	0.81
10	0	2	3	0	1	0.6

表2效用表

编号	A	B	C	D	E
						单位效用	4	1	12	6	15

事务数据集D＝{T₁,T₂,T₃,T₄,T₅,T₆,T₇,T₈,T₉,T₁₀}共有10个事务；事务数据集D中所有项的集合I＝{A,B,C,D,E}；事务T_i中项i出现的次数表示为q(i,T_j)，例如q(A,T₁)＝2；某项的单位效用用pr(i)表示，例如pr(A)＝4；项i在事务T_i中的效用用U(i,T_j)表示，例如U(A,T₁)＝q(A,T₁)×pr(A)＝8。事务T_j的可能性值用p(T_j)表示，事务T_j中的某一项i的可能性值用p(i,T_j)表示，p(i,T_j)＝p(T_j)。另外，会根据需要设定最小效用阈值参数ε和最小期望支持度阈值参数μ。

定义1.项集的事务效用：项集的事务效用等于项集中所有项的效用之和，例如，项集X＝{AC}，U(X,T₁)＝U({AC},T₁)＝U(A,T₁)+U(C,T₁)＝q(A,T₁)×pr(A)+q(C,T₁)×pr(C)＝8+36＝44。

定义2.项集效用：项集效用等于数据集中项集所有的事务效用之和，例如，项集X＝{AC}，U({AC})＝U({AC},T₁)+U({AC},T₃)+U({AC},T₆)+U({AC},T₉)＝140。

定义3.期望支持度：项集的期望支持度等于项集在所有事务中的可能性值之和，例如，X＝{AC}，expSup({AC})＝p({AC},T₁)+p({AC},T₃)+p({AC},T₆)+p({AC},T₉)＝p(T₁)+p(T₃)+p(T₆)+p(T₉)＝3.26。

定义4.事务效用：事务中包含各项的效用之和，例如，TU(T₁)＝U(A,T₁)+U(C,T₁)+U(E,T₁)＝q(A,T₁)×pr(A)+q(C,T₁)×pr(C)+q(E,T₁)×pr(E)＝8+36+30＝74。

定义5.数据集总效用：数据集中所有事务效用之和，DU＝TU(T₁)+TU(T₂)+TU(T₃)+TU(T₄)+TU(T₅)+TU(T₆)+TU(T₇)+TU(T₈)+TU(T₉)+TU(T₁₀)＝74+13+63+24+30+62+44+19+60+53＝442。

上文提到，最小效用阈值参数ε和最小期望支持度阈值参数μ，那么，最小效用阈值等于其参数与数据集总效用的乘积，即DU×ε；最小期望支持度阈值等于其参数与事务数的乘积，即|D|×μ。

定义6.基于不确定性的高效用项集：若某项集的效用大于或等于最小期望支持度阈值且其期望支持度大于或等于最小期望支持度阈值，那么这个项集就是一个基于不确定性的高效用项集。例如，设定最小效用阈值参数ε和最小期望支持度阈值参数μ分别为25％和15％，那么，在这个实例中，最小效用阈值DU×ε＝442×25％＝110.5，最小期望支持度阈值|D|×μ＝10×15％＝1.5。对于项集{AC}，U({AC})＝140>110.5且expSup({AC})＝3.26>1.5，所以项集{AC}是一个基于不确定性的高效用项集；而项集{A}中，U({A})＝36<110.5，所以项集{A}不是一个基于不确定性的高效用项集。

问题定义：不确定数据中的效用项集挖掘方法就是从不确定数据集中，挖掘出所有基于不确定性的高效用项集的过程。

常规的方法是：通过扫描数据中的数据信息，分别计算出数据集中存在的所有项集的效用和期望支持度。在表1和表2的例子中，实际出现的项集有{A}、{B}、{C}、{D}、{E}、{AB}、{AC}、{AD}、{AE}、{BC}、{BD}、{BE}、{CD}、{CE}、{DE}、{ABC}、{ABD}、{ABE}、{ACD}、{ACE}、{ADE}、{BCE}、{BDE}、{ABCE}、{ABDE}共25个(理论上可能出现2⁵-1共31个)。

但是当数据集中的项数增加时，比如有40项时，理论上会出现的项集有2⁴⁰-1个，约1.1×10¹²，虽然实际的项集数不会达到这个数目，但是，数目依然会非常庞大，分别查询验证每个项集会占用和消耗非常多的资源，运行时间也较长。

对此，为了提高效率，现有技术中具有多种方法，例如目前效率较高的“IHUP-FPG”混合法，即可以用FP-Growth(频繁模式增长)挖掘大于等于期望支持度阈值的项集，用IHUP(IncrementalHighUtilityPattern)方法可以挖掘高效用项集，然后两个结果集取交集，该种方法虽然能够以较高的效率得到目标结果集，但是其依然具有改进的空间。

发明内容

本发明目的在于提供一种面向不确定数据模型中的效用项集挖掘方法，可以节省资源的消耗，降低运行时间。

本发明的设计思路是：在现有技术的方法中加入一定的优化方法，来达到节省资源的消耗，降低运行时间的技术效果。

为了达到上述目的，本发明提供的主要技术方案包括：

一种面向不确定数据模型中的效用项集挖掘方法，其包括如下步骤：

S1、验证项集的事务加权效用和期望支持度，将通过验证的项集作为候选集形成总候选集；以及

S2、通过不确定数据模型验证总候选集中各项集的效用得到基于不确定性的高效用项集。

其中，所述事务加权效用等于不确定数据模型中所有包含该项集的事务的事务效用之和。

其中，构成总候选集的项集包括通过步骤S1验证的k项集，其中，k＝1、2、3……n，n为不确定数据模型的项数最多的事务的项数。

其中，k大于1时，k项集是用总候选集中的k-1项集作为子集再通过步骤S1验证得到的。

其中，步骤S1具体为：

S1.1：验证所有1项集的事务加权效用和期望支持度，将通过验证的项集加入总候选集；

S1.2：用总候选集中的1项集作为子集，生成2项候选集，验证所有2项候选集的事务加权效用和期望支持度，将通过验证的项集加入总候选集；

S1.3：用总候选集中的2项集作为子集，生成3项候选集，验证所有3项候选集的事务加权效用和期望支持度，将通过验证的项集加入总候选集；

……

S1.n：用总候选集中的n-1项集作为子集，生成n项候选集，验证所有n项候选集的事务加权效用和期望支持度，将通过验证的项集加入总候选集。

其中，步骤S1.1至S1.n中的每一步扫描一次不确定数据模型，直到无候选项集生成。

其中，只有生成的k项集的全部k‐1项子集都在总候选集中，才能生成k项集，其中，k大于1。

上述任一种面向不确定数据模型中的效用项集挖掘方法，其中，步骤S1中的验证是指将事务加权效用和期望支持度超过各自预设阈值的项集加入总候选集。

其中，步骤S2中的验证是指将效用不小于预设阈值的项集作为基于不确定性的高效用项集。

其中，还包括步骤：S3、将通过步骤S2得到的基于不确定性的高效用项集形成数据集。

本发明的有益效果是：本发明通过加入一定的优化方法，节省了资源的消耗，降低了运行时间。

附图说明

图1为本发明实施例1的整体挖掘过程示意图(其是以背景技术部分表1和表2所示的不确定事务数据集作为基础模型的)；

图2为本发明与现有技术的运行时间的结果比较；

图3为本发明与现有技术的内存消耗的结果比较。

具体实施方式

为了更好地解释本发明，以便于理解，下面通过对本发明的理论分析，以及结合附图通过具体实施例，对本发明作详细描述。

理论分析

衡量一个项集是否是基于不确定性的高效用项集一共有两个必要条件：效用和期望支持度分别达到各自的阈值。

据此，本发明的设计思路为：

优化策略1：

在数据集中，一个项集出现的次数，一定不会少于其任意一个超集出现的次数。

证明：若k+1项集X_k+1是k项集X_k的超集，当(X_k+1在T_j中出现)时，一定存在(X_k在T_j中出现)。

对于期望支持度而言，一个项集的期望支持度如果没有达到阈值，它的任何一个超集都不可能达到阈值。

证明：若k+1项集X_k+1是k项集X_k的超集

\exp S u p (X_{k}) = \exp S u p (X_{k + 1}) + Σ_{X_{k} &Element; T_{l} \cap X_{k + 1} &NotElement; T_{l}} p (T_{l}),

所以expSup(X_k)≥expSup(X_k+1)。

综上可得优化策略1：如果项集X的期望支持度expSup(X)小于期望支持度阈值，那么，项集X不是基于不确定性的高效用项集，X的任意超集也都不是基于不确定性的高效用项集。

优化策略2：

由于，对于项集的效用而言，若k+1项集X_k+1是k项集X_k的超集，U(X_k)≥U(X_k+1)并不成立。例如，实施例1中，U({B})＝13，而U({BE})＝117>110.5。

因此，本发明引入事务加权效用来实现对过程的优化。

项集的事务加权效用等于所有包含该项集的事务的事务效用之和。例如，实施例1中，TWU(E)＝TU(T₁)+TU(T₃)+TU(T₅)+TU(T₇)+TU(T₈)+TU(T₁₀)＝74+63+30+44+19+53＝283。

在数据集中，一个项集的事务加权效用，一定不会少于其任意一个超集的事务加权效用。

证明：若k+1项集X_k+1是k项集X_k的超集

T W U (X_{k}) = T W U (X_{k + 1}) + Σ_{X_{k} &Element; T_{l} \cap X_{k + 1} &NotElement; T_{l}} T U (T_{l}),

所以TWU(X_k)≥TWU(X_k+1)。

另外一点，一个项集的事务加权效用一定不小于其项集效用，即TWU(X)≥U(X)。

综上可得优化策略2：如果项集X的事务加权效用小于效用阈值，那么这个项集不是基于不确定性的高效用项集，X的所有的超集也都不可能是基于不确定性的高效用项集。

参见图1，本发明实施例1的整体挖掘过程，其中，U表示TWU，E表示expSup，实线圆里的项集的事务加权效用和期望支持度都达到阈值，是查找的结果集，单点划线圆表示的是因为事务加权效用或者期望支持度中的至少一种没有达到阈值，而没有进入结果集，同时它们的全部超集都不可能进入结果集，双点划线圆表示的节点表示数据集中出现但是通过剪枝优化策略可以不进行验证直接剔除的项集，虚线圆表示的节点表示理论上存在但数据集中实际没有出现的项集。

第一阶段

第一步：验证所有1项集的事务加权效用和期望支持度，将超过两个阈值的项集加入总候选集。如{A}，{B}，{C}，{D}，{E}均超过阈值，加入总候选集。

第二步：用总候选集中的1项集，生成2项候选集，验证所有2项候选集的事务加权效用和期望支持度，将超过两个阈值的项集加入总候选集。如{AB}、{AC}、{AD}、{AE}、{BC}、{BD}、{BE}、{CD}、{CE}、{DE}中，只有{AC}、{AD}、{AE}、{BE}、{CD}、{CE}超过两个阈值，加入总候选集。

第三步：用总候选集中的2项集，生成3项候选集(只有生成的3项集的全部2项子集都在总候选集中，才能生成)，验证所有3项候选集的事务加权效用和期望支持度，将超过两个阈值的项集加入总候选集。如只有{ACD}、{ACE}生成，成为3项候选集，验证后，两项均超过两个阈值，加入总候选集。

……

每一步扫描一次数据库(即不确定数据模型)，直到无候选项集生成。

第二阶段

再对数据库进行一次扫描，验证总候选集中各项集的效用，效用不小于阈值的项集就是基于不确定性的高效用项集。例如：

表3基于不确定性的高效用项集表

由表3可见，总候选集中，项集{A}、{B}、{D}、{AD}、{AE}、{CD}的效用没有超过最小效用阈值，所以{C}，{E}，{AC}，{BE}，{CE}，{ACD}，{ACE}是当最小效用阈值参数ε和最小期望支持度阈值参数μ分别为25％和15％时，数据集D中基于不确定性的高效用项集。

下面我们通过实验来检验本发明的挖掘方法相较现有技术方法的高效性。其中，我们用foodmart和accidents两个数据集(原始数据集为只有事务和项，需要生成次数、单位效用、可能性值)为例分别进行实验测试结果。本发明中提出的方法简称为UHUI(UncertainHighUtilityItemsetsMining)方法，与之对比的方法为现有方法“IHUP-FPG”。

实验结果参见图2和图3：图中MU代表最小效用阈值参数，ME代表最小期望支持度阈值参数。

通过实验结果可以看出，在运行时间以及内存消耗上，本发明的UHUI方法的效率是“IHUP+FPG”混合方法的两倍以上。其中阈值越低的时候，UHUI的优化效果越明显。

因为UHUI与“IHUP+FPG”混合方法是一个协同剪枝的过程，无论是效用还是期望支持度，只要有一个条件没有达到，就可以省去对其超集的扫描检验的过程。而且执行一次UHUI方法本身比分别执行IHUP方法和FPG方法一次要高效。

综上所述可知，本发明的方法中，由于加入了优化方法，节省了资源的消耗，降低了运行时间。

Claims

1.一种面向不确定数据模型中的效用项集挖掘方法，其特征在于，其包括如下步骤：

2.如权利要求1所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于：所述事务加权效用等于不确定数据模型中所有包含该项集的事务的事务效用之和。

3.如权利要求1所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于，构成总候选集的项集包括通过步骤S1验证的k项集，其中，k＝1、2、3……n，n为不确定数据模型的项数最多的事务的项数。

4.如权利要求3所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于：k大于1时，k项集是用总候选集中的k-1项集作为子集再通过步骤S1验证得到的。

5.如权利要求4所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于，步骤S1具体为：

……

6.如权利要求5所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于：

步骤S1.1至S1.n中的每一步扫描一次不确定数据模型，直到无候选项集生成。

7.如权利要求5所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于：只有生成的k项集的全部k‐1项子集都在总候选集中，才能生成k项集，其中，k大于1。

8.如权利要求1至7中任一项所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于：步骤S1中的验证是指将事务加权效用和期望支持度超过各自预设阈值的项集加入总候选集。

9.如权利要求8所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于：步骤S2中的验证是指将效用不小于预设阈值的项集作为基于不确定性的高效用项集。

10.如权利要求1所述的面向不确定数据模型中的效用项集挖掘方法，其特征在于，还包括步骤：S3、将通过步骤S2得到的基于不确定性的高效用项集形成数据集。