CN107515942A

CN107515942A - 非频繁序列中挖掘可决策负序列模式的购买行为分析方法

Info

Publication number: CN107515942A
Application number: CN201710768749.4A
Authority: CN
Inventors: 董祥军; 邱萍
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2017-12-26

Abstract

本发明公开了一种非频繁序列中挖掘可决策负序列模式的购买行为分析方法，属于数据挖掘的序列模式分析领域。本发明首先通过设置两级多最小支持度来挖掘非频繁和频繁正序列；其次，利用转化策略生成负候选序列集，并利用集合论的思想通过已知的频繁和非频繁正序列的相关信息计算负候选序列的支持度无需多次扫描数据库；然后，通过最小支持度（由用户指定）筛选得到最终的负序列模式；最后，利用SAP算法筛选可决策的负序列模式。挖掘得到序列模式能用来分析客户的购买行为，使得商家能够根据当前的商品买卖情况给顾客推荐最有可能购买的商品，从而节省了顾客的购物时间，也可以预测以后的商品买卖情况，从而能够更好的安排商品的摆放，提高商品销售量。

Description

非频繁序列中挖掘可决策负序列模式的购买行为分析方法

技术领域

本发明涉及数据挖掘的序列模式分析技术领域，特别涉及一种非频繁序列中挖掘可决策负序列模式的购买行为分析方法。

背景技术

随着互联网的普及，网络购物已经成为非常重要的购物方式。中国互联网络信息中心(CNNIC)2012年1月发布的《第29次中国互联网络发展状况统计报告》显示：截至2011年12月底，中国网民达到5.13亿，全年新增网民5580万；互联网普及率较上年底提升4个百分点，达到38.3％。中国手机网民规模达到3.56亿，同比增长17.5％，与前几年相比，中国的整体网民规模增长进入平台期。2016年1-11月，全国网络零售交易额为4.6万亿元，同比增长26.2％。

与传统的经营方式相比，网络购物非常的方便，我们随时随地都可以挑选需要够买的产品，大大节省了逛街的时间；产品种类丰富，我们现实中不好买到的产品在网上可以很容易的找到，选择的范围广，补充了传统商店某些产品的短缺；可以货比N家，我们花一整天的时间，最多也就逛十几家商场，而在网上，仅需一个小时的时间就可以搜索上百家店铺。网络购物给消费者带来的优势是不言而喻的，但是目前的电子商务商家通常不能直观的去了解消费者，获取的相关数据有限(比如用户的注册信息，购买记录等)。通过对大量的消费者购买记录进行分析和挖掘，发现消费者的频繁访问序列模式，针对不同的消费者属性和网上购物步骤，采用不同的商品推荐形式，适时的向消费者推荐恰当的商品，并优化电子商务网站商品的摆放位置，可以有效的增加消费者的交易机会，并缩短交易花费的时间，将网站浏览者转变为购买者，提高交叉销售能力，提高消费者的忠诚度，以及提高购物网站的服务质量和经济效益。

消费者在一段时间的购物记录是一个序列数据库，通过研究消费者购买商品的先后关系，找出其中的规律，即不仅需要确定商品与其它商品购买的先后顺序，而且需要确定哪些商品被购买(不被购买)后哪些商品很可能不会被购买(被购买)。传统的序列模式挖掘仅考虑了已经发生的事件(已经购买的商品)，也称为正序列模式(Positive SequentialPattern，PSP)挖掘。

与正序列模式挖掘相比，负序列模式(Negative Sequential Pattern，NSP)挖掘不仅考虑了已经发生的事件，还考虑了未发生事件，它不但能够更深入的挖掘序列数据库中容易被人们忽略但是又非常有价值的信息，而且能够在单纯的正序列模式挖掘可能会误导决策时辅助决策。例如：a代表面包，b代表茶，c代表瓜子，表示客户频繁购买商品的序列，该序列说明客户在购买了商品a，没有购买商品b的情况下，最有可能购买商品c，而不是其他商品。所以我们在摆放商品时，要将a和c摆放在一起然后是b，而不是<abc>的顺序。如今负序列模式的价值越来越被人们认可，在智能检测系统以及许多信息应用领域发挥着不可替代的作用，尤其是将客户的购买行为分析应用于商品推荐上，更是对商品成功交易了以及交易金额起到了巨大的推动作用。

电子商务平台中的网站用户购买订单数据为挖掘的数据源。以5个客户在2个月内的交易为例，如表1是由客户ID和交易时间为关键字所排序的事务数据库。一个事务数据库，一个事务代表一笔交易，一个单项代表交易的商品，单项属性中的字母记录的是商品ID。进行数据预处理，将表1的事务数据库整理成表2的序列数据库。

表1 事务数据库

表2 序列数据库

客户ID	客户购买序列
		1	<{c}{i}>
2	<{a,b}{c}{a,d,f,g}>
		3	<{c,e,g,h}>
4	<{c}{c,d,g,h}{i}>
		5	<{i}>

一个客户在某个时间段内所有的交易记录构成一个有序的序列，序列用<>表示。在序列中，项/项集是有顺序的，每个项都代表交易的一种商品，而元素则是指该客户在某一个具体的时间点一次性购买的所有商品，用{}或()表示，该客户可能在不同的时间段里购买同一件产品，即一个项可能在一个序列的不同元素中发生。如表2中ID为2的客户购买序列为{a,b} {c} {a,d,f,g}，该客户分别在第一次和第三次购物时购买了商品a，其中{a,b}，{c}，{a,d,f,g}这三个项目集可称为序列的元素，a,b,c,d,f,g则称为项，如果一个元素中只有一个项，则括号可以省略，如该序列中的元素{c}可直接写c。

然而，现存的有关负序列模式挖掘的研究成果非常少，如PNSP,NegGSP,e-NSP，E-msNSP，e-NSPFI和SAP等。但是这些算法大多数用的仅仅是单最小支持度，单最小支持度意味着所有的项在数据库中拥有相同的发生频率，即所有的产品都拥有相同的购买频率，可是在现实生活中这个假设显然是不能成立的，恰恰相反，一些产品购买得非常频繁，而有些产品购买的却非常稀疏。如家用电器和生活用品这两类产品，肯定是购买家用电器的频率不如生活用品多，如果我们用单一的最小支持度，家用电器很可能会全被筛选掉，但实际上家用电器也有很多品牌是很畅销，所以单最小支持度不符合实际应用。此外，这些算法大多都是局限于从频繁正序列中挖掘负序列模式，这种限制可能阻碍有用的信息被发现，因为负序列模式挖掘过程不符合向上包闭性，如同可以从非频繁项集中提取有效的负关联规则一样，一条非频繁正序列(Infrequent Positive Sequences,IPS)也可能生成一条频繁负序列模式。另外，这些算法并没有进一步从负序列模式中筛选可决策的负序列模式。因此，针对不同的问题，有人提出基于多持度挖掘正负序列模式的算法E-msNSP,基于频繁和非频繁序列挖掘负序列模式的算法e-NSPFI和筛选可决策负序列模式的SAP算法。但是SAP和E-msNSP算法仅考虑了频繁正序列中负序列模式，而没有考虑非频繁正序列中的负序列模式；e-NSPFI要求能生成负序列模式的非频繁序列的任意子序列必须是频繁的，这使得能挖掘负序列模式的非频繁序列非常的有限。目前没有找到任何有关于从非频繁序列中挖掘基于多支持度的可决策的负序列模式的方法的研究。

发明内容

为了弥补现有技术的不足，本发明提供了非频繁序列中挖掘基于多支持度的可决策的负序列模式在购买行为分析中的应用。

本发明的技术方案为：

一种非频繁序列中挖掘可决策负序列模式的购买行为分析方法，包括步骤：

1)定义基于多最小支持度的负序列的最小支持度；

MIS(i)表示项i的最小项支持度，其中i是正项或负项；

正元素，即，已购买商品，其最小支持度是元素中项i的最小支持度值；

负元素，即，未购买商品，采用相关的正元素的信息计算其最小支持度；对于负元素其中a，b代表某种商品，该负元素的最小支持度是：

元素集包含e₁,e₂...e_r的基于多最小支持度的负序列S的最小支持度为该序列包含所有元素的最小支持度中的最小值，其中，S的最小支持度minsup(S)＝min[MIS(e₁),MIS(e₂),...,MIS(e_r)]；

对于一个购买序列S和它的最小支持度minsup(S)，如果S只包含正元素，s(S)≥minsup(S)，那么S被称为正序列模式；如果S包含负元素，s(S)≥minsup(S)，那么S被称为负序列模式；

2)定义两级多最小支持度

包含的所有项为{x₁,x₂,…,x_n}的序列数据库，MIS(x)表示项x的最小项支持度；设定两个最小支持度，一个是最小支持度下限，记作lms＝{MIS(x₁),MIS(x₂),...,MIS(x_n)}；另一个是最小支持度上限，记作ums＝{MIS(x₁’),MIS(x₂’),...,MIS(x_n’)}；

a)、如果s是一个正序列且s的支持度sup(s)≥ums(s)，则s是频繁正序列；

b)、如果s是一个正序列且lms(s)≤sup(s)≤ums(s)，则s是非频繁正序列；

c)、如果s是一个负序列且sup(s)≥ums(s)，则s是频繁正序列；

3)利用msNSPFI算法对客户的购物行为进行分析，具体步骤包括：

A、用基于两级多最小支持度的GSP算法来挖掘得到所有的频繁正序列和非频繁正序列，即在某一段时间内，客户购买量相对较大的商品；

B、基于步骤A挖掘得到的频繁和非频繁正序列，生成相应的负候选序列NSC，所述负候选序列NSC用于判断在某一段时间内，哪些商品客户购买的多，哪些商品客户没有购买以及客户在购买或未购买哪些商品之后可能必然不会购买或购买哪种商品；

C、利用负候选序列NSC对应的正序列的相关信息来计算负侯选序列NSC的支持度；

D、从步骤B生成的负侯选序列NSC中筛选出符合多最小支持度要求的负序列模式，即：从步骤B生成的负侯选序列NSC中挖掘出大于用户设定的多最小支持度上限的负序列模式；

E、利用SAP方法筛选步骤D中挖掘的负序列模式，生成可决策的负序列模式；利用这些筛选后的可决策的负序列模式对客户的购买行为进行分析；商家根据分析结果具有针对性的给客户推荐商品，根据客户购买习惯安排商品的摆放位置和数量。

作为优选方案，所述步骤B基于步骤A挖掘得到的频繁和非频繁正序列，生成相应的负候选序列NSC的具体步骤为：对于大小为k的正序列，其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的：m＝1,2,…,其中为大于k/2的最小整数。

例如：基于<(ab)cd>的负侯选序列，其中a、b、c、d是指某种产品，包括：m＝1,m＝2,

作为优选方案，步骤C具体包括：

①定义一个负侯选序列

MPS(ns)：负序列ns的最大正子序列，即包含负序列中所有的正元素；

1-negMS_ns：负序列ns的子序列，并且该子序列是由MPS(ns)以及ns包含的一个负元素组成；

1-negMSS_ns：包含负序列ns的所有1-negMS_ns子序列的集合；

p(1-negMS):序列1-negMS中的正元素不变，将负元素转换为相应的正元素；如：

②对于一个大小为m并且含有n个负元素的序列ns，对于 (1≤i≤n),其中，为只含有一个负元素的序列，1-negMSS_ns为含有一个负元素的序列的集合；在序列数据库D中ns的支持度sup(ns)是：

对于负序列

进一步地，对于只包含一个负元素的序列ns，该序列ns的支持度是：

sup(ns)＝sup(MPS(ns))-sup(p(ns)) (3)。

该情况为公式(1)的一种特殊情况，即，当只有一个序列时，按照公式(3)计算，当然，按照公式(1)也可以，只是此时，集合即为序列本身。

作为优选方案，所述步骤E具体步骤包括：

(h)计算相关系数，相关系数计算如公式(4)所示；

其中，sup()≠0,1，ρ(X,Y)有以下三种情况：

(Ⅰ)如果ρ(X,Y)>0，那么X和Y是正相关，事件X发生的可能性越大，事件Y发生的可能性也越大；

(Ⅱ)如果ρ(X,Y)＝0，那么X和Y是相互独立的，事件X发生的可能性与事件Y发生的可能性无关；

(Ⅲ)如果ρ(X,Y)<0，那么X和Y是负相关，事件X发生的可能性越大，事件Y发生的可能性越小；

相关系数ρ(X,Y)值得范围是-1和1之间，正相关性是在ρ(X,Y)绝对值之间，它代表X和Y之间的相关性强度；设定相关系数的阈值ρ_min来删减内部元素间相关性强度小的正负序列模式；

(i)定义可决策负序列模式

对于一个频繁负序列nsp＝<e₁e₂...e_k>，如果对于任意i∈{2...k}，公式(5)成立，则nsp是可决策的负序列模式；

ansp(e_i-1,e_i)＝sup(<e_i-1e_i>)≥ums∧(f(e_i-1,e_i,ums,ρ_min)＝1), (5)，

其中，

本发明的实现算法msNSPFI的算法伪代码如下：

输入：D：客户购买序列数据库；lms：多最小支持度下限；ums多最小支持度上限ρ_min：最小相关系数；

输出：actionable NSP：用于分析客户购买行为的可决策的负序列模式的集合；

msNSPFI的算法伪代码中，

(1)是用基于两级多最小支持度的GSP算法来挖掘得到所有的频繁正序列和非频繁正序列；

(2)是所有的正序列以及它的支持度和sid的集合都被存储到哈希表SPHash；

(4)是对于每一个正序列，通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列NSC；

(5)至(12)，通过公式(1)-(3)计算出NSC中的每一个nsc的支持度；

(13)至(14)，将NSC的支持度与多最小支持度上限(ums)对比生成负序列模式NSP；

(16)至(25)，通过SAP方法筛选可决策的负序列模式；

返回结果，如(26)，利用这些可决策的负序列模式来分析客户的购买行为。

本发明的有益效果为：

本发明应用在进行客户购买行为分析过程中，可以根据客户一段时间的购买记录，更准确的决策客户下一步的购买行为。

本发明提出了从非频繁正序列中挖掘基于多支持度的可决策的负序列模式，就像非频繁项集中存在着很多有意义的负关联规则一样，非频繁正序列中蕴含的负序列模式的价值也是不可忽视的。所以本发明使用两级多支持度得到非频繁正序列。

此外，多支持度允许用户根据挖掘数据各属性的实际发生概率为数据库中的每个项都定义一个支持度，即为每一款商品设置它自己的最小支持度，不同的项集根据所包含的数据项情况需要满足不同的最小支持度。所以本发明通过多支持度挖掘出某一段时间内，每一类产品中用户购买量比较大的商品。

本发明利用SAP方法筛选出可决策的负序列模式。这样利用本发明用户可以根据顾客的购买行为安排商品的摆放位置，并且在顾客购买商品时，可以向其推荐一些其他客户购买频率比较大的连带购买的产品，从而增加顾客的交易机会，将网站浏览者转变为购买者，提高交叉销售能力，提高客户的忠诚度，从而提高网站的经济效益。

具体实施方式

实施例1

1)定义基于多最小支持度的负序列的最小支持度；

MIS(i)表示项i的最小项支持度，其中i是正项或负项；

例如，假设负序列它的最小支持度可表示为 MIS(c),MIS(d)],其中

2)定义两级多最小支持度

c)、如果s是一个负序列且sup(s)≥ums(s)，则s是频繁正序列；

其中，所述步骤B基于步骤A挖掘得到的频繁和非频繁正序列，生成相应的负候选序列NSC的具体步骤为：对于大小为k的正序列，其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的：其中为大于k/2的最小整数。

为了基于步骤A得到的正序列生成无冗余的负侯选序列，使用一种高效的方法来生成负侯选序列，其基本思想是改变正序列模式中任意不相邻元素为负元素。

步骤C具体包括：

①定义一个负侯选序列

1-negMSS_ns：包含负序列ns的所有1-negMS_ns子序列的集合；

对于负序列

假设，序列<ac>的支持度是10，支持序列<abc>的sid(包含序列<abc>的客户ID)的集合是{10,20,30},支持序列<acd>的sid的集合是{20,30,40},则

对于负元素只有一个的序列ns，该序列ns的支持度是：

sup(ns)＝sup(MPS(ns))-sup(p(ns)) (3)。

作为优选方案，所述步骤E具体步骤包括：

(h)计算相关系数，相关系数计算如公式(4)所示；

其中，sup()≠0,1，ρ(X,Y)有以下三种情况：

(i)定义可决策负序列模式

ansp(e_i-1,e_i)＝sup(<e_i-1e_i>)≥ums∧(f(e_i-1,e_i,ums,ρ_min)＝1), (5)，

其中，

本发明的实现算法msNSPFI的算法伪代码如下：

msNSPFI的算法伪代码中，

(5)至(12)，通过公式(1)-(3)计算出NSC中的每一个nsc的支持度；

(16)至(25)，通过SAP方法筛选可决策的负序列模式；

Claims

1.一种非频繁序列中挖掘可决策负序列模式的购买行为分析方法，其特征在于，包括步骤：

1)定义基于多最小支持度的负序列的最小支持度；

MIS(i)表示项i的最小项支持度，其中i是正项或负项；

2)定义两级多最小支持度

c)、如果s是一个负序列且sup(s)≥ums(s)，则s是频繁正序列；

2.如权利要求1所述非频繁序列中挖掘可决策负序列模式的购买行为分析方法，其特征在于，所述步骤B基于步骤A挖掘得到的频繁和非频繁正序列，生成相应的负候选序列NSC的具体步骤为：对于大小为k的正序列，其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的：m＝1,2,…,其中为大于k/2的最小整数。

3.如权利要求1所述非频繁序列中挖掘可决策负序列模式的购买行为分析方法，其特征在于，步骤C具体包括：

①定义一个负侯选序列

1-negMSS_ns：包含负序列ns的所有1-negMS_ns子序列的集合；

<mrow> <mi>sup</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <mo>{</mo> <mi>M</mi> <mi>P</mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>s</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msubsup> <mo>&cup;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mo>{</mo> <mi>p</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>negMS</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>|</mo> </mrow>

<mrow> <mo>=</mo> <mi>sup</mi> <mrow> <mo>(</mo> <mi>M</mi> <mi>P</mi> <mi>S</mi> <mo>(</mo> <mrow> <mi>n</mi> <mi>s</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>|</mo> <msubsup> <mo>&cup;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mo>{</mo> <mi>p</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>negMS</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>|</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

对于负序列

4.如权利要求3所述非频繁序列中挖掘可决策负序列模式的购买行为分析方法，其特征在于：对于只包含一个负元素的序列ns，该序列ns的支持度是：

sup(ns)＝sup(MPS(ns))-sup(p(ns)) (3)。

5.如权利要求1所述非频繁序列中挖掘可决策负序列模式的购买行为分析方法，其特征在于，所述步骤E具体步骤包括：

(h)计算相关系数，相关系数计算如公式(4)所示；

其中，sup()≠0,1，ρ(X,Y)有以下三种情况：

(i)定义可决策负序列模式

ansp(e_i-1,e_i)＝sup(<e_i-1e_i>)≥ums∧(f(e_i-1,e_i,ums,ρ_min)＝1), (5)，

其中，