CN104574153A

CN104574153A - 快速的负序列挖掘模式在客户购买行为分析中的应用

Info

Publication number: CN104574153A
Application number: CN201510026575.5A
Authority: CN
Inventors: 董祥军; 宫永顺
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2015-04-29

Abstract

本发明提供一种快速的负序列挖掘模式在客户购买行为分析中的应用。本发明提出一个名为f-NSP的快速算法来高效的挖掘负序列模式，所述算法的主要思想是首先通过正序列模式挖掘算法得到正序列模式，然后对每一个频繁正序列都使用高效的位图存储结构来保存包含其的数据序列；之后使用与e-NSP同样的生成负候选序列方法来生成负候选；最后，依托公式对数据位图进行与、或、异或操作快速的计算负候选支持度，挖掘出满足最小支持度的负序列模式，而无需再次扫描数据库。利用这些筛选后的序列模式来分析客户的购买行为，使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况，从而能够更好的安排商品的摆放，提高商品销售量。

Description

快速的负序列挖掘模式在客户购买行为分析中的应用

技术领域

本发明涉及快速的负序列挖掘模式在客户购买行为分析中的应用，属于负序列模式的应用技术领域。

背景技术

随着互联网高潮来临，使得网络购物的用户规模不断上升。对消费者来说，网络购物已经成为一种全新的购物体验，并逐步成为生活中不可或缺的一部分。互联网提供了一个新的交互的购物渠道，消费者获得巨大的优势：丰富的商品信息，克服地理与时间的障碍，获得有价格竞争力的商品，产品的个性化、定制化，更多的商品选择，更大的购物便利等。近年来，网络购物呈爆发式增长，每年都以几何数级增长，与此同时很多大型的电子商务网站，如Amazon、阿里巴巴旗下的淘宝和天猫商城、京东等都积累了大量的客户交易数据。如何充分利用这些数据对客户购买行为进行有效的分析、组织利用,如何了解到客户尽可能多的爱好和价值取向,以优化网站设计,为客户提供个性化服务,成为电子商务发展迫切要解决的问题。

与传统的经营方式相比，网络购物的产品信息量大，数量、种类丰富，选择范围广。在传统购物环境下，消费者获取商品信息的来源主要靠生活积累,搜集过程较长,得到的信息比较片面。在网络购物环境下,消费者就可以集中时间搜集、查找大量的有关商品的信息。网上商品种类丰富，有些商品消费者想要购买而传统商铺不容易找到，就可以通过网络商店方便的查询购买，补充了传统商店某些产品的短缺。但是目前的电子商务商家通常不能直观的去了解客户，获取的相关的数据有限(比如用户的注册信息，购买记录等)。通过对大量的客户购买记录进行分析和挖掘，发现客户的频繁访问序列模式，针对不同的客户属性和网上购物步骤，采用不同的商品推荐形式，适时的向客户推荐恰当的商品，并优化电子商务网站商品的摆放位置，可以有效的增加客户的交易机会，将网站浏览者转变为购买者，提高交叉销售能力，提高客户的忠诚度，以及提高购物网站的服务质量和经济效益。

序列模式分析所要解决的问题是客户在完成一次交易之后，在以后的特定时间内，还会购买什么商品，是发现交易之间关系规律的过程，使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况，从而能够更好的安排商品的摆放。它的主要目的是研究商品购买的先后关系，找出其中的规律，即不仅需要知道商品是否被购买，而且需要确定该商品与其它商品购买的先后顺序，例如,在线购买DVD的一个典型的顺序是购买“星球大战”，之后很有可能继续购买“帝国反击战”，再是购买“杰达武士归来”。因此序列模式能够发现数据库中某一段时间内的一个频繁序列，即在这个时间段内哪些商品会被客户购买的比较多，多或少的标准是由最小支持度来决定的。每个序列是按照交易的时间排列的一组集合，可以设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序列模式分析客户购买行为，解决个性化商品推荐问题时，他们仅考虑了已发生的事件，也称为正序列模式(Positive Sequential Pattern，PSP)挖掘。

与传统的正序列模式(Positive Sequential Pattern，PSP)不同，负序列模式(Negative Sequential Pattern，NSP)挖掘不仅考虑了已经发生的事件，还关注于未发生事件，它能够更深入地分析和理解数据中的潜在含义，从而挖掘出容易被人们忽略但是非常有价值的信息。例如：a代表面包，b代表咖啡，c代表茶，d代表糖，表示一个客户购买序列模式，该模式说明在某一段时间内，该客户在购买了商品a、b后，在没有购买商品c的情况下，购买了商品d。如今负序列模式的价值越来越被人们认可，在深入理解和处理许多商业应用方面，如对客户购买行为分析方面，它更有一种不可替代的作用。

目前，关于负序列模式挖掘算法的研究成果较少，如，NSPM，PNSP,Neg-GSP,e-NSP等等。但是目前大多数的负序列挖掘算法的效率都很低，有很多困难摆在挖掘负模式面前，因为负模式不符合Apriori规则，因此不能用传统的剪枝方法减少负候选序列的生成，所以大部分算法的负候选序列非常庞大，如PNSP和Neg-GSP。并且在计算负候选序列的支持度时往往需要重复扫描数据库，这就带来了极大的时空消耗，使得挖掘出负序列模式更为困难，因此我们就需要一个高效快速的负序列挖掘算法来解决目前的问题。目前e-NSP是较为高效的负序列挖掘算法，但是我们发现e-NSP中很大一部分的时间是消耗在了计算客户ID的并集上面，为了更快提高挖掘负序列的效率，我们提出了一种更快的负模式算法，名为f-NSP。将f-NSP算法应用到客户购买行为分析中，可以更快的找出商品交易间的负序列关系，从而给售货方提供更好的销售策略。

以电子商务平台中的网站用户购买订单数据为挖掘的数据源。

以5个客户在2个月内的交易为例，如表1是由客户ID和交易时间为关键字所排序的事务数据库。一个事务数据库，一个事务代表一笔交易，一个单项代表交易的商品，单项属性中的字母记录的是商品ID。

表1事务数据库

进行数据预处理，将表1的事务数据库整理成表2的序列数据库。

表2序列数据库

客户ID	客户购买序列
		1	<{c}{i}>
2	<{a,b}{c}{a,d,f,g}>
		3	<{c,e,g,h}>
4	<{c}{c,d,g,h}{i}>
		5	<{i}>

一个客户在某个时间段内所有的交易记录构成一个有序的序列，序列用<>表示。在序列中，项/项集是有顺序的，每个项都代表交易的一种商品，而元素则是指该客户在某一个具体的时间点一次性购买的所有商品，用{}或()表示，该客户可能在不同的时间段购买同一件产品，即一个项可能在一个序列的不同元素中发生。如表2中ID为2的客户购买序列为<{a,b}{c}{a,d,f,g}>，该客户分别在第一次和第三次购物时购买了商品a，其中{a,b}，{c}，{a,d,f,g}这三个项目集可称为序列的元素，a,b,c,d,f,g则称为项，如果一个元素中只有一个项，则括号可以省略，如该序列中的元素{c}可直接写c。

发明内容

发明概述

针对现有技术的不足，本发明提供一种快速的负序列挖掘模式在客户购买行为分析中的应用。本发明提出一个名为f-NSP的快速算法来高效的挖掘负序列模式，所述算法的主要思想是首先通过正序列模式挖掘算法得到正序列模式，如采用GSP、Prefixspan、SPAM等；然后对每一个频繁正序列都使用高效的位图存储结构来保存包含其的数据序列；之后使用与e-NSP同样的生成负候选序列方法来生成负候选；最后，依托公式对数据位图进行与、或、异或操作快速的计算负候选支持度，挖掘出满足最小支持度的负序列模式，而无需再次扫描数据库。所述f-NSP是目前最快速的负序列挖掘算法，通过该算法挖掘，极大地缩短了得到得到负序列模式的时间，再用适当的筛选方法将能用于决策的序列模式筛选出来，利用这些筛选后的序列模式来分析客户的购买行为，使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况，从而能够更好的安排商品的摆放，提高商品销售量。

发明详述

本发明的技术方案如下：

一种快速的负序列挖掘模式在客户购买行为分析中的应用，包括步骤如下：

(1)对负包含的定义

约束1，元素内部不允许有负项；只有序列中元素才可以变负，例如：符合约束；而不符合约束，因为是元素内部的负项；

约束2，不存在连续2个或2个以上的负元素；例如：不满足约束，因为负元素为连续的两个负元素；

约束3，本应用挖掘的负序列其正偶序列是频繁的；

定义一个负侯选序列

MPS(ns)是指一个由客户购买的商品组成的负序列ns的最大正子序列，其由ns中包含的所有正元素按照原顺序组成；例如：代表没有购买的商品，而a c代表购买了的商品；则最大正子序列为MPS(ns)＝<a c>；

正偶P(ns)，是指将一个由客户购买的商品组成的负序列ns中的负元素全部转化为对应的正元素；例如，P(ns)＝<a b c d>；

1-negMS_ns：负序列ns的子序列，并且该子序列是由MPS(ns)以及一个负元素组成；

1-negMSS_ns：包含负序列ns的所有1-negMS_ns子序列的集合；

p(1-negMS):序列1-negMS中的正元素不变，将负元素转换为相应的正元素；如：

对于一个数据序列ds和一个大小为m并且含有n个负元素的序列ns，满足所述的三个约束，且满足以下条件，则ds包含ns：

1.

MPS (ns) &SubsetEqual; ds;

2.每一个1-negMS满足

p (1 - negMS) &NotSubset; ds;

(2)利用f-NSP算法的步骤如下：

首先，用正序列模式挖掘算法GSP挖掘得到所有的正序列模式，即在某一段时间内，客户购买量大的商品，并且对每一个频繁正序列都使用高效的位图存储结构来保存包含其的数据序列；

然后，基于所述正序列模式生成相应的负侯选序列(negative sequentialcandidates,NSC)；该负候选序列用于判断在某一段时间内，哪些商品客户购买的多，哪些商品客户没有购买；

对所述位图进行与、或、异或计算负候选支持度；而无需再次扫描数据库，以实现快速计算；

再从所述负侯选序列里筛选出符合最小支持度要求的负序列模式，再用现有适当的筛选方法将能用于决策的序列模式筛选出来，利用所述用于决策的序列模式对客户的购买行为进行分析；商家根据分析结果针对客户提供个性化服务，根据客户购买习惯安排商品的推荐顺序和频率；

(3)E-msNSP负侯选序列的生成

为了基于正序列模式生成无冗余的负侯选序列，我们用一种高效的方法来生成负侯选序列，其基本思想是改变正序列模式中任意不相邻元素为负元素；

对于大小为k的正序列模式，其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的：其中为大于k/2的最小整数；

例：基于<(ab)cd>的负侯选序列，其中a、b、c、d是指某种产品，包括：

(4)位图存储结构

e-NSP算法的传统数据结构是使用hashtable，用来存储挖掘出来的频繁正序列模式，值对应着包含此频繁模式的数据序列的sid，将所述频繁模式的数据序列的sid转化为位图格式存储，将在计算支持度上更快的计算sid集合的并集和异或运算；

例如，数据库D一共有包含5条数据，一个频繁模式<a b>,它的数据序列的sid为{10,20,30,40}，表示第1,2,3,4条数据序列包含它，则它的位图存储格式为{1 1 1 1 0}，B(<a b>)为获取<a b>的位图，OB(<a b>)表示位图中1的个数，即OB(<a b>)＝4；

表3.f-NSP数据结构

PSP	Support	Bitmap
			<a>	4	-
<a b>	4	{1 1 1 1 0}
			<e a c b>	2	{0 0 1 1 0}

(5)计算负侯选序列的支持度

大小为m并且含有n个负元素的序列ns，对于(只含有一个负元素的序列)∈1-negMSS_ns(含有一个负元素的序列的集合)(1≤i≤n),在序列数据库D中ns的支持度sup(ns)是：

若ns的大小为1，并且它只有1个负元素，则它的支持度为：

sup(ns)＝|D|-sup(p(ns)) (i)

若ns只包含一个负项，则序列ns的支持度是：

sup(ns)＝sup(MPS(ns))–sup(p(ns)) (ii)

其余的，ns的支持度为：

\sup (ns) = OB (B (MPS (ns)) &CirclePlus; (|_{i = 1}^{n} {B (P (1 - negM S_{i}))})) - - - (iii)

其中，∣是位图的或运算符号，⊕是位图的异或运算符号；

假设，序列<a c>的位图为{1 0 1 1 0 1 1 1}，序列<a b c>的位图为{1 00 1 0 0 0 1},序列<a c d>的位图为{1 0 0 0 0 1 0 0},则

(6)算法伪代码

所述f-NSP算法是基于正序列模式来挖掘负序列模式，算法f-NSP包括步骤如下：

其中，输入：D：客户购买序列数据库；min_sup最小项支持度；

输出：NSP：用于分析客户购买行为的序列模式的集合；

(1)PSP＝minePSP()；

(2)Hashtable PSPHash＝CreatePSPHashTable(PSP)；

(3)For(each psp in PSP){

(4)NSC＝f-NSP_Candidate_Generation(psp)；

(5)For(each nsc in NSC){

(6)if(nsc.size＝＝1&&nsc.neg_size＝＝1){

(7)nsc.support＝|D|-p(nsc).support；

(8)}else if(nsc.size>1&&nsc.neg_size＝＝1){

(9)nsc.support＝MPS(nsc).support-p(nsc).support；

(10)}else{

(11)Bitmap unionbitmap＝1-negMS₁.getbitmap；

(12)For(i＝2；i<＝1-negMSS_nsc.size；i++){

(13)unionbitmap＝OR(1-negMS_i.getbitmap)；

(14)}

(15)finalbitmap＝XOR(MPS(nsc).getbitmap,unionbitmap)；

(16)nsc.support＝finalbitmap.GetOneSize()；

(17)}

(18)If(nsc.support>＝min_sup)

(19)NSP.add(nsp)；

(20)}

(21)}

(22)return NSP；

所述步骤(1)是用GSP等正序列挖掘算法从序列数据库中挖掘出所有的正序列模式；所有的正侯选序列以及它的支持度和sid的位图都被存储到哈希表PSPHash；

所述步骤(4)是对于每一个正序列模式，通过负侯选序列的生成方法来生成负侯选序列NSC；

步骤(5)至步骤(17)，通过公式(i)-(iii)计算出NSC中的每一个nsc的支持度；步骤(18)至步骤(19)然后判断出哪些是负序列模式NSP；

步骤(6)至步骤(9)，通过公式(i)和公式(ii)计算出只含有一个负元素的nsc的支持度，对于包含多于一个负元素的nsc的支持度，通过公式(iii)计算出如步骤(9)至步骤(17)；

如果nsc.support>＝min_sup(nsc)那么nsc被加入到NSP中，如步骤(19)至步骤(19)；

返回结果，如步骤(22)，再用适当的筛选方法将能用于决策的序列模式筛选出来，利用这些筛选后的序列模式来分析客户的购买行为。

本发明的优势

目前用于负序列模式挖掘的算法较少，但是这些算法，往往效率都很低，挖掘出客户渴望的得到的商品负序列模式需要很长的时间，在实际生活当中，尤其是电子商务方面，用户购买数据非常庞大，因此在处理大数据方面，算法的高效性就显得尤为重要，而对于负序列模式挖掘算法效率普遍低下的现状，发明一个快速的负模式挖掘算法就更为迫切。为此，本发明结合现有的负序列挖掘算法，提出了一个目前效率最高的负模式算法，可以最快的挖掘出有用的负序列模式，并将之应用到商品销售以及顾客购买分析之中。本发明可以筛选出某一段时间内，每一类产品中用户购买量比较大的商品，这样客户在购买产品时，利用本发明可以向他推荐一些其它客户购买频率比较大的类似相关产品，从而增加客户的交易机会，将网站浏览者转变为购买者，提高交叉销售能力，提高客户的忠诚度，以及提高网站的经济效益。

具体实施方式

下面结合实施例对本发明做详细的说明，但不限于此。

实施例、

(1)对负包含的定义

约束3，本应用挖掘的负序列其正偶序列是频繁的；

定义一个负侯选序列

1-negMSS_ns：包含负序列ns的所有1-negMS_ns子序列的集合；

1.

MPS (ns) &SubsetEqual; ds;

2.每一个1-negMS满足

p (1 - negMS) &NotSubset; ds;

(2)利用f-NSP算法的步骤如下：

(3)E-msNSP负侯选序列的生成

(4)位图存储结构

表3.f-NSP数据结构

PSP	Support	Bitmap
			<a>	4	-
<a b>	4	{1 1 1 1 0}
			<e a c b>	2	{0 0 1 1 0}

(5)计算负侯选序列的支持度

若ns的大小为1，并且它只有1个负元素，则它的支持度为：

sup(ns)＝|D|-sup(p(ns)) (i)

若ns只包含一个负项，则序列ns的支持度是：

sup(ns)＝sup(MPS(ns))–sup(p(ns)) (ii)

其余的，ns的支持度为：

\sup (ns) = OB (B (MPS (ns)) &CirclePlus; (|_{i = 1}^{n} {B (P (1 - negM S_{i}))})) - - - (iii)

其中，∣是位图的或运算符号，⊕是位图的异或运算符号；

(6)算法伪代码

输出：NSP：用于分析客户购买行为的序列模式的集合；

(1)PSP＝minePSP()；

(2)Hashtable PSPHash＝CreatePSPHashTable(PSP)；

(3)For(each psp in PSP){

(4)NSC＝f-NSP_Candidate_Generation(psp)；

(5)For(each nsc in NSC){

(6)if(nsc.size＝＝1&&nsc.neg_size＝＝1){

(7)nsc.support＝|D|-p(nsc).support；

(8)}else if(nsc.size>1&&nsc.neg_size＝＝1){

(9)nsc.support＝MPS(nsc).support-p(nsc).support；

(10)}else{

(11)Bitmap unionbitmap＝1-negMS₁.getbitmap；

(12)For(i＝2；i<＝1-negMSS_nsc.size；i++){

(13)unionbitmap＝OR(1-negMS_i.getbitmap)；

(14)}

(15)finalbitmap＝XOR(MPS(nsc).getbitmap,unionbitmap)；

(16)nsc.support＝finalbitmap.GetOneSize()；

(17)}

(18)If(nsc.support>＝min_sup)

(19)NSP.add(nsp)；

(20)}

(21)}

(22)return NSP；

其中所述客户购买行为分析，其中序列模式分析的侧重点在于分析数据间的前后或因果关系。就是在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部事务模式。例如：9个月以前购买奔腾Pc的客户很可能在一个月内订购新的CPU芯片。再例如，购买了PC的客户，可能接着买内存芯片，再买CD—ROM。

通过从客户购买记录中挖掘出很多客户在一段时间内都会购买的商品，来便于电子商务的组织者预测客户的行为对客户提供个性化服务，发现什么商品会在另外一些商品购买后购买,从而可以向客户提出推荐，把这些商品可以放到最显眼的位置。例如，当客户在线购买一台个人电脑时，系统可能根据以前挖掘出来的序列模式建议他考虑同时购买其他的一些东西，比如“购买这种个人电脑的人在三个月之内很可能要再买某种特殊的打印机或CD-ROM”，可以送给用户一个短期优惠券，从而促进产品销售。而负序列模式中的负项，即客户不购买的商品，我们则不需要向客户推荐，例如，<智能手机，游戏机，内存卡>该序列模式，当客户购买智能手机时，系统会向客户推荐购买内存卡而不推荐游戏机，因为购买智能手机的人，很可能在三个月内再购买内存卡，而不购买游戏机。

通过对客户购买行为进行分析，发现交易之间的关系规律，不仅可以根据当前的商品买卖情况来预测以后的商品买卖情况，还可以更好的调整商品的推荐顺序和频率，从而提高商品销售量。

Claims

1.一种快速的负序列挖掘模式在客户购买行为分析中的应用，包括步骤如下：

(1)对负包含的定义

约束1，元素内部不允许有负项；约束2，不存在连续2个或2个以上的负元素；

约束3，本应用挖掘的负序列其正偶序列是频繁的；

定义一个负侯选序列ns＝<a-bc-d>：

MPS(ns)是指一个由客户购买的商品组成的负序列ns的最大正子序列，其由ns中包含的所有正元素按照原顺序组成；

正偶P(ns)，是指将一个由客户购买的商品组成的负序列ns中的负元素全部转化为对应的正元素；

1-negMSS_ns：包含负序列ns的所有1-negMS_ns子序列的集合；

p(1-negMS):序列1-negMS中的正元素不变，将负元素转换为相应的正元素；

MPS (ns) &SubsetEqual; ds;

每一个1-negMS满足

(2)利用f-NSP算法的步骤如下：

然后，基于所述正序列模式生成相应的负侯选序列(negative sequentialcandidates,NSC)；

对所述位图进行与、或、异或计算负候选支持度；

(3)E-msNSP负侯选序列的生成

改变正序列模式中任意不相邻元素为负元素；

(4)位图存储结构

表3.f-NSP数据结构

PSP Support Bitmap <a> 4 - <a b> 4 {1 1 1 1 0} <e a c b> 2 {0 0 1 1 0}

(5)计算负侯选序列的支持度

大小为m并且含有n个负元素的序列ns，对于(1≤i≤n),在序列数据库D中ns的支持度sup(ns)是：

若ns的大小为1，并且它只有1个负元素，则它的支持度为：

sup(ns)＝|D|-sup(p(ns)) (i)

若ns只包含一个负项，则序列ns的支持度是：

sup(ns)＝sup(MPS(ns))–sup(p(ns)) (ii)

其余的，ns的支持度为：

\sup (ns) = OB (B (MPS (ns)) &CirclePlus; (|_{i = 1}^{n} {B (P (1 - {negMS}_{i}))})) - - - (iii)

其中，∣是位图的或运算符号，⊕是位图的异或运算符号；

(6)算法伪代码

输出：NSP：用于分析客户购买行为的序列模式的集合；