CN104537553B - 重复负序列模式在客户购买行为分析中的应用 - Google Patents

重复负序列模式在客户购买行为分析中的应用 Download PDF

Info

Publication number
CN104537553B
CN104537553B CN201510025944.9A CN201510025944A CN104537553B CN 104537553 B CN104537553 B CN 104537553B CN 201510025944 A CN201510025944 A CN 201510025944A CN 104537553 B CN104537553 B CN 104537553B
Authority
CN
China
Prior art keywords
sequence
negative
support
positive
repeated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510025944.9A
Other languages
English (en)
Other versions
CN104537553A (zh
Inventor
董祥军
宫永顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yuanjing Information Technology Co.,Ltd.
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201510025944.9A priority Critical patent/CN104537553B/zh
Publication of CN104537553A publication Critical patent/CN104537553A/zh
Application granted granted Critical
Publication of CN104537553B publication Critical patent/CN104537553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种重复负序列模式在客户购买行为分析中的应用,提出一个名为e‑RNSP的高效算法来挖掘重复负序列模式,所述算法的主要思想是首先通过RptGSP算法挖掘得到重复正序列模式,并且将挖掘出来的重复正序列模式以及包含它们的数据序列中的重复次数对应保存下来,然后用和e‑NSP相同的方法生成负序列候选模式,最后通过公式来计算负序列侯选模式的重复支持度,而无需多次扫描数据库。所述e‑RNSP是第一个重复负序列模式挖掘算法,通过该算法挖掘得到的重复负序列模式可以更全面的分析客户购买行为,使得售货方能够根据当前的商品销售情况来预测以后的商品销售。

Description

重复负序列模式在客户购买行为分析中的应用
技术领域
本发明涉及重复负序列模式在客户购买行为分析中的应用,属于重复负序列模式的应用技术领域。
背景技术
随着互联网高潮来临,使得网络购物的用户规模不断上升。对消费者来说,网络购物已经成为一种全新的购物体验,并逐步成为生活中不可或缺的一部分。互联网提供了一个新的交互的购物渠道,消费者获得巨大的优势:丰富的商品信息,克服地理与时间的障碍,获得有价格竞争力的商品,产品的个性化、定制化,更多的商品选择,更大的购物便利等。近年来,网络购物呈爆发式增长,每年都以几何数级增长,与此同时很多大型的电子商务网站,如Amazon、阿里巴巴旗下的淘宝和天猫商城、京东等都积累了大量的客户交易数据。如何充分利用这些数据对客户购买行为进行有效的分析、组织利用,如何了解到客户尽可能多的爱好和价值取向,以优化网站设计,为客户提供个性化服务,成为电子商务发展迫切要解决的问题。
与传统的经营方式相比,网络购物的产品信息量大,数量、种类丰富,选择范围广。在传统购物环境下,消费者获取商品信息的来源主要靠生活积累,搜集过程较长,得到的信息比较片面。在网络购物环境下,消费者就可以集中时间搜集、查找大量的有关商品的信息。网上商品种类丰富,有些商品消费者想要购买而传统商铺不容易找到,就可以通过网络商店方便的查询购买,补充了传统商店某些产品的短缺。但是目前的电子商务商家通常不能直观的去了解客户,获取的相关的数据有限(比如用户的注册信息,购买记录等)。通过对大量的客户购买记录进行分析和挖掘,发现客户的频繁访问序列模式,针对不同的客户属性和网上购物步骤,采用不同的商品推荐形式,适时的向客户推荐恰当的商品,并优化电子商务网站商品的摆放位置,可以有效的增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高购物网站的服务质量和经济效益。
序列模式分析所要解决的问题是客户在完成一次交易之后,在以后的特定时间内,还会购买什么商品,是发现交易之间关系规律的过程,使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况,从而能够更好的安排商品的摆放。它的主要目的是研究商品购买的先后关系,找出其中的规律,即不仅需要知道商品是否被购买,而且需要确定该商品与其它商品购买的先后顺序,例如,在线购买DVD的一个典型的顺序是购买“星球大战”,之后很有可能继续购买“帝国反击战”,再是购买“杰达武士归来”。因此序列模式能够发现数据库中某一段时间内的一个频繁序列,即在这个时间段内哪些商品会被客户购买的比较多,多或少的标准是由最小支持度来决定的。每个序列是按照交易的时间排列的一组集合,可以设置最小支持度来挖掘满足不同频繁程度的序列。但在应用序列模式分析客户购买行为,解决个性化商品推荐问题时,他们仅考虑了已发生的事件,也称为正序列模式(Positive Sequent ial Pattern,PSP)挖掘。
与传统的正序列模式(Positive Sequential Pattern,PSP)不同,负序列模式(Negative Sequential Pattern,NSP)挖掘不仅考虑了已经发生的事件,还关注于未发生事件,它能够更深入地分析和理解数据中的潜在含义,从而挖掘出容易被人们忽略但是非常有价值的信息。例如:a代表面包,b代表咖啡,c代表茶,d代表糖,表示一个客户购买序列模式,该模式说明在某一段时间内,该客户在购买了商品a、b后,在没有购买商品c的情况下,购买了商品d。如今负序列模式的价值越来越被人们认可,在深入理解和处理许多商业应用方面,如对客户购买行为分析方面,它更有一种不可替代的作用。
目前,关于负序列模式挖掘算法的研究成果较少,如,NSPM,PNSP,Neg-GSP,e-NSP等等。但是这些算法在计算负序列支持度的时候,仅仅考虑了它是否在一条数据序列中出现,而忽略了其在数据序列中出现的次数。在现实生活中,由一个批发型顾客所构成的一条数据序列,其中的某些商品应该是重复多次出现的,那么只考虑这些商品组成序列是否出现,而不考虑其出现的次数是很不公平的。因此,有人提出了一些基于重复支持度的序列模式挖掘算法,如GSgrow,CloGSgrow和RptGSP算法。它们在计算由商品所组成序列的支持度的时候均考虑了其在数据序列重复出现的情况,这使得此商品序列比传统方法可能具有更高的支持度,更有可能满足所设定的最小支持度而被挖掘出来。但是这些方法中只考虑了重复正序列模式挖掘,我们目前没有找到任何有关于重复负模式挖掘方法的研究。
电子商务平台中的网站用户购买订单数据为挖掘的数据源。以5个客户在2个月内的交易为例,如表1是由客户ID和交易时间为关键字所排序的事务数据库。一个事务数据库,一个事务代表一笔交易,一个单项代表交易的商品,单项属性中的字母记录的是商品ID。
表1事务数据库
进行数据预处理,将表1的事务数据库整理成表2的序列数据库。
表2序列数据库
客户ID 客户购买序列
1 〈{c}{i}〉
2 〈{a,b}{c}{a,d,f,g}〉
3 〈{c,e,g,h}〉
4 〈{c}{c,d,g,h}{i}〉
5 〈{i}〉
一个客户在某个时间段内所有的交易记录构成一个有序的序列,序列用<>表示。在序列中,项/项集是有顺序的,每个项都代表交易的一种商品,而元素则是指该客户在某一个具体的时间点一次性购买的所有商品,用{}或()表示,该客户可能在不同的时间段购买同一件产品,即一个项可能在一个序列的不同元素中发生。如表2中ID为2的客户购买序列为〈{a,b}{c}{a,d,f,g}〉,该客户分别在第一次和第三次购物时购买了商品a,其中{a,b},{c},{a,d,f,g}这三个项目集可称为序列的元素,a,b,c,d,f,g则称为项,如果一个元素中只有一个项,则括号可以省略,如该序列中的元素{c}可直接写c。
发明内容
发明概述
针对现有技术的不足,本发明提供一种重复负序列模式在客户购买行为分析中的应用。本发明中提出一个名为e-RNSP的高效算法来挖掘重复负序列模式,所述算法的主要思想是首先通过RptGSP算法挖掘得到重复正序列模式,并且将挖掘出来的重复正序列模式以及包含它们的数据序列中的重复次数对应保存下来,然后用和e-NSP相同的方法生成负序列候选模式,最后通过公式来计算负序列侯选模式的重复支持度,而无需多次扫描数据库。所述e-RNSP是第一个重复负序列模式挖掘算法,通过该算法挖掘得到的重复负序列模式可以更全面的分析客户购买行为,使得售货方能够根据当前的商品销售情况来预测以后的商品销售,更能发现某些对特定商品重复购买的人群,合理安排商品摆放,提高商品销售量。
发明详述
本发明的技术方案如下:
一种重复负序列模式在客户购买行为分析中的应用,包括步骤如下:
(1)定义一个负序列在一个数据序列中出现的次数
MPS(ns)是指一个由客户购买的商品组成的负序列ns的最大正子序列,其由ns中包含的所有正元素按照原顺序组成;例如:一个负序列代表没有购买的商品,而c d代表购买了的商品。它的最大正子序列为MPS(ns)=<c d>,特别的,一个正序列的最大正子序列是它本身;
一个负序列在一个数据序列中出现的次数由它的左终止位置决定;令ds=<d1d2…dn>是一个数据序列,对一个负序列ns,如果并且使得则称m为左终止位置,定义为LAE(ns,ds)=m,其中m≥1因为已经满足如果则LAE(ns,ds)=1;
计算ns在ds中出现的次数t,并将该计算t的方法定义为t=RptTimes(ns,ds):
首先使用LAE(ns,ds)获得ns在ds中的左终止位置m,如果m>0,则t=t+1,之后令ds=<dm+1…dn>,重复以上步骤直到
通过以上对于负重复的定义,我们可以发现对于一个负序列ns:
RptTimes(ns,ds)=RptTimes(MPS(ns),ds),如果
例如,给出s1=<ab>,ds1=<aca(ab)cb>,ds2=<abababd>,则LAE(s1,ds1)=4,LAE(s1,ds2)=2,RptTimes(s1,ds1)=1,RptTimes(s1,ds2)=3;LAE(s2,ds1)=2,LAE(s2,ds2)不存在因为RptTimes(s2,ds1)=RptTimes(MPS(s2),ds1)=2;
(2)负序列的重复支持度计算
负序列ns的重复支持度是负序列在所有数据序列中重复出现的次数,定义为rps_count(ns),那么ns在数据库D中的重复支持度为:
(3)利用e-RNSP算法的步骤如下:
首先,使用重复正序列挖掘算法RptGSP挖掘得到所有的重复正序列模式,即在某一段时间内,客户重复购买量大的商品;
然后,基于所述重复正序列模式生成相应的重复负候选序列(repeated negativesequential candidates,RNSC),该负候选序列用于判断在某一段时间内,哪些商品客户购买的多,哪些商品客户没有购买;
其次,利用相关的重复正序列模式的支持度来计算负侯选序列的重复支持度;
再从所述负侯选序列里筛选出符合最小支持度要求的重复负序列模式,再用现有适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式对客户的购买行为进行分析;商家根据分析结果针对客户提供个性化服务,根据客户购买习惯安排商品的推荐顺序和频率;
(4)e-RNSP负侯选序列的生成
为了基于正序列模式生成无冗余的负侯选序列,我们用一种高效的方法来生成负侯选序列,其基本思想是改变正序列模式中任意不相邻元素为负元素;
对于大小为k的正序列模式,其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的:其中为大于k/2的最小整数;
例:基于<(ab)cd>的负侯选序列,其中a、b、c、d是指某种产品,包括:
(5)计算负侯选序列的支持度
定义一个负侯选序列
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;如:
一个大小为m并且含有n个负元素的序列ns,对于(只含有一个负元素的序列)∈1-negMSSns(含有一个负元素的序列的集合)(1≤i≤n),在序列数据库D中ns的支持度sup(ns)由以下几个公式计算得出:
使用公式(iii)来获得所有包含ns的数据序列的sid,其中{MPS(ns)}是所有包含MPS(ns)的数据序列的sid,是所有{p(1-negMSi)}组成的sid集合的并集;
所述ns的传统支持度由|{ns}|计算出,|{ns}|表示{ns}集合中sid的个数;但是我们为了计算ns的重复支持度,就必须要知道ns在每一个包含它的数据序列中重复出现的次数;所述ns的重复支持度为:
其中dsi是指包含ns的第i个数据序列,通过公式(i)计算RptTimes(ns,dsi),而不需要重复扫描数据库;
如果ns的大小是1,意味着它只包含一个负元素,那么负序列ns的支持度是:
sup(ns)=|D|-sup(p(ns)) (v)
假设,包含序列<ac>的sid(包含序列<ac>的客户ID)集合为{10,20,30,40,50},<ac>分别在这5个数据序列中重复的次数为{2,2,1,3,4},支持序列<abc>的集合是{10,20},支持序列<acd>的sid的集合是{20,30},则
(6)算法伪代码
为了高效的计算重复支持度,设计一个数据结构来存储e-RNSP相关数据,所述数据结构存储正侯选序列(Positive Sequential Candidates,PSC)和包含它的数据序列的{sid}以及重复次数;
所述e-RNSP算法是基于正序列模式来挖掘重复负序列模式,算法e-RNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;min_sup:最小支持度;
输出:RNSP:用于分析客户购买行为的重复负序列模式的集合;
(1)RPSP=RptGSP(D);
(2)each RPSP:Hashtable sidHash=CreateSidHashTable(sid,rt);
(3)Hashtable RPSPHash=CreateRPSPHashTable(RPSP,sidHash);
(4)For(each rpsp in RPSP){
(5) int rsup=0;
(6) RNSC=e-RNSP_Candidate_Generation(rpsp);
(7) For(each rnsc in RNSC){
(8) if(nsc.size==1&&nsc.neg_size==1){
(9) nsc.support=|D|-p(nsc).support;
(10) }
(11) 1-negMSSnsc={1-negMSi|1<=i<=nsc.neg_size};
(12) For(i=2;i<=nsc.neg_size;i++){
(13) For(each sid in p(1-negMSi).sidHash.keySet){
(14) If(p(1-negMS1).sidHash.containKey(sid)==false)
(15) p(1-negMS1).sidHash.put(sid,p(1-negMSi).sidHash.get(sid));
(16) }
(17) }
(18) For(each sid in p(1-negMS1).sidHash.keySet){
(19) If(MPS(rnsc).sidHash.containKey(sid))
(20) MPS(rnsc).sidHash.remove(sid);
(21) }
(22) For(int i:MPS(rnsc).value( )){
(23) rsup=rsup+i;
(24) }
(25) If(rsup>=min_sup)
(26) RNSP.add(rnsc);
(27) }
(28) }
(29) return RNSP;
所述步骤(1)是用重复正序列模式挖掘算法RptGSP从序列数据库中挖掘出所有的重复正序列模式;步骤(2)和步骤(3)将所有的重复正侯选序列以及它的重复支持度和sid的集合都被存储到哈希表RNSPHash;
所述步骤(6)是对于每一个重复正序列模式,通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列RNSC;
步骤(7)至步骤(24),通过公式(i)-(v)计算出RNSC中的每一个rnsc的支持度;步骤(25)至步骤(27)然后判断出哪些是重复负序列模式RNSP;
其中步骤(8)至步骤(10),通过公式(v)计算出只含有一个负元素的rnsc的支持度,对于包含多于一个负元素的rnsc的支持度,通过公式(i)到公式(iv)计算出,如步骤(12)至步骤(24);
如果rnsc.support>=min_sup那么rnsc被加入到RNSP中,如步骤(25)至步骤(27);
返回结果,如步骤(29),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式来分析客户的购买行为。
本发明的优势
目前用于负序列模式挖掘的算法较少,但是这些算法在计算负序列支持度的时候,仅仅考虑了它是否在一条数据序列中出现,而忽略了其在数据序列中出现的次数。在现实生活中,由一个批发型顾客所构成的一条数据序列,其中的某些商品应该是重复多次出现的,那么只考虑这些商品组成序列是否出现,而不考虑其出现的次数是很不公平的。而现有的挖掘重复序列的方法都是针对重复正序列模式挖掘,本发明提出了一种高效挖掘重复负序列模式的算法,这使得由商品组成的负候选序列比传统方法可能具有更高的支持度,更有可能满足所设定的最小支持度而被挖掘出来。本发明应用在进行客户购买行为分析的过程中,可以充分考虑到序列重复出现的模式,从而发现用户购买量大或者被特定用户重复购买的商品,这样客户在购买产品时,利用本发明可以向他推荐一些其它客户购买频率比较大的类似相关产品,从而增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的经济效益。
具体实施方式
下面结合实施例对本发明做详细的说明,但不限于此。
实施例、
一种重复负序列模式在客户购买行为分析中的应用,包括步骤如下:
(1)定义一个负序列在一个数据序列中出现的次数
MPS(ns)是指一个由客户购买的商品组成的负序列ns的最大正子序列,其由ns中包含的所有正元素按照原顺序组成;例如:一个负序列代表没有购买的商品,而c d代表购买了的商品。它的最大正子序列为MPS(ns)=<c d>,特别的,一个正序列的最大正子序列是它本身;
一个负序列在一个数据序列中出现的次数由它的左终止位置决定;令ds=<d1d2…dn>是一个数据序列,对一个负序列ns,如果并且使得则称m为左终止位置,定义为LAE(ns,ds)=m,其中m≥1因为已经满足如果则LAE(ns,ds)=1;
计算ns在ds中出现的次数t,并将该计算t的方法定义为t=RptTimes(ns,ds):
首先使用LAE(ns,ds)获得ns在ds中的左终止位置m,如果m>0,则t=t+1,之后令ds=<dm+1…dn>,重复以上步骤直到
通过以上对于负重复的定义,我们可以发现对于一个负序列ns:
RptTimes(ns,ds)=RptTimes(MPS(ns),ds),如果
例如,给出s1=<ab>,ds1=<aca(ab)cb>,ds2=<abababd>,则LAE(s1,ds1)=4,LAE(s1,ds2)=2,RptTimes(s1,ds1)=1,RptTimes(s1,ds2)=3;LAE(s2,ds1)=2,LAE(s2,ds2)不存在因为RptTimes(s2,ds1)=RptTimes(MPS(s2),ds1)=2;
(2)负序列的重复支持度计算
负序列ns的重复支持度是负序列在所有数据序列中重复出现的次数,定义为rps_count(ns),那么ns在数据库D中的重复支持度为:
(3)利用e-RNSP算法的步骤如下:
首先,使用重复正序列挖掘算法RptGSP挖掘得到所有的重复正序列模式,即在某一段时间内,客户重复购买量大的商品;
然后,基于所述重复正序列模式生成相应的重复负候选序列(repeated negativesequential candidates,RNSC),该负候选序列用于判断在某一段时间内,哪些商品客户购买的多,哪些商品客户没有购买;
其次,利用相关的重复正序列模式的支持度来计算负侯选序列的重复支持度;
再从所述负侯选序列里筛选出符合最小支持度要求的重复负序列模式,再用现有适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式对客户的购买行为进行分析;商家根据分析结果针对客户提供个性化服务,根据客户购买习惯安排商品的推荐顺序和频率;
(4)e-RNSP负侯选序列的生成
为了基于正序列模式生成无冗余的负侯选序列,我们用一种高效的方法来生成负侯选序列,其基本思想是改变正序列模式中任意不相邻元素为负元素;
对于大小为k的正序列模式,其负侯选序列是通过改变正序列模式中任意m个不相邻元素为负元素得到的:其中为大于k/2的最小整数;
例:基于<(ab)cd>的负侯选序列,其中a、b、c、d是指某种产品,包括:
(5)计算负侯选序列的支持度
定义一个负侯选序列
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;如:
一个大小为m并且含有n个负元素的序列ns,对于(只含有一个负元素的序列)∈1-negMSSns(含有一个负元素的序列的集合)(1≤i≤n),在序列数据库D中ns的支持度sup(ns)由以下几个公式计算得出:
使用公式(iii)来获得所有包含ns的数据序列的sid,其中{MPS(ns)}是所有包含MPS(ns)的数据序列的sid,是所有{p(1-negMSi)}组成的sid集合的并集;
所述ns的传统支持度由|{ns}|计算出,|{ns}|表示{ns}集合中sid的个数;但是我们为了计算ns的重复支持度,就必须要知道ns在每一个包含它的数据序列中重复出现的次数;所述ns的重复支持度为:
其中dsi是指包含ns的第i个数据序列,通过公式(i)计算RptTimes(ns,dsi),而不需要重复扫描数据库;
如果ns的大小是1,意味着它只包含一个负元素,那么负序列ns的支持度是:
sup(ns)=|D|-sup(p(ns)) (v)
假设,包含序列<ac>的sid(包含序列<ac>的客户ID)集合为{10,20,30,40,50},<ac>分别在这5个数据序列中重复的次数为{2,2,1,3,4},支持序列<abc>的集合是{10,20},支持序列<acd>的sid的集合是{20,30},则
(6)算法伪代码
为了高效的计算重复支持度,设计一个数据结构来存储e-RNSP相关数据,所述数据结构存储正侯选序列(Positive Sequential Candidates,PSC)和包含它的数据序列的{sid}以及重复次数;
所述e-RNSP算法是基于正序列模式来挖掘重复负序列模式,算法e-RNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;min_sup:最小支持度;
输出:RNSP:用于分析客户购买行为的重复负序列模式的集合;
(1)RPSP=RptGSP(D);
(2)each RPSP:Hashtable sidHash=CreateSidHashTable(sid,rt);
(3)Hashtable RPSPHash=CreateRPSPHashTable(RPSP,sidHash);
(4)For(each rpsp in RPSP){
(5) int rsup=0;
(6) RNSC=e-RNSP_Candidate_Generation(rpsp);
(7) For(each rnsc in RNSC){
(8) if(nsc.size==1&&nsc.neg_size==1){
(9) nsc.support=|D|-p(nsc).support;
(10) }
(11) 1-negMSSnsc={1-negMSi|1<=i<=nsc.neg_size};
(12) For(i=2;i<=nsc.neg_size;i++){
(13) For(each sid in p(1-negMSi).sidHash.keySet){
(14) If(p(1-negMS1).sidHash.containKey(sid)==false)
(15) p(1-negMS1).sidHash.put(sid,p(1-negMSi).sidHash.get(sid));
(16) }
(17) }
(18) For(each sid in p(1-negMS1).sidHash.keySet){
(19) If(MPS(rnsc).sidHash.containKey(sid))
(20) MPS(rnsc).sidHash.remove(sid);
(21) }
(22) For(int i:MPS(rnsc).value( )){
(23) rsup=rsup+i;
(24) }
(25) If (rsup>=min_sup)
(26) RNSP.add(rnsc);
(27) }
(28) }
(29) return RNSP;
所述步骤(1)是用重复正序列模式挖掘算法RptGSP从序列数据库中挖掘出所有的重复正序列模式;步骤(2)和步骤(3)将所有的重复正侯选序列以及它的重复支持度和sid的集合都被存储到哈希表RNSPHash;
所述步骤(6)是对于每一个重复正序列模式,通过刚才所说的“负侯选序列的生成”方法来生成负侯选序列RNSC;
步骤(7)至步骤(24),通过公式(i)-(v)计算出RNSC中的每一个rnsc的支持度;步骤(25)至步骤(27)然后判断出哪些是重复负序列模式RNSP;
其中步骤(8)至步骤(10),通过公式(v)计算出只含有一个负元素的rnsc的支持度,对于包含多于一个负元素的rnsc的支持度,通过公式(i)到公式(iv)计算出,如步骤(12)至步骤(24);
如果rnsc.support>=min_sup那么rnsc被加入到RNSP中,如步骤(25)至步骤(27);
返回结果,如步骤(29),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式来分析客户的购买行为。
其中所述客户购买行为分析,其中序列模式分析的侧重点在于分析数据间的前后或因果关系。就是在时间有序的事务集中,找到那些“一些项跟随另一些项”的内部事务模式。例如:9个月以前购买奔腾Pc的客户很可能在一个月内订购新的CPU芯片。再例如,购买了PC的客户,可能接着买内存芯片,再买CD—ROM。
通过从客户购买记录中挖掘出很多客户在一段时间内都会购买的商品,来便于电子商务的组织者预测客户的行为对客户提供个性化服务,发现什么商品会在另外一些商品购买后购买,从而可以向客户提出推荐,把这些商品可以放到最显眼的位置。例如,当客户在线购买一台个人电脑时,系统可能根据以前挖掘出来的序列模式建议他考虑同时购买其他的一些东西,比如“购买这种个人电脑的人在三个月之内很可能要再买某种特殊的打印机或CD-ROM”,可以送给用户一个短期优惠券,从而促进产品销售。而负序列模式中的负项,即客户不购买的商品,我们则不需要向客户推荐,例如,<智能手机,游戏机,内存卡>该序列模式,当客户购买智能手机时,系统会向客户推荐购买内存卡而不推荐游戏机,因为购买智能手机的人,很可能在三个月内再购买内存卡,而不购买游戏机。
通过对客户购买行为进行分析,发现交易之间的关系规律,不仅可以根据当前的商品买卖情况来预测以后的商品买卖情况,还可以更好的调整商品的推荐顺序和频率,从而提高商品销售量。

Claims (1)

1.一种重复负序列模式在客户购买行为分析中的使用方法,包括步骤如下:
(1)定义一个负序列在一个数据序列中出现的次数
MPS(ns)是指一个由客户购买的商品组成的负序列ns的最大正子序列,其由ns中包含的所有正元素按照原顺序组成;
一个负序列在一个数据序列中出现的次数由它的左终止位置决定;令ds=<d1d2…dn>是一个数据序列,对一个负序列ns,如果并且1<p≤n,使得则称p为左终止位置,定义为LAE(ns,ds)=p,其中p≥1因为已经满足如果则LAE(ns,ds)=1;
计算ns在ds中出现的次数t,并将该计算t的方法定义为t=RptTimes(ns,ds):
首先使用LAE(ns,ds)获得ns在ds中的左终止位置p,如果p>0,则t=t+1,之后令ds=<dp+1…dn>,重复以上步骤直到
负序列ns:
RptTimes(ns,ds)=RptTimes(MPS(ns),ds),如果
给出s1=<ab>,ds1=<aca(ab)cb>,ds2=<abababd>,则LAE(s1,ds1)=4,LAE(s1,ds2)=2,RptTimes(s1,ds1)=1,RptTimes(s1,ds2)=3;LAE(s2,ds1)=2,LAE(s2,ds2)不存在因为
(2)负序列的重复支持度计算
负序列ns的重复支持度是负序列在所有数据序列中重复出现的次数,定义为rps_count(ns),那么ns在序列数据库D中的重复支持度为:
<mrow> <mi>r</mi> <mi>p</mi> <mi>s</mi> <mo>_</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;Sigma;</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>=</mo> <mi>R</mi> <mi>p</mi> <mi>t</mi> <mi>T</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mo>(</mo> <mrow> <mi>n</mi> <mi>s</mi> <mo>,</mo> <mi>d</mi> <mi>s</mi> </mrow> <mo>)</mo> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>d</mi> <mi>s</mi> <mo>&amp;Element;</mo> <mi>D</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>i</mi> <mi>i</mi> <mo>)</mo> </mrow> </mrow>
(3)利用e-RNSP算法的步骤如下:
首先,使用重复正序列挖掘算法RptGSP挖掘得到所有的重复正序列模式,即在某一段时间内,客户重复购买量大的商品;
然后,基于所述重复正序列模式生成相应的重复负候选序列,该负候选序列用于判断在某一段时间内,哪些商品客户购买的多,哪些商品客户没有购买;
其次,利用相关的重复正序列模式的支持度来计算负候选序列的重复支持度;
再从所述负候选序列里筛选出符合最小支持度要求的重复负序列模式,再用现有适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式对客户的购买行为进行分析;商家根据分析结果针对客户提供个性化服务,根据客户购买习惯安排商品的推荐顺序和频率;
(4)e-RNSP负候选序列的生成
改变正序列模式中任意不相邻元素为负元素;
(5)计算负候选序列的支持度
定义一个负候选序列:
1-negMSns:负序列ns的子序列,并且该子序列是由MPS(ns)以及一个负元素组成;
1-negMSSns:包含负序列ns的所有1-negMSns子序列的集合;
p(1-negMS):序列1-negMS中的正元素不变,将负元素转换为相应的正元素;
一个大小为m并且含有n个负元素的序列ns,对于 在序列数据库D中ns的支持度sup(ns)由以下几个公式计算得出:
<mrow> <mo>{</mo> <mi>n</mi> <mi>s</mi> <mo>}</mo> <mo>=</mo> <mo>{</mo> <mi>M</mi> <mi>P</mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>s</mi> <mo>)</mo> </mrow> <mo>}</mo> <mo>-</mo> <mo>{</mo> <msubsup> <mo>&amp;cup;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mo>{</mo> <mi>p</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>negMS</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>}</mo> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>i</mi> <mi>i</mi> <mi>i</mi> <mo>)</mo> </mrow> </mrow>
使用公式(iii)来获得所有包含ns的数据序列的sid,其中{MPS(ns)}是所有包含MPS(ns)的数据序列的sid,是所有{p(1-negMSi)}组成的sid集合的并集;
所述ns的传统支持度由|{ns}|计算出,|{ns}|表示{ns}集合中sid的个数;所述ns的重复支持度为:
<mrow> <mi>sup</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mo>|</mo> <mrow> <mo>{</mo> <mi>n</mi> <mi>s</mi> <mo>}</mo> </mrow> <mo>|</mo> </mrow> </msubsup> <mi>R</mi> <mi>p</mi> <mi>t</mi> <mi>T</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>n</mi> <mi>s</mi> <mo>,</mo> <msub> <mi>ds</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <msub> <mi>ds</mi> <mi>i</mi> </msub> <mo>&amp;Element;</mo> <mo>{</mo> <mi>n</mi> <mi>s</mi> <mo>}</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>i</mi> <mi>v</mi> <mo>)</mo> </mrow> </mrow>
其中dsi是指包含ns的第i个数据序列,通过公式(i)计算RptTimes(ns,dsi),
如果ns的大小是1,那么负序列ns的支持度是:
sup(ns)=|D|-sup(p(ns)) (v)
(6)算法伪代码
设计一个数据结构来存储e-RNSP相关数据,所述数据结构存储正候选序列和包含它的数据序列的{sid}以及重复次数;
所述e-RNSP算法是基于正序列模式来挖掘重复负序列模式,算法e-RNSP包括步骤如下:
其中,输入:D:客户购买序列数据库;min_sup:最小支持度;
输出:RNSP:用于分析客户购买行为的重复负序列模式的集合;
所述步骤(1-1)是用重复正序列模式挖掘算法RptGSP从序列数据库中挖掘出所有的重复正序列模式;步骤(1-2)和步骤(1-3)将所有的重复正候选序列以及它的重复支持度和sid的集合都被存储到哈希表RNSPHash;
所述步骤(1-6)是对于每一个重复正序列模式,通过步骤(1-4)中表述的负候选序列的生成方法来生成负候选序列RNSC;
步骤(1-7)至步骤(1-24),通过公式(i)-(v)计算出RNSC中的每一个rnsc的支持度;步骤(1-25)至步骤(1-27)然后判断出哪些是重复负序列模式RNSP;
其中步骤(1-8)至步骤(1-10),通过公式(v)计算出只含有一个负元素的rnsc的支持度,对于包含多于一个负元素的rnsc的支持度,通过公式(i)到公式(iv)计算出,如步骤(1-12)至步骤(1-24);
如果rnsc.support>=min_sup那么rnsc被加入到RNSP中,如步骤(1-25)至步骤(1-27);
返回结果,如步骤(1-29),再用适当的筛选方法将能用于决策的序列模式筛选出来,利用这些筛选后的重复负序列模式来分析客户的购买行为。
CN201510025944.9A 2015-01-19 2015-01-19 重复负序列模式在客户购买行为分析中的应用 Active CN104537553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510025944.9A CN104537553B (zh) 2015-01-19 2015-01-19 重复负序列模式在客户购买行为分析中的应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510025944.9A CN104537553B (zh) 2015-01-19 2015-01-19 重复负序列模式在客户购买行为分析中的应用

Publications (2)

Publication Number Publication Date
CN104537553A CN104537553A (zh) 2015-04-22
CN104537553B true CN104537553B (zh) 2018-02-23

Family

ID=52853072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510025944.9A Active CN104537553B (zh) 2015-01-19 2015-01-19 重复负序列模式在客户购买行为分析中的应用

Country Status (1)

Country Link
CN (1) CN104537553B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184618A (zh) * 2015-10-20 2015-12-23 广州唯品会信息科技有限公司 新用户的商品个性化推荐方法及系统
CN107451840A (zh) * 2016-05-31 2017-12-08 百度在线网络技术(北京)有限公司 一种交易信息推送方法和装置
CN106650433B (zh) * 2016-12-15 2018-09-04 咪咕数字传媒有限公司 一种异常行为检测方法及系统
CN107633422A (zh) * 2017-08-24 2018-01-26 武汉科技大学 一种基于用户行为的市场预测方法及装置
CN109191166A (zh) * 2018-07-16 2019-01-11 赵东 一种多功能卷烟产品售卖终端的大数据分析方法及系统
CN110277172A (zh) * 2019-06-27 2019-09-24 齐鲁工业大学 一种基于高效的负序列挖掘模式的临床用药行为分析系统及其工作方法
CN110349678A (zh) * 2019-07-19 2019-10-18 齐鲁工业大学 一种基于高效用正负序列规则挖掘的中药销售系统及其工作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282985A (ja) * 2000-03-31 2001-10-12 Hitachi Ltd 販売情報分析方法
WO2002080022A2 (en) * 2001-03-28 2002-10-10 Intellidat Corporation Knowledge discovery from data sets
CN101206751A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 基于数据挖掘的顾客推荐系统及其方法
CN101493925A (zh) * 2009-03-09 2009-07-29 浙江工商大学 一种采用增量式挖掘的零售行业折扣券生成方法
CN102629360A (zh) * 2012-03-13 2012-08-08 浙江大学 一种有效的动态商品推荐方法及商品推荐系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7937465B2 (en) * 2008-11-21 2011-05-03 The Invention Science Fund I, Llc Correlating data indicating at least one subjective user state with data indicating at least one objective occurrence associated with a user

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282985A (ja) * 2000-03-31 2001-10-12 Hitachi Ltd 販売情報分析方法
WO2002080022A2 (en) * 2001-03-28 2002-10-10 Intellidat Corporation Knowledge discovery from data sets
CN101206751A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 基于数据挖掘的顾客推荐系统及其方法
CN101493925A (zh) * 2009-03-09 2009-07-29 浙江工商大学 一种采用增量式挖掘的零售行业折扣券生成方法
CN102629360A (zh) * 2012-03-13 2012-08-08 浙江大学 一种有效的动态商品推荐方法及商品推荐系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Efficient Mining of Event-Oriented Negative Sequential Rules";Yanchang Zhao et al.;《Proceedings of the 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology》;20081231;全文 *
"e-NSP: efficient negative sequential pattern mining based on identified positive patterns without database rescanning";Xiangjun Dong et al.;《Proceedings of the 20th ACM international conference on Information and knowledge management.ACM》;20111231;全文 *
"Negative-GSP: an efficient method for mining negative sequential patterns";Zhigang Zheng et al.;《Proceedings of the Eighth Australasian Data Mining Conference.ACM》;20091231;全文 *
"一种基于序列末项位置信息的序列模式挖掘算法";缪裕青等;《计算机应用研究》;20120731;第29卷(第7期);全文 *

Also Published As

Publication number Publication date
CN104537553A (zh) 2015-04-22

Similar Documents

Publication Publication Date Title
CN104537553B (zh) 重复负序列模式在客户购买行为分析中的应用
Chang et al. Group RFM analysis as a novel framework to discover better customer consumption behavior
Alfian et al. Customer behavior analysis using real-time data processing: A case study of digital signage-based online stores
US8756095B2 (en) E-commerce consumer-based behavioral target marketing reports
US9087335B2 (en) Multidimensional personal behavioral tomography
CN104504159B (zh) 多支持度的正负序列模式在客户购买行为分析中的应用
CN104732419B (zh) 正负序列模式筛选方法在客户购买行为分析中的应用
CN107563857B (zh) 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法
US20140180799A1 (en) Techniques for optimizing the impact of video content on electronic commerce sales
Ariestya et al. Marketing strategy for the determination of staple consumer products using FP-growth and apriori algorithm
Hemalatha Market basket analysis–a data mining application in Indian retailing
CN104574153A (zh) 快速的负序列挖掘模式在客户购买行为分析中的应用
Gim Evaluating factors influencing consumer satisfaction towards online shopping in Viet Nam
Zamil et al. Enhancing customer loyalty with market basket analysis using innovative methods: a python implementation approach
CN107515942A (zh) 非频繁序列中挖掘可决策负序列模式的购买行为分析方法
Anusha et al. Segmentation of retail mobile market using HMS algorithm
CN113487117A (zh) 一种基于多维度用户画像的电商用户行为数据模拟的方法及系统
Mirajkar et al. Data mining based store layout architecture for supermarket
Qabbaah et al. Using K-means clustering and data visualization for monetizing logistics data
Chopra et al. E-CRM–A new paradigm for managing customers
Rezaeian et al. Measuring Customers Satisfaction of ECommerce Sites Using Clustering Techniques: Case Study of Nyazco Website.
Zhao The review of web mining in e-commerce
Gao Big Data analysis on E-commerce platform
Fitrianah et al. Analysis of Consumer Purchase Patterns on Handphone Accessories Sales Using FP-Growth Algorithm
CN112381627B (zh) 育儿知识下的商品评分处理推荐方法、装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230208

Address after: Room 1799, 17/F, No. A7-4, Hanyu Financial and Business Center, No. 7000 Jingshi Road, Jinan Area, China (Shandong) Free Trade Pilot Zone, Jinan, Shandong Province, 250000

Patentee after: Shandong Yuanjing Information Technology Co.,Ltd.

Address before: No. 3501, Daxue Road, University Science Park, Changqing West New Town, Jinan, Shandong 250353

Patentee before: Qilu University of Technology