CN107563857B - 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法 - Google Patents

基于逻辑推理负关联规则修剪技术的客户购买行为分析方法 Download PDF

Info

Publication number
CN107563857B
CN107563857B CN201710768728.2A CN201710768728A CN107563857B CN 107563857 B CN107563857 B CN 107563857B CN 201710768728 A CN201710768728 A CN 201710768728A CN 107563857 B CN107563857 B CN 107563857B
Authority
CN
China
Prior art keywords
rule
association
customer
negative
association rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710768728.2A
Other languages
English (en)
Other versions
CN107563857A (zh
Inventor
董祥军
郝峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yuanjing Information Technology Co ltd
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201710768728.2A priority Critical patent/CN107563857B/zh
Publication of CN107563857A publication Critical patent/CN107563857A/zh
Application granted granted Critical
Publication of CN107563857B publication Critical patent/CN107563857B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于逻辑推理负关联规则修剪技术的客户购买行为分析方法,属于关联规则分析领域。本发明首先通过Apriori算法在事物数据库中挖掘符合最小支持度阈值的频繁项集;然后利用概率论及集合论相关知识在频繁项集中挖掘出正负关联规则;其次通过逻辑推理步骤修剪冗余的正负关联规则并且得到非冗余的正负关联规则。挖掘得到的可决策的关联规则能用来分析客户的购买行为以及商品之间的关联性,使得商家能够根据当前的商品买卖情况给顾客推荐最有可能购买的商品,从而节省了顾客的购物时间,也可以预测以后的商品买卖情况,从而能够更好的安排商品的摆放,提高商品销售量。

Description

基于逻辑推理负关联规则修剪技术的客户购买行为分析方法
技术领域
本发明涉及数据挖掘中的关联规则分析领域,特别涉及一种基于负关联规则修剪技术的客户购买行为分析方法。
背景技术
随着电子信息技术的不断发展网络购物俨然已经成为人们日常生活行为中不可或缺的一部分。与传统的线下购物相比,互联网提供了一个新的交互的购物渠道,消费者获得巨大的优势:丰富的商品信息,克服地理与时间的障碍,获得有价格竞争力的商品,产品的个性化、定制化,更多的商品选择,更大的购物便利等。人们通过网络购物可以足不出户就能购买自己想要的物品以及服务,所以近年来网络购物数据成爆发式增长。与此同时很多大型的电子商务网站,如Amazon、阿里巴巴旗下的淘宝和天猫商城、京东等都积累了大量的客户交易数据。如何充分利用这些数据对客户购买行为进行有效的分析、组织利用,如何了解到客户尽可能多的爱好和价值取向,以优化网站设计,为客户提供个性化服务,成为电子商务发展迫切要解决的问题。
与传统的经营方式相比,电子商务的商家不能直观的去了解客户,获取的相关的数据有限(比如用户的注册信息,购买记录等)。通过对大量的客户购买记录进行分析和挖掘,发现客户频繁访问的商品之间的关联规则,针对这些关联规则和不同的客户属性,采用不同的商品推荐形式,适时的向客户推荐恰当的商品,并优化电子商务网站商品的摆放位置,可以有效的增加客户的交易机会,将网站浏览者转变为购买者,提高交叉销售能力,提高客户的忠诚度,以及提高网站的服务质量和经济效益。
关联规则分析技术是进行个性化商品推荐的一个很好的工具,它所要解决的问题是发现哪些商品是客户喜欢一起购买的,客户在一次交易中会同时购买哪些商品,它是发现交易的内部规律的过程,从而使得分析人员能够按照客户的购买兴趣来安排商品的摆放,以增加交易量。关联规则分析能够发现购物篮数据中哪些商品存在关联性以及何种关联程度。一个关联规则是形如
Figure BDA0001394619650000021
(support,confidence)的蕴涵式,例如:关联规则“
Figure BDA0001394619650000024
(support=10%,confidence=80%)说明在所有的顾客事务中,有10%的顾客同时购买了牛奶和面包,其支持度support=10%,而购买了牛奶的顾客中有80%的顾客也购买了面包,其置信度confidence=80%”。
关联规则的挖掘是数据挖掘领域的一个重要问题,其研究工作有着重要的实际意义和实用价值。例如对关联规则
Figure BDA0001394619650000022
的研究可以:(1)找出所有以面包作为后项的关联规则。这将有助于商场决策者采取相应措施来促进面包的销售;(2)找出前项中含有牛奶的关联规则。这将使得商场决策者了解如果中止销售牛奶将会影响其它什么商品的销售。总之,通过对众多商品间的关联规则进行研究可以发现顾客的购买行为模式,决策者可以根据这些模式提供的信息进行优化商场布置(例如:把用户经常购买的商品摆放在一起)、追加销售、库存安排、广告宣传以及根据购买模式对用户进行分类等提供决策依据。例如“啤酒与尿布”的例子:沃尓玛超市对其销售数据分析后,发现夏天的每个周末啤酒与尿布的销售量都很高。调查得知,许多年轻的爸爸们周末在为自己的宝宝买尿布的同时也不忘给自己买些啤酒,于是商家调整货架布局,将啤酒与尿布放在一起,结果二者的销售量大幅增长。
但在应用关联规则分析客户购买行为,解决个性化商品推荐问题时,传统的关联规则挖掘算法仅考虑了正相关事件,也称为正关联规则(Positive Association Rules,PAR)挖掘。而没有考虑负关联规则(Negative Association Rules,NAR)挖掘。负关联规则不仅考虑了正相关事件,还考虑了负相关事件,在深入理解和处理许多商业应用方面,如客户行为分析、治疗服务和疾病之间的关联方面,发挥着不可替代的作用。
负关联规则研究“90%的客户在购买面包时不会购买饼干”之类的问题,连同正关联规则共有4种形式
Figure BDA0001394619650000023
负关联规则一方面可以进一步完善项集间的关联规则分析,另一方面,可以为决策支持提供更多的传统正关联规则得不到的信息。
目前用于负关联规则挖掘的算法较少,如,PNARC,MCP,2-LSP等等。这些算法既可以挖掘出正关联规则又可以挖掘出负关联规则,但是在购物篮数据分析中存在一个明显的缺点:其挖掘出的规则集中存在大量冗余的正负关联规则。这导致决策者或者是用户很难在众多的结果中找寻适合自己或者是有趣的规则。因此有人提出一些修剪冗余关联规则的算法,如MVNR、GNRR、ADRR等。但是这些算法仅仅考虑了冗余的正关联规则的修剪,而并没有涉及到冗余负关联规则的修剪。
以电子商务平台中的网站用户购买订单数据为挖掘的数据源。
如表1是由客户ID为关键字所展示的事物数据库,事物数据库中,一个事物代表一笔交易,一个单项代表交易的商品,单项属性中的字母记录的是商品ID。该表一共包含了10个客户的购买记录。
表1事务数据库
Figure BDA0001394619650000031
每个客户每次购买的事物称为项集,每个项集可以包括多个不同的项,如表1客户ID为1的客户购买的项集为A,B,D,表示客户在一次购物中一共买了3个物品分别是商品A,商品B,商品D。假设在此数据库中挖掘出来一条A=>B(support=50%,confidence=60%)关联规则,则其具体含义为在一次购物消费中有50%的客户同时购买了A商品与B商品,并且购买A商品的客户中有60%的人都购买了B商品。
发明内容
为了弥补现有技术的不足,本发明提供一种基于逻辑推理的基于负关联规则修剪技术的客户购买行为分析方法。本发明中提出一个名为LOG的高效算法来挖掘非冗余的负关联规则。所述算法LOG的基本思想是通过现有技术中的Apriori算法得到频繁项集,然后将得到的频繁项集作为LOG算法的输入,通过逻辑推理修剪冗余的负关联规则,从而筛选出非冗余的关联规则。所述LOG算法是第一个同时修剪冗余正负关联规则的算法。利用这些筛选后的关联规则来分析客户的购买行为,使得售货方能够根据当前的商品买卖情况来预测以后的商品买卖情况,从而能够更好的安排商品的摆放,提高商品销售量。
本发明的技术方案为:
一种基于负关联规则修剪技术的客户购买行为分析方法,包括步骤:
1)定义关联规则
I={i1,i2,…,im}是由m个不同项(商品)组成的集合,ik(k=1,2,...,m)称为项(商品);
事务数据库D是事务T的集合,其事务数记作|D|,其中T是项的集合,并且
Figure BDA0001394619650000041
对应每一个事务有唯一的标识,记作TID;
设X是一个I中项的集合(项集),如果
Figure BDA0001394619650000042
那么称事务T包含X;若X包含的项的个数为k(1≤k≤m),则称X为k-项集;
形如
Figure BDA0001394619650000043
蕴涵式的正关联规则,
Figure BDA0001394619650000044
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中购买了商品X的客户有很大的概率会购买商品Y;
形如
Figure BDA0001394619650000045
蕴涵式的负关联规则,
Figure BDA0001394619650000046
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中购买了商品X的客户有很大的概率不会购买商品Y;
形如
Figure BDA0001394619650000047
蕴涵式的负关联规则,
Figure BDA0001394619650000048
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中不购买商品X的客户有很大的概率会购买商品Y;
形如
Figure BDA0001394619650000049
蕴涵式的负关联规则,
Figure BDA00013946196500000410
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中不购买商品X的客户有很大的概率也不会购买商品Y;
2)定义支持度与置信度
关联规则
Figure BDA00013946196500000411
在事务数据库D中的支持度是事务集中包含X和Y的事务数与所有事务数之比,它是概率P(X∪Y),记为
Figure BDA00013946196500000412
实际上就是项集X∪Y的支持度,即s(X∪Y);
Figure BDA00013946196500000413
关联规则
Figure BDA0001394619650000051
的置信度,是指包含X和Y的事务数与包含X的事务数之比,这是条件概率P(Y|X),记为
Figure BDA0001394619650000052
Figure BDA0001394619650000053
挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度ms和最小置信度mc的关联规则,这样的关联规则称为强关联规则即满足:
Figure BDA0001394619650000054
Figure BDA0001394619650000055
3)利用LOG算法对客户的购物行为进行分析,具体步骤包括:
A、用Apriori算法在给定的事物数据库中挖掘频繁项集,即客户购买相对频繁的商品;
B、基于步骤A挖掘得到的频繁项集,挖掘相应的正负关联规则,所述关联规则用于判断在客户的消费行为中,客户在购买或未购买哪些商品之后可能必然不会购买或购买哪种商品;
C、基于逻辑推理修剪冗余的正负关联规则并且得到非冗余的正负关联规则;根据分析结果具有针对性的给客户推荐商品,根据客户购买习惯安排商品的摆放位置和数量。
作为优选方案,步骤B挖掘正负关联规则的方法如下:
Figure BDA0001394619650000056
A∩B=Φ,则有:
(1)
Figure BDA0001394619650000057
(2)
Figure BDA0001394619650000058
(3)
Figure BDA0001394619650000059
(4)
Figure BDA00013946196500000510
(5)
Figure BDA00013946196500000511
(6)
Figure BDA00013946196500000512
(7)
Figure BDA0001394619650000061
(8)
Figure BDA0001394619650000062
把项集A和B看作是两个随机事件,因此项集A和B支持度s(A)、s(B)就是它们发生的概率p(A)、p(B);A和B的相关性可公式(Ⅰ)来度量:
Figure BDA0001394619650000063
其中p(A)≠0,p(B)≠0;
corrA,B有三种可能的情况:
(a)如果corrA,B>1,那么A和B正相关,事件A出现的越多,事件B出现的也越多;
(b)如果corrA,B=1,那么A和B相互独立,事件B的出现与事件A无关;
(c)如果corrA,B<1,那么A和B负相关,事件A出现的越多,事件B出现的越少;
项集A、B间4种形式关联规则的相关性之间的关系:
如果corrA,B>1,则有:
(h)
Figure BDA0001394619650000064
(i)
Figure BDA0001394619650000065
(j)
Figure BDA0001394619650000066
反之亦反之;
定义1.设I是数据库D的项集,
Figure BDA0001394619650000067
且A∩B=Φ,0<s(A)、
Figure BDA0001394619650000068
s(B)、
Figure BDA0001394619650000069
ms、mc>0;若corrA,B=1,A,B相互独立;否则,A,B相关,且:
①如果corrA,B>1,s(A∪B)≥ms且
Figure BDA00013946196500000610
那么
Figure BDA00013946196500000611
是一条正关联规则;
②如果
Figure BDA00013946196500000612
s(A∪B)≥ms且
Figure BDA00013946196500000613
那么
Figure BDA00013946196500000614
是一条负关联规则;
③如果
Figure BDA00013946196500000615
s(A∪B)≥ms且
Figure BDA00013946196500000616
那么
Figure BDA00013946196500000617
是一条负关联规则;
④如果
Figure BDA00013946196500000618
s(A∪B)≥ms且
Figure BDA00013946196500000619
那么
Figure BDA00013946196500000620
是一条负关联规则。
作为优选方案,基于逻辑推理修剪冗余的正负关联规则并且得到非冗余的正负关联规则的方法为:
定义2:设
Figure BDA0001394619650000071
且A∩B=Φ,
Figure BDA0001394619650000072
Figure BDA0001394619650000073
是一条有效的正关联规则,如果corrA,B’>1,则
Figure BDA0001394619650000074
也是一条有效正关联规则,并且是
Figure BDA0001394619650000075
的冗余规则;
定义3:设
Figure BDA0001394619650000076
且A∩B=Φ,
Figure BDA0001394619650000077
Figure BDA0001394619650000078
是一条有效的负关联规则,如果corrA,B<1,则
Figure BDA0001394619650000079
也是一条有效负关联规则,并且是
Figure BDA00013946196500000710
的冗余规则;
定义4:设
Figure BDA00013946196500000711
且A∩B=Φ,
Figure BDA00013946196500000712
Figure BDA00013946196500000713
是一条有效的负关联规则,如果corrA,B’<1,则
Figure BDA00013946196500000714
也是一条有效负关联规则,并且是
Figure BDA00013946196500000715
的冗余规则;
定义5:设
Figure BDA00013946196500000716
且A∩B=Φ,
Figure BDA00013946196500000717
Figure BDA00013946196500000718
是一条有效的负关联规则,如果corrA,B>1,则
Figure BDA00013946196500000719
也是一条有效负关联规则,并且是
Figure BDA00013946196500000720
的冗余规则。
本发明的实现算法LOG的算法伪代码如下:
输入:mc:最小置信度;corr:最小相关系数;
输出:PAR:用于分析客户购买行为的正关联规则集合;
NAR:用于分析客户购买行为的负关联规则集合。
Figure BDA00013946196500000721
Figure BDA0001394619650000081
Figure BDA0001394619650000091
所述步骤(1)调用Apriori算法,产生用于挖掘关联规则的频繁项集,挖掘
的频繁项集的支持度均大于最小支持度;步骤(2)将PAR和NAR初始化为空集;步骤(3)判断是否所有的项集是否属于频繁项集;步骤(5)计算项集间的相关系数,如果相关系数大于1,则执行步骤(7-19)挖掘A=>B和
Figure BDA0001394619650000092
类型的关联规则,若相关系数小于1则执行步骤(20-32)挖掘
Figure BDA0001394619650000093
Figure BDA0001394619650000094
类型的关联规则,最后结束算法。算法的关键步骤是(9-12)(15-18)(23-26)和(29-32)步。它是整个算法的核心步骤,用来判断规则是否冗余,拿步骤(9-12)为例,步骤(9)遍历项集B的所有子集,若存在
Figure BDA0001394619650000095
是一个有效的关联规则即corrAB’>1,则我们认为规则
Figure BDA0001394619650000096
是规则
Figure BDA0001394619650000097
的冗余规则并将其在PAR中删除,同样的我们可以根据步骤(15-18)(23-26)和(29-32)将规则
Figure BDA0001394619650000098
Figure BDA0001394619650000099
的冗余规则修剪掉。利用此算法可以很好的修剪冗余正负关联规则,大大减少了在事物数据库中挖掘得到关联规则的数量,从而有效的为决策者提供更加真实有效的关联规则,帮助决策者来分析客户的购买行为。
本发明的有益效果为:
本发明应用在进行客户购买行为分析过程中,可以根据客户的购买记录,更准确的决策客户下一步的购买行为,适时的向客户推荐恰当的商品,提高交叉销售能力,以及提高网站的服务质量和经济效益。
传统的关联规则挖掘算法通常产生很多的关联规则而这些规则很多是冗余的,它会给用户在筛选有价值信息的时候造成不必要的干扰和增加用户的工作量,本发明应用在进行客户购买行为分析的过程中利用逻辑推理知识不仅能修剪正关联规则,而且还能修剪负关联规则,并且最为重要的是,在修剪步骤中用户无需额外设置参数进行干预,这极大的提高了算法的有效性以及实用性。通过本发明,用户不但可以准确找到有趣的正关联规则,还可以找到有趣的负关联规则,从而针对这些关联规则和不同的客户属性,采用不同的商品推荐形式,适时的向客户推荐恰当的商品,并优化电子商务网站商品的摆放位置,可以有效的增加客户的交易机会,提高交叉销售能力,提高客户的忠诚度,以及提高网站的服务质量和经济效益。
具体实施方式
实施例1
一种基于负关联规则修剪技术的客户购买行为分析方法,包括步骤:
1)定义关联规则
I={i1,i2,…,im}是由m个不同项(商品)组成的集合,ik(k=1,2,...,m)称为项(商品);
事务数据库D是事务T的集合,其事务数记作|D|,其中T是项的集合,并且
Figure BDA0001394619650000101
对应每一个事务有唯一的标识,记作TID;
设X是一个I中项的集合(项集),如果
Figure BDA0001394619650000102
那么称事务T包含X;若X包含的项的个数为k(1≤k≤m),则称X为k-项集;
形如
Figure BDA0001394619650000103
蕴涵式的正关联规则,
Figure BDA0001394619650000104
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中购买了商品X的客户有很大的概率会购买商品Y;
形如
Figure BDA0001394619650000105
蕴涵式的负关联规则,
Figure BDA0001394619650000106
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中购买了商品X的客户有很大的概率不会购买商品Y;
形如
Figure BDA0001394619650000107
蕴涵式的负关联规则,
Figure BDA0001394619650000108
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中不购买商品X的客户有很大的概率会购买商品Y;
形如
Figure BDA0001394619650000109
蕴涵式的负关联规则,
Figure BDA00013946196500001010
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中不购买商品X的客户有很大的概率也不会购买商品Y;
2)定义支持度与置信度
关联规则
Figure BDA0001394619650000111
在事务数据库D中的支持度是事务集中包含X和Y的事务数与所有事务数之比,它是概率P(X∪Y),记为
Figure BDA0001394619650000112
实际上就是项集X∪Y的支持度,即s(X∪Y);
Figure BDA0001394619650000113
关联规则
Figure BDA0001394619650000114
的置信度,是指包含X和Y的事务数与包含X的事务数之比,这是条件概率P(Y|X),记为
Figure BDA0001394619650000115
Figure BDA0001394619650000116
挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度ms和最小置信度mc的关联规则,这样的关联规则称为强关联规则即满足:
Figure BDA0001394619650000117
Figure BDA0001394619650000118
3)利用LOG算法对客户的购物行为进行分析,具体步骤包括:
A、用Apriori算法在给定的事物数据库中挖掘频繁项集,即客户购买相对频繁的商品;
B、基于步骤A挖掘得到的频繁项集,挖掘相应的正负关联规则,所述关联规则用于判断在客户的消费行为中,客户在购买或未购买哪些商品之后可能必然不会购买或购买哪种商品;
C、基于逻辑推理修剪冗余的正负关联规则并且得到非冗余的正负关联规则;根据分析结果具有针对性的给客户推荐商品,根据客户购买习惯安排商品的摆放位置和数量。
其中,步骤B挖掘正负关联规则的方法如下:
Figure BDA0001394619650000119
A∩B=Φ,则有:
(1)
Figure BDA00013946196500001110
(2)
Figure BDA00013946196500001111
(3)
Figure BDA00013946196500001112
(4)
Figure BDA00013946196500001113
(5)
Figure BDA0001394619650000121
(6)
Figure BDA0001394619650000122
(7)
Figure BDA0001394619650000123
(8)
Figure BDA0001394619650000124
把项集A和B看作是两个随机事件,因此项集A和B支持度s(A)、s(B)就是它们发生的概率p(A)、p(B);A和B的相关性可公式(Ⅰ)来度量:
Figure BDA0001394619650000125
其中p(A)≠0,p(B)≠0;
corrA,B有三种可能的情况:
(a)如果corrA,B>1,那么A和B正相关,事件A出现的越多,事件B出现的也越多;
(b)如果corrA,B=1,那么A和B相互独立,事件B的出现与事件A无关;
(c)如果corrA,B<1,那么A和B负相关,事件A出现的越多,事件B出现的越少;
项集A、B间4种形式关联规则的相关性之间的关系:
如果corrA,B>1,则有:
(h)
Figure BDA0001394619650000126
(i)
Figure BDA0001394619650000127
(j)
Figure BDA0001394619650000128
反之亦反之;
定义1.设I是数据库D的项集,
Figure BDA0001394619650000129
且A∩B=Φ,0<s(A)、
Figure BDA00013946196500001210
s(B)、
Figure BDA00013946196500001211
ms、mc>0;若corrA,B=1,A,B相互独立;否则,A,B相关,且:
①如果corrA,B>1,s(A∪B)≥ms且
Figure BDA00013946196500001212
那么
Figure BDA00013946196500001213
是一条正关联规则;
②如果
Figure BDA00013946196500001214
s(A∪B)≥ms且
Figure BDA00013946196500001215
那么
Figure BDA00013946196500001216
是一条负关联规则;
③如果
Figure BDA0001394619650000131
s(A∪B)≥ms且
Figure BDA0001394619650000132
那么
Figure BDA0001394619650000133
是一条负关联规则;
④如果
Figure BDA0001394619650000134
s(A∪B)≥ms且
Figure BDA0001394619650000135
那么
Figure BDA0001394619650000136
是一条负关联规则。
基于逻辑推理修剪冗余的正负关联规则并且得到非冗余的正负关联规则的方法为:
定义2:设
Figure BDA0001394619650000137
且A∩B=Φ,
Figure BDA0001394619650000138
Figure BDA0001394619650000139
是一条有效的正关联规则,如果corrA,B’>1,则
Figure BDA00013946196500001310
也是一条有效正关联规则,并且是
Figure BDA00013946196500001311
的冗余规则;
定义3:设
Figure BDA00013946196500001312
且A∩B=Φ,
Figure BDA00013946196500001313
Figure BDA00013946196500001314
是一条有效的负关联规则,如果corrA,B<1,则
Figure BDA00013946196500001315
也是一条有效负关联规则,并且是
Figure BDA00013946196500001316
的冗余规则;
定义4:设
Figure BDA00013946196500001317
且A∩B=Φ,
Figure BDA00013946196500001318
Figure BDA00013946196500001319
是一条有效的负关联规则,如果corrA,B’<1,则
Figure BDA00013946196500001320
也是一条有效负关联规则,并且是
Figure BDA00013946196500001321
的冗余规则;
定义5:设
Figure BDA00013946196500001322
且A∩B=Φ,
Figure BDA00013946196500001323
Figure BDA00013946196500001324
是一条有效的负关联规则,如果corrA,B>1,则
Figure BDA00013946196500001325
也是一条有效负关联规则,并且是
Figure BDA00013946196500001326
的冗余规则。
本发明的实现算法LOG的算法伪代码如下:
输入:mc:最小置信度;corr:最小相关系数;
输出:PAR:用于分析客户购买行为的正关联规则集合;
NAR:用于分析客户购买行为的负关联规则集合。
Figure BDA00013946196500001327
Figure BDA0001394619650000141
Figure BDA0001394619650000151
所述步骤(1)调用Apriori算法,产生用于挖掘关联规则的频繁项集,挖掘的频繁项集的支持度均大于最小支持度;步骤(2)将PAR和NAR初始化为空集;步骤(3)判断是否所有的项集是否属于频繁项集;步骤(5)计算项集间的相关系数,如果相关系数大于1,则执行步骤(7-19)挖掘A=>B和
Figure BDA0001394619650000152
类型的关联规则,若相关系数小于1则执行步骤(20-32)挖掘
Figure BDA0001394619650000153
Figure BDA0001394619650000154
类型的关联规则,最后结束算法。算法的关键步骤是(9-12)(15-18)(23-26)和(29-32)步。它是整个算法的核心步骤,用来判断规则是否冗余,拿步骤(9-12)为例,步骤(9)遍历项集B的所有子集,若存在
Figure BDA0001394619650000155
是一个有效的关联规则即corrAB’>1,则我们认为规则
Figure BDA0001394619650000156
是规则
Figure BDA0001394619650000157
的冗余规则并将其在PAR中删除,同样的我们可以根据步骤(15-18)(23-26)和(29-32)将规则
Figure BDA0001394619650000158
Figure BDA0001394619650000159
的冗余规则修剪掉。利用此算法可以很好的修剪冗余正负关联规则,大大减少了在事物数据库中挖掘得到关联规则的数量,从而有效的为决策者提供更加真实有效的关联规则,帮助决策者来分析客户的购买行为。

Claims (1)

1.一种基于逻辑推理负关联规则修剪技术的客户购买行为分析方法,其特征在于,包括步骤:
1)定义关联规则
I={i1,i2,…,im}是由m个不同项组成的集合,ik(k=1,2,...,m)称为项;
事务数据库D是事务T的集合,其事务数记作|D|,其中T是项的集合,并且
Figure FDA0002543558310000011
对应每一个事务有唯一的标识,记作TID;
设X是一个I中项的集合(项集),如果
Figure FDA0002543558310000012
那么称事务T包含X;若X包含的项的个数为k(1≤k≤m),则称X为k-项集;
形如
Figure FDA0002543558310000013
蕴涵式的正关联规则,
Figure FDA0002543558310000014
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中购买了商品X的客户有很大的概率会购买商品Y;
形如
Figure FDA0002543558310000015
蕴涵式的负关联规则,
Figure FDA0002543558310000016
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中购买了商品X的客户有很大的概率不会购买商品Y;
形如
Figure FDA0002543558310000017
蕴涵式的负关联规则,
Figure FDA0002543558310000018
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中不购买商品X的客户有很大的概率会购买商品Y;
形如
Figure FDA0002543558310000019
蕴涵式的负关联规则,
Figure FDA00025435583100000110
并且X∩Y=Φ,其中X称为规则的前项,Y称为规则的后项;所述关联规则用于判断在购物分析中不购买商品X的客户有很大的概率也不会购买商品Y;
2)定义支持度与置信度
关联规则
Figure FDA00025435583100000111
在事务数据库D中的支持度是事务集中包含X和Y的事务数与所有事务数之比,它是概率P(X∪Y),记为
Figure FDA00025435583100000112
实际上就是项集X∪Y的支持度,即s(X∪Y);
Figure FDA00025435583100000113
关联规则
Figure FDA00025435583100000114
的置信度,是指包含X和Y的事务数与包含X的事务数之比,这是条件概率P(Y|X),记为
Figure FDA00025435583100000115
Figure FDA00025435583100000116
挖掘关联规则问题就是产生支持度和置信度分别大于用户给定的最小支持度ms和最小置信度mc的关联规则,这样的关联规则称为强关联规则即满足:
Figure FDA0002543558310000021
Figure FDA0002543558310000022
3)利用LOG算法对客户的购物行为进行分析,具体步骤包括:
A、用Apriori算法在给定的事物数据库中挖掘频繁项集,即客户购买相对频繁的商品;
B、基于步骤A挖掘得到的频繁项集,挖掘相应的正负关联规则,所述关联规则用于判断在客户的消费行为中,客户在购买或未购买哪些商品之后可能必然不会购买或购买哪种商品;
步骤B挖掘正负关联规则的方法如下:
设A,
Figure FDA0002543558310000023
A∩B=Φ,则有:
(1)
Figure FDA0002543558310000024
(2)
Figure FDA0002543558310000025
(3)
Figure FDA0002543558310000026
(4)
Figure FDA0002543558310000027
(5)
Figure FDA0002543558310000028
(6)
Figure FDA0002543558310000029
(7)
Figure FDA00025435583100000210
(8)
Figure FDA00025435583100000211
把项集A和B看作是两个随机事件,因此项集A和B支持度s(A)、s(B)就是它们发生的概率p(A)、p(B);A和B的相关性可公式(Ⅰ)来度量:
Figure FDA00025435583100000212
其中p(A)≠0,p(B)≠0;
corrA,B有三种可能的情况:
(a)如果corrA,B>1,那么A和B正相关,事件A出现的越多,事件B出现的也越多;
(b)如果corrA,B=1,那么A和B相互独立,事件B的出现与事件A无关;
(c)如果corrA,B<1,那么A和B负相关,事件A出现的越多,事件B出现的越少;
项集A、B间4种形式关联规则的相关性之间的关系:
如果corrA,B>1,则有:
(h)
Figure FDA0002543558310000031
(i)
Figure FDA0002543558310000032
(j)
Figure FDA0002543558310000033
反之亦反之;
定义1.设I是数据库D的项集,A,
Figure FDA0002543558310000034
且A∩B=Φ,0<s(A)、
Figure FDA0002543558310000035
s(B)、
Figure FDA0002543558310000036
若corrA,B=1,A,B相互独立;否则,A,B相关,且:
①如果corrA,B>1,s(A∪B)≥ms且
Figure FDA0002543558310000037
那么
Figure FDA0002543558310000038
是一条正关联规则;
②如果
Figure FDA0002543558310000039
Figure FDA00025435583100000310
那么
Figure FDA00025435583100000311
是一条负关联规则;
③如果
Figure FDA00025435583100000312
Figure FDA00025435583100000313
那么
Figure FDA00025435583100000314
是一条负关联规则;
④如果
Figure FDA00025435583100000315
Figure FDA00025435583100000316
那么
Figure FDA00025435583100000317
是一条负关联规则;
C、基于逻辑推理修剪冗余的正负关联规则并且得到非冗余的正负关联规则;根据分析结果具有针对性的给客户推荐商品,根据客户购买习惯安排商品的摆放位置和数量;
基于逻辑推理修剪冗余的正负关联规则并且得到非冗余的正负关联规则的方法为:
定义2:设A,
Figure FDA00025435583100000318
且A∩B=Φ,
Figure FDA00025435583100000319
Figure FDA00025435583100000320
是一条有效的正关联规则,如果corrA,B’>1,则
Figure FDA0002543558310000041
也是一条有效正关联规则,并且是
Figure FDA0002543558310000042
的冗余规则;
定义3:设A,
Figure FDA0002543558310000043
且A∩B=Φ,
Figure FDA0002543558310000044
Figure FDA0002543558310000045
是一条有效的负关联规则,如果corrA,B<1,则
Figure FDA0002543558310000046
也是一条有效负关联规则,并且是
Figure FDA0002543558310000047
的冗余规则;
定义4:设A,
Figure FDA0002543558310000048
且A∩B=Φ,
Figure FDA0002543558310000049
Figure FDA00025435583100000410
是一条有效的负关联规则,如果corrA,B’<1,则
Figure FDA00025435583100000411
也是一条有效负关联规则,并且是
Figure FDA00025435583100000412
的冗余规则;
定义5:设A,
Figure FDA00025435583100000413
且A∩B=Φ,
Figure FDA00025435583100000414
Figure FDA00025435583100000415
是一条有效的负关联规则,如果corrA,B>1,则
Figure FDA00025435583100000416
也是一条有效负关联规则,并且是
Figure FDA00025435583100000417
的冗余规则。
CN201710768728.2A 2017-08-31 2017-08-31 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法 Active CN107563857B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710768728.2A CN107563857B (zh) 2017-08-31 2017-08-31 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710768728.2A CN107563857B (zh) 2017-08-31 2017-08-31 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法

Publications (2)

Publication Number Publication Date
CN107563857A CN107563857A (zh) 2018-01-09
CN107563857B true CN107563857B (zh) 2020-10-09

Family

ID=60978604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710768728.2A Active CN107563857B (zh) 2017-08-31 2017-08-31 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法

Country Status (1)

Country Link
CN (1) CN107563857B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108461127B (zh) * 2018-01-12 2020-10-20 平安科技(深圳)有限公司 医疗数据关系图像获取方法、装置、终端设备及存储介质
CN110880136A (zh) * 2018-09-06 2020-03-13 北京京东尚科信息技术有限公司 配套产品的推荐方法、系统、设备和存储介质
CN109300014B (zh) * 2018-10-24 2020-09-08 中南民族大学 基于日志挖掘的商品推荐方法、装置、服务器及存储介质
CN109559156A (zh) * 2018-10-30 2019-04-02 广东原昇信息科技有限公司 基于客户属性及营销数据的客户意向有监督预测方法
CN112163882A (zh) * 2020-09-24 2021-01-01 山西财经大学 生鲜便利店商品关联陈列系统及其陈列方法
CN113112292A (zh) * 2021-04-02 2021-07-13 东南大学 一种大宗商品交易中的监管商品智能化推荐方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574153A (zh) * 2015-01-19 2015-04-29 齐鲁工业大学 快速的负序列挖掘模式在客户购买行为分析中的应用
CN104732419A (zh) * 2015-01-19 2015-06-24 齐鲁工业大学 正负序列模式筛选方法在客户购买行为分析中的应用
CN105608602A (zh) * 2015-12-18 2016-05-25 齐鲁工业大学 二次相关判定法选取有效的负关联规则在客户购买行为分析中的应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574153A (zh) * 2015-01-19 2015-04-29 齐鲁工业大学 快速的负序列挖掘模式在客户购买行为分析中的应用
CN104732419A (zh) * 2015-01-19 2015-06-24 齐鲁工业大学 正负序列模式筛选方法在客户购买行为分析中的应用
CN105608602A (zh) * 2015-12-18 2016-05-25 齐鲁工业大学 二次相关判定法选取有效的负关联规则在客户购买行为分析中的应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
e-NSP:Efficient Negative Sequential Pattern Mining Based on Identified Positive Patterns Without Database Rescanning;Dong Xiangjun 等;《Proceedings of the 20th ACM international conference on Information and knowledge management ACM》;20111231;825-830 *

Also Published As

Publication number Publication date
CN107563857A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107563857B (zh) 基于逻辑推理负关联规则修剪技术的客户购买行为分析方法
Griva et al. Retail business analytics: Customer visit segmentation using market basket data
Devaraj et al. Examination of online channel preference: using the structure-conduct-outcome framework
Veronika Motivation of online buyer behavior
Hung A personalized recommendation system based on product taxonomy for one-to-one marketing online
Mican et al. Analysis of the factors impacting the online shopping decision-making process
Griva et al. Factors affecting customer analytics: Evidence from three retail cases
Lee et al. Consumers' choice for fresh food at online shopping in the time of covid19
CN104537553B (zh) 重复负序列模式在客户购买行为分析中的应用
Gim Evaluating factors influencing consumer satisfaction towards online shopping in Viet Nam
Ratchford The impact of digital innovations on marketing and consumers
Kubiak et al. Cross-and up-selling techniques in e-commerce activities
Khodabandehlou Designing an e-commerce recommender system based on collaborative filtering using a data mining approach
Ríos et al. Generating groups of products using graph mining techniques
Loan et al. Exploring customer purchasing intention over online store
Vadivu A study on Customer Satisfaction Towards online shopping
Nagaraja et al. Consumer buying decision process in Indian organized retail industry-Characterization of male and female respondents
Munandar The Role of Digital Marketing, Influencer Marketing and Electronic Word of Mouth (eWOM), on Online Purchase Decisions for Consumers of Private University Students in Bandung West Java
Gao Big Data analysis on E-commerce platform
Fitrianah et al. Analysis of Consumer Purchase Patterns on Handphone Accessories Sales Using FP-Growth Algorithm
Liao et al. A rough set-based association rule approach implemented on a brand trust evaluation model
Králová Customer insights and online shopping attitude of Gen Z
Wang et al. Trade-off among online, offline, and online-to-offline business models: a perspective based on the four Ps of product characteristics
Katrodia A Study of Indentity Consumer Purchasing Behavior and Factors that Influence Consumer Purchse Decision: With Reference to Durban
CN111192112A (zh) 一种多平台的交互方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230228

Address after: Room 1799, 17/F, No. A7-4, Hanyu Financial and Business Center, No. 7000 Jingshi Road, Jinan Area, China (Shandong) Free Trade Pilot Zone, Jinan, Shandong Province, 250000

Patentee after: Shandong Yuanjing Information Technology Co.,Ltd.

Address before: 250000 science and Technology Park of West Xincheng University, Jinan City, Shandong Province

Patentee before: Qilu University of Technology