CN110197390B - 一种基于关联规则关联度和经济值的推荐方法和系统 - Google Patents
一种基于关联规则关联度和经济值的推荐方法和系统 Download PDFInfo
- Publication number
- CN110197390B CN110197390B CN201910291782.1A CN201910291782A CN110197390B CN 110197390 B CN110197390 B CN 110197390B CN 201910291782 A CN201910291782 A CN 201910291782A CN 110197390 B CN110197390 B CN 110197390B
- Authority
- CN
- China
- Prior art keywords
- value
- association
- degree
- association rule
- recommended
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012545 processing Methods 0.000 claims description 42
- 238000010606 normalization Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000007418 data mining Methods 0.000 claims description 13
- 238000005065 mining Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 230000017105 transposition Effects 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000012850 discrimination method Methods 0.000 claims 4
- 235000013336 milk Nutrition 0.000 description 32
- 239000008267 milk Substances 0.000 description 32
- 210000004080 milk Anatomy 0.000 description 32
- 239000000843 powder Substances 0.000 description 30
- 238000010586 diagram Methods 0.000 description 8
- 238000012216 screening Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 235000020095 red wine Nutrition 0.000 description 3
- 235000008429 bread Nutrition 0.000 description 2
- 235000013351 cheese Nutrition 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0254—Targeted advertisements based on statistics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
Abstract
本发明提出一种基于关联规则关联度和经济值的推荐方法和系统,本发明方法综合考虑关联度与经济价值两个重要维度,使二者达到了较为理想的平衡点;在推荐商品关联度的基础上考虑了推荐商品的经济价值,避免推荐商品点击率高但商业价值相对较低的商品;也在推荐商品经济价值的基础上考虑了关联度,舍弃经济价值高但关联度过低的商品推荐,避免了高价值但过低点击率致使总推荐价值低的情况。由此可使推荐商品的整体商业价值相对最优,较好利用了推荐位或商场布局的资源空间,有效避免现有技术商品关联规则推荐方法中经济价值损失与重复推荐的情况。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于关联规则关联度和经济值的推荐方法和系统。
背景技术
现有技术商品购买推荐方法中,仅考虑关联强弱为依据的关联推荐算法,不考虑整体的经济价值,会造成推荐资源的浪费与潜在经济价值的损失。比如:按既有Apriori或Eclat算法,A商品B商品关联度较A与c商品高1倍,但当B商品价值仅为C商品的1/10时,顾客在购买了A商品后,按照既有算法,同时推荐位资源有限时,会优先推荐B商品,而c商品则靠后甚至消失,则推荐B产生的商业价值仅为推荐c的20%,损失了80%的潜在商业价值。这种仅考虑关联度与点击率的既有关联算法,造成了潜在商业价值的巨大损失,极大地浪费了推荐位的宝贵资源。
现有技术商品购买推荐方法中,关联度高的购物组合,购买频次也很高,很多时候会造成重复推荐,或者已在其他场合购买。
发明内容
本发明实施例的目的在于提出一种基于关联规则关联度和经济值的推荐方法,旨在解决现有技术现有技术商品购买推荐方法中不考虑整体的经济价值,会造成推荐资源的浪费与潜在经济价值的损失的问题。
本发明实施例是这样实现的,一种基于关联规则关联度和经济值的推荐方法,所述方法包括,
根据商品购买数据挖掘商品购买的关联组合;
提取所述关联组合的关联规则;
获取关联规则的关联值;
获取关联规则的经济值;
计算关联规则的关联度-经济值的联合推荐值;
根据联合推荐值选择相应关联规则进行商品推荐。
本发明实施例的另一目的在于提出一种基于关联规则关联度和经济值的推荐系统,所述系统包括:
商品购买关联组合挖掘模块,根据商品购买数据挖掘商品购买的关联组合;
关联规则提取模块,用于提取所述关联组合的关联规则;
关联值获取装置,用于获取关联规则的关联值;
经济值获取装置,用于获取关联规则的关联值;
联合推荐值计算模块,用于计算关联规则的关联度-经济值的联合推荐值;
商品推荐模块,用于根据联合推荐值选择相应关联规则进行商品推荐。
本发明的有益效果
本发明提出一种基于关联规则关联度和经济值的推荐方法和系统,本发明方法综合考虑关联度与经济价值两个重要维度,使二者达到了较为理想的平衡点;在推荐商品关联度的基础上考虑了推荐商品的经济价值,避免推荐商品点击度高但商业价值相对较低的商品;也在推荐商品经济价值的基础上考虑了关联度,舍弃经济价值高但关联度过低的商品推荐,避免了高价值但过低点击率致使总推荐价值低的情况。由此可使推荐商品的整体商业价值相对最优,较好利用了推荐位或商场布局的资源空间,有效避免现有技术商品关联规则推荐方法中经济价值损失与重复推荐的情况。
附图说明
图1是本发明优选实施例一种基于关联规则关联度和经济值的推荐方法流程图;
图2是本发明优选实施例一种商品购买数据的处理方法流程图;
图3是本发明优选实施例一种获取关联规则的关联值的方法流程图;
图4是本发明优选实施例一种获取关联规则的经济值的方法流程图;
图5为本发明实施例的关联规则的关联-经济曲线图;
图6是本发明优选实施例一种基于关联规则关联度和经济值的推荐系统结构图;
图7是本发明优选实施例一种商品购买数据的处理装置结构图;
图8是本发明优选实施例一种获取关联规则的关联值装置结构图;
图9是本发明优选实施例一种获取关联规则的经济值装置结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明,为了便于说明,仅示出了与本发明实施例相关的部分。应当理解,此处所描写的具体实施例,仅仅用于解释本发明,并不用以限制本发明。
本发明提出一种基于关联规则关联度和经济值的推荐方法和系统,本发明方法综合考虑关联度与经济价值两个重要维度,使二者达到了较为理想的平衡点;在推荐商品关联度的基础上考虑了推荐商品的经济价值,避免推荐商品点击度高但商业价值相对较低的商品;也在推荐商品经济价值的基础上考虑了关联度,舍弃经济价值高但关联度过低的商品推荐,避免了高价值但过低点击率致使总推荐价值低的情况。由此可使推荐商品的整体商业价值相对最优,较好利用了推荐位或商场布局的资源空间,有效避免现有技术商品关联规则推荐方法中经济价值损失与重复推荐的情况。
实施例一
图1是本发明优选实施例一种基于关联规则关联度和经济值的推荐方法流程图;所述方法包括
S1,根据商品购买数据挖掘商品购买的关联组合;
本发明实施例中,提供一种包含所述商品购买的关联组合的数据表,称为商品购买关联组合表;
所述商品购买关联组合表包括商品的关联组合,购买金额、分类编码(商品分类的编码);
所述根据商品购买数据挖掘商品购买的关联组合采用数据库的concat函数或数据挖掘语言的transactions函数进行数据挖掘;
具体应用中,需先将将商品购买数据表进行行列转置,转换成适合数据挖掘的形式,然后进行关联组合的数据挖掘,行列转置方法采用数据库中公知的行列转置方法;
表3为本发明实施例的商品购买关联组合表;关联组合{奶粉,尿布}表示购买奶粉的同时购买尿布,以此类推。
序号 | 关联组合(项集) | 购买金额 | 分类编码 |
1 | {奶粉,尿布} | {400,119} | {S3,S3} |
2 | {奶粉,面膜} | {400,499} | {S3,S4} |
3 | {奶粉,尿布,面膜} | {400,119,499} | {S3,S3,S4} |
4 | {篮球,耳机} | {299,89} | {S8,S9} |
5 | {牛奶,面包} | {20,30} | {S5,S12} |
6 | {奶酪,火腿} | {30,86} | {S12,S12} |
表3
进一步地,在步骤S1之前,本发明实施例还提供一种商品购买数据的处理方法,如图2所示,包括以下步骤:
步骤C1:创建用户商品购买数据表并导入原始数据;
所述用户商品购买数据表包括字段:购买人员ID,商品名称,购买金额,购买日期,商品分类,商品分类编码;
所述商品分类包括至少一个分类级别;所述商品分类编码为对商品类别进行的编码标志,包括至少一个编码号;原始数据采自商超或者电商平台;
表1为本发明实施例导入原始数据后的用户商品购买数据表的片段;
表1
步骤c2:对用户商品购买数据表中的数据进行预处理;
数据预处理包括:
c21,消除缺失值;
缺失值的处理应用删除法(直接排除缺失行),均值替换法(以均值替换缺失值),回归插补法(以回归替换缺失值)等方法,均为现有技术;
C22,消除异常值。
异常值的甄别方法可采用距离甄别法或密度甄别法(即LOF算法,Local OutlierFactor,局部离群因子检测方法);两种方法均为现有技术,在此不再赘述;
异常值的处理分为三种情况:
异常值处理方法 | 方法描述 |
删除含有异常值的记录 | 直接将含有异常值的记录删除 |
视为缺失值 | 将异常值视为缺失值,利用缺失值处理方式处理 |
不处理 | 直接将含有异常值的数据集上挖掘建模 |
此外,数据预处理还包括数据冗余的处理,即重复值多次出现,重复数据可根据具体业务处理。
步骤c3:对预处理后的数据进行数据间隔处理;
所述数据间隔处理具体为:将同一顾客特定时间间隔内的的购买行为视为同次购买,间隔外的为不同次购买。所述特定时间间隔根据业务设置;
在本发明实施例中,设置同一顾客间隔3天内的视为同一购买,间隔超过3天的购买不视为同次购买;
对表1中的数据进行数据间隔处理后的数据片段如表2所示;
表2
S2,提取所述关联组合的关联规则;
关联规则即推荐规则;一个关联组合可对应多个关联规则;
提取所述关联组合的关联规则具体为:采用数据挖掘中的apriori算法提取,apriori算法为公知的现有技术。
S3,获取关联规则的关联值;
本发明实施例提供一种获取关联规则的关联值的方法,如图3所示,包括以下步骤:
步骤A1:提取各关联规则对应的支持度、置信度、提升度;
发明实施例中,提供一种包括所述关联规则对应的支持度、置信度、提升度的数据表,称为商品购买关联规则推荐表;所述商品购买关联规则推荐表包括关联规则、支持度、置信度、提升度;
如表4为本发明实施例的商品购买关联规则推荐表;关联规则(奶粉=>面膜)表示向购买奶粉的用户推荐面膜,以此类推;关联组合{奶粉,尿布}可能有两个关联规则,奶粉=>尿布与尿布=>奶粉。
序号 | 关联规则(项集) | 支持度 | 置信度 | 提升度 |
1 | 奶粉=>面膜 | 0.011 | 0.58 | 1.19 |
2 | 奶粉=>尿布 | 0.014 | 0.65 | 1.39 |
3 | 红酒=>牛排 | 0.005 | 0.39 | 0.98 |
4 | 牛奶=>面包 | 0.017 | 0.63 | 1.31 |
5 | 奶酪=>火腿 | 0.009 | 0.50 | 1.04 |
表4
所述提取各关联规则对应的支持度,置信度,提升度的方法具体为:
支持度:项集中Z,Y同时发生的概率,即同时发生Z,Y在总项集I中发生的概率。
Support(X=>Y)=P(X∩Y)/P(I)=num(X∩Y)/num(I)
其中,Support(Z=>Y)表示关联规则(Z=>Y)的支持度;P(Z∩Y)表示Z,Y同时在总项集里出现的概率;Z,Y表示项集中的项;I表示总项集;num()表示求总项集里特定项集出现的次数;num(Z∩Y)表示含有X和Y的项集的个数(即次数);num(I)表示总项集的个数;
项集即项的集合,包含K个项的项集称为K项集;如上文中关联组合{奶粉,面膜}为一个2项集;计算关联规则(奶粉=>面膜)的支持度即计算同时购买奶粉和面膜的次数占总项集数的比率;
置信度:项集中Z发生的情况下,Y发生的概率。表示在发生Z的项集中,同时会发生Y的可能性,即X和Y同时发生的个数占仅仅Z发生个数的比例,公式为:
Confidence(X=>Y)=P(Y|X)=P(X∩Y)/P(X)
其中,Confidence(X=>Y)表示关联规则(X=>Y)的置信度;P(Y|Z)表示在发生X的项集中,同时会发生Y的概率;P(X∩Y)表示Z,Y同时在总项集里出现的概率,P(X)表示X在总项集里出现的概率;
提升度:表示含有X的条件下同时含有Y的概率,与Y总体发生的概率之比。
Lift(X→Y)=P(Y|X)/P(Y)
其中,Lift(Z=>Y)表示关联规则(X=>Y)的提升度;P(Y)表示项集{Y}在总项集里出现的概率;
提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性,即相互独立。
步骤A2:对关联规则的支持度,置信度,提升度进行归一化处理;
其中,jn分别表示归一化处理后的支持度,置信度,提升度值,分别取j1,j2,j3;j分别表示归一化处理前的支持度,置信度,提升度原始值;
步骤A3:计算关联规则的关联值;
r=w1j1+w2j2+w3j3
其中,w1,w2,w3分别为支持度,置信度,提升度的权重,一般为1/3,1/3,1/3,也可以根据重要性和实际业务场景进行权重调整。
S4,获取关联规则的经济值;
本发明实施例提供一种获取关联规则的经济值的方法,如图4所示,包括以下步骤:
步骤B1:计算关联规则的推荐值与交易值;
所述推荐值包括推荐值(次)、推荐值(总);所述交易值包括交易值(次)、交易值(总);
推荐值(次):表示次均推荐值,即达成一次关联规则推荐,推荐的项的购买金额均值;
推荐值(总):表示达成关联规则推荐的次数×推荐的项的购买金额均值;
交易值(次):表示次均交易值,即达成一次关联规则推荐,关联规则推荐组合中所有项的购买金额均值之和;
交易值(总):表示达成关联规则推荐的次数×关联规则推荐组合中所有项的购买金额均值之和。
其中,购买金额均值计算方法如下:
计算关联规则(Z=>Y)中Z,Y的购买均值包括:
a,首先提取关联组合项集中所有包含Z和Y的关联组合项集的行;
b,接着计算X的购买金额均值,计算Y的购买金额均值。
本发明实施例中,以计算关联规则(奶粉=>面膜)为例;提取商品购买关联组合表中所有包含奶粉和面膜的关联组合项集的行如下表4,
表4
购买金额均值:次均奶粉购买金额(400+400)/2=400元,次均面膜购买金额(499+499)/2=499元;
推荐值(次):如达成一次奶粉=>面膜的推荐,则推荐面膜推荐值为(499+499)/2=499元;
推荐值(总):如奶粉=>面膜总共发生10次,则推荐面膜总推荐值为10×499=4990元;如奶粉=>尿布总共发生20次,则推荐面膜总推荐值为20×199=2980元;
交易值(次):奶粉=>面膜平均每次购买产生的交易价为400+499=899元。
交易值(总):如奶粉=>面膜共发生10次,总共产生的交易值为2×(400+499)=8990元。
本发明实施例中,计算的推荐值及交易值示例如下表5:
表5
步骤B2,对关联规则的推荐值和交易值进行归一化处理;
其中,in分别表示归一化处理后的推荐值(次),推荐值(总),交易值(次),交易值(总),分别取i1,i2,i3,i4;i分别表示归一化处理前的推荐值(次),推荐值(总),交易值(次),交易值(总)原始值;
步骤B3:,计算关联规则的经济值;
关联规则(X=>Y)的经济值为:
e=v1i1+v2i2+v3i3+v4i4
其中,v1,v2,v3,v4为权重,i1,i2,i3,i4分别为推荐值(次),推荐值(总),交易值(次),交易值(总)。
S5,计算关联规则的关联度-经济值的联合推荐值;
L=e×r
L表示关联规则的联合推荐值;e表示关联规则的关联值;r表示关联规则的经济值;联合推荐值越大,效果越好。
联合推荐值Y取决于关联值e乘以经济值r的面积,如图5为本发明实施例中关联规则的关联-经济曲线图(即Er面积图),rule1,rule2,rule3,rule4,rule5表示5种关联规则;表6为关联规则的关联值、经济值、联合推荐值表;
序号 | 关联规则 | 关联规则编号 | Y | r | e |
1 | 奶粉=>面膜 | rule1 | y1 | r1 | e1 |
2 | 奶粉=>尿布 | rule2 | y2 | r2 | e2 |
3 | 篮球=>耳机 | rule3 | y3 | r3 | e3 |
4 | 红酒=>牛排 | rule4 | y4 | r4 | e4 |
5 | 服装=>化妆品 | rule5 | y5 | r5 | e5 |
表6
由图5可看出,rule5面积最大,e和r均较高,效果最好;而rule2奶粉=>尿布虽然r较高,但是e过低,整体价值并不高;rule4红酒=>牛排虽然e较高,但是r过低,整体价值并不高;而rule1奶粉=>面膜整体推荐价值较rule2和rule4高;rule3整体推荐价值最低。实际推荐中,可依据联合推荐值高低结合业务场景推荐,较传统的关联推荐效果好。
S6,根据联合推荐值选择相应关联规则进行商品推荐。
实施例二
图6是本发明优选实施例一种基于关联规则关联度和经济值的推荐系统结构图。所述系统包括:
商品购买关联组合挖掘模块,根据商品购买数据挖掘商品购买的关联组合;
本发明实施例中,提供一种包含所述商品购买的关联组合的数据表,称为商品购买关联组合表;所述商品购买关联组合表包括商品的关联组合,购买金额、分类编码(商品分类的编码);
所述根据商品购买数据挖掘商品购买的关联组合采用数据库的concat函数或数据挖掘语言的transactions函数进行数据挖掘;
具体应用中,需先将将商品购买数据表进行行列转置,转换成适合数据挖掘的形式,然后进行关联组合的数据挖掘,行列转置方法采用数据库中公知的行列转置方法;
关联规则提取模块,用于提取所述关联组合的关联规则;
关联规则即推荐规则;一个关联组合可对应多个关联规则;提取所述关联组合的关联规则具体为:采用数据挖掘中的apriori算法提取,apriori算法为公知的现有技术。
关联值获取装置,用于获取关联规则的关联值;
经济值获取装置,用于获取关联规则的关联值;
联合推荐值计算模块,用于计算关联规则的关联度-经济值的联合推荐值;
L=e×r
L表示关联规则的联合推荐值;e表示关联规则的关联值;r表示关联规则的经济值;联合推荐值越大,效果越好。
商品推荐模块,用于根据联合推荐值选择相应关联规则进行商品推荐。
进一步地,所示系统还包括进一种商品购买数据的处理装置,如图7所示,是本发明优选实施例一种商品购买数据的处理装置结构图;包括:
用户商品购买数据表创建模块,用于创建用户商品购买数据表并导入原始数据;
所述用户商品购买数据表包括字段:购买人员ID,商品名称,购买金额,购买日期,商品分类,商品分类编码;所述商品分类包括至少一个分类级别;所述商品分类编码为对商品类别进行的编码标志,包括至少一个编码号;原始数据采自商超或者电商平台;
数据预处理装置,用于对用户商品购买数据表中的数据进行预处理;
所述数据预处理包括:消除缺失值和消除异常值;缺失值的处理应用删除法(直接排除缺失行),均值替换法(以均值替换缺失值),回归插补法(以回归替换缺失值)等方法,均为现有技术;异常值的甄别方法可采用距离甄别法或密度甄别法(即LOF算法,LocalOutlier Factor,局部离群因子检测方法);两种方法均为现有技术,在此不再赘述;
数据间隔处理模块,对预处理后的数据进行数据间隔处理;
所述数据间隔处理具体为:将同一顾客特定时间间隔内的的购买行为视为同次购买,间隔外的为不同次购买。所述特定时间间隔根据业务设置;
进一步地,图8是本发明优选实施例一种获取关联规则的关联值装置结构图;所述关联值获取装置包括:
支持度、置信度、提升度提取模块,用于提取各关联规则对应的支持度、置信度、提升度;包括:
支持度提取模块,用于提取关联规则对应的支持度;
所述提取各关联规则对应的支持度,置信度,提升度具体为:
支持度:项集中Z,Y同时发生的概率,即同时发生Z,Y在总项集I中发生的概率。
Support(X=>Y)=P(X∩Y)/P(I)=num(X∩Y)/num(I)
其中,Support(Z=>Y)表示关联规则(Z=>Y)的支持度;P(Z∩Y)表示Z,Y同时在总项集里出现的概率;Z,Y表示项集中的项;I表示总项集;num()表示求总项集里特定项集出现的次数;num(X∩Y)表示含有X和Y的项集的个数(即次数);num(I)表示总项集的个数;
项集即项的集合,包含K个项的项集称为K项集;如上文中关联组合{奶粉,面膜}为一个2项集;计算关联规则(奶粉=>面膜)的支持度即计算同时购买奶粉和面膜的次数占总项集数的比率;
置信度提取模块,用于提取关联规则对应的置信度;
置信度:项集中Z发生的情况下,Y发生的概率。表示在发生Z的项集中,同时会发生Y的可能性,即Z和Y同时发生的个数占仅仅X发生个数的比例;
Confidence(X=>Y)=P(Y|X)=P(X∩Y)/P(X)
其中,Confidence(X=>Y)表示关联规则(X=>Y)的置信度;P(Y|X)表示在发生X的项集中,同时会发生Y的概率;P(Z∩Y)表示Z,Y同时在总项集里出现的概率,P(Z)表示Z在总项集里出现的概率;
提升度提取模块,用于提取关联规则对应的提升度;
提升度:表示含有Z的条件下同时含有Y的概率,与Y总体发生的概率之比。
Lift(X→Y)=P(Y|X)/P(Y)
其中,Lift(X=>Y)表示关联规则(Z=>Y)的提升度;P(Y)表示项集{Y}在总项集里出现的概率;
提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性,即相互独立。
第一归一化处理模块,用于对关联规则的支持度,置信度,提升度进行归一化处理;
其中,jn分别表示归一化处理后的支持度,置信度,提升度值,分别取j1,j2,j3;j分别表示归一化处理前的支持度,置信度,提升度原始值;
关联值计算模块,用于计算关联规则的关联值;
r=w1j1+w2j2+w3j3
其中,w1,w2,w3分别为支持度,置信度,提升度的权重,一般为1/3,1/3,1/3,也可以根据重要性和实际业务场景进行权重调整。
进一步地,图9是本发明优选实施例一种获取关联规则的经济值装置结构图。包括:
推荐值与交易值计算模块,用于计算关联规则的推荐值与交易值;
所述推荐值包括推荐值(次)、推荐值(总);所述交易值包括交易值(次)、交易值(总);
推荐值(次):表示次均推荐值,即达成一次关联规则推荐,推荐的项的购买金额均值;
推荐值(总):表示达成关联规则推荐的次数×推荐的项的购买金额均值;
交易值(次):表示次均交易值,即达成一次关联规则推荐,关联规则推荐组合中所有项的购买金额均值之和;
交易值(总):表示达成关联规则推荐的次数×关联规则推荐组合中所有项的购买金额均值之和。
其中,购买金额均值计算方法如下:
计算关联规则(X=>Y)中X,Y的购买均值包括:
a,首先从商品购买关联组合表中,提取关联组合项集中所有包含X和Y
的关联组合项集的行;
b,计算X的购买金额均值,计算Y的购买金额均值。
第二归一化处理模块,用于对关联规则的推荐值和交易值进行归一化处理;
其中,in分别表示归一化处理后的推荐值(次),推荐值(总),交易值(次),交易值(总),分别取i1,i2,i3,i4;i分别表示归一化处理前的推荐值(次),推荐值(总),交易值(次),交易值(总)原始值;
经济值计算模块,用于计算关联规则的经济值;
关联规则(X=>Y)的经济值为:
e=v1i1+v2l2+v3l3+v4l4
其中,v1,v2,v3,v4为权重,i1,i2,i3,i4分别为推荐值(次),推荐值(总),交易值(次),交易值(总)。
本领域的普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序指令相关硬件来完成的,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质可以为ROM、RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于关联规则关联度和经济值的推荐方法,其特征在于,所述方法包括,
根据商品购买数据挖掘商品购买的关联组合;
提取所述关联组合的关联规则,一个关联组合对应多个关联规则;
获取关联规则的关联值:
步骤A1:提取各关联规则对应的支持度、置信度、提升度;
步骤A2:对关联规则的支持度,置信度,提升度进行归一化处理;
步骤A3:计算关联规则的关联值;
获取关联规则的经济值:
步骤B1:计算关联规则的推荐值与交易值;
步骤B2,对关联规则的推荐值和交易值进行归一化处理;
步骤B3:计算关联规则的经济值;
所述推荐值包括次均推荐值、推荐总值;所述交易值包括次均交易值、交易总值;
次均推荐值:表示达成一次关联规则推荐,推荐的项的购买金额均值;
推荐总值:表示达成关联规则推荐的次数×推荐的项的购买金额均值;
次均交易值:表示达成一次关联规则推荐,关联规则推荐组合中所有项的购买金额均值之和;
交易总值:表示达成关联规则推荐的次数×关联规则推荐组合中所有项的购买金额均值;
计算关联规则的经济值,具体为:
关联规则X=>Y的经济值为:
e=v1i1+v2i2+v3i3+v4i4
其中,v1,v2,v3,v4为权重,i1,i2,i3,i4分别为次均推荐值,推荐总值,次均交易值,交易总值;
计算关联规则的关联度-经济值的联合推荐值:
所述关联度-经济值的联合推荐值为:L=e×r;
L表示关联规则的联合推荐值;e表示关联规则的经济值;r表示关联规则的关联值;
根据联合推荐值选择相应关联规则进行商品推荐;
商品购买的关联组合以数据表呈现,数据表包括字段:商品的关联组合,购买金额和分类编码;
所述根据商品购买数据挖掘商品购买的关联组合之前还包括:
步骤C1:创建用户商品购买数据表并导入原始数据;先将用户商品购买数据表进行行列转置,转换成适合数据挖掘的形式;
步骤C2:对用户商品购买数据表中的数据进行预处理;
步骤C3:对预处理后的数据进行数据间隔处理;
所述用户商品购买数据表包括字段:购买人员ID,商品名称,购买金额,购买日期,商品分类和商品分类编码;
提取各关联规则对应的支持度,置信度,提升度具体为:
支持度:项集中X,Y同时发生的概率;
Support(X=>Y)=num(X∩Y)/num(I)
其中,Support(X=>Y)表示关联规则X=>Y的支持度;X,Y表示项集中的项;I表示总项集;num()表示求总项集里特定项集出现的次数;num(X∩Y)表示含有X和Y的项集的个数;num(I)表示总项集的个数;
项集即项的集合,包含K个项的项集称为K项集;
置信度:项集中X发生的情况下,Y发生的概率;
Confidence(X=>Y)=P(Y|X)=P(X∩Y)/P(X)
其中,Confidence(X=>Y)表示关联规则X=>Y的置信度;P(Y|X)表示在发生X的项集中,同时会发生Y的概率;P(X∩Y)表示X,Y同时在总项集里出现的概率,P(X)表示X在总项集里出现的概率;
提升度:表示含有X的条件下同时含有Y的概率,与Y总体发生的概率之比;
Lift(X=>Y)=P(Y|X)/P(Y)
其中,Lift(X=>Y)表示关联规则X=>Y的提升度;P(Y)表示项集{Y}在总项集里出现的概率;
对关联规则的支持度,置信度,提升度进行归一化处理,具体为:
其中,jn分别表示归一化处理后的支持度,置信度,提升度值,分别取j1,j2,j3;j分别表示归一化处理前的支持度,置信度,提升度原始值;
计算关联规则的关联值,具体为:
r=w1j1+w2j2+w3j3
其中,w1,w2,w3分别为支持度,置信度,提升度的权重;
其中,购买金额均值计算方法如下:
计算关联规则X=>Y中X,Y的购买均值包括:
a,首先提取关联组合项集中所有包含X和Y的关联组合项集的行;
b,接着计算X的购买金额均值,计算Y的购买金额均值;
对关联规则的推荐值和交易值进行归一化处理,具体为:
其中,in分别表示归一化处理后的次均推荐值,推荐总值,次均交易值,交易总值,分别取i1,i2,i3,i4;i分别表示归一化处理前的次均推荐值,推荐总值,次均交易值,交易总值。
2.如权利要求1所述的基于关联规则关联度和经济值的推荐方法,其特征在于,数据预处理包括:
消除缺失值;
消除异常值;
异常值的甄别方法采用距离甄别法或密度甄别法。
3.如权利要求2所述的基于关联规则关联度和经济值的推荐方法,其特征在于,
所述数据间隔处理具体为:将同一顾客特定时间间隔内的购买行为视为同次购买,间隔外的为不同次购买;所述特定时间间隔根据业务类型设置。
4.一种基于关联规则关联度和经济值的推荐系统,其特征在于,所述系统包括:
商品购买关联组合挖掘模块,根据商品购买数据挖掘商品购买的关联组合;商品购买的关联组合以数据表呈现,数据表包括字段:商品的关联组合,购买金额和分类编码;
关联规则提取模块,用于提取所述关联组合的关联规则,一个关联组合对应多个关联规则;
关联值获取装置,用于获取关联规则的关联值;
所述关联值获取装置包括:
支持度、置信度、提升度提取模块,用于提取各关联规则对应的支持度、置信度、提升度;
第一归一化处理模块,用于对关联规则的支持度,置信度,提升度进行归一化处理;
关联值计算模块,用于计算关联规则的关联值;
经济值获取装置,用于获取关联规则的关联值;
所述经济值获取装置包括:
推荐值与交易值计算模块,用于计算关联规则的推荐值与交易值;
第二归一化处理模块,用于对关联规则的推荐值和交易值进行归一化处理;
经济值计算模块,用于计算关联规则的经济值;
所述推荐值包括次均推荐值、推荐总值;所述交易值包括次均交易值、交易总值;
次均推荐值:表示达成一次关联规则推荐,推荐的项的购买金额均值;
推荐总值:表示达成关联规则推荐的次数×推荐的项的购买金额均值;
次均交易值:表示达成一次关联规则推荐,关联规则推荐组合中所有项的购买金额均值;
交易总值:表示达成关联规则推荐的次数×关联规则推荐组合中所有项的购买金额均值之和;
计算关联规则的经济值,具体为:
关联规则X=>Y的经济值为:
e=v1i1+v2i2+v3i3+v4i4
其中,v1,v2,v3,v4为权重,i1,i2,i3,i4分别为次均推荐值,推荐总值,次均交易值,交易总值;
联合推荐值计算模块,用于计算关联规则的关联度-经济值的联合推荐值;
联合推荐值获取模块中,关联度-经济值的联合推荐值计算公式为L=e×r,L表示关联规则的联合推荐值;e表示关联规则的经济值;r表示关联规则的关联值;
商品推荐模块,用于根据联合推荐值选择相应关联规则进行商品推荐;
所述系统还包括:
用户商品购买数据表创建模块,用于创建用户商品购买数据表并导入原始数据;先将用户商品购买数据表进行行列转置,转换成适合数据挖掘的形式;所述用户商品购买数据表包括字段:购买人员ID,商品名称,购买金额,购买日期,商品分类和商品分类编码;
数据预处理装置,用于对用户商品购买数据表中的数据进行预处理;
数据间隔处理模块,对预处理后的数据进行数据间隔处理;
提取各关联规则对应的支持度,置信度,提升度具体为:
支持度:项集中X,Y同时发生的概率;
Support(X=>Y)=num(X∩Y)/num(I)
其中,Support(X=>Y)表示关联规则X=>Y的支持度;X,Y表示项集中的项;I表示总项集;num()表示求总项集里特定项集出现的次数;num(X∩Y)表示含有X和Y的项集的个数;num(I)表示总项集的个数;
项集即项的集合,包含K个项的项集称为K项集;
置信度:项集中X发生的情况下,Y发生的概率;
Confidence(X=>Y)=P(Y|X)=P(X∩Y)/P(X)
其中,Confidence(X=>Y)表示关联规则X=>Y的置信度;P(Y|X)表示在发生X的项集中,同时会发生Y的概率;P(X∩Y)表示X,Y同时在总项集里出现的概率,P(X)表示X在总项集里出现的概率;
提升度:表示含有X的条件下同时含有Y的概率,与Y总体发生的概率之比;
Lift(X=>Y)=P(Y|X)/P(Y)
其中,Lift(X=>Y)表示关联规则X=>Y的提升度;P(Y)表示项集{Y}在总项集里出现的概率;
第一归一化处理模块,用于对关联规则的支持度,置信度,提升度进行归一化处理具体为:
其中,jn分别表示归一化处理后的支持度,置信度,提升度值,分别取j1,j2,j3;j分别表示归一化处理前的支持度,置信度,提升度原始值;
所述关联值计算模块中,计算关联规则的关联值具体为:
r=w1j1+w2j2+w3j3
其中,w1,w2,w3分别为支持度,置信度,提升度的权重;
其中,购买金额均值计算方法如下:
计算关联规则X=>Y中X,Y的购买均值包括:
a,首先提取关联组合项集中所有包含X和Y的关联组合项集的行;
b,接着计算X的购买金额均值,计算Y的购买金额均值;
对关联规则的推荐值和交易值进行归一化处理,具体为:
其中,in分别表示归一化处理后的次均推荐值,推荐总值,次均交易值,交易总值,分别取i1,i2,i3,i4;i分别表示归一化处理前的次均推荐值,推荐总值,次均交易值,交易总值。
5.如权利要求4所述的基于关联规则关联度和经济值的推荐系统,其特征在于,所述数据预处理包括:消除缺失值和消除异常值;
异常值的甄别方法采用距离甄别法或密度甄别法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910291782.1A CN110197390B (zh) | 2019-04-09 | 2019-04-09 | 一种基于关联规则关联度和经济值的推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910291782.1A CN110197390B (zh) | 2019-04-09 | 2019-04-09 | 一种基于关联规则关联度和经济值的推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110197390A CN110197390A (zh) | 2019-09-03 |
CN110197390B true CN110197390B (zh) | 2024-01-05 |
Family
ID=67751814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910291782.1A Active CN110197390B (zh) | 2019-04-09 | 2019-04-09 | 一种基于关联规则关联度和经济值的推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110197390B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929106B (zh) * | 2018-09-20 | 2022-08-09 | 百度在线网络技术(北京)有限公司 | 用于获取目标数据的方法及装置 |
CN110852863B (zh) * | 2019-11-15 | 2023-06-23 | 安徽海汇金融投资集团有限公司 | 一种基于关联分析的应收账款流转推荐方法及系统 |
CN111080411B (zh) * | 2019-12-17 | 2023-09-15 | 深圳市梦网视讯有限公司 | 一种基于网络中心度的商品推送方法、系统及终端设备 |
CN111986036A (zh) * | 2020-08-31 | 2020-11-24 | 平安医疗健康管理股份有限公司 | 医疗风控规则生成方法、装置、设备及存储介质 |
CN112053210B (zh) * | 2020-09-11 | 2023-12-05 | 深圳市梦网视讯有限公司 | 一种基于商品社区分类的关联值传播方法、系统及设备 |
CN112819541A (zh) * | 2021-02-08 | 2021-05-18 | 杭州唯赞数据科技有限公司 | 商品推荐方法、系统、计算机设备及存储介质 |
CN116664172B (zh) * | 2023-08-02 | 2023-11-21 | 同心县启胜新能源科技有限公司 | 基于大数据的食品销售数据挖掘分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090001997A (ko) * | 2007-05-31 | 2009-01-09 | 엔에이치엔(주) | 키워드 추천 방법 및 그 시스템 |
CN106296290A (zh) * | 2016-08-11 | 2017-01-04 | 浪潮软件股份有限公司 | 一种基于大数据和数据挖掘的个性化订单推荐方法 |
CN106407349A (zh) * | 2016-09-06 | 2017-02-15 | 北京三快在线科技有限公司 | 一种产品推荐方法及装置 |
CN107730336A (zh) * | 2016-08-12 | 2018-02-23 | 苏宁云商集团股份有限公司 | 一种在线交易中的商品推送方法及装置 |
CN108470247A (zh) * | 2018-03-15 | 2018-08-31 | 南京国电南自电网自动化有限公司 | 基于关联规则分类的光伏电站经营辅助决策方法 |
-
2019
- 2019-04-09 CN CN201910291782.1A patent/CN110197390B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090001997A (ko) * | 2007-05-31 | 2009-01-09 | 엔에이치엔(주) | 키워드 추천 방법 및 그 시스템 |
CN106296290A (zh) * | 2016-08-11 | 2017-01-04 | 浪潮软件股份有限公司 | 一种基于大数据和数据挖掘的个性化订单推荐方法 |
CN107730336A (zh) * | 2016-08-12 | 2018-02-23 | 苏宁云商集团股份有限公司 | 一种在线交易中的商品推送方法及装置 |
CN106407349A (zh) * | 2016-09-06 | 2017-02-15 | 北京三快在线科技有限公司 | 一种产品推荐方法及装置 |
CN108470247A (zh) * | 2018-03-15 | 2018-08-31 | 南京国电南自电网自动化有限公司 | 基于关联规则分类的光伏电站经营辅助决策方法 |
Non-Patent Citations (7)
Title |
---|
唐明慧.基于多目标模型的电子商务网站结构优化研究.中国优秀硕士学位论文全文数据库.2014,原文第29-37页. * |
基于个性化导购的商品智能动态推荐系统;姚剑;余炎;黄诗盛;赵培;;价值工程(第35期);全文 * |
基于加权关联规则挖掘算法的电子商务商品推荐系统研究;郝海涛等;《现代电子技术》;20160801(第15期);全文 * |
基于多源数据融合的移动商务个性化服务研究;陈志刚等;《图书馆理论与实践》;20180430(第04期);全文 * |
基于多目标模型的电子商务网站结构优化研究;唐明慧;中国优秀硕士学位论文全文数据库;原文第29-37页 * |
基于矩阵多源加权关联规则在个性化推荐中的应用;朱清香;科技管理研究;第35卷(第1期);原文第183-187页 * |
浅析电子商务中关联推荐算法的应用;叶建龙;《电子测试》;20171115(第22期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110197390A (zh) | 2019-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110197390B (zh) | 一种基于关联规则关联度和经济值的推荐方法和系统 | |
US7299194B1 (en) | Method and system for researching sales effects of advertising using association analysis | |
US6230064B1 (en) | Apparatus and a method for analyzing time series data for a plurality of items | |
Sagin et al. | Determination of association rules with market basket analysis: application in the retail sector | |
CN107133865B (zh) | 一种信用分的获取、特征向量值的输出方法及其装置 | |
CN107332910B (zh) | 信息推送方法和装置 | |
CN106991335A (zh) | 一种基于差分隐私保护的数据发布方法 | |
CN111292164B (zh) | 一种商品推荐方法、装置、电子设备及可读存储介质 | |
JP6679451B2 (ja) | 選択装置、選択方法および選択プログラム | |
CN111275294A (zh) | 一种商品信息批量处理分析方法、装置和设备 | |
Cho et al. | Effective purchase pattern mining with weight based on FRAT analysis for recommender in e-commerce | |
CN112016975A (zh) | 产品筛选方法、装置、计算机设备及可读存储介质 | |
CN111340578A (zh) | 一种商品关联关系的生成方法、装置、介质及电子设备 | |
Tang | A simple approach of data mining in excel | |
CN111105291A (zh) | 一种推荐策略数据的生成方法及装置 | |
CN111507804B (zh) | 基于混合信息融合的情感感知商品推荐方法 | |
CN112819570B (zh) | 一种基于机器学习的商品智能搭配推荐方法 | |
CN117557347B (zh) | 一种电子商务平台用户行为管理方法 | |
CN110580490A (zh) | 一种确定人员行为概率的方法、装置及设备 | |
CN115456723B (zh) | 一种基于云计算的服饰交易商城系统 | |
CN111881355B (zh) | 对象的推荐方法、装置、存储介质和处理器 | |
CN116934418B (zh) | 一种异常订单的检测预警方法、系统、设备及存储介质 | |
Güden et al. | Online shopping customer data analysis by using association rules and cluster analysis | |
CN116383477A (zh) | 基于行业分类和行业表述的企业开办经营范围推荐方法 | |
CN111046111A (zh) | 一种数据处理方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 Guangdong city of Shenzhen province Nanshan District Guangdong streets high in the four Longtaili Technology Building Room 325 No. 30 Applicant after: Shenzhen mengwang video Co.,Ltd. Address before: 518000 Guangdong city of Shenzhen province Nanshan District Guangdong streets high in the four Longtaili Technology Building Room 325 No. 30 Applicant before: SHENZHEN MONTNETS ENCYCLOPEDIA INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |