CN106897911A - 一种基于用户和物品的自适应个性化推荐方法 - Google Patents
一种基于用户和物品的自适应个性化推荐方法 Download PDFInfo
- Publication number
- CN106897911A CN106897911A CN201710015604.7A CN201710015604A CN106897911A CN 106897911 A CN106897911 A CN 106897911A CN 201710015604 A CN201710015604 A CN 201710015604A CN 106897911 A CN106897911 A CN 106897911A
- Authority
- CN
- China
- Prior art keywords
- user
- item
- evaluation
- similarity
- article
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000006978 adaptation Effects 0.000 title abstract 3
- 238000011156 evaluation Methods 0.000 claims abstract description 151
- 239000011159 matrix material Substances 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000003044 adaptive effect Effects 0.000 claims abstract description 22
- 239000013598 vector Substances 0.000 claims description 50
- 230000006399 behavior Effects 0.000 claims description 21
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000011524 similarity measure Methods 0.000 claims description 4
- 241000531116 Blitum bonus-henricus Species 0.000 claims description 3
- 235000008645 Chenopodium bonus henricus Nutrition 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims description 2
- 230000001568 sexual effect Effects 0.000 claims 1
- 150000001875 compounds Chemical class 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户和物品的自适应个性化推荐方法,分为训练和个性化推荐两个阶段。训练阶段,首先平台采集用户个人信息、用户行为特征以及用户对物品的评价等数据。根据用户数据将相似用户聚类,计算用户对物品评价的平均差矩阵,据此建立基于用户聚类的预测模型,计算出该模型对所有物品的评价预测误差;根据物品的属性计算物品之间的相似度,计算用户对物品的评价平均差,建立预测模型,形成基于用户和物品的自适应预测模型。个性化推荐阶段首先判断用户所属聚类,利用融合了用户和物品的自适应预测模型,推测用户对物品的评价,将预测评价高的物品推荐给用户。本发明相比于传统的个性化推荐方法具有自适应的能力,具有更高的准确性。
Description
技术领域
本发明属于基于大数据的个性化推荐技术领域,具体涉及一种基于用户和物品的自适应个性化推荐方法。
背景技术
互联网技术的迅速发展使得大量的信息爆炸式地呈现在大众面前。信息爆炸会降低信息的使用率,也就是所谓的“信息超载”。个性化推荐是当前研究的热门领域,它可以在大量冗余信息中找到用户的需求,因此,可以很好地提升用户体验,从而提升企业营销。通过相关的机器学习及数据挖掘技术,推荐系统挖掘用户的购买倾向,将用户可能感兴趣的物品推荐给用户。一个良好的推荐系统可以挖掘出用户潜在的消费偏好,为不同的用户提供针对性的服务。
已有的基于用户或者物品的个性化推荐方法,其精度对用户数量、物品数量以及评价矩阵稀疏性具有依赖性,以上两种方法分别从用户和物品两个角度考虑问题。但是不论是只从用户角度考虑还是只从物品角度考虑,实践证明预测的精度很难让人满意。
现有技术中还没有出现将两者融合,形成一种基于用户和物品的自适应个性化推荐方法,实现较高的预测精度。
发明内容
本发明要解决的技术问题是针对现有技术中为了提高个性化推荐的精准度提出一种基于用户和物品的自适应个性化推荐方法。
为此,本发明提出的技术方案是一种基于用户和物品的自适应个性化推荐方法,该方法分为训练和个性化推荐两个阶段:
一、训练阶段:包含以下五个子步骤:
步骤1-1:数据采集及预处理,平台采集用户个人信息,用户行为特征,以及用户对物品的评价数据形成用户评价矩阵,对用户评价数据预处理,用户对物品评价的空缺值使用用户对物品的平均评价代替,若该物品无评价用户,填充评价最高值的一半;
步骤1-2:用户相似性聚类,根据采集的用户数据对用户进行聚类,使用聚类算法将用户划分为K个聚类,具有相似行为和物品喜好的用户划分为同一聚类;
步骤1-3:物品相似性计算,根据物品自身的特征属性量化为特征向量,由相似性度量公式计算两两物品之间的相似度;
步骤1-4:计算物品间的评价平均差矩阵,根据用户对物品的评价打分,计算两两物品间的平均评价的差值;
步骤1-5:建立预测模型,分为三个步骤,首先根据物品之间的相似性,建立基于物品相似性的预测模型;其次,根据用户的相似性建立基于用户聚类的预测模型,最后,将两者融合建立基于用户和物品的自适应预测模型;
二、个性化推荐阶段:包含以下三个步骤:
步骤2-1:数据采集及预处理,采集用户个人信息,用户近期行为特征,以及用户对物品的评价等数据;
步骤2-2:基于用户属性判定所属聚类,根据将采集的用户数据量化,步骤1-2已经对用户聚类,由相似性公式分别计算用户与K个聚类核心的相似性,用户与某个聚类核心的相似度最高,判定用户属于该聚类;
步骤2-3:预测用户对未评价物品的打分,根据用户的历史评价数据,利用步骤1-4中建立的基于用户和物品的自适应预测模型预测用户对未评价物品的的打分,将预测评价较高的N件物品推荐给用户。
进一步,上述步骤1-1中,所述个人信息指的是能够用于用户相似性聚类的用户信息,所述用户行为特征是从针对某件物品的行为中抽取特征,并进行量化,对用户评价信息进行量化,形成用户评价矩阵Rm×n:
m:表示用户的数量,n:表示物品的数量,rij:表示用户i对物品j的评价,R[i]代表用户i对所有商品的评价,给出相似评价的用户具有相似性,R[i]可直接用于用户相似性计算或者相似性聚类。
步骤1-4中,根据用户评价矩阵Rm×n,计算物品i与物品j的评价平均差:
rui:用户u对物品i的评价;U(i,j):对物品i,j同时给出评价的用户集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;由此可以得到物品间的评价平均差矩.形成如下物品的评价平均差矩阵DEVn×n:
其中,devi,j:物品i与物品j的评价平均差,即:用户对i物品的打分比j物品的打分平均高devi,j;n:物品的数量,主对角线元素devi,i不具有实际意义,填充为0,devi,j=-devj,i,为减少不必要的计算,仅需要计算DEVn×n的下三角或上三角元素。
作为优选,步骤1-2中所述聚类算法采用KMeans。
上述步骤1-3中计算两两物品间的相似度具体包括,提取物品自身的特征属性,并量化为向量I=[p1,p2,…,pr],r为物品属性维度,若物品属于某个价格区间或者品牌,I对应分量为1,否则为0;提取不同用户对商品的评价m为用户数量,向量代表物品i被m个用户给出的评价向量,即评价矩阵R的第i列,以I,特征向量作为物品相似性度量,若物品Itemi的特征属性向量分别为Ii,物品Itemj的特征属性向量分别为Ij,Itemi和Itemj之间的相似性α+β=1,在模型训练阶段,调整α,β使得预测误差最小,由Sim(Itemi,Itemj)可以得到物品相似性矩阵Sn×n:
其中,Sim(i,j):物品i与j之间的相似性,n:物品的数量;矩阵Sn×n为物品之间的相似性矩阵,Sn×n[i][j]为物品i与物品j的相似度量值,故Sn×n[i][j]=Sn×n[j][i],原是规模为n×n对称矩阵阵,且Sn×n[i][i]=1。
上述Sim()可以采用余弦相似性,修正余弦相似性,或者皮尔森相关系数方法。
步骤1-5具体包括,首先,建立基于物品相似性的预测模型;用户评价矩阵Rm×n给出用户u对物品j的评价ruj,若不同用户对i物品的打分比j物品的打分平均高devi,j,devij+ruj为基于j物品用户u对i物品的预测,考虑到物品i与j的相似性因素,两者越相似,Sim(i,j)越大,对最终预测结果的贡献越大,即:
其中:基于物品相似性的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
devi,j:物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高devi,j;
Sim(i,j):物品i与j之间的相似性;
I(u):被用户u评价的物品的集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;
Ri={j|j∈I(u),j≠i,N(U(i,j))>0};
其次,建立基于用户的预测模型,聚类算法根据用户相似性将用户划分为K个聚类C1,C2,…,Ck,针对每个聚类,计算物品的评价平均差矩阵 其中仅针对于第K个聚类中的用户评价数据计算,每个聚类中物品的相似性矩阵均相同,,若用户u属于第K个聚类,已知Sn×n,基于用户聚类的预测模型预测用户u对物品i的评价
基于用户聚类的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
在第K个聚类中物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高
N(U(i,j)):对物品i,j同时给出评价的用户数量;
I(u):被用户u评价的物品的集合;
集合中物品的数量;
最后,将两者融合,建立基于用户和物品的自适应预测模型,在训练阶段,在每个聚类中(C1,C2,…,Ck),分别计算基于用户聚类的方法对物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,K个聚类C1,C2,…,Ck对应的误差向量为W1,W2,…,Wk;若Wk=[α1,α2,…,αi,…,αn]为聚类Ck中不同用户对所有物品的评价预测平均误差向量,则:
其中,αi:基于用户聚类的预测模型,在Ck聚类中不同用户对物品i的平均预测误差;
mk:用户所属聚类中给出物品i评价的用户数量;
基于用户聚类的预测模型预测用户u对物品i的评价;
rui:用户u对物品i的真实评价;
由基于物品相似性的方法对所有物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,权重向量W=[β1,β2,…,βi,…,βn],则:
基于物品相似性的预测模型预测用户u对物品i的评价;
βi:基于物品相似性的预测模型计算不同用户对物品i的平均评价误差;
mall:评价矩阵中给出物品i评价的用户数量;
rui:用户u对物品i的真实评价;
融和方法,以两种方法对物品i的平均预测误差作为权重形成基于用户和物品的自适应预测方法,使得误差大者贡献小;反之,贡献大;假设用户u属于第K个聚类
用户u对物品i自适应的评价预测;
αi:若用户u属于聚类Ck,αi为聚类Ck对应的误差权重向量Wk中的第i个分量即用户u根据所在聚类的用户评价数据对物品i的平均预测误差;
βi:根据基于物品相似性的方法用户u对物品i的平均预测误差。
步骤2-1中可以对提取的用户数据需要量化,得到用户自身的特征属性向量U=[u1,u2,…,ur],用户的近期行为特征向量B=[b1,b2,…,bs],用户对物品的评价向量R[i]=[ri1,ri2,…,rin]。
步骤2-2中,判断用户所属聚类时,假设有K个聚类核心(C1,C2,…,Ck),计算用户U与每一个聚类核心的相似度Sim(U,Ci),i=1,2,3…K;有Max(Sim(U,Ci)),则用户U属于第i个聚类,从而可以确定预测评价平均误差向量Wi。
步骤2-3中具体包括:在训练阶段产生DEVn×n,Sn×n,且步骤2-1中提取了用户评价数据,据此可以使用基于物品的预测模型预测未评价的物品打分
并且已知在训练阶段基于物品相似性的方法预测物品i时的误差为βi,在步骤2-2中,确定了用户u所属的聚类,假设用户u属于第K个聚类,根据在训练阶段计算得出的 ruj∈Rm×n可以使用基于用户聚类的预测模型预测未评价物品的打分:
并且已知在训练阶段基于用户聚类的方法预测物品i时的平均误差为αi,最后形成基于用户和物品的自适应预测方法:
选择用户对预测评价较高的N件物品推送给用户。
与现有技术相比,本发明的有益效果在于:
1,在训练阶段针对每件物品分别评估基于用户的和基于物品的评价预测模型的预测精度,将其预测误差作为两种方法的加权,使其性能优异者对最终的预测贡献最大,并且权重针对每一件物品都是不同的,因此,本发明提出的预测方法是一种自适应的,最终提高了预测用户对物品评价的精确度。
2,本发明将用户可能感兴趣的物品推荐给用户,很好地提升了用户体验,从而提升企业营销,可以广泛应用于电商、娱乐等门户网站。
附图说明
图1为一种基于用户和物品的自适应个性化推荐系统和方法图。
具体实施方式
现结合说明书附图对本发明的具体实施方式作进一步详细说明。
如图1所示,一种基于用户和物品的自适应个性化推荐方法,该方法分为训练和个性化推荐两个阶段。
训练阶段主要包含数据采集及预处理、用户相似性聚类、物品相似性计算、计算物品间的评价平均差矩阵、建立预测模型五个部分。
在数据采集及预处理部分,平台采集用户个人信息,个人信息通常为性别,年龄,职业等。用户行为特征,通常为浏览物品,购买物品等行为,以及用户对物品的评价形成评价矩阵Rm×n等数据
rij:户i对物品j的评价;m:户数量;n:品数量;将评价矩阵Rm×n中的空缺值使用用户对物品的平均评价代替。
在用户相似性聚类部分,提取用户自身的个人信息,通常为性别,年龄,职业等,并量化为用户特征属性向量U=[u1,u2,…,ur],r为用户属性维度;提取用户的行为特征,通常为浏览物品,购买物品等行为,并量化为用户行为特征向量B=[b1,b2,…,bs],s为用户行为特征维度;提取用户对物品的评价并量化为用户评价向量R[i]=[ri1,ri2,…,rin],n为物品数量;一般主要以U,B,R[i]向量作为用户相似性度量进行聚类。若用户Useri的特征属性向量分别为Ui,Bi,R[i],用户Userj的特征属性向量分别为Uj,Bj,R[j],用户Useri,Userj之间的相似性Sim(Useri,Userj)=αSim(Ui,Uj)+βSim(Bi,Bj)+γSim(R[i],R[j]),α+β+γ=1。Sim()一般采用余弦相似性,调整余弦相似性,Peason相关系数其中的一种。由用户相似性度量Sim(Useri,Userj)作为相似距离,根据聚类算法将用户聚类,得到K个用户聚类C1,C2,…,Ck,聚类算法可以采用KMeans.Sim(Useri,Userj)的计算方法影响聚类结果,继而影响基于用户聚类的预测模型对未评价物品的预测精度,训练阶段调节α,β,γ使得预测误差最小。需要进一步说明,需要将抽取的用户信息量化,比如用户信息可以量化为向量U[gender,age1…age10,profession1,profession2…,professionn],若性别为男,gender为1,反之为0;若0<age<=10,age1=1,反之为0;若10<age<=20,age2=1,反之为0;若age>90,age10=1,反之为0;用户属于某个职业professioni,professioni=1,反之为0;得到向量U后可直接用于计算用户相似性或者用户相似性聚类.比如考虑用户浏览物品的驻留时间和频率,用户行为特征可以量化为,B1=[freq1,freq2,…,freqn],freqi=(用户浏览物品i的次数)/(用户对所有商品浏览的总次数);B2=[t1,t2,…,tn],ti=(在一次会话中浏览物品i的时间)/(在一次会话中浏览物品的总时间);B=B1+B2,B[i]的值越大,代表用户越喜欢该物品i,向量可直接用于计算用户相似性或者用户相似性聚类;比如用户评价信息可以这样量化:若评价为5星评价对应1-5分,若评价为好评差评对应0和1,户评价矩阵Rm×n,m代表用户的数量,n代表物品的数量,R[i][j]代表用户i对物品j的评价。若R[i]代表用户i对所有商品的评价(评价矩阵的第i行),给出相似评价的用户具有相似性,R[i]可直接用于用户相似性计算或者相似性聚类。以上亦可使用其他的信息量化的方法。在这里,综合用户的特征向量U,B,R[i]计算相似性及聚类。
在物品相似性计算部分,提取物品自身的特征属性,一般为物品价格,品牌,用途等并量化为向量I=[p1,p2,…,pr],r为物品属性维度,若物品属于某个价格区间或者品牌,I对应分量为1,否则为0;提取不同用户对商品的评价m为用户数量,向量代表物品i被m个用户给出的评价向量,即评价矩阵R的第i列。一般以I,特征向量作为物品相似性度量,若物品Itemi的特征属性向量分别为Ii,物品Itemj的特征属性向量分别为Ij,Itemi和Itemj之间的相似性α+β=1,Sim()一般采用余弦相似性,调整余弦相似性,Peason相关系数其中的一种,物品之间的相似性计算方法Sim(Itemi,Itemj)影响基于物品相似性的预测模型对未评价物品的预测精度,在模型训练阶段,调整α,β使得预测误差最小。由Sim(Itemi,Itemj)可以得到物品相似性矩阵Sn×n:
其中,Sim(i,j):物品i与j之间的相似性,n:物品的数量;矩阵Sn×n为物品之间的相似性矩阵,Sn×n[i][j]为物品i与物品j的相似度量值,故Sn×n[i][j]=Sn×n[j][i],原是规模为n×n对称矩阵阵,且Sn×n[i][i]=1,为减少计算量仅需要计算Sn×n的上三角或下三角元素。
在计算物品间的评价平均差矩阵部分,根据用户评价矩阵Rm×n,计算物品i与物品j的评价平均差:
rui:用户u对物品i的评价;U(i,j):对物品i,j同时给出评价的用户集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;由此可以得到物品间的评价平均差矩.形成如下物品的评价平均差矩阵DEVn×n:
其中,devi,j:物品i与物品j的评价平均差,即:用户对i物品的打分比j物品的打分平均高devi,j;n:物品的数量,主对角线元素devi,i不具有实际意义,填充为0,devi,j=-devj,i,为减少不必要的计算,仅需要计算DEVn×n的下三角或上三角元素
在建立预测模型部分,分为三个部分:
1)建立基于物品相似性的预测模型
用户评价矩阵Rm×n给出用户u对物品j的评价ruj,若不同用户对i物品的打分比j物品的打分平均高devi,j,devij+ruj为基于j物品用户u对i物品的预测,考虑到物品i与j的相似性因素,两者越相似,Sim(i,j)越大,对最终预测结果的贡献越大。
即:
其中:
基于物品相似性的预测模型预测用户u对物品i的评价
ruj:用户u对物品j的评价
devi,j:物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高devi,j
Sim(i,j):物品i与j之间的相似性
I(u):被用户u评价的物品的集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;
Ri={j|j∈I(u),j≠i,N(U(i,j))>0};
2)建立基于用户聚类的预测模型
聚类算法根据用户相似性将用户划分为K个聚类C1,C2,…,Ck,针对每个聚类,计算物品的评价平均差矩阵 的计算方法DEVn×n相同,区别是仅针对于第K个聚类中的用户评价数据计算。每个聚类中物品的相似性矩阵均相同Sn×n。若用户u属于第K个聚类,已知Sn×n,基于用户聚类的预测模型预测用户u对物品i的评价
基于用户聚类的预测模型预测用户u对物品i的评价
ruj:用户u对物品j的评价
在第K个聚类中物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高
N(U(i,j)):对物品i,j同时给出评价的用户数量;
I(u):被用户u评价的物品的集合;
集合中物品的数量;
3)建立基于用户和物品的自适应预测模型
将两者融合建立基于用户和物品的自适应预测模型,在训练阶段,在每个聚类中(C1,C2,…,Ck),分别计算基于用户聚类的方法对物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,K个聚类C1,C2,…,Ck对应的误差向量为W1,W2,…,Wk;若Wk=[α1,α2,…,αi,…,αn]为聚类Ck中不同用户对所有物品的评价预测平均误差向量,则:
其中,
αi:基于用户聚类的预测模型,在Ck聚类中不同用户对物品i的平均预测误差。
mk:用户所属聚类中给出物品i评价的用户数量。
基于用户聚类的预测模型预测用户u对物品i的评价
rui:用户u对物品i的真实评价
由基于物品相似性的方法对所有物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,权重向量W=[β1,β2,…,βi,…,βn],则:
基于物品相似性的预测模型预测用户u对物品i的评价
βi:基于物品相似性的预测模型计算不同用户对物品i的平均评价误差
mall:评价矩阵中给出物品i评价的用户数量
rui:用户u对物品i的真实评价
融和方法,以两种方法对物品i的平均预测误差作为权重形成基于用户和物品的自适应预测方法,使得误差大者贡献小;反之,贡献大。假设用户u属于第K个聚类
用户u对物品i自适应的评价预测;
αi:若用户u属于聚类Ck,αi为聚类Ck对应的误差权重向量Wk中的第i个分量即用户u根据所在聚类的用户评价数据对物品i的平均预测误差。
βi:根据基于物品相似性的方法用户u对物品i的平均预测误差。
个性化推荐阶段主要包含数据采集及预处理、基于用户属性判定所属聚类、预测用户对未评价物品的打分三个部分。
在数据采集及预处理部分,提取用户自身的特征属性并量化为向量U=[u1,u2,…,ur],收集用户的行为特征并量化为向量B=[b1,b2,…,bs],提取用户对物品的评价并量化为向量R[i]=[ri1,ri2,…,rin]等;将用户对所有未给出评价物品的打分以物品的平均打分填充.
在基于用户属性判定所属聚类部分,有K个聚类核心(C1,C2,…,Ck),计算用户U与每一个聚类核心的相似度Sim(U,Ci),i=1,2,3…K;有Max(Sim(U,Ci)),则用户U属于第i个聚类,从而可以确定预测评价平均误差向量Wi;
在预测用户对未评价物品的打分部分:在训练阶段产生DEVn×n,Sn×n,且已知用户评价数据,据此可以使用基于物品的预测模型预测未评价的物品打分
并且已知在训练阶段基于物品相似性的方法预测物品i时的误差为βi
在基于用户属性判定所属聚类部分,确定了用户u所属的聚类(假设用户u属于第K个聚类),根据在训练阶段计算得出的 ruj∈Rm×n可以使用基于用户聚类的预测模型预测未评价物品的打分:
并且已知在训练阶段基于用户聚类的方法预测物品i时的平均误差为αi
最后形成基于用户和物品的自适应预测方法:
选择用户对预测评价较高的N件物品推送给用户。N一般取3。
Claims (10)
1.一种基于用户和物品的自适应个性化推荐方法,其特征在于该方法分为训练和个性化推荐两个阶段:
一、训练阶段:包含以下五个子步骤:
步骤1-1:数据采集及预处理,平台采集用户个人信息,用户行为特征,以及用户对物品的评价数据形成用户评价矩阵,对用户评价数据预处理,用户对物品评价的空缺值使用用户对物品的平均评价代替,若该物品无评价用户,填充评价最高值的一半;
步骤1-2:用户相似性聚类,根据采集的用户数据对用户进行聚类,使用聚类算法将用户划分为K个聚类,具有相似行为和物品喜好的用户划分为同一聚类;
步骤1-3:物品相似性计算,根据物品自身的特征属性量化为特征向量,由相似性度量公式计算两两物品之间的相似度;
步骤1-4:计算物品间的评价平均差矩阵,根据用户对物品的评价打分,计算两两物品间的平均评价的差值;
步骤1-5:建立预测模型,分为三个步骤,首先根据物品之间的相似性,建立基于物品相似性的预测模型;其次,根据用户的相似性建立基于用户聚类的预测模型,最后,将两者融合建立基于用户和物品的自适应预测模型;
二、个性化推荐阶段:包含以下三个步骤:
步骤2-1:数据采集及预处理,采集用户个人信息,用户近期行为特征,以及用户对物品的评价等数据;
步骤2-2:基于用户属性判定所属聚类,根据将采集的用户数据量化,步骤1-2已经对用户聚类,由相似性公式分别计算用户与K个聚类核心的相似性,用户与某个聚类核心的相似度最高,判定用户属于该聚类;
步骤2-3:预测用户对未评价物品的打分,根据用户的历史评价数据,利用步骤1-4中建立的基于用户和物品的自适应预测模型预测用户对未评价物品的的打分,将预测评价较高的N件物品推荐给用户。
2.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-1中所述个人信息指的是能够用于用户相似性聚类的用户信息,所述用户行为特征是从针对某件物品的行为中抽取特征,并进行量化,对用户评价信息进行量化,形成用户评价矩阵Rm×n:
m:表示用户的数量,n:表示物品的数量,rij:表示用户i对物品j的评价,R[i]代表用户i对所有商品的评价,给出相似评价的用户具有相似性,R[i]可直接用于用户相似性计算或者相似性聚类。
3.根据权利要求2所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-4中,根据用户评价矩阵Rm×n,计算物品i与物品j的评价平均差:
rui:用户u对物品i的评价;U(i,j):对物品i,j同时给出评价的用户集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;由此可以得到物品间的评价平均差矩.形成如下物品的评价平均差矩阵DEVn×n:
其中,devi,j:物品i与物品j的评价平均差,即:用户对i物品的打分比j物品的打分平均高devi,j;n:物品的数量,主对角线元素devi,i不具有实际意义,填充为0,devi,j=-devj,i,为减少不必要的计算,仅需要计算DEVn×n的下三角或上三角元素。
4.根据权利要求3所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-2中所述聚类算法采用KMeans。
5.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-3中计算两两物品间的相似度具体包括,提取物品自身的特征属性,并量化为向量I=[p1,p2,…,pr],r为物品属性维度,若物品属于某个价格区间或者品牌,I对应分量为1,否则为0;提取不同用户对商品的评价m为用户数量,向量代表物品i被m个用户给出的评价向量,即评价矩阵R的第i列,以I,特征向量作为物品相似性度量,若物品Itemi的特征属性向量分别为Ii,物品Itemj的特征属性向量分别为Ij,Itemi和Itemj之间的相似性α+β=1,在模型训练阶段,调整α,β使得预测误差最小,由Sim(Itemi,Itemj)可以得到物品相似性矩阵Sn×n:
其中,Sim(i,j):物品i与j之间的相似性,n:物品的数量;矩阵Sn×n为物品之间的相似性矩阵,Sn×n[i][j]为物品i与物品j的相似度量值,故Sn×n[i][j]=Sn×n[j][i],原是规模为n×n对称矩阵阵,且Sn×n[i][i]=1。
6.根据权利要求5所述的基于用户和物品的自适应个性化推荐方法,其特征在于所述Sim()可以采用余弦相似性,修正余弦相似性,或者皮尔森相关系数方法。
7.根据权利要求6所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-5具体包括,首先,建立基于物品相似性的预测模型;用户评价矩阵Rm×n给出用户u对物品j的评价ruj,若不同用户对i物品的打分比j物品的打分平均高devi,j,devij+ruj为基于j物品用户u对i物品的预测,考虑到物品i与j的相似性因素,两者越相似,Sim(i,j)越大,对最终预测结果的贡献越大,即:
其中:基于物品相似性的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
devi,j:物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高devi,j;
Sim(i,j):物品i与j之间的相似性;
I(u):被用户u评价的物品的集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;
Ri={j|j∈I(u),j≠i,N(U(i,j))>0};
其次,建立基于用户的预测模型,聚类算法根据用户相似性将用户划分为K个聚类C1,C2,…,Ck,针对每个聚类,计算物品的评价平均差矩阵 其中仅针对于第K个聚类中的用户评价数据计算,每个聚类中物品的相似性矩阵均相同,,若用户u属于第K个聚类,已知Sn×n,基于用户聚类的预测模型预测用户u对物品i的评价
基于用户聚类的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
在第K个聚类中物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高
N(U(i,j)):对物品i,j同时给出评价的用户数量;
I(u):被用户u评价的物品的集合;
集合中物品的数量;
最后,将两者融合,建立基于用户和物品的自适应预测模型,在训练阶段,在每个聚类中(C1,C2,…,Ck),分别计算基于用户聚类的方法对物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,K个聚类C1,C2,…,Ck对应的误差向量为W1,W2,…,Wk;若Wk=[α1,α2,…,αi,…,αn]为聚类Ck中不同用户对所有物品的评价预测平均误差向量,则:
其中,αi:基于用户聚类的预测模型,在Ck聚类中不同用户对物品i的平均预测误差;
mk:用户所属聚类中给出物品i评价的用户数量;
基于用户聚类的预测模型预测用户u对物品i的评价;
rui:用户u对物品i的真实评价;
由基于物品相似性的方法对所有物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,权重向量W=[β1,β2,…,βi,…,βn],则:
基于物品相似性的预测模型预测用户u对物品i的评价;
βi:基于物品相似性的预测模型计算不同用户对物品i的平均评价误差;
mall:评价矩阵中给出物品i评价的用户数量;
rui:用户u对物品i的真实评价;
融和方法,以两种方法对物品i的平均预测误差作为权重形成基于用户和物品的自适应预测方法,使得误差大者贡献小;反之,贡献大;假设用户u属于第K个聚类
用户u对物品i自适应的评价预测;
αi:若用户u属于聚类Ck,αi为聚类Ck对应的误差权重向量Wk中的第i个分量即用户u根据所在聚类的用户评价数据对物品i的平均预测误差;
βi:根据基于物品相似性的方法用户u对物品i的平均预测误差。
8.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤2-1中可以对提取的用户数据需要量化,得到用户自身的特征属性向量U=[u1,u2,…,ur],用户的近期行为特征向量B=[b1,b2,…,bs],用户对物品的评价向量R[i]=[ri1,ri2,…,rin]。
9.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤2-2中,判断用户所属聚类时,假设有K个聚类核心(C1,C2,…,Ck),计算用户U与每一个聚类核心的相似度Sim(U,Ci),i=1,2,3…K;有Max(Sim(U,Ci)),则用户U属于第i个聚类,从而可以确定预测评价平均误差向量Wi。
10.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤2-3中具体包括:在训练阶段产生DEVn×n,Sn×n,且步骤2-1中提取了用户评价数据,据此可以使用基于物品的预测模型预测未评价的物品打分
并且已知在训练阶段基于物品相似性的方法预测物品i时的误差为βi,
在步骤2-2中,确定了用户u所属的聚类,假设用户u属于第K个聚类,根据在训练阶段计算得出的 ruj∈Rm×n可以使用基于用户聚类的预测模型预测未评价物品的打分:
并且已知在训练阶段基于用户聚类的方法预测物品i时的平均误差为αi,最后形成基于用户和物品的自适应预测方法:
选择用户对预测评价较高的N件物品推送给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710015604.7A CN106897911A (zh) | 2017-01-10 | 2017-01-10 | 一种基于用户和物品的自适应个性化推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710015604.7A CN106897911A (zh) | 2017-01-10 | 2017-01-10 | 一种基于用户和物品的自适应个性化推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106897911A true CN106897911A (zh) | 2017-06-27 |
Family
ID=59197859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710015604.7A Pending CN106897911A (zh) | 2017-01-10 | 2017-01-10 | 一种基于用户和物品的自适应个性化推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897911A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679945A (zh) * | 2017-09-27 | 2018-02-09 | 北京小度信息科技有限公司 | 建立消费对象推荐模型的方法以及相关方法及装置 |
CN108334592A (zh) * | 2018-01-30 | 2018-07-27 | 南京邮电大学 | 一种基于内容与协同过滤相结合的个性化推荐方法 |
CN108595598A (zh) * | 2018-04-19 | 2018-09-28 | 浙江理工大学 | 一种基于网络推理的个性化推荐方法 |
CN109903103A (zh) * | 2017-12-07 | 2019-06-18 | 华为技术有限公司 | 一种推荐物品的方法和装置 |
CN110069663A (zh) * | 2019-04-29 | 2019-07-30 | 厦门美图之家科技有限公司 | 视频推荐方法及装置 |
CN110321490A (zh) * | 2019-07-12 | 2019-10-11 | 科大讯飞(苏州)科技有限公司 | 推荐方法、装置、设备及计算机可读存储介质 |
CN110738538A (zh) * | 2018-07-18 | 2020-01-31 | 北京京东尚科信息技术有限公司 | 识别相似物品的方法和装置 |
CN111256303A (zh) * | 2018-11-30 | 2020-06-09 | 广东美的制冷设备有限公司 | 空调器的控制方法、控制装置、空调器以及存储介质 |
CN111611496A (zh) * | 2020-04-09 | 2020-09-01 | 浙江口碑网络技术有限公司 | 产品推荐方法及其装置 |
JP2022507126A (ja) * | 2018-07-18 | 2022-01-18 | ストレベルセ オサケ ユキチュア | 電子処理プラットフォームで行う品物対象の演算 |
CN114648391A (zh) * | 2022-05-18 | 2022-06-21 | 湖南工商大学 | 一种网购信息推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678431A (zh) * | 2013-03-26 | 2014-03-26 | 南京邮电大学 | 一种基于标准标签和项目评分的推荐方法 |
CN104751353A (zh) * | 2015-04-10 | 2015-07-01 | 中国石油大学(华东) | 基于聚类和Slope One预测的协同过滤方法 |
CN105678430A (zh) * | 2016-02-29 | 2016-06-15 | 大连大学 | 基于邻近项目Slope One算法的用户改进推荐方法 |
-
2017
- 2017-01-10 CN CN201710015604.7A patent/CN106897911A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678431A (zh) * | 2013-03-26 | 2014-03-26 | 南京邮电大学 | 一种基于标准标签和项目评分的推荐方法 |
CN104751353A (zh) * | 2015-04-10 | 2015-07-01 | 中国石油大学(华东) | 基于聚类和Slope One预测的协同过滤方法 |
CN105678430A (zh) * | 2016-02-29 | 2016-06-15 | 大连大学 | 基于邻近项目Slope One算法的用户改进推荐方法 |
Non-Patent Citations (2)
Title |
---|
蒋宗礼等: ""基于聚类和项目相似性的Slope One 算法优化"", 《计算机与现代化》 * |
韩英付: ""改进的基于用户和项目聚类的协同过滤推荐算法"", 《中国优秀硕士学位论文全文数据库,信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679945A (zh) * | 2017-09-27 | 2018-02-09 | 北京小度信息科技有限公司 | 建立消费对象推荐模型的方法以及相关方法及装置 |
CN109903103A (zh) * | 2017-12-07 | 2019-06-18 | 华为技术有限公司 | 一种推荐物品的方法和装置 |
CN108334592A (zh) * | 2018-01-30 | 2018-07-27 | 南京邮电大学 | 一种基于内容与协同过滤相结合的个性化推荐方法 |
CN108334592B (zh) * | 2018-01-30 | 2021-11-02 | 南京邮电大学 | 一种基于内容与协同过滤相结合的个性化推荐方法 |
CN108595598A (zh) * | 2018-04-19 | 2018-09-28 | 浙江理工大学 | 一种基于网络推理的个性化推荐方法 |
JP2022507126A (ja) * | 2018-07-18 | 2022-01-18 | ストレベルセ オサケ ユキチュア | 電子処理プラットフォームで行う品物対象の演算 |
CN110738538B (zh) * | 2018-07-18 | 2024-05-24 | 北京京东尚科信息技术有限公司 | 识别相似物品的方法和装置 |
CN110738538A (zh) * | 2018-07-18 | 2020-01-31 | 北京京东尚科信息技术有限公司 | 识别相似物品的方法和装置 |
JP7245904B2 (ja) | 2018-07-18 | 2023-03-24 | ストレベルセ オサケ ユキチュア | 電子処理プラットフォームで行う品物対象の演算 |
CN111256303A (zh) * | 2018-11-30 | 2020-06-09 | 广东美的制冷设备有限公司 | 空调器的控制方法、控制装置、空调器以及存储介质 |
CN111256303B (zh) * | 2018-11-30 | 2022-06-17 | 广东美的制冷设备有限公司 | 空调器的控制方法、控制装置、空调器以及存储介质 |
CN110069663A (zh) * | 2019-04-29 | 2019-07-30 | 厦门美图之家科技有限公司 | 视频推荐方法及装置 |
CN110069663B (zh) * | 2019-04-29 | 2021-06-04 | 厦门美图之家科技有限公司 | 视频推荐方法及装置 |
CN110321490A (zh) * | 2019-07-12 | 2019-10-11 | 科大讯飞(苏州)科技有限公司 | 推荐方法、装置、设备及计算机可读存储介质 |
CN111611496A (zh) * | 2020-04-09 | 2020-09-01 | 浙江口碑网络技术有限公司 | 产品推荐方法及其装置 |
CN114648391A (zh) * | 2022-05-18 | 2022-06-21 | 湖南工商大学 | 一种网购信息推荐方法 |
CN114648391B (zh) * | 2022-05-18 | 2022-08-12 | 湖南工商大学 | 一种网购信息推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897911A (zh) | 一种基于用户和物品的自适应个性化推荐方法 | |
CN108334592B (zh) | 一种基于内容与协同过滤相结合的个性化推荐方法 | |
CN105426528B (zh) | 一种商品数据的检索排序方法及系统 | |
CN110458627B (zh) | 一种面向用户动态偏好的商品序列个性化推荐方法 | |
CN105868281B (zh) | 基于非支配排序多目标方法的位置感知推荐系统 | |
CN108520450B (zh) | 基于隐式反馈信息的局部低秩矩阵近似的推荐方法及系统 | |
CN106022865A (zh) | 一种基于评分和用户行为的商品推荐方法 | |
CN102799591B (zh) | 一种提供推荐词的方法及装置 | |
CN107944035B (zh) | 一种融合视觉特征和用户评分的图像推荐方法 | |
CN108256093A (zh) | 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法 | |
CN105718184A (zh) | 一种数据处理方法和装置 | |
CN106600372A (zh) | 一种基于用户行为的商品推荐方法及系统 | |
CN108153791B (zh) | 一种资源推荐方法和相关装置 | |
CN109360057A (zh) | 信息推送方法、装置、计算机设备及存储介质 | |
CN106682121A (zh) | 一种基于用户兴趣变化的时效推荐方法 | |
CN102902691A (zh) | 推荐方法及系统 | |
CN105678590B (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
CN107274242A (zh) | 一种基于关联分析算法的商品推荐方法 | |
CN103309894B (zh) | 基于用户属性的搜索实现方法及系统 | |
CN106610970A (zh) | 基于协同过滤的内容推荐系统与方法 | |
CN109903138B (zh) | 一种个性化商品推荐方法 | |
CN104298787A (zh) | 一种基于融合策略的个性化推荐方法及装置 | |
CN111612583B (zh) | 一种基于聚类的个性化导购系统 | |
CN107016122A (zh) | 基于时间迁移的知识推荐方法 | |
CN108874916A (zh) | 一种层叠组合协同过滤推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170627 |
|
RJ01 | Rejection of invention patent application after publication |