CN106897911A - 一种基于用户和物品的自适应个性化推荐方法 - Google Patents

一种基于用户和物品的自适应个性化推荐方法 Download PDF

Info

Publication number
CN106897911A
CN106897911A CN201710015604.7A CN201710015604A CN106897911A CN 106897911 A CN106897911 A CN 106897911A CN 201710015604 A CN201710015604 A CN 201710015604A CN 106897911 A CN106897911 A CN 106897911A
Authority
CN
China
Prior art keywords
user
article
evaluation
cluster
similitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710015604.7A
Other languages
English (en)
Inventor
袁志远
王玉峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201710015604.7A priority Critical patent/CN106897911A/zh
Publication of CN106897911A publication Critical patent/CN106897911A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户和物品的自适应个性化推荐方法,分为训练和个性化推荐两个阶段。训练阶段,首先平台采集用户个人信息、用户行为特征以及用户对物品的评价等数据。根据用户数据将相似用户聚类,计算用户对物品评价的平均差矩阵,据此建立基于用户聚类的预测模型,计算出该模型对所有物品的评价预测误差;根据物品的属性计算物品之间的相似度,计算用户对物品的评价平均差,建立预测模型,形成基于用户和物品的自适应预测模型。个性化推荐阶段首先判断用户所属聚类,利用融合了用户和物品的自适应预测模型,推测用户对物品的评价,将预测评价高的物品推荐给用户。本发明相比于传统的个性化推荐方法具有自适应的能力,具有更高的准确性。

Description

一种基于用户和物品的自适应个性化推荐方法
技术领域
本发明属于基于大数据的个性化推荐技术领域,具体涉及一种基于用户和物品的自适应个性化推荐方法。
背景技术
互联网技术的迅速发展使得大量的信息爆炸式地呈现在大众面前。信息爆炸会降低信息的使用率,也就是所谓的“信息超载”。个性化推荐是当前研究的热门领域,它可以在大量冗余信息中找到用户的需求,因此,可以很好地提升用户体验,从而提升企业营销。通过相关的机器学习及数据挖掘技术,推荐系统挖掘用户的购买倾向,将用户可能感兴趣的物品推荐给用户。一个良好的推荐系统可以挖掘出用户潜在的消费偏好,为不同的用户提供针对性的服务。
已有的基于用户或者物品的个性化推荐方法,其精度对用户数量、物品数量以及评价矩阵稀疏性具有依赖性,以上两种方法分别从用户和物品两个角度考虑问题。但是不论是只从用户角度考虑还是只从物品角度考虑,实践证明预测的精度很难让人满意。
现有技术中还没有出现将两者融合,形成一种基于用户和物品的自适应个性化推荐方法,实现较高的预测精度。
发明内容
本发明要解决的技术问题是针对现有技术中为了提高个性化推荐的精准度提出一种基于用户和物品的自适应个性化推荐方法。
为此,本发明提出的技术方案是一种基于用户和物品的自适应个性化推荐方法,该方法分为训练和个性化推荐两个阶段:
一、训练阶段:包含以下五个子步骤:
步骤1-1:数据采集及预处理,平台采集用户个人信息,用户行为特征,以及用户对物品的评价数据形成用户评价矩阵,对用户评价数据预处理,用户对物品评价的空缺值使用用户对物品的平均评价代替,若该物品无评价用户,填充评价最高值的一半;
步骤1-2:用户相似性聚类,根据采集的用户数据对用户进行聚类,使用聚类算法将用户划分为K个聚类,具有相似行为和物品喜好的用户划分为同一聚类;
步骤1-3:物品相似性计算,根据物品自身的特征属性量化为特征向量,由相似性度量公式计算两两物品之间的相似度;
步骤1-4:计算物品间的评价平均差矩阵,根据用户对物品的评价打分,计算两两物品间的平均评价的差值;
步骤1-5:建立预测模型,分为三个步骤,首先根据物品之间的相似性,建立基于物品相似性的预测模型;其次,根据用户的相似性建立基于用户聚类的预测模型,最后,将两者融合建立基于用户和物品的自适应预测模型;
二、个性化推荐阶段:包含以下三个步骤:
步骤2-1:数据采集及预处理,采集用户个人信息,用户近期行为特征,以及用户对物品的评价等数据;
步骤2-2:基于用户属性判定所属聚类,根据将采集的用户数据量化,步骤1-2已经对用户聚类,由相似性公式分别计算用户与K个聚类核心的相似性,用户与某个聚类核心的相似度最高,判定用户属于该聚类;
步骤2-3:预测用户对未评价物品的打分,根据用户的历史评价数据,利用步骤1-4中建立的基于用户和物品的自适应预测模型预测用户对未评价物品的的打分,将预测评价较高的N件物品推荐给用户。
进一步,上述步骤1-1中,所述个人信息指的是能够用于用户相似性聚类的用户信息,所述用户行为特征是从针对某件物品的行为中抽取特征,并进行量化,对用户评价信息进行量化,形成用户评价矩阵Rm×n
m:表示用户的数量,n:表示物品的数量,rij:表示用户i对物品j的评价,R[i]代表用户i对所有商品的评价,给出相似评价的用户具有相似性,R[i]可直接用于用户相似性计算或者相似性聚类。
步骤1-4中,根据用户评价矩阵Rm×n,计算物品i与物品j的评价平均差:
rui:用户u对物品i的评价;U(i,j):对物品i,j同时给出评价的用户集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;由此可以得到物品间的评价平均差矩.形成如下物品的评价平均差矩阵DEVn×n
其中,devi,j:物品i与物品j的评价平均差,即:用户对i物品的打分比j物品的打分平均高devi,j;n:物品的数量,主对角线元素devi,i不具有实际意义,填充为0,devi,j=-devj,i,为减少不必要的计算,仅需要计算DEVn×n的下三角或上三角元素。
作为优选,步骤1-2中所述聚类算法采用KMeans。
上述步骤1-3中计算两两物品间的相似度具体包括,提取物品自身的特征属性,并量化为向量I=[p1,p2,…,pr],r为物品属性维度,若物品属于某个价格区间或者品牌,I对应分量为1,否则为0;提取不同用户对商品的评价m为用户数量,向量代表物品i被m个用户给出的评价向量,即评价矩阵R的第i列,以I,特征向量作为物品相似性度量,若物品Itemi的特征属性向量分别为Ii,物品Itemj的特征属性向量分别为Ij,Itemi和Itemj之间的相似性α+β=1,在模型训练阶段,调整α,β使得预测误差最小,由Sim(Itemi,Itemj)可以得到物品相似性矩阵Sn×n
其中,Sim(i,j):物品i与j之间的相似性,n:物品的数量;矩阵Sn×n为物品之间的相似性矩阵,Sn×n[i][j]为物品i与物品j的相似度量值,故Sn×n[i][j]=Sn×n[j][i],原是规模为n×n对称矩阵阵,且Sn×n[i][i]=1。
上述Sim()可以采用余弦相似性,修正余弦相似性,或者皮尔森相关系数方法。
步骤1-5具体包括,首先,建立基于物品相似性的预测模型;用户评价矩阵Rm×n给出用户u对物品j的评价ruj,若不同用户对i物品的打分比j物品的打分平均高devi,j,devij+ruj为基于j物品用户u对i物品的预测,考虑到物品i与j的相似性因素,两者越相似,Sim(i,j)越大,对最终预测结果的贡献越大,即:
其中:基于物品相似性的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
devi,j:物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高devi,j
Sim(i,j):物品i与j之间的相似性;
I(u):被用户u评价的物品的集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;
Ri={j|j∈I(u),j≠i,N(U(i,j))>0};
其次,建立基于用户的预测模型,聚类算法根据用户相似性将用户划分为K个聚类C1,C2,…,Ck,针对每个聚类,计算物品的评价平均差矩阵 其中仅针对于第K个聚类中的用户评价数据计算,每个聚类中物品的相似性矩阵均相同,,若用户u属于第K个聚类,已知Sn×n,基于用户聚类的预测模型预测用户u对物品i的评价
基于用户聚类的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
在第K个聚类中物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高
N(U(i,j)):对物品i,j同时给出评价的用户数量;
I(u):被用户u评价的物品的集合;
集合中物品的数量;
最后,将两者融合,建立基于用户和物品的自适应预测模型,在训练阶段,在每个聚类中(C1,C2,…,Ck),分别计算基于用户聚类的方法对物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,K个聚类C1,C2,…,Ck对应的误差向量为W1,W2,…,Wk;若Wk=[α1,α2,…,αi,…,αn]为聚类Ck中不同用户对所有物品的评价预测平均误差向量,则:
其中,αi:基于用户聚类的预测模型,在Ck聚类中不同用户对物品i的平均预测误差;
mk:用户所属聚类中给出物品i评价的用户数量;
基于用户聚类的预测模型预测用户u对物品i的评价;
rui:用户u对物品i的真实评价;
由基于物品相似性的方法对所有物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,权重向量W=[β1,β2,…,βi,…,βn],则:
基于物品相似性的预测模型预测用户u对物品i的评价;
βi:基于物品相似性的预测模型计算不同用户对物品i的平均评价误差;
mall:评价矩阵中给出物品i评价的用户数量;
rui:用户u对物品i的真实评价;
融和方法,以两种方法对物品i的平均预测误差作为权重形成基于用户和物品的自适应预测方法,使得误差大者贡献小;反之,贡献大;假设用户u属于第K个聚类
用户u对物品i自适应的评价预测;
αi:若用户u属于聚类Cki为聚类Ck对应的误差权重向量Wk中的第i个分量即用户u根据所在聚类的用户评价数据对物品i的平均预测误差;
βi:根据基于物品相似性的方法用户u对物品i的平均预测误差。
步骤2-1中可以对提取的用户数据需要量化,得到用户自身的特征属性向量U=[u1,u2,…,ur],用户的近期行为特征向量B=[b1,b2,…,bs],用户对物品的评价向量R[i]=[ri1,ri2,…,rin]。
步骤2-2中,判断用户所属聚类时,假设有K个聚类核心(C1,C2,…,Ck),计算用户U与每一个聚类核心的相似度Sim(U,Ci),i=1,2,3…K;有Max(Sim(U,Ci)),则用户U属于第i个聚类,从而可以确定预测评价平均误差向量Wi
步骤2-3中具体包括:在训练阶段产生DEVn×n,Sn×n,且步骤2-1中提取了用户评价数据,据此可以使用基于物品的预测模型预测未评价的物品打分
并且已知在训练阶段基于物品相似性的方法预测物品i时的误差为βi,在步骤2-2中,确定了用户u所属的聚类,假设用户u属于第K个聚类,根据在训练阶段计算得出的 ruj∈Rm×n可以使用基于用户聚类的预测模型预测未评价物品的打分:
并且已知在训练阶段基于用户聚类的方法预测物品i时的平均误差为αi,最后形成基于用户和物品的自适应预测方法:
选择用户对预测评价较高的N件物品推送给用户。
与现有技术相比,本发明的有益效果在于:
1,在训练阶段针对每件物品分别评估基于用户的和基于物品的评价预测模型的预测精度,将其预测误差作为两种方法的加权,使其性能优异者对最终的预测贡献最大,并且权重针对每一件物品都是不同的,因此,本发明提出的预测方法是一种自适应的,最终提高了预测用户对物品评价的精确度。
2,本发明将用户可能感兴趣的物品推荐给用户,很好地提升了用户体验,从而提升企业营销,可以广泛应用于电商、娱乐等门户网站。
附图说明
图1为一种基于用户和物品的自适应个性化推荐系统和方法图。
具体实施方式
现结合说明书附图对本发明的具体实施方式作进一步详细说明。
如图1所示,一种基于用户和物品的自适应个性化推荐方法,该方法分为训练和个性化推荐两个阶段。
训练阶段主要包含数据采集及预处理、用户相似性聚类、物品相似性计算、计算物品间的评价平均差矩阵、建立预测模型五个部分。
在数据采集及预处理部分,平台采集用户个人信息,个人信息通常为性别,年龄,职业等。用户行为特征,通常为浏览物品,购买物品等行为,以及用户对物品的评价形成评价矩阵Rm×n等数据
rij:户i对物品j的评价;m:户数量;n:品数量;将评价矩阵Rm×n中的空缺值使用用户对物品的平均评价代替。
在用户相似性聚类部分,提取用户自身的个人信息,通常为性别,年龄,职业等,并量化为用户特征属性向量U=[u1,u2,…,ur],r为用户属性维度;提取用户的行为特征,通常为浏览物品,购买物品等行为,并量化为用户行为特征向量B=[b1,b2,…,bs],s为用户行为特征维度;提取用户对物品的评价并量化为用户评价向量R[i]=[ri1,ri2,…,rin],n为物品数量;一般主要以U,B,R[i]向量作为用户相似性度量进行聚类。若用户Useri的特征属性向量分别为Ui,Bi,R[i],用户Userj的特征属性向量分别为Uj,Bj,R[j],用户Useri,Userj之间的相似性Sim(Useri,Userj)=αSim(Ui,Uj)+βSim(Bi,Bj)+γSim(R[i],R[j]),α+β+γ=1。Sim()一般采用余弦相似性,调整余弦相似性,Peason相关系数其中的一种。由用户相似性度量Sim(Useri,Userj)作为相似距离,根据聚类算法将用户聚类,得到K个用户聚类C1,C2,…,Ck,聚类算法可以采用KMeans.Sim(Useri,Userj)的计算方法影响聚类结果,继而影响基于用户聚类的预测模型对未评价物品的预测精度,训练阶段调节α,β,γ使得预测误差最小。需要进一步说明,需要将抽取的用户信息量化,比如用户信息可以量化为向量U[gender,age1…age10,profession1,profession2…,professionn],若性别为男,gender为1,反之为0;若0<age<=10,age1=1,反之为0;若10<age<=20,age2=1,反之为0;若age>90,age10=1,反之为0;用户属于某个职业professioni,professioni=1,反之为0;得到向量U后可直接用于计算用户相似性或者用户相似性聚类.比如考虑用户浏览物品的驻留时间和频率,用户行为特征可以量化为,B1=[freq1,freq2,…,freqn],freqi=(用户浏览物品i的次数)/(用户对所有商品浏览的总次数);B2=[t1,t2,…,tn],ti=(在一次会话中浏览物品i的时间)/(在一次会话中浏览物品的总时间);B=B1+B2,B[i]的值越大,代表用户越喜欢该物品i,向量可直接用于计算用户相似性或者用户相似性聚类;比如用户评价信息可以这样量化:若评价为5星评价对应1-5分,若评价为好评差评对应0和1,户评价矩阵Rm×n,m代表用户的数量,n代表物品的数量,R[i][j]代表用户i对物品j的评价。若R[i]代表用户i对所有商品的评价(评价矩阵的第i行),给出相似评价的用户具有相似性,R[i]可直接用于用户相似性计算或者相似性聚类。以上亦可使用其他的信息量化的方法。在这里,综合用户的特征向量U,B,R[i]计算相似性及聚类。
在物品相似性计算部分,提取物品自身的特征属性,一般为物品价格,品牌,用途等并量化为向量I=[p1,p2,…,pr],r为物品属性维度,若物品属于某个价格区间或者品牌,I对应分量为1,否则为0;提取不同用户对商品的评价m为用户数量,向量代表物品i被m个用户给出的评价向量,即评价矩阵R的第i列。一般以I,特征向量作为物品相似性度量,若物品Itemi的特征属性向量分别为Ii,物品Itemj的特征属性向量分别为Ij,Itemi和Itemj之间的相似性α+β=1,Sim()一般采用余弦相似性,调整余弦相似性,Peason相关系数其中的一种,物品之间的相似性计算方法Sim(Itemi,Itemj)影响基于物品相似性的预测模型对未评价物品的预测精度,在模型训练阶段,调整α,β使得预测误差最小。由Sim(Itemi,Itemj)可以得到物品相似性矩阵Sn×n
其中,Sim(i,j):物品i与j之间的相似性,n:物品的数量;矩阵Sn×n为物品之间的相似性矩阵,Sn×n[i][j]为物品i与物品j的相似度量值,故Sn×n[i][j]=Sn×n[j][i],原是规模为n×n对称矩阵阵,且Sn×n[i][i]=1,为减少计算量仅需要计算Sn×n的上三角或下三角元素。
在计算物品间的评价平均差矩阵部分,根据用户评价矩阵Rm×n,计算物品i与物品j的评价平均差:
rui:用户u对物品i的评价;U(i,j):对物品i,j同时给出评价的用户集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;由此可以得到物品间的评价平均差矩.形成如下物品的评价平均差矩阵DEVn×n
其中,devi,j:物品i与物品j的评价平均差,即:用户对i物品的打分比j物品的打分平均高devi,j;n:物品的数量,主对角线元素devi,i不具有实际意义,填充为0,devi,j=-devj,i,为减少不必要的计算,仅需要计算DEVn×n的下三角或上三角元素
在建立预测模型部分,分为三个部分:
1)建立基于物品相似性的预测模型
用户评价矩阵Rm×n给出用户u对物品j的评价ruj,若不同用户对i物品的打分比j物品的打分平均高devi,j,devij+ruj为基于j物品用户u对i物品的预测,考虑到物品i与j的相似性因素,两者越相似,Sim(i,j)越大,对最终预测结果的贡献越大。
即:
其中:
基于物品相似性的预测模型预测用户u对物品i的评价
ruj:用户u对物品j的评价
devi,j:物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高devi,j
Sim(i,j):物品i与j之间的相似性
I(u):被用户u评价的物品的集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;
Ri={j|j∈I(u),j≠i,N(U(i,j))>0};
2)建立基于用户聚类的预测模型
聚类算法根据用户相似性将用户划分为K个聚类C1,C2,…,Ck,针对每个聚类,计算物品的评价平均差矩阵 的计算方法DEVn×n相同,区别是仅针对于第K个聚类中的用户评价数据计算。每个聚类中物品的相似性矩阵均相同Sn×n。若用户u属于第K个聚类,已知Sn×n,基于用户聚类的预测模型预测用户u对物品i的评价
基于用户聚类的预测模型预测用户u对物品i的评价
ruj:用户u对物品j的评价
在第K个聚类中物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高
N(U(i,j)):对物品i,j同时给出评价的用户数量;
I(u):被用户u评价的物品的集合;
集合中物品的数量;
3)建立基于用户和物品的自适应预测模型
将两者融合建立基于用户和物品的自适应预测模型,在训练阶段,在每个聚类中(C1,C2,…,Ck),分别计算基于用户聚类的方法对物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,K个聚类C1,C2,…,Ck对应的误差向量为W1,W2,…,Wk;若Wk=[α1,α2,…,αi,…,αn]为聚类Ck中不同用户对所有物品的评价预测平均误差向量,则:
其中,
αi:基于用户聚类的预测模型,在Ck聚类中不同用户对物品i的平均预测误差。
mk:用户所属聚类中给出物品i评价的用户数量。
基于用户聚类的预测模型预测用户u对物品i的评价
rui:用户u对物品i的真实评价
由基于物品相似性的方法对所有物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,权重向量W=[β1,β2,…,βi,…,βn],则:
基于物品相似性的预测模型预测用户u对物品i的评价
βi:基于物品相似性的预测模型计算不同用户对物品i的平均评价误差
mall:评价矩阵中给出物品i评价的用户数量
rui:用户u对物品i的真实评价
融和方法,以两种方法对物品i的平均预测误差作为权重形成基于用户和物品的自适应预测方法,使得误差大者贡献小;反之,贡献大。假设用户u属于第K个聚类
用户u对物品i自适应的评价预测;
αi:若用户u属于聚类Cki为聚类Ck对应的误差权重向量Wk中的第i个分量即用户u根据所在聚类的用户评价数据对物品i的平均预测误差。
βi:根据基于物品相似性的方法用户u对物品i的平均预测误差。
个性化推荐阶段主要包含数据采集及预处理、基于用户属性判定所属聚类、预测用户对未评价物品的打分三个部分。
在数据采集及预处理部分,提取用户自身的特征属性并量化为向量U=[u1,u2,…,ur],收集用户的行为特征并量化为向量B=[b1,b2,…,bs],提取用户对物品的评价并量化为向量R[i]=[ri1,ri2,…,rin]等;将用户对所有未给出评价物品的打分以物品的平均打分填充.
在基于用户属性判定所属聚类部分,有K个聚类核心(C1,C2,…,Ck),计算用户U与每一个聚类核心的相似度Sim(U,Ci),i=1,2,3…K;有Max(Sim(U,Ci)),则用户U属于第i个聚类,从而可以确定预测评价平均误差向量Wi
在预测用户对未评价物品的打分部分:在训练阶段产生DEVn×n,Sn×n,且已知用户评价数据,据此可以使用基于物品的预测模型预测未评价的物品打分
并且已知在训练阶段基于物品相似性的方法预测物品i时的误差为βi
在基于用户属性判定所属聚类部分,确定了用户u所属的聚类(假设用户u属于第K个聚类),根据在训练阶段计算得出的 ruj∈Rm×n可以使用基于用户聚类的预测模型预测未评价物品的打分:
并且已知在训练阶段基于用户聚类的方法预测物品i时的平均误差为αi
最后形成基于用户和物品的自适应预测方法:
选择用户对预测评价较高的N件物品推送给用户。N一般取3。

Claims (10)

1.一种基于用户和物品的自适应个性化推荐方法,其特征在于该方法分为训练和个性化推荐两个阶段:
一、训练阶段:包含以下五个子步骤:
步骤1-1:数据采集及预处理,平台采集用户个人信息,用户行为特征,以及用户对物品的评价数据形成用户评价矩阵,对用户评价数据预处理,用户对物品评价的空缺值使用用户对物品的平均评价代替,若该物品无评价用户,填充评价最高值的一半;
步骤1-2:用户相似性聚类,根据采集的用户数据对用户进行聚类,使用聚类算法将用户划分为K个聚类,具有相似行为和物品喜好的用户划分为同一聚类;
步骤1-3:物品相似性计算,根据物品自身的特征属性量化为特征向量,由相似性度量公式计算两两物品之间的相似度;
步骤1-4:计算物品间的评价平均差矩阵,根据用户对物品的评价打分,计算两两物品间的平均评价的差值;
步骤1-5:建立预测模型,分为三个步骤,首先根据物品之间的相似性,建立基于物品相似性的预测模型;其次,根据用户的相似性建立基于用户聚类的预测模型,最后,将两者融合建立基于用户和物品的自适应预测模型;
二、个性化推荐阶段:包含以下三个步骤:
步骤2-1:数据采集及预处理,采集用户个人信息,用户近期行为特征,以及用户对物品的评价等数据;
步骤2-2:基于用户属性判定所属聚类,根据将采集的用户数据量化,步骤1-2已经对用户聚类,由相似性公式分别计算用户与K个聚类核心的相似性,用户与某个聚类核心的相似度最高,判定用户属于该聚类;
步骤2-3:预测用户对未评价物品的打分,根据用户的历史评价数据,利用步骤1-4中建立的基于用户和物品的自适应预测模型预测用户对未评价物品的的打分,将预测评价较高的N件物品推荐给用户。
2.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-1中所述个人信息指的是能够用于用户相似性聚类的用户信息,所述用户行为特征是从针对某件物品的行为中抽取特征,并进行量化,对用户评价信息进行量化,形成用户评价矩阵Rm×n
m:表示用户的数量,n:表示物品的数量,rij:表示用户i对物品j的评价,R[i]代表用户i对所有商品的评价,给出相似评价的用户具有相似性,R[i]可直接用于用户相似性计算或者相似性聚类。
3.根据权利要求2所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-4中,根据用户评价矩阵Rm×n,计算物品i与物品j的评价平均差:
dev i , j = &Sigma; u &Element; U ( i , j ) r u i - r u j N ( U ( i , j ) )
rui:用户u对物品i的评价;U(i,j):对物品i,j同时给出评价的用户集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;由此可以得到物品间的评价平均差矩.形成如下物品的评价平均差矩阵DEVn×n
其中,devi,j:物品i与物品j的评价平均差,即:用户对i物品的打分比j物品的打分平均高devi,j;n:物品的数量,主对角线元素devi,i不具有实际意义,填充为0,devi,j=-devj,i,为减少不必要的计算,仅需要计算DEVn×n的下三角或上三角元素。
4.根据权利要求3所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-2中所述聚类算法采用KMeans。
5.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-3中计算两两物品间的相似度具体包括,提取物品自身的特征属性,并量化为向量I=[p1,p2,…,pr],r为物品属性维度,若物品属于某个价格区间或者品牌,I对应分量为1,否则为0;提取不同用户对商品的评价m为用户数量,向量代表物品i被m个用户给出的评价向量,即评价矩阵R的第i列,以I,特征向量作为物品相似性度量,若物品Itemi的特征属性向量分别为Ii,物品Itemj的特征属性向量分别为Ij,Itemi和Itemj之间的相似性α+β=1,在模型训练阶段,调整α,β使得预测误差最小,由Sim(Itemi,Itemj)可以得到物品相似性矩阵Sn×n
其中,Sim(i,j):物品i与j之间的相似性,n:物品的数量;矩阵Sn×n为物品之间的相似性矩阵,Sn×n[i][j]为物品i与物品j的相似度量值,故Sn×n[i][j]=Sn×n[j][i],原是规模为n×n对称矩阵阵,且Sn×n[i][i]=1。
6.根据权利要求5所述的基于用户和物品的自适应个性化推荐方法,其特征在于所述Sim()可以采用余弦相似性,修正余弦相似性,或者皮尔森相关系数方法。
7.根据权利要求6所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤1-5具体包括,首先,建立基于物品相似性的预测模型;用户评价矩阵Rm×n给出用户u对物品j的评价ruj,若不同用户对i物品的打分比j物品的打分平均高devi,j,devij+ruj为基于j物品用户u对i物品的预测,考虑到物品i与j的相似性因素,两者越相似,Sim(i,j)越大,对最终预测结果的贡献越大,即:
P u i I = &Sigma; j &Element; R i ( dev i j + r u j ) &times; S i m ( i , j ) &Sigma; j &Element; R i S i m ( i , j )
其中:基于物品相似性的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
devi,j:物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高devi,j
Sim(i,j):物品i与j之间的相似性;
I(u):被用户u评价的物品的集合;
N(U(i,j)):对物品i,j同时给出评价的用户数量;
Ri={j|j∈I(u),j≠i,N(U(i,j))>0};
其次,建立基于用户的预测模型,聚类算法根据用户相似性将用户划分为K个聚类C1,C2,…,Ck,针对每个聚类,计算物品的评价平均差矩阵 其中仅针对于第K个聚类中的用户评价数据计算,每个聚类中物品的相似性矩阵均相同,,若用户u属于第K个聚类,已知Sn×n,基于用户聚类的预测模型预测用户u对物品i的评价
P u i U = 1 N ( R i k ) &Sigma; j &Element; R i k ( dev i j k + r u j )
基于用户聚类的预测模型预测用户u对物品i的评价;
ruj:用户u对物品j的评价;
在第K个聚类中物品i与物品j的评价平均差,不同用户对i物品的打分比j物品的打分平均高
N(U(i,j)):对物品i,j同时给出评价的用户数量;
I(u):被用户u评价的物品的集合;
R i k = { j | j &Element; I ( u ) , j &NotEqual; i , N ( U ( i , j ) ) > 0 , u &Element; C k } ;
集合中物品的数量;
最后,将两者融合,建立基于用户和物品的自适应预测模型,在训练阶段,在每个聚类中(C1,C2,…,Ck),分别计算基于用户聚类的方法对物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,K个聚类C1,C2,…,Ck对应的误差向量为W1,W2,…,Wk;若Wk=[α1,α2,…,αi,…,αn]为聚类Ck中不同用户对所有物品的评价预测平均误差向量,则:
&alpha; i = 1 m k &Sigma; u = 1 m k | P u i U - r u i |
其中,αi:基于用户聚类的预测模型,在Ck聚类中不同用户对物品i的平均预测误差;
mk:用户所属聚类中给出物品i评价的用户数量;
基于用户聚类的预测模型预测用户u对物品i的评价;
rui:用户u对物品i的真实评价;
由基于物品相似性的方法对所有物品Item1,Item2,...,Itemn的预测平均误差作为权重向量,权重向量W=[β1,β2,…,βi,…,βn],则:
&beta; i = 1 m a l l &Sigma; u = 1 m a l l | P u i I - r u i |
基于物品相似性的预测模型预测用户u对物品i的评价;
βi:基于物品相似性的预测模型计算不同用户对物品i的平均评价误差;
mall:评价矩阵中给出物品i评价的用户数量;
rui:用户u对物品i的真实评价;
融和方法,以两种方法对物品i的平均预测误差作为权重形成基于用户和物品的自适应预测方法,使得误差大者贡献小;反之,贡献大;假设用户u属于第K个聚类
P u i a d d a p t i v e = &beta; i &alpha; i + &beta; i P u i U + &alpha; i &alpha; i + &beta; i P u i I
用户u对物品i自适应的评价预测;
αi:若用户u属于聚类Cki为聚类Ck对应的误差权重向量Wk中的第i个分量即用户u根据所在聚类的用户评价数据对物品i的平均预测误差;
βi:根据基于物品相似性的方法用户u对物品i的平均预测误差。
8.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤2-1中可以对提取的用户数据需要量化,得到用户自身的特征属性向量U=[u1,u2,…,ur],用户的近期行为特征向量B=[b1,b2,…,bs],用户对物品的评价向量R[i]=[ri1,ri2,…,rin]。
9.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤2-2中,判断用户所属聚类时,假设有K个聚类核心(C1,C2,…,Ck),计算用户U与每一个聚类核心的相似度Sim(U,Ci),i=1,2,3…K;有Max(Sim(U,Ci)),则用户U属于第i个聚类,从而可以确定预测评价平均误差向量Wi
10.根据权利要求1所述的基于用户和物品的自适应个性化推荐方法,其特征在于步骤2-3中具体包括:在训练阶段产生DEVn×n,Sn×n,且步骤2-1中提取了用户评价数据,据此可以使用基于物品的预测模型预测未评价的物品打分
P u i I = &Sigma; j &Element; R i ( dev i j + r u j ) &times; S i m ( i , j ) &Sigma; j &Element; R i S i m ( i , j )
并且已知在训练阶段基于物品相似性的方法预测物品i时的误差为βi
在步骤2-2中,确定了用户u所属的聚类,假设用户u属于第K个聚类,根据在训练阶段计算得出的 ruj∈Rm×n可以使用基于用户聚类的预测模型预测未评价物品的打分:
P u i U = 1 N ( R i k ) &Sigma; j &Element; R i k ( dev i j k + r u j )
并且已知在训练阶段基于用户聚类的方法预测物品i时的平均误差为αi,最后形成基于用户和物品的自适应预测方法:
P u i a d d a p t i v e = &beta; i &alpha; i + &beta; i P u i U + &alpha; i &alpha; i + &beta; i P u i I
选择用户对预测评价较高的N件物品推送给用户。
CN201710015604.7A 2017-01-10 2017-01-10 一种基于用户和物品的自适应个性化推荐方法 Pending CN106897911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710015604.7A CN106897911A (zh) 2017-01-10 2017-01-10 一种基于用户和物品的自适应个性化推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710015604.7A CN106897911A (zh) 2017-01-10 2017-01-10 一种基于用户和物品的自适应个性化推荐方法

Publications (1)

Publication Number Publication Date
CN106897911A true CN106897911A (zh) 2017-06-27

Family

ID=59197859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710015604.7A Pending CN106897911A (zh) 2017-01-10 2017-01-10 一种基于用户和物品的自适应个性化推荐方法

Country Status (1)

Country Link
CN (1) CN106897911A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679945A (zh) * 2017-09-27 2018-02-09 北京小度信息科技有限公司 建立消费对象推荐模型的方法以及相关方法及装置
CN108334592A (zh) * 2018-01-30 2018-07-27 南京邮电大学 一种基于内容与协同过滤相结合的个性化推荐方法
CN108595598A (zh) * 2018-04-19 2018-09-28 浙江理工大学 一种基于网络推理的个性化推荐方法
CN109903103A (zh) * 2017-12-07 2019-06-18 华为技术有限公司 一种推荐物品的方法和装置
CN110069663A (zh) * 2019-04-29 2019-07-30 厦门美图之家科技有限公司 视频推荐方法及装置
CN110321490A (zh) * 2019-07-12 2019-10-11 科大讯飞(苏州)科技有限公司 推荐方法、装置、设备及计算机可读存储介质
CN110738538A (zh) * 2018-07-18 2020-01-31 北京京东尚科信息技术有限公司 识别相似物品的方法和装置
CN111256303A (zh) * 2018-11-30 2020-06-09 广东美的制冷设备有限公司 空调器的控制方法、控制装置、空调器以及存储介质
CN111611496A (zh) * 2020-04-09 2020-09-01 浙江口碑网络技术有限公司 产品推荐方法及其装置
JP2022507126A (ja) * 2018-07-18 2022-01-18 ストレベルセ オサケ ユキチュア 電子処理プラットフォームで行う品物対象の演算
CN114648391A (zh) * 2022-05-18 2022-06-21 湖南工商大学 一种网购信息推荐方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法
CN104751353A (zh) * 2015-04-10 2015-07-01 中国石油大学(华东) 基于聚类和Slope One预测的协同过滤方法
CN105678430A (zh) * 2016-02-29 2016-06-15 大连大学 基于邻近项目Slope One算法的用户改进推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678431A (zh) * 2013-03-26 2014-03-26 南京邮电大学 一种基于标准标签和项目评分的推荐方法
CN104751353A (zh) * 2015-04-10 2015-07-01 中国石油大学(华东) 基于聚类和Slope One预测的协同过滤方法
CN105678430A (zh) * 2016-02-29 2016-06-15 大连大学 基于邻近项目Slope One算法的用户改进推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蒋宗礼等: ""基于聚类和项目相似性的Slope One 算法优化"", 《计算机与现代化》 *
韩英付: ""改进的基于用户和项目聚类的协同过滤推荐算法"", 《中国优秀硕士学位论文全文数据库,信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679945A (zh) * 2017-09-27 2018-02-09 北京小度信息科技有限公司 建立消费对象推荐模型的方法以及相关方法及装置
CN109903103A (zh) * 2017-12-07 2019-06-18 华为技术有限公司 一种推荐物品的方法和装置
CN108334592A (zh) * 2018-01-30 2018-07-27 南京邮电大学 一种基于内容与协同过滤相结合的个性化推荐方法
CN108334592B (zh) * 2018-01-30 2021-11-02 南京邮电大学 一种基于内容与协同过滤相结合的个性化推荐方法
CN108595598A (zh) * 2018-04-19 2018-09-28 浙江理工大学 一种基于网络推理的个性化推荐方法
JP2022507126A (ja) * 2018-07-18 2022-01-18 ストレベルセ オサケ ユキチュア 電子処理プラットフォームで行う品物対象の演算
CN110738538B (zh) * 2018-07-18 2024-05-24 北京京东尚科信息技术有限公司 识别相似物品的方法和装置
CN110738538A (zh) * 2018-07-18 2020-01-31 北京京东尚科信息技术有限公司 识别相似物品的方法和装置
JP7245904B2 (ja) 2018-07-18 2023-03-24 ストレベルセ オサケ ユキチュア 電子処理プラットフォームで行う品物対象の演算
CN111256303A (zh) * 2018-11-30 2020-06-09 广东美的制冷设备有限公司 空调器的控制方法、控制装置、空调器以及存储介质
CN111256303B (zh) * 2018-11-30 2022-06-17 广东美的制冷设备有限公司 空调器的控制方法、控制装置、空调器以及存储介质
CN110069663A (zh) * 2019-04-29 2019-07-30 厦门美图之家科技有限公司 视频推荐方法及装置
CN110069663B (zh) * 2019-04-29 2021-06-04 厦门美图之家科技有限公司 视频推荐方法及装置
CN110321490A (zh) * 2019-07-12 2019-10-11 科大讯飞(苏州)科技有限公司 推荐方法、装置、设备及计算机可读存储介质
CN111611496A (zh) * 2020-04-09 2020-09-01 浙江口碑网络技术有限公司 产品推荐方法及其装置
CN114648391A (zh) * 2022-05-18 2022-06-21 湖南工商大学 一种网购信息推荐方法
CN114648391B (zh) * 2022-05-18 2022-08-12 湖南工商大学 一种网购信息推荐方法

Similar Documents

Publication Publication Date Title
CN106897911A (zh) 一种基于用户和物品的自适应个性化推荐方法
CN103927675B (zh) 判断用户年龄段的方法及装置
CN108334592B (zh) 一种基于内容与协同过滤相结合的个性化推荐方法
Halme et al. Estimation methods for choice-based conjoint analysis of consumer preferences
CN110647696B (zh) 一种业务对象的排序方法及装置
CN109741112A (zh) 一种基于移动大数据的用户购买意向预测方法
CN110503531A (zh) 时序感知的动态社交场景推荐方法
CN107391582B (zh) 基于上下文本体树计算用户偏好相似度的信息推荐方法
CN109034960B (zh) 一种基于用户节点嵌入的多属性推断的方法
CN110119474A (zh) 推荐模型训练方法、基于推荐模型的预测方法及装置
CN105718184A (zh) 一种数据处理方法和装置
CN106815347A (zh) 基于商品相似度的改进slope one协同过滤推荐算法
CN103700005A (zh) 一种基于自适应多最小支持度的关联规则推荐方法
CN106682121A (zh) 一种基于用户兴趣变化的时效推荐方法
CN104239496A (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
CN103886486A (zh) 一种基于支持向量机svm的电子商务推荐方法
CN108268464A (zh) 一种基于协同过滤与logistic回归的个性化推荐方法及装置
CN106600039A (zh) 一种电商商品消息推送优化方法
CN108615177A (zh) 基于加权提取兴趣度的电子终端个性化推荐方法
CN104408643A (zh) 一种行为感知偏好获取系统及其获取方法
CN112288554B (zh) 商品推荐方法和装置、存储介质及电子装置
CN114861050A (zh) 一种基于神经网络的特征融合推荐方法及系统
CN111861679A (zh) 一种基于人工智能的商品推荐方法
Jiao et al. Research on personalized recommendation optimization of E-commerce system based on customer trade behaviour data
CN108875071A (zh) 一种基于多视角兴趣的学习资源推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170627

RJ01 Rejection of invention patent application after publication