CN103617259A - 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法 - Google Patents

一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法 Download PDF

Info

Publication number
CN103617259A
CN103617259A CN201310632543.0A CN201310632543A CN103617259A CN 103617259 A CN103617259 A CN 103617259A CN 201310632543 A CN201310632543 A CN 201310632543A CN 103617259 A CN103617259 A CN 103617259A
Authority
CN
China
Prior art keywords
matrix
overbar
beta
project
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310632543.0A
Other languages
English (en)
Inventor
刘文予
刘俊涛
吴彩华
刘博�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201310632543.0A priority Critical patent/CN103617259A/zh
Publication of CN103617259A publication Critical patent/CN103617259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法,包括:使用PMF方法对观察评价矩阵进行隐含矩阵分析,得到隐含用户特征矩阵和隐含项目特征矩阵;使用BPMFSR或者BPMFSRIC方法对隐含用户特征矩阵和隐含项目特征矩阵进行吉布斯采样,得到采样后的隐含用户特征矩阵和隐含项目特征矩阵;根据所述采样后的隐含用户特征矩阵和隐含项目特征矩阵计算预测评价矩阵,基于所述预测评价矩阵进行推荐。本发明方法计算高效并能运用于有大规模数据集的基于信任或基于内容的推荐系统;具有更快的收敛速度,比其它矩阵分解方法得到更准确的推荐结果;相比其它方法更好的缓解了数据稀疏问题和冷启动问题。

Description

一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法
技术领域
本发明属于推荐系统技术领域,更具体地,涉及一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法。
背景技术
在过去十年里,推荐系统已成为重要的研究领域。典型的推荐系统尝试通过收集用户对其它用户或者项目的评价信息来预测该用户的兴趣。推荐方法通常被划分为协同过滤的方法和基于内容的方法。协同过滤的方法尝试为一个特定用户预测一个项目的评价,而这种预测是建立在其它相似的用户对该项目的评价基础之上的。协同过滤的基本思想是假设相似的用户有相似的品味。协同过滤方法被广泛应用在大型商业系统,例如亚马逊(Amazon)和奈飞(Netflix)。
矩阵分解是最近几年最流行的协同过滤方法之一。学者们提出了一些通过矩阵分解来做推荐的方法,如变分贝叶斯矩阵分解,概率矩阵分解,贝叶斯概率矩阵分解,一般概率矩阵分解等。但是这些方法都面临数据稀疏和冷启动问题。下面,介绍几个与本发明接近的对比文献。
一、一种融合项目相关性的基于PMF的协同过滤推荐系统(申请号201110059844,公开号102129463A)。该系统对用户-项目评分数据的概率矩阵因式分解是基于已知的用户-项目评分数据,利用PMF对用户-项目评分矩阵进行隐含向量分析,再使用构造出的隐含向量进行推荐。
二、基于评分的协同过滤推荐方法及系统(申请号201110382078,公开号102495864A)。该系统利用用户历史评分数据的统计特征计算各个用户之间的相似程度,通过与当前用户相似程度较高的其它用户来计算当前用户未评价过的项目,实现了在用户和项目数量庞大的协同过滤推荐系统中用户评分数据极端稀疏情况下,解决了难以找到用户间共同评分项而导致无法计算相似性或相似性不准确的问题,能够实现准确且快速的项目推荐。
然而,现有的推荐系统都不能很好的缓解数据稀疏或冷启动问题。
发明内容
针对现有技术的以上缺陷和改进需求,本发明提供了一种融入社会关系和项目内容的贝叶斯概率矩阵分解方法,其目的在于缓解推荐系统中所经常面临的数据稀疏和冷启动问题,得到更好的推荐结果,由此解决推荐系统都不能很好解决的数据稀疏或冷启动问题,准确快速的进行推荐。
为实现上述目的,本发明提供了一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法,包括以下步骤:
(1)、使用概率矩阵分解(PMF,Probabilistic Matrix Factorization)方法对观察评价矩阵进行隐含矩阵分析,得到隐含用户特征矩阵和隐含项目特征矩阵;
(2)、使用有社会关系的贝叶斯概率矩阵分解(BPMFSR,BayesianProbabilistic Matrix Factorization with Social Relations)或者有社会关系和项目内容的贝叶斯概率矩阵分解(BPMFSRIC,BayesianProbabilistic Matrix Factorization with Social Relations and ItemContents)对隐含用户特征矩阵和隐含项目特征矩阵进行吉布斯采样,得到采样后的隐含用户特征矩阵和隐含项目特征矩阵;
(3)、根据所述采样后的隐含用户特征矩阵和隐含项目特征矩阵计算预测评价矩阵,基于所述预测评价矩阵进行推荐。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,由于在贝叶斯概率矩阵分解(Bayesian Probabilistic Matrix Factorization,BPMF)的基础上融入了社会关系和项目内容,能够取得下列更准确更快速的项目推荐的有益效果:
(1)计算高效并能运用于有大规模数据集的基于信任或基于内容的推荐系统;
(2)具有更快的收敛速度,比其它矩阵分解方法得到更准确的推荐结果;
(3)相比其它方法而言更好的缓解了数据稀疏问题和冷启动问题。
附图说明
图1为本发明有社会关系的贝叶斯概率矩阵分解(BPMFSR)方法的图形模型;
图2为本发明有社会关系和项目内容的贝叶斯概率矩阵分解(BPMFSRIC)的图形模型;
图3为对BPMFSR进行吉布斯采样的流程图;
图4为对BPMFSRIC进行吉布斯采样的流程图;
图5为本发明推荐方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
数据稀疏问题:在众多的推荐系统中,用户评价过的项目数量往往很有限,这直接导致了用户-项目观察评价矩阵的稀疏性。在现有的大型电子商务系统中,用户评价过的项目数量一般不会超过系统项目总数的1%,这样必然导致观察评价矩阵的极度稀疏,从而使用户(或项目)之间的相似性计算误差很大;其它用户过少的评价(或被评价)会导致覆盖率降低的问题,即算法无法为用户推荐足够多的项目或者有的项目无法推荐给任何用户,这些问题都直接关系到推荐系统的性能。
冷启动问题:在推荐系统中,如果系统初期收集的数据为空或者很少,达不到系统需求,导致系统很难为用户或者项目做出推荐的问题。由于协同过滤推荐根据用户对项目的评分数据产生推荐的,因此,当一个新项目或新用户刚加入系统的时候,由于没有任何与他们相关的评分信息,系统很难为该新用户推荐项目,也很难将该新项目推荐给用户。
本发明的具体实施方式是:
步骤(1)、使用概率矩阵分解(PMF,Probabilistic MatrixFactorization)对观察评价矩阵进行隐含矩阵分析,得到隐含用户特征矩阵和隐含项目特征矩阵:
假设系统有M个用户和N个项目。矩阵R表示观察评价矩阵,Rij表示用户i给项目j的评价。U∈RM×D和V∈RN×D分别表示隐含用户特征矩阵和隐含项目特征矩阵,其中行向量Ui和Vj分别表示用户和项目的隐含特征向量。常数D是用户特征向量和项目特征向量的维度大小并远小于M和N。假设观察评价矩阵R的条件概率如下:
p ( R | U , V , σ 2 ) = Π i = 1 M Π j = 1 N [ N ( R ij | U i V j T , σ 2 ) ] I ij - - - ( 1 )
其中N(x|μ,σ2)是均值μ,方差σ2的高斯分布的概率密度函数。I是M×N的指示矩阵,Iij在用户i评价了项目j时等于1,其它时候为0。隐含用户特征矩阵U和隐含项目特征矩阵V的先验分布为:
p ( U | σ U 2 ) = Π i = 1 M N ( U i | 0 , σ U 2 ) - - - ( 2 )
p ( V | σ V 2 ) = Π j = 1 N N ( V j | 0 , σ V 2 ) - - - ( 3 )
U和V的后验分布的对数表达式为:
ln p ( U , V | R , σ 2 , σ V 2 , σ U 2 ) = - 1 2 σ 2 Σ i = 1 M Σ j = 1 N I ij ( R ij - U i V j T ) 2 - 1 2 σ U 2 Σ i = 1 M U i U i T - 1 2 σ V 2 Σ j = 1 N V j V j T - 1 2 ( ( Σ i = 1 M Σ j = 1 N I ij ) ln σ 2 + MD ln σ U 2 + ND ln σ V 2 ) + C - - - ( 4 )
其中C是一个不依赖于参数的常量。最大化式(4)相当于最小化有二次规整项的平方误差和,即最小化下述目标函数:
E = 1 2 Σ i = 1 M Σ j = 1 N I ij ( R ij - U i V j T ) 2 + λ U 2 Σ i = 1 M | | U i | | Fro 2 + λ V 2 Σ j = 1 N | | V j | | Fro 2
其中 λ U = σ 2 / σ U 2 , λ V = σ 2 / σ V 2 ,
Figure BDA0000426674130000054
表示Frobenius范式。
通过梯度下降法求式(5)的局部极小值,得到U和V。
步骤(1-1)随机生成U、V。
步骤(1-2)计算
Figure BDA0000426674130000055
其中,学习率γ>0足够小,其具体值可根据经验确定,
Figure BDA0000426674130000056
是一个矩阵,其第(i,j)个元素是对Ui求偏导
Figure BDA0000426674130000058
Figure BDA0000426674130000059
是一个矩阵,其第(i,j)个元素是
Figure BDA00004266741300000510
对Vj求偏导 ∂ E ∂ V j = - Σ i = 1 M I ij ( R ij - U i V j T ) U i + λ V V j .
步骤(1-3)如果式(5)计算的E(U)、E(V)变化小于设定的阈值,那么停止,否则令U=U',V=V',返回步骤(1-2)。
使目标函数达到局部极小值的U'和V'就是所求隐含用户特征矩阵和隐含项目特征矩阵。
步骤(2)使用有社会关系的贝叶斯概率矩阵分解(BPMFSR,BayesianProbabilistic Matrix Factorization with Social Relations)或者有社会关系和项目内容的贝叶斯概率矩阵分解(BPMFSRIC,BayesianProbabilistic Matrix Factorization with Social Relations and ItemContents)对隐含用户特征矩阵和隐含项目特征矩阵进行吉布斯采样,得到采样后的隐含用户特征矩阵和隐含项目特征矩阵:
没有融入社会关系之前,Ui的后验分布为:
p ( U i | R , V , Θ U , α ) = N ( U i | μ i * , ( Λ i * ) - 1 ) ~ Π j = 1 N [ N ( R ij | U i T V j , α - 1 ) ] I ij p ( U i | μ U , Λ U ) - - - ( 6 )
其中 Λ i * = Λ U + α Σ j = 1 N ( V j T V j ) I ij , μ i * = ( Λ i * ) - 1 ( α Σ j = 1 N ( V j R ij ) I ij + μ U Λ U ) .
用户超参数先验分布为:
p ( μ U , Λ U | U , Θ 0 ) = N ( μ U | μ 0 * , ( β 0 * Λ U ) - 1 ) W ( Λ U | W 0 * , v 0 * ) - - - ( 7 )
其中W(w|W0,v0)是自由度为v0,尺度参数为W0的威夏特分布的概率密度函数,W0是一个D×D的矩阵。Θ0={μ0,v0,W0}。
Figure BDA0000426674130000065
β 0 * = β 0 + M , v 0 * = v 0 + M , W 0 * = ( W 0 - 1 + M S ‾ + β 0 M β 0 + M ( μ 0 - U ‾ ) T ( μ 0 - U ‾ ) ) - 1 , U ‾ = 1 M Σ i = 1 M U i , S ‾ = 1 M Σ i = 1 M ( U i - U ‾ ) T ( U i - U ‾ ) .
融入社会关系之后,有社会关系的贝叶斯概率矩阵分解(BPMFSR,Bayesian Probabilistic Matrix Factorization with Social Relations)方法的隐含用户特征矩阵U和隐含项目特征矩阵V的先验分布为:
p ( U ) = Π i = 1 M N ( U i | μ U , i , Λ U , i - 1 ) - - - ( 8 )
p ( V | μ V , Λ V ) = Π j = 1 N N ( V j | μ V , Λ V - 1 ) - - - ( 9 )
其中ΘU,i={μU,iU,i}为用户特征向量Ui的超参数,ΘV={μVV}为项目特征向量Vj的超参数,它们都服从高斯威夏特(Gaussian-Wishart)分布。其中用户超参数和项目超参数的先验分布为:
p ( Θ U , i | U , Θ 0 ) = p ( Θ U , i | U F , i , Θ 0 ) = p ( μ U , i , Λ U , i | U F , i , Θ 0 ) = N ( μ U , i | μ U , i * , ( β U , i * Λ U , i ) - 1 ) W ( Λ U , i | W U , i * , v U , i * ) - - - ( 10 )
p(ΘV0)=p(μVV)p(ΛV)=N(μV0,(β0ΛV)-1)W(ΛV|W0,v0)   (11)
μ U , i * = β 0 μ 0 + M i U ‾ ( i ) β 0 + M i , β U , i * = β 0 + M i , v U , i * = v 0 + M i , W U , i * = ( W 0 - 1 + M i S ‾ U , i + β 0 M i β 0 + M i ( μ 0 - U ‾ ( i ) ) T ( μ 0 - U ‾ ( i ) ) ) - 1 , U ‾ ( i ) = 1 M i Σ j ∈ F i U j , S ‾ U , i = 1 M i Σ j ∈ F i ( U j - U ‾ ( i ) ) T ( U j - U ‾ ( i ) ) , Mi=|Fi|,其中UF,i是由用户i及其朋友的特征向量组成的矩阵。Fi是用户i的朋友集,|·|表示一个集合的大小。
Ui的后验分布为:
p ( U i | R , V , Θ U , i , α ) = N ( U i | μ U , i * , ( Λ U , i * ) - 1 ) ~ Π j = 1 N [ N ( R ij | U i T V j , α - 1 ) ] I ij p ( U i | μ U , i , Λ U , i ) - - - ( 12 )
其中 Λ U , i * = Λ U , i + α Σ j = 1 N ( V j T V j ) I ij , μ U , i * = ( Λ i * ) - 1 ( α Σ j = 1 N ( V j R ij ) I ij + μ U , i Λ U , i ) .
公式(8)到公式(12)描述的是有社会关系的贝叶斯概率矩阵分解(BPMFSR),其图形模型如图1所示。在这个模型中,根据每个用户自己的超参数ΘU,i生成用户特征向量Ui。此步骤采用吉布斯采样算法来采样隐含用户特征向量和隐含项目特征向量,其步骤顺序如下:
步骤(2-1-1)将步骤(1)中根据PMF得到的隐含用户特征矩阵和隐含项目特征矩阵作为初始U,V,令t=1。
步骤(2-1-2)根据公式(7)采样超参数 Θ U ( t ) ~ p ( Θ U | U ( t ) , Θ 0 ) , Θ V ( t ) ~ p ( Θ V | V ( t ) , Θ 0 ) .
步骤(2-1-3)如果用户i的朋友个数很少,例如比D少,那么采样该用户的隐含特征向量如果用户i的朋友个数比D多,那么根据公式(10),依据用户i(i=1~M)的朋友的隐含特征向量来采样超参数
Figure BDA0000426674130000081
然后采样隐含用户特征向量 U i ( t + 1 ) ~ p ( U i | R , V ( t ) , Θ U , i ( t ) ) .
步骤(2-1-4)采样隐含项目特征向量(j=1~N),t=t+1。返回步骤(2-1-2)直至t的值大于T。
其吉布斯采样算法的流程图如图3所示。
有社会关系和项目内容的贝叶斯概率矩阵分解(BPMFSRIC,BayesianProbabilistic Matrix Factorization with Social Relations and ItemContents)在有社会关系的贝叶斯概率矩阵分解(BPMFSR)的基础上融入项目内容,修改隐含项目特征矩阵V,修改后的先验分布为:
p ( V ) = Π j = 1 N N ( V j | μ V , j , Λ V , j - 1 ) - - - ( 13 )
其中ΘV,j={μV,jV,j}为隐含项目特征向量Vj的超参数。Vj的后验分布为:
p ( V i | R , U , Θ V , j , α ) = N ( V j | μ V , j * , ( Λ V , j * ) - 1 ) ~ Π i = 1 M [ N ( R ij | U i T V j , α - 1 ) ] I ij p ( V i | μ V , j , Λ V , j ) - - - ( 14 )
Λ V , j * = Λ V , j + α Σ i = 1 M ( U j T U j ) I ij , μ V , j * = ( Λ V , j * ) - 1 ( α Σ i = 1 M ( U i R ij ) I ij + μ V , j Λ V , j ) .
Cj表示所有关联项目j的项目集。项目超参数条件分布为:
p ( Θ V , j | V , Θ 0 ) = p ( Θ V , j | U C , j , Θ 0 ) = p ( μ V , j , Λ V , j | U C , j , Θ 0 ) = N ( μ V , j | μ V , j * , ( β V , j * Λ V , j ) - 1 ) W ( Λ V , j | W V , j * , v V , j * ) - - - ( 15 ) μ V , j * = β 0 μ 0 + N j V ‾ ( j ) β 0 + N j , β V , j * = β 0 + N j , v V , j * = v 0 + N j , W V , j * = ( W 0 - 1 + N j S ‾ V , j + β 0 N j β 0 + N j ( μ 0 - V ‾ ( j ) ) T ( μ 0 - V ‾ ( j ) ) ) - 1 , V ‾ ( j ) = 1 N j Σ k ∈ C j V k , S ‾ V , j = 1 N j Σ k ∈ C j ( V k - V ‾ ( j ) ) T ( V k - V ‾ ( j ) ) , Nj=|Cj|,其中VC,j是由Cj中项目的特征值向量组成的矩阵。
公式(8)到公式(15)描述的是有社会关系和项目内容的贝叶斯概率矩阵分解(BPMFSRIC),图形模型如图2所示。在此模型中,和用户超参数一样,为每一个项目生成超参数。此步骤采用吉布斯采样算法来采样隐含用户特征向量和隐含项目特征向量,其步骤顺序如下:
步骤(2-2-1)将步骤(1)中根据PMF得到的隐含用户特征矩阵和隐含项目特征矩阵作为初始U,V,令t=1。
步骤(2-2-2)根据公式(7)采样超参数 Θ U ( t ) ~ p ( Θ U | U ( t ) , Θ 0 ) , Θ V ( t ) ~ p ( Θ V | V ( t ) , Θ 0 ) .
步骤(2-2-3)如果用户i的朋友个数比D少,那么采样该用户的隐含特征向量
Figure BDA0000426674130000096
如果用户i的朋友个数比D多,那么根据公式(10),依据用户i(i=1…M)的朋友的隐含特征向量来采样超参数 Θ U , i ( t ) ~ p ( Θ U , i | U ( t ) , Θ 0 ) , 然后采样隐含用户特征向量 U i ( t + 1 ) ~ p ( U i | R , V ( t ) , Θ U , i ( t ) ) .
步骤(2-2-4)如果与项目j关联的项目个数比D少,那么采样该隐含项目的特征向量
Figure BDA0000426674130000099
如果与项目j关联的项目的个数比D多,那么根据公式(15),依据与项目j(j=1…N)相关联的隐含项目特征向量来采样超参数
Figure BDA00004266741300000910
然后采样隐含项目特征向量
Figure BDA00004266741300000911
t=t+1。返回步骤(2-2-2)直至t的值大于T。
其吉布斯采样算法的流程图如图4所示。吉布斯采样后得到采样后的隐含用户特征矩阵U和隐含项目特征矩阵V。
步骤(3)计算预测评价矩阵,基于此矩阵进行推荐。
由步骤(2)得到的采样后的隐含用户特征矩阵和隐含项目特征矩阵可以求出预测评价矩阵然后可以基于此预测评价矩阵进行系统推荐。
整体推荐系统流程图如图5所示。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法,其特征在于,包括以下步骤:
(1)、使用概率矩阵分解(PMF,Probabilistic Matrix Factorization)方法对观察评价矩阵进行隐含矩阵分析,得到隐含用户特征矩阵和隐含项目特征矩阵;
(2)、使用有社会关系的贝叶斯概率矩阵分解(BPMFSR,BayesianProbabilistic Matrix Factorization with Social Relations)或者有社会关系和项目内容的贝叶斯概率矩阵分解(BPMFSRIC,BayesianProbabilistic Matrix Factorization with Social Relations and ItemContents)对隐含用户特征矩阵和隐含项目特征矩阵进行吉布斯采样,得到采样后的隐含用户特征矩阵和隐含项目特征矩阵;
(3)、根据所述采样后的隐含用户特征矩阵和隐含项目特征矩阵计算预测评价矩阵,基于所述预测评价矩阵进行推荐。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)具体包括:
(1-1)、随机生成U、V,U∈RM×D和V∈RN×D分别表示隐含用户特征矩阵和隐含项目特征矩阵,其中,R表示观察评价矩阵,Rij表示用户i对项目j的评价,行向量Ui和Vj分别表示隐含用户特征向量和隐含项目特征向量,M和N分别表示用户和项目的数量,常数D是隐含用户特征向量和隐含项目特征向量的维度并远小于M和N;
观察评价矩阵R的条件概率分布为:
p ( R | U , V , σ 2 ) = Π i = 1 M Π j = 1 N [ N ( R ij | U i V j T , σ 2 ) ] I ij ,
其中
Figure FDA0000426674120000012
是均值为
Figure FDA0000426674120000013
方差为σ2的高斯分布的概率密度函数,I是M×N的矩阵,Iij在用户i评价了项目j时等于1,其它时候为0;
隐含用户特征矩阵U和和隐含项目特征矩阵V的先验分布分别为:
p ( U | σ U 2 ) = Π i = 1 M N ( U i | 0 , σ U 2 ) ,
p ( V | σ V 2 ) = Π j = 1 N N ( V j | 0 , σ V 2 ) ;
其中,是均值为0,方差为
Figure FDA0000426674120000024
的高斯分布的概率密度函数,
Figure FDA0000426674120000025
是均值为0,方差为
Figure FDA0000426674120000026
的高斯分布的概率密度函数;
(1-2)、计算 U ′ = U - γ ∂ E ∂ U , V ′ = V - γ ∂ E ∂ V , 其中:
γ为学习率,γ足够小且γ>0,其具体值根据经验确定;
Figure FDA0000426674120000028
是一个矩阵,其第(i,j)个元素是
Figure FDA0000426674120000029
对Ui求偏导
∂ E ∂ U i = - Σ j = 1 N I ij ( R ij - U i V j T ) V j T + λ U U i ,
是一个矩阵,其第(i,j)个元素是
Figure FDA00004266741200000212
对Vj求偏导
∂ E ∂ V j = - Σ i = 1 M I ij ( R ij - U i V j T ) U i + λ V V j ;
λ U = σ 2 / σ U 2 , λ V = σ 2 / σ V 2 ;
(1-3)、根据公式 E = 1 2 Σ i = 1 M Σ j = 1 N I ij ( R ij - U i V j T ) 2 + λ U 2 Σ i = 1 M | | U i | | Fro 2 + λ V 2 Σ j = 1 N | | V j | | Fro 2 计算E(U)、E(V)的值,当E(U)、E(V)的变化小于设定的阈值时,停止计算,否则令U=U',V=V',返回步骤(1-2),其中
Figure FDA00004266741200000216
表示Frobenius范式;
(1-4)、当停止计算时,得到的矩阵U'和V'分别为求得的隐含用户特征矩阵和隐含项目特征矩阵。
3.根据权利要求2所述的方法,其特征在于,所述步骤(2)中使用BPMFSR对隐含用户特征矩阵和隐含项目特征矩阵进行吉布斯采样,具体包括:
(2-1-1)、将步骤(1)中得到的隐含用户特征矩阵和隐含项目特征矩阵作为初始U,V,令t=1;
(2-1-2)、根据公式 p ( μ U , Λ U | U , Θ 0 ) = N ( μ U | μ 0 * , ( β 0 * Λ U ) - 1 ) W ( Λ U | W 0 * , v 0 * ) 采样超参数 Θ U ( t ) ~ p ( Θ U | U ( t ) , Θ 0 ) , Θ V ( t ) ~ p ( Θ V | V ( t ) , Θ 0 ) , 其中:
W(w|W0,v0)是自由度为v0,尺度参数为W0的威夏特分布的概率密度函数,W0是一个D×D的矩阵,
Θ0={μ0,v0,W0},
μ 0 * = β 0 μ 0 + M U ‾ β 0 + M ,
β 0 * = β 0 + M ,
v 0 * = v 0 + M ,
W 0 * = ( W 0 - 1 + M S ‾ + β 0 M β 0 + M ( μ 0 - U ‾ ) T ( μ 0 - U ‾ ) ) - 1 ,
U ‾ = 1 M Σ i = 1 M U i ,
S ‾ = 1 M Σ i = 1 M ( U i - U ‾ ) T ( U i - U ‾ ) ;
(2-1-3)、如果用户i的朋友个数比D少,那么采样该用户的隐含特征向量如果用户i的朋友个数比D多,那么根据用户i的朋友的隐含特征向量来采样超参数
Figure FDA00004266741200000310
其中i=1~M,
p ( Θ U , i | U , Θ 0 ) = p ( Θ U , i | U F , i , Θ 0 ) = p ( μ U , i , Λ U , i | U F , i , Θ 0 ) = N ( μ U , i | μ U , i * , ( β U , i * Λ U , i ) - 1 ) W ( Λ U , i | W U , i * , v U , i * ) ,
其中:
μ U , i * = β 0 μ 0 + M i U ‾ ( i ) β 0 + M i ,
β U , i * = β 0 + M i ,
v U , i * = v 0 + M i ,
W U , i * = ( W 0 - 1 + M i S ‾ U , i + β 0 M i β 0 + M i ( μ 0 - U ‾ ( i ) ) T ( μ 0 - U ‾ ( i ) ) ) - 1 ,
U ‾ ( i ) = 1 M i Σ j ∈ F i U j ,
S ‾ U , i = 1 M i Σ j ∈ F i ( U j - U ‾ ( i ) ) T ( U j - U ‾ ( i ) ) ,
Mi=|Fi|,
这里UF,i是由用户i及其朋友的隐含特征向量组成的矩阵,Fi是用户i及其朋友组成的集合,|·|表示集合的大小;
然后采样用户隐含特征向量
Figure FDA0000426674120000045
(2-1-4)、采样隐含项目特征向量t=t+1,j=1~N,返回步骤(2-1-2)直至t的值大于T,其中T为采样循环次数。
4.根据权利要求2所述的方法,其特征在于,所述步骤(2)中使用BPMFSRIC对隐含用户特征矩阵和隐含项目特征矩阵进行吉布斯采样具体包括:
(2-2-1)、将步骤(1)中得到的隐含用户特征矩阵和隐含项目特征矩阵作为初始U,V,令t=1;
(2-2-2)根据公式 p ( μ U , Λ U | U , Θ 0 ) = N ( μ U | μ 0 * , ( β 0 * Λ U ) - 1 ) W ( Λ U | W 0 * , v 0 * ) 采样超参数 Θ U ( t ) ~ p ( Θ U | U ( t ) , Θ 0 ) , Θ V ( t ) ~ p ( Θ V | V ( t ) , Θ 0 ) , 其中:
W(w|W0,v0)是自由度为v0,尺度参数为W0的威夏特分布的概率密度函数,W0是一个D×D的矩阵,
Θ0={μ0,v0,W0},
μ 0 * = β 0 μ 0 + M U ‾ β 0 + M ,
β 0 * = β 0 + M ,
v 0 * = v 0 + M ,
W 0 * = ( W 0 - 1 + M S ‾ + β 0 M β 0 + M ( μ 0 - U ‾ ) T ( μ 0 - U ‾ ) ) - 1 ,
U ‾ = 1 M Σ i = 1 M U i ,
S ‾ = 1 M Σ i = 1 M ( U i - U ‾ ) T ( U i - U ‾ ) ;
(2-2-3)、如果用户i的朋友个数比D少,那么采样该用户的隐含特征向量
Figure FDA0000426674120000055
如果用户i的朋友个数比D多,那么根据用户i的朋友的隐含特征向量来采样超参数
Figure FDA0000426674120000056
其中i=1~M,
p ( Θ U , i | U , Θ 0 ) = p ( Θ U , i | U F , i , Θ 0 ) = p ( μ U , i , Λ U , i | U F , i , Θ 0 ) = N ( μ U , i | μ U , i * , ( β U , i * Λ U , i ) - 1 ) W ( Λ U , i | W U , i * , v U , i * ) ,
其中:
μ U , i * = β 0 μ 0 + M i U ‾ ( i ) β 0 + M i ,
β U , i * = β 0 + M i ,
v U , i * = v 0 + M i ,
W U , i * = ( W 0 - 1 + M i S ‾ U , i + β 0 M i β 0 + M i ( μ 0 - U ‾ ( i ) ) T ( μ 0 - U ‾ ( i ) ) ) - 1 ,
U ‾ ( i ) = 1 M i Σ j ∈ F i U j ,
S ‾ U , i = 1 M i Σ j ∈ F i ( U j - U ‾ ( i ) ) T ( U j - U ‾ ( i ) ) ,
Mi=|Fi|,
这里UF,i是由用户i及其朋友的隐含特征向量组成的矩阵,Fi是用户i及其朋友组成的集合,|·|表示集合的大小;
然后采样隐含用户特征向量
Figure FDA00004266741200000514
(2-2-4)、如果与项目j关联的项目个数比D少,那么采样该隐含项目特征向量
Figure FDA0000426674120000061
如果与项目j关联的项目个数比D多,那么根据项目j关联的隐含项目特征向量来采样超参数
Figure FDA0000426674120000062
其中j=1~N,
p ( Θ V , j | V , Θ 0 ) = p ( Θ V , j | V C , j , Θ 0 ) = p ( μ V , j , Λ V , j | V C , j , Θ 0 ) = N ( μ V , j | μ V , j * , ( β V , j * Λ V , j ) - 1 ) W ( Λ V , j | W V , j * , v V , j * )
其中:
μ V , j * = β 0 μ 0 + N j V ‾ ( j ) β 0 + N j ,
β V , j * = β 0 + N j ,
v V , j * = v 0 + N j ,
W V , j * = ( W 0 - 1 + N j S ‾ V , j + β 0 N j β 0 + N j ( μ 0 - V ‾ ( j ) ) T ( μ 0 - V ‾ ( j ) ) ) - 1 ,
V ‾ ( j ) = 1 N j Σ k ∈ C j V k ,
S ‾ V , j = 1 N j Σ k ∈ C j ( V k - V ‾ ( j ) ) T ( V k - V ‾ ( j ) ) ,
Nj=|Cj|,
这里VC,j是由Cj中项目的隐含特征向量组成的矩阵,Cj是与项目j相关联的项目集合;
然后采样隐含项目特征向量
Figure FDA00004266741200000610
t=t+1,返回步骤(2-2-2)直至t的值大于T,其中T为采样循环次数。
5.根据权利要求3或4所述的方法,其特征在于,由步骤(2)中得到的采样后的隐含用户特征矩阵和隐含项目特征矩阵求出预测评价矩阵
Figure FDA00004266741200000611
然后基于此预测评价矩阵进行系统推荐。
CN201310632543.0A 2013-11-29 2013-11-29 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法 Pending CN103617259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310632543.0A CN103617259A (zh) 2013-11-29 2013-11-29 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310632543.0A CN103617259A (zh) 2013-11-29 2013-11-29 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法

Publications (1)

Publication Number Publication Date
CN103617259A true CN103617259A (zh) 2014-03-05

Family

ID=50167962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310632543.0A Pending CN103617259A (zh) 2013-11-29 2013-11-29 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法

Country Status (1)

Country Link
CN (1) CN103617259A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573391A (zh) * 2015-01-27 2015-04-29 福建医科大学附属口腔医院 一种基于线性回归的牙齿选色推测方法
CN104615741A (zh) * 2015-02-12 2015-05-13 福建金科信息技术股份有限公司 一种基于云计算的冷启动项目推荐的方法及装置
CN105160539A (zh) * 2015-06-17 2015-12-16 南京邮电大学 一种概率矩阵分解推荐方法
CN106557654A (zh) * 2016-11-16 2017-04-05 中山大学 一种基于差分隐私技术的协同过滤算法
CN106776641A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种数据处理方法及装置
CN107491540A (zh) * 2017-08-24 2017-12-19 济南浚达信息技术有限公司 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法
CN107800437A (zh) * 2017-10-31 2018-03-13 北京金风科创风电设备有限公司 数据压缩方法和装置
CN109146626A (zh) * 2018-08-14 2019-01-04 中山大学 一种基于用户动态兴趣分析的时尚服装搭配推荐方法
CN109416721A (zh) * 2016-06-22 2019-03-01 微软技术许可有限责任公司 隐私保护机器学习
CN112883289A (zh) * 2021-04-16 2021-06-01 河北工程大学 一种基于社交信任和标签语义相似度的pmf推荐方法
CN114741591A (zh) * 2022-04-02 2022-07-12 西安电子科技大学 一种向学习者推荐学习路径的方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059788A1 (en) * 2010-09-08 2012-03-08 Masashi Sekino Rating prediction device, rating prediction method, and program
CN102750360A (zh) * 2012-06-12 2012-10-24 清华大学 一种用于推荐系统的计算机数据挖掘方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120059788A1 (en) * 2010-09-08 2012-03-08 Masashi Sekino Rating prediction device, rating prediction method, and program
CN102750360A (zh) * 2012-06-12 2012-10-24 清华大学 一种用于推荐系统的计算机数据挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JUNTAO LIU 等: "Bayesian Probabilistic Matrix Factorization with Social Relations and Item Contents for recommendation", 《DECISION SUPPORT SYSTEMS》, vol. 55, no. 3, 15 April 2013 (2013-04-15), pages 838 - 850, XP028556230, DOI: doi:10.1016/j.dss.2013.04.002 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573391A (zh) * 2015-01-27 2015-04-29 福建医科大学附属口腔医院 一种基于线性回归的牙齿选色推测方法
CN104573391B (zh) * 2015-01-27 2017-09-22 福建医科大学附属口腔医院 一种基于线性回归的牙齿选色推测方法
CN104615741A (zh) * 2015-02-12 2015-05-13 福建金科信息技术股份有限公司 一种基于云计算的冷启动项目推荐的方法及装置
CN105160539A (zh) * 2015-06-17 2015-12-16 南京邮电大学 一种概率矩阵分解推荐方法
CN106776641A (zh) * 2015-11-24 2017-05-31 华为技术有限公司 一种数据处理方法及装置
CN109416721A (zh) * 2016-06-22 2019-03-01 微软技术许可有限责任公司 隐私保护机器学习
CN106557654A (zh) * 2016-11-16 2017-04-05 中山大学 一种基于差分隐私技术的协同过滤算法
CN106557654B (zh) * 2016-11-16 2020-03-17 中山大学 一种基于差分隐私技术的协同过滤方法
CN107491540A (zh) * 2017-08-24 2017-12-19 济南浚达信息技术有限公司 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法
CN107800437A (zh) * 2017-10-31 2018-03-13 北京金风科创风电设备有限公司 数据压缩方法和装置
CN107800437B (zh) * 2017-10-31 2019-03-26 北京金风科创风电设备有限公司 数据压缩方法和装置
CN109146626A (zh) * 2018-08-14 2019-01-04 中山大学 一种基于用户动态兴趣分析的时尚服装搭配推荐方法
CN112883289A (zh) * 2021-04-16 2021-06-01 河北工程大学 一种基于社交信任和标签语义相似度的pmf推荐方法
CN112883289B (zh) * 2021-04-16 2022-05-06 河北工程大学 一种基于社交信任和标签语义相似度的pmf推荐方法
CN114741591A (zh) * 2022-04-02 2022-07-12 西安电子科技大学 一种向学习者推荐学习路径的方法及电子设备

Similar Documents

Publication Publication Date Title
CN103617259A (zh) 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法
Crane-Droesch Machine learning methods for crop yield prediction and climate change impact assessment in agriculture
Sun et al. Using Bayesian deep learning to capture uncertainty for residential net load forecasting
Chen et al. Ensemble correlation-based low-rank matrix completion with applications to traffic data imputation
Vrbik et al. Analytic calculations for the EM algorithm for multivariate skew-t mixture models
Zhang et al. Identification of core-periphery structure in networks
CN101694652A (zh) 一种基于极速神经网络的网络资源个性化推荐方法
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
Liu et al. Sparse-gev: Sparse latent space model for multivariate extreme value time serie modeling
CN103198228A (zh) 基于广义关系隐话题模型的关系网络链接预测方法
Casolaro et al. Deep learning for time series forecasting: Advances and open problems
CN103020485B (zh) 基于beta噪声核岭回归技术的短期风速预报方法
Cai et al. Network linear discriminant analysis
Karingula et al. Boosted embeddings for time-series forecasting
CN103345474A (zh) 一种文档主题的在线追踪方法
Xu et al. A novel matrix factorization recommendation algorithm fusing social trust and behaviors in micro-blogs
Huang et al. An Ad CTR prediction method based on feature learning of deep and shallow layers
Xu et al. Copula-based high dimensional cross-market dependence modeling
Liang et al. Fractional Fokker-Planck equation and Black-Scholes formula in composite-diffusive regime
Yang et al. Fast flow field prediction of three-dimensional hypersonic vehicles using an improved Gaussian process regression algorithm
She et al. Research on advertising click-through rate prediction based on CNN-FM hybrid model
Huang et al. Predicting the structural evolution of networks by applying multivariate time series
Korotin et al. Integral mixability: a tool for efficient online aggregation of functional and probabilistic forecasts
Zhang et al. Hit and run ARMS: adaptive rejection Metropolis sampling with hit and run random direction
Korotin et al. Mixability of integral losses: A key to efficient online aggregation of functional and probabilistic forecasts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140305