CN102129463A - 一种融合项目相关性的基于pmf的协同过滤推荐系统 - Google Patents

一种融合项目相关性的基于pmf的协同过滤推荐系统 Download PDF

Info

Publication number
CN102129463A
CN102129463A CN201110059844XA CN201110059844A CN102129463A CN 102129463 A CN102129463 A CN 102129463A CN 201110059844X A CN201110059844X A CN 201110059844XA CN 201110059844 A CN201110059844 A CN 201110059844A CN 102129463 A CN102129463 A CN 102129463A
Authority
CN
China
Prior art keywords
sigma
project
user
latent
pmf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110059844XA
Other languages
English (en)
Inventor
罗辛
欧阳元新
顾毅
罗建辉
熊璋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201110059844XA priority Critical patent/CN102129463A/zh
Publication of CN102129463A publication Critical patent/CN102129463A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种融合项目相关性的基于PMF的协同过滤推荐系统,系统包括对用户-项目评分数据的概率矩阵因式分解隐向量分析、融入社会标签因素的使用PMF对社会标签网络分析和基于两种数据源的隐向量融合三个部分。对用户-项目评分数据的概率矩阵因式分解是基于已知的用户-项目评分数据,利用PMF对用户-项目评分矩阵进行隐向量分析,再使用构造出的隐向量进行推荐。PMF对社会标签网络分析是沿用之前提出的社会标签网络模型从社会标签数据中抽取社会标签数据中项间的关系,并使用PMF方法对社会标签网络模型进行隐向量分析,最后通过在基于不同数据源的隐向量模型上共享隐向量空间的方式,将社会标签数据信息和用户-项目评分数据信息进行融合,从而达到提高推荐精度的目的。

Description

一种融合项目相关性的基于PMF的协同过滤推荐系统
技术领域
本发明涉及一种融合了协同标签项目相关性的基于PMF(ProbabilisticMatrix Factorization,概率矩阵因式分解)的协同过滤推荐系统,适用于推荐结果的优化,属于数据挖掘的技术领域。
背景技术
社会标签网络的提出,使协同过滤推荐系统有了除用户-项目评分数据矩阵以外的另一个推荐参考标准。现有的基于评分相似度的K近邻模型和FR(F指社会标签网络过滤,R指推荐偏差移除)方法都对协同过滤推荐系统进行了优化。
基于隐向量模型的协同过滤算法,与基于评分相似度的K近邻模型相比,其存贮和计算复杂度相对较低,并能较好地对已知的用户-项目评分数据中的潜在关系进行诠释;同时具备较高的推荐精度。但是,现有的基于隐向量模型的协同过滤算法,其推荐结果往往只基于已知的用户-项目评分数据产生;通过上一章的研究,我们可以看到,在基于评分相似度的K近邻模型中,融入社会标签数据的信息,将会有效地提高推荐结果的质量;类似地,我们同样可以通过融入社会标签数据信息的方式,来提高基于隐向量模型的协同过滤算法的推荐精度。
发明内容
本发明要解决的技术问题:克服现有技术的不足,提供一种融合了协同标签项目相关性的基于PMF的协同过滤推荐系统,着重于讨论从社会化标签数据中挖掘项目间的联系,并将其与用户-项目评分数据中相结合,以达到提高推荐质量的目的。
本发明的技术解决方案:一种融合了协同标签项目相关性的基于PMF的协同过滤推荐系统,包括对用户-项目评分数据的概率矩阵因式分解隐向量分析、融入社会标签因素的使用PMF对社会标签网络分析和基于不同数据源的隐向量融合三个部分。对用户-项目评分数据的概率矩阵因式分解是基于已知的用户-项目评分数据,利用PMF对用户-项目评分矩阵进行隐向量分析,再使用构造出的隐向量进行推荐。PMF对社会标签网络分析是沿用之前提出的社会标签网络模型从社会标签数据中抽取社会标签数据中项间的关系,并使用PMF方法对社会标签网络模型进行隐向量分析,最后通过在基于不同数据源的隐向量模型上共享隐向量空间的方式,将社会标签数据信息和用户-项目评分数据信息进行融合。
下面对本发明的技术方案做详细的说明:一种融合了协同标签项目相关性的基于PMF的协同过滤推荐系统,具体如下:
(一)使用PMF对用户-项目评分矩阵进行隐向量分析
系统首先在给定的包含|I|个项目的社会标签数据上建立的社会标签网络模型,使用邻接矩阵F∈R|I|×|I|表示,其中元素fi,j表示项目i和j之间的社会标签相关度。
(二)融入社会标签因素的使用PMF对社会标签网络分析
系统使用PMF对邻接矩阵F进行因式分解,得到每个项目在社会标签数据中的特征信息。令Y、Q均为|I|×f的矩阵,各自代表f维的项目隐特征矩阵,其中Y是前置项目隐特征矩阵,Q是后置项目隐特征矩阵,并使用yi·qj对F中的元素fi,j进行逼近,得到F中的已知值关于Y和Q的条件分布。
(三)基于两种数据源的隐向量融合
通过在基于不同数据源的隐向量模型上共享隐向量空间的方式,将社会标签数据信息和用户-项目评分数据信息进行融合,进而构造同时依赖于社会标签网络信息和用户-项目特征信息的累积损失函数,更好地通过已知数据预测出未知数据的评分信息,从而达到提高推荐精度的目的。
关键技术是PMF,即概率矩阵因式分解,是一种使用高斯函数对隐向量进行拟和,再使用似然构造全局损失函数,从而实现对指定矩阵进行隐向量分析的因式分解技术。所述(一)中使用PMF对用户-项目评分矩阵进行隐向量分析时,令P、Q分别为|U|×f和|I|×f的矩阵,代表f维的用户隐特征矩阵和项目隐特征矩阵;令ru,j∈R代表用户u对项目j的评分;代入具备高斯观测噪声的线性似然模型,则使用用户隐特征矩阵和项目隐特征矩阵对用户-项目评分矩阵R进行逼近时,可以得到用户-项目评分矩阵R关于用户隐特征和项目隐特征的条件分布。基于PMF的隐向量模型(以下简称PMF模型)由Salakhutdinov等提出,其基本思想是基于已知的用户-项目评分数据T,利用PMF对用户-项目评分矩阵R进行隐向量分析,再使用构造出的隐向量进行推荐。
本发明的优点及功效在于:(1)采用社会标签网络模型从社会标签数据中抽取社会标签数据中项目的关系;(2)使用PMF方法对社会标签网络模型进行隐向量分析,通过在基于不同数据源的隐向量模型上共享隐向量空间的方式,将社会标签数据信息和用户-项目评分数据信息进行融合分析;(3)能够充分挖掘用户-项目之间的关系,提高了协同过滤推荐系统推荐的精度。
附图说明
图1是使用PMF对用户-项目评分矩阵进行分解的模型图示
图2是使用PMF对社会标签网络进行分解的模型图示
图3是基于两种不同数据源的隐向量模型融合后的模型图示
具体实施方式
1.使用PMF对用户-项目评分矩阵进行隐向量分析
使用PMF对用户-项目评分矩阵进行隐向量分析时,令P、Q分别为|U|×f和|I|×f的矩阵,代表f维的用户隐特征矩阵和项目隐特征矩阵;令ru,j∈R代表用户u对项目j的评分;代入具备高斯观测噪声的线性似然模型,则使用用户隐特征矩阵和项目隐特征矩阵对用户-项目评分矩阵R进行逼近时,可以得到用户-项目评分矩阵R关于用户隐特征和项目隐特征的条件分布,如下所示:
p ( R | P , Q , σ R 2 ) = Π u = 1 | U | Π j = 1 | I | [ N ( r uj | p u · q j , σ R 2 ) ] I u , j R . - - - ( 1 )
其中N(x|μ,σ2)是以μ为均值,σ2为方差的高斯概率密度函数,
Figure BDA0000049803480000042
为指示矩阵,如果已知用户u对项目j的评分即ru,j∈T,则
Figure BDA0000049803480000043
反之,则
Figure BDA0000049803480000044
同时,可以使用均值为零的多维高斯概率分布对用户隐特征矩阵P和项目隐特征矩阵Q进行建模,如此,则P、Q的先验分布如下式所示:
p ( P | σ P 2 ) = Π u = 1 | U | [ N ( p u | 0 , σ P 2 I ) ]
( 2 )
p ( Q | σ Q 2 ) = Π j = 1 | I | [ N ( q j | 0 , σ Q 2 I ) ]
结合式(1)和(2),通过贝叶斯公式,可以推导出已知的用户-项目评分关于P、Q的后验概率
Figure BDA0000049803480000048
与已知的用户-项目评分关于P、Q的条件分布以及P、Q的先验分布成正比,即:
p ( P , Q | R , σ R 2 , σ P 2 , σ Q 2 ) ∝ p ( R | P , Q , σ R 2 ) p ( P | σ P 2 ) p ( Q | σ Q 2 )
= Π u = 1 | u | Π j = 1 | j | [ N ( r u , j | p u · q j ) , σ R 2 ) ] I u , j R × Π u = 1 m [ N ( p u | 0 , σ P 2 I ) ] × Π j = 1 n [ N ( q j | 0 , σ Q 2 - - - ( 3 )
Figure BDA00000498034800000411
求对数,可以得到:
ln p ( P , Q | R , σ R 2 , σ P 2 , σ Q 2 ) ∝ ln p ( R | P , Q , σ R 2 ) p ( P | σ P 2 ) p ( Q | σ Q 2 )
= - 1 2 σ R 2 Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j - p u · q j ) 2 - 1 2 σ P 2 Σ u = 1 | U | | | p u | | - 1 2 σ Q 2 Σ j = 1 | I | | | q j | | - - - ( 4 )
- 1 2 ( ln σ R 2 Σ u = 1 m Σ j = 1 n I u , j R + | U | · f · ln σ P 2 + | I | · f · ln σ Q 2 ) + C
其中C是与未知参数无关的常量。由上式(2)可以看出,最大化已知的用户-项目评分关于P、Q的后验概率等同于最小化如下所示的累积误差函数,即
SE P , Q = Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j - p u · q j ) 2 + λ P Σ u = 1 | U | | | p u | | + λ Q Σ q = 1 | I | | | q j | | - - - ( 5 )
其中
Figure BDA0000049803480000053
为了避免评分预测值超出既定范围,可以使用Logistic函数对pu、qj的乘积进行规范化,将评分预测值限制在区间(0,1)内,如下所示:
g ( p u · q j ) = 1 1 - exp ( - p u · q j ) - - - ( 6 )
同时需要对已知的用户-项目评分进行相应的规范化,最简单的方式是最大值-最小值规范化,即
r u , j ′ = r u , j - r min r max - r min - - - ( 7 )
使用式(7)可将已知的用户-项目评分映射到区间[0,1]之中。如此,则之前的累积误差函数转化为:
SE P , Q ′ = Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j ′ - g ( p u · q j ) ) 2 + λ P Σ u = 1 | U | | | p u | | + λ Q Σ q = 1 | I | | | q j | | - - - ( 8 )
但是,使用式(6)的损失函数对用户隐特征矩阵和项目隐特征矩阵求解,会受到数据稀疏性的影响:所有具备少量评分的用户,其特征向量都将会趋近于先验均值,导致对这部分用户的未知评分预测均趋近于所有用户在对应项目上的平均评分。
为了解决这个问题,可以进一步对用户隐特征向量进行分解,并对对用户的评分行为进行建模。此时,对于用户u,其特征向量pu可表示为:
p u = c u + Σ l = 1 | I | I u , l R · h l / Σ l = 1 | I | I u , l R - - - ( 9 )
其中,cu为用户u的特征向量相对于先验均值的偏移量,h1表示任一用户评价了项目l后的偏好效应向量,而IR则为前文中提到的用户-项目评分指示矩阵。如此,则通过加权平均的方式,抑制了用户评分数量的多寡对用户隐特征向量训练结果的决定性作用;同时又通过引入偏好效应向量,将用户对不同项目进行评价的效应区分开来。此时,描述已知的用户-项目评分数据关于用户隐特征矩阵P和项目隐特征Q的条件分布的模型图示如图1所示
Figure BDA0000049803480000061
2.融入社会标签因素的使用PMF对社会标签网络分析
与P、Q类似,可使用均值为零的高斯向量C、H进行建模,如此,则C、H的先验分布如下所示:
p ( C | σ C 2 ) = Π u = 1 | U | [ N ( c u | 0 , σ C 2 I ) ]
( 10 )
p ( H | σ H 2 ) = Π j = 1 | I | [ N ( h j | 0 , σ H 2 I ) ]
将式(1)、(4)、(7)、(8)合并得到:
p ( C , H , Q | R , σ R 2 , σ C 2 , σ H 2 , σ Q 2 ) ∝ p ( R | C , H , Q , σ R 2 ) p ( C | σ C 2 ) p ( H | σ H 2 ) P ( Q |
= Π u = 1 | U | Π j = 1 | I | [ N ( r uj ′ | g ( ( c u + Σ l = 1 n I ul R · h l / Σ l = 1 n I ul R ) T q j ) , σ R 2 ) ] I u , j R × Π u = 1 | U | [ N ( c i | 0 , σ C 2 - - - ( 11 )
× Π l = 1 | I | [ N ( h i | 0 , σ H 2 I ) ] × Π j = 1 | I | [ N ( q i | 0 , σ Q 2 I ) ] .
Figure BDA0000049803480000068
求对数,结合式(9)可以得到:
ln p ( C , H , Q | R , σ R 2 , σ C 2 , σ H 2 , σ Q 2 )
= - 1 2 σ R 2 Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j ′ - g ( ( c u + Σ l = 1 n I ul R · h l / Σ l = 1 n I ul R ) T q j ) ) 2
- 1 2 σ C 2 Σ u = 1 | U | | | c u | | 2 - 1 2 σ H 2 Σ l = 1 | I | | | h l | | 2 - 1 2 σ Q 2 Σ j = 1 | I | | | q j | | - - - ( 12 )
- 1 2 ( ln σ R 2 Σ u = 1 m Σ j = 1 n I u , j R + | U | · f · ln σ C 2 + | I | · f · ln σ H 2 + | I | · f · ln σ Q 2 ) + C
其中C是与未知参数无关的常量。如此,则式(6)累积误差函数转化为:
SE C , H , Q = Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j ′ - g ( ( c u + Σ l = 1 n I ul R · h l / Σ l = 1 n I ul R ) T q j ) 2
( 13 )
+ λ C Σ u = 1 | U | | | c u | | + λ H Σ l = 1 | I | | | h l | | + λ Q Σ q = 1 | I | | | q j | |
结合已知的用户-项目评分数据,使用随机梯度下降法对式(9)累积误差函数进行求解,就可以在已知的用户-项目评分数据的基础上求解用户隐特征矩阵和项目隐特征矩阵。
在给定的包含|I|个项目的社会标签数据上建立的社会标签网络模型可以使用邻接矩阵F∈R|I|×|I|表示,其中元素fi,j表示项目i和j之间的社会标签相关度。如果我们使用PMF对邻接矩阵F进行因式分解,就可以得到每个项目在社会标签数据中的特征信息。令Y、Q均为|I|×f的矩阵,各自代表f维的项目隐特征矩阵,其中Y是前置项目隐特征矩阵,Q是后置项目隐特征矩阵,并使用yi·qj对F中的元素fi,j进行逼近,则F中的已知值关于Y和Q的条件分布如下所示:
p ( F | Y , Q , σ F 2 ) = Π i = 1 | I | Π j = 1 | I | [ N ( f i , j | g ( y i T q j ) , σ F 2 ) ] I i , j F - - - ( 14 )
其中N(x|μ,σ2)是高斯分布密度函数,IF∈R|I|×|I|为指示矩阵,如果已知项目i、j间的社会标签相关度不为零,则
Figure BDA0000049803480000075
反之,则
Figure BDA0000049803480000076
进一步地,可以使用均值为零的高斯向量对前置项目隐特征矩阵Y和后置项目隐特征矩阵Q进行建模,如此,则Y、Q的先验分布如下式所示:
p ( Y | σ Y 2 ) = Π i = 1 | I | [ N ( y i | 0 , σ Y 2 I ) ]
( 15 )
p ( Q | σ Q 2 ) = Π j = 1 | I | [ N ( q j | 0 , σ Q 2 I ) ]
结合(14)、(15)两式,通过贝叶斯公式,可以推导出已知项目社会标签网络相关度关于Y、Q的后验概率
Figure BDA00000498034800000710
与已知项目社会标签网络相关度关于Y、Q的条件分布以及Y、Q的先验分布成正比,即
p ( Y , Q | F , σ F 2 , σ Y 2 , σ Q 2 ) ∝ p ( F | Y , Q , σ F 2 ) P ( Y | σ Y 2 ) P ( Q | σ Q 2 )
= Π i = 1 | I | Π j = 1 | I | [ N ( f i , j | y i · q j , σ R 2 ) ] I i , j F × Π i = 1 | I | [ N ( y i | 0 , σ C 2 I ) ] × Π j = 1 | I | [ N ( q j | 0 , σ Q 2 I ) - - - ( 16 )
Figure BDA0000049803480000083
求对数,结合式(14)可以得到:
ln p ( Y , Q | F , σ F 2 , σ Y 2 , σ Q 2 )
= - 1 2 σ F 2 Σ i = 1 | I | Σ j = 1 | I | I i , j F ( f i , j - y i · q j ) 2 - 1 2 σ Y 2 Σ i = 1 | I | | | y i | | - 1 2 σ Q 2 Σ j = 1 | I | | | q j | | - - - ( 17 )
- 1 2 ( ln σ F 2 Σ i = 1 | I | Σ j = 1 | I | I i , j F + | I | · f · ln σ Y 2 + | I | · f · ln σ Q 2 ) + C
其中C是与未知参数无关的常量。由式(15)可以看出,最大化已知项目社会标签网络相关度关于Y、Q的后验概率等同于最小化如下所示的累积误差函数,即
SE Y , Q = Σ i = 1 | I | Σ j = 1 | I | I i , j F ( f i , j - y i · q j ) 2 + λ Y Σ i = 1 | I | | | y i | | + λ Q Σ q = 1 | I | | | q j | | - - - ( 18 )
其中
Figure BDA0000049803480000088
Figure BDA0000049803480000089
同时可以使用Logistic函数对yi、qj的内积进行规范化,将其限制在区间(0,1)内,如下所示:
g ( y i · q j ) = 1 1 - exp ( - y i · q j ) - - - ( 19 )
并同时已知项目社会标签网络相关度最大值-最小值规范化,即
f i , j ′ = f i , j - f min f max - f min - - - ( 20 )
使用式(20)可将已知项目社会标签网络相关度映射到区间[0,1]内,如此则式(18)所示的累积误差函数转化为:
SE Y , Q ′ = Σ i = 1 | I | Σ j = 1 | I | I i , j F ( f i , j ′ - g ( y i · q j ) ) 2 + λ Y Σ i = 1 | I | | | y i | | + λ Q Σ q = 1 | I | | | q j | | - - - ( 21 )
进一步地,为了避免数据稀疏性的影响,可以对前置项目隐特征矩阵Y进行分解,对于项目i,其前置特征向量yi可表示为:
y i = b i + Σ k = 1 | I | I i , k F e k / Σ k = 1 | I | I ik F . - - - ( 22 )
其中,bi为项目i的特征向量相对于先验均值的偏移量,ek表示与项目k具备社会标签相关度的效应向量,而IF为指示矩阵。此时,描述已知项目社会标签网络相关度关于Y、Q的条件分布的模型图示如图2所示。
我们可以使用均值为零的高斯向量对B、E进行建模,如此,则B、E的先验分布如下所示:
p ( E | σ E 2 ) = Π k = 1 | I | [ N ( e k | 0 , σ E 2 I ) ]
( 23 )
p ( B | σ B 2 ) = Π i = 1 | I | [ N ( e i | 0 , σ B 2 I ) ]
将式(11)、(12)与(13)合并得到:
p ( B , E , Q | F , σ F 2 , σ B 2 , σ E 2 , σ Q 2 ) ∝ p ( F | B , E , Q , σ F 2 ) p ( B | σ B 2 ) p ( E | σ E 2 ) P ( Q | σ Q 2
= Π i = 1 | I | Π j = 1 | I | [ N ( f i , j ′ | g ( ( b i + Σ k = 1 | I | I i , k F · e k / Σ k = 1 | I | I i , k F ) T q j ) , σ F 2 ) ] I i , j F × Π i = 1 | I | [ N ( b i | 0 , σ - - - ( 24 )
× Π k = 1 | I | [ N ( e k | 0 , σ E 2 I ) ] × Π j = 1 | I | [ N ( q j | 0 , σ Q 2 I ) ]
3.基于两种数据源的隐向量融合
已知的用户-项目评分信息可以使用隐特征矩阵C、H、Q进行分解,而在上节中,我们使用隐特征矩阵B、E、Q对已知项目社会标签相关度进行建模。完成上述两步隐特征分解后,我们可以通过在这两个基于不同数据源的隐特征模型间共享项目隐特征空间Q的方式,实现两个隐特征模型的融合。融合后的模型图示如图3所示:
结合式(9)和(22)我们可以得出已知的用户-项目评分和已知项目社会标签相关度关于隐特征矩阵C、H、B、E、Q的条件分布如下式所示:
p ( C , H , B , E , Q | R , F , σ R 2 , σ F 2 , σ C 2 , σ H 2 , σ B 2 , σ E 2 , σ Q 2 )
∝ p ( R | C , H , Q , σ R 2 ) p ( F | B , E , Q , σ F 2 ) p ( C | σ C 2 ) p ( H | σ H 2 ) p ( B | σ B 2 ) p ( E | σ E 2 ) P ( Q |
= Π i = 1 | I | Π j = 1 | I | [ N ( f i , j ′ | g ( ( b i + Σ k = 1 | I | I i , k F · e k / Σ k = 1 | I | I i , k F ) T q j ) , σ F 2 ) ] I i , j F
× Π u = 1 | U | Π j = 1 | I | [ N ( r uj ′ | g ( ( c u + Σ l = 1 n I ul R · h l / Σ l = 1 n I ul R ) T q j ) , σ R 2 ) ] I u , j R - - - ( 25 )
× Π u = 1 | U | [ N ( c i | 0 , σ C 2 I ) ] × Π l = 1 | I | [ N ( h i | 0 , σ H 2 I ) ] × Π i = 1 | I | [ N ( b i | 0 , σ B 2 I ) ]
× Π k = 1 | I | [ N ( e k | 0 , σ E 2 I ) ] × Π j = 1 | I | [ N ( q j | 0 , σ Q 2 I ) ]
Figure BDA0000049803480000107
求对数,结合式(23)可以得到:
ln p ( C , H , B , E , Q | R , F , σ R 2 , σ F 2 , σ C 2 , σ H 2 , σ B 2 , σ E 2 , σ Q 2 )
= - 1 2 σ R 2 Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j ′ - g ( ( c u + Σ l = 1 n I u , l R · h l / Σ l = 1 n I u , l R ) T q j ) ) 2
- 1 2 σ F 2 Σ i = 1 | I | Σ j = 1 | I | I i , j F ( f i , j ′ - g ( ( b i + Σ k = 1 n I i , k F e k / Σ k = 1 n I i , k F ) T q j ) ) 2
( 26 )
- 1 2 σ C 2 Σ u = 1 | U | | | c u | | 2 - 1 2 σ H 2 Σ l = 1 | I | | | h l | | 2 - - 1 2 σ B 2 Σ i = 1 | I | | | b i | | 2 - 1 2 σ E 2 Σ k = 1 | I | | | e k | | 2 1 2 σ Q 2 Σ j = 1 | I | | | q j | | 2
- 1 2 ( ln σ R 2 Σ u = 1 | U | Σ j = 1 | I | I u j R + ln σ F 2 Σ i = 1 | I | Σ j = 1 | I | I ij F + | U | d ln σ C 2 + | I | d ln σ H 2 + | I | d ln σ B 2
+ | I | d ln σ E 2 + | I | d ln σ Q 2 ) + C .
其中C是与参数无关的常量。令
Figure BDA00000498034800001015
Figure BDA00000498034800001016
则最大化式(24)等同于最小化下式所示的累积误差函数:
SE C , H , B , E , Q = Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j - r ^ u , j ) 2 + λ F Σ i = 1 | I | Σ j = 1 | I | I i , j F ( f i , j - f ^ i , j ) 2 + λ C Σ u = 1 | U | | | c u | | 2
( 27 )
+ λ H Σ l = 1 | I | | | h l | | 2 + λ B Σ i = 1 | I | | | b i | | 2 + λ E Σ k = 1 | I | | | e k | | 2 + λ Q Σ j = 1 | I | | | q j | | 2
其中
Figure BDA0000049803480000111
Figure BDA0000049803480000112
Figure BDA0000049803480000113
Figure BDA0000049803480000115
一般而言,可将全部隐特征向量的先验方差统一,即设λC=λH=λB=λE=λQ=λ;而λF则是用于控制用户-项目评分数据信息和社会标签网络信息对训练结果影响度的均衡因子,如果λF=0,则训练结果只收用户-项目评分数据影响;λF>0时,则训练结果同时受到用户-项目评分数据和社会标签网络信息的影响。在已知的用户-项目评分数据和项目社会标签相关度数据上,对式(25)进行随机梯度下降求解,就可以求出隐特征矩阵C、H、B、E、Q相对于已知数据的局部最优值。

Claims (2)

1.一种融合了协同标签项目相关性的基于PMF的协同过滤推荐系统,其特征在于:具体如下:
(一)使用PMF对用户-项目评分矩阵进行隐向量分析
系统首先在给定的包含|I|个项目的社会标签数据上建立的社会标签网络模型,使用邻接矩阵F∈R|I|×|I|表示,其中元素fi,j表示项目i和j之间的社会标签相关度;
使用PMF对用户-项目评分矩阵进行隐向量分析时,令P、Q分别为|U|×f和|I|×f的矩阵,代表f维的用户隐特征矩阵和项目隐特征矩阵;令ru,j∈R代表用户u对项目j的评分;代入具备高斯观测噪声的线性似然模型,则使用用户隐特征矩阵和项目隐特征矩阵对用户-项目评分矩阵R进行逼近时,可以得到用户-项目评分矩阵R关于用户隐特征和项目隐特征的条件分布,如下所示:
p ( R | P , Q , σ R 2 ) = Π u = 1 | U | Π j = 1 | I | [ N ( r uj | p u · q j , σ R 2 ) ] I u , j R .
其中N(x|μ,σ2)是以μ为均值,σ2为方差的高斯概率密度函数,IR∈R|U|×|I|为指示矩阵,如果已知用户u对项目j的评分即ru,j∈T,则
Figure FDA0000049803470000012
反之,则
Figure FDA0000049803470000013
对于用户u,其特征向量pu可表示为:
p u = c u + Σ l = 1 | I | I u , l R · h l / Σ l = 1 | I | I u , l R
其中,cu为用户u的特征向量相对于先验均值的偏移量,h1表示任一用户评价了项目l后的偏好效应向量,而IR则为用户-项目评分指示矩阵;
(二)融入社会标签因素的使用PMF对社会标签网络分析
系统使用PMF对邻接矩阵F进行因式分解,得到每个项目在社会标签数据中的特征信息;令Y、Q均为|I|×f的矩阵,各自代表f维的项目隐特征矩阵,其中Y是前置项目隐特征矩阵,Q是后置项目隐特征矩阵,并使用yi·qj对F中的元素fi,j进行逼近,得到F中的已知值关于Y和Q的条件分布;
p ( F | Y , Q , σ F 2 ) = Π i = 1 | I | Π j = 1 | I | [ N ( f i , j | g ( y i T q j ) , σ F 2 ) ] I i , j F
其中N(x|μ,σ2)是高斯分布密度函数,
Figure FDA0000049803470000022
为指示矩阵,如果已知项目i、j间的社会标签相关度不为零,则反之,则
Figure FDA0000049803470000024
避免数据稀疏性的影响,可以对前置项目隐特征矩阵Y进行分解,对于项目i,其前置特征向量yi可表示为:
y i = b i + Σ k = 1 | I | I i , k F e k / Σ k = 1 | I | I ik F .
其中,bi为项目i的特征向量相对于先验均值的偏移量,ek表示与项目k具备社会标签相关度的效应向量,而IF为指示矩阵;
(三)基于两种数据源的隐向量融合
通过在基于不同数据源的隐向量模型上共享隐向量空间的方式,将社会标签数据信息和用户-项目评分数据信息进行融合。
2.根据权利要求1所述的一种融合了协同标签项目相关性的基于PMF的协同过滤推荐系统,其特征在于:所述的(一)中使用PMF对用户-项目评分矩阵进行隐向量分析时,令P、Q分别为|U|×f和|I|×f的矩阵,代表f维的用户隐特征矩阵和项目隐特征矩阵;令ru,j∈R代表用户u对项目j的评分;代入具备高斯观测噪声的线性似然模型,则使用用户隐特征矩阵和项目隐特征矩阵对用户-项目评分矩阵R进行逼近时,可以得到用户-项目评分矩阵R关于用户隐特征和项目隐特征的条件分布;
得出已知的用户-项目评分和已知项目社会标签相关度关于隐特征矩阵C、H、B、E、Q的条件分布如下式所示:
p ( C , H , B , E , Q | R , F , σ R 2 , σ F 2 , σ C 2 , σ H 2 , σ B 2 , σ E 2 , σ Q 2 )
∝ p ( R | C , H , Q , σ R 2 ) p ( F | B , E , Q , σ F 2 ) p ( C | σ C 2 ) p ( H | σ H 2 ) p ( B | σ B 2 ) p ( E | σ E 2 ) P ( Q | σ Q 2 )
= Π i = 1 | I | Π j = 1 | I | [ N ( f i , j ′ | g ( ( b i + Σ k = 1 | I | I i , k F · e k / Σ k = 1 | I | I i , k F ) T q j ) , σ F 2 ) ] I i , j F
× Π u = 1 | U | Π j = 1 | I | [ N ( r uj ′ | g ( ( c u + Σ l = 1 n I ul R · h l / Σ l = 1 n I ul R ) T q j ) , σ R 2 ) ] I u , j R
× Π u = 1 | U | [ N ( c i | 0 , σ C 2 I ) ] × Π l = 1 | I | [ N ( h i | 0 , σ H 2 I ) ] × Π i = 1 | I | [ N ( b i | 0 , σ B 2 I ) ]
× Π k = 1 | I | [ N ( e k | 0 , σ E 2 I ) ] × Π j = 1 | I | [ N ( q j | 0 , σ Q 2 I ) ]
累积误差函数:
SE C , H , B , E , Q = Σ u = 1 | U | Σ j = 1 | I | I u , j R ( r u , j - r ^ u , j ) 2 + λ F Σ i = 1 | I | Σ j = 1 | I | I i , j F ( f i , j - f ^ i , j ) 2 + λ C Σ u = 1 | U | | | c u | | 2
+ λ H Σ l = 1 | I | | | h l | | 2 + λ B Σ i = 1 | I | | | b i | | 2 + λ E Σ k = 1 | I | | | e k | | 2 + λ Q Σ j = 1 | I | | | q j | | 2
其中 λ F = σ R 2 / σ F 2 , λ C = σ R 2 / σ C 2 , λ H = σ R 2 / σ H 2 , λ B = σ R 2 / σ B 2 , λ E = σ R 2 / σ Q 2 .
CN201110059844XA 2011-03-11 2011-03-11 一种融合项目相关性的基于pmf的协同过滤推荐系统 Pending CN102129463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110059844XA CN102129463A (zh) 2011-03-11 2011-03-11 一种融合项目相关性的基于pmf的协同过滤推荐系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110059844XA CN102129463A (zh) 2011-03-11 2011-03-11 一种融合项目相关性的基于pmf的协同过滤推荐系统

Publications (1)

Publication Number Publication Date
CN102129463A true CN102129463A (zh) 2011-07-20

Family

ID=44267545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110059844XA Pending CN102129463A (zh) 2011-03-11 2011-03-11 一种融合项目相关性的基于pmf的协同过滤推荐系统

Country Status (1)

Country Link
CN (1) CN102129463A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982107A (zh) * 2012-11-08 2013-03-20 北京航空航天大学 一种融合用户、项目和上下文属性信息的推荐系统优化方法
CN103246672A (zh) * 2012-02-09 2013-08-14 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐系统及方法
CN104615741A (zh) * 2015-02-12 2015-05-13 福建金科信息技术股份有限公司 一种基于云计算的冷启动项目推荐的方法及装置
CN104903885A (zh) * 2012-12-21 2015-09-09 微软技术许可有限责任公司 矩阵因式分解中的特征嵌入
CN105144625A (zh) * 2013-08-09 2015-12-09 汤姆逊许可公司 隐私保护矩阵因子分解的方法和系统
CN105160539A (zh) * 2015-06-17 2015-12-16 南京邮电大学 一种概率矩阵分解推荐方法
CN105809474A (zh) * 2016-02-29 2016-07-27 深圳市未来媒体技术研究院 一种层次化商品信息过滤推荐方法
CN107025311A (zh) * 2017-05-18 2017-08-08 北京大学 一种基于k近邻的贝叶斯个性化推荐方法及装置
CN107122852A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于pmf的微博用户兴趣预测方法
CN107506414A (zh) * 2017-08-11 2017-12-22 武汉大学 一种基于长短期记忆网络的代码推荐方法
CN108287904A (zh) * 2018-05-09 2018-07-17 重庆邮电大学 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
CN108536856A (zh) * 2018-04-17 2018-09-14 重庆邮电大学 基于双边网络结构的混合协同过滤电影推荐模型
CN108563690A (zh) * 2018-03-15 2018-09-21 中山大学 一种基于面向对象聚类的协同过滤推荐方法
CN108804683A (zh) * 2018-06-13 2018-11-13 重庆理工大学 结合矩阵分解和协同过滤算法的电影推荐方法
WO2019085120A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 协同过滤推荐方法、电子设备及计算机可读存储介质
CN110413878A (zh) * 2019-07-04 2019-11-05 四川金赞科技有限公司 基于自适应弹性网络的用户-商品偏好的预测装置和方法
CN110807154A (zh) * 2019-11-08 2020-02-18 内蒙古工业大学 一种基于混合深度学习模型的推荐方法与系统
CN112784173A (zh) * 2021-02-26 2021-05-11 电子科技大学 一种基于自注意力对抗神经网络的推荐系统评分预测方法
CN117259960A (zh) * 2023-09-27 2023-12-22 韶山中新智能自动化科技有限公司 一种金属板材刨槽与激光切割复合机的刨切调控方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246672A (zh) * 2012-02-09 2013-08-14 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN103246672B (zh) * 2012-02-09 2016-06-08 中国科学技术大学 对用户进行个性化推荐的方法和装置
CN102982107A (zh) * 2012-11-08 2013-03-20 北京航空航天大学 一种融合用户、项目和上下文属性信息的推荐系统优化方法
CN102982107B (zh) * 2012-11-08 2015-09-16 北京航空航天大学 一种融合用户、项目和上下文属性信息的推荐系统优化方法
CN104903885A (zh) * 2012-12-21 2015-09-09 微软技术许可有限责任公司 矩阵因式分解中的特征嵌入
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐系统及方法
CN105144625A (zh) * 2013-08-09 2015-12-09 汤姆逊许可公司 隐私保护矩阵因子分解的方法和系统
CN104615741A (zh) * 2015-02-12 2015-05-13 福建金科信息技术股份有限公司 一种基于云计算的冷启动项目推荐的方法及装置
CN105160539A (zh) * 2015-06-17 2015-12-16 南京邮电大学 一种概率矩阵分解推荐方法
CN105809474B (zh) * 2016-02-29 2020-11-17 深圳市未来媒体技术研究院 一种层次化商品信息过滤推荐方法
CN105809474A (zh) * 2016-02-29 2016-07-27 深圳市未来媒体技术研究院 一种层次化商品信息过滤推荐方法
CN107122852A (zh) * 2017-04-24 2017-09-01 无锡中科富农物联科技有限公司 一种基于pmf的微博用户兴趣预测方法
CN107025311A (zh) * 2017-05-18 2017-08-08 北京大学 一种基于k近邻的贝叶斯个性化推荐方法及装置
CN107506414A (zh) * 2017-08-11 2017-12-22 武汉大学 一种基于长短期记忆网络的代码推荐方法
CN107506414B (zh) * 2017-08-11 2020-01-07 武汉大学 一种基于长短期记忆网络的代码推荐方法
WO2019085120A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 协同过滤推荐方法、电子设备及计算机可读存储介质
CN108563690A (zh) * 2018-03-15 2018-09-21 中山大学 一种基于面向对象聚类的协同过滤推荐方法
CN108563690B (zh) * 2018-03-15 2022-01-21 中山大学 一种基于面向对象聚类的协同过滤推荐方法
CN108536856A (zh) * 2018-04-17 2018-09-14 重庆邮电大学 基于双边网络结构的混合协同过滤电影推荐模型
CN108287904A (zh) * 2018-05-09 2018-07-17 重庆邮电大学 一种基于社会化卷积矩阵分解的文档上下文感知推荐方法
CN108804683B (zh) * 2018-06-13 2021-11-23 重庆理工大学 结合矩阵分解和协同过滤算法的电影推荐方法
CN108804683A (zh) * 2018-06-13 2018-11-13 重庆理工大学 结合矩阵分解和协同过滤算法的电影推荐方法
CN110413878A (zh) * 2019-07-04 2019-11-05 四川金赞科技有限公司 基于自适应弹性网络的用户-商品偏好的预测装置和方法
CN110413878B (zh) * 2019-07-04 2022-04-15 五五海淘(上海)科技股份有限公司 基于自适应弹性网络的用户-商品偏好的预测装置和方法
CN110807154A (zh) * 2019-11-08 2020-02-18 内蒙古工业大学 一种基于混合深度学习模型的推荐方法与系统
CN112784173A (zh) * 2021-02-26 2021-05-11 电子科技大学 一种基于自注意力对抗神经网络的推荐系统评分预测方法
CN117259960A (zh) * 2023-09-27 2023-12-22 韶山中新智能自动化科技有限公司 一种金属板材刨槽与激光切割复合机的刨切调控方法
CN117259960B (zh) * 2023-09-27 2024-02-09 韶山中新智能自动化科技有限公司 一种金属板材刨槽与激光切割复合机的刨切调控方法

Similar Documents

Publication Publication Date Title
CN102129463A (zh) 一种融合项目相关性的基于pmf的协同过滤推荐系统
CN105117428B (zh) 一种基于词语对齐模型的web评论情感分析方法
CN103092911B (zh) 一种融合社会标签相似度基于k近邻的协同过滤推荐系统
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
Zhang et al. Collaborative filtering for recommender systems
Zhang et al. Taxonomy discovery for personalized recommendation
Wang et al. A fusion probability matrix factorization framework for link prediction
CN103533390B (zh) 基于社交网络信息进行电视节目推荐的方法及系统
CN103530603B (zh) 基于环路图模型的视频异常检测方法
Huang et al. Boosting for transfer learning from multiple data sources
CN104636496A (zh) 基于高斯分布和距离相似度的混合聚类的推荐方法
CN107609469B (zh) 社会网络关联用户挖掘方法及系统
CN103559262A (zh) 基于社区的作者及其学术论文推荐系统和推荐方法
CN105653840A (zh) 基于词句分布表示的相似病例推荐系统及相应的方法
CN104063481A (zh) 一种基于用户实时兴趣向量的电影个性化推荐方法
CN103970873A (zh) 一种音乐推荐方法和系统
CN109190030A (zh) 融合node2vec和深度神经网络的隐式反馈推荐方法
CN103617259A (zh) 一种基于有社会关系和项目内容的贝叶斯概率矩阵分解推荐方法
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐系统
CN103488637B (zh) 一种基于动态社区挖掘进行专家检索的方法
CN105160539A (zh) 一种概率矩阵分解推荐方法
CN108573062A (zh) 一种基于异构社交关系的个性化推荐方法
Yuan et al. Dual-level attention based on a heterogeneous graph convolution network for aspect-based sentiment classification
CN104217026B (zh) 一种基于图模型的中文微博客倾向性检索方法
CN112883289A (zh) 一种基于社交信任和标签语义相似度的pmf推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110720