CN104182543A - 基于相似性传播与流行度降维的混合推荐方法 - Google Patents
基于相似性传播与流行度降维的混合推荐方法 Download PDFInfo
- Publication number
- CN104182543A CN104182543A CN201410452338.0A CN201410452338A CN104182543A CN 104182543 A CN104182543 A CN 104182543A CN 201410452338 A CN201410452338 A CN 201410452338A CN 104182543 A CN104182543 A CN 104182543A
- Authority
- CN
- China
- Prior art keywords
- user
- tag
- resource
- matrix
- represent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于相似性传播与流行度降维的混合推荐方法,对稀疏的数据进行了两阶段处理,首先通过相似性传播方法,利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居,从而填充为零的元素;之后,考虑到原始数据存在无意义的垃圾Tag问题,将搜索引擎中的评分算法引入进来计算Tag的流行度,删除流行度低于某个阈值的Tag以精简数据,从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来,既可以使得推荐结果具有多样性,又可以一定程度上缓解稀疏性和冷启动的问题。提供了对个性化推荐过程中数据稀疏性问题的一种解决方法,该方法对推荐结果精度高,具有准确性高、可靠性高的优点。
Description
技术领域
本发明涉及一种数据挖掘的个性化推荐技术,特别涉及一种基于相似性传播与流行度降维的混合推荐方法。
背景技术
在个性化推荐算法的研究中,社会化标签作为一种重要的显示评分技术,不仅可以描述资源而且可以表征用户的偏好,因此结合社会化标签的推荐正成为互联网推荐引擎中的研究热点。然而大多数推荐算法的研究都面临着数据稀疏性的问题。目前解决稀疏性问题的研究方法主要分为采用各种技术对矩阵进行填充和数据降维两大类。
在对矩阵进行填充方面,最简单的矩阵填充方法是将用户未评分项目设为一个固定的缺省值,可以是用户对其他项目的平均评分值或其他用户对该项目的平均评分值,但该方法对用户的推荐质量有待提高。另一种矩阵填充方法是采用预测填充方法,如采用BP神经网络对项目进行预测,但网络模型的学习速度较慢,算法效率较低,而且对用户的推荐质量有待提高;采用朴素贝叶斯方法估算项目所属的分类,利用此类中其他项目的评分来预测未评分项目的评分,从而减小数据稀疏性。另外有一些研究利用相似性传播的方法,假定用户的品味具有传递性,并利用此传递性对矩阵进行填充,这些方法对用户的推荐质量有明显的提升。但是,目前基于相似性传播来填充矩阵的方法只考虑了两维空间:用户和资源。将Tag这一维空间考虑进来解决数据稀疏性问题更有意义。
在数据降维方面,采用奇异值分解技术可以减少向量空间的维数。有些研究将主成分分析(PCA)用在推荐中,利用主成分分析对评分数据预处理,原始评分数据被投射到最相关的主特征向量上。还可以采用聚类的方法,利用用户间相似性对用户聚类,将离目标用户最近的一个类的所有用户作为其邻居,从而对数据进行降维度。这些方法的优点是能有效提高推荐系统的预测准确率,不足之处是算法的复杂度比较高。
发明内容
本发明是针对推荐算法中数据存在稀疏性的问题,提出了一种基于相似性传播与流行度降维的混合推荐方法,提供了对个性化推荐过程中数据稀疏性问题的一种解决方法,该方法对推荐结果精度高,具有准确性高、可靠性高的优点。
本发明的技术方案为:一种基于相似性传播与流行度降维的混合推荐方法,具体包括如下步骤:
1)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵,
其中:U={u1,u2,...,um}表示m个用户集合,R={r1,r2,...,rn}表示n个资源集合,T={t1,t2,...,tp}表示p个Tag集合;
2)相似性计算:通过步骤1)所得二元数据模型,采用pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵;
3)相似性传播:利用步骤2)所得相似矩阵对步骤1)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为0的元素;
4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维;
5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。
所述步骤1)三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID,Tag1,Tag2,...,Tagq,其中q≤p,表示用户对一个资源标注了一组标签,稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示:
所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算:
用户间的相似矩阵UU的元素uui,j表示用户ui与用户uj的相似性,该相似性分别通过UR矩阵和UT矩阵来计算,然后取两个相似性的均值,公式为:
其中,simi,j(UR)是根据矩阵UR得到的用户ui和用户uj的相似性,simi,j(UT)是根据UT矩阵得到的用户ui和用户uj的相似性;
资源间相似性矩阵RR的元素rri,j表示资源ri与rj的相似性,该相似性分别通过UR矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:
其中,是根据矩阵UR得到的资源ri和资源rj的相似性,是根据RT矩阵得到的资源ri和资源rj的相似性;
Tag间相似性矩阵TT的元素ttt,j表示Tag ti与tj相似性,该相似性分别通过UT矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:
其中,表示利用矩阵UT得到的Tag ti与tj相似性,表示利用矩阵RT得到的Tag ti与tj相似性。
所述相似性计算:
其中,R(ui)表示用户ui标注的资源集合,R(uj)表示用户uj标注的资源集合;r为用户ui和用户uj共同标注的资源;
表示用户ui对资源r的偏好值,表示用户ui对所有标注过的资源的平均偏好值;
表示用户uj对资源r的偏好值,表示用户uj对所有标注过的资源的平均偏好值;
其中,T(ui)表示用户ui标注的Tag集合,T(uj)表示用户uj标注的Tag集合;t为用户ui和用户uj共同标注的Tag;
表示用户ui对Tag t的偏好值,表示用户ui对所有标注过的tag的平均偏好值;
表示用户uj对Tag t的偏好值,表示用户uj对所有标注过的Tag的平均偏好值;
其中,U(ri)表示标注资源ri的用户集合,U(rj)表示标注资源rj的用户集合;u为同时标注资源ri和资源rj的用户;
表示用户u对资源ri的偏好值,表示所有标注过资源ri的用户对资源ri的平均偏好值;
表示用户u对资源rj的偏好值,表示所有标注过资源rj的用户对资源rj的平均偏好值;
其中,T(ri)表示资源ri被标注的Tag集合,T(rj)表示资源rj被标注的Tag集合;t为同时标注资源ri和资源rj的Tag;
表示资源ri对Tag t的偏好值,表示资源ri对所有标注过的Tag的平均偏好值;
表示资源rj对Tag t的偏好值,表示资源rj对所有标注过的Tag的平均偏好值;
其中,U(ti)表示Tag ti被标注的用户集合,U(tj)表示Tag ti被标注的用户集合;u为同时标注Tagti与tj的用户;
表示用户u对Tag ti的偏好值,表示所有标注过的Tag ti的用户对Tagti的平均偏好值;
表示用户u对Tag tj的偏好值,表示所有标注过的Tag tj的用户对Tagtj的平均偏好值;
其中,R(ti)表示Tag ti被标注的资源集合,R(tj)表示Tag ti被标注的资源集合;r为同时标注Tag ti与tj资源;
表示资源r对Tagti的偏好值,表示所有标注过的Tag ti的资源对Tagti的平均偏好值;
表示资源r对Tagtj的偏好值,表示所有标注过的Tag tj的资源对Tagtj的平均偏好值。
5、根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤3)相似性传播公式如下:
其中,i表示相似性传播迭代的次数;
UTT、RTT和URT分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵;
(UT)i+1、(RT)i+1和(UR)i+1分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵。
所述步骤4)流行度降维算法基于如下假设:被高素质用户用高质量的Tag标注的资源具有更高价值,而用高质量的Tag标注高价值资源的用户也具有更高的素质,被高素质的用户用来标注高价值资源的Tag通常具有更高的质量,通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得
到最终Tag的流行度值,根据流行度进行删除,删除流行度低的垃圾Tag,流行度降维公式为:
Rj=MRT×Tj
Uj=MUR×Rj
T′j=MTU×Uj
其中,j表示流行度降维迭代的次数,Tj为所有Tag的流行度矢量;Ri为所有资源的流行度矢量;Ui对所有用户的流行度矢量;初始化T0都设为1,即T0=(1,1,...,1);MTU,MUR和MRT分别为传播后的TU矩阵、UR矩阵和RT矩阵;MT TU,MT UR和MT RT分别表示传播后的TU矩阵、UR矩阵和RT矩阵的转置矩阵。
所述步骤5)将基于内容的推荐和协同过滤推荐两种方法结合起来,预测结果值如下:
RankHybrid(ui,rj)=αRankContent(ui,rj)+(1-α)RankCF(ui,rj)
其中,RankContent(ui,rj)为基于内容推荐算法得到的用户ui对资源rj的评分;RankCF(ui,rj)为协同过滤推荐算法得到的用户ui对资源rj的评分;α为平衡因子(0<α<1);
RankContent(ui,rj)的计算公式为:
RankContent(ui,rj)=sim(uti,,rtj,)
其中,uti表示UT矩阵中用户ui对所有Tag的偏好矢量,表示为uti=(uti,1,uti,2,…,uti,p);rtj表示RT矩阵中资源rj对所有Tag的偏好矢量,表示为rtj=(rtj,1,rtj,2,…,rtj,p);
sim(uti,rtj)为传统的修正的余弦相似度公式,公式如下:
其中,T为标签集合,分别表示用户ui和资源rj对Tag的平均偏好值;为用户ui对Tag t的偏好值;为资源rj对Tag t的偏好值;
利用UU相似性矩阵,可选出用户ui的前m个最近邻居集合用户ui对资源rj的预测评分RankCF(ui,rj)的计算公式如下:
其中,和分别表示用户ui和用户uk的平均评分值;为用户ui和用户uk的相似性;为用户uk对资源rj的评分,表示用户ui的最近邻居集合。
本发明的有益效果在于:本发明基于相似性传播与流行度降维的混合推荐方法,对稀疏的数据进行了两阶段处理,首先通过相似性传播方法,利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居,从而填空为零的元素;之后,考虑到原始数据存在无意义的垃圾Tag的问题,将搜索引擎中的评分算法引入进来计算Tag的流行度,删除流行度低于某个阈值的Tag以精简数据,从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来,既可以使得推荐结果具有多样性,又可以一定程度上缓解稀疏性和冷启动的问题。采用本发明的方法,可以提高推荐的准确率。
附图说明
图1为本发明基于相似性传播与流行度降维的混合推荐方法的框架图;
图2为本发明基于用户、Tag和资源的社会化标注三元网络模型图;
图3为本发明根据用户相似性传播图;
图4为本发明互增强关系网络图。
具体实施方式
如图1所示基于相似性传播与流行度降维的混合推荐方法的框架图,一种基于相似性传播和流行度降维的混合推荐方法,通过相似性传播方法为用户、资源及Tag扩展更多的邻居,以填充矩阵中为零的元素;通过流行度降维方法计算Tag的流行度,过滤一些流行度较低的无意义的Tag,实现矩阵降维;最后结合基于内容的推荐与协同过滤推荐为用户产生推荐,具体包括以下步骤:
1、数据建模
利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建user-tag(UT)矩阵、user-resource(UR)矩阵及resource-tag(RT)矩阵;
其中:U={u1,u2,...,um}表示m个用户集合,R={r1,r2,...,rn}表示n个资源集合,T={t1,t2,...,tp}表示p个Tag集合;原始三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID,Tag1,Tag2,...,Tagq,其中q≤p,表示用户对一个资源标注了一组标签。如图2所示是基于用户、Tag和资源的社会化标注三元网络模型图。
user-resource(UR)矩阵表示为:
user-tag(UT)矩阵表示为:
resource-tag(RT)矩阵表示为:
2、相似性计算
经过步骤1得到的三个矩阵,采用Pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,得到user-user(UU)矩阵、resource-resource(RR)矩阵及tag-tag(TT)矩阵;
其中:用户间的相似矩阵UU的元素uui,j表示用户ui与用户uj的相似性,该相似性分别通过UR矩阵和UT矩阵来计算,然后取两个相似性的均值。公式为:
其中,simi,j(UR)是根据矩阵UR得到的用户ui和用户uj的相似性,公式如(1),simi,j(UT)是根据UT矩阵得到的用户ui和用户uj的相似性,公式如(2)。
其中,R(ui)表示用户ui标注的资源集合,R(uj)表示用户uj标注的资源集合;r为用户ui和用户uj共同标注的资源;
表示用户ui对资源r的偏好值,表示用户ui对所有标注过的资源的平均偏好值;
表示用户uj对资源r的偏好值,表示用户uj对所有标注过的资源的平均偏好值。
其中,T(ui)表示用户ui标注的Tag集合,T(uj)表示用户uj标注的Tag集合;t为用户ui和用户uj共同标注的Tag;
表示用户ui对Tag t的偏好值,表示用户ui对所有标注过的Tag的平均偏好值;
表示用户uj对Tag t的偏好值,表示用户uj对所有标注过的Tag的平均偏好值。
资源间相似性矩阵RR的元素rri,j表示资源ri与rj的相似性,该相似性分别通过UR矩阵和RT矩阵来计算,然后取两个相似性的均值。公式为:
其中,是根据矩阵UR得到的资源ri和资源rj的相似性,公式如(3),是根据RT矩阵得到的资源ri和资源rj的相似性,公式如(4)。
其中,U(ri)表示标注资源ri的用户集合,U(rj)表示标注资源rj的用户集合;
u为同时标注资源ri和资源rj的用户;
表示用户u对资源ri的偏好值,表示所有标注过资源ri的用户对资源ri的平均偏好值;
表示用户u对资源rj的偏好值,表示所有标注过资源rj的用户对资源rj的平均偏好值。
其中,T(ri)表示资源ri被标注的Tag集合,T(rj)表示资源rj被标注的Tag集合;t为同时标注资源ri和资源rj的Tag;
表示资源ri对Tag t的偏好值,表示资源ri对所有标注过的Tag的平均偏好值;
表示资源rj对Tag t的偏好值,表示资源rj对所有标注过的Tag的平均偏好值。
Tag间相似性矩阵TT的元素tti,j表示Tag ti与tj相似性,该相似性分别通过UT矩阵和RT矩阵来计算,然后取两个相似性的均值。公式为:
其中,表示利用矩阵UT得到的Tag ti与tj相似性,公式如(5);
表示利用矩阵RT得到的Tag ti与tj相似性,公式如(6)。
其中,U(ti)表示Tag ti被标注的用户集合,U(tj)表示Tag ti被标注的用户集合;u为同时标注Tag ti与tj的用户;
表示用户u对Tag ti的偏好值,表示所有标注过的Tag ti的用户对Tagti的平均偏好值;
表示用户u对Tag tj的偏好值,表示所有标注过的Tag tj的用户对Tagtj的平均偏好值。
其中,R(ti)表示Tag ti被标注的资源集合,R(tj)表示Tag ti被标注的资源集合;r为同时标注Tag ti与tj资源;
表示资源r对Tag ti的偏好值,表示所有标注过的Tag ti的资源对Tagti的平均偏好值;
表示资源r对Tag tj的偏好值,表示所有标注过的Tag tj的资源对Tagtj的平均偏好值。
3、相似性传播
利用相似性的信息不断对user-tag(UT)矩阵、user-resource(UR)矩阵及resource-tag(RT)矩阵进行迭代以传播和扩展它们的相似邻居,从而填充为0的元素。
其中:相似性传播算法基于如下假设:如图3所示根据用户相似性传播图,用户u1和u2偏好比较相似,如图3(a),用户u2使用了标签t1和t2,而用户u1只使用了t1,那么可推测u1也会对t2感兴趣(虚线表示),从而可以扩展原来稀疏的UT矩阵。在图3(b)中,用户u2标注了资源r1和r2,而用户u1只标注了资源r1,那么可推测用户u1也会对资源r2感兴趣(虚线表示),从而可以扩展原来稀疏的UR矩阵。
因此,利用相似性矩阵UU、RR、TT对原来稀疏矩阵UR、UT、RT进行传播,公式如下:
其中,i表示相似性传播迭代的次数;
UTT、RTT和URT分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵;
(UT)i+1、(RT)i+1和(UR)i+1分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵;
每迭代一次,需要对矩阵UT、RT和UR进行一次标准化。
4、流行度降维
采用改进的PageRnak算法不断迭代得到Tag的流行度,删除流行度低于某个阈值的Tag,从而对矩阵降维;
在步骤3中,经过传播后的数据已经相对较稠密,但还存在一些无意义的垃圾Tag数据,因此,步骤4中所述流行度降维算法基于如下假设:被高素质用户用高质量的Tag标注的资源具有更高价值,而用高质量的Tag标注高价值资源的用户也具有更高的素质,被高素质的用户用来标注高价值资源的Tag通常具有更高的质量。
通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,如图4所示互增强关系网络图。对于流行度比较低的可以认为是垃圾Tag,删除这些垃圾Tag可以极大的精简数据。公式为:
Rj=MRT×Tj
Uj=MUR×Rj
T′j=MTU×Uj
其中,j表示流行度降维迭代的次数,Tj为所有Tag的流行度矢量;Ri为所有资源的流行度矢量;Ui对所有用户的流行度矢量;初始化T0都设为1,即T0=(1,1,...,1);MTU,MUR和MRT分别为传播后的TU矩阵、UR矩阵和RT矩阵;MT TU,MT UR和MT RT分别表示传播后的TU矩阵、UR矩阵和RT矩阵的转置矩阵。
5、混合推荐
使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。
混合推荐策略为:通过分析发现,基于内容的推荐可以挖掘出用户的偏好和资源的偏好,然后通过比较这两者之间的相似性来产生推荐,但不能为用户发现新兴趣点。而协同过滤推荐方法根据用户之间的相似性来产生推荐,该方法可以发现用户新的兴趣点,不足之处是冷启动、数据稀疏问题。因此将两种方法结合起来,预测结果值如下:
RankHybrid(ui,rj)=αRankContent(ui,rj)+(1-α)RankCF(ui,rj)
其中,RankContent(ui,rj)为基于内容推荐算法得到的用户ui对资源rj的评分;RankCF(ui,rj)为协同过滤推荐算法得到的用户ui对资源rj的评分;α为平衡因子(0<α<1)。
RankContent(ui,rj)的计算公式为:
RankContent(ui,rj)=sim(uti,,rtj,)
其中,uti表示UT矩阵中用户ui对所有Tag的偏好矢量,表示为uti=(uti,1,uti,2,…,uti,p);rtj表示RT矩阵中资源rj对所有Tag的偏好矢量,表示为rtj=(rtj,1,rtj,2,…,rtj,p)。
sim(uti,rtj)为传统的修正的余弦相似度公式,公式如下:
其中,T为标签集合,分别表示用户ui和资源rj对Tag的平均偏好值;为用户ui对Tag t的偏好值;为资源rj对Tag t的偏好值。
利用UU相似性矩阵,可选出用户ui的前m个最近邻居集合用户ui对资源rj的预测评分RankCF(ui,rj)的计算公式如下:
其中,和分别表示用户ui和用户uk的平均评分值;为用户ui和用户uk的相似性;为用户uk对资源rj的评分,表示用户ui的最近邻居集合。
本发明针对个性化推荐算法面临的数据稀疏性问题,对稀疏的数据进行了两阶段处理,首先通过相似性传播方法,利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居,从而填充为零的元素;之后,考虑到原始数据存在无意义的垃圾Tag问题,将搜索引擎中的评分算法引入进来计算Tag的流行度,删除流行度低于某个阈值的Tag以精简数据,从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来,既可以使得推荐结果具有多样性,又可以一定程度上缓解稀疏性和冷启动的问题。采用一种基于相似性传播与流行度降维的混合推荐方法,可以提高推荐的准确率。
Claims (7)
1.一种基于相似性传播与流行度降维的混合推荐方法,其特征在于,具体包括如下步骤:
1)数据建模:利用原始用户、资源及Tag的三元数据构建二元数据模型,即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵,
其中:U={u1,u2,...,um}表示m个用户集合,R={r1,r2,...,rn}表示n个资源集合,T={t1,t2,...,tp}表示p个Tag集合;
2)相似性计算:通过步骤1)所得二元数据模型,采用Pearson相关系数计算用户之间、资源之间及Tag之间的相似性值,计算相似矩阵UU矩阵、RR矩阵及TT矩阵;
3)相似性传播:利用步骤2)所得相似矩阵对步骤1)稀疏矩阵进行迭代以传播和扩展它们的相似邻居,每迭代一次,需要对稀疏矩阵进行一次标准化,从而填充为0的元素;
4)流行度降维:通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,删除流行度低于阈值的Tag,从而对矩阵降维;
5)混合推荐:使用平衡因子α,综合基于内容的推荐和协同过滤推荐算法,为用户生成推荐。
2.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤1)三元数据是关于用户、资源及Tag之间关系的数据,每条记录为一个三元关系,形式为:用户ID,资源ID,Tag1,Tag2,...,Tagq,其中q≤p,表示用户对一个资源标注了一组标签,稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示:
3.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算:
用户间的相似矩阵UU的元素uui,j表示用户ui与用户uj的相似性,该相似性分别通过UR矩阵和UT矩阵来计算,然后取两个相似性的均值,公式为:
其中,simi,j(UR)是根据矩阵UR得到的用户ui和用户uj的相似性,simi,j(UT)是根据UT矩阵得到的用户ui和用户uj的相似性;
资源间相似性矩阵RR的元素rri,j表示资源ri与rj的相似性,该相似性分别通过UR矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:
其中,是根据矩阵UR得到的资源ri和资源rj的相似性,是根据RT矩阵得到的资源ri和资源rj的相似性;
Tag间相似性矩阵TT的元素tti,j表示Tag ti与tj相似性,该相似性分别通过UT矩阵和RT矩阵来计算,然后取两个相似性的均值,公式为:
其中,表示利用矩阵UT得到的Tag ti与tj相似性,表示利用矩阵RT得到的Tag ti与tj相似性。
4.根据权利要求3所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述相似性计算:
其中,R(ui)表示用户ui标注的资源集合,R(uj)表示用户uj标注的资源集合;r为用户ui和用户uj共同标注的资源;
表示用户ui对资源r的偏好值,表示用户ui对所有标注过的资源的平均偏好值;
表示用户uj对资源r的偏好值,表示用户uj对所有标注过的资源的平均偏好值;
其中,T(ui)表示用户ui标注的Tag集合,T(uj)表示用户uj标注的Tag集合;t为用户ui和用户uj共同标注的Tag;
表示用户ui对Tag t的偏好值,表示用户ui对所有标注过的Tag的平均偏好值;
表示用户uj对Tag t的偏好值,表示用户uj对所有标注过的Tag的平均偏好值;
其中,U(ri)表示标注资源ri的用户集合,U(rj)表示标注资源rj的用户集合;u为同时标注资源ri和资源rj的用户;
表示用户u对资源ri的偏好值,表示所有标注过资源ri的用户对资源ri的平均偏好值;
表示用户u对资源rj的偏好值,表示所有标注过资源rj的用户对资源rj的平均偏好值;
其中,T(ri)表示资源ri被标注的Tag集合,T(rj)表示资源rj被标注的Tag集合;t为同时标注资源ri和资源rj的Tag;
表示资源ri对Tag t的偏好值,表示资源ri对所有标注过的Tag的平均偏好值;
表示资源rj对Tag t的偏好值,表示资源rj对所有标注过的Tag的平均偏好值;
其中,U(ti)表示Tagti被标注的用户集合,U(tj)表示Tagti被标注的用户集合;u为同时标注Tagti与tj的用户;
表示用户u对Tag ti的偏好值,表示所有标注过的Tag ti的用户对Tagti的平均偏好值;
表示用户u对Tag tj的偏好值,表示所有标注过的Tag tj的用户对Tagtj的平均偏好值;
其中,R(ti)表示Tag ti被标注的资源集合,R(tj)表示Tag ti被标注的资源集合;r为同时标注Tag ti与tj资源;
表示资源r对Tag ti的偏好值,表示所有标注过的Tag ti的资源对Tagti的平均偏好值;
表示资源r对Tagtj的偏好值,表示所有标注过的Tag tj的资源对Tagtj的平均偏好值。
5.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤3)相似性传播公式如下:
其中,i表示相似性传播迭代的次数;
UTT、RTT和URT分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵;
(UT)i+1、(RT)i+1和(UR)i+1分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵。
6.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤4)流行度降维算法基于如下假设:被高素质用户用高质量的Tag标注的资源具有更高价值,而用高质量的Tag标注高价值资源的用户也具有更高的素质,被高素质的用户用来标注高价值资源的Tag通常具有更高的质量,通过改进PageRank算法,利用资源、用户和Tag三者之间的互增强关系进行迭代,得到最终Tag的流行度值,根据流行度进行删除,删除流行度低的垃圾Tag,流行度降维公式为:
Rj=MRT×Tj
Uj=MUR×Rj
T′j=MTU×Uj
其中,j表示流行度降维迭代的次数;Tj为所有Tag的流行度矢量;Ri为所有资源的流行度矢量;Ui对所有用户的流行度矢量;初始化T0都设为1,即T0=(1,1,...,1);MTU,MUR和MRT分别为传播后的TU矩阵、UR矩阵和RT矩阵;MT TU,MT UR和MT RT分别表示传播后的TU矩阵、UR矩阵和RT矩阵的转置矩阵。
7.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法,其特征在于,所述步骤5)将基于内容的推荐和协同过滤推荐两种方法结合起来,预测结果值如下:
RankHybrid(ui,rj)=αRankContent(ui,rj)+(1-α)RankCF(ui,rj)
其中,RankContent(ui,rj)为基于内容推荐算法得到的用户ui对资源rj的评分;RankCF(ui,rj)为协同过滤推荐算法得到的用户ui对资源rj的评分;α为平衡因子(0<α<1);
RankContent(ui,rj)的计算公式为:
RankContent(ui,rj)=sim(Uti,,rtj,)
其中,uti表示UT矩阵中用户ui对所有Tag的偏好矢量,表示为uti=(uti,1,uti,2,…,uti,p);rtj表示RT矩阵中资源rj对所有Tag的偏好矢量,表示为rtj=(rtj,1,rtj,2,…,rtj,p);
sim(uti,rtj)为传统的修正的余弦相似度公式,公式如下:
其中,T为标签集合,分别表示用户ui和资源rj对Tag的平均偏好值;为用户ui对Tag t的偏好值;为资源rj对Tag t的偏好值;
利用UU相似性矩阵,可选出用户ui的前m个最近邻居集合用户ui对资源rj的预测评分RankCF(ui,rj)的计算公式如下:
其中,和分别表示用户ui和用户uk的平均评分值为用户ui和用户uk的相似性;为用户uk对资源rj的评分,表示用户ui的最近邻居集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410452338.0A CN104182543B (zh) | 2014-09-05 | 2014-09-05 | 基于相似性传播与流行度降维的混合推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410452338.0A CN104182543B (zh) | 2014-09-05 | 2014-09-05 | 基于相似性传播与流行度降维的混合推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104182543A true CN104182543A (zh) | 2014-12-03 |
CN104182543B CN104182543B (zh) | 2017-06-06 |
Family
ID=51963582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410452338.0A Expired - Fee Related CN104182543B (zh) | 2014-09-05 | 2014-09-05 | 基于相似性传播与流行度降维的混合推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104182543B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095978A (zh) * | 2016-06-20 | 2016-11-09 | 上海理工大学 | 基于空间相近性的推荐系统评分预测与推荐算法 |
CN106919699A (zh) * | 2017-03-09 | 2017-07-04 | 华北电力大学 | 一种面向大规模用户的个性化信息推荐方法 |
CN107230002A (zh) * | 2017-06-09 | 2017-10-03 | 天津大学 | 基于项目的评分矩阵预测算法 |
CN108717442A (zh) * | 2018-05-16 | 2018-10-30 | 成都市极米科技有限公司 | 基于机器学习的相似影视推荐方法 |
CN109145223A (zh) * | 2018-09-28 | 2019-01-04 | 合肥工业大学 | 一种基于社交影响力传播的社交推荐方法 |
CN111523037A (zh) * | 2020-04-26 | 2020-08-11 | 上海理工大学 | 一种开源软件开发中Pull Request的评审者推荐方法 |
CN111723287A (zh) * | 2020-06-03 | 2020-09-29 | 开普云信息科技股份有限公司 | 一种基于大规模机器学习的内容和服务推荐方法及其系统 |
CN113221000A (zh) * | 2021-05-17 | 2021-08-06 | 上海博亦信息科技有限公司 | 一种人才数据智能检索及推荐方法 |
CN113449205A (zh) * | 2021-08-30 | 2021-09-28 | 四川省人工智能研究院(宜宾) | 一种基于元数据增强的推荐方法及系统 |
CN115408618A (zh) * | 2022-09-26 | 2022-11-29 | 南京工业职业技术大学 | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 |
-
2014
- 2014-09-05 CN CN201410452338.0A patent/CN104182543B/zh not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
孙小华,陈洪,孔繁胜: "《在协同过滤中结合奇异值分解与最近邻方法》", 《计算机应用研究》 * |
赵琴琴,鲁凯,王斌: "《SPCF:一种基于内存的传播式协同过滤推荐算法》", 《计算机学报》 * |
顾申华: "《结合奇异值分解和时间权重的协同过滤算法》", 《计算机应用与软件》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095978A (zh) * | 2016-06-20 | 2016-11-09 | 上海理工大学 | 基于空间相近性的推荐系统评分预测与推荐算法 |
CN106095978B (zh) * | 2016-06-20 | 2019-05-24 | 上海理工大学 | 基于空间相近性推荐系统的评分预测与推荐方法 |
CN106919699A (zh) * | 2017-03-09 | 2017-07-04 | 华北电力大学 | 一种面向大规模用户的个性化信息推荐方法 |
CN107230002A (zh) * | 2017-06-09 | 2017-10-03 | 天津大学 | 基于项目的评分矩阵预测算法 |
CN108717442B (zh) * | 2018-05-16 | 2021-12-03 | 成都极米科技股份有限公司 | 基于机器学习的相似影视推荐方法 |
CN108717442A (zh) * | 2018-05-16 | 2018-10-30 | 成都市极米科技有限公司 | 基于机器学习的相似影视推荐方法 |
CN109145223A (zh) * | 2018-09-28 | 2019-01-04 | 合肥工业大学 | 一种基于社交影响力传播的社交推荐方法 |
CN109145223B (zh) * | 2018-09-28 | 2021-03-09 | 合肥工业大学 | 一种基于社交影响力传播的社交推荐方法 |
CN111523037A (zh) * | 2020-04-26 | 2020-08-11 | 上海理工大学 | 一种开源软件开发中Pull Request的评审者推荐方法 |
CN111523037B (zh) * | 2020-04-26 | 2023-08-04 | 上海理工大学 | 一种开源软件开发中Pull Request的评审者推荐方法 |
CN111723287A (zh) * | 2020-06-03 | 2020-09-29 | 开普云信息科技股份有限公司 | 一种基于大规模机器学习的内容和服务推荐方法及其系统 |
CN113221000A (zh) * | 2021-05-17 | 2021-08-06 | 上海博亦信息科技有限公司 | 一种人才数据智能检索及推荐方法 |
CN113221000B (zh) * | 2021-05-17 | 2023-02-28 | 上海博亦信息科技有限公司 | 一种人才数据智能检索及推荐方法 |
CN113449205A (zh) * | 2021-08-30 | 2021-09-28 | 四川省人工智能研究院(宜宾) | 一种基于元数据增强的推荐方法及系统 |
CN113449205B (zh) * | 2021-08-30 | 2021-11-09 | 四川省人工智能研究院(宜宾) | 一种基于元数据增强的推荐方法及系统 |
CN115408618A (zh) * | 2022-09-26 | 2022-11-29 | 南京工业职业技术大学 | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 |
CN115408618B (zh) * | 2022-09-26 | 2023-10-20 | 南京工业职业技术大学 | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104182543B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104182543A (zh) | 基于相似性传播与流行度降维的混合推荐方法 | |
US10255628B2 (en) | Item recommendations via deep collaborative filtering | |
CN104899273B (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN102609533B (zh) | 一种基于核方法的协同过滤推荐系统及方法 | |
CN103955464B (zh) | 一种基于情境融合感知的推荐方法 | |
CN103353872B (zh) | 一种基于神经网络的教学资源个性化推荐方法 | |
CN104834686A (zh) | 一种基于混合语义矩阵的视频推荐方法 | |
CN112613602A (zh) | 基于知识感知超图神经网络的推荐方法及系统 | |
CN104731962A (zh) | 一种社交网络中基于相似社团的好友推荐方法及系统 | |
CN103425763B (zh) | 基于sns的用户推荐方法及装置 | |
CN103514239A (zh) | 一种集成用户行为和物品内容的推荐方法及系统 | |
CN106157156A (zh) | 一种基于用户社区的协作推荐系统 | |
CN104615779A (zh) | 一种Web文本个性化推荐方法 | |
CN103268344B (zh) | 一种无位置偏见影响的广告与页面匹配的方法 | |
CN109978836A (zh) | 基于元学习的用户个性化图像美感评价方法、系统、介质和设备 | |
CN106296337A (zh) | 基于非负矩阵分解的动态推荐方法 | |
CN105430505A (zh) | 一种基于组合策略的iptv节目推荐方法 | |
CN103440341A (zh) | 信息推荐方法及装置 | |
CN108874916A (zh) | 一种层叠组合协同过滤推荐方法 | |
Brahmi et al. | Dual support method for solving convex quadratic programs | |
CN105761151A (zh) | 一种基于联合概率矩阵分解的移动社会化推荐方法 | |
CN108389113B (zh) | 一种协同过滤推荐方法和系统 | |
CN103345503B (zh) | 一种基于小波网络的丝绸产品个性化推荐方法 | |
CN113342994B (zh) | 一种基于无采样协作知识图网络的推荐系统 | |
CN102982101B (zh) | 基于用户情境本体的网络社区用户推送服务的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170606 Termination date: 20190905 |
|
CF01 | Termination of patent right due to non-payment of annual fee |