CN103488676A - 基于社交正则化协同话题回归的标签推荐系统及方法 - Google Patents

基于社交正则化协同话题回归的标签推荐系统及方法 Download PDF

Info

Publication number
CN103488676A
CN103488676A CN201310294465.8A CN201310294465A CN103488676A CN 103488676 A CN103488676 A CN 103488676A CN 201310294465 A CN201310294465 A CN 201310294465A CN 103488676 A CN103488676 A CN 103488676A
Authority
CN
China
Prior art keywords
article
label
social
ctr
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310294465.8A
Other languages
English (en)
Inventor
李武军
王灏
过敏意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310294465.8A priority Critical patent/CN103488676A/zh
Publication of CN103488676A publication Critical patent/CN103488676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社交正则化协同话题回归的标签推荐系统及方法,该系统包括:CTR模型建立模组,对所有标签建立CTR模型;有社交正则化的CTR模型建立模组,通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立CTR-SR模型;参数学习模组,利用最大后验估计对该有社交正则化的CTR模型建立模组建立的模型中的参数进行学习,最终各参数的全后验概率;标签推荐模组,根据学习后的参数进行标签推荐,本发明将CTR模型应用于标签推荐,通过对CTR进行拓展,提出了一种层级式的贝叶斯模型,有效地整合了物品-标签矩阵、物品内容信息,并利用了物品之间的网络关系,提高了推荐的准确度。

Description

基于社交正则化协同话题回归的标签推荐系统及方法
技术领域
本发明关于一种标签推荐系统及方法,特别是涉及一种基于社交正则化协同话题回归的标签推荐系统及方法。
背景技术
标签系统在分类和组织系统方面扮演着重要的角色。比如说,Flickr(图片分享网站)使用标签来组织分类图片,Last.fm(网上音乐库)利用标签来分类艺术家和音乐。CiteULike(个人学术资料库)允许用户对文章标签。通过标签系统,用户可以更好地组织他们的信息,更容易的找到相关物品或信息。
然而,找到准确的描述物品的标签是件很难的事。正因如此,标签推荐变的越加重要。通过标签推荐系统,用户只需很少的点击来完成标注过程。并且,不同用户生成的标签可能千差万别。不同的用户可能使用不同的文字来形容相同的意向,这些都给使用标签造成了障碍。标签推荐系统可以帮助缩小词汇范围,从而减轻这类问题。同时它可以帮助排除一些错拼和无意义的单词。因此,标签推荐最近成为了非常热门的话题。
现有的标签推荐方法可以简单分成三类:基于内容的方法,同现(co-occurrence)的方法以及混合方法。基于内容的方法直接利用物品的内容信息来做推荐,比如论文的摘要和内容、图像信息和图像描述;基于同现(co-occurrence)的方法主要利用标签(tag)在物品中共同出现的次数的记录来做标签推荐,事实上,同现(co-occurrence)方法背后的原理和协同过滤方法(CF)相似。因为标签推荐(TR)问题非常复杂和困难,无论是纯粹的基于内容的方法还是基于同现(co-occurrence)的方法都无法取得满意的效果。因此最近的趋势是使用混合的方法,该方法同时利用了物品-标签矩阵和物品的个体信息来做推荐。
然而,在一些应用中,除了物品的内容信息和标签在物品中共同出现的次数等信息,也许还可以得到物品之间的网络关系。比如说,如果要在CiteULike里对文章进行标注,文章之间会有引用信息。通常两篇有相关联系的文章更有可能是关于同意的话题的,从而也更有可能有相同的标签。因此,如何有效的整合物品之间的社交网络信息成为了一个新的挑战。
假设有一个需要标注的物品集合W=[w1;w2;:::;wJ],其中wj2Rd,表示了物品j的内容或属性。比如说,如果希望标注文章,那么物品即文章,而内容可以是文章的摘要。假设有I个标签ft1;t2;:::;tIg。那么可以用矩阵R=[rij]I£J来代表所有物品的标签信息。rij是个二元变量,其中rij=1表示物品wj有tagi。标签推荐任务即预测rj=[r1j;r2j;:::;rIj]T中的未知值。需说明的是,本发明关注的虽是对文章的标注问题,同样可以被应用到图片和影像的标注任务上。
基于内容的方法只使用了内容信息来进行推荐。比如说,如果希望给物品wj推荐标签,可以使用与wj内容最相近的物品同样的标签。也可以把每一个标签作为label,然后通过基于内容来训练分类器的方法来进行推荐。
基于同现(co-occurrence)的方法只使用了矩阵R=[rij]I£J来做推荐。比如说,如果ti和tk同时在多篇文章中作为tag,并且已知ti是wj的tag,那么也应该给wj推荐tk。可以看到同现(co-occurrence)方法背后的原理与协同过滤的方法(Collaborative Filtering,CF)非常相似。
然而,不管是co-occurrence方法还是基于内容的方法,都忽略了一些有用的信息,如物品之间的网络关系,因此,它们在应用时无法达到足够令人满意的效果。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于社交正则化协同话题回归的标签推荐系统及方法,其通过将CTR模型应用于标签推荐,通过对CTR进行拓展,提出了一种层级式的贝叶斯模型,有效地整合了物品-标签矩阵,物品内容信息,并利用了物品之间的网络关系,提高了推荐的准确度。
为达上述及其它目的,本发明提出一种基于社交正则化协同话题回归的标签推荐系统,包括:
CTR模型建立模组,对所有标签建立CTR模型;
有社交正则化的CTR模型建立模组,通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立有社交正则化的CTR模型;
参数学习模组,利用最大后验估计对该有社交正则化的CTR模型建立模组建立的模型中的参数进行学习,最终各参数的全后验概率;
标签推荐模组,根据学习后的参数进行标签推荐。
进一步地,假设有K个话题ˉ=ˉ1:K,该CTR模型建立过程如下:
为每个标签生成符合高斯分布的隐含变量
Figure BDA00003506444900031
其中IK是K行的单元矩阵;
对于每个物品j,生成话题分布及生成物品的隐含偏移量
Figure BDA00003506444900033
并且设置物品的隐含变量为vj02j+μj,对于文章wj的每个单词wjn,生成话题zjn>>Mult(μ)及生成单词
Figure BDA00003506444900034
对于每个标签-物品对(i,j),生成标签信息
Figure BDA00003506444900035
其中cij反映了rij的置信度。
进一步地,
Figure BDA00003506444900036
其中a,b是参数,并且满足a>b>0。
进一步地,该有社交正则化的CTR模型建立模组建立CTR-SR模型的过程如下:
为每个标签生成隐含变量
Figure BDA00003506444900037
对于每个物品j,生成话题分布对于文章wj的每个单词wjn,成话题zjn>>Mult(μ)及生成单词
Figure BDA00003506444900041
按矩阵的高斯分布生成社交隐含矩阵S=[s1;s2;:::;sJ],其中
Figure BDA00003506444900042
为物品j通过两个高斯分布的乘积来生成隐含向量
Figure BDA00003506444900043
对于每个标签-物品对(i,j),生成标签信息,
Figure BDA00003506444900044
上述生成过程中,S表示社交隐含矩阵,每列代表物品j的社交隐含向量sj
Figure BDA00003506444900045
表示矩阵变量正态分布。
进一步地,该参数学习模组采用EM类型方法来计算最大后验估计,可以通过计算给定参数情况下U=[ul,u2,...,uI],V=[υ1,υ2,…,υJ],S,θ1:J,R的最大完全对数似然来最大化后验概率。
进一步地,该参数学习模组获得ui,vj,sj和θj的全后验概率。
为达到上述及其他目的,本发明还提供一种基于社交正则化协同话题回归的标签推荐方法,包括如下步骤:
步骤一,对所有标签建立CTR模型;
步骤二,通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立有社交正则化的CTR模型;
步骤三,参数学习模组,利用最大后验估计对该有社交正则化的CTR模型建立模组建立的模型中的参数进行学习,最终各参数的全后验概率;
步骤四,根据学习后的参数进行标签推荐。
进一步地,于步骤一中,假设有K个话题ˉ=ˉ1:K,该CTR模型建立过程如下:
为每个标签生成符合高斯分布的隐含变量
Figure BDA00003506444900046
其中IK是K行的单元矩阵;
对于每个物品j,生成话题分布
Figure BDA00003506444900047
及生成物品的隐含偏移量
Figure BDA00003506444900051
并且设置物品的隐含变量为vj=2j+μj,对于文章wj的每个单词wjn,生成话题zjn>>Mult(μ)及生成单词
Figure BDA00003506444900052
对于每个标签-物品对(i,j),生成标签信息
Figure BDA00003506444900053
其中cij反映了rij的置信度;
进一步地,
其中a,b是参数,并且满足a>b>0。
进一步地,于步骤二中,该有社交正则化的CTR模型的建立过程如下:
为每个标签生成隐含变量
Figure BDA00003506444900055
对于每个物品j,生成话题分布
Figure BDA00003506444900056
对于文章wj的每个单词wjn,成话题zjn>>Mult(μ)及生成单词
按矩阵的高斯分布生成社交隐含矩阵S=[s1;s2;:::;sJ],其中
为物品j通过两个高斯分布的乘积来生成隐含向量
Figure BDA00003506444900059
对于每个标签-物品对(i,j),生成标签信息,
上述生成过程中,S表示社交隐含矩阵,每列代表物品j的社交隐含向量sj
Figure BDA000035064449000511
表示矩阵变量正态分布。
与现有技术相比,本发明一种基于社交正则化协同话题回归的标签推荐系统及方法通过将CTR模型应用到标签推荐系统任务中,且通过扩展CTR模型,提出一种新的层级式的贝叶斯模型,用以无缝整合物品-标签矩阵,内容信息以及物品之间的社交网络关系,提高了标签推荐的准确度
附图说明
图1为本发明一种基于关系型协同话题回归的推荐系统的系统架构示意图;
图2为本发明较佳实施例中CTR的概率图模型示意图;
图3为本发明较佳实施例中CTR-SR的概率图模型示意图;
图4为本发明一种基于社交正则化协同话题回归的标签推荐方法的步骤流程图;
图5为本发明之实验结果比较图;
图6为本发明之实验结果比较图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于关系型协同话题回归的推荐系统的系统架构示意图。如图1所示,本发明一种基于关系型协同话题回归(RCTR)的推荐系统,至少包括:CTR模型建立模组10、有社交正则化的CTR模型建立模组11、参数学习模组12以及标签推荐模组13。
其中,CTR模型建立模组10用于对所有标签建立CTR模型。图2为本发明较佳实施例中CTR的概率图模型示意图。假设有K个话题ˉ=ˉ1:K。CTR模型的生成过程如下:
1、为每个标签生成符合高斯分布的隐含变量:
Figure BDA00003506444900061
其中IK是K行的单元矩阵。
2、对于每个物品j:
a)生成话题分布
Figure BDA00003506444900062
b)生成物品的隐含偏移量
Figure BDA00003506444900063
并且设置物品的隐含变量为vj=2j+μj
c)对于文章wj的每个单词wjn
i.生成话题zjn>>Mult(μ)。
ii.生成单词
Figure BDA00003506444900071
3、对于每个标签-物品对(i,j),生成标签信息:
Figure BDA00003506444900072
其中cij反映了rij的置信度:
Figure BDA00003506444900073
其中a,b是参数,并且满足a>b>0。
在本发明较佳实施例中,采用最大后验估计的方法(MAP)来学习CTR的参数。
容易看到上述CTR模型的建立过程结合了基于矩阵分解的协同过滤方法和话题模型方法(Topic Model)。
有社交正则化的CTR模型建立模组11通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立有社交正则化的CTR模型(CTR-SR)。图3为本发明较佳实施例中CTR-SR的概率图模型示意图。在本发明较佳实施例中,CTR-SR模型的生成过程如下:
1.为每个标签生成隐含变量:
Figure BDA00003506444900074
2.对于每个物品j:
a)生成话题分布
Figure BDA00003506444900075
b)对于文章wj的每个单词wjn
(1)生成话题zjn>>Mult(μ)。
(2)生成单词
Figure BDA00003506444900076
3.按矩阵的高斯分布生成社交隐含矩阵S=[s1;s2;:::;sJ]:
4.为物品j通过两个高斯分布的乘积(PoG)来生成隐含向量:
Figure BDA00003506444900081
5.对于每个标签-物品对(i,j),生成标签信息:
上述生成过程中,S表示社交隐含矩阵,每列代表物品j的社交隐含向量sj。公式(3)中的
Figure BDA00003506444900083
表示矩阵变量正态分布:
Figure BDA00003506444900084
其中
Figure BDA000035064449000813
表示两个矩阵的Kronecker积,tr(·)表示矩阵的迹,
Figure BDA00003506444900086
其中D是对角矩阵,满足Dii=ΣjAij这里A是社交网络的邻接矩阵。如果i与j连边,则Aij=1,否则Aij=0。公式(4)中的
Figure BDA00003506444900087
表示高斯分布
Figure BDA00003506444900088
Figure BDA00003506444900089
的乘积。它同时也满足高斯分布[Gales and Airey,2006]),对应的高斯分布为其中
μ υr = θ j λ υ + s j λ r λ υ + λ r ,
λ υr = λ υ λ r λ υ + λ r .
其中如公式(3)和图3显示的那样,在CTR-SR中,通过将邻接矩阵的Laplacian矩阵作为S的先验分布,社交网络信息被无缝的整合进了模型。其中的物理意义是将隐含向量(sj和υj)连接的尽量紧密。
参数学习模组12利用最大后验(MAP)估计对有社交正则化的CTR模型建立模组11建立的CTR-SR模型中的参数进行学习,最终获得ui,vj,sj和θj的全后验概率。在本发明较佳实施例中,采用了EM类型的算法来计算最大后验估计(MAP),可以通过计算给定参数情况下U=[ul,u2,...,uI],V=[υ1,υ2,...,υJ],S,θ1:J,R的最大完全对数似然(loglikelihood),来最大化后验概率:
Figure BDA00003506444900091
Figure BDA00003506444900092
Figure BDA00003506444900093
其中省略了常数,且CTR中topic model的参数都设置成了1。注意第一项对应了去掉常数项后的logp(S),并且:
Figure BDA00003506444900094
Figure BDA00003506444900095
       (7)
Figure BDA00003506444900096
Figure BDA000035064449000911
可以看到最大化
Figure BDA00003506444900097
会让所有的有连接的j和j’(Ajj0=1)对应的
Figure BDA00003506444900098
变得更接近。
公式(6)中的函数可以通过梯度上升的方法来优化。首先固定参数ˉ然后迭代优化协同过滤的变量fui;vj;sjg和话题分布μj。每次fui;vj;sjg和话题分布μj优化后,参数ˉ会被更新。
ui;vj的更新规则如下:
ui←(VCiVTuIK)-lVCiRi
υj←(UCiUTυIKrIK)一l(UCjRjυθjrsj),
其中Ci是以fcij;j=1;:::;Jg为对角元素的对角矩阵。Rj是R的第j行。
对于社交隐含矩阵S,我们固定除了第k行的所有行,并且更新第k行。通过对L关于
Figure BDA000035064449000912
求梯度并置为0,得到了如下的线性系统:
Figure BDA00003506444900099
一个直接的解线性系统的方法是令
Figure BDA000035064449000910
但是每次更新的时间复杂度达到O(J3),其中J是物品数。在本发明较佳实施例中,使用最速下降法来迭代更新
Figure BDA000035064449000913
Sk*(t+1)←Sk*(t)+δ(t)r(t)
Figure BDA00003506444900101
Figure BDA00003506444900102
使用最速下降法而不是直接线性系统可以大大减少每轮迭代的计算量,从O(J3)降至O(J)。
对于μj,首先定义
Figure BDA00003506444900103
将包含μj的部分分离后,应用Jensen’s不等式:
Figure BDA00003506444900104
Figure BDA00003506444900105
Figure BDA00003506444900106
这里显然
Figure BDA00003506444900108
是L(μj)的紧下界,并且可以用投影梯度法来最优化μj。最优的是:
Figure BDA000035064449001010
对于参数β的学习,采用如下公式:
Figure BDA000035064449001011
标签推荐模组13,则根据学习后的参数进行标签推荐。由于建立的CTR-SR模型无缝地整合了物品-标签矩阵、物品内容信息以及物品之间的社交网络,因此标签推荐能够取得比较理想的结果。
图4为本发明一种基于社交正则化协同话题回归的标签推荐方法的步骤流程图。如图4所示,本发明一种基于社交正则化协同话题回归的标签推荐方法,包括如下步骤:
步骤401,对所有标签建立CTR模型。假设有K个话题ˉ=ˉ1:K,在本发明较佳实施例中,CTR模型的生成过程如下:
1、为每个标签生成符合高斯分布的隐含变量:
Figure BDA000035064449001012
其中IK是K行的单元矩阵。
2、对于每个物品j:
a)生成话题分布
Figure BDA00003506444900117
b)生成物品的隐含偏移量
Figure BDA00003506444900111
并且设置物品的隐含变量为vj=2j+μj
c)对于文章wj的每个单词wjn
iii.生成话题zjn>>Mult(μ)。
iv.生成单词
Figure BDA00003506444900112
3、对于每个标签-物品对(i,j),生成标签信息:
Figure BDA00003506444900113
其中cij反映了rij的置信度:
Figure BDA00003506444900114
其中a,b是参数,并且满足a>b>0。
在本发明较佳实施例中,采用最大后验估计的方法(MAP)来学习CTR的参数。
容易看到上述CTR模型的建立过程结合了基于矩阵分解的协同过滤方法和话题模型方法(Topic Model)。
步骤402,通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立有社交正则化的CTR模型(CTR-SR)。在本发明较佳实施例中,CTR-SR模型的生成过程如下:
1.为每个标签生成隐含变量:
Figure BDA00003506444900115
2.对于每个物品j:
a)生成话题分布
b)对于文章wj的每个单词wjn
(1)生成话题zjn>>Mult(μ)。
(2)生成单词
Figure BDA00003506444900121
3.按矩阵的高斯分布生成社交隐含矩阵S=[s1;s2;:::;sJ]:
Figure BDA00003506444900122
4.为物品j通过两个高斯分布的乘积(PoG)来生成隐含向量:
Figure BDA00003506444900123
5.对于每个标签-物品对(i,j),生成标签信息:
Figure BDA00003506444900124
上述生成过程中,S表示社交隐含矩阵,每列代表物品j的社交隐含向量sj。公式(3)中的
Figure BDA00003506444900125
表示矩阵变量正态分布:
Figure BDA00003506444900126
Figure BDA00003506444900127
其中表示两个矩阵的Kronecker积,tr(·)表示矩阵的迹,
Figure BDA00003506444900128
其中D是对角矩阵,满足DiijAij。这里A是社交网络的邻接矩阵。如果i与j连边,则Aij=1,否则Aij=0公式(4)中的
Figure BDA00003506444900129
表示高斯分布
Figure BDA000035064449001210
的乘积。它同时也满足高斯分布[Gales and Airey,2006]),对应的高斯分布为
Figure BDA000035064449001212
其中
μ υr = θ j + λ υ + s j + λ r λ υ + λ r ,
λ υr = λ υ λ r λ υ + λ r .
其中如公式(3)和图3显示的那样,在CTR-SR中,通过将邻接矩阵的Laplacian矩阵作为S的先验分布,社交网络信息被无缝的整合进了模型。其中的物理意义是将隐含向量(sj和υj)连接的尽量紧密。
步骤403,利用最大后验(MAP)估计对有社交正则化的CTR模型建立模组11建立的CTR-SR模型中的参数进行学习,最终获得ui,vj,sj和θj的全后验概率。在本发明较佳实施例中,采用了EM类型的算法来计算最大后验估计(MAP),可以通过计算给定参数情况下U=[u1,u2,...,uI],V=[υl,υ2,…,υJ],S,θ1:J,R的最大完全对数似然(loglikelihood),来最大化后验概率:
Figure BDA00003506444900132
Figure BDA00003506444900133
其中省略了常数,且CTR中topic model的参数都设置成了1。注意第一项对应了去掉常数项后的logp(S),并且:
Figure BDA00003506444900134
Figure BDA00003506444900135
      (16)
Figure BDA00003506444900136
Figure BDA00003506444900137
可以看到最大化
Figure BDA00003506444900138
会让所有的有连接的j和
Figure BDA00003506444900139
对应的
Figure BDA000035064449001310
变得更接近。
公式(6)中的函数可以通过梯度上升的方法来优化。首先固定参数ˉ然后迭代优化协同过滤的变量fui;vj;sjg和话题分布μj。每次fui;vj;sjg和话题分布μj优化后,参数ˉ会被更新。
ui;vj的更新规则如下:
ui←(VCiVTuIK)-lVCiRi
υj←(UCiUTυIKrIK)一l(UCjRjυθjrsj),
其中Ci是以fcij;j=1;:::;Jg为对角元素的对角矩阵。Rj是R的第j行。
对于社交隐含矩阵S,我们固定除了第k行的所有行,并且更新第k行。通过对L关于
Figure BDA000035064449001313
梯度并置为0,得到了如下的线性系统:
Figure BDA000035064449001311
一个直接的解线性系统的方法是令
Figure BDA000035064449001312
但是每次更新的时间复杂度达到O(J3),其中J是物品数。在本发明较佳实施例中,使用最速下降法来迭代更新
Sk*(t+1)←Sk*(t)+δ(t)r(t)
Figure BDA000035064449001412
Figure BDA00003506444900142
使用最速下降法而不是直接线性系统可以大大减少每轮迭代的计算量,从O(J3)降至O(J)。
对于μj,首先定义
Figure BDA00003506444900143
将包含μj的部分分离后,应用Jensen’s不等式:
Figure BDA00003506444900144
Figure BDA00003506444900146
这里
Figure BDA00003506444900147
显然是L(μj)的紧下界,并且可以用投影梯度法来最优化μj。最优的是:
Figure BDA000035064449001410
对于参数β的学习,采用如下公式:
Figure BDA000035064449001411
步骤404,根据学习后的参数进行标签推荐。
实验:
本发明在两个数据集上进行了实验,实验显示本发明相当有效。虽然本发明关注的重点是推荐文章的标签,但本发明依旧可以较好的拓广到其它类型的数据上。
1、数据集
本发明的两个数据集都来自CiteULike。对于第一个数据集来自[Wang andBlei,2011],并且我们自行抓到了相应的标签数据。第二个数据集由我们自行收集。具体的,第一个数据集共19107个标签,第二个数据有52946个标签。将出现次数少于5次的标签剔除,最终分别得到了7386和8311个标签。两个数据集分别有16980和25975篇文章。两个数据集对应的R矩阵的稀疏度分别为0.00145和0.00104。
对文本信息进行预处理,使用了标题和摘要信息作为内容。
因为CiteULike并不提供引用信息,本发明通过用户-文章信息来构建文章之间的网络。对于每个数据集,如果两篇文章有4个以上的共同读者,将其连边。这样做是因为拥有类似读者的两篇文章更有可能具有相似的话题。完成后,两个数据集分别有259344和150567条边。
2、评价标准
对于每个数据集,我们对于每个标签随机选择P篇文章作为训练数据,剩下的都作为训练集。从1到10变化P,P越小,训练数据越稀疏。注意当P=1时,只有4.1%的标签被放入了citeulike-a的训练集,3.7%的标签被放入了citeulike-t的训练集。对于每个P都重复进行了五次实验,并且取平均值。
本发明使用recall(召回)来作为评判标准。与大多数推荐系统类似,我们将备选标签按评分排序,并且推荐前M个标签。对于每个物品,我们定义recallM为:
recall M = numberoftagstheitemisassociaztedwithintopM tota ln umberoftagstheitemisassociatedwith :
最终的结果是多次实验后的平均值。
3、参数和比较方法
本发明使用下列方法与CTR-SR模型进行比较:
1、TAGCO:基于co-occurrence的方法。
2、SCF:基于相似度的协同过滤方法。找到文章最相似的k篇文章,并依据这k篇文章的tag进行推荐。
3、CF:基于矩阵分解的协同过滤方法。它将训练矩阵分解为两个低秩矩阵U,V,并且用UVT来近似目标矩阵。
4、SCF+LDA:这个方法集成了SCF和LDA方法。它属于混合方法。
5、CTR模型。
我们使用validation集来找到最优的参数。具体的,我们发现,v=10;,u=0:1,a=1,b=0.01并且K=200时CTR取得较好的效果。对于CF方法,v=1;,u=1,a=1,b=0.01,K=200。而对于CTR-SR模型,参数为,v=10;,u=0:1;,r=100;,t=10,a=1,b=0.01,K=200。
图5(a)和图6(a)显示了当P设置成1,2,5,8,10时的recall250.我们可以看到混合方法SCF+LDA比单一使用一种信息的方法要好,而CTR模型要优于SCF+LDA,进一步的我们的CTR-SR模型要更优于CTR模型。
图5(b)和(c)显示了citeulike-a数据集中当M设为50,100,150,200,250时的recall,而图6(b)和(c)是citeulike-t对应的数据。再一次,CTR-SR的表现依旧是最优的。
4、解释性
除了良好的表现,我们的模型同时提供了很好的解释性。两个样例文章如图7所示。注意到虽然CTR和CTR-SR学习出来的话题分布比重不同,但排名基本类似。CTR-SR和CTR的样例都来自P=1的稀疏情况。也就是说训练集中每个标签只对应了一篇文章。从图中可以看出u,在第一篇文章中,CTR-SR和CTR模型的准确度分别为50%和10%;第二篇文章中准确度分别为60%和10%。我们可以发现社交网络信息非常具有信息量,而CTR-SR模型很好地利用了这一点。
更仔细地观察发现,第一篇文章How much can behavioral targeting helponline advertising?主要是关于在线广告的,而CTR的模型更加关注在文章的技术细节上,而CTR-SR得到的标签更关注文章的本质。同样的,对于第二篇文章Lowcost multitouch sensing through frustrated total internal reflection关注的是多点触控。CTR推荐的大多为nanoparticles之类的专业术语,相反CTR-SR则准确的推荐出了multi-touch和screen等更准确的标签。
综上所述,本发明一种基于社交正则化协同话题回归的标签推荐系统及方法通过将CTR模型应用到标签推荐系统任务中,且通过扩展CTR模型,提出一种新的层级式的贝叶斯模型,用以无缝整合物品-标签矩阵,内容信息以及物品之间的社交网络关系,提高了标签推荐的准确度,本发明还通过实验显示了CTR-SR模型的有效性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于社交正则化协同话题回归的标签推荐系统,包括: 
CTR模型建立模组,对所有标签建立CTR模型; 
有社交正则化的CTR模型建立模组,通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立有社交正则化的CTR模型; 
参数学习模组,利用最大后验估计对该有社交正则化的CTR模型建立模组建立的模型中的参数进行学习,最终各参数的全后验概率; 
标签推荐模组,根据学习后的参数进行标签推荐。 
2.如权利要求1所述的基于社交正则化协同话题回归的标签推荐系统,其特征在于,假设有K个话题ˉ=ˉ1:K,该CTR模型建立过程如下: 
为每个标签生成符合高斯分布的隐含变量其中IK是K行的单元矩阵; 
对于每个物品j,生成话题分布
Figure FDA00003506444800012
及生成物品的隐含偏移量 
Figure FDA00003506444800013
并且设置物品的隐含变量为vj=2j+μj,对于文章wj的每个单词wjn,生成话题zjn>>Mult(μ)及生成单词
Figure FDA00003506444800014
对于每个标签-物品对(i,j),生成标签信息
Figure FDA00003506444800015
其中cij反映了rij的置信度。 
3.如权利要求2所述的基于社交正则化协同话题回归的标签推荐系统,其特征在于: 
其中a,b是参数,并且满足a>b>0。 
4.如权利要求3所述的基于社交正则化协同话题回归的标签推荐系统,其特征在于,该有社交正则化的CTR模型建立模组建立CTR-SR模型的过程如下: 
为每个标签生成隐含变量
Figure FDA00003506444800021
对于每个物品j,生成话题分布
Figure FDA00003506444800022
对于文章wj的每个单词wjn,成话题zjn>>Mult(μ)及生成单词
按矩阵的高斯分布生成社交隐含矩阵S=[s1;s2;:::;sJ],其中 
Figure FDA00003506444800024
为物品j通过两个高斯分布的乘积来生成隐含向量 
Figure FDA00003506444800025
对于每个标签-物品对(i,j),生成标签信息,
Figure FDA00003506444800026
上述生成过程中,S表示社交隐含矩阵,每列代表物品j的社交隐含向量sj。 
Figure FDA00003506444800027
表示矩阵变量正态分布。 
5.如权利要求4所述的基于社交正则化协同话题回归的标签推荐系统,其特征在于:该参数学习模组采用EM类型方法来计算最大后验估计,可以通过计算给定参数情况下U=[ul,u2,...,uI],V=[υl,υ2,...,υJ],S,θ1:J,R的最大完全对数似然来最大化后验概率。 
6.如权利要求5所述的基于社交正则化协同话题回归的标签推荐系统,其特征在于:该参数学习模组获得ui,vj,sj和θj的全后验概率。 
7.一种基于社交正则化协同话题回归的标签推荐方法,包括如下步骤: 
步骤一,对所有标签建立CTR模型; 
步骤二,通过将物品-标签矩阵、物品内容信息以及物品之间的社交网络整合到一个层级贝叶斯模型以建立有社交正则化的CTR模型; 
步骤三,参数学习模组,利用最大后验估计对该有社交正则化的CTR模型建立模组建立的模型中的参数进行学习,最终各参数的全后验概率; 
步骤四,根据学习后的参数进行标签推荐。 
8.如权利要求7所述的一种基于社交正则化协同话题回归的标签推荐方法,其特征在于,于步骤一中,假设有K个话题ˉ=ˉ1:K,该CTR模型建立过 程如下: 
为每个标签生成符合高斯分布的隐含变量
Figure FDA00003506444800031
其中IK是K行的单元矩阵; 
对于每个物品j,生成话题分布
Figure FDA00003506444800032
及生成物品的隐含偏移量 
Figure FDA00003506444800033
并且设置物品的隐含变量为vj=2j+μj,对于文章wj的每个单词wjn,生成话题zjn>>Mult(μ)及生成单词
对于每个标签-物品对(i,j),生成标签信息
Figure FDA00003506444800035
其中cij反映了rij的置信度。 
9.如权利要求8所述的基于社交正则化协同话题回归的标签推荐方法,其特征在于: 
Figure FDA00003506444800036
其中a,b是参数,并且满足a>b>0。 
10.如权利要求9所述的基于社交正则化协同话题回归的标签推荐方法,其特征在于,于步骤二中,该有社交正则化的CTR模型的建立过程如下: 
为每个标签生成隐含变量
Figure FDA00003506444800037
对于每个物品j,生成话题分布
Figure FDA00003506444800038
对于文章wj的每个单词wjn,成话题zjn>>Mult(μ)及生成单词
Figure FDA00003506444800039
按矩阵的高斯分布生成社交隐含矩阵S=[s1;s2;:::;sJ],其中 
Figure FDA000035064448000310
为物品j通过两个高斯分布的乘积来生成隐含向量 
Figure FDA000035064448000311
对于每个标签-物品对(i,j),生成标签信息,
上述生成过程中,S表示社交隐含矩阵,每列代表物品j的社交隐含向量sj。 表示矩阵变量正态分布。 
CN201310294465.8A 2013-07-12 2013-07-12 基于社交正则化协同话题回归的标签推荐系统及方法 Pending CN103488676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310294465.8A CN103488676A (zh) 2013-07-12 2013-07-12 基于社交正则化协同话题回归的标签推荐系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310294465.8A CN103488676A (zh) 2013-07-12 2013-07-12 基于社交正则化协同话题回归的标签推荐系统及方法

Publications (1)

Publication Number Publication Date
CN103488676A true CN103488676A (zh) 2014-01-01

Family

ID=49828904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310294465.8A Pending CN103488676A (zh) 2013-07-12 2013-07-12 基于社交正则化协同话题回归的标签推荐系统及方法

Country Status (1)

Country Link
CN (1) CN103488676A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834652A (zh) * 2014-02-11 2015-08-12 北京千橡网景科技发展有限公司 一种服务于社交网络的短信策略的构建方法及其装置
CN105045865A (zh) * 2015-07-13 2015-11-11 电子科技大学 一种基于核的协同主题回归标签推荐方法
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834652A (zh) * 2014-02-11 2015-08-12 北京千橡网景科技发展有限公司 一种服务于社交网络的短信策略的构建方法及其装置
CN105045865A (zh) * 2015-07-13 2015-11-11 电子科技大学 一种基于核的协同主题回归标签推荐方法
CN105045865B (zh) * 2015-07-13 2019-04-26 电子科技大学 一种基于核的协同主题回归标签推荐方法
CN107451187A (zh) * 2017-06-23 2017-12-08 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法
CN107451187B (zh) * 2017-06-23 2020-05-19 天津科技大学 基于互约束主题模型的半结构短文本集中子话题发现方法

Similar Documents

Publication Publication Date Title
CN101385025B (zh) 通过分析内容确定上下文并且基于该上下文提供相关内容
CN102982042B (zh) 一种个性化内容推荐方法、平台以及系统
CN106802915A (zh) 一种基于用户行为的学术资源推荐方法
Baral et al. Reel: Review aware explanation of location recommendation
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN102004774A (zh) 基于统一概率模型的个性化用户标签建模与推荐方法
CN108021715B (zh) 基于语义结构特征分析的异构标签融合系统
CN106294500A (zh) 内容项目的推送方法、装置及系统
Bales et al. Bibliometric visualization and analysis software: State of the art, workflows, and best practices
Huang et al. Research on multi-label user classification of social media based on ML-KNN algorithm
Xue et al. Aspect identification and ratings inference for hotel reviews
Lin et al. NL2API: A framework for bootstrapping service recommendation using natural language queries
Rana et al. A conceptual model for decision support systems using aspect based sentiment analysis
Yao et al. Online deception detection refueled by real world data collection
CN103488676A (zh) 基于社交正则化协同话题回归的标签推荐系统及方法
Bing et al. Learning a unified embedding space of web search from large-scale query log
Kuo et al. A library recommender system using interest change over time and matrix clustering
Pitsilis et al. Harnessing the power of social bookmarking for improving tag-based recommendations
Dhande et al. Review of sentiment analysis using naive bayes and neural network classifier
CN109344319B (zh) 一种基于集成学习的线上内容热度预测方法
Klašnja-Milićević et al. Folksonomy and tag-based recommender systems in e-learning environments
Ren et al. User session level diverse reranking of search results
Zhou et al. Unifying learning to rank and domain adaptation: Enabling cross-task document scoring
Yang An active recommendation approach to improve book-acquisition process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140101

WD01 Invention patent application deemed withdrawn after publication