CN105045865A - 一种基于核的协同主题回归标签推荐方法 - Google Patents

一种基于核的协同主题回归标签推荐方法 Download PDF

Info

Publication number
CN105045865A
CN105045865A CN201510410231.4A CN201510410231A CN105045865A CN 105045865 A CN105045865 A CN 105045865A CN 201510410231 A CN201510410231 A CN 201510410231A CN 105045865 A CN105045865 A CN 105045865A
Authority
CN
China
Prior art keywords
article
label
theme
distribution
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510410231.4A
Other languages
English (en)
Other versions
CN105045865B (zh
Inventor
程红蓉
郭彦伟
唐明霜
张锋
蔡腾远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201510410231.4A priority Critical patent/CN105045865B/zh
Publication of CN105045865A publication Critical patent/CN105045865A/zh
Application granted granted Critical
Publication of CN105045865B publication Critical patent/CN105045865B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及到一种新的面向物品的标签推荐混合方法。本发明将行为信息、文本信息以及社会关系信息整合到一个模型中。本发明将矩阵分解技术、主题模型还有核函数的方法有机结合组成混合模型。将上述三种信息集中处理,不仅可以有效的解决冷启动问题,同时保留了推荐目标之间实际存在的社会关系,而不是像传统协同过滤方法把推荐目标看做是相互独立的个体。通过实验,本发明得到了较传统协同过滤推荐方法更高的推荐精度。

Description

一种基于核的协同主题回归标签推荐方法
技术领域
本发明是一种基于核的矩阵分解和主题模型相结合的混合方法做标签推荐的实现方法。
背景技术
标签以及标签系统,作为web2.0时代的一种重要标志,是很多网站的必要组成部分。标签系统的鼻祖Delicious,音乐网站Last.fm和电影评论网站豆瓣等,都是标签系统的代表性网站。在这些网站中,标签作为一种重要的特征(featrue)表现,联系着用户和物品,反映着它们之间的喜好关系。同时当用户浏览某个物品时,用户需要被提供高质量的标签来帮助了解该物品,同时标签系统也非常希望用户能够打给这个物品高质量的标签,这样才能促进标签系统的良性循环。因此,标签推荐应运而生,在很多标签系统中都有提供给用户标签推荐。同时,标签推荐也作为近些年的研究热点,受到各个领域的关注。
标签推荐帮助用户节省了输入标签的时间,提高了用户的参与度。同时,在使用标签推荐时,可以规范标签的书写,减少标签的规模,提高标签的质量。一个网站有了高质量的标签,同时也反馈给了用户高质量的体验。
标签推荐中存在着{物品,标签}行为信息、物品的文本信息以及其他一些信息。如何合理的利用这些信息是传统协同过滤标签推荐中面临的一个挑战。针对上述问题,本发明有效地将行为信息、文本信息还有社会关系信息整合到一个模型中训练。同时,冷启动问题作为传统协同过滤算法的研究的重点也是标签推荐中面临的一大挑战,本发明将文本信息经过主题模型LDA(LatentDirichletAllocation)训练出来的主题分布作为物品的特征向量,有效的解决了冷启动问题。
发明内容
本发明的目的是提供基于核的矩阵分解和主题模型组成的混合模型做面向物品的标签推荐的实现方法。传统的标签推荐方法将物品之间看做是相互独立的,忽略了它们之间存在社会关系的事实。物品之间存在主题或者语义上的相似性,而这种相似性通常通过社会关系表现出来。通过引入核函数,本发明可以有效的表现出物品之间存在的社会关系,而这种表现体现在算法训练过程中物品的特征会受到处于同一社会关系的其他物品的特征的影响。使用本发明提供的方法,可以应用标签系统中,提供标签推荐的服务或者提高标签推荐的质量。
本发明提出的推荐方法是将矩阵分解、主题模型还有核方法结合到一起的混合方法。该混合方法将{物品,标签}行为矩阵、物品的文本信息(主要包括摘要信息和标题信息)还有社会关系信息有机的整合到一个模型中。为了方便使用这些信息,本发明需要做一些初始工作:首先,使用LDA对文本数据进行处理,得到物品和主题的关系矩阵,并将其作为物品的初始化的特征向量信息添加到模型中。其次,将物品间的社会关系信息,组成一个拉普拉斯矩阵L=D-W。其中W表示物品间社会关系的无向图,如果Wij=1,表示物品i和物品j之间存在联系,反之Wij=0。D是对角矩阵,对角线的元素满足Dii=∑jWij。在L两边同时乘以最终得到了正则化的拉普拉斯矩阵然后定义核函数,核函数的如公式(1)所示:
K = ( I + γ L ^ ) - 1 - - - ( 1 )
上式是正则化的拉普拉斯核函数,其中I是单位矩阵,γ是核函数的参数。为了将核函数以及主题模型应用到矩阵分解模型中,本发明引入概率矩阵分解,同时将它的先验分布从高斯分布替换为高斯过程,将主题模型得到的物品和主题关系矩阵作为物品的先验均值,将正则化拉普拉斯核函数作为其协方差函数。这样就组成了基于核的混合模型,同时也把三种信息整合起来做推荐。
该算法的生成过程如下:
1.对所有的标签tag,生成U:,d~GP(0,Ku),其中GP表示高斯过程,d从1到D,D表示隐藏特征的个数,Ku是协方差函数,可以用核函数代替;
2.对于每个物品item的内容有以下的生成步骤:
1)生成主题比例分布θj~Dirichlet(α),其中Dirichlet表示狄利克雷分布;
2)对于物品item内容wj中的每一个词wjn
i.生成在主题分配上的分布zjn~Mult(θj),其中Mult表示多项式分布,
ii.生成每个词的分布wjn~Mult
3.对于每个物品item,生成V:,d~GP(θ:,d,Kv),d从1到D;
4.对每个标签物品对,生成标记信息rij,有其中的N表示高斯分,cij表示confidenceparameter
c i j = a , i f r i j = 1 b , i f r i j = 0
其中,有a和b满足a>b>0。
为了简化计算本发明用Su替换用Sv替换再根据上述的生成过程,得到算法的对数似然函数,如公式(2)所示:
L = - 1 2 Σ d u : , d T S u u : , d - 1 2 Σ d ( v : , d - θ : , d ) T S v ( v : , d - θ : , d )
+ Σ j Σ n l o g ( Σ d θ j d β d , w j n ) - Σ i , j c i j 2 ( r i j - u i T v j ) 2 - - - ( 2 )
通过计算最大后验估计(MAP),分别对item和tag的特征向量求偏导,并对其结果赋值为0。对item和tag的优化,本发明采用梯度上升方法,由于本发明使用的数据集中不能提取出tag的社会关系信息,为了简化计算,tag的先验分布使用高斯分布替换,它们的特征优化方法如公式(3)所示,其中ui表示标签i特征向量,vj表示物品j的特征向量。对于主题比例分布θ采用投影梯度算法进行优化,对于词的主题分布β,采用和LDA一样的方法进行优化,如公式(4)所示是其特征优化方法。
ui←(VCiVTuIK)-1VCiRi
vj←(VCjVT+sjjIK)-1[UCjRjjsjj-∑j′≠jSv(j,j′)(vj′j′)](3)
其中Cj是一个对角矩阵,对角线的元素是{cij,j=1,…,J}。Sv(j,j′)是核函数矩阵第j行,第j’列的元素,且j’不等于j。IK是一个单位矩阵。
βdw∝∑jnφjnd1[wjn=w](4)
附图说明
图1是本发明的概率模型图;
图2是本发明在数据集上和传统协同过滤测试结果召回率的对比;
图3是本发明在数据集上和传统协同过滤测试结果成功率的对比。
具体实施方式
下面使用具体的数据集还有附图对本算法的具体实施方式进行描述,便于本领域的技术人员更好地理解。
1.数据集描述
数据集是一个公开的数据集,采集自CiteULike上,其中包括5551个用户,16980篇论文,46391个标签,44709个论文的引用关系以及204987个{用户,论文}对,其中每篇论文还包括其标题,摘要等内容信息。
2.数据预处理
数据的预处理包括数据去噪、文本信息处理以及构建核函数三部分。
1)数据去噪
将数据集中使用次数少于5次的标签移除,最终得到7386个标签。
2)文本信息处理
对于论文的内容,经过去停用词后,根据TF-IDF(termfrequency–inversedocumentfrequency)的值从大到小排列,选取前8000个词,组成词汇表,并对其编号。根据词汇表统计每篇论文的词频,组成文本向量,最后的文本处理成主题模型训练通用的格式。例如“101:5980:1…..”这表示的是向量化的文本信息某一行的格式,“10”表示该行的文本向量的总长度,也可以理解为该行表示的文本中包括多少个词汇,对于“1:5”表示的是编号为“1”的词出现了“5”次,其中“1”表示词汇编号,“5”表示的是该词出现的次数,即词频。
3)构建核函数
数据集中还包括用户—物品信息,这部分数据表明了用户对物品的收藏行为,这是CiteULike网站提供的一种服务,同时也间接为物品提供了socialnetworks(社会网络)的关系。如果两个物品之间有4个及以上的相同用户,那么表示它们之间有一种social(社会)关系,使用“1”表示存在这种关系,反之则用“0”表示。通过使用“1”和“0”这样的表示,本发明可以在物品之间构建一种无向图,其中无向图的顶点表示物品,边表示物品之间存在联系。使用拉普拉斯矩阵进一步表示出这种无向图,有了拉普拉斯矩阵,进而构建出拉普拉斯核函数。
3.模型训练
对每个标签选取P篇论文组成训练集,这里P选5,其余的数据组成测试集。对于训练集,我们分成5份,选取其中的4份做训练集,1份做测试集进行5这交叉验证。通过交叉验证我们确定了模型参数,选择综合性能最好的参数在测试集上进行预测,分别得到5组预测指标,将这5组预测的结果取平均作为算法的预测结果。
4.评价指标
评测推荐算法的精度通常使用召回率来度量,召回率越大,准确性就越高,同时推荐质量也就越高,召回率的计算公式为:
由于当用户标记论文时,用户不知道这些标签的存在或者不愿意使用已存在标签,因此准确率不能应用到标签推荐上来。successL可以作为另外一个指标来衡量算法的性能,它被定义为对某篇论文推荐的前L个标签中发现一个真实存在标签的概率。当对某篇论文推荐L个标签中也一个是正确的结果,那么successL的值为1,反之为0。successL的公式表示为:
最后本发明统计所有item的recallL和successL分别取平均值作为模型最后的预测结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发明构思的发明创造均在保护之列。

Claims (6)

1.一种基于核的协同主题回归标签推荐方法,包括数据预处理、推荐方法的过程设计以及推荐方法的实现。具体操作步骤如下:
步骤a.对初始的数据去噪;
步骤b.将物品的文本信息进行向量化处理;
步骤c.从数据中提取物品的社会关系,并构建核函数;
步骤d.根据获取的数据信息,设计算法过程;
步骤e.根据算法设计过程,得出算法的更新规则。
2.根据权利要求1所述的推荐方法,其特征是步骤a,具体包括:将数据集中使用次数少于5次的标签移除,重新构建物品-标签关系矩阵。
3.根据权利要求1所述的推荐方法,其特征是步骤b,具体包括:
(b1)提取标题和摘要信息构建物品的文本信息;
(b2)经过去停用词后,计算TF-IDF,根据TF-IDF值取前N项组成词汇表,并对其进行编号;
(b3)得到词汇表后,统计每个物品的文本信息,组成一个文本向量,其中每一行的行号对应于物品的编号,每行的内容是物品向量化的文本信息,其中的每一项表示成“词编号:词频”的形式;
(b4)使用主题模型LDA对向量化的内容信息进行训练,最终得到了物品和主题的对应关系矩阵以及词和主题的对应关系矩阵。
4.根据权利要求1所述的推荐方法,其特征是步骤c,具体包括:在数据集中,本发明将用户对物品的收藏关系当做一种社会关系,如果两个物品之间有5个或5个以上的用户对其进行了收藏,那么这两个物品之间存在社会关系。通过使用1或0表示这种存在或不存在的关系,最后构建出了一个表示物品间关系的无向图。最后使用正则化的拉普拉斯核表示该无向图,核函数公式如(1)所示:
K = ( I + γ L ^ ) - 1 - - - ( 1 )
5.根据权利要求1所述的推荐方法,其特征是步骤d,具体包括:
(d1)对所有的标签tag,生成U:,d~GP(0,Ku),其中GP表示高斯过程,d从1到D,D表示隐藏特征的个数,Ku是协方差函数,可以用核函数代替;
(d2)对于每个物品item的内容有以下的生成步骤:
a)生成主题比例分布θj~Dirichlet(α),其中Dirichlet表示狄利克雷分布;
b)对于物品item内容wj中的每一个词wjn
i.生成在主题分配上的分布zjn~Mult(θj),其中Mult表示多项式分布,
ii.生成每个词的分布
(d3)对于每个物品item,生成V:,d~GP(θ:,d,Kv),d从1到D;这里给定V一个高斯过程先验,和U一样,不同的是用主题比例分布θ作为其先验均值。
(d4)对每个{标签,物品}对,生成标记信息rij,有其中N表示高斯分布,cij表示confidenceparameter
c i j = a , i f r i j = 1 b , i f r i j = 0
其中,有a和b满足a>b>0。
6.根据权利要求1所述的推荐方法,其特征是步骤e,再根据权利要求5的算法生成过程得到算法的对数似然函数,为了简化计算本发明用Su替换用Sv替换再根据上述的生成过程,得到算法的对数似然函数,如公式(2)所示:
L = - 1 2 Σ d u : , d T S u u : , d - 1 2 Σ d ( v : , d - θ : , d ) T S v ( v : , d - θ : , d ) + Σ j Σ n log ( Σ d θ i d β d , w j n ) - Σ i , j c i j 2 ( r i j - u i T v j ) 2 - - - ( 2 )
通过计算最大后验估计(MAP),分别对item和tag的特征向量求偏导,并对其结果赋值为0。对item和tag的优化,本发明采用梯度上升的方法。由于本发明使用的数据集中不能提取出tag的社会关系信息,为了简化计算,tag的先验分布使用高斯分布替换,它们的特征优化方法如公式(3)所示,其中ui表示标签i特征向量,vj表示物品j的特征向量。对于主题比例分布θ,采用投影梯度算法优化,对于词的主题分布β,采用和LDA一样的优化方法,如公式(4)所示是β特征向量更新方法。
ui←(VCiVTuIK)-1VCiRi
vj←(VCjVT+sjjIK)-1[UCjRjjsjj-∑j′≠jSv(j,j′)(vj′j′)](3)
其中Cj是一个对角矩阵,对角线的元素是{cij,j=1,...,J},Sv(j,j′)是核函数矩阵第j行,第j’列的元素,且j’不等于j,IK是一个单位矩阵。
βdw∝∑jnφjnd1[wjn=w](4)
CN201510410231.4A 2015-07-13 2015-07-13 一种基于核的协同主题回归标签推荐方法 Active CN105045865B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510410231.4A CN105045865B (zh) 2015-07-13 2015-07-13 一种基于核的协同主题回归标签推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510410231.4A CN105045865B (zh) 2015-07-13 2015-07-13 一种基于核的协同主题回归标签推荐方法

Publications (2)

Publication Number Publication Date
CN105045865A true CN105045865A (zh) 2015-11-11
CN105045865B CN105045865B (zh) 2019-04-26

Family

ID=54452412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510410231.4A Active CN105045865B (zh) 2015-07-13 2015-07-13 一种基于核的协同主题回归标签推荐方法

Country Status (1)

Country Link
CN (1) CN105045865B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808786A (zh) * 2016-04-05 2016-07-27 电子科技大学 一种基于内容互信的协同主题回归标签推荐方法
CN106126591A (zh) * 2016-06-16 2016-11-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 音乐数据推荐方法与系统
CN106934056A (zh) * 2017-03-20 2017-07-07 中山大学 一种基于概率图模型的个性化旅游游记推荐方法
CN107133277A (zh) * 2017-04-12 2017-09-05 浙江大学 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN107273337A (zh) * 2017-05-24 2017-10-20 南京师范大学 一种图构建与矩阵分解联合学习的推荐方法
CN107844478A (zh) * 2017-11-20 2018-03-27 山东浪潮云服务信息科技有限公司 一种专利文件的处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853470A (zh) * 2010-05-28 2010-10-06 浙江大学 一种基于社会化标签的协同过滤方法
CN102231166A (zh) * 2011-07-12 2011-11-02 浙江大学 基于社会上下文的协同推荐方法
CN103177093A (zh) * 2013-03-13 2013-06-26 北京开心人信息技术有限公司 一种基于对象标签的通用推荐方法及系统
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐系统及方法
CN103488676A (zh) * 2013-07-12 2014-01-01 上海交通大学 基于社交正则化协同话题回归的标签推荐系统及方法
EP2860672A2 (en) * 2013-10-10 2015-04-15 Deutsche Telekom AG Scalable cross domain recommendation system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853470A (zh) * 2010-05-28 2010-10-06 浙江大学 一种基于社会化标签的协同过滤方法
CN102231166A (zh) * 2011-07-12 2011-11-02 浙江大学 基于社会上下文的协同推荐方法
CN103177093A (zh) * 2013-03-13 2013-06-26 北京开心人信息技术有限公司 一种基于对象标签的通用推荐方法及系统
CN103390032A (zh) * 2013-07-04 2013-11-13 上海交通大学 基于关系型协同话题回归的推荐系统及方法
CN103488676A (zh) * 2013-07-12 2014-01-01 上海交通大学 基于社交正则化协同话题回归的标签推荐系统及方法
EP2860672A2 (en) * 2013-10-10 2015-04-15 Deutsche Telekom AG Scalable cross domain recommendation system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁雪涛: ""基于协同关系主题回归模型的推荐算法研究"", <中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808786A (zh) * 2016-04-05 2016-07-27 电子科技大学 一种基于内容互信的协同主题回归标签推荐方法
CN105808786B (zh) * 2016-04-05 2019-04-26 电子科技大学 一种基于内容互信的协同主题回归标签推荐方法
CN106126591A (zh) * 2016-06-16 2016-11-16 广东顺德中山大学卡内基梅隆大学国际联合研究院 音乐数据推荐方法与系统
CN106126591B (zh) * 2016-06-16 2019-09-20 广东顺德中山大学卡内基梅隆大学国际联合研究院 音乐数据推荐方法与系统
CN106934056A (zh) * 2017-03-20 2017-07-07 中山大学 一种基于概率图模型的个性化旅游游记推荐方法
CN106934056B (zh) * 2017-03-20 2020-11-06 中山大学 一种基于概率图模型的个性化旅游游记推荐方法
CN107133277A (zh) * 2017-04-12 2017-09-05 浙江大学 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN107133277B (zh) * 2017-04-12 2019-09-06 浙江大学 一种基于动态主题模型和矩阵分解的旅游景点推荐方法
CN107273337A (zh) * 2017-05-24 2017-10-20 南京师范大学 一种图构建与矩阵分解联合学习的推荐方法
CN107844478A (zh) * 2017-11-20 2018-03-27 山东浪潮云服务信息科技有限公司 一种专利文件的处理方法及装置
CN107844478B (zh) * 2017-11-20 2020-12-04 浪潮卓数大数据产业发展有限公司 一种专利文件的处理方法及装置

Also Published As

Publication number Publication date
CN105045865B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN105045865A (zh) 一种基于核的协同主题回归标签推荐方法
Ullah et al. From valence to emotions: Exploring the distribution of emotions in online product reviews
CN101681251B (zh) 从文档到排名短语的语义分析
CN103514239B (zh) 一种集成用户行为和物品内容的推荐方法及系统
Mudinas et al. Combining lexicon and learning based approaches for concept-level sentiment analysis
CN105808786A (zh) 一种基于内容互信的协同主题回归标签推荐方法
Kim et al. Twitobi: A recommendation system for twitter using probabilistic modeling
CN104111941B (zh) 信息展示的方法及设备
CN108334592B (zh) 一种基于内容与协同过滤相结合的个性化推荐方法
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN104281645A (zh) 一种基于词汇语义和句法依存的情感关键句识别方法
CN103164463A (zh) 推荐标签的方法和装置
CN107301247B (zh) 建立点击率预估模型的方法及装置、终端、存储介质
CN103838789A (zh) 一种文本相似度计算方法
Niu et al. FUIR: Fusing user and item information to deal with data sparsity by using side information in recommendation systems
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
Gao et al. SeCo-LDA: Mining service co-occurrence topics for recommendation
CN106202053A (zh) 一种社交关系驱动的微博主题情感分析方法
CN107145536A (zh) 用户画像构建方法与装置及推荐方法与装置
CN103365842B (zh) 一种页面浏览推荐方法及装置
CN108363725A (zh) 一种用户评论观点提取和观点标签生成的方法
Galitsky Learning parse structure of paragraphs and its applications in search
CN105843799A (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
CN103150667A (zh) 一种基于本体结构的个性化推荐方法
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant