CN105045865B - 一种基于核的协同主题回归标签推荐方法 - Google Patents
一种基于核的协同主题回归标签推荐方法 Download PDFInfo
- Publication number
- CN105045865B CN105045865B CN201510410231.4A CN201510410231A CN105045865B CN 105045865 B CN105045865 B CN 105045865B CN 201510410231 A CN201510410231 A CN 201510410231A CN 105045865 B CN105045865 B CN 105045865B
- Authority
- CN
- China
- Prior art keywords
- article
- theme
- label
- information
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及到一种新的面向物品的标签推荐混合方法。本发明将行为信息、文本信息以及社会关系信息整合到一个模型中。本发明将矩阵分解技术、主题模型还有核函数的方法有机结合组成混合模型。将上述三种信息集中处理,不仅可以有效的解决冷启动问题,同时保留了推荐目标之间实际存在的社会关系,而不是像传统协同过滤方法把推荐目标看做是相互独立的个体。通过实验,本发明得到了较传统协同过滤推荐方法更高的推荐精度。
Description
技术领域
本发明是一种基于核的矩阵分解和主题模型相结合的混合方法做标签推荐的实现方法。
背景技术
标签以及标签系统,作为web2.0时代的一种重要标志,是很多网站的必要组成部分。标签系统的鼻祖Delicious,音乐网站Last.fm和电影评论网站豆瓣等,都是标签系统的代表性网站。在这些网站中,标签作为一种重要的特征(featrue)表现,联系着用户和物品,反映着它们之间的喜好关系。同时当用户浏览某个物品时,用户需要被提供高质量的标签来帮助了解该物品,同时标签系统也非常希望用户能够打给这个物品高质量的标签,这样才能促进标签系统的良性循环。因此,标签推荐应运而生,在很多标签系统中都有提供给用户标签推荐。同时,标签推荐也作为近些年的研究热点,受到各个领域的关注。
标签推荐帮助用户节省了输入标签的时间,提高了用户的参与度。同时,在使用标签推荐时,可以规范标签的书写,减少标签的规模,提高标签的质量。一个网站有了高质量的标签,同时也反馈给了用户高质量的体验。
标签推荐中存在着{物品,标签}行为信息、物品的文本信息以及其他一些信息。如何合理的利用这些信息是传统协同过滤标签推荐中面临的一个挑战。针对上述问题,本发明有效地将行为信息、文本信息还有社会关系信息整合到一个模型中训练。同时,冷启动问题作为传统协同过滤算法的研究的重点也是标签推荐中面临的一大挑战,本发明将文本信息经过主题模型LDA(Latent Dirichlet Allocation)训练出来的主题分布作为物品的特征向量,有效的解决了冷启动问题。
发明内容
本发明的目的是提供基于核的矩阵分解和主题模型组成的混合模型做面向物品的标签推荐的实现方法。传统的标签推荐方法将物品之间看做是相互独立的,忽略了它们之间存在社会关系的事实。物品之间存在主题或者语义上的相似性,而这种相似性通常通过社会关系表现出来。通过引入核函数,本发明可以有效的表现出物品之间存在的社会关系,而这种表现体现在算法训练过程中物品的特征会受到处于同一社会关系的其他物品的特征的影响。使用本发明提供的方法,可以应用标签系统中,提供标签推荐的服务或者提高标签推荐的质量。
本发明提出的推荐方法是将矩阵分解、主题模型还有核方法结合到一起的混合方法。该混合方法将{物品,标签}行为矩阵、物品的文本信息(主要包括摘要信息和标题信息)还有社会关系信息有机的整合到一个模型中。为了方便使用这些信息,本发明需要做一些初始工作:首先,使用LDA对文本数据进行处理,得到物品和主题的关系矩阵,并将其作为物品的初始化的特征向量信息添加到模型中。其次,将物品间的社会关系信息,组成一个拉普拉斯矩阵L=D-W。其中W表示物品间社会关系的无向图,如果Wij=1,表示物品i和物品j之间存在联系,反之Wij=0。D是对角矩阵,对角线的元素满足Dii=∑jWij。在L两边同时乘以最终得到了正则化的拉普拉斯矩阵然后定义核函数,核函数的如公式(1)所示:
上式是正则化的拉普拉斯核函数,其中I是单位矩阵,γ是核函数的参数。为了将核函数以及主题模型应用到矩阵分解模型中,本发明引入概率矩阵分解,同时将它的先验分布从高斯分布替换为高斯过程,将主题模型得到的物品和主题关系矩阵作为物品的先验均值,将正则化拉普拉斯核函数作为其协方差函数。这样就组成了基于核的混合模型,同时也把三种信息整合起来做推荐。
该算法的生成过程如下:
1.对所有的标签tag,生成U:,d~GP(0,Ku),其中GP表示高斯过程,d从1到D,D表示隐藏特征的个数,Ku是协方差函数,可以用核函数代替;
2.对于每个物品item的内容有以下的生成步骤:
1)生成主题比例分布θj~Dirichlet(α),其中Dirichlet表示狄利克雷分布;
2)对于物品item内容wj中的每一个词wjn,
i.生成在主题分配上的分布zjn~Mult(θj),其中Mult表示多项式分布,
ii.生成每个词的分布wjn~Mult;
3.对于每个物品item,生成V:,d~GP(θ:,d,Kv),d从1到D;
4.对每个标签物品对,生成标记信息rij,有其中的N表示高斯分,cij表示confidence parameter
其中,有a和b满足a>b>0。
为了简化计算本发明用Su替换用Sv替换再根据上述的生成过程,得到算法的对数似然函数,如公式(2)所示:
通过计算最大后验估计(MAP),分别对item和tag的特征向量求偏导,并对其结果赋值为0。对item和tag的优化,本发明采用梯度上升方法,由于本发明使用的数据集中不能提取出tag的社会关系信息,为了简化计算,tag的先验分布使用高斯分布替换,它们的特征优化方法如公式(3)所示,其中ui表示标签i特征向量,vj表示物品j的特征向量。对于主题比例分布θ采用投影梯度算法进行优化,对于词的主题分布β,采用和LDA一样的方法进行优化,如公式(4)所示是其特征优化方法。
ui←(VCiVT+λuIK)-1VCiRi
vj←(VCjVT+sjjIK)-1[UCjRj+θjsjj-∑j′≠jSv(j,j′)(vj′-θj′)] (3)
其中Cj是一个对角矩阵,对角线的元素是{cij,j=1,…,J}。Sv(j,j′)是核函数矩阵第j行,第j’列的元素,且j’不等于j。IK是一个单位矩阵。
βdw∝∑j∑nφjnd1[wjn=w] (4)
附图说明
图1是本发明的概率模型图;
图2是本发明在数据集上和传统协同过滤测试结果召回率的对比;
图3是本发明在数据集上和传统协同过滤测试结果成功率的对比。
具体实施方式
下面使用具体的数据集还有附图对本算法的具体实施方式进行描述,便于本领域的技术人员更好地理解。
1.数据集描述
数据集是一个公开的数据集,采集自CiteULike上,其中包括5551个用户,16980篇论文,46391个标签,44709个论文的引用关系以及204987个{用户,论文}对,其中每篇论文还包括其标题,摘要等内容信息。
2.数据预处理
数据的预处理包括数据去噪、文本信息处理以及构建核函数三部分。
1)数据去噪
将数据集中使用次数少于5次的标签移除,最终得到7386个标签。
2)文本信息处理
对于论文的内容,经过去停用词后,根据TF-IDF(term frequency–inversedocument frequency)的值从大到小排列,选取前8000个词,组成词汇表,并对其编号。根据词汇表统计每篇论文的词频,组成文本向量,最后的文本处理成主题模型训练通用的格式。例如“101:5980:1…..”这表示的是向量化的文本信息某一行的格式,“10”表示该行的文本向量的总长度,也可以理解为该行表示的文本中包括多少个词汇,对于“1:5”表示的是编号为“1”的词出现了“5”次,其中“1”表示词汇编号,“5”表示的是该词出现的次数,即词频。
3)构建核函数
数据集中还包括用户—物品信息,这部分数据表明了用户对物品的收藏行为,这是CiteULike网站提供的一种服务,同时也间接为物品提供了social networks(社会网络)的关系。如果两个物品之间有4个及以上的相同用户,那么表示它们之间有一种social(社会)关系,使用“1”表示存在这种关系,反之则用“0”表示。通过使用“1”和“0”这样的表示,本发明可以在物品之间构建一种无向图,其中无向图的顶点表示物品,边表示物品之间存在联系。使用拉普拉斯矩阵进一步表示出这种无向图,有了拉普拉斯矩阵,进而构建出拉普拉斯核函数。
3.模型训练
对每个标签选取P篇论文组成训练集,这里P选5,其余的数据组成测试集。对于训练集,我们分成5份,选取其中的4份做训练集,1份做测试集进行5这交叉验证。通过交叉验证我们确定了模型参数,选择综合性能最好的参数在测试集上进行预测,分别得到5组预测指标,将这5组预测的结果取平均作为算法的预测结果。
4.评价指标
评测推荐算法的精度通常使用召回率来度量,召回率越大,准确性就越高,同时推荐质量也就越高,召回率的计算公式为:
由于当用户标记论文时,用户不知道这些标签的存在或者不愿意使用已存在标签,因此准确率不能应用到标签推荐上来。success@L可以作为另外一个指标来衡量算法的性能,它被定义为对某篇论文推荐的前L个标签中发现一个真实存在标签的概率。当对某篇论文推荐L个标签中也一个是正确的结果,那么success@L的值为1,反之为0。success@L的公式表示为:
最后本发明统计所有item的recall@L和success@L分别取平均值作为模型最后的预测结果。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发明构思的发明创造均在保护之列。
Claims (5)
1.一种基于核的协同主题回归标签推荐方法,包括数据预处理、推荐方法的过程设计以及推荐方法的实现,具体操作步骤如下:
步骤一,对初始的数据去噪;
步骤二,将物品的文本信息进行向量化处理;
步骤三,从数据中提取物品的社会关系,并构建核函数;
步骤四,根据获取的数据信息,设计算法过程;具体包括:
(1)对所有的标签tag,生成U:,d~GP(0,Ku),其中GP表示高斯过程,d从1到M,M表示隐藏特征的个数,Ku是协方差函数,用核函数代替;
(2)对于每个物品item的内容有以下的生成步骤:
a)生成主题比例分布θj~Dirichlet(α),其中Dirichlet表示狄利克雷分布;
b)对于物品item内容wj中的每一个词wjn,
i.生成在主题分配上的分布zjn~Mult(θj),其中Mult表示多项式分布,
ii.生成每个词的分布
(3)对于每个物品item,生成V:,d~GP(θ:,d,Kv),d从1到M;这里给定V一个高斯过程先验,和U一样,不同的是用主题比例分布θ作为其先验均值;
(4)对每个{标签,物品}对,生成标记信息rij,有 其中N表示高斯分布,cij表示confidence parameter
其中,有a和b满足a>b>0;
步骤五,根据算法设计过程,得出算法的更新规则。
2.根据权利要求1所述的推荐方法,其特征是步骤一,具体包括将数据集中使用次数少于5次的标签移除,重新构建物品-标签关系矩阵。
3.根据权利要求1所述的推荐方法,其特征是步骤二,具体包括:
(1)提取标题和摘要信息构建物品的文本信息;
(2)经过去停用词后,计算TF-IDF,根据TF-IDF值取前N项组成词汇表,并对其进行编号;
(3)得到词汇表后,统计每个物品的文本信息,组成一个文本向量,其中每一行的行号对应于物品的编号,每行是物品向量化的内容信息,其中的每一项表示成“词编号,词频”的形式;
(4)使用主题模型LDA对该信息进行训练,最终得到了物品和主题的对应关系矩阵以及词和主题的对应关系矩阵。
4.根据权利要求1所述的推荐方法,其特征是步骤三,具体包括在数据集中,将用户对物品的收藏关系当做一种社会关系,如果两个物品之间有5个或5个以上的用户对其进行了收藏,那么这两个物品之间存在社会关系,通过使用1或0表示这种存在或不存在的关系,最后构建出了一个表示物品间关系的无向图,最后使用正则化的拉普拉斯核表示该无向图,核函数公式如(1)所示:
其中,K表示核函数、I表示单位矩阵、γ表示核函数参数、L代表拉普拉斯矩阵。
5.根据权利要求1所述的推荐方法,其特征是步骤五,再根据权利要求1得到算法的对数似然函数,为了简化计算,用Su替换用Sv替换再根据权利要求1的生成过程,得到算法的对数似然函数,如公式(2)所示:
通过计算最大后验估计(MAP),分别对item和tag的特征向量求偏导,并对其结果赋值为0,对item和tag的优化采用梯度上升,由于使用的数据集中不能提取出tag的社会关系信息,为了简化计算,tag的先验分布使用高斯分布替换,它们的特征优化方法如公式(3)所示,其中ui表示标签i特征向量,vj表示物品j的特征向量,对于主题比例分布θ采用投影梯度算法,对于词主题分布β采用和LDA一样的方法,如公式(4)所示是其特征优化方法,
ui←(VCiVT+λuIK)-1VCiRi
vj←(VCjVT+sjjIK)-1[UCjRj+θjsjj-∑j′≠jSv(j,j′)(vj′-θj′)] (3)
其中Cj是一个对角矩阵,对角线的元素是{cij,j=1,…,J},Sv(j,j′)是核函数矩阵第j行,第j’列的元素,且j’不等于j,IK是一个单位矩阵;
βdw∝∑j∑nφjnd1[wjn=w] (4) 。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510410231.4A CN105045865B (zh) | 2015-07-13 | 2015-07-13 | 一种基于核的协同主题回归标签推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510410231.4A CN105045865B (zh) | 2015-07-13 | 2015-07-13 | 一种基于核的协同主题回归标签推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105045865A CN105045865A (zh) | 2015-11-11 |
CN105045865B true CN105045865B (zh) | 2019-04-26 |
Family
ID=54452412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510410231.4A Active CN105045865B (zh) | 2015-07-13 | 2015-07-13 | 一种基于核的协同主题回归标签推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105045865B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808786B (zh) * | 2016-04-05 | 2019-04-26 | 电子科技大学 | 一种基于内容互信的协同主题回归标签推荐方法 |
CN106126591B (zh) * | 2016-06-16 | 2019-09-20 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 音乐数据推荐方法与系统 |
CN106934056B (zh) * | 2017-03-20 | 2020-11-06 | 中山大学 | 一种基于概率图模型的个性化旅游游记推荐方法 |
CN107133277B (zh) * | 2017-04-12 | 2019-09-06 | 浙江大学 | 一种基于动态主题模型和矩阵分解的旅游景点推荐方法 |
CN107273337A (zh) * | 2017-05-24 | 2017-10-20 | 南京师范大学 | 一种图构建与矩阵分解联合学习的推荐方法 |
CN107844478B (zh) * | 2017-11-20 | 2020-12-04 | 浪潮卓数大数据产业发展有限公司 | 一种专利文件的处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853470A (zh) * | 2010-05-28 | 2010-10-06 | 浙江大学 | 一种基于社会化标签的协同过滤方法 |
CN102231166A (zh) * | 2011-07-12 | 2011-11-02 | 浙江大学 | 基于社会上下文的协同推荐方法 |
CN103177093A (zh) * | 2013-03-13 | 2013-06-26 | 北京开心人信息技术有限公司 | 一种基于对象标签的通用推荐方法及系统 |
CN103390032A (zh) * | 2013-07-04 | 2013-11-13 | 上海交通大学 | 基于关系型协同话题回归的推荐系统及方法 |
CN103488676A (zh) * | 2013-07-12 | 2014-01-01 | 上海交通大学 | 基于社交正则化协同话题回归的标签推荐系统及方法 |
EP2860672A2 (en) * | 2013-10-10 | 2015-04-15 | Deutsche Telekom AG | Scalable cross domain recommendation system |
-
2015
- 2015-07-13 CN CN201510410231.4A patent/CN105045865B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101853470A (zh) * | 2010-05-28 | 2010-10-06 | 浙江大学 | 一种基于社会化标签的协同过滤方法 |
CN102231166A (zh) * | 2011-07-12 | 2011-11-02 | 浙江大学 | 基于社会上下文的协同推荐方法 |
CN103177093A (zh) * | 2013-03-13 | 2013-06-26 | 北京开心人信息技术有限公司 | 一种基于对象标签的通用推荐方法及系统 |
CN103390032A (zh) * | 2013-07-04 | 2013-11-13 | 上海交通大学 | 基于关系型协同话题回归的推荐系统及方法 |
CN103488676A (zh) * | 2013-07-12 | 2014-01-01 | 上海交通大学 | 基于社交正则化协同话题回归的标签推荐系统及方法 |
EP2860672A2 (en) * | 2013-10-10 | 2015-04-15 | Deutsche Telekom AG | Scalable cross domain recommendation system |
Non-Patent Citations (1)
Title |
---|
"基于协同关系主题回归模型的推荐算法研究";丁雪涛;<中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20140715(第07期);I138-945 |
Also Published As
Publication number | Publication date |
---|---|
CN105045865A (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105045865B (zh) | 一种基于核的协同主题回归标签推荐方法 | |
CN105808786B (zh) | 一种基于内容互信的协同主题回归标签推荐方法 | |
Kim et al. | TWILITE: A recommendation system for Twitter using a probabilistic model based on latent Dirichlet allocation | |
Baral et al. | Reel: Review aware explanation of location recommendation | |
CN108763362A (zh) | 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法 | |
CN108363804A (zh) | 基于用户聚类的局部模型加权融合Top-N电影推荐方法 | |
CN104778186B (zh) | 将商品对象挂载到标准产品单元的方法及系统 | |
Chakraborty et al. | Predicting fashion trend using runway images: application of logistic regression in trend forecasting | |
CN109242537A (zh) | 广告投放方法、装置、计算机设备及存储介质 | |
CN105138508A (zh) | 一种基于偏好扩散的上下文推荐系统 | |
Chen et al. | Dynamic evolutionary clustering approach based on time weight and latent attributes for collaborative filtering recommendation | |
Tariq et al. | Exploiting topical perceptions over multi-lingual text for hashtag suggestion on twitter | |
CN109410001A (zh) | 一种商品推荐方法、系统、电子设备和存储介质 | |
Wang et al. | A novel data-driven weighted sentiment analysis based on information entropy for perceived satisfaction | |
Xiao et al. | Coupled matrix factorization and topic modeling for aspect mining | |
CN105869058B (zh) | 一种多层潜变量模型用户画像提取的方法 | |
Alkhodair et al. | Improving interpretations of topic modeling in microblogs | |
Tayal et al. | Personalized ranking of products using aspect-based sentiment analysis and Plithogenic sets | |
EP2613275B1 (en) | Search device, search method, search program, and computer-readable memory medium for recording search program | |
Nimala et al. | A robust user sentiment biterm topic mixture model based on user aggregation strategy to avoid data sparsity for short text | |
Wang et al. | The multi-tag semantic correlation used for micro-blog user interest modeling | |
Luo et al. | QPLSA: Utilizing quad-tuples for aspect identification and rating | |
CN107704632A (zh) | 基于同义词和反义词的中文标签推荐修正方法 | |
CN112148994A (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN116842478A (zh) | 一种基于推特内容的用户属性预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |