CN105045865A

CN105045865A - 一种基于核的协同主题回归标签推荐方法

Info

Publication number: CN105045865A
Application number: CN201510410231.4A
Authority: CN
Inventors: 程红蓉; 郭彦伟; 唐明霜; 张锋; 蔡腾远
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-11-11
Anticipated expiration: 2035-07-13
Also published as: CN105045865B

Abstract

本发明涉及到一种新的面向物品的标签推荐混合方法。本发明将行为信息、文本信息以及社会关系信息整合到一个模型中。本发明将矩阵分解技术、主题模型还有核函数的方法有机结合组成混合模型。将上述三种信息集中处理，不仅可以有效的解决冷启动问题，同时保留了推荐目标之间实际存在的社会关系，而不是像传统协同过滤方法把推荐目标看做是相互独立的个体。通过实验，本发明得到了较传统协同过滤推荐方法更高的推荐精度。

Description

一种基于核的协同主题回归标签推荐方法

技术领域

本发明是一种基于核的矩阵分解和主题模型相结合的混合方法做标签推荐的实现方法。

背景技术

标签以及标签系统，作为web2.0时代的一种重要标志，是很多网站的必要组成部分。标签系统的鼻祖Delicious，音乐网站Last.fm和电影评论网站豆瓣等，都是标签系统的代表性网站。在这些网站中，标签作为一种重要的特征(featrue)表现，联系着用户和物品，反映着它们之间的喜好关系。同时当用户浏览某个物品时，用户需要被提供高质量的标签来帮助了解该物品，同时标签系统也非常希望用户能够打给这个物品高质量的标签，这样才能促进标签系统的良性循环。因此，标签推荐应运而生，在很多标签系统中都有提供给用户标签推荐。同时，标签推荐也作为近些年的研究热点，受到各个领域的关注。

标签推荐帮助用户节省了输入标签的时间，提高了用户的参与度。同时，在使用标签推荐时，可以规范标签的书写，减少标签的规模，提高标签的质量。一个网站有了高质量的标签，同时也反馈给了用户高质量的体验。

标签推荐中存在着{物品，标签}行为信息、物品的文本信息以及其他一些信息。如何合理的利用这些信息是传统协同过滤标签推荐中面临的一个挑战。针对上述问题，本发明有效地将行为信息、文本信息还有社会关系信息整合到一个模型中训练。同时，冷启动问题作为传统协同过滤算法的研究的重点也是标签推荐中面临的一大挑战，本发明将文本信息经过主题模型LDA(LatentDirichletAllocation)训练出来的主题分布作为物品的特征向量，有效的解决了冷启动问题。

发明内容

本发明的目的是提供基于核的矩阵分解和主题模型组成的混合模型做面向物品的标签推荐的实现方法。传统的标签推荐方法将物品之间看做是相互独立的，忽略了它们之间存在社会关系的事实。物品之间存在主题或者语义上的相似性，而这种相似性通常通过社会关系表现出来。通过引入核函数，本发明可以有效的表现出物品之间存在的社会关系，而这种表现体现在算法训练过程中物品的特征会受到处于同一社会关系的其他物品的特征的影响。使用本发明提供的方法，可以应用标签系统中，提供标签推荐的服务或者提高标签推荐的质量。

本发明提出的推荐方法是将矩阵分解、主题模型还有核方法结合到一起的混合方法。该混合方法将{物品，标签}行为矩阵、物品的文本信息(主要包括摘要信息和标题信息)还有社会关系信息有机的整合到一个模型中。为了方便使用这些信息，本发明需要做一些初始工作：首先，使用LDA对文本数据进行处理，得到物品和主题的关系矩阵，并将其作为物品的初始化的特征向量信息添加到模型中。其次，将物品间的社会关系信息，组成一个拉普拉斯矩阵L＝D-W。其中W表示物品间社会关系的无向图，如果W_ij＝1，表示物品i和物品j之间存在联系，反之W_ij＝0。D是对角矩阵，对角线的元素满足D_ii＝∑_jW_ij。在L两边同时乘以最终得到了正则化的拉普拉斯矩阵然后定义核函数，核函数的如公式(1)所示：

K = {(I + γ \hat{L})}^{- 1} - - - (1)

上式是正则化的拉普拉斯核函数，其中I是单位矩阵，γ是核函数的参数。为了将核函数以及主题模型应用到矩阵分解模型中，本发明引入概率矩阵分解，同时将它的先验分布从高斯分布替换为高斯过程，将主题模型得到的物品和主题关系矩阵作为物品的先验均值，将正则化拉普拉斯核函数作为其协方差函数。这样就组成了基于核的混合模型，同时也把三种信息整合起来做推荐。

该算法的生成过程如下：

1.对所有的标签tag，生成U_:,d～GP(0,K_u)，其中GP表示高斯过程，d从1到D，D表示隐藏特征的个数，K_u是协方差函数，可以用核函数代替；

2.对于每个物品item的内容有以下的生成步骤：

1)生成主题比例分布θ_j～Dirichlet(α)，其中Dirichlet表示狄利克雷分布；

2)对于物品item内容w_j中的每一个词w_jn，

i.生成在主题分配上的分布z_jn～Mult(θ_j)，其中Mult表示多项式分布，

ii.生成每个词的分布w_jn～Mult；

3.对于每个物品item，生成V_:,d～GP(θ_:,d,K_v)，d从1到D；

4.对每个标签物品对，生成标记信息r_ij，有其中的N表示高斯分，c_ij表示confidenceparameter

c_{i j} = \{\begin{matrix} a, & i f & r_{i j} = 1 \\ b, & i f & r_{i j} = 0 \end{matrix}

其中，有a和b满足a>b>0。

为了简化计算本发明用S_u替换用S_v替换再根据上述的生成过程，得到算法的对数似然函数，如公式(2)所示：

L = - \frac{1}{2} Σ_{d} u_{:, d}^{T} S_{u} u_{:, d} - \frac{1}{2} Σ_{d} {(v_{:, d} - θ_{:, d})}^{T} S_{v} (v_{:, d} - θ_{:, d})

+ Σ_{j} Σ_{n} l o g (Σ_{d} θ_{j d} β_{d, w_{j n}}) - Σ_{i, j} \frac{c_{i j}}{2} {(r_{i j} - u_{i}^{T} v_{j})}^{2} - - - (2)

通过计算最大后验估计(MAP)，分别对item和tag的特征向量求偏导，并对其结果赋值为0。对item和tag的优化，本发明采用梯度上升方法，由于本发明使用的数据集中不能提取出tag的社会关系信息，为了简化计算，tag的先验分布使用高斯分布替换，它们的特征优化方法如公式(3)所示，其中u_i表示标签i特征向量，v_j表示物品j的特征向量。对于主题比例分布θ采用投影梯度算法进行优化，对于词的主题分布β，采用和LDA一样的方法进行优化，如公式(4)所示是其特征优化方法。

u_i←(VC_iV^T+λ_uI_K)^-1VC_iR_i

v_j←(VC_jV^T+s_jjI_K)^-1[UC_jR_j+θ_js_jj-∑_j′≠jS_v(j,j′)(v_j′-θ_j′)](3)

其中C_j是一个对角矩阵，对角线的元素是{c_ij,j＝1,…,J}。S_v(j,j′)是核函数矩阵第j行，第j’列的元素，且j’不等于j。I_K是一个单位矩阵。

β_dw∝∑_j∑_nφ_jnd1[w_jn＝w](4)

附图说明

图1是本发明的概率模型图；

图2是本发明在数据集上和传统协同过滤测试结果召回率的对比；

图3是本发明在数据集上和传统协同过滤测试结果成功率的对比。

具体实施方式

下面使用具体的数据集还有附图对本算法的具体实施方式进行描述，便于本领域的技术人员更好地理解。

1.数据集描述

数据集是一个公开的数据集，采集自CiteULike上，其中包括5551个用户，16980篇论文，46391个标签，44709个论文的引用关系以及204987个{用户，论文}对，其中每篇论文还包括其标题，摘要等内容信息。

2.数据预处理

数据的预处理包括数据去噪、文本信息处理以及构建核函数三部分。

1)数据去噪

将数据集中使用次数少于5次的标签移除，最终得到7386个标签。

2)文本信息处理

对于论文的内容，经过去停用词后，根据TF-IDF(termfrequency–inversedocumentfrequency)的值从大到小排列，选取前8000个词，组成词汇表，并对其编号。根据词汇表统计每篇论文的词频，组成文本向量，最后的文本处理成主题模型训练通用的格式。例如“101:5980:1…..”这表示的是向量化的文本信息某一行的格式，“10”表示该行的文本向量的总长度，也可以理解为该行表示的文本中包括多少个词汇，对于“1:5”表示的是编号为“1”的词出现了“5”次，其中“1”表示词汇编号，“5”表示的是该词出现的次数，即词频。

3)构建核函数

数据集中还包括用户—物品信息，这部分数据表明了用户对物品的收藏行为，这是CiteULike网站提供的一种服务，同时也间接为物品提供了socialnetworks(社会网络)的关系。如果两个物品之间有4个及以上的相同用户，那么表示它们之间有一种social(社会)关系，使用“1”表示存在这种关系，反之则用“0”表示。通过使用“1”和“0”这样的表示，本发明可以在物品之间构建一种无向图，其中无向图的顶点表示物品，边表示物品之间存在联系。使用拉普拉斯矩阵进一步表示出这种无向图，有了拉普拉斯矩阵，进而构建出拉普拉斯核函数。

3.模型训练

对每个标签选取P篇论文组成训练集，这里P选5，其余的数据组成测试集。对于训练集，我们分成5份，选取其中的4份做训练集，1份做测试集进行5这交叉验证。通过交叉验证我们确定了模型参数，选择综合性能最好的参数在测试集上进行预测，分别得到5组预测指标，将这5组预测的结果取平均作为算法的预测结果。

4.评价指标

评测推荐算法的精度通常使用召回率来度量，召回率越大，准确性就越高，同时推荐质量也就越高，召回率的计算公式为：

由于当用户标记论文时，用户不知道这些标签的存在或者不愿意使用已存在标签，因此准确率不能应用到标签推荐上来。successL可以作为另外一个指标来衡量算法的性能，它被定义为对某篇论文推荐的前L个标签中发现一个真实存在标签的概率。当对某篇论文推荐L个标签中也一个是正确的结果，那么successL的值为1，反之为0。successL的公式表示为：

最后本发明统计所有item的recallL和successL分别取平均值作为模型最后的预测结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定的思想和确定的范围内，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于核的协同主题回归标签推荐方法，包括数据预处理、推荐方法的过程设计以及推荐方法的实现。具体操作步骤如下：

步骤a.对初始的数据去噪；

步骤b.将物品的文本信息进行向量化处理；

步骤c.从数据中提取物品的社会关系，并构建核函数；

步骤d.根据获取的数据信息，设计算法过程；

步骤e.根据算法设计过程，得出算法的更新规则。

2.根据权利要求1所述的推荐方法，其特征是步骤a，具体包括：将数据集中使用次数少于5次的标签移除，重新构建物品-标签关系矩阵。

3.根据权利要求1所述的推荐方法，其特征是步骤b，具体包括：

(b1)提取标题和摘要信息构建物品的文本信息；

(b2)经过去停用词后，计算TF-IDF，根据TF-IDF值取前N项组成词汇表，并对其进行编号；

(b3)得到词汇表后，统计每个物品的文本信息，组成一个文本向量，其中每一行的行号对应于物品的编号，每行的内容是物品向量化的文本信息，其中的每一项表示成“词编号：词频”的形式；

(b4)使用主题模型LDA对向量化的内容信息进行训练，最终得到了物品和主题的对应关系矩阵以及词和主题的对应关系矩阵。

4.根据权利要求1所述的推荐方法，其特征是步骤c，具体包括：在数据集中，本发明将用户对物品的收藏关系当做一种社会关系，如果两个物品之间有5个或5个以上的用户对其进行了收藏，那么这两个物品之间存在社会关系。通过使用1或0表示这种存在或不存在的关系，最后构建出了一个表示物品间关系的无向图。最后使用正则化的拉普拉斯核表示该无向图，核函数公式如(1)所示：

K = {(I + γ \hat{L})}^{- 1} - - - (1)

5.根据权利要求1所述的推荐方法，其特征是步骤d，具体包括：

(d1)对所有的标签tag，生成U_：，d～GP(0，K_u)，其中GP表示高斯过程，d从1到D，D表示隐藏特征的个数，K_u是协方差函数，可以用核函数代替；

(d2)对于每个物品item的内容有以下的生成步骤：

a)生成主题比例分布θ_j～Dirichlet(α)，其中Dirichlet表示狄利克雷分布；

b)对于物品item内容w_j中的每一个词w_jn，

ii.生成每个词的分布

(d3)对于每个物品item，生成V_：，d～GP(θ_：，d，K_v)，d从1到D；这里给定V一个高斯过程先验，和U一样，不同的是用主题比例分布θ作为其先验均值。

(d4)对每个{标签，物品}对，生成标记信息r_ij，有其中N表示高斯分布，c_ij表示confidenceparameter

c_{i j} = \{\begin{matrix} a, & i f & r_{i j} = 1 \\ b, & i f & r_{i j} = 0 \end{matrix}

其中，有a和b满足a＞b＞0。

6.根据权利要求1所述的推荐方法，其特征是步骤e，再根据权利要求5的算法生成过程得到算法的对数似然函数，为了简化计算本发明用S_u替换用S_v替换再根据上述的生成过程，得到算法的对数似然函数，如公式(2)所示：

\begin{matrix} L = - \frac{1}{2} Σ_{d} u_{:, d}^{T} S_{u} u_{:, d} - \frac{1}{2} Σ_{d} {(v_{:, d} - θ_{:, d})}^{T} S_{v} (v_{:, d} - θ_{:, d}) \\ + Σ_{j} Σ_{n} \log (Σ_{d} θ_{i d} β_{d, w_{j n}}) - Σ_{i, j} \frac{c_{i j}}{2} {(r_{i j} - u_{i}^{T} v_{j})}^{2} \end{matrix} - - - (2)

通过计算最大后验估计(MAP)，分别对item和tag的特征向量求偏导，并对其结果赋值为0。对item和tag的优化，本发明采用梯度上升的方法。由于本发明使用的数据集中不能提取出tag的社会关系信息，为了简化计算，tag的先验分布使用高斯分布替换，它们的特征优化方法如公式(3)所示，其中u_i表示标签i特征向量，v_j表示物品j的特征向量。对于主题比例分布θ，采用投影梯度算法优化，对于词的主题分布β，采用和LDA一样的优化方法，如公式(4)所示是β特征向量更新方法。

u_i←(VC_iV^T+λ_uI_K)^-1VC_iR_i

v_j←(VC_jV^T+s_jjI_K)^-1[UC_jR_j+θ_js_jj-∑_j′≠jS_v(j，j′)(v_j′-θ_j′)](3)

其中C_j是一个对角矩阵，对角线的元素是{c_ij，j＝1，...，J}，S_v(j，j′)是核函数矩阵第j行，第j’列的元素，且j’不等于j，I_K是一个单位矩阵。

β_dw∝∑_j∑_nφ_jnd1[w_jn＝w](4)