CN105808786A

CN105808786A - 一种基于内容互信的协同主题回归标签推荐方法

Info

Publication number: CN105808786A
Application number: CN201610205961.5A
Authority: CN
Inventors: 程红蓉; 郭彦伟; 蔡腾远; 唐明霜; 张盼
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-04-05
Filing date: 2016-04-05
Publication date: 2016-07-27
Anticipated expiration: 2036-04-05
Also published as: CN105808786B

Abstract

本发明是一种面向物品的基于信任内容互相传播的标签推荐混合方法。本发明将普遍存在于用户间的社交关系以及在该关系网络中传播的信任机制应用到物品之间，结合物品的内容信息，使用主题模型，矩阵分解技术提出了一种基于内容互信的协同主题回归的混合模型。不同于传统的协同过滤方法将推荐目标看做相互独立的个体，该混合模型不仅可以将多种数据信息统一到一个模型中集中处理，还可以通过主题之间的相互作用，表现出物品之间存在的关系。通过实验，本发明得到了较传统协同过滤推荐方法更高的推荐精度。

Description

一种基于内容互信的协同主题回归标签推荐方法

技术领域

本发明是一种基于内容互信的矩阵分解和主题模型相结合的标签推荐实现方法。

背景技术

在web2.0时代，标签以及标签系统作为一种重要标志，是很多网站的必要组成部分。以Delicious、音乐网站Last.fm和电影评论网站豆瓣等为例，它们都是应用标签系统的代表性网站。在这些网站中，标签作为用户描述物品的简单词句，其词汇简短、语义明了，反映着用户对物品的喜好关系。当其他用户在浏览用标签标记的物品时，高质量的标签辅助用户了解该物品，帮助用户快速获取信息，进而提升用户对网站的依赖度。反过来，网站也希望其标签系统可以从用户那里持续的获取高质量的标签，这样才能促进标签系统的良性循环。在这样的一种环境下，标签推荐应运而生，很多提供标签系统的网站都有提供标签推荐服务。同时，标签推荐也作为近些年的研究热点，受到各个领域的关注。

标签推荐帮助用户节省了输入标签的时间，提高了用户的参与度，同时，可以规范标签的书写、减少标签的规模，提高标签的质量。有了高质量的标签，网站又可以提供给用户更好的使用体验。

传统推荐算法存在一种面向用户的基于信任传播机制的协同过滤方法。在标签推荐中，可以将这种信任传播机制应用到物品之间，用于表示物品之间内容或者主题上的信任关系。例如：在学术论文之间普遍存在引用关系，引入信任传播机制后，物品在内容方面的特征，会受到引文的影响，基于引文间的内容信任关系，使论文在某些特征上与引文趋于相似，进而可以推荐得到特定特征上相似的标签。本发明将用户之间在社交网络中表现的信任引入到了物品之间的内容互信上，设计了新的模型，同时，将文本信息经过主题模型LDA(LatentDirichletAllocation)训练出来的主题分布作为物品的特征向量，有效的解决了冷启动问题。

发明内容

本发明的目的是提供一种面向物品的标签推荐实现方法，该方法基于内容互信机制，是一种由矩阵分解和主题模型组成的混合模型。传统的标签推荐不仅将物品看做是独立存在的个体，而且忽略了物品之间互信参考、内容互信的关系，这样的关系表现的是物品之间存在的主题或者语义上的相似性。通过引入信任传播机制，本发明可以有效的表现出物品之间存在的某种信任关系，即特征向量表示的物品，通过特征向量之间的计算反映出物品之间在这种关系网络下相互影响，促进了物品之间互信内容的互相传播，进而优化整个算法推荐性能。本发明提供的方法可以应用到标签系统中，提供标签推荐服务或者是提高标签推荐质量。

本发明提出的推荐方法是将基于内容互信的矩阵分解、主题模型结合到一起的混合方法。将传统的基于用户信任的协同过滤的方法，引入到标签推荐领域当中，同时，将这种信任机制和主题模型有机结合，提出基于内容互信的模型。为了方便使用这些信息，本发明需要做一些初始工作：首先，使用LDA对文本数据进行处理，得到物品和主题的关系矩阵，并将其作为物品的初始化的特征向量信息添加到模型中。其次，通过抽取物品间的社交关系，构建信任网络。在信任网络中，物品之间受到其邻居影响，如公式(1)所示：

{\hat{v}}_{j} = \underset{l &Element; N_{j}}{Σ} \frac{T_{j, l}}{Σ_{l &Element; N_{j}} T_{j, l}} v_{l} . - - - (1)

上式中表示物品的特征向量在受到其信任邻居影响后的隐藏特征向量。N_j表示物品j的直接邻居。T是一个用1或0表示的信任网络邻接矩阵。为了更好的表现物品间非线性的信任关系，本发明引入了标准拉普拉斯矩阵。一个拉普拉斯矩阵的表示为L＝D-W，其中W表示物品间社会关系的无向图。如果W_ij＝1，表示物品i和物品j之间存在联系，反之W_ij＝0。D是对角矩阵，对角线的元素满足D_ii＝∑_jW_ij。在L两边同时乘以最终得到了正则化的拉普拉斯矩阵然后定义核函数，核函数如公式(2)所示：

K = {(I + γ \hat{L})}^{- 1} - - - (2)

上式是正则化的拉普拉斯核函数，其中I是单位矩阵，γ是核函数的参数。有了上式准备，最后，获得标准化的如公式(3)所示：

{\hat{v}}_{j} = \underset{l &Element; N_{j}}{Σ} {\hat{T}}_{j, l} v_{l} . - - - (3)

上式中表示正则化后的信任网络。

该算法的生成过程如下：

1.对所有的标签tag，生成其中N表示高斯分布，λ是精度系数，I是K维的单位矩阵；

2.对于每个物品item的内容有以下的生成步骤：

1)生成主题比例分布θ_j～Dirichlet(α)，其中Dirichlet表示狄利克雷分布；

2)对于物品item内容w_j中的每一个词w_jn，

i.生成在主题分配上的分布z_jn～Mult(θ_j)，其中Mult表示多项式分布，

ii.生成每个词的分布w_jn～Mult(β_zjn)；

3.对于每个物品item，生成其中有

\begin{matrix} p (V | θ, \hat{T}, λ_{v}^{- 1}, λ_{s}^{- 1}) &Proportional; p (V | θ, λ_{v}^{- 1}) p (V | \hat{T}, λ_{s}^{- 1}) \\ = \underset{j}{Π} N (θ_{j}, λ_{v}^{- 1} I_{K}) \underset{j}{Π} {[N ({\hat{v}}_{j}, λ_{s}^{- 1} I_{K})]}^{I_{j}} \end{matrix} .

4.对每个标签物品对，生成标记信息r_ij，有其中的N表示高斯分，c_ij表示confidenceparameter。

c_{i j} = \{\begin{matrix} a, & i f & r_{i j} = 1 \\ b, & i f & r_{i j} = 0 \end{matrix}

其中，有a和b满足a>b>0。

再根据上述的生成过程，得到算法的对数似然函数，如公式(4)所示：

\begin{matrix} L = - \frac{λ_{u}}{2} \underset{i}{Σ} u_{i}^{T} u_{i} - \frac{λ_{v}}{2} \underset{j}{Σ} {(v_{j} - θ_{j})}^{T} (v_{j} - θ_{j}) \\ - \frac{λ_{s}}{2} \underset{j}{Σ} I_{j} {(v_{j} - \underset{l &Element; N_{j}}{Σ} T_{j, l} v_{l})}^{T} (v_{j} - \underset{l &Element; N_{j}}{Σ} T_{j, l} v_{l}) \\ + \underset{j}{Σ} \underset{n}{Σ} \log (\underset{d}{Σ} θ_{j d} β_{d, w_{j n}}) - \underset{i, j}{Σ} \frac{c_{i j}}{2} {(r_{i j} - u_{i}^{T} v_{j})}^{2} . \end{matrix} - - - (4)

通过计算最大后验估计(MAP)，分别对item和tag的特征向量求偏导，并对其结果赋值为0。对item和tag的优化本发明采用梯度上升的方法，它们的特征优化方法如公式(5)所示，其中u_i表示标签i特征向量，v_j表示物品j的特征向量。

u_i←(VC_iV^T+λ_uI_K)^-1VC_iR_i,

v_{j} &LeftArrow; {({UC}_{j} U^{T} + λ_{v} I_{K} + λ_{s} I_{K})}^{- 1} ({UC}_{j} R_{j} + λ_{s} \underset{l &Element; N_{j}}{Σ} T_{j, l} v_{l}) . - - - (5)

其中C_j是一个对角矩阵，对角线的元素是{c_ij，j＝1，…，J}。I_K是一个K维的单位矩阵。T_j,l表示j和他的邻居l的在信任网络中的关系值。

本发明中使用投影梯度算法来优化主题比例分布θ，给定了变量{u_i,v_j,θ}值后，β的优化和LDA中使用的方法一样，如公式(6)所示：

β_dw∝∑_j∑_nφ_jnd1[w_jn＝w](6)

附图说明

图1是本发明的概率模型图；

图2是本发明在数据集上和传统协同过滤测试结果召回率的对比；

图3是本发明在数据集上和传统协同过滤测试结果成功率的对比。

具体实施方式

下面使用具体的数据集还有附图对本算法的具体实施方式进行描述，便于本领域的技术人员更好地理解。

1.数据集描述

数据集是一个公开的数据集，采集自CiteULike上，其中包括5551个用户，16980篇论文，46391个标签，44709个论文的引用关系以及204987个{用户，论文}对，其中每篇论文还包括其标题、摘要等内容信息。

2.数据预处理

数据的预处理包括数据去噪、文本信息处理以及构建信任网络关系矩阵三部分。

1)数据去噪

将数据集中使用次数少于5次的标签移除，最终得到7386个标签。

2)文本信息处理

对于论文的内容，经过去停用词后，根据TF-IDF(termfrequency–inversedocumentfrequency)的值从大到小排列，选取前8000个词，组成词汇表，并对其编号。根据词汇表统计每篇论文的词频，组成文本向量，最后的文本处理成主题模型训练通用的格式。例如“101:5980:1…..”这表示的是向量化的文本信息某一行的格式，“10”表示该行的总的长度，也可以理解为该行表示的文本中包括多少个词汇，对于“1:5”表示的是编号为“1”的词出现了“5”次，其中“1”表示词汇编号，“5”表示的是该词出现的次数，即词频。

3)构建信任关系矩阵

数据集中还包括用户—物品信息，这部分数据表明了用户对物品的收藏行为，这是CiteULike网站提供的一种服务，同时也间接为物品提供了socialnetworks(社会网络)的关系。如果两个物品之间有4个及以上的相同用户，表示它们之间存在一种信任关系，使用“1”表示存在这种关系，反之则用“0”表示。本发明使用“0”和“1”在物品之间构建了一种无向图矩阵，其中无向图的顶点表示物品，边表示物品之间存在联系。同时本发明引入标准拉普拉斯核函数，更进一步通过无向图表示出信任关系之间非等价的作用。

3.模型训练

对每个标签选取P篇论文组成训练集，这里P选5，其余的数据组成测试集。对于训练集，我们分成5份，选取其中的4份做训练集，1份做测试集进行5折交叉验证。通过交叉验证我们确定了模型参数，选择综合性能最好的参数在测试集上进行预测，分别得到5组预测指标，将这5组预测的结果取平均作为算法的预测结果。

4.评价指标

评测推荐算法的精度通常使用召回率来度量，召回率越大，准确性就越高，同时推荐质量也就越高，召回率的计算公式为：

由于当用户标记论文时，用户不知道这些标签的存在或者不愿意使用已存在的标签，因此准确率不能应用到标签推荐上来。successL可以作为另外一个指标来衡量算法的性能，它被定义为对某篇论文推荐的前L个标签中发现一个真实存在标签的概率。当对某篇论文推荐L个标签中有一个是正确的结果，那么successL的值为1，反之为0。successL的公式表示为：

最后本发明统计所有item的recallL和successL，分别取其平均值作为模型最后的预测结果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定的思想和确定的范围内，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于内容互信的协同主题回归标签推荐方法，包括数据预处理、推荐方法的过程设计以及推荐方法的实现。具体操作步骤如下：

步骤a.对初始的数据去噪，并对内容重新编号；

步骤b.将物品的文本信息进行向量化处理，得到文本向量矩阵；

步骤c.从数据中提取物品间的社交关系，并构建信任网络；

步骤d.根据获取的数据信息，设计算法过程；

步骤e.根据算法设计过程，得出算法的更新规则。

2.根据权利要求1所述的推荐方法，其特征是步骤a，具体包括将数据集中使用次数少于5次的标签移除，对数据信息重新编号，构建物品-标签关系矩阵。

3.根据权利要求1所述的推荐方法，其特征是步骤b，具体包括：

(b1)提取标题和摘要信息构建物品的文本信息；

(b2)经过去停用词后，计算文本中词的TF-IDF值，根据TF-IDF值，从大到小取前N项组成词汇表，并对其进行编号；

(b3)得到词汇表后，根据词汇表统计每个物品的词信息，组成一个文本向量，其中每一行的行号对应于物品的编号，每行内容是物品向量化的信息，其中的每一项表示成“词编号:词频”的形式；

(b4)使用主题模型LDA对该信息进行训练，最终得到了物品和主题的对应关系矩阵以及词和主题的对应关系矩阵。

4.根据权利要求1所述的推荐方法，其特征是步骤c，具体包括本发明将用户对物品的收藏关系当做一种社交关系，如果两个物品之间有5个或5个以上的用户对其进行了收藏，那么这两个物品之间存在内容上的信任关系。通过使用1或0表示这种存在或不存在的关系，构建出了一个表示物品间信任网络的无向图。最后使用正则化的拉普拉斯核表示该无向图，进而得出物品受到其邻居影响的隐藏特征，如公式(1)所示：

{\hat{v}}_{j} = \underset{l &Element; N_{j}}{Σ} {\hat{T}}_{j, l} v_{l} . - - - (1)

5.根据权利要求1所述的推荐方法，其特征是步骤d，具体包括：

(d1)对所有的标签tag，生成其中N表示高斯分布，λ是精度系数，I是K维的单位矩阵；

(d2)对于每个物品item的内容有以下的生成步骤：

a)生成主题比例分布θ_j～Dirichlet(α)，其中Dirichlet表示狄利克雷分布；

b)对于物品item内容w_j中的每一个词w_jn，

ii.生成每个词的分布

(d3)对于每个物品item，生成其中有

\begin{matrix} p (V | θ, \hat{T}, λ_{v}^{- 1}, λ_{s}^{- 1}) &Proportional; p (V | θ, λ_{v}^{- 1}) p (V | \hat{T}, λ_{s}^{- 1}) \\ = \underset{j}{Π} N (θ_{j}, λ_{v}^{- 1} I_{K}) \underset{j}{Π} {[N ({\hat{v}}_{j}, λ_{s}^{- 1} I_{K})]}^{I_{j}} . \end{matrix}

(d4)对每个标签物品对，生成标记信息r_ij，有其中的N表示高斯分布，c_ij表示confidenceparameter。

c_{i j} = \{\begin{matrix} a, & i f & r_{i j} = 1 \\ b, & i f & r_{i j} = 0 \end{matrix}

其中，有a和b满足a>b>0。

6.根据权利要求1所述的推荐方法，其特征是步骤e，再根据权利要求5得到算法的对数似然函数，如公式(2)所示：

\begin{matrix} L = - \frac{λ_{u}}{2} \underset{i}{Σ} u_{i}^{T} u_{i} - \frac{λ_{v}}{2} \underset{j}{Σ} {(v_{j} - θ_{j})}^{T} (v_{j} - θ_{j}) \\ - \frac{λ_{s}}{2} \underset{j}{Σ} I_{j} {(v_{j} - \underset{l &Element; N_{j}}{Σ} T_{j, l} v_{l})}^{T} (v_{j} - \underset{l &Element; N_{j}}{Σ} T_{j, l} v_{l}) \\ + \underset{j}{Σ} \underset{n}{Σ} \log (\underset{d}{Σ} θ_{j d} β_{d, w_{j n}}) - \underset{i, j}{Σ} \frac{c_{i j}}{2} {(r_{i j} - u_{i}^{T} v_{j})}^{2} . \end{matrix} - - - (2)

通过计算最大后验估计(MAP)，分别对item和tag的特征向量求偏导，并对其结果赋值为0。对item和tag的优化本发明采用梯度上升，它们的特征优化方法如公式(3)所示，其中u_i表示标签i特征向量，v_j表示物品j的特征向量。

u_i←(VC_iV^T+λ_uI_K)^-1VC_iR_i,

v_{j} &LeftArrow; {({UC}_{j} U^{T} + λ_{v} I_{K} + λ_{s} I_{K})}^{- 1} ({UC}_{j} R_{j} + λ_{s} \underset{l &Element; N_{j}}{Σ} T_{j, l} v_{l}) . - - - (3)

公式(3)中C_j是一个对角矩阵，对角线的元素是{c_ij，j＝1，...，J}。I_K是一个K维的单位矩阵。T_j,l表示j和他的邻居l在信任网络中的关系值。

本发明使用投影梯度算法来优化主题比例分布θ，给定了变量{u_i,v_j,θ}值后，β的优化和LDA中使用的方法一样，如公式(4)所示：

β_dw∝Σ_jΣ_nφ_jnd1[w_jn＝w](4)。