CN104182543A

CN104182543A - 基于相似性传播与流行度降维的混合推荐方法

Info

Publication number: CN104182543A
Application number: CN201410452338.0A
Authority: CN
Inventors: 赵海燕; 郭娣
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2014-09-05
Filing date: 2014-09-05
Publication date: 2014-12-03
Anticipated expiration: 2034-09-05
Also published as: CN104182543B

Abstract

本发明涉及一种基于相似性传播与流行度降维的混合推荐方法，对稀疏的数据进行了两阶段处理，首先通过相似性传播方法，利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居，从而填充为零的元素；之后，考虑到原始数据存在无意义的垃圾Tag问题，将搜索引擎中的评分算法引入进来计算Tag的流行度，删除流行度低于某个阈值的Tag以精简数据，从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来，既可以使得推荐结果具有多样性，又可以一定程度上缓解稀疏性和冷启动的问题。提供了对个性化推荐过程中数据稀疏性问题的一种解决方法，该方法对推荐结果精度高，具有准确性高、可靠性高的优点。

Description

基于相似性传播与流行度降维的混合推荐方法

技术领域

本发明涉及一种数据挖掘的个性化推荐技术，特别涉及一种基于相似性传播与流行度降维的混合推荐方法。

背景技术

在个性化推荐算法的研究中，社会化标签作为一种重要的显示评分技术，不仅可以描述资源而且可以表征用户的偏好，因此结合社会化标签的推荐正成为互联网推荐引擎中的研究热点。然而大多数推荐算法的研究都面临着数据稀疏性的问题。目前解决稀疏性问题的研究方法主要分为采用各种技术对矩阵进行填充和数据降维两大类。

在对矩阵进行填充方面，最简单的矩阵填充方法是将用户未评分项目设为一个固定的缺省值，可以是用户对其他项目的平均评分值或其他用户对该项目的平均评分值，但该方法对用户的推荐质量有待提高。另一种矩阵填充方法是采用预测填充方法，如采用BP神经网络对项目进行预测，但网络模型的学习速度较慢，算法效率较低，而且对用户的推荐质量有待提高；采用朴素贝叶斯方法估算项目所属的分类，利用此类中其他项目的评分来预测未评分项目的评分，从而减小数据稀疏性。另外有一些研究利用相似性传播的方法，假定用户的品味具有传递性，并利用此传递性对矩阵进行填充，这些方法对用户的推荐质量有明显的提升。但是，目前基于相似性传播来填充矩阵的方法只考虑了两维空间：用户和资源。将Tag这一维空间考虑进来解决数据稀疏性问题更有意义。

在数据降维方面，采用奇异值分解技术可以减少向量空间的维数。有些研究将主成分分析(PCA)用在推荐中，利用主成分分析对评分数据预处理，原始评分数据被投射到最相关的主特征向量上。还可以采用聚类的方法，利用用户间相似性对用户聚类，将离目标用户最近的一个类的所有用户作为其邻居，从而对数据进行降维度。这些方法的优点是能有效提高推荐系统的预测准确率，不足之处是算法的复杂度比较高。

发明内容

本发明是针对推荐算法中数据存在稀疏性的问题，提出了一种基于相似性传播与流行度降维的混合推荐方法，提供了对个性化推荐过程中数据稀疏性问题的一种解决方法，该方法对推荐结果精度高，具有准确性高、可靠性高的优点。

本发明的技术方案为：一种基于相似性传播与流行度降维的混合推荐方法，具体包括如下步骤：

1)数据建模：利用原始用户、资源及Tag的三元数据构建二元数据模型，即构建稀疏矩阵UT矩阵、UR矩阵及RT矩阵，

其中：U＝{u₁，u₂，...，u_m}表示m个用户集合，R＝{r₁，r₂，...，r_n}表示n个资源集合，T＝{t₁，t₂，...，t_p}表示p个Tag集合；

2)相似性计算：通过步骤1)所得二元数据模型，采用pearson相关系数计算用户之间、资源之间及Tag之间的相似性值，计算相似矩阵UU矩阵、RR矩阵及TT矩阵；

3)相似性传播：利用步骤2)所得相似矩阵对步骤1)稀疏矩阵进行迭代以传播和扩展它们的相似邻居，每迭代一次，需要对稀疏矩阵进行一次标准化，从而填充为0的元素；

4)流行度降维：通过改进PageRank算法，利用资源、用户和Tag三者之间的互增强关系进行迭代，得到最终Tag的流行度值，删除流行度低于阈值的Tag，从而对矩阵降维；

5)混合推荐：使用平衡因子α，综合基于内容的推荐和协同过滤推荐算法，为用户生成推荐。

所述步骤1)三元数据是关于用户、资源及Tag之间关系的数据，每条记录为一个三元关系，形式为：用户ID，资源ID，Tag₁，Tag₂，...，Tag_q，其中q≤p，表示用户对一个资源标注了一组标签，稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示：

UR = [\begin{matrix} {ur}_{1,1} & . . . & {ur}_{1, n} \\ . & . & . \\ . & . & . \\ . & . & . \\ {ur}_{m, 1} & . . . & {ur}_{m, n} \end{matrix}], {ur}_{i, j} = \{\begin{matrix} 1, if   user u_{i} tagged resource r_{j} \\ 0, others \end{matrix}

UT = [\begin{matrix} {ut}_{1,1} & \cdot \cdot \cdot & {ut}_{1, p} \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ {ut}_{m, 1} & \cdot \cdot \cdot & {ut}_{m, p} \end{matrix}],

ut_i，j表示用户u_i使用Tag t_j标注的资源数；

RT = [\begin{matrix} {rt}_{1,1} & \cdot \cdot \cdot & {rt}_{1, p} \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ {rt}_{n, 1} & \cdot \cdot \cdot & {rt}_{n, p} \end{matrix}],

rt_i，j表示资源r_i被Tag t_j标注的用户数。

所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算：

用户间的相似矩阵UU的元素uu_i，j表示用户u_i与用户u_j的相似性，该相似性分别通过UR矩阵和UT矩阵来计算，然后取两个相似性的均值，公式为：

{uu}_{i, j} = \frac{1}{2} \times ({sim}_{u_{i}, u_{j}} (UR) + {sim}_{u_{i}, u_{j}} (UT))

其中，sim_i，j(UR)是根据矩阵UR得到的用户u_i和用户u_j的相似性，sim_i，j(UT)是根据UT矩阵得到的用户u_i和用户u_j的相似性；

资源间相似性矩阵RR的元素rr_i，j表示资源r_i与r_j的相似性，该相似性分别通过UR矩阵和RT矩阵来计算，然后取两个相似性的均值，公式为：

{rr}_{i, j} = \frac{1}{2} \times ({sim}_{r_{i}, r_{j}} (UR) + {sim}_{r_{i}, r_{j}} (RT))

其中，是根据矩阵UR得到的资源r_i和资源r_j的相似性，是根据RT矩阵得到的资源r_i和资源r_j的相似性；

Tag间相似性矩阵TT的元素tt_t，j表示Tag t_i与t_j相似性，该相似性分别通过UT矩阵和RT矩阵来计算，然后取两个相似性的均值，公式为：

{tt}_{i, j} = \frac{1}{2} \times ({sim}_{t_{i}, t_{j}} (UT) + {sim}_{t_{i}, t_{j}} (RT))

其中，表示利用矩阵UT得到的Tag t_i与t_j相似性，表示利用矩阵RT得到的Tag t_i与t_j相似性。

所述相似性计算：

{sim}_{u_{i}, u_{j}} (UR) = \frac{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} ({ur}_{u_{i}, r} - \overset{&OverBar;}{{ur}_{u_{i}}}) ({ur}_{u_{j}, r} - \overset{&OverBar;}{{ur}_{u_{j}}})}{\sqrt{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} {({ur}_{u_{i}, r} - \overset{&OverBar;}{{ur}_{u_{i}}})}^{2}} \sqrt{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} {({ur}_{u_{j}, r} - \overset{&OverBar;}{{ur}_{u_{j}}})}^{2}}}

其中，R(u_i)表示用户u_i标注的资源集合，R(u_j)表示用户u_j标注的资源集合；r为用户u_i和用户u_j共同标注的资源；

表示用户u_i对资源r的偏好值，表示用户u_i对所有标注过的资源的平均偏好值；

表示用户u_j对资源r的偏好值，表示用户u_j对所有标注过的资源的平均偏好值；

{sim}_{u_{i}, u_{j}} (UT) = \frac{\underset{r &Element; T (u_{i}) \cap T (u_{j})}{Σ} ({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}}) ({ut}_{u_{j}, t} - \overset{&OverBar;}{{ut}_{u_{j}}})}{\sqrt{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} {({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}})}^{2}} \sqrt{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} {({ut}_{u_{j}, t} - \overset{&OverBar;}{{ut}_{u_{j}}})}^{2}}}

其中，T(u_i)表示用户u_i标注的Tag集合，T(u_j)表示用户u_j标注的Tag集合；t为用户u_i和用户u_j共同标注的Tag；

表示用户u_i对Tag t的偏好值，表示用户u_i对所有标注过的tag的平均偏好值；

表示用户u_j对Tag t的偏好值，表示用户u_j对所有标注过的Tag的平均偏好值；

{sim}_{r_{i}, r_{j}} (UR) = \frac{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} ({ur}_{u, r_{i}} - \overset{&OverBar;}{{ur}_{{, r}_{i}}}) ({ur}_{u, r_{j}} - \overset{&OverBar;}{{ur}_{{, r}_{j}}})}{\sqrt{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} {({ur}_{u, r_{i}} - \overset{&OverBar;}{{ur}_{{, r}_{i}}})}^{2}} \sqrt{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} {({ur}_{u, r_{j}} - \overset{&OverBar;}{{ur}_{{, r}_{j}}})}^{2}}}

其中，U(r_i)表示标注资源r_i的用户集合，U(r_j)表示标注资源r_j的用户集合；u为同时标注资源r_i和资源r_j的用户；

表示用户u对资源r_i的偏好值，表示所有标注过资源r_i的用户对资源r_i的平均偏好值；

表示用户u对资源r_j的偏好值，表示所有标注过资源r_j的用户对资源r_j的平均偏好值；

{sim}_{r_{i}, r_{j}} (RT) = \frac{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} ({rt}_{r_{i}, t} - \overset{&OverBar;}{{rt}_{r_{i}}}) ({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}{\sqrt{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} {({rt}_{r_{i}, t} - \overset{&OverBar;}{{rt}_{r_{i}}})}^{2}} \sqrt{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} {({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}^{2}}}

其中，T(r_i)表示资源r_i被标注的Tag集合，T(r_j)表示资源r_j被标注的Tag集合；t为同时标注资源r_i和资源r_j的Tag；

表示资源r_i对Tag t的偏好值，表示资源r_i对所有标注过的Tag的平均偏好值；

表示资源r_j对Tag t的偏好值，表示资源r_j对所有标注过的Tag的平均偏好值；

{sim}_{t_{i}, t_{j}} (UT) = \frac{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} ({ut}_{u, t_{i}} - \overset{&OverBar;}{{ut}_{{, t}_{i}}}) ({ut}_{u, t_{j}} - \overset{&OverBar;}{{ut}_{, t_{j}}})}{\sqrt{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} {({ut}_{u, t_{i}} - \overset{&OverBar;}{{ut}_{{, t}_{i}}})}^{2}} \sqrt{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} {({ut}_{u, t_{j}} - \overset{&OverBar;}{{ut}_{{, t}_{j}}})}^{2}}}

其中，U(t_i)表示Tag t_i被标注的用户集合，U(t_j)表示Tag t_i被标注的用户集合；u为同时标注Tagt_i与t_j的用户；

表示用户u对Tag t_i的偏好值，表示所有标注过的Tag t_i的用户对Tagt_i的平均偏好值；

表示用户u对Tag t_j的偏好值，表示所有标注过的Tag t_j的用户对Tagt_j的平均偏好值；

{sim}_{t_{i}, t_{j}} (RT) = \frac{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} ({rt}_{r, t_{i}} - \overset{&OverBar;}{r t_{, t_{i}}}) ({rt}_{{r, t}_{j}} - \overset{&OverBar;}{r t_{, t_{j}}})}{\sqrt{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} {({rt}_{r, t_{i}} - \overset{&OverBar;}{r t_{, t_{i}}})}^{2}} \sqrt{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} {({rt}_{r, t_{j}} - \overset{&OverBar;}{{rt}_{, t_{j}}})}^{2}}}

其中，R(t_i)表示Tag t_i被标注的资源集合，R(t_j)表示Tag t_i被标注的资源集合；r为同时标注Tag t_i与t_j资源；

表示资源r对Tagt_i的偏好值，表示所有标注过的Tag t_i的资源对Tagt_i的平均偏好值；

表示资源r对Tagt_j的偏好值，表示所有标注过的Tag t_j的资源对Tagt_j的平均偏好值。

5、根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述步骤3)相似性传播公式如下：

{(UR)}^{i + 1} = \{\begin{matrix} UR & , (i = 0) \\ {({({(UR)}^{T} \times UU)}^{T} \times RR)}^{i} & , (i > 0) \end{matrix}

{(UT)}^{i + 1} = \{\begin{matrix} UT & , (i = 0) \\ {({({(UT)}^{T} \times UU)}^{T} \times TT)}^{i} & , (i > 0) \end{matrix}

{(RT)}^{i + 1} = \{\begin{matrix} RT & , (i = 0) \\ {({({(RT)}^{T} \times RR)}^{T} \times TT)}^{i} & , (i > 0) \end{matrix}

其中，i表示相似性传播迭代的次数；

UT^T、RT^T和UR^T分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵；

(UT)ⁱ⁺¹、(RT)ⁱ⁺¹和(UR)ⁱ⁺¹分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵。

所述步骤4)流行度降维算法基于如下假设：被高素质用户用高质量的Tag标注的资源具有更高价值，而用高质量的Tag标注高价值资源的用户也具有更高的素质，被高素质的用户用来标注高价值资源的Tag通常具有更高的质量，通过改进PageRank算法，利用资源、用户和Tag三者之间的互增强关系进行迭代，得

到最终Tag的流行度值，根据流行度进行删除，删除流行度低的垃圾Tag，流行度降维公式为：

R_j＝M_RT×T_j

U_j＝M_UR×R_j

T′_j＝M_TU×U_j

U_{j}^{'} = M_{TU}^{T} \times T_{j}^{'}

R_{j}^{'} = M_{UR}^{T} \times U_{j}^{'}

T_{j + 1} = M_{RT}^{T} \times R_{j}^{'}

其中，j表示流行度降维迭代的次数，T_j为所有Tag的流行度矢量；R_i为所有资源的流行度矢量；U_i对所有用户的流行度矢量；初始化T₀都设为1，即T₀＝(1，1，...，1)；M_TU，M_UR和M_RT分别为传播后的TU矩阵、UR矩阵和RT矩阵；M^T _TU，M^T _UR和M^T _RT分别表示传播后的TU矩阵、UR矩阵和RT矩阵的转置矩阵。

所述步骤5)将基于内容的推荐和协同过滤推荐两种方法结合起来，预测结果值如下：

Rank_Hybrid(u_i，r_j)＝αRank_Content(u_i，r_j)+(1-α)Rank_CF(u_i，r_j)

其中，Rank_Content(u_i，r_j)为基于内容推荐算法得到的用户u_i对资源r_j的评分；Rank_CF(u_i，r_j)为协同过滤推荐算法得到的用户u_i对资源r_j的评分；α为平衡因子(0＜α＜1)；

Rank_Content(u_i，r_j)的计算公式为：

Rank_Content(u_i，r_j)＝sim(ut_i，，rt_j，)

其中，ut_i表示UT矩阵中用户u_i对所有Tag的偏好矢量，表示为ut_i＝(ut_i，1，ut_i，2，…，ut_i，p)；rt_j表示RT矩阵中资源r_j对所有Tag的偏好矢量，表示为rt_j＝(rt_j，1，rt_j，2，…，rt_j，p)；

sim(ut_i，rt_j)为传统的修正的余弦相似度公式，公式如下：

sim ({ut}_{i}, {rt}_{j}) = \frac{\underset{t &Element; T}{Σ} ({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}}) ({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}{\sqrt{\underset{t &Element; T}{Σ} {({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}})}^{2}} \sqrt{\underset{t &Element; T}{Σ} {({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}^{2}}}

其中，T为标签集合，分别表示用户u_i和资源r_j对Tag的平均偏好值；为用户u_i对Tag t的偏好值；为资源r_j对Tag t的偏好值；

利用UU相似性矩阵，可选出用户u_i的前m个最近邻居集合用户u_i对资源r_j的预测评分Rank_CF(u_i，r_j)的计算公式如下：

{Rank}_{CF} (u_{i} r_{j}) = \overset{&OverBar;}{{ur}_{u_{i}}} + \frac{\underset{u_{k} {&Element; NN}_{u_{i}}}{Σ} {uu}_{u_{i}, u_{k}} \times ({ur}_{u_{k}, r_{j}} - \overset{&OverBar;}{{ur}_{u_{k}}})}{\underset{u_{k} {&Element; NN}_{u_{i}}}{Σ} {uu}_{u_{i}, u_{k}}}

其中，和分别表示用户u_i和用户u_k的平均评分值；为用户u_i和用户u_k的相似性；为用户u_k对资源r_j的评分，表示用户u_i的最近邻居集合。

本发明的有益效果在于：本发明基于相似性传播与流行度降维的混合推荐方法，对稀疏的数据进行了两阶段处理，首先通过相似性传播方法，利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居，从而填空为零的元素；之后，考虑到原始数据存在无意义的垃圾Tag的问题，将搜索引擎中的评分算法引入进来计算Tag的流行度，删除流行度低于某个阈值的Tag以精简数据，从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来，既可以使得推荐结果具有多样性，又可以一定程度上缓解稀疏性和冷启动的问题。采用本发明的方法，可以提高推荐的准确率。

附图说明

图1为本发明基于相似性传播与流行度降维的混合推荐方法的框架图；

图2为本发明基于用户、Tag和资源的社会化标注三元网络模型图；

图3为本发明根据用户相似性传播图；

图4为本发明互增强关系网络图。

具体实施方式

如图1所示基于相似性传播与流行度降维的混合推荐方法的框架图，一种基于相似性传播和流行度降维的混合推荐方法，通过相似性传播方法为用户、资源及Tag扩展更多的邻居，以填充矩阵中为零的元素；通过流行度降维方法计算Tag的流行度，过滤一些流行度较低的无意义的Tag，实现矩阵降维；最后结合基于内容的推荐与协同过滤推荐为用户产生推荐，具体包括以下步骤：

1、数据建模

利用原始用户、资源及Tag的三元数据构建二元数据模型，即构建user-tag(UT)矩阵、user-resource(UR)矩阵及resource-tag(RT)矩阵；

其中：U＝{u₁，u₂，...，u_m}表示m个用户集合，R＝{r₁，r₂，...，r_n}表示n个资源集合，T＝{t₁，t₂，...，t_p}表示p个Tag集合；原始三元数据是关于用户、资源及Tag之间关系的数据，每条记录为一个三元关系，形式为：用户ID，资源ID，Tag₁，Tag₂，...，Tag_q，其中q≤p，表示用户对一个资源标注了一组标签。如图2所示是基于用户、Tag和资源的社会化标注三元网络模型图。

user-resource(UR)矩阵表示为：

UR = [\begin{matrix} {ur}_{1,1} & . . . & {ur}_{1, n} \\ . & . & . \\ . & . & . \\ . & . & . \\ {ur}_{m, 1} & . . . & {ur}_{m, n} \end{matrix}], {ur}_{i, j} = \{\begin{matrix} 1, if   user u_{i} tagged resource r_{j} \\ 0, others \end{matrix}

user-tag(UT)矩阵表示为：

UT = [\begin{matrix} {ut}_{1,1} & . . . & {ut}_{1, p} \\ . & . & . \\ . & . & . \\ . & . & . \\ {ut}_{m, 1} & . . . & {ut}_{m, p} \end{matrix}],

ut_i，j表示用户u_i使用Tag t_j标注的资源数；

resource-tag(RT)矩阵表示为：

RT = [\begin{matrix} {rt}_{1,1} & . . . & {rt}_{1, p} \\ . & . & . \\ . & . & . \\ . & . & . \\ {rt}_{n, 1} & . . . & {rt}_{n, p} \end{matrix}],

rt_i，j表示资源r_i被Tag t_j标注的用户数。

2、相似性计算

经过步骤1得到的三个矩阵，采用Pearson相关系数计算用户之间、资源之间及Tag之间的相似性值，得到user-user(UU)矩阵、resource-resource(RR)矩阵及tag-tag(TT)矩阵；

其中：用户间的相似矩阵UU的元素uu_i，j表示用户u_i与用户u_j的相似性，该相似性分别通过UR矩阵和UT矩阵来计算，然后取两个相似性的均值。公式为：

{uu}_{i, j} = \frac{1}{2} \times (s {im}_{u_{i}, u_{j}} (UR) + {sim}_{u_{i}, u_{j}} (UT))

其中，sim_i，j(UR)是根据矩阵UR得到的用户u_i和用户u_j的相似性，公式如(1)，sim_i，j(UT)是根据UT矩阵得到的用户u_i和用户u_j的相似性，公式如(2)。

{sim}_{u_{i}, u_{j}} (UR) = \frac{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} ({ur}_{u_{i}, r} - \overset{&OverBar;}{{ur}_{u_{i}}}) ({ur}_{u_{j}, r} - \overset{&OverBar;}{{ur}_{u_{j}}})}{\sqrt{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} {({ur}_{u_{i}, r} - \overset{&OverBar;}{{ur}_{u_{i}}})}^{2}} \sqrt{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} {({ur}_{u_{j}, r} - \overset{&OverBar;}{{ur}_{u_{j}}})}^{2}}} - - - (1)

表示用户u_j对资源r的偏好值，表示用户u_j对所有标注过的资源的平均偏好值。

{sim}_{u_{i}, u_{j}} (UT) = \frac{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} ({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}}) ({ut}_{u_{j}, t} - \overset{&OverBar;}{{ut}_{u_{j}}})}{\sqrt{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} {({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}})}^{2}} \sqrt{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} {({ut}_{u_{j}, t} - \overset{&OverBar;}{{ut}_{u_{j}}})}^{2}}} - - - (2)

表示用户u_j对Tag t的偏好值，表示用户u_j对所有标注过的Tag的平均偏好值。

资源间相似性矩阵RR的元素rr_i，j表示资源r_i与r_j的相似性，该相似性分别通过UR矩阵和RT矩阵来计算，然后取两个相似性的均值。公式为：

{rr}_{i, j} = \frac{1}{2} \times ({sim}_{r_{i}, r_{j}} (UR) + {sim}_{r_{i}, r_{j}} (RT))

其中，是根据矩阵UR得到的资源r_i和资源r_j的相似性，公式如(3)，是根据RT矩阵得到的资源r_i和资源r_j的相似性，公式如(4)。

{sim}_{r_{i}, r_{j}} (UR) = \frac{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} ({ur}_{u, r_{i}} - \overset{&OverBar;}{{ur}_{, r_{i}}}) ({ur}_{u, r_{j}} - \overset{&OverBar;}{{ur}_{{, r}_{j}}})}{\sqrt{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} {({ur}_{u, r_{i}} - \overset{&OverBar;}{{ur}_{{, r}_{i}}})}^{2}} \sqrt{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} {({ur}_{u, r_{j}} - \overset{&OverBar;}{{ur}_{{, r}_{j}}})}^{2}}} - - - (3)

其中，U(r_i)表示标注资源r_i的用户集合，U(r_j)表示标注资源r_j的用户集合；

u为同时标注资源r_i和资源r_j的用户；

表示用户u对资源r_j的偏好值，表示所有标注过资源r_j的用户对资源r_j的平均偏好值。

{sim}_{r_{i}, r_{j}} (UT) = \frac{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} ({rt}_{r_{i}, t} - \overset{&OverBar;}{{rt}_{r_{i}}}) ({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}{\sqrt{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} {({rt}_{r_{i}, t} - \overset{&OverBar;}{{rt}_{r_{i}}})}^{2}} \sqrt{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} {({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}^{2}}} - - - (4)

表示资源r_j对Tag t的偏好值，表示资源r_j对所有标注过的Tag的平均偏好值。

Tag间相似性矩阵TT的元素tt_i，j表示Tag t_i与t_j相似性，该相似性分别通过UT矩阵和RT矩阵来计算，然后取两个相似性的均值。公式为：

{tt}_{i, j} = \frac{1}{2} \times ({sim}_{t_{i}, t_{j}} (UT) + {sim}_{t_{i}, t_{j}} (RT))

其中，表示利用矩阵UT得到的Tag t_i与t_j相似性，公式如(5)；

表示利用矩阵RT得到的Tag t_i与t_j相似性，公式如(6)。

{sim}_{t_{i}, t_{j}} (UT) = \frac{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} ({ut}_{u, t_{i}} - \overset{&OverBar;}{{ut}_{, t_{i}}}) ({ut}_{u, t_{j}} - \overset{&OverBar;}{{ut}_{{, t}_{j}}})}{\sqrt{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} {({ut}_{u, t_{i}} - \overset{&OverBar;}{{ut}_{{, t}_{i}}})}^{2}} \sqrt{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} {({ut}_{u, t_{j}} - \overset{&OverBar;}{{ut}_{{, t}_{j}}})}^{2}}} - - - (5)

其中，U(t_i)表示Tag t_i被标注的用户集合，U(t_j)表示Tag t_i被标注的用户集合；u为同时标注Tag t_i与t_j的用户；

表示用户u对Tag t_j的偏好值，表示所有标注过的Tag t_j的用户对Tagt_j的平均偏好值。

{sim}_{t_{i}, t_{j}} (RT) = \frac{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} ({rt}_{r, t_{i}} - \overset{&OverBar;}{{rt}_{, t_{i}}}) ({rt}_{r, t_{j}} - \overset{&OverBar;}{{rt}_{, t_{j}}})}{\sqrt{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} {({rt}_{r, t_{i}} - \overset{&OverBar;}{{rt}_{, t_{i}}})}^{2}} \sqrt{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} {({rt}_{r, t_{j}} - \overset{&OverBar;}{{rt}_{, t_{j}}})}^{2}}} - - - (6)

表示资源r对Tag t_i的偏好值，表示所有标注过的Tag t_i的资源对Tagt_i的平均偏好值；

表示资源r对Tag t_j的偏好值，表示所有标注过的Tag t_j的资源对Tagt_j的平均偏好值。

3、相似性传播

利用相似性的信息不断对user-tag(UT)矩阵、user-resource(UR)矩阵及resource-tag(RT)矩阵进行迭代以传播和扩展它们的相似邻居，从而填充为0的元素。

其中：相似性传播算法基于如下假设：如图3所示根据用户相似性传播图，用户u₁和u₂偏好比较相似，如图3(a)，用户u₂使用了标签t₁和t₂，而用户u₁只使用了t₁，那么可推测u₁也会对t₂感兴趣(虚线表示)，从而可以扩展原来稀疏的UT矩阵。在图3(b)中，用户u₂标注了资源r₁和r₂，而用户u₁只标注了资源r₁，那么可推测用户u₁也会对资源r₂感兴趣(虚线表示)，从而可以扩展原来稀疏的UR矩阵。

因此，利用相似性矩阵UU、RR、TT对原来稀疏矩阵UR、UT、RT进行传播，公式如下：

{(UR)}^{i + 1} = \{\begin{matrix} UR & , (i = 0) \\ {({({(UR)}^{T} \times UU)}^{T} \times RR)}^{i} & , (i > 0) \end{matrix}

{(UT)}^{i + 1} = \{\begin{matrix} UT & , (i = 0) \\ {({({(UT)}^{T} \times UU)}^{T} \times TT)}^{i} & , (i > 0) \end{matrix}

{(RT)}^{i + 1} = \{\begin{matrix} RT & , (i = 0) \\ {({({(RT)}^{T} \times RR)}^{T} \times TT)}^{i} & , (i > 0) \end{matrix}

其中，i表示相似性传播迭代的次数；

UT^T、RT^T和UR^T分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵；

(UT)ⁱ⁺¹、(RT)ⁱ⁺¹和(UR)ⁱ⁺¹分别表示经过i次迭代后的UT矩阵、RT矩阵和UR矩阵；

每迭代一次，需要对矩阵UT、RT和UR进行一次标准化。

4、流行度降维

采用改进的PageRnak算法不断迭代得到Tag的流行度，删除流行度低于某个阈值的Tag，从而对矩阵降维；

在步骤3中，经过传播后的数据已经相对较稠密，但还存在一些无意义的垃圾Tag数据，因此，步骤4中所述流行度降维算法基于如下假设：被高素质用户用高质量的Tag标注的资源具有更高价值，而用高质量的Tag标注高价值资源的用户也具有更高的素质，被高素质的用户用来标注高价值资源的Tag通常具有更高的质量。

通过改进PageRank算法，利用资源、用户和Tag三者之间的互增强关系进行迭代，得到最终Tag的流行度值，如图4所示互增强关系网络图。对于流行度比较低的可以认为是垃圾Tag，删除这些垃圾Tag可以极大的精简数据。公式为：

R_j＝M_RT×T_j

U_j＝M_UR×R_j

T′_j＝M_TU×U_j

U_{j}^{'} = M_{TU}^{T} \times T_{j}^{'}

R_{j}^{'} = M_{UR}^{T} \times U_{j}^{'}

T_{j + 1} = M_{RT}^{T} \times R_{j}^{'}

5、混合推荐

使用平衡因子α，综合基于内容的推荐和协同过滤推荐算法，为用户生成推荐。

混合推荐策略为：通过分析发现，基于内容的推荐可以挖掘出用户的偏好和资源的偏好，然后通过比较这两者之间的相似性来产生推荐，但不能为用户发现新兴趣点。而协同过滤推荐方法根据用户之间的相似性来产生推荐，该方法可以发现用户新的兴趣点，不足之处是冷启动、数据稀疏问题。因此将两种方法结合起来，预测结果值如下：

Rank_Hybrid(u_i，r_j)＝αRank_Content(u_i，r_j)+(1-α)Rank_CF(u_i，r_j)

其中，Rank_Content(u_i，r_j)为基于内容推荐算法得到的用户u_i对资源r_j的评分；Rank_CF(u_i，r_j)为协同过滤推荐算法得到的用户u_i对资源r_j的评分；α为平衡因子(0＜α＜1)。

Rank_Content(u_i，r_j)的计算公式为：

Rank_Content(u_i，r_j)＝sim(ut_i，，rt_j，)

其中，ut_i表示UT矩阵中用户u_i对所有Tag的偏好矢量，表示为ut_i＝(ut_i，1，ut_i，2，…，ut_i，p)；rt_j表示RT矩阵中资源r_j对所有Tag的偏好矢量，表示为rt_j＝(rt_j，1，rt_j，2，…，rt_j，p)。

sim(ut_i，rt_j)为传统的修正的余弦相似度公式，公式如下：

sim ({ut}_{i}, {rt}_{j}) = \frac{\underset{t &Element; T}{Σ} ({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u}_{i}}) ({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r}_{j}})}{\sqrt{\underset{t &Element; T}{Σ} {({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u}_{i}})}^{2}} \sqrt{\underset{t &Element; T}{Σ} {({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}^{2}}}

其中，T为标签集合，分别表示用户u_i和资源r_j对Tag的平均偏好值；为用户u_i对Tag t的偏好值；为资源r_j对Tag t的偏好值。

{Rank}_{CF} (u_{i}, r_{j}) = \overset{&OverBar;}{{ur}_{u}_{i}} + \frac{\underset{u_{k} &Element; {NN}_{u_{i}}}{Σ} {uu}_{u_{i}, u_{k}} \times ({ur}_{u_{k}, r_{j}} - \overset{&OverBar;}{{ur}_{u}_{k}})}{\underset{u_{k} &Element; {NN}_{u_{i}}}{Σ} {uu}_{u_{i}, u_{k}}}

本发明针对个性化推荐算法面临的数据稀疏性问题，对稀疏的数据进行了两阶段处理，首先通过相似性传播方法，利用用户、资源及Tag的相似矩阵不断迭代以扩展它们的邻居，从而填充为零的元素；之后，考虑到原始数据存在无意义的垃圾Tag问题，将搜索引擎中的评分算法引入进来计算Tag的流行度，删除流行度低于某个阈值的Tag以精简数据，从而对矩阵降维。而将基于内容的推荐与协同过滤推荐结合起来，既可以使得推荐结果具有多样性，又可以一定程度上缓解稀疏性和冷启动的问题。采用一种基于相似性传播与流行度降维的混合推荐方法，可以提高推荐的准确率。

Claims

1.一种基于相似性传播与流行度降维的混合推荐方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述步骤1)三元数据是关于用户、资源及Tag之间关系的数据，每条记录为一个三元关系，形式为：用户ID，资源ID，Tag₁，Tag₂，...，Tag_q，其中q≤p，表示用户对一个资源标注了一组标签，稀疏矩阵UT矩阵、UR矩阵及RT矩阵如下表示：

UR = [\begin{matrix} {ur}_{1,1} & . . . & {ur}_{1, n} \\ . & . & . \\ . & . & . \\ . & . & . \\ {ur}_{m, 1} & . . . & {ur}_{m, n} \end{matrix}], {ur}_{i, j} = \{\begin{matrix} 1, if   user u_{i} tagged resource r_{j} \\ 0, others \end{matrix}

UT = [\begin{matrix} {ut}_{1,1} & . . . & {ut}_{1, p} \\ . & . & . \\ . & . & . \\ . & . & . \\ {ut}_{m, 1} & . . . & {ut}_{m, p} \end{matrix}],

ut_i，j表示用户u_i使用Tag t_j标注的资源数；

RT = [\begin{matrix} {rt}_{1,1} & . . . & {rt}_{1, p} \\ . & . & . \\ . & . & . \\ . & . & . \\ {rt}_{n, 1} & . . . & {rt}_{n, p} \end{matrix}],

rt_i，j表示资源r_i被Tag t_j标注的用户数。

3.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述步骤2)中相似矩阵UU矩阵、RR矩阵及TT矩阵计算：

{uu}_{i, j} = \frac{1}{2} \times ({sim}_{u_{i}, u_{j}} (UR) + {sim}_{u_{i}, u_{j}} (UT))

{rr}_{i, j} = \frac{1}{2} \times ({sim}_{r_{i}, r_{j}} (UR) + {sim}_{r_{i}, r_{j}} (RT))

Tag间相似性矩阵TT的元素tt_i，j表示Tag t_i与t_j相似性，该相似性分别通过UT矩阵和RT矩阵来计算，然后取两个相似性的均值，公式为：

{tt}_{i, j} = \frac{1}{2} \times ({sim}_{t_{i}, t_{j}} (UT) + {sim}_{t_{i}, t_{j}} (RT))

4.根据权利要求3所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述相似性计算：

{sim}_{u_{i}, u_{j}} (UR) = \frac{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} ({ur}_{u_{i}, r} - \overset{&OverBar;}{{ur}_{u_{i}}}) ({ur}_{u_{j}, r} - \overset{&OverBar;}{{ur}_{u_{j}}})}{\sqrt{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} {({ur}_{u_{i}, r} - \overset{&OverBar;}{{ur}_{u_{i}}})}^{2}} \sqrt{\underset{r &Element; R (u_{i}) \cap R (u_{j})}{Σ} {({ur}_{u_{j}, r} - \overset{&OverBar;}{{ur}_{u_{j}}})}^{2}}}

{sim}_{u_{i}, u_{j}} (UT) = \frac{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} ({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}}) ({ut}_{u_{j}, t} - \overset{&OverBar;}{{ut}_{u_{j}}})}{\sqrt{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} {({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}})}^{2}} \sqrt{\underset{t &Element; T (u_{i}) \cap T (u_{j})}{Σ} {({ut}_{u_{j}, r} - \overset{&OverBar;}{{ut}_{u_{j}}})}^{2}}}

{sim}_{r_{i}, r_{j}} (UR) = \frac{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} ({ur}_{u, r_{i}} - \overset{&OverBar;}{{ur}_{{, r}_{i}}}) ({ur}_{u, r_{j}} - \overset{&OverBar;}{{ur}_{, r_{j}}})}{\sqrt{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} {({ur}_{u, r_{i}} - \overset{&OverBar;}{{ur}_{{, r}_{i}}})}^{2}} \sqrt{\underset{u &Element; U (r_{i}) \cap U (r_{j})}{Σ} {({ur}_{u, r_{j}} - \overset{&OverBar;}{{ur}_{{, r}_{j}}})}^{2}}}

{sim}_{r_{i}, r_{j}} (RT) = \frac{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} ({rt}_{r_{i}, t} - \overset{&OverBar;}{{rt}_{r_{i}}}) ({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}{\sqrt{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} {({rt}_{r_{i}, t} - \overset{&OverBar;}{{rt}_{r_{i}}})}^{2}} \sqrt{\underset{t &Element; T (r_{i}) \cap T (r_{j})}{Σ} {({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}^{2}}}

{sim}_{t_{i}, t_{j}} (UT) = \frac{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} ({ut}_{u, t_{i}} - \overset{&OverBar;}{{ut}_{{, t}_{i}}}) ({ut}_{u, t_{j}} - \overset{&OverBar;}{{ut}_{, t_{j}}})}{\sqrt{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} {({ut}_{u, t_{i}} - \overset{&OverBar;}{{ut}_{{, t}_{i}}})}^{2}} \sqrt{\underset{u &Element; U (t_{i}) \cap U (t_{j})}{Σ} {({ut}_{u, t_{j}} - \overset{&OverBar;}{{ut}_{{, t}_{j}}})}^{2}}}

其中，U(t_i)表示Tagt_i被标注的用户集合，U(t_j)表示Tagt_i被标注的用户集合；u为同时标注Tagt_i与t_j的用户；

{sim}_{t_{i}, t_{j}} (RT) = \frac{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} ({rt}_{r, t_{i}} - \overset{&OverBar;}{r t_{, t_{i}}}) ({rt}_{{r, t}_{j}} - \overset{&OverBar;}{r t_{, t_{j}}})}{\sqrt{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} {({rt}_{r, t_{i}} - \overset{&OverBar;}{r t_{, t_{i}}})}^{2}} \sqrt{\underset{r &Element; R (t_{i}) \cap R (t_{j})}{Σ} {({rt}_{r, t_{j}} - \overset{&OverBar;}{{rt}_{, t_{j}}})}^{2}}}

5.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述步骤3)相似性传播公式如下：

{(UR)}^{i + 1} = \{\begin{matrix} UR & , (i = 0) \\ {({({(UR)}^{T} \times UU)}^{T} \times RR)}^{i} & , (i > 0) \end{matrix}

{(UT)}^{i + 1} = \{\begin{matrix} UT & , (i = 0) \\ {({({(UT)}^{T} \times UU)}^{T} \times TT)}^{i} & , (i > 0) \end{matrix}

{(RT)}^{i + 1} = \{\begin{matrix} RT & , (i = 0) \\ {({({(RT)}^{T} \times RR)}^{T} \times TT)}^{i} & , (i > 0) \end{matrix}

其中，i表示相似性传播迭代的次数；

UT^T、RT^T和UR^T分别表示UT矩阵RT矩阵和UR矩阵的转置矩阵；

6.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述步骤4)流行度降维算法基于如下假设：被高素质用户用高质量的Tag标注的资源具有更高价值，而用高质量的Tag标注高价值资源的用户也具有更高的素质，被高素质的用户用来标注高价值资源的Tag通常具有更高的质量，通过改进PageRank算法，利用资源、用户和Tag三者之间的互增强关系进行迭代，得到最终Tag的流行度值，根据流行度进行删除，删除流行度低的垃圾Tag，流行度降维公式为：

R_j＝M_RT×T_j

U_j＝M_UR×R_j

T′_j＝M_TU×U_j

U_{j}^{'} = M_{TU}^{T} \times T_{j}^{'}

R_{j}^{'} = M_{UR}^{T} \times U_{j}^{'}

T_{j + 1} = M_{RT}^{T} \times R_{j}^{'}

其中，j表示流行度降维迭代的次数；T_j为所有Tag的流行度矢量；R_i为所有资源的流行度矢量；U_i对所有用户的流行度矢量；初始化T₀都设为1，即T₀＝(1，1，...，1)；M_TU，M_UR和M_RT分别为传播后的TU矩阵、UR矩阵和RT矩阵；M^T _TU，M^T _UR和M^T _RT分别表示传播后的TU矩阵、UR矩阵和RT矩阵的转置矩阵。

7.根据权利要求1所述基于相似性传播与流行度降维的混合推荐方法，其特征在于，所述步骤5)将基于内容的推荐和协同过滤推荐两种方法结合起来，预测结果值如下：

Rank_Hybrid(u_i，r_j)＝αRank_Content(u_i，r_j)+(1-α)Rank_CF(u_i，r_j)

Rank_Content(u_i，r_j)的计算公式为：

Rank_Content(u_i，r_j)＝sim(Ut_i，，rt_j，)

sim(ut_i，rt_j)为传统的修正的余弦相似度公式，公式如下：

sim ({ut}_{i}, {rt}_{j}) = \frac{\underset{t &Element; T}{Σ} ({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}}) ({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}{\sqrt{\underset{t &Element; T}{Σ} {({ut}_{u_{i}, t} - \overset{&OverBar;}{{ut}_{u_{i}}})}^{2}} \sqrt{\underset{t &Element; T}{Σ} {({rt}_{r_{j}, t} - \overset{&OverBar;}{{rt}_{r_{j}}})}^{2}}}

Ra {nk}_{CF} (u_{i}, r_{j}) = \overset{&OverBar;}{{ur}_{u_{i}}} + \frac{\underset{u_{k} &Element; {NN}_{u_{i}}}{Σ} {uu}_{u_{i}, u_{k} \times ({ur}_{u_{k}, r_{j}} - \overset{&OverBar;}{{ur}_{u_{k}}})}}{\underset{u_{k} &Element; {NN}_{u_{i}}}{Σ} {uu}_{u_{i}, u_{k}}}

其中，和分别表示用户u_i和用户u_k的平均评分值为用户u_i和用户u_k的相似性；为用户u_k对资源r_j的评分，表示用户u_i的最近邻居集合。