CN102508870A

CN102508870A - 一种结合评分数据与标签数据的个性化推荐方法

Info

Publication number: CN102508870A
Application number: CN2011103069414A
Authority: CN
Inventors: 刘嘉; 祁奇; 陈振宇; 吴清; 王维清
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2011-10-10
Filing date: 2011-10-10
Publication date: 2012-06-20
Anticipated expiration: 2031-10-10
Also published as: CN102508870B

Abstract

一种结合评分数据与标签数据的个性化推荐方法，根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据，然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度，生成目标用户的相似用户群，最后根据相似用户群的评分来预测目标用户对产品的未知评分。本方法通过结合评分数据和标签数据来计算用户间的相似度，从而使计算得到的相似度更精确，并最终为目标用户产生更精确的预测评分，提高了推荐的效果。

Description

一种结合评分数据与标签数据的个性化推荐方法

技术领域

本发明属于个性化推荐领域，通过结合用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据，并采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度，寻找目标用户的相似用户群。本发明主要应用于同时拥有用户对产品的评分数据和产品被标记的标签数据的WEB应用场景，为一种结合评分数据与标签数据的个性化推荐方法。

背景技术

随着互联网的不断发展，个性化推荐技术越来越重要。个性化推荐技术能够帮助用户在海量产品中快速找到他们真正需要的。基于用户的协同过滤是一种非常成功并且应用广泛的推荐技术。传统的基于用户的协同过滤采用用户对产品的评分数据来计算用户间的相似度，寻找目标用户的相似用户群，然后根据相似用户群的评分来预测目标用户对产品的未知评分。

在传统的基于用户的协同过滤中，两个用户u和v间的相似度采用皮尔逊相关系数计算，公式如下：

S (u, v) = \frac{Σ_{m &Element; I_{u, v}} (r_{u, m} - {\overset{&OverBar;}{r}}_{u, m}) (r_{v, m} - {\overset{&OverBar;}{r}}_{v, m})}{\sqrt{Σ_{m &Element; I_{u, v}} {(r_{u, m} - {\overset{&OverBar;}{r}}_{u, m})}^{2} Σ_{m &Element; I_{u, v}} {(r_{v, m} - {\overset{&OverBar;}{r}}_{v, m})}^{2}}}

在上面公式中，I_u，v代表用户u和v共同评过分的产品的集合；和

分别代表用户u和v对I_u，v中所有产品的平均评分。

用户u对产品m的评分如果未知，可以通过下面公式预测：

{\hat{r}}_{u, m} = {\overset{&OverBar;}{r}}_{u} + \frac{Σ_{v &Element; U_{m}} s (u, v) (r_{v, m} - {\overset{&OverBar;}{r}}_{v})}{Σ_{v &Element; U_{m}} | s (u, v) |}

在上面公式中，U_m代表所有对m评过分的用户，

和

分别代表用户u和v对所有产品的平均评分。

传统的基于用户的协同过滤存在下列问题：若用户u和v没有共同给任何产品评过分，即I_u，v是空集，那么u和v间的相似度就无法使用上面的公式计算。若用户u和v共同评过分的产品数很少，那么u和v间的相似度按上面的公式计算就可能不精确。

传统的基于用户的协同过滤仅考虑两个用户u和v共同评分的产品来计算他们间的相似度，而忽略了他们的单独评分。而实际上，用户的单独评分(u评过v没有评过或v评过u没有评过)也是有用的信息，也可以反映用户的兴趣。

发明内容

本发明所要解决的技术问题是：现有的基于用户的协同过滤方法在两个用户的共同评分的产品很少的情况下，计算得到的用户间相似度可能不精确，从而导致预测评分不精确，影响推荐结果。

本发明的技术方案为：一种结合评分数据与标签数据的个性化推荐方法，根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据，然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度，生成目标用户的相似用户群，最后根据相似用户群的评分来预测目标用户对产品的未知评分，对目标用户进行个性化推荐。

具体实现为：

1)预先对标签数据进行清洗，包括筛选和去除两种方法：1)选择被两个以上用户使用过，并被用于5个以上产品的标签；2)设定删除关键词，去除含有所设定关键词的标签；

2)对标签的共同发生概率分布进行计算，标签z的共同发生概率分布计算公式如下：

p_z(t)＝∑_m∈Iq(t|m)Q(m|z)

其中，I代表所有产品的集合；

q(t|m)代表在确定产品m的前提条件下，对m使用标签t的概率；

Q(m|z)代表在确定标签z的前提条件下，z被用于产品m的概率；

p_z(t)代表在确定标签z的前提条件下，标签t也被用于同一件产品的概率；

3)计算用户对标签的评分，用户u对标签t的评分计算如下：

{\hat{r}}_{u, t} = \frac{Σ_{m &Element; I_{u}} w (m, t) r_{u, m}}{Σ_{m &Element; I_{u}} w (m, t)}

w (m, t) = \frac{Σ_{z &Element; T_{m}} n (m, z) p_{z} (t)}{Σ_{z &Element; T_{m}} n (m, z)}

其中，I_u代表用户u评过分的产品的集合；w(m，t)代表标签t在产品m中的权重；T_m代表产品m上的标签的集合；n(m，z)代表标签z被用于产品m的次数；

4)计算用户间的相似度，两个用户u和v间的相似度计算如下：

S^{'} (u, v) = \frac{Σ_{t &Element; T_{u, v}} (r_{u, t} - {\overset{&OverBar;}{r}}_{u, t}) (r_{v, t} - {\overset{&OverBar;}{r}}_{v, t})}{\sqrt{Σ_{t &Element; T_{u, v}} {(r_{u, t} - {\overset{&OverBar;}{r}}_{u, t})}^{2} Σ_{t &Element; T_{u, v}} {(r_{v, t} - {\overset{&OverBar;}{r}}_{v, t})}^{2}}}

其中，T_u，v代表用户u和v共同评过分的标签的集合；

和

分别代表用户u和v对T_u，v中所有产品的平均评分；

5)预测用户对产品的未知评分，用户u对产品m的评分计算公式如下：

{\hat{r}}_{u, m} = {\overset{&OverBar;}{r}}_{u, m, t} + \frac{Σ_{v} &Element; U_{m}, s^{'} (u, v) > {0 s}^{'} (u, v) (r_{v, m} - {\overset{&OverBar;}{r}}_{v, m, t})}{Σ_{v} &Element; U_{m}, s^{'} (u, v) > {0 s}^{'} (u, v)}

其中，U_m代表所有对m评过分的用户，

和分别代表用户u和v对产品m上的所有标签的平均评分；

根据预测目标用户对产品的未知评分，对目标用户进行个性化推荐。

标签数据是用户对产品进行的标记，既可以看作是用户的兴趣的描述，也可以看作是产品信息的描述。标签数据给推荐系统带来了新的机遇，并已经被很多方法成功地引入推荐系统中用于产生更好的推荐结果。本发明结合用户对产品的评分数据和产品被标记的标签数据，计算生成用户对标签的评分数据。本发明在计算用户对标签的评分数据时考虑了标签之间的联系，从而使计算得到的用户对标签的评分数据更精确；采用基于用户的协同过滤的思想根据用户对标签的评分计算用户间的相似度，寻找目标用户的相似用户群，相对传统的基于用户的协同过滤方法计算得到的用户间相似度更精确，预测的评分更精确，推荐结果更好。本发明提出的方法已经在著名的movielens数据集上进行了一系列的实验，实验结果也证实了本发明提出的方法比传统的基于用户的协同过滤方法得到的推荐效果更好。

具体实施方式

本发明的特征如下：

1)预先对标签数据进行清洗，提高标签数据的质量；

2)同时采用用户对产品的评分数据与产品被标记的标签数据，并有效结合计算生成用户对标签的评分数据；

3)在计算步骤(2)中的用户对标签的评分数据时，考虑了标签间的联系。标签间的联系采用计算标签共同出现的概率分布方法来表示；

4)采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度，生成目标用户的相似用户。

本发明结合用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据，然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度，生成目标用户的相似用户群，最后根据相似用户群的评分来预测目标用户对产品的未知评分。

本发明已经在movielens数据集上做了一系列实验，具体的实施步骤如下：

1)预先对标签数据进行清洗，提高标签数据的质量。标签数据是用户自由创建的，往往存在标签数据的质量不高。对标签进行有效地清洗是最终能够产生好的推荐结果的关键。本发明设定的清洗的方法有两个：一是选择被两个以上用户使用过，并被用于5个以上产品的标签，目的是去除一些使用很少的意义不大的标签；二是去除本身代表喜好评价，不适合评分的词，例如“好”，“差”等。清洗后得到1154个不同的标签。

2)选择适合进行实验的产品集合。因为movielens数据集在之前的版本中是没有标签数据的，movielens网站的标签系统是在评分系统之后加入的，所有很多产品只有评分数据，没有或只有很少标签数据。实验选择了所有拥有15个标签以上的产品，得到484个产品。

3)考虑标签间的联系，对标签的共同发生概率分布进行计算，标签z的共同发生概率分布计算公式如下：

p_z(t)＝∑_m∈Iq(t|m)Q(m|z)

其中，I代表所有产品的集合；

q(t |m)代表在确定产品m的前提条件下，对m使用标签t的概率；

Q(m|z)代表在确定标签z的前提条件下，z被用于产品m的概率；

p_z(t)代表在确定标签z的前提条件下，标签t也被用于同一件产品的概率。

4)选择合适的用户进行实验。本发明进行了多次重复实验，每次实验挑选出不同的用户集进行实验。每次实验挑选出的用户集评过的产品数目不同。每次实验会对每个用户随机挑选30个评分形成测试集，剩余的评分构成训练集。由于每次实验选取的用户集评过的产品数目不同，所以每次实验的训练集的稀疏度不同。(评分数据越少，稀疏度越高。稀疏度代表未知评分的百分比。)

4)每次实验，计算每个选取出来的用户对标签的评分，用户u对标签t的评分计算公式如下：

{\hat{r}}_{u, t} = \frac{Σ_{m &Element; I_{u}} w (m, t) r_{u, m}}{Σ_{m &Element; I_{u}} w (m, t)}

w (m, t) = \frac{Σ_{z &Element; T_{m}} n (m, z) p_{z} (t)}{Σ_{z &Element; T_{m}} n (m, z)}

在上面公式中，I_u代表用户u评过分的产品的集合；w(m，t)代表标签t在产品m中的权重；T_m代表产品m上的标签的集合；n(m，z)代表标签z被用于产品m的次数。

5)计算用户间的相似度，两个用户u和v间的相似度计算公式如下：

S^{'} (u, v) = \frac{Σ_{t &Element; T_{u, v}} (r_{u, t} - {\overset{&OverBar;}{r}}_{u, t}) (r_{v, t} - {\overset{&OverBar;}{r}}_{v, t})}{\sqrt{Σ_{t &Element; T_{u, v}} {(r_{u, t} - {\overset{&OverBar;}{r}}_{u, t})}^{2} Σ_{t &Element; T_{u, v}} {(r_{v, t} - {\overset{&OverBar;}{r}}_{v, t})}^{2}}}

在上面公式中，T_u，v代表用户u和v共同评过分的标签的集合；

和分别代表用户u和v对T_u，v中所有产品的平均评分。

6)预测用户对产品的未知评分，用户u对产品m的评分计算公式如下：

{\hat{r}}_{u, m} = {\overset{&OverBar;}{r}}_{u, m, t} + \frac{Σ_{v} &Element; U_{m}, s^{'} (u, v) > {0 s}^{'} (u, v) (r_{v, m} - {\overset{&OverBar;}{r}}_{v, m, t})}{Σ_{v} &Element; U_{m}, s^{'} (u, v) > {0 s}^{'} (u, v)}

在上面公式中，U_m代表所有对m评过分的用户，

和

分别代表用户u和v对产品m上的所有标签的平均评分。

实验采用MAE和RMSE来度量推荐的效果。MAE代表预测评分的平均绝对值误差，RMSE代表预测评分的均方根误差。MAE，RMSE越小，推荐的效果越好。

下面两张表展示了本发明提出的方法和传统的基于用户的协同过滤的对比。表中n(m)代表选取的用户评过的产品数目的范围，n(u)代表选取的用户的数目，U-CF-IR代表传统的基于用户的协同过滤，U-CF-TR代表本发明提出的方法。

表一：MAE

n(m)	＞280	215-240	155-165	100-105	75-79
						n(U)	543	571	565	588	601
U-CF-IR	0.572	0.581	0.606	0.648	0.670
						U-CF-TR	0.561	0.571	0.595	0.629	0.636

表二：RMSE

n(m)	＞280	215-240	155-165	100-105	75-79
						n(U)	543	571	565	588	601
U-CF-IR	0.566	0.587	0.644	0.717	0.757
						U-CF-TR	0.547	0.567	0.622	0.671	0.688

由表一和表二可以看出本发明提出的方法无论采用MAE度量还是采用RMSE度量，都比传统的基于用户的协同过滤推荐的效果更好。实验重复了5次，每次测试集的稀疏度不同，但是本发明提出的方法在各个稀疏度下均能够提升推荐的效果。尤其当稀疏度较大(参见表的后两列)，本发明提出的方法对推荐效果的提升更明显。

本发明提供的方法通过引入标签数据把两个用户的所有评分充分利用，转化为用户对标签的评分，再利用用户对标签的评分计算用户间的相似度，计算得到的相似度更精确，从而可以达到更好的推荐效果。

Claims

1.一种结合评分数据与标签数据的个性化推荐方法，其特征是根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据，然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度，生成目标用户的相似用户群，最后根据相似用户群的评分来预测目标用户对产品的未知评分，对目标用户进行个性化推荐。

2.根据权利要求1所述的一种结合评分数据与标签数据的个性化推荐方法，其特征是具体实现为：

p_z(t)＝∑_m∈Iq(t|m)Q(m|z)