CN102508870A - 一种结合评分数据与标签数据的个性化推荐方法 - Google Patents
一种结合评分数据与标签数据的个性化推荐方法 Download PDFInfo
- Publication number
- CN102508870A CN102508870A CN2011103069414A CN201110306941A CN102508870A CN 102508870 A CN102508870 A CN 102508870A CN 2011103069414 A CN2011103069414 A CN 2011103069414A CN 201110306941 A CN201110306941 A CN 201110306941A CN 102508870 A CN102508870 A CN 102508870A
- Authority
- CN
- China
- Prior art keywords
- label
- user
- product
- data
- sigma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000001914 filtration Methods 0.000 claims abstract description 18
- 238000012217 deletion Methods 0.000 claims description 2
- 230000037430 deletion Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 10
- 238000004140 cleaning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种结合评分数据与标签数据的个性化推荐方法,根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据,然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度,生成目标用户的相似用户群,最后根据相似用户群的评分来预测目标用户对产品的未知评分。本方法通过结合评分数据和标签数据来计算用户间的相似度,从而使计算得到的相似度更精确,并最终为目标用户产生更精确的预测评分,提高了推荐的效果。
Description
技术领域
本发明属于个性化推荐领域,通过结合用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据,并采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度,寻找目标用户的相似用户群。本发明主要应用于同时拥有用户对产品的评分数据和产品被标记的标签数据的WEB应用场景,为一种结合评分数据与标签数据的个性化推荐方法。
背景技术
随着互联网的不断发展,个性化推荐技术越来越重要。个性化推荐技术能够帮助用户在海量产品中快速找到他们真正需要的。基于用户的协同过滤是一种非常成功并且应用广泛的推荐技术。传统的基于用户的协同过滤采用用户对产品的评分数据来计算用户间的相似度,寻找目标用户的相似用户群,然后根据相似用户群的评分来预测目标用户对产品的未知评分。
在传统的基于用户的协同过滤中,两个用户u和v间的相似度采用皮尔逊相关系数计算,公式如下:
用户u对产品m的评分如果未知,可以通过下面公式预测:
传统的基于用户的协同过滤存在下列问题:若用户u和v没有共同给任何产品评过分,即Iu,v是空集,那么u和v间的相似度就无法使用上面的公式计算。若用户u和v共同评过分的产品数很少,那么u和v间的相似度按上面的公式计算就可能不精确。
传统的基于用户的协同过滤仅考虑两个用户u和v共同评分的产品来计算他们间的相似度,而忽略了他们的单独评分。而实际上,用户的单独评分(u评过v没有评过或v评过u没有评过)也是有用的信息,也可以反映用户的兴趣。
发明内容
本发明所要解决的技术问题是:现有的基于用户的协同过滤方法在两个用户的共同评分的产品很少的情况下,计算得到的用户间相似度可能不精确,从而导致预测评分不精确,影响推荐结果。
本发明的技术方案为:一种结合评分数据与标签数据的个性化推荐方法,根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据,然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度,生成目标用户的相似用户群,最后根据相似用户群的评分来预测目标用户对产品的未知评分,对目标用户进行个性化推荐。
具体实现为:
1)预先对标签数据进行清洗,包括筛选和去除两种方法:1)选择被两个以上用户使用过,并被用于5个以上产品的标签;2)设定删除关键词,去除含有所设定关键词的标签;
2)对标签的共同发生概率分布进行计算,标签z的共同发生概率分布计算公式如下:
pz(t)=∑m∈Iq(t|m)Q(m|z)
其中,I代表所有产品的集合;
q(t|m)代表在确定产品m的前提条件下,对m使用标签t的概率;
Q(m|z)代表在确定标签z的前提条件下,z被用于产品m的概率;
pz(t)代表在确定标签z的前提条件下,标签t也被用于同一件产品的概率;
3)计算用户对标签的评分,用户u对标签t的评分计算如下:
其中,Iu代表用户u评过分的产品的集合;w(m,t)代表标签t在产品m中的权重;Tm代表产品m上的标签的集合;n(m,z)代表标签z被用于产品m的次数;
4)计算用户间的相似度,两个用户u和v间的相似度计算如下:
5)预测用户对产品的未知评分,用户u对产品m的评分计算公式如下:
根据预测目标用户对产品的未知评分,对目标用户进行个性化推荐。
标签数据是用户对产品进行的标记,既可以看作是用户的兴趣的描述,也可以看作是产品信息的描述。标签数据给推荐系统带来了新的机遇,并已经被很多方法成功地引入推荐系统中用于产生更好的推荐结果。本发明结合用户对产品的评分数据和产品被标记的标签数据,计算生成用户对标签的评分数据。本发明在计算用户对标签的评分数据时考虑了标签之间的联系,从而使计算得到的用户对标签的评分数据更精确;采用基于用户的协同过滤的思想根据用户对标签的评分计算用户间的相似度,寻找目标用户的相似用户群,相对传统的基于用户的协同过滤方法计算得到的用户间相似度更精确,预测的评分更精确,推荐结果更好。本发明提出的方法已经在著名的movielens数据集上进行了一系列的实验,实验结果也证实了本发明提出的方法比传统的基于用户的协同过滤方法得到的推荐效果更好。
具体实施方式
本发明的特征如下:
1)预先对标签数据进行清洗,提高标签数据的质量;
2)同时采用用户对产品的评分数据与产品被标记的标签数据,并有效结合计算生成用户对标签的评分数据;
3)在计算步骤(2)中的用户对标签的评分数据时,考虑了标签间的联系。标签间的联系采用计算标签共同出现的概率分布方法来表示;
4)采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度,生成目标用户的相似用户。
本发明结合用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据,然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度,生成目标用户的相似用户群,最后根据相似用户群的评分来预测目标用户对产品的未知评分。
本发明已经在movielens数据集上做了一系列实验,具体的实施步骤如下:
1)预先对标签数据进行清洗,提高标签数据的质量。标签数据是用户自由创建的,往往存在标签数据的质量不高。对标签进行有效地清洗是最终能够产生好的推荐结果的关键。本发明设定的清洗的方法有两个:一是选择被两个以上用户使用过,并被用于5个以上产品的标签,目的是去除一些使用很少的意义不大的标签;二是去除本身代表喜好评价,不适合评分的词,例如“好”,“差”等。清洗后得到1154个不同的标签。
2)选择适合进行实验的产品集合。因为movielens数据集在之前的版本中是没有标签数据的,movielens网站的标签系统是在评分系统之后加入的,所有很多产品只有评分数据,没有或只有很少标签数据。实验选择了所有拥有15个标签以上的产品,得到484个产品。
3)考虑标签间的联系,对标签的共同发生概率分布进行计算,标签z的共同发生概率分布计算公式如下:
pz(t)=∑m∈Iq(t|m)Q(m|z)
其中,I代表所有产品的集合;
q(t |m)代表在确定产品m的前提条件下,对m使用标签t的概率;
Q(m|z)代表在确定标签z的前提条件下,z被用于产品m的概率;
pz(t)代表在确定标签z的前提条件下,标签t也被用于同一件产品的概率。
4)选择合适的用户进行实验。本发明进行了多次重复实验,每次实验挑选出不同的用户集进行实验。每次实验挑选出的用户集评过的产品数目不同。每次实验会对每个用户随机挑选30个评分形成测试集,剩余的评分构成训练集。由于每次实验选取的用户集评过的产品数目不同,所以每次实验的训练集的稀疏度不同。(评分数据越少,稀疏度越高。稀疏度代表未知评分的百分比。)
4)每次实验,计算每个选取出来的用户对标签的评分,用户u对标签t的评分计算公式如下:
在上面公式中,Iu代表用户u评过分的产品的集合;w(m,t)代表标签t在产品m中的权重;Tm代表产品m上的标签的集合;n(m,z)代表标签z被用于产品m的次数。
5)计算用户间的相似度,两个用户u和v间的相似度计算公式如下:
6)预测用户对产品的未知评分,用户u对产品m的评分计算公式如下:
实验采用MAE和RMSE来度量推荐的效果。MAE代表预测评分的平均绝对值误差,RMSE代表预测评分的均方根误差。MAE,RMSE越小,推荐的效果越好。
下面两张表展示了本发明提出的方法和传统的基于用户的协同过滤的对比。表中n(m)代表选取的用户评过的产品数目的范围,n(u)代表选取的用户的数目,U-CF-IR代表传统的基于用户的协同过滤,U-CF-TR代表本发明提出的方法。
表一:MAE
n(m) | >280 | 215-240 | 155-165 | 100-105 | 75-79 |
n(U) | 543 | 571 | 565 | 588 | 601 |
U-CF-IR | 0.572 | 0.581 | 0.606 | 0.648 | 0.670 |
U-CF-TR | 0.561 | 0.571 | 0.595 | 0.629 | 0.636 |
表二:RMSE
n(m) | >280 | 215-240 | 155-165 | 100-105 | 75-79 |
n(U) | 543 | 571 | 565 | 588 | 601 |
U-CF-IR | 0.566 | 0.587 | 0.644 | 0.717 | 0.757 |
U-CF-TR | 0.547 | 0.567 | 0.622 | 0.671 | 0.688 |
由表一和表二可以看出本发明提出的方法无论采用MAE度量还是采用RMSE度量,都比传统的基于用户的协同过滤推荐的效果更好。实验重复了5次,每次测试集的稀疏度不同,但是本发明提出的方法在各个稀疏度下均能够提升推荐的效果。尤其当稀疏度较大(参见表的后两列),本发明提出的方法对推荐效果的提升更明显。
本发明提供的方法通过引入标签数据把两个用户的所有评分充分利用,转化为用户对标签的评分,再利用用户对标签的评分计算用户间的相似度,计算得到的相似度更精确,从而可以达到更好的推荐效果。
Claims (2)
1.一种结合评分数据与标签数据的个性化推荐方法,其特征是根据用户对产品的评分数据和产品被标记的标签数据计算生成用户对标签的评分数据,然后采用基于用户的协同过滤思想来根据用户对标签的评分数据计算用户间的相似度,生成目标用户的相似用户群,最后根据相似用户群的评分来预测目标用户对产品的未知评分,对目标用户进行个性化推荐。
2.根据权利要求1所述的一种结合评分数据与标签数据的个性化推荐方法,其特征是具体实现为:
1)预先对标签数据进行清洗,包括筛选和去除两种方法:1)选择被两个以上用户使用过,并被用于5个以上产品的标签;2)设定删除关键词,去除含有所设定关键词的标签;
2)对标签的共同发生概率分布进行计算,标签z的共同发生概率分布计算公式如下:
pz(t)=∑m∈Iq(t|m)Q(m|z)
其中,I代表所有产品的集合;
q(t|m)代表在确定产品m的前提条件下,对m使用标签t的概率;
Q(m|z)代表在确定标签z的前提条件下,z被用于产品m的概率;
pz(t)代表在确定标签z的前提条件下,标签t也被用于同一件产品的概率;
3)计算用户对标签的评分,用户u对标签t的评分计算如下:
其中,Iu代表用户u评过分的产品的集合;w(m,t)代表标签t在产品m中的权重;Tm代表产品m上的标签的集合;n(m,z)代表标签z被用于产品m的次数;
4)计算用户间的相似度,两个用户u和v间的相似度计算如下:
5)预测用户对产品的未知评分,用户u对产品m的评分计算公式如下:
根据预测目标用户对产品的未知评分,对目标用户进行个性化推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110306941.4A CN102508870B (zh) | 2011-10-10 | 2011-10-10 | 一种结合评分数据与标签数据的个性化推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110306941.4A CN102508870B (zh) | 2011-10-10 | 2011-10-10 | 一种结合评分数据与标签数据的个性化推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102508870A true CN102508870A (zh) | 2012-06-20 |
CN102508870B CN102508870B (zh) | 2013-09-11 |
Family
ID=46220956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110306941.4A Expired - Fee Related CN102508870B (zh) | 2011-10-10 | 2011-10-10 | 一种结合评分数据与标签数据的个性化推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102508870B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855333A (zh) * | 2012-09-27 | 2013-01-02 | 南京大学 | 一种基于组推荐的服务选取系统及其选取方法 |
CN102866786A (zh) * | 2012-09-11 | 2013-01-09 | 广东威创视讯科技股份有限公司 | 基于用户偏好的输入方法选择方法和系统 |
CN102880501A (zh) * | 2012-07-24 | 2013-01-16 | 北京奇虎科技有限公司 | 应用推荐的实现方法、装置和系统 |
CN104615683A (zh) * | 2015-01-21 | 2015-05-13 | 上海交通大学 | 一种具有高可扩展性的时间及位置感知的协同过滤技术 |
CN105205130A (zh) * | 2015-09-15 | 2015-12-30 | 广东工业大学 | 一种提升推荐系统准确性的方法 |
CN105426550A (zh) * | 2015-12-28 | 2016-03-23 | Tcl集团股份有限公司 | 一种基于用户质量模型的协同过滤标签推荐方法及系统 |
CN105488194A (zh) * | 2015-12-03 | 2016-04-13 | 山东金佳园科技股份有限公司 | 一种相似用户识别方法及装置 |
CN105630880A (zh) * | 2015-12-17 | 2016-06-01 | 东软集团股份有限公司 | 一种评分数据预测方法及装置 |
CN105653693A (zh) * | 2015-12-30 | 2016-06-08 | 东软集团股份有限公司 | 一种个性化推荐方法及装置 |
CN105809559A (zh) * | 2016-03-15 | 2016-07-27 | 微梦创科网络科技(中国)有限公司 | 一种在社交网络中挖掘能力用户的方法和装置 |
CN106250522A (zh) * | 2016-08-03 | 2016-12-21 | 浙江工业大学 | 一种基于高斯估计的在线餐饮主标签数据快速提取方法 |
CN106779941A (zh) * | 2016-12-14 | 2017-05-31 | 山东大学 | 基于矩阵和张量联合分解的汽车推荐方法及系统 |
CN106910148A (zh) * | 2017-01-19 | 2017-06-30 | 崔翛龙 | 基于协同过滤的指挥要素自适应推送方法 |
CN107203558A (zh) * | 2016-03-17 | 2017-09-26 | 腾讯科技(深圳)有限公司 | 对象推荐方法和装置、推荐信息处理方法和装置 |
CN107483982A (zh) * | 2017-07-11 | 2017-12-15 | 北京潘达互娱科技有限公司 | 一种主播推荐方法与装置 |
CN108038120A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 协同过滤推荐方法、电子设备及计算机可读存储介质 |
WO2022116422A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、电子设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826114A (zh) * | 2010-05-26 | 2010-09-08 | 南京大学 | 一种基于多马尔可夫链的内容推荐方法 |
CN102073717A (zh) * | 2011-01-07 | 2011-05-25 | 南京大学 | 一种面向垂直电子商务网站的首页推荐方法 |
-
2011
- 2011-10-10 CN CN201110306941.4A patent/CN102508870B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101826114A (zh) * | 2010-05-26 | 2010-09-08 | 南京大学 | 一种基于多马尔可夫链的内容推荐方法 |
CN102073717A (zh) * | 2011-01-07 | 2011-05-25 | 南京大学 | 一种面向垂直电子商务网站的首页推荐方法 |
Non-Patent Citations (1)
Title |
---|
何克勤: "《基于标签的推荐系统模型及算法研究》", 《中国优秀硕士学位论文全文数据库》, 31 July 2011 (2011-07-31), pages 15 - 21 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880501A (zh) * | 2012-07-24 | 2013-01-16 | 北京奇虎科技有限公司 | 应用推荐的实现方法、装置和系统 |
CN102866786A (zh) * | 2012-09-11 | 2013-01-09 | 广东威创视讯科技股份有限公司 | 基于用户偏好的输入方法选择方法和系统 |
CN102855333A (zh) * | 2012-09-27 | 2013-01-02 | 南京大学 | 一种基于组推荐的服务选取系统及其选取方法 |
CN104615683A (zh) * | 2015-01-21 | 2015-05-13 | 上海交通大学 | 一种具有高可扩展性的时间及位置感知的协同过滤技术 |
CN105205130A (zh) * | 2015-09-15 | 2015-12-30 | 广东工业大学 | 一种提升推荐系统准确性的方法 |
CN105488194A (zh) * | 2015-12-03 | 2016-04-13 | 山东金佳园科技股份有限公司 | 一种相似用户识别方法及装置 |
CN105488194B (zh) * | 2015-12-03 | 2019-05-14 | 山东金佳园科技股份有限公司 | 一种相似用户识别方法及装置 |
CN105630880A (zh) * | 2015-12-17 | 2016-06-01 | 东软集团股份有限公司 | 一种评分数据预测方法及装置 |
CN105426550A (zh) * | 2015-12-28 | 2016-03-23 | Tcl集团股份有限公司 | 一种基于用户质量模型的协同过滤标签推荐方法及系统 |
CN105426550B (zh) * | 2015-12-28 | 2020-02-07 | Tcl集团股份有限公司 | 一种基于用户质量模型的协同过滤标签推荐方法及系统 |
CN105653693A (zh) * | 2015-12-30 | 2016-06-08 | 东软集团股份有限公司 | 一种个性化推荐方法及装置 |
CN105809559A (zh) * | 2016-03-15 | 2016-07-27 | 微梦创科网络科技(中国)有限公司 | 一种在社交网络中挖掘能力用户的方法和装置 |
CN107203558A (zh) * | 2016-03-17 | 2017-09-26 | 腾讯科技(深圳)有限公司 | 对象推荐方法和装置、推荐信息处理方法和装置 |
CN106250522A (zh) * | 2016-08-03 | 2016-12-21 | 浙江工业大学 | 一种基于高斯估计的在线餐饮主标签数据快速提取方法 |
CN106250522B (zh) * | 2016-08-03 | 2019-11-05 | 浙江工业大学 | 一种基于高斯估计的在线餐饮主标签数据快速提取方法 |
CN106779941B (zh) * | 2016-12-14 | 2019-11-19 | 山东大学 | 基于矩阵和张量联合分解的汽车推荐方法及系统 |
CN106779941A (zh) * | 2016-12-14 | 2017-05-31 | 山东大学 | 基于矩阵和张量联合分解的汽车推荐方法及系统 |
CN106910148A (zh) * | 2017-01-19 | 2017-06-30 | 崔翛龙 | 基于协同过滤的指挥要素自适应推送方法 |
CN106910148B (zh) * | 2017-01-19 | 2020-11-17 | 崔翛龙 | 基于协同过滤的指挥要素自适应推送方法 |
CN107483982A (zh) * | 2017-07-11 | 2017-12-15 | 北京潘达互娱科技有限公司 | 一种主播推荐方法与装置 |
CN108038120A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 协同过滤推荐方法、电子设备及计算机可读存储介质 |
WO2022116422A1 (zh) * | 2020-12-01 | 2022-06-09 | 平安科技(深圳)有限公司 | 产品推荐方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102508870B (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102508870B (zh) | 一种结合评分数据与标签数据的个性化推荐方法 | |
CN102591915B (zh) | 一种基于标签迁移学习的推荐方法 | |
CN105808762B (zh) | 资源排序方法和装置 | |
CN103399858A (zh) | 基于信任的社会化协同过滤推荐方法 | |
CN105069072A (zh) | 基于情感分析的混合用户评分信息推荐方法及其推荐装置 | |
CN103678431A (zh) | 一种基于标准标签和项目评分的推荐方法 | |
CN103309967A (zh) | 基于相似性传递的协同过滤方法及系统 | |
CN101853470A (zh) | 一种基于社会化标签的协同过滤方法 | |
CN105786983A (zh) | 一种基于学习地图与协同过滤的员工个性化学习推荐方法 | |
CN101944218A (zh) | 社会网络下的基于图的个性化推荐方法及其系统 | |
Niu et al. | FUIR: Fusing user and item information to deal with data sparsity by using side information in recommendation systems | |
CN104573103A (zh) | 一种科技文献异构网络下合作作者推荐方法 | |
CN103810101A (zh) | 一种软件缺陷预测方法和软件缺陷预测系统 | |
CN103942298A (zh) | 基于线性回归的推荐方法及系统 | |
CN103853789A (zh) | 一种用于向用户推荐信息的方法和设备 | |
CN103337028B (zh) | 一种推荐方法、装置 | |
CN105447193A (zh) | 一种基于机器学习和协同过滤的音乐推荐系统 | |
CN103324708A (zh) | 一种长文本到短文本的迁移学习方法 | |
CN103412865B (zh) | 网站项目的通知方法和系统 | |
CN107480213A (zh) | 基于时序文本网络的社区检测与用户关系预测方法 | |
Kavinkumar et al. | A hybrid approach for recommendation system with added feedback component | |
CN108171545A (zh) | 一种基于层次等级数据的转化率预估方法 | |
CN105404687A (zh) | 学习行为的个性化推荐方法及系统 | |
Nath et al. | Socio–demographics as antecedents of green purchase intentions: a review of literature and testing of hypothesis on Indian consumers | |
CN103593334A (zh) | 一种用于判断文本情感程度的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130911 Termination date: 20151010 |
|
EXPY | Termination of patent right or utility model |