CN104899321A - 一种基于项目属性评分均值的协同过滤推荐方法 - Google Patents

一种基于项目属性评分均值的协同过滤推荐方法 Download PDF

Info

Publication number
CN104899321A
CN104899321A CN201510342385.4A CN201510342385A CN104899321A CN 104899321 A CN104899321 A CN 104899321A CN 201510342385 A CN201510342385 A CN 201510342385A CN 104899321 A CN104899321 A CN 104899321A
Authority
CN
China
Prior art keywords
user
scoring
item
project
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510342385.4A
Other languages
English (en)
Inventor
龚安
高洪福
高云
唐永红
曾雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201510342385.4A priority Critical patent/CN104899321A/zh
Publication of CN104899321A publication Critical patent/CN104899321A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种基于项目属性评分均值的协同过滤推荐方法。为解决传统协同过滤推荐算法在单一评分数据集上的推荐精度低等问题,提出一种基于项目属性评分均值的推荐方法。首先构造用户-项目评分矩阵,然后采用均值方法构造用户-项目属性评分矩阵、确定项目属性。其次基于每个属性评分矩阵,计算目标用户与各用户的皮尔逊相似度,得到目标用户的最近邻居集。然后针对每个最近邻居集,在用户-项目评分矩阵上完成对目标用户对目标项目的初步评分预测。最后,将多个初步预测评分取平均值作为最终的预测评分,将评分最高的T个项目推荐给目标用户,完成推荐。实验结果表明,该算法能有效提高单一评分数据集上的推荐精度。

Description

一种基于项目属性评分均值的协同过滤推荐方法
技术领域
本发明涉及一种协同过滤推荐方法,尤其涉及一种基于项目属性评分均值的协同过滤推荐方法。
背景技术
随着Internet和电子商务的迅猛发展,“信息爆炸”和“信息过载”问题越来越严重,用户很难从海量的信息中找到自己真正需要的信息。推荐系统可以在用户目的不明确的情况下帮助用户找到可能感兴趣的信息并推荐给用户。协同过滤是现行推荐系统中应用最广泛最成功的技术之一,但其需要维护一个存储用户偏好的数据库。因此,随着系统中用户和项目数量的不断增加,协同过滤面临严峻的用户评分数据稀疏性、推荐实时性、可扩展性挑战,推荐质量迅速下降。针对上述问题,迫切需要一种能够提高推荐质量的推荐方法。
发明内容
针对协同过滤推荐算法在单一评分数据集上存在预测精度低的问题,本发明研制一种基于项目属性评分均值的协同过滤推荐方法。
本发明其特征在于,包括以下步骤:
(1)用户-项目属性评分矩阵的构造。定义项目的属性集为A={A1,A2,…,Ak,…Al},Ak={a1,a2,…,at}。需要注意的是,对于某一项目的属性Ak,其可能有多个取值。例如,一部电影既是动作片又是科幻片,一件商品既是女装又是户外等。设用户对第k个属性Ak的评分矩阵为G,表示如下:
其中,m为用户数量,t是属性Ak值的数量。
确定用户对各属性值的评分,即gij。采用均值法:即以用户对具有某一属性值的项目的评分的均值作为其评分,定义如下:
g i j = Σ h = 1 N r h N
其中,N代表用户i评价过的Ak=aj的项目的数量,rh代表用户对Ak=aj的项目的评分。
由定义可知,每个用户对每个属性值的评分至多只有一个值,例如,用户A对喜剧电影的评分为4;如果A没有看过悲剧电影,则其没有该项评分。
(2)项目属性的确定。主要从以下两个方面进行度量:
数据稀疏度:用户评分数据矩阵中未评分条目所占的百分比,其公式定义如下:
P s = ( 1 - N r m × n ) × 100 %
其中,Nr为评分总量,m为矩阵的行数(用户的数量),n为矩阵的列数(项目或者项目属性值的数量)。
数据减少率:用户-项目属性评分相比用户-项目评分所减少的数据量的比率,定义如下:
P d = ( 1 - N a N o ) × 100 %
其中,Na为用户-项目属性评分的数据量,No为用户-项目评分的数据量。
(3)推荐的生成。对多个预测评分求均值作为最终评分,并选取Top T项目推荐给用户。
附图说明
图1是基于项目属性评分均值的协同过滤推荐方法实施流程图。
图2是数据集描述图.
图3是数据集1上各项目属性推荐和直接评分推荐的MAE对比图。
图4是数据集2上各项目属性推荐和直接评分推荐的MAE对比图。
图5是数据集3上各项目属性推荐和直接评分推荐的MAE对比图。
图6是数据集1上项目属性组合评分推荐和直接评分推荐的MAE对比图。
图7是数据集2上项目属性组合评分推荐和直接评分推荐的MAE对比图。
图8是数据集3上项目属性组合评分推荐和直接评分推荐的MAE对比图。
具体实施方式
为更好地理解本发明,下面结合附图和具体实施方式对本发明进行更为详细描述。在以下的描述中,当现有技术的详细描述也许会淡化本发明的主题内容时,这些描述在这儿将被忽略。
图1是本发明基于项目属性评分均值的协同过滤推荐方法实施流程图。在本实施例中,本发明的基于项目属性评分均值的协同过滤推荐方法包括以下步骤:
首先,构建用户-项目评分矩阵;确定属性数量,采用均值方法构造用户-项目属性评分矩阵(数量与选取的属性的数目相同);然后,在每个属性评分矩阵上计算用户之间的皮尔逊相似度,并选取相似度最高的K个用户作为相似邻居;接下来,根据K个邻居的过往评分预测目标用户对目标项目的评分;这样,当所有属性评分矩阵的预测完成时,我们会得到目标用户对每个目标项目的一组预测评分,我们将这些评分加权后作为最终评分;最后,选取最终评分最高的前T个项目推荐给用户。
本发明采用Movie Lens数据集,包括2113个用户对10109部电影的855598条评分。其中评分数据从1到5,评分越高,表示用户对电影越喜欢。为了分析实验数据集的样本量成倍增加时对方法性能的影响,本发明从数据集中随机抽取三个训练数据集(250位用户对250部电影的10000条评分,500位用户对500部电影的60000条评分及1000位用户对1000部电影的200000条评分),对应每个训练集抽取部分数据作为测试集,数据条数分别为300、600和2000。
(1)属性选取
本发明选取稀疏度较低且减少率相对较高的属性,各数据集的描述如图2所示。本发明选择的属性为:类型、拍摄地1和拍摄时间。
(2)将均值方法的预测和直接评分的预测结果对比
将均值评分方法的预测结果和直接评分的预测结果进行比较,在数据集1、数据集2和数据集3上的结果分别如图3、图4和图5所示。可以发现,在系统用户较少时,采用均值方法构造的各个属性评分矩阵的推荐精度不总高于直接评分,但当系统用户较多时,其推荐精度一直保持较高水平。
(3)将均值方法的预测进行组合与直接评分的预测结果对比
对均值方法在各属性上产生的预测评分取均值后和直接评分的预测结果进行比较,在数据集1、数据集2和数据集3上的结果分别如图6、图7和图8所示。可以发现,将评分组合后的推荐精度总体上优于直接评分,但是随着邻居用户的增多,推荐精度有轻微波动。
尽管上面对本发明说明性的具体实施方式进行了描述,但应当清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于项目属性评分均值的协同过滤推荐方法其特征在于,主要包括以下步骤:
(1)用户-项目属性评分矩阵的构造。定义项目的属性集为A={A1,A2,…,Ak,…Al},Ak={a1,a2,…,at}。需要注意的是,对于某一项目的属性Ak,其可能有多个取值。例如,一部电影既是动作片又是科幻片,一件商品既是女装又是户外等。设用户对第k个属性Ak的评分矩阵为G,表示如下:
确定用户对各属性值的评分,即gij。采用均值法:即以用户对具有某一属性值的项目的评分的均值作为其评分,定义如下:
g ij = Σ h = 1 N r h N
由定义可知,每个用户对每个属性值的评分至多只有一个值,例如,用户A对喜剧电影的评分为4;如果A没有看过悲剧电影,则其没有该项评分。
(2)项目属性的确定。主要从以下两个方面进行度量:
数据稀疏度:用户评分数据矩阵中未评分条目所占的百分比,其公式定义如下:
P s = ( 1 - N r m × n ) × 100 %
数据减少率:用户-项目属性评分相比用户-项目评分所减少的数据量的比率,定义如下:
p d = ( 1 - N a N o ) × 100 %
(3)推荐的生成。对多个预测评分求均值作为最终评分,并选取Top T项目推荐给用户。
2.根据权利要求1所述的基于项目属性评分均值的协同过滤推荐方法其特征在于:
权利要求1中(1)所述m为用户数量,t是属性Ak值的数量,N代表用户i评价过的Ak=aj的项目的数量,rh代表用户对Ak=aj的项目的评分。
权利要求1中(2)所述Nr为评分总量,m为矩阵的行数(用户的数量),n为矩阵的列数(项目或者项目属性值的数量),Na为用户-项目属性评分的数据量,No为用户-项目评分的数据量。
CN201510342385.4A 2015-06-19 2015-06-19 一种基于项目属性评分均值的协同过滤推荐方法 Pending CN104899321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510342385.4A CN104899321A (zh) 2015-06-19 2015-06-19 一种基于项目属性评分均值的协同过滤推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510342385.4A CN104899321A (zh) 2015-06-19 2015-06-19 一种基于项目属性评分均值的协同过滤推荐方法

Publications (1)

Publication Number Publication Date
CN104899321A true CN104899321A (zh) 2015-09-09

Family

ID=54031983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510342385.4A Pending CN104899321A (zh) 2015-06-19 2015-06-19 一种基于项目属性评分均值的协同过滤推荐方法

Country Status (1)

Country Link
CN (1) CN104899321A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354330A (zh) * 2015-11-27 2016-02-24 南京邮电大学 一种基于稀疏数据预处理的协同过滤推荐方法
CN106055715A (zh) * 2016-07-12 2016-10-26 合肥工业大学 一种基于产品项目特征扩充的最近邻协同过滤方法
CN108197285A (zh) * 2018-01-15 2018-06-22 腾讯科技(深圳)有限公司 一种数据推荐方法以及装置
CN112347368A (zh) * 2019-08-07 2021-02-09 青岛海大新星软件咨询有限公司 一种推荐方法和装置
CN112784171A (zh) * 2021-01-21 2021-05-11 重庆邮电大学 一种基于上下文典型性的电影推荐方法
US11331583B2 (en) 2020-09-10 2022-05-17 Acer Incorporated Method and system for recommending teammate for team game

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102376063A (zh) * 2011-11-29 2012-03-14 北京航空航天大学 一种基于社会化标签的个性化推荐系统优化方法
WO2012142748A1 (en) * 2011-04-19 2012-10-26 Nokia Corporation Method and apparatus for providing feature-based collaborative filtering
CN103559622A (zh) * 2013-07-31 2014-02-05 焦点科技股份有限公司 基于特征的协同过滤推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012142748A1 (en) * 2011-04-19 2012-10-26 Nokia Corporation Method and apparatus for providing feature-based collaborative filtering
CN102376063A (zh) * 2011-11-29 2012-03-14 北京航空航天大学 一种基于社会化标签的个性化推荐系统优化方法
CN103559622A (zh) * 2013-07-31 2014-02-05 焦点科技股份有限公司 基于特征的协同过滤推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾立志: ""协同过滤数据稀疏性问题研究"", 《计算机光盘软件与应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354330A (zh) * 2015-11-27 2016-02-24 南京邮电大学 一种基于稀疏数据预处理的协同过滤推荐方法
CN106055715A (zh) * 2016-07-12 2016-10-26 合肥工业大学 一种基于产品项目特征扩充的最近邻协同过滤方法
CN108197285A (zh) * 2018-01-15 2018-06-22 腾讯科技(深圳)有限公司 一种数据推荐方法以及装置
CN112347368A (zh) * 2019-08-07 2021-02-09 青岛海大新星软件咨询有限公司 一种推荐方法和装置
US11331583B2 (en) 2020-09-10 2022-05-17 Acer Incorporated Method and system for recommending teammate for team game
CN112784171A (zh) * 2021-01-21 2021-05-11 重庆邮电大学 一种基于上下文典型性的电影推荐方法

Similar Documents

Publication Publication Date Title
CN104899321A (zh) 一种基于项目属性评分均值的协同过滤推荐方法
US20210271975A1 (en) User tag generation method and apparatus, storage medium, and computer device
WO2016191959A1 (zh) 一种时变的协同过滤推荐方法
CN102184364A (zh) 基于半监督学习的推荐系统托攻击检测方法
CN106649540B (zh) 一种视频推荐方法及系统
US9147009B2 (en) Method of temporal bipartite projection
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
CN103761237A (zh) 一种基于用户特征及其信任度的协同过滤推荐方法
CN104751353A (zh) 基于聚类和Slope One预测的协同过滤方法
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
CN108874916A (zh) 一种层叠组合协同过滤推荐方法
CN107025311A (zh) 一种基于k近邻的贝叶斯个性化推荐方法及装置
CN105809275A (zh) 一种物品评分预测方法及装置
CN112948625A (zh) 一种基于属性异质信息网络嵌入的电影推荐方法
CN103337028A (zh) 一种推荐方法、装置
CN103020153B (zh) 一种基于视频的广告识别方法
CN109636509B (zh) 一种基于非对称距离构建子矩阵的评分预测方法
CN108389113A (zh) 一种协同过滤推荐方法和系统
CN105809030A (zh) 一种基于数据追踪的推荐系统安全检测方法
CN110059257B (zh) 基于评分修正的项目推荐方法
CN104881499A (zh) 一种基于属性评分缩放的协同过滤推荐方法
CN110598126A (zh) 基于行为习惯的跨社交网络用户身份识别方法
CN108681947B (zh) 基于物品的时间关联度和覆盖度的协同过滤推荐方法
CN106294447A (zh) 一种基于双聚类填充的协同过滤方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150909