CN108415926A - 一种消除原始评分数据评分噪声的协同过滤推荐方法 - Google Patents
一种消除原始评分数据评分噪声的协同过滤推荐方法 Download PDFInfo
- Publication number
- CN108415926A CN108415926A CN201810034135.8A CN201810034135A CN108415926A CN 108415926 A CN108415926 A CN 108415926A CN 201810034135 A CN201810034135 A CN 201810034135A CN 108415926 A CN108415926 A CN 108415926A
- Authority
- CN
- China
- Prior art keywords
- user
- item
- scoring
- score
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims abstract description 64
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000007418 data mining Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 6
- 230000008451 emotion Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本发明属于数据挖掘领域,设计了一种消除原始评分数据评分噪声的协同过滤方法。步骤1.构建评分矩阵的用户集合U={u1,u2,...um};评分矩阵的项目集合I={i1,i2,...,in};用户评分矩阵R(m×n);步骤2.利用现有评分数据求用户uk对项目ij的偏好评分rk,j(preference);步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分,得到调整后的评分矩阵R’(m×n);步骤4.通过调整后的评分矩阵R’(m×n),计算用户ui与用户uj的相似度sim(i,j):步骤5.计算用户ui对项目ij预测评分predic(ti,j):步骤6.判断预测评分predict(i,j)。本发明能够有效调整原始评分矩阵评分数据,提高协同过滤技术的推荐准确度。
Description
技术领域
本发明属于数据挖掘领域,涉及一种消除原始评分数据评分噪声的协同过滤方法。
背景技术
协同过滤技术是个性化推荐技术中一种应用范围广的推荐算法,协同过滤技术的基本核心思想是利用群体智慧,认为相似用户的喜好也是相似的,目前主要分为以下几类:基于用户(或项目)的协调过滤算法、基于模型的协同过滤算法、以及混合过滤算法等。目前协同过滤算法存在着冷启动、数据稀疏、推荐精度低等问题。
协同过滤算法的基本过程是构建用户-项目评分矩阵,寻找用户相似邻居群体,根据邻居群体的对此用户未评价的项目的做出预测,然后根据结果对用户做出相应的推荐。协同过滤技术算法核心步骤是利用评分矩阵来选取用户相似群体,但是原始的用户评分可能会有评分噪声,例如用户评分时情绪因素,这些噪声会导致评分出现偏移,从而导致后续协同过滤算法推荐精确度下降。因此需要对原始评分数据进行调整,减弱情绪等因素导致的评分偏移。
发明内容
本发明提出了一种消除原始评分数据评分噪声的协同过滤算法,目的在于消除环境因素,调整原始评分数据,提高协同过滤算法的推荐准确度。
本发明的技术方案:
一种消除原始评分数据评分噪声的协同过滤推荐方法,步骤如下:
步骤1.构建评分矩阵的用户集合U={u1,u2,...um};评分矩阵的项目集合I={i1,i2,...,in};用户评分矩阵R(m×n),其中,m代表用户数,n代表项目数,rk,j是用户评分矩阵R(m×n)中用户uk对项目ij评分,rk,j∈R(m×n),k∈{1,2,...m},j∈{1,2,3...n};
步骤2.利用现有评分数据求用户uk对项目ij的偏好评分rk,j(preference);
2.1)从用户评分矩阵R(m×n)中得到用户uk的评分项目集合I(uk)。
2.2)I(uk,j)是用户uk已评价过的项目集合中除项目ij以外的项目集合,从I(uk,j)取出与待预测项目ij相异的项目im,计算项目ij与项目im评价评分偏差值devj,i,具体步骤如下:
2.2.1)从用户评分矩阵R(m×n)取出同时对待预测项目ij和项目im评分的用户集合Sj,m(R)。
2.2.2)从Sj,m(R)取出ui,如果ui添加到相似用户集合ui∈Sj,m(R);如果则ui舍弃;
2.2.3)计算项目ij与项目im平均评分偏差值devj,i
其中,是项目ij与项目im的相似用户集合,是可信度权重,rw,j是用户评分矩阵R(m×n)中用户uw对项目ij的评分,rw,m是用户评分矩阵R(m×n)中用户uw对项目im的评分;
2.3)计算用户uk对项目ij的偏好评分rk,j(preference):
其中,rk,m是用户评分矩阵R(m×n)中用户uk对项目im的评分。
步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分,得到调整后的评分矩阵R’(m×n);
步骤4.通过调整后的评分矩阵R’(m×n),根据改进余弦相似度计算用户ui前N个相似邻居neighbor(ui)以及相对应的相似度,计算用户ui与用户uj的相似度sim(i,j):
其中,Ii,j是用户ui与用户uj共同评分项目集合;是调整后的评分矩阵R’(m×n)中用户ui的平均评分;是调整后的评分矩阵R’(m×n)中用户uj的平均评分;r’i,k是调整后的评分矩阵R’(m×n)中用户ui中对项目ik的评分;r’j,k是调整后的评分矩阵R’(m×n)中用户uj中对项目ik的评分。
步骤5.计算用户ui对项目ij预测评分predict(i,j):
其中,ui∈U;ij∈I;为用户v的平均评分值;为用户u的平均评分值;r’v,k是调整后的评分矩阵R’(m×n)中用户uv中对项目ij的评分;sim(i,v)是用户ui与用户的uv相似度。
步骤6.判断预测评分predict(i,j):
如果预测评分predict(i,j)为空值,则采用将该项目ij所有评分的平均值作为预测评分最终结果;如果该项目的仍为空值,则将用户ui的平均评分作为预测评分最终结果;得到所有的预测评分,结束;
其中,调整后的评分矩阵R’(m×n)中项目ij所有评分的平均值;调整后的评分矩阵R’(m×n)中用户ui的平均评分。
本发明的有益效果:
本发明可以将影响用户评分的因素分为两个类型:用户偏好因素、情绪因素,并利用相关群体评分来计算用户偏好评分,调整原始评分数据,消除环境因素导致的评分偏移。能够有效调整原始评分矩阵评分数据,提高协同过滤技术的推荐准确度。
附图说明
图1是本发明所提出的消除原始评分数据评分噪声的协同过滤算法的流程图。
图2是消除评分噪声后的评分数据与未处理的原始数据在不同邻居个数情况下运用基于用户的协同过滤算法进行推荐的推荐结果的平均绝对误差值比较,其中
图3是消除评分噪声后的评分数据与未处理的原始数据在不同邻居个数情况下运用基于用户的协同过滤算法进行推荐的推荐结果的平均均方误差值比较,其中
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施例。
本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。具体实验的数据集为MovieLens-small数据集,包括约700个用户对9000部电影的100000条评分。
一种消除原始评分数据评分噪声的协同过滤推荐方法,步骤如下:
步骤1.构建评分矩阵的用户集合是U={u1,u2,...um};评分矩阵的项目集合I={i1,i2,...,in};用户评分矩阵R(m×n),其中,m代表用户数,n代表项目数,rk,j是用户评分矩阵R(m×n)中用户uk对项目ij评分,rk,j∈R(m×n),k∈{1,2,...m},j∈{1,2,3...n},评分值集合为{0.5,1.0,1.5,2.0,2.5,...5.0},其中,以0.5作为评分间隔总共10个级别。
步骤2.利用现有评分数据求用户uk对项目ij的偏好评分rk,j(preference)
2.1)从用户评分矩阵R(m×n)中得到用户uk的评分项目集合I(uk)。
2.2)I(uk,j)是用户uk已评价过的项目集合中除项目ij以外的项目集合,从I(uk,j)取出与待预测项目ij相异的项目im,计算项目ij与项目im评价评分偏差值devj,i,具体步骤如下:
2.2.1)从用户评分矩阵R(m×n)取出同时对待预测项目ij和项目im评分的用户集合Sj,m(R)。
2.2.2)从Sj,m(R)取出ui,如果加到相似用户集合其中ui∈Sj,m(R),令
2.2.3)计算项目ij与项目im平均评分偏差值devj,i
其中,是相似用户集合,是可信度权重,rw,j是用户uw对项目ij的评分,rw,m是用户评分矩阵R(m×n)中用户uw对项目im的评分。
2.3)计算出用户uk对项目ij的偏好评分rk,j(preference)
其中,rk,m是用户评分矩阵R(m×n)中用户uk对项目im的评分。
步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分,得到调整后的评分矩阵R’(m×n)。
步骤4.通过调整后的评分矩阵,根据改进余弦相似度计算用户ui前N个相似邻居neighbor(ui)以及相对应的相似度,其中N的取值范围为{5,10,15,20,25}。
计算用户ui与用户uj的相似度sim(i,j):
其中,Ii,j是用户ui与用户uj共同评分项目集合;是调整后的评分矩阵R’(m×n)中用户ui的平均评分;是调整后的评分矩阵R’(m×n)中用户uj的平均评分;r’i,k是调整后的评分矩阵R’(m×n)中用户ui中对项目ik的评分;r’j,k是调整后的评分矩阵R’(m×n)中用户uj中对项目ik的评分。
步骤5.计算用户ui对项目ij预测评分predict(i,j):
其中,ui∈U;ij∈I;为用户v的平均评分值;为用户u的平均评分值;r’v,k是调整后的评分矩阵R’(m×n)中用户uv中对项目ij的评分;sim(i,v)是用户ui与用户的uv相似度。
步骤6.判断预测评分predict(i,j)
如果预测评分predict(i,j)=null,则采用将该项目ij所有评分的平均值作为预测评分最终结果;如果该项目的则将用户ui的平均评分作为预测评分最终结果;得到所有的预测评分,结束。
Claims (1)
1.一种消除原始评分数据评分噪声的协同过滤推荐方法,其特征在于,步骤如下:
步骤1.构建评分矩阵的用户集合U={u1,u2,...um};评分矩阵的项目集合I={i1,i2,...,in};用户评分矩阵R(m×n),其中,m代表用户数,n代表项目数,rk,j是用户评分矩阵R(m×n)中用户uk对项目ij评分,rk,j∈R(m×n),k∈{1,2,...m},j∈{1,2,3...n};
步骤2.利用现有评分数据求用户uk对项目ij的偏好评分rk,j(preference);
2.1)从用户评分矩阵R(m×n)中得到用户uk的评分项目集合I(uk);
2.2)I(uk,j)是用户uk已评价过的项目集合中除项目ij以外的项目集合,从I(uk,j)取出与待预测项目ij相异的项目im,计算项目ij与项目im评价评分偏差值devj,i,具体步骤如下:
2.2.1)从用户评分矩阵R(m×n)取出同时对待预测项目ij和项目im评分的用户集合Sj,m(R);
2.2.2)从Sj,m(R)取出ui,如果ui添加到相似用户集合ui∈Sj,m(R);如果则ui舍弃;
2.2.3)计算项目ij与项目im平均评分偏差值devj,i
其中,是项目ij与项目im的相似用户集合,是可信度权重,rw,j是用户评分矩阵R(m×n)中用户uw对项目ij的评分,rw,m是用户评分矩阵R(m×n)中用户uw对项目im的评分;
2.3)计算用户uk对项目ij的偏好评分rk,j(preference):
其中,rk,m是用户评分矩阵R(m×n)中用户uk对项目im的评分;
步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分,得到调整后的评分矩阵R,(m×n);
步骤4.通过调整后的评分矩阵R,(m×n),根据改进余弦相似度计算用户ui前N个相似邻居neighbor(ui)以及相对应的相似度,计算用户ui与用户uj的相似度sim(i,j):
其中,Ii,j是用户ui与用户uj共同评分项目集合;是调整后的评分矩阵R,(m×n)中用户ui的平均评分;是调整后的评分矩阵R,(m×n)中用户uj的平均评分;r’i,k是调整后的评分矩阵R’(m×n)中用户ui中对项目ik的评分;r’j,k是调整后的评分矩阵R’(m×n)中用户uj中对项目ik的评分;
步骤5.计算用户ui对项目ij预测评分predict(i,j):
其中,ui∈U;ij∈I;为用户v的平均评分值;为用户u的平均评分值;r’v,j是调整后的评分矩阵R,(m×n)中用户uv中对项目ij的评分;sim(i,v)是用户ui与用户的uv相似度;
步骤6.判断预测评分predict(i,j):
如果预测评分predict(i,j)为空值,则采用将该项目ij所有评分的平均值作为预测评分最终结果;如果该项目的仍为空值,则将用户ui的平均评分作为预测评分最终结果;得到所有的预测评分,结束;
其中,调整后的评分矩阵R’(m×n)中项目ij所有评分的平均值;调整后的评分矩阵R,(m×n)中用户ui的平均评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810034135.8A CN108415926B (zh) | 2018-01-15 | 2018-01-15 | 一种消除原始评分数据评分噪声的协同过滤推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810034135.8A CN108415926B (zh) | 2018-01-15 | 2018-01-15 | 一种消除原始评分数据评分噪声的协同过滤推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108415926A true CN108415926A (zh) | 2018-08-17 |
CN108415926B CN108415926B (zh) | 2021-08-10 |
Family
ID=63125575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810034135.8A Active CN108415926B (zh) | 2018-01-15 | 2018-01-15 | 一种消除原始评分数据评分噪声的协同过滤推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108415926B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182407A (zh) * | 2020-10-29 | 2021-01-05 | 深圳前海微众银行股份有限公司 | 基于用户的推荐方法、装置、设备及计算机可读存储介质 |
CN110059257B (zh) * | 2019-04-28 | 2021-02-19 | 东北大学 | 基于评分修正的项目推荐方法 |
CN112418313A (zh) * | 2020-11-23 | 2021-02-26 | 重庆邮电大学 | 一种大数据在线噪声过滤系统与方法 |
CN117573742A (zh) * | 2024-01-15 | 2024-02-20 | 浙江华创视讯科技有限公司 | 一种用户行为模式挖掘方法、设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110179043A1 (en) * | 2008-09-29 | 2011-07-21 | Telefonaktiebolaget L M Ericsson (Publ) | Double Weighted Correlation Scheme |
CN102495864A (zh) * | 2011-11-25 | 2012-06-13 | 清华大学 | 基于评分的协同过滤推荐方法及系统 |
CN102982466A (zh) * | 2012-07-17 | 2013-03-20 | 华东师范大学 | 一种基于用户活跃度的评分预测方法 |
CN104156436A (zh) * | 2014-08-13 | 2014-11-19 | 福州大学 | 一种社交云媒体协同过滤推荐方法 |
CN107527236A (zh) * | 2017-08-10 | 2017-12-29 | 云南财经大学 | 一种基于市场效应的协同过滤推荐方法及推荐系统 |
-
2018
- 2018-01-15 CN CN201810034135.8A patent/CN108415926B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110179043A1 (en) * | 2008-09-29 | 2011-07-21 | Telefonaktiebolaget L M Ericsson (Publ) | Double Weighted Correlation Scheme |
CN102495864A (zh) * | 2011-11-25 | 2012-06-13 | 清华大学 | 基于评分的协同过滤推荐方法及系统 |
CN102982466A (zh) * | 2012-07-17 | 2013-03-20 | 华东师范大学 | 一种基于用户活跃度的评分预测方法 |
CN104156436A (zh) * | 2014-08-13 | 2014-11-19 | 福州大学 | 一种社交云媒体协同过滤推荐方法 |
CN107527236A (zh) * | 2017-08-10 | 2017-12-29 | 云南财经大学 | 一种基于市场效应的协同过滤推荐方法及推荐系统 |
Non-Patent Citations (3)
Title |
---|
LEMIRE D等: "Slope One Predictors for Online Rating-Based Collaborative Filtering", 《COMPUTER SCIENCE》 * |
XIANG GAO等: "An Effective Collaborative Filtering Algorithm Based on Adjusted User-Item Rating Matrix", 《IEEE》 * |
嵇晓声等: "协同过滤中基于用户兴趣度的相似性度量方法", 《计算机应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059257B (zh) * | 2019-04-28 | 2021-02-19 | 东北大学 | 基于评分修正的项目推荐方法 |
CN112182407A (zh) * | 2020-10-29 | 2021-01-05 | 深圳前海微众银行股份有限公司 | 基于用户的推荐方法、装置、设备及计算机可读存储介质 |
CN112418313A (zh) * | 2020-11-23 | 2021-02-26 | 重庆邮电大学 | 一种大数据在线噪声过滤系统与方法 |
CN112418313B (zh) * | 2020-11-23 | 2022-09-27 | 重庆邮电大学 | 一种大数据在线噪声过滤系统与方法 |
CN117573742A (zh) * | 2024-01-15 | 2024-02-20 | 浙江华创视讯科技有限公司 | 一种用户行为模式挖掘方法、设备和存储介质 |
CN117573742B (zh) * | 2024-01-15 | 2024-05-07 | 浙江华创视讯科技有限公司 | 一种用户行为模式挖掘方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108415926B (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108415926B (zh) | 一种消除原始评分数据评分噪声的协同过滤推荐方法 | |
CN104050258B (zh) | 一种基于兴趣群组的群体推荐方法 | |
CN107729444B (zh) | 一种基于知识图谱的个性化旅游景点推荐方法 | |
CN106682114B (zh) | 一种融合用户信任关系和评论信息的个性化推荐方法 | |
CN106980648B (zh) | 一种基于概率矩阵分解结合相似度的个性化推荐方法 | |
CN109902235B (zh) | 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法 | |
CN107944485B (zh) | 基于聚类群组发现的推荐系统及方法、个性化推荐系统 | |
CN105843829B (zh) | 一种基于分层模型的大数据可信性度量方法 | |
WO2010037286A1 (zh) | 一种基于协同过滤的推荐方法和系统 | |
CN110427567A (zh) | 一种基于用户偏好相似度加权的协同过滤推荐方法 | |
CN107229876B (zh) | 一种满足差分隐私的协同过滤推荐方法 | |
CN112488133B (zh) | 一种视频/图片-文本跨模态检索方法 | |
CN109933726B (zh) | 基于用户平均加权兴趣向量聚类的协同过滤电影推荐方法 | |
CN107943897B (zh) | 一种用户推荐方法 | |
CN104933156A (zh) | 一种基于共享近邻聚类的协同过滤方法 | |
CN107993126B (zh) | 一种基于挖掘评论修正用户评分的改进协同过滤方法 | |
CN114510652A (zh) | 一种基于联邦学习的社交协同过滤推荐方法 | |
CN109857928B (zh) | 基于多元信用评估的用户偏好预测方法 | |
CN112149734B (zh) | 一种基于堆叠自编码器的跨域推荐方法 | |
CN113807422A (zh) | 融合多特征信息的加权图卷积神经网络评分预测模型 | |
WO2020073526A1 (zh) | 基于信任网络的推送方法、装置、计算机设备及存储介质 | |
CN108460145B (zh) | 一种基于混合兴趣相似度的协同过滤推荐方法 | |
CN114329222B (zh) | 一种融合注意力机制和双端知识图谱的电影推荐方法 | |
CN115204967A (zh) | 一种融入用户长短期兴趣表征隐式反馈的推荐方法 | |
CN110489616A (zh) | 一种基于Ranknet和Lambdamart算法的搜索排序方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |