CN108415926A

CN108415926A - 一种消除原始评分数据评分噪声的协同过滤推荐方法

Info

Publication number: CN108415926A
Application number: CN201810034135.8A
Authority: CN
Inventors: 陈炳才; 刘杰; 王健; 余超; 姚念民; 卢志茂
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-01-15
Filing date: 2018-01-15
Publication date: 2018-08-17
Anticipated expiration: 2038-01-15
Also published as: CN108415926B

Abstract

本发明属于数据挖掘领域，设计了一种消除原始评分数据评分噪声的协同过滤方法。步骤1.构建评分矩阵的用户集合U＝{u₁,u₂,...u_m}；评分矩阵的项目集合I＝{i₁,i₂,...,i_n}；用户评分矩阵R(m×n)；步骤2.利用现有评分数据求用户u_k对项目i_j的偏好评分r_k,j(preference)；步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分，得到调整后的评分矩阵R’(m×n)；步骤4.通过调整后的评分矩阵R’(m×n)，计算用户u_i与用户u_j的相似度sim(i,j)：步骤5.计算用户u_i对项目i_j预测评分predic(ti,j)：步骤6.判断预测评分predict(i,j)。本发明能够有效调整原始评分矩阵评分数据，提高协同过滤技术的推荐准确度。

Description

一种消除原始评分数据评分噪声的协同过滤推荐方法

技术领域

本发明属于数据挖掘领域，涉及一种消除原始评分数据评分噪声的协同过滤方法。

背景技术

协同过滤技术是个性化推荐技术中一种应用范围广的推荐算法，协同过滤技术的基本核心思想是利用群体智慧，认为相似用户的喜好也是相似的，目前主要分为以下几类：基于用户(或项目)的协调过滤算法、基于模型的协同过滤算法、以及混合过滤算法等。目前协同过滤算法存在着冷启动、数据稀疏、推荐精度低等问题。

协同过滤算法的基本过程是构建用户-项目评分矩阵，寻找用户相似邻居群体，根据邻居群体的对此用户未评价的项目的做出预测，然后根据结果对用户做出相应的推荐。协同过滤技术算法核心步骤是利用评分矩阵来选取用户相似群体，但是原始的用户评分可能会有评分噪声，例如用户评分时情绪因素，这些噪声会导致评分出现偏移，从而导致后续协同过滤算法推荐精确度下降。因此需要对原始评分数据进行调整，减弱情绪等因素导致的评分偏移。

发明内容

本发明提出了一种消除原始评分数据评分噪声的协同过滤算法，目的在于消除环境因素，调整原始评分数据，提高协同过滤算法的推荐准确度。

本发明的技术方案：

一种消除原始评分数据评分噪声的协同过滤推荐方法，步骤如下：

步骤1.构建评分矩阵的用户集合U＝{u₁,u₂,...u_m}；评分矩阵的项目集合I＝{i₁,i₂,...,i_n}；用户评分矩阵R(m×n)，其中，m代表用户数，n代表项目数，r_k,j是用户评分矩阵R(m×n)中用户u_k对项目i_j评分，r_k,j∈R(m×n),k∈{1,2,...m}，j∈{1,2,3...n}；

步骤2.利用现有评分数据求用户u_k对项目i_j的偏好评分r_k,j(preference)；

2.1)从用户评分矩阵R(m×n)中得到用户u_k的评分项目集合I(u_k)。

2.2)I(u_k,j)是用户u_k已评价过的项目集合中除项目i_j以外的项目集合，从I(u_k,j)取出与待预测项目i_j相异的项目i_m，计算项目i_j与项目i_m评价评分偏差值dev_j,i，具体步骤如下：

2.2.1)从用户评分矩阵R(m×n)取出同时对待预测项目i_j和项目i_m评分的用户集合S_j,m(R)。

2.2.2)从S_j,m(R)取出u_i，如果u_i添加到相似用户集合u_i∈S_j,m(R)；如果则u_i舍弃；

2.2.3)计算项目i_j与项目i_m平均评分偏差值dev_j,i

其中，是项目i_j与项目i_m的相似用户集合，是可信度权重，r_w,j是用户评分矩阵R(m×n)中用户u_w对项目i_j的评分，r_w,m是用户评分矩阵R(m×n)中用户u_w对项目i_m的评分；

2.3)计算用户u_k对项目i_j的偏好评分r_k,j(preference)：

其中，r_k,m是用户评分矩阵R(m×n)中用户u_k对项目i_m的评分。

步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分，得到调整后的评分矩阵R’(m×n)；

步骤4.通过调整后的评分矩阵R’(m×n)，根据改进余弦相似度计算用户u_i前N个相似邻居neighbor(u_i)以及相对应的相似度，计算用户u_i与用户u_j的相似度sim(i,j)：

其中，I_i,j是用户u_i与用户u_j共同评分项目集合；是调整后的评分矩阵R’(m×n)中用户u_i的平均评分；是调整后的评分矩阵R’(m×n)中用户u_j的平均评分；r’_i，k是调整后的评分矩阵R’(m×n)中用户u_i中对项目i_k的评分；r’_j，k是调整后的评分矩阵R’(m×n)中用户u_j中对项目i_k的评分。

步骤5.计算用户u_i对项目i_j预测评分predict(i,j)：

其中，u_i∈U；i_j∈I；为用户v的平均评分值；为用户u的平均评分值；r’_v，k是调整后的评分矩阵R’(m×n)中用户u_v中对项目i_j的评分；sim(i,v)是用户u_i与用户的u_v相似度。

步骤6.判断预测评分predict(i,j)：

如果预测评分predict(i,j)为空值，则采用将该项目i_j所有评分的平均值作为预测评分最终结果；如果该项目的仍为空值，则将用户u_i的平均评分作为预测评分最终结果；得到所有的预测评分，结束；

其中，调整后的评分矩阵R’(m×n)中项目i_j所有评分的平均值；调整后的评分矩阵R’(m×n)中用户u_i的平均评分。

本发明的有益效果：

本发明可以将影响用户评分的因素分为两个类型：用户偏好因素、情绪因素，并利用相关群体评分来计算用户偏好评分，调整原始评分数据，消除环境因素导致的评分偏移。能够有效调整原始评分矩阵评分数据，提高协同过滤技术的推荐准确度。

附图说明

图1是本发明所提出的消除原始评分数据评分噪声的协同过滤算法的流程图。

图2是消除评分噪声后的评分数据与未处理的原始数据在不同邻居个数情况下运用基于用户的协同过滤算法进行推荐的推荐结果的平均绝对误差值比较，其中

图3是消除评分噪声后的评分数据与未处理的原始数据在不同邻居个数情况下运用基于用户的协同过滤算法进行推荐的推荐结果的平均均方误差值比较，其中

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施例。

本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。具体实验的数据集为MovieLens-small数据集，包括约700个用户对9000部电影的100000条评分。

步骤1.构建评分矩阵的用户集合是U＝{u₁,u₂,...u_m}；评分矩阵的项目集合I＝{i₁,i₂,...,i_n}；用户评分矩阵R(m×n)，其中，m代表用户数，n代表项目数，r_k,j是用户评分矩阵R(m×n)中用户u_k对项目i_j评分，r_k,j∈R(m×n)，k∈{1,2,...m}，j∈{1,2,3...n},评分值集合为{0.5，1.0,1.5,2.0,2.5,...5.0}，其中，以0.5作为评分间隔总共10个级别。

步骤2.利用现有评分数据求用户u_k对项目i_j的偏好评分r_k,j(preference)

2.2.2)从S_j,m(R)取出u_i，如果加到相似用户集合其中u_i∈S_j,m(R),令

2.2.3)计算项目i_j与项目i_m平均评分偏差值dev_j,i

其中，是相似用户集合，是可信度权重，r_w,j是用户u_w对项目i_j的评分，r_w,m是用户评分矩阵R(m×n)中用户u_w对项目i_m的评分。

2.3)计算出用户u_k对项目i_j的偏好评分r_k,j(preference)

其中，r_k,m是用户评分矩阵R(m×n)中用户u_k对项目i_m的评分。

步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分，得到调整后的评分矩阵R’(m×n)。

步骤4.通过调整后的评分矩阵，根据改进余弦相似度计算用户u_i前N个相似邻居neighbor(u_i)以及相对应的相似度，其中N的取值范围为{5,10,15,20,25}。

计算用户u_i与用户u_j的相似度sim(i,j)：

步骤5.计算用户u_i对项目i_j预测评分predict(i,j)：

步骤6.判断预测评分predict(i,j)

如果预测评分predict(i,j)＝null，则采用将该项目i_j所有评分的平均值作为预测评分最终结果；如果该项目的则将用户u_i的平均评分作为预测评分最终结果；得到所有的预测评分，结束。

Claims

1.一种消除原始评分数据评分噪声的协同过滤推荐方法，其特征在于，步骤如下：

2.1)从用户评分矩阵R(m×n)中得到用户u_k的评分项目集合I(u_k)；

2.2.1)从用户评分矩阵R(m×n)取出同时对待预测项目i_j和项目i_m评分的用户集合S_j,m(R)；

2.2.3)计算项目i_j与项目i_m平均评分偏差值dev_j,i

2.3)计算用户u_k对项目i_j的偏好评分r_k,j(preference)：

其中，r_k,m是用户评分矩阵R(m×n)中用户u_k对项目i_m的评分；

步骤3.重复步骤2,直到调整完成原始评分矩阵每一组评分，得到调整后的评分矩阵R，(m×n)；

步骤4.通过调整后的评分矩阵R，(m×n)，根据改进余弦相似度计算用户u_i前N个相似邻居neighbor(u_i)以及相对应的相似度，计算用户u_i与用户u_j的相似度sim(i,j)：

其中，I_i,j是用户u_i与用户u_j共同评分项目集合；是调整后的评分矩阵R，(m×n)中用户u_i的平均评分；是调整后的评分矩阵R，(m×n)中用户u_j的平均评分；r’_i,k是调整后的评分矩阵R’(m×n)中用户u_i中对项目i_k的评分；r’_j,k是调整后的评分矩阵R’(m×n)中用户u_j中对项目i_k的评分；

步骤5.计算用户u_i对项目i_j预测评分predict(i,j)：

其中，u_i∈U；i_j∈I；为用户v的平均评分值；为用户u的平均评分值；r’_v,j是调整后的评分矩阵R，(m×n)中用户u_v中对项目i_j的评分；sim(i,v)是用户u_i与用户的u_v相似度；

步骤6.判断预测评分predict(i,j)：

其中，调整后的评分矩阵R’(m×n)中项目i_j所有评分的平均值；调整后的评分矩阵R，(m×n)中用户u_i的平均评分。