CN103886003A

CN103886003A - 一种协同过滤处理器

Info

Publication number: CN103886003A
Application number: CN201310433610.6A
Authority: CN
Inventors: 牛晓芳
Original assignee: Tianjin Siboke Technology Development Co Ltd
Current assignee: Tianjin Siboke Technology Development Co Ltd
Priority date: 2013-09-22
Filing date: 2013-09-22
Publication date: 2014-06-25

Abstract

本发明公开了一种协同过滤处理器，包括采用改进的K-means算法对用户聚类、选出与目标用户属性相近的用户组成的簇、得到目标用户的最近邻居集合和产生推荐集四个步骤。本发明的主要思想是通过聚类将特征相同的用户聚为一类降低矩阵的维度，减少空间复杂度，然后通过矩阵分解对稀疏矩阵进行填补，对填补的矩阵再进行协同过滤。

Description

一种协同过滤处理器

技术领域

本发明涉及推荐技术领域，更具体的讲是一种基于k-means聚类的协同过滤算法处理器，主要思想是通过聚类将特征相同的用户聚为一类降低矩阵的维度，减少空间复杂度，然后通过矩阵分解对稀疏矩阵进行填补，对填补的矩阵再进行协同过滤。

背景技术

随着互联网的普及和计算机技术的迅速发展，信息量爆炸性的增长，个性化的推荐系统成为继搜索引擎以后，一个越来越受关注的研究领域。随着学者们的研究，越来越多的推荐算法被提出，其中包括：基于内容的推荐，协同过滤推荐算法以及组合推荐算法。

协同过滤作为当前应用最成功的推荐技术，在很多领域中得到了实际的应用，但其仍存在许多问题需要解决。推荐系统中普遍存在数据稀疏性、冷启动和可扩展性等问题。基于邻域的算法是协同过滤算法中最基本的算法，该算法分为两大类，一类是基于用户的协同过滤算法，另一类是基于项目的协同过滤算法。基于邻域的算法的缺点是：当该矩阵非常稀疏时，算法很难为目标用户找到相似用户，从而使推荐质量受到很大的限制。如果在计算之前根据相似性对用户进行聚类，准确的选取邻用户，就可以减小计算量的同时，提供较为准确的推荐结果。

发明内容

为解决上述问题，本发明公开了一种协同过滤处理器，基于聚类协同过滤算法，它首先利用k-means聚类算法将具有相似兴趣爱好的用户分配到相同的类中；然后在每一类中，采用基于用户的协同过滤算法来计算用户间的相似性和形成最近邻居，完成未评分数据的预测，产生Top-N推荐。聚类技术大大缩小了计算的范围，提高了推荐算法的运行速度。实验表明，本发明明显提高了推荐系统的推荐质量。

本发明是采取以下技术方案实现的：一种协同过滤处理器，包括采用改进的K-means算法对用户聚类、选出与目标用户属性相近的用户组成的簇、得到目标用户的最近邻居集合和产生推荐集四个步骤。

本发明的实现还包括以下的技术方案：

(1) 对MovieLens数据集进行预处理，采用改进的K-means算法对用户聚类。

(2) 选出与目标用户属性相近的用户组成的簇，对该簇构建原始的用户-项目评分矩阵。

(3) 计算得到目标用户的最近邻居集合。

(4) 根据最近邻居集对项目的评分值，计算目标用户对待推荐项的评分，产生TopN推荐集。

其中k-mean基本算法描述

目前，使用最广泛的聚类技术是K-means算法。其基本算法可描述为：先随机选定k个对象为k个簇的中心，再计算剩下的对象与各中心的相似度，把这些对象分配到相应的簇中，然后选出新的k个聚类中心。重复以上步骤，直到k个中心稳定不再变化为止。如公式(2.1)所示：

Figure 2013104336106100002DEST_PATH_IMAGE001

（2.1）

式中，p代表集合中的待分配点，m代表每个簇的中心点。

其中目标用户的最近邻居集合计算

目标用户的最近邻居集合表示不同用户之间的相似程度，如果不同的用户对一些项目的评分比较相似，说明他们对这些项目感兴趣程度也趋向一致。度量用户之间相似性的方法主要有如下3种方法：余弦相似度（cosine similarity）（公式（2.2））、皮尔逊系数（pearson correlation）（公式（2.3））和修正的余弦相似度（adjust cosine similarity）（公式（2.4））。

(2.2)

Figure 2013104336106100002DEST_PATH_IMAGE003

(2.3)

(2.4)

式中,、

分别表示用户u和用户v对项目的评分，

和

分别表示用户u和用户v对各自项目的平均分。

表示用户u和用户v共同评分的项目集合，、

分别表示用户u和用户v各自评过分的项目集合。本发明中采用修正的余弦相似度作为计算得到目标用户的最近邻居集合的方法。

本发明的优点和有益效果，具体体现在以下几个方面：

1. 本发明大大缩小了计算的范围，提高了推荐算法的运行速度。

2. 本发明明显提高了推荐系统的推荐质量。

附图说明

图1是本发明的执行步骤示意图。

具体实施方式

以下结合说明书附图1对本发明的实施做进一步详述：

一种协同过滤处理器，包括采用改进的K-means算法对用户聚类、选出与目标用户属性相近的用户组成的簇、得到目标用户的最近邻居集合和产生推荐集四个步骤。

本发明的主要思想是通过聚类将特征相同的用户聚为一类降低矩阵的维度，减少空间复杂度，然后通过矩阵分解对稀疏矩阵进行填补，对填补的矩阵再进行协同过滤。该发明的具体步骤说明书附图1所示，

(2) 选出与目标用户

属性相近的用户组成的簇

，对簇构建原始的用户-项目评分矩阵

。

(3) 利用公式(2.4)得到目标用户

的最近邻居集合。

(4) 根据最近邻居集

对项目的评分值，按照式（3.1）计算目标用户对待推荐项的评分，产生TopN推荐集。

上述(1)(2)(3)的具体描述如下：

K-means算法的忧点是实现比较简单，算法效率较高，扩展性也比较好。尤其是对象相对密集且簇与簇之间的差别较明显时，算法效果非常好。此算法在大数据集处理时有高效的性能。但是，K-means算法的初始聚类中心是随机选取的，此算法对初始值的选择较为敏感，不同的初始聚类中心会产生不同的聚类结果，这将导致聚类结果有一定的不合理性。对算法的改进：经过研究发现，评分数目多的用户可作为一部分用户的代表，让这些用户作为初始聚类的中心，可以有较好的代表性。所以，本发明选择评分数量最多的k个用户为初始聚类的中心，用修正的余弦相似度作为上述(3)的实现方法，具体步骤如下：

步骤1：从用户集合U={U,U

,….,U}中，选取对项目进行过评分最多的K个用户作为初始聚类中心，记为C={C

,C

,…,C

}；

步骤2：Repeat；

For Each user UU；

For Each cluster center C

C；

计算用户U

与聚类中心C

的相似性；

Endfor

；

聚类 C

=C

；

Endfor；

For Each user U

U；

For Each cluster center C

C；

计算各类簇的标准测度函数值，采用均方差，如式（2.1）所示，其中

表示C的均值。

调整生成新的聚类中心C

；

Endfor；

步骤3：Until 均方差值E达到最小为止；

步骤4：Return；

得到目标用户的最近邻居集合

上述(4) 的具体描述如下：

产生推荐集的主要工作就是计算预测评分，在计算预测评分时，经常采用Ｋ近邻方法，即选择与当前用户相似度最高的Ｋ个用户作为当前用户的邻居节点来进行计算。设

表示和用户u兴趣最相近的

个用户的集合，利用式(3.1)预测目标用户u对未评分项i的评分值：

(3.1)

式中，

是对项目i评过分的用户集合，

表示目标用户u对已评分项的平均分值，

表示用户u与邻居v的相似度，

是用户v对物品i的评分，

是邻居v对他评过分的所有项目评分的平均值。

利用本发明所述的技术方案，或本领域的技术人员在本发明技术方案的启发下，设计出类似的技术方案，而达到上述技术效果的，均是落入本发明的保护范围。