CN106919699A

CN106919699A - 一种面向大规模用户的个性化信息推荐方法

Info

Publication number: CN106919699A
Application number: CN201710135697.7A
Authority: CN
Inventors: 马应龙; 苗文凯
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2017-07-04

Abstract

本发明公开了一种面向大规模用户的个性化信息推荐方法，能够提升大规模用户情形下推荐的准确度。主要分为三个部分：构建用户模型、数据预处理和个性化推荐。构建用户模型要处理原始数据集，按照一定的规则格式化原始数据得到用户物品评分矩阵；数据预处理包括用户物品评分矩阵的降维和用户聚类；个性化推荐包括信息填充和信息推荐两个步骤。本发明能够使得推荐给客户的信息更加准确，同时能够适应大规模用户物品数据信息场景下的个性化信息推荐需求。

Description

一种面向大规模用户的个性化信息推荐方法

技术领域

本发明属于推荐系统领域，尤其涉及一种面向大规模用户的个性化信息推荐方法，其中还会涉及到降维、聚类和数据填充的使用。

背景技术

在大数据的背景下，虽然有网站导航和搜索引擎给用户提供信息，但是不能主动给用户推荐信息。个性化推荐能够给用户推荐感兴趣的信息，并且推荐过程对用户是透明的，不需要用户的参与。个性化推荐能够通过后台收集用户的浏览、点击和评分等等构建用户模型，最终给每一个用户推荐不同的物品。

但是现实中用户规模是很庞大的，并且大多数情况下得到的用户向量是高维度稀疏的，直接进行推荐效果非常不明显，并且高维度数据的处理非常耗时。所以需要先对高维度的数据进行降维，然后再聚类，得到不同的用户类簇。不同的类簇之间用户相似度差别很大，但是同一个类簇中用户是相似的。进一步，在同一个类簇中相似用户的基础上进行数据填充，保证使用同一个类簇的用户数据填充当前类簇的稀疏数据，这样不会出现填充后的数据出现用户兴趣的偏移的情况。最后，在填充后的类簇内针对用户进行个性化的推荐。

发明内容

为了处理大规模用户和用户向量高维度稀疏的问题，并且提升推荐的准确度，本发明提出了一种面向大规模用户的个性化信息推荐方法。本方法充分的考虑了用户的规模的问题，使用降维解决用户向量高维度的问题。进一步在降维的基础上对用户进行聚类，得到相似用户类簇，然后进行数据填充和个性化推荐。

一种面向大规模用户的个性化信息推荐方法，该方法采用用户物品评分矩阵表示用户模型，然后对用户物品评分矩阵的降维和聚类操作后得到不同的用户类簇，在不同的用户类簇中进行数据填充，然后再针对每个用户进行推荐。

步骤1：读取数据集文件构建用户物品评分矩阵R(m×n)，其中矩阵的每一行表示表示同一个用户对不同物品的评分，每一列表示不同用户对同一个物品的评分，m表示用户总数，n表示物品总数，进入步骤2；

步骤2：使用SVD对用户物品评分矩阵进行降维，由于用户物品评分矩阵R可以表示为R＝UλV^T，其中λ为矩阵R的特征向量，并且特征值是从大到小排列的，取前k个特征值，保证前k个特征值的和占所有特征值总和的80％，即per(k)＝80％，k的计算公式为：

其中，n是用户物品评分矩阵的秩，k是降维后的维度，最后降维后的矩阵R'(m×k)，进入步骤3；

步骤3：使用Canopy算法确定k1的值和k1个不同的初始中心，进入步骤4；

步骤4:将k1和k1个不同的初始中心作为K-means的输入，进而进行用户聚类，最终得到k1个用户类簇。同一个类簇中的用户是相似的，不同类簇中的用户的相似度不大，进入步骤5；

步骤5：针对每一个用户使用slope one算法进行数据填充，首先判断用户类簇中的用户是否稀疏，如果稀疏那么使用slope one算法进行数据填充后进入步骤6；如果用户不稀疏则直接进入步骤6；

slope one算法虽然简单，但是填充效果很好，这里定义物品i相对于物品j的平均偏差其中S_j,i()表示同时对物品i和物品j给予评分的用户集合，而card()表示集合包含的元素数量，有了上面的定义后，这里使用dev_j,i+u_i获得用户u对物品j的预测值，当把所有的预测值平均起来得到其中Rj表示所有用户u已经给予评分且满足条件(i≠j且S_j,i非空)的物品集合。

步骤6：首先确定相似用户的邻居个数，根据协同过滤算法经过多次试验，经验上一般选择邻居个数为6到10之间的一个数为宜，在这里选定相似邻居数为8，不同的邻居个数对结果有不同的影响，如果邻居数太小，得到的结果会不准确，如果邻居数太大，会增加计算量，进入，然后计算用户相似度使用的距离函数；皮尔逊相似度PV(u,c)可以去除均值和方差间的差异影响。所以在这里选择使用皮尔逊相关系数作为距离函数其中r_ui表示用户u对物品i的评分，表示用户u的评分的均值，r_vi表示用户v对物品i的评分，表示用户v的评分的均值，进入步骤7；

步骤7：在用户类簇内使用基于用户的协同推荐算法针对每一个用户进行推荐，最终对每一个用户生成一个物品的推荐列表。

本发明能够适应大规模用户推荐的场景，处理高维度的稀疏数据，并且能够提高个性化推荐结果的准确度。

附图说明

图1为用户数量462时三个指标的比较；

图2为用户数量943时三个指标的比较；

图3为用户数量6040时三个指标的比较；

图4为不同用户数量下的系统运行时间；

图5为本发明流程示意图。

具体实施方式

下面结合附图，对进行详细说明。

应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

附表1为用户物品评分矩阵：

具体实施方式如下：

一种面向大规模用户的个性化信息推荐方法，步骤1：读取数据集文件进行处理得到用户评分矩阵R(m×n)，如表1所示。其中矩阵的每一行表示表示同一个用户对不同物品的评分，每一列表示不同用户对同一个物品的评分，m表示用户总数，n表示物品总数，进入步骤2；

步骤2：使用SVD对用户物品评分矩阵进行降维，由于用户物品评分矩阵R可以表示为R＝UλV^T，其中λ为矩阵R的特征向量，并且特征值是从大到小排列的，取前k个特征值，保证前k个特征值的和占所有特征值总和的80％，即per(k)＝80％。k的计算公式为

步骤4:将k1和k1个不同的初始中心作为K-means的输入，在这里使用欧氏距离来进行用户之间相似度的计算，当然也可以使用其他的形似度的度量方式，如Cosine和曼哈顿距离等。进而进行用户聚类，最终得到k1个用户类簇，进入步骤5；

slope one算法虽然简单，但是填充效果很好。用户1对物品1和物品2的打分分别是5和3；用户2对物品1和物品2的打分分别是4和3，并且用户3对物品1的打分是4，那么可以推断用户3对物品2的打分是4-((5-3)+(4-3))/2＝2.5。

步骤6：首先确定相似用户的邻居个数，根据协同过滤算法经过多次试验，经验上一般选择邻居个数为6到10之间的一个数为宜，在这里选定相似邻居数为8，不同的邻居个数对结果有不同的影响，如果邻居数太小，得到的结果会不准确，如果邻居数太大，会增加计算量，然后计算用户相似度使用的距离函数；皮尔逊相似度PV(u,v)可以去除均值和方差间的差异影响，所以在这里选择使用皮尔逊相关系数作为距离函数其中r_ui表示用户u对物品i的评分，表示用户u的评分的均值，r_vi表示用户v对物品i的评分，表示用户v的评分的均值，进入步骤7；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种面向大规模用户的个性化信息推荐方法，其特征在于，包括：

步骤1：读取数据集文件构建用户物品评分矩阵；

步骤2：使用SVD对用户物品评分矩阵进行降维；

步骤3：使用Canopy算法确定降维后的维度k₁的值和k₁个不同的初始中心；

步骤4:将k₁和k₁个不同的初始中心作为K-means的输入，进而进行用户聚类，最终得到k₁个用户类簇；

步骤5：针对每一个用户使用slope one算法进行数据填充，若用户类簇中的用户稀疏，再次使用slope one算法进行数据填充直至用户不稀疏；

步骤6：确首先确定相似用户的邻居个数，根据协同过滤算法经过多次试验，经验上一般选择邻居个数为6到10之间的一个数为宜，然后使用距离函数计算用户相似度，其中，r_ui表示用户u对物品i的评分，表示用户u的评分的均值，r_vi表示用户v对物品i的评分，表示用户v的评分的均值；

2.根据权利要求1所述的一种面向大规模用户的个性化信息推荐方法，其特征在于，步骤1中用户物品评分矩阵R(m×n)，其中矩阵的每一行表示表示同一个用户对不同物品的评分，每一列表示不同用户对同一个物品的评分，m表示用户总数，n表示物品总数。

3.根据权利要求1所述的一种面向大规模用户的个性化信息推荐方法，其特征在于，步骤2中由于用户物品评分矩阵R可以表示为R＝UλV^T，其中λ为矩阵R的特征向量，并且特征值是从大到小排列的，取前k个特征值，保证前k个特征值的和占所有特征值总和的80％，即per(k)＝80％。k的计算公式为

p e r (k) = \frac{Σ_{i = 1}^{k} λ_{i}}{Σ_{i = 1}^{n} λ_{i}}

其中，n是用户物品评分矩阵的秩，k是降维后的维度，最后降维后的矩阵。

4.根据权利要求1所述的一种面向大规模用户的个性化信息推荐方法，其特征在于，步骤6中定义物品i相对于物品j的平均偏差其中S_j,i()表示同时对物品i和物品j给予评分的用户集合，而card()表示集合包含的元素数量；使用dev_j,i+u_i获得用户u对物品j的预测值。当把所有的预测值平均起来得到其中R_j表示所有用户u已经给予评分且满足条件(i≠j且S_j,i非空)的物品集合。