CN110765364A

CN110765364A - 基于局部优化降维和聚类的协同过滤方法

Info

Publication number: CN110765364A
Application number: CN201911005417.6A
Authority: CN
Inventors: 尹芳; 宋垚; 孟迪
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-02-07

Abstract

基于局部优化降维和聚类的协同过滤方法；在线用户或客户经常面临关键信息过载的问题推荐系统可以有效缓解信息过载它个性化地引导用户在众多可能的项目中找到吸引人或满足要求的对象；推荐系统通过有效地将客户需求与最优产品映射到一起充分提高了客户满意度；目前多数推荐方法无法权衡推荐时间与推荐准确性的关系；本发明方法包括如下步骤特征是：首先对稀疏的用户‑项目评分矩阵做降维处理得到用户特征矩阵；其次对用户特征矩阵应用聚类技术得到相似用户的聚类；然后在用户测试集上预测目标用户的评分；最后根据预测结果选择评分最高的N个项目产生推荐；本发明用于准确并实时地对用户产生推荐。

Description

基于局部优化降维和聚类的协同过滤方法

技术领域

本发明涉及一种基于局部优化降维和聚类的协同过滤方法。

背景技术

对于大多数公司来说,了解在线用户或客户的需求和偏好变得越来越重要；但是在线用户或客户经常面临关键信息过载的问题；推荐系统可以有效缓解信息过载它个性化地引导用户在众多可能的项目中找到吸引人或满足要求的对象；推荐系统通过有效地将客户需求与最优产品映射到一起充分提高了客户满意度；然而推荐系统的好坏主要取决于所选择的推荐方法；传统推荐方法主要分为基于内容的推荐方法、协同过滤推荐方法和混合推荐方法 3类；

目前协同过滤推荐方法存在严重的数据稀疏以及冷启动问题并且无法权衡推荐时间与推荐准确性的关系。

发明内容

本发明的目的是为了解决无法权衡推荐时间与推荐准确性的关系问题提供一种具有良好的可扩展性同时实现了实时并准确的向用户进行推荐的方法；

基于局部优化降维和聚类的协同过滤方法。

上述的目的通过以下的技术方案实现：

一种基于局部优化降维和聚类的协同过滤方法首先对稀疏的用户-项目评分矩阵做降维处理得到用户特征矩阵；其次对用户特征矩阵应用聚类技术得到相似用户的聚类；然后在用户测试集上预测目标用户的评分；最后根据预测结果选择评分最高的N个项目产生推荐；

所述的基于局部优化降维和聚类的协同过滤方法其特征是：构建用户-项目评分矩阵的近似差分矩阵包括如下步骤：

步骤1：局部优化的奇异值分解定理表明对于所有矩阵C[k,n]其中k行代表用户n列表示项目C可以分解为如下：C＝U·∑·V^T；其中U是大小为k×r的标准正交矩阵∑是大小为r×r的对角矩阵并具有C的奇异值V^T是大小为r×n的标准正交矩阵；

步骤2：因为奇异值减少的特别快本方法用前s大的奇异值来近似描述矩阵得到C的低阶逼近为C_s＝U_s·∑_s·V_s ^T；

X Y分别为用户特征矩阵和项目特征矩阵维度都是s；C_s＝X·Y^T；

步骤3：用差分矩阵D来表示用户-项目评分矩阵的局部信息；

D_ij＝C_ij-C_i(j+1)表示用户i对项目j和项目j+1的评分差也体现出了项目的受欢迎程度；

步骤4：从稀疏的用户评分矩阵中得到差分矩阵并不容易；虽然用户间普遍存在评分尺度问题但是可以近似认为绝大多数用户可以区分项目的好坏；在这里本方法默认不同用户对相同项目的评分差一样进而得到近似差分矩阵

其中M_j表示同时选择项目j和项目j+1的用户集合。

所述的基于局部优化降维和聚类的协同过滤方法其特征是：基于局部优化降维方法先以学习速sr₁进行迭代当前后两次均方误差(Mean Square Error,MSE)之差小于阈值β时以较小的学习速率sr₂进行迭代局部优化奇异值分解方法包括如下步骤：

步骤1:初始化

PMSE＝0；Sum＝0；sr₁＝0.003；sr₂＝0.00005；λ＝0.12；β＝0.0003

步骤2:针对训练集D中用户项目集合(i,j)：

(1)计算用户i对项目j的评分：

(2)计算预测评分与真实评分之间的误差：

Sum＝r_ij·r_ij；

(3)对于所有特征f(1≤f≤s)用梯度下降法求解：

X_if＝X_if-sr₁(r_ij·X_if+λY_jf)；Y_jf＝Y_jf-sr₁(r_ij·Y_jf+λX_if)

其中sr₁为学习速率λ为正则化参数；

步骤3：if转到步骤4；elseSum＝0迭代步骤2；

步骤4：针对用户项目集合(i，j+1)：

(1)

计算近似差分矩阵与差分矩阵的误差：

(2)

对于所有特征f(1≤f≤s)用梯度下降法求解：

X_if＝X_if-sr₂·r_ij·X_if；Y_jf＝Y_jf-sr₂·r_ij·Y_jf

其中sr₂为学习速率且sr₂≤sr₁；

步骤5：判断是否满足终止条件满足的话结束迭代否则迭代步骤4。

所述的基于局部优化降维和聚类的协同过滤方法其特征是：K-means聚类方法包括如下步骤：

步骤1：随机选择K个用户作为K个质心；

步骤2：其余用户根据它们到每个质心的距离分配到最近的簇中；Pearson相似性用于计算距离值；用户i和用户j之间的相似性sim(i,j)为:

其中I_ij为用户i和用户j共同评分的项目集合则C_ip表示用户i对项目p的评分

和

分别表示用户i和j对共同评分项目的平均评分；

步骤3：计算用户类的均值以定义新的质心；

步骤4：对于每个用户重新计算距离来更新用户所属的簇；

步骤5：根据用户与质心的距离重新分配直到满足终止条件。；

所述的基于局部优化降维和聚类的协同过滤方法其特征是：根据Pearson相似性计算与目标用户距离最近的聚类中心确定其所属类别即确定了最近邻居集合；然后预测目标用户对未评分项目的评分；

假设用户集为U＝{u₁,u₂,…u_m}项目集I＝{i₁,i₂,…i_n}设P_u,i为用户u对项目i的预测评分 P_u,i是根据邻居用户对i的评分得出的；设N为用户u的邻居集那么可用如下公式预测P_u,i的值；

sim(u，c)表示用户u与用户c的相似性是用户的平均评分即用户u的评分习惯。

所述的基于局部优化降维和聚类的协同过滤方法其特征是：利用近似差分矩阵来表示评分矩阵的局部结构解决了梯度下降法在求解的过程中误差下降速度逐渐降低并且需要更多的训练时间的问题实现了局部优化的效果；

所述的基于局部优化降维和聚类的协同过滤方法其特征是：在考虑服务评分时效性的用户相似度的基础上加入基于社交关系信任度解决了恶意推荐的问题；改善了传统协同过滤方法的稀疏性问题对推荐准确性的影响；

所述的基于局部优化降维和聚类的协同过滤方法其特征是：在考虑稀疏性对推荐准确性的影响的基础上加入聚类方法降低最近邻的查找时间并具有良好的可扩展性；

有益效果：

1.本发明同时考虑了推荐方法中的推荐时间和推荐准确性因素：以往推荐方法常考虑单一因素；本发明采用局部优化的奇异值分解降维技术和K-means聚类技术对用户-项目评分矩阵中的相似用户进行聚类并降低维度；解决了无法权衡推荐时间与推荐准确性的关系问题；

2.本发明利用近似差分矩阵来表示评分矩阵的局部结构实现局部优化；局部优化的奇异值分解降维技术可以利用更少的迭代次数缓解协同过滤中数据稀疏和方法可扩展性差的问题；

附图说明：

附图1是本发明的结构示意图；

附图2保留矩阵的能量比例与MAE的关系图；

附图3聚类数k与MAE的关系图；

附图4不同协同过滤方法的MAE值对比图；

附图5不同协同过滤方法的Precisio值对比图；

具体实施方式：

实施例1：

一种基于局部优化降维和聚类的协同过滤方法其特征在于：首先对稀疏的用户-项目评分矩阵做降维处理得到用户特征矩阵；其次对用户特征矩阵应用聚类技术得到相似用户的聚类；然后在用户测试集上预测目标用户的评分；最后根据预测结果选择评分最高的N个项目产生推荐；

基于局部优化降维和聚类的协同过滤方法其特征是：构建用户-项目评分矩阵的近似差分矩阵包括如下步骤：

步骤3：用差分矩阵D来表示用户-项目评分矩阵的局部信息；

其中M_j表示同时选择项目j和项目j+1的用户集合。

实施例2：

步骤1:初始化

PMSE＝0；Sum＝0；sr₁＝0.003；sr₂＝0.00005；λ＝0.12；β＝0.0003

步骤2：针对训练集D中用户项目集合(i，j)：

(1)计算用户i对项目j的评分：

(2)计算预测评分与真实评分之间的误差：

Sum＝r_ij·r_ij；

(3)对于所有特征f(1≤f≤s)用梯度下降法求解：

X_if＝X_if-sr₁(r_ij·X_if+λY_jf)；Y_jf＝Y_jf-sr₁(r_ij·Y_jf+λX_if)

其中sr₁为学习速率λ为正则化参数；

步骤3：if转到步骤4；else

迭代步骤2；

步骤4：针对用户项目集合(i，j+1)：

(3)

计算近似差分矩阵与差分矩阵的误差：

(4)

对于所有特征f(1≤f≤s)用梯度下降法求解：

X_if＝X_if-sr₂·r_ij·X_if；Y_jf＝Y_jf-sr₂·r_ij·Y_jf

其中sr₂为学习速率且sr₂≤sr₁；

实施例3：

步骤1：随机选择K个用户作为K个质心；

其中I_ij为用户i和用户j共同评分的项目集合则C_ip表示用户i对项目p的评分和

分别表示用户i和j对共同评分项目的平均评分；

步骤3：计算用户类的均值以定义新的质心；

步骤4：对于每个用户重新计算距离来更新用户所属的簇；

步骤5：根据用户与质心的距离重新分配直到满足终止条件。

实施例4：

sim(u，c)表示用户u与用户c的相似性

是用户的平均评分即用户u的评分习惯。

实施例5：

实施例6：

实验采用美国明尼苏达大学GroupLens研究项目组所收集到的MovieLens 100K数据集；其中包括943个用户对1682部在线电影的十万条评分每位用户至少评了20部电影；数据集的稀疏度约为93.7％；评分值是介于1到5的整数其大小表示用户对电影的喜爱程度；实验中随机将数据集分成比例为4:1的训练集和测试集最终结果取平均值；

实验采用平均绝对误差(Mean Absolute Error MAE)和准确性(Precision)分别作为预测精度度量和分类误差度量；MAE是推荐系统中常用的度量标准通过计算目标用户对项目的预测评分与实际评分的差值来评估方法；MAE值越小表明预测的评分与用户实际评分越接近方法性能越好；MAE定义如下：

其中P_u，i是用户u对项目u 的预测评分r_u，i是实际评分S是评分总数；Precision指标表示在Top-N推荐结果中推荐准确的项目所占的比例；Precision定义如下：

其中Test为测试集中项目的数量；Top-N表示推荐给用户的N个项目；Precision值越大推荐的准确性越高；

实施例7：

本方法使用局部优化SVD对稀疏的用户-项目评分矩阵进行降维；但是维数s的选取十分重要；s过大就失去了对矩阵降维的意义；s过小容易丢失重要的特征信息；所以实验首先要确定矩阵维数s的大小；实验中横坐标代表保留矩阵的能量比例；纵坐标表示MAE值；实验结果如附图2所示；

附图2中保留矩阵能量的比例在0到0.3时丢失了大部分特征信息导致MAE值过高因此不作考虑；观察实验结果可知随着增加保留矩阵的能量比例MAE值先骤降再逐渐增大并且在比例为0.4时取得最小值；因此实验选取保留矩阵40％的能量来验证本方法；

对于降维后的矩阵本方法用K-means聚类技术进行相似用户的划分；聚类数k的取值会直接影响方法的准确性；考虑到经验规则k的取值范围可以缩小为

由于 MAE值在邻居集为30开始趋于稳定因此实验选择在邻居集大小为30时观察聚类数

的变化对MAE值的影响；

从附图3中可以初步判断在k取值范围在12到20时推荐准确度最高；在后续实验中不妨选取k值为16；

实施例8：

为了进一步验证本文方法的真实性和优越性将本文方法与传统基于Pearson相关的协同过滤方法、传统基于SVD的协同过滤方法、传统基于K-means聚类的协同过滤方法相比较；在测试集上在保留矩阵40％的能量和聚类数为16的基础上进行实验；

如附图4所示本文方法的MAE值总是低于基于Pearson相关的协同过滤方法和基于基于K-means聚类的协同过滤方法；虽然在邻居集大小少于20时本文方法的性能不如基于SVD的协同过滤方法；但是随着邻居集大小的增加本文方法优于其余三种方法；仅仅依据一项评估策略来验证方法是不全面的因此本文以Precision作为评估标准对四个方法做进一步对比；对比结果如附图5所示；

从附图5中可以看出本文方法的准确性在最近邻个数大于25时高于其余三个方法并在邻居大小为45时趋于稳定；在最近邻个数小于25时本文方法的准确性介于基于SVD的协同过滤方法与其它两个方法之间；通过比较不同协同过滤方法的MAE值和Precision实验证明本文提出的基于局部优化的SVD和K-means的协同过滤方法具有良好的预测精度。