CN110765364A - 基于局部优化降维和聚类的协同过滤方法 - Google Patents

基于局部优化降维和聚类的协同过滤方法 Download PDF

Info

Publication number
CN110765364A
CN110765364A CN201911005417.6A CN201911005417A CN110765364A CN 110765364 A CN110765364 A CN 110765364A CN 201911005417 A CN201911005417 A CN 201911005417A CN 110765364 A CN110765364 A CN 110765364A
Authority
CN
China
Prior art keywords
user
item
clustering
matrix
local optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911005417.6A
Other languages
English (en)
Inventor
尹芳
宋垚
孟迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN201911005417.6A priority Critical patent/CN110765364A/zh
Publication of CN110765364A publication Critical patent/CN110765364A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • G06F18/21322Rendering the within-class scatter matrix non-singular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于局部优化降维和聚类的协同过滤方法;在线用户或客户经常面临关键信息过载的问题推荐系统可以有效缓解信息过载它个性化地引导用户在众多可能的项目中找到吸引人或满足要求的对象;推荐系统通过有效地将客户需求与最优产品映射到一起充分提高了客户满意度;目前多数推荐方法无法权衡推荐时间与推荐准确性的关系;本发明方法包括如下步骤特征是:首先对稀疏的用户‑项目评分矩阵做降维处理得到用户特征矩阵;其次对用户特征矩阵应用聚类技术得到相似用户的聚类;然后在用户测试集上预测目标用户的评分;最后根据预测结果选择评分最高的N个项目产生推荐;本发明用于准确并实时地对用户产生推荐。

Description

基于局部优化降维和聚类的协同过滤方法
技术领域
本发明涉及一种基于局部优化降维和聚类的协同过滤方法。
背景技术
对于大多数公司来说,了解在线用户或客户的需求和偏好变得越来越重要;但是在线用户或客户经常面临关键信息过载的问题;推荐系统可以有效缓解信息过载它个性化地引导用户在众多可能的项目中找到吸引人或满足要求的对象;推荐系统通过有效地将客户需求与最优产品映射到一起充分提高了客户满意度;然而推荐系统的好坏主要取决于所选择的推荐方法;传统推荐方法主要分为基于内容的推荐方法、协同过滤推荐方法和混合推荐方法 3类;
目前协同过滤推荐方法存在严重的数据稀疏以及冷启动问题并且无法权衡推荐时间与推荐准确性的关系。
发明内容
本发明的目的是为了解决无法权衡推荐时间与推荐准确性的关系问题提供一种具有良好的可扩展性同时实现了实时并准确的向用户进行推荐的方法;
基于局部优化降维和聚类的协同过滤方法。
上述的目的通过以下的技术方案实现:
一种基于局部优化降维和聚类的协同过滤方法首先对稀疏的用户-项目评分矩阵做降维处理得到用户特征矩阵;其次对用户特征矩阵应用聚类技术得到相似用户的聚类;然后在用户测试集上预测目标用户的评分;最后根据预测结果选择评分最高的N个项目产生推荐;
所述的基于局部优化降维和聚类的协同过滤方法其特征是:构建用户-项目评分矩阵的近似差分矩阵包括如下步骤:
步骤1:局部优化的奇异值分解定理表明对于所有矩阵C[k,n]其中k行代表用户n列表示项目C可以分解为如下:C=U·∑·VT;其中U是大小为k×r的标准正交矩阵∑是大小为r×r的对角矩阵并具有C的奇异值VT是大小为r×n的标准正交矩阵;
步骤2:因为奇异值减少的特别快本方法用前s大的奇异值来近似描述矩阵得到C的低阶逼近为Cs=Us·∑s·Vs T
Figure BDA0002242611220000021
X Y分别为用户特征矩阵和项目特征矩阵维度都是s;Cs=X·YT
步骤3:用差分矩阵D来表示用户-项目评分矩阵的局部信息;
Figure BDA0002242611220000022
Dij=Cij-Ci(j+1)表示用户i对项目j和项目j+1的评分差也体现出了项目的受欢迎程度;
步骤4:从稀疏的用户评分矩阵中得到差分矩阵并不容易;虽然用户间普遍存在评分尺度问题但是可以近似认为绝大多数用户可以区分项目的好坏;在这里本方法默认不同用户对相同项目的评分差一样进而得到近似差分矩阵
Figure BDA0002242611220000024
Figure BDA0002242611220000025
其中Mj表示同时选择项目j和项目j+1的用户集合。
所述的基于局部优化降维和聚类的协同过滤方法其特征是:基于局部优化降维方法先以学习速sr1进行迭代当前后两次均方误差(Mean Square Error,MSE)之差小于阈值β时以较小的学习速率sr2进行迭代局部优化奇异值分解方法包括如下步骤:
步骤1:初始化
PMSE=0;Sum=0;sr1=0.003;sr2=0.00005;λ=0.12;β=0.0003
步骤2:针对训练集D中用户项目集合(i,j):
(1)计算用户i对项目j的评分:
(2)计算预测评分与真实评分之间的误差:
Figure BDA0002242611220000032
Sum=rij·rij
(3)对于所有特征f(1≤f≤s)用梯度下降法求解:
Xif=Xif-sr1(rij·Xif+λYjf);Yjf=Yjf-sr1(rij·Yjf+λXif)
其中sr1为学习速率λ为正则化参数;
步骤3:if转到步骤4;elseSum=0迭代步骤2;
步骤4:针对用户项目集合(i,j+1):
(1)
计算近似差分矩阵与差分矩阵的误差:
Figure BDA0002242611220000035
(2)
对于所有特征f(1≤f≤s)用梯度下降法求解:
Xif=Xif-sr2·rij·Xif;Yjf=Yjf-sr2·rij·Yjf
其中sr2为学习速率且sr2≤sr1
步骤5:判断是否满足终止条件满足的话结束迭代否则迭代步骤4。
所述的基于局部优化降维和聚类的协同过滤方法其特征是:K-means聚类方法包括如下步骤:
步骤1:随机选择K个用户作为K个质心;
步骤2:其余用户根据它们到每个质心的距离分配到最近的簇中;Pearson相似性用于计算距离值;用户i和用户j之间的相似性sim(i,j)为:
其中Iij为用户i和用户j共同评分的项目集合则Cip表示用户i对项目p的评分
Figure BDA0002242611220000042
Figure BDA0002242611220000043
分别表示用户i和j对共同评分项目的平均评分;
步骤3:计算用户类的均值以定义新的质心;
步骤4:对于每个用户重新计算距离来更新用户所属的簇;
步骤5:根据用户与质心的距离重新分配直到满足终止条件。;
所述的基于局部优化降维和聚类的协同过滤方法其特征是:根据Pearson相似性计算与目标用户距离最近的聚类中心确定其所属类别即确定了最近邻居集合;然后预测目标用户对未评分项目的评分;
假设用户集为U={u1,u2,…um}项目集I={i1,i2,…in}设Pu,i为用户u对项目i的预测评分 Pu,i是根据邻居用户对i的评分得出的;设N为用户u的邻居集那么可用如下公式预测Pu,i的值;
Figure BDA0002242611220000044
sim(u,c)表示用户u与用户c的相似性是用户的平均评分即用户u的评分习惯。
所述的基于局部优化降维和聚类的协同过滤方法其特征是:利用近似差分矩阵来表示评分矩阵的局部结构解决了梯度下降法在求解的过程中误差下降速度逐渐降低并且需要更多的训练时间的问题实现了局部优化的效果;
所述的基于局部优化降维和聚类的协同过滤方法其特征是:在考虑服务评分时效性的用户相似度的基础上加入基于社交关系信任度解决了恶意推荐的问题;改善了传统协同过滤方法的稀疏性问题对推荐准确性的影响;
所述的基于局部优化降维和聚类的协同过滤方法其特征是:在考虑稀疏性对推荐准确性的影响的基础上加入聚类方法降低最近邻的查找时间并具有良好的可扩展性;
有益效果:
1.本发明同时考虑了推荐方法中的推荐时间和推荐准确性因素:以往推荐方法常考虑单一因素;本发明采用局部优化的奇异值分解降维技术和K-means聚类技术对用户-项目评分矩阵中的相似用户进行聚类并降低维度;解决了无法权衡推荐时间与推荐准确性的关系问题;
2.本发明利用近似差分矩阵来表示评分矩阵的局部结构实现局部优化;局部优化的奇异值分解降维技术可以利用更少的迭代次数缓解协同过滤中数据稀疏和方法可扩展性差的问题;
附图说明:
附图1是本发明的结构示意图;
附图2保留矩阵的能量比例与MAE的关系图;
附图3聚类数k与MAE的关系图;
附图4不同协同过滤方法的MAE值对比图;
附图5不同协同过滤方法的Precisio值对比图;
具体实施方式:
实施例1:
一种基于局部优化降维和聚类的协同过滤方法其特征在于:首先对稀疏的用户-项目评分矩阵做降维处理得到用户特征矩阵;其次对用户特征矩阵应用聚类技术得到相似用户的聚类;然后在用户测试集上预测目标用户的评分;最后根据预测结果选择评分最高的N个项目产生推荐;
基于局部优化降维和聚类的协同过滤方法其特征是:构建用户-项目评分矩阵的近似差分矩阵包括如下步骤:
步骤1:局部优化的奇异值分解定理表明对于所有矩阵C[k,n]其中k行代表用户n列表示项目C可以分解为如下:C=U·∑·VT;其中U是大小为k×r的标准正交矩阵∑是大小为r×r的对角矩阵并具有C的奇异值VT是大小为r×n的标准正交矩阵;
步骤2:因为奇异值减少的特别快本方法用前s大的奇异值来近似描述矩阵得到C的低阶逼近为Cs=Us·∑s·Vs T
Figure BDA0002242611220000061
X Y分别为用户特征矩阵和项目特征矩阵维度都是s;Cs=X·YT
步骤3:用差分矩阵D来表示用户-项目评分矩阵的局部信息;
Figure BDA0002242611220000062
Figure BDA0002242611220000063
Dij=Cij-Ci(j+1)表示用户i对项目j和项目j+1的评分差也体现出了项目的受欢迎程度;
步骤4:从稀疏的用户评分矩阵中得到差分矩阵并不容易;虽然用户间普遍存在评分尺度问题但是可以近似认为绝大多数用户可以区分项目的好坏;在这里本方法默认不同用户对相同项目的评分差一样进而得到近似差分矩阵
Figure BDA0002242611220000064
其中Mj表示同时选择项目j和项目j+1的用户集合。
实施例2:
所述的基于局部优化降维和聚类的协同过滤方法其特征是:基于局部优化降维方法先以学习速sr1进行迭代当前后两次均方误差(Mean Square Error,MSE)之差小于阈值β时以较小的学习速率sr2进行迭代局部优化奇异值分解方法包括如下步骤:
步骤1:初始化
PMSE=0;Sum=0;sr1=0.003;sr2=0.00005;λ=0.12;β=0.0003
步骤2:针对训练集D中用户项目集合(i,j):
(1)计算用户i对项目j的评分:
Figure BDA0002242611220000071
(2)计算预测评分与真实评分之间的误差:
Figure BDA0002242611220000072
Sum=rij·rij
(3)对于所有特征f(1≤f≤s)用梯度下降法求解:
Xif=Xif-sr1(rij·Xif+λYjf);Yjf=Yjf-sr1(rij·Yjf+λXif)
其中sr1为学习速率λ为正则化参数;
步骤3:if转到步骤4;else
Figure BDA0002242611220000074
迭代步骤2;
步骤4:针对用户项目集合(i,j+1):
(3)
计算近似差分矩阵与差分矩阵的误差:
Figure BDA0002242611220000075
(4)
对于所有特征f(1≤f≤s)用梯度下降法求解:
Xif=Xif-sr2·rij·Xif;Yjf=Yjf-sr2·rij·Yjf
其中sr2为学习速率且sr2≤sr1
步骤5:判断是否满足终止条件满足的话结束迭代否则迭代步骤4。
实施例3:
所述的基于局部优化降维和聚类的协同过滤方法其特征是:K-means聚类方法包括如下步骤:
步骤1:随机选择K个用户作为K个质心;
步骤2:其余用户根据它们到每个质心的距离分配到最近的簇中;Pearson相似性用于计算距离值;用户i和用户j之间的相似性sim(i,j)为:
Figure BDA0002242611220000081
其中Iij为用户i和用户j共同评分的项目集合则Cip表示用户i对项目p的评分
Figure BDA0002242611220000083
分别表示用户i和j对共同评分项目的平均评分;
步骤3:计算用户类的均值以定义新的质心;
步骤4:对于每个用户重新计算距离来更新用户所属的簇;
步骤5:根据用户与质心的距离重新分配直到满足终止条件。
实施例4:
所述的基于局部优化降维和聚类的协同过滤方法其特征是:根据Pearson相似性计算与目标用户距离最近的聚类中心确定其所属类别即确定了最近邻居集合;然后预测目标用户对未评分项目的评分;
假设用户集为U={u1,u2,…um}项目集I={i1,i2,…in}设Pu,i为用户u对项目i的预测评分 Pu,i是根据邻居用户对i的评分得出的;设N为用户u的邻居集那么可用如下公式预测Pu,i的值;
Figure BDA0002242611220000084
sim(u,c)表示用户u与用户c的相似性
Figure BDA0002242611220000085
是用户的平均评分即用户u的评分习惯。
实施例5:
所述的基于局部优化降维和聚类的协同过滤方法其特征是:利用近似差分矩阵来表示评分矩阵的局部结构解决了梯度下降法在求解的过程中误差下降速度逐渐降低并且需要更多的训练时间的问题实现了局部优化的效果;
所述的基于局部优化降维和聚类的协同过滤方法其特征是:在考虑服务评分时效性的用户相似度的基础上加入基于社交关系信任度解决了恶意推荐的问题;改善了传统协同过滤方法的稀疏性问题对推荐准确性的影响;
所述的基于局部优化降维和聚类的协同过滤方法其特征是:在考虑稀疏性对推荐准确性的影响的基础上加入聚类方法降低最近邻的查找时间并具有良好的可扩展性;
实施例6:
实验采用美国明尼苏达大学GroupLens研究项目组所收集到的MovieLens 100K数据集;其中包括943个用户对1682部在线电影的十万条评分每位用户至少评了20部电影;数据集的稀疏度约为93.7%;评分值是介于1到5的整数其大小表示用户对电影的喜爱程度;实验中随机将数据集分成比例为4:1的训练集和测试集最终结果取平均值;
实验采用平均绝对误差(Mean Absolute Error MAE)和准确性(Precision)分别作为预测精度度量和分类误差度量;MAE是推荐系统中常用的度量标准通过计算目标用户对项目的预测评分与实际评分的差值来评估方法;MAE值越小表明预测的评分与用户实际评分越接近方法性能越好;MAE定义如下:
Figure BDA0002242611220000091
其中Pu,i是用户u对项目u 的预测评分ru,i是实际评分S是评分总数;Precision指标表示在Top-N推荐结果中推荐准确的项目所占的比例;Precision定义如下:
Figure BDA0002242611220000092
其中Test为测试集中项目的数量;Top-N表示推荐给用户的N个项目;Precision值越大推荐的准确性越高;
实施例7:
本方法使用局部优化SVD对稀疏的用户-项目评分矩阵进行降维;但是维数s的选取十分重要;s过大就失去了对矩阵降维的意义;s过小容易丢失重要的特征信息;所以实验首先要确定矩阵维数s的大小;实验中横坐标代表保留矩阵的能量比例;纵坐标表示MAE值;实验结果如附图2所示;
附图2中保留矩阵能量的比例在0到0.3时丢失了大部分特征信息导致MAE值过高因此不作考虑;观察实验结果可知随着增加保留矩阵的能量比例MAE值先骤降再逐渐增大并且在比例为0.4时取得最小值;因此实验选取保留矩阵40%的能量来验证本方法;
对于降维后的矩阵本方法用K-means聚类技术进行相似用户的划分;聚类数k的取值会直接影响方法的准确性;考虑到经验规则k的取值范围可以缩小为
Figure BDA0002242611220000102
由于 MAE值在邻居集为30开始趋于稳定因此实验选择在邻居集大小为30时观察聚类数
Figure BDA0002242611220000103
的变化对MAE值的影响;
从附图3中可以初步判断在k取值范围在12到20时推荐准确度最高;在后续实验中不妨选取k值为16;
实施例8:
为了进一步验证本文方法的真实性和优越性将本文方法与传统基于Pearson相关的协同过滤方法、传统基于SVD的协同过滤方法、传统基于K-means聚类的协同过滤方法相比较;在测试集上在保留矩阵40%的能量和聚类数为16的基础上进行实验;
如附图4所示本文方法的MAE值总是低于基于Pearson相关的协同过滤方法和基于基于K-means聚类的协同过滤方法;虽然在邻居集大小少于20时本文方法的性能不如基于SVD的协同过滤方法;但是随着邻居集大小的增加本文方法优于其余三种方法;仅仅依据一项评估策略来验证方法是不全面的因此本文以Precision作为评估标准对四个方法做进一步对比;对比结果如附图5所示;
从附图5中可以看出本文方法的准确性在最近邻个数大于25时高于其余三个方法并在邻居大小为45时趋于稳定;在最近邻个数小于25时本文方法的准确性介于基于SVD的协同过滤方法与其它两个方法之间;通过比较不同协同过滤方法的MAE值和Precision实验证明本文提出的基于局部优化的SVD和K-means的协同过滤方法具有良好的预测精度。

Claims (8)

1.一种基于局部优化降维和聚类的协同过滤方法 其特征在于:首先对稀疏的用户-项目评分矩阵做降维处理得到用户特征矩阵;其次 对用户特征矩阵应用聚类技术得到相似用户的聚类;然后 在用户测试集上预测目标用户的评分;最后根据预测结果选择评分最高的N个项目产生推荐。
2.根据权利要求1所述的基于局部优化降维和聚类的协同过滤方法 其特征是:构建用户-项目评分矩阵的近似差分矩阵包括如下步骤:
步骤1:局部优化的奇异值分解定理表明对于所有矩阵C[k,n] 其中k行代表用户n列表示项目C可以分解为如下:
Figure 814817DEST_PATH_IMAGE001
;其中U是大小为
Figure 122302DEST_PATH_IMAGE002
的标准正交矩阵
Figure 950581DEST_PATH_IMAGE003
是大小为
Figure 685318DEST_PATH_IMAGE004
的对角矩阵并具有C的奇异值 VT是大小为的标准正交矩阵;
步骤2:因为奇异值减少的特别快 本方法用前s大的奇异值来近似描述矩阵 得到C的低阶逼近为
Figure 419978DEST_PATH_IMAGE006
;
Figure 430659DEST_PATH_IMAGE007
;
Figure 336299DEST_PATH_IMAGE008
;X Y分别为用户特征矩阵和项目特征矩阵 维度都是s;
步骤3:用差分矩阵D来表示用户-项目评分矩阵的局部信息;
;
Figure 884589DEST_PATH_IMAGE011
;
Figure 23446DEST_PATH_IMAGE012
Figure 544557DEST_PATH_IMAGE013
Figure 794273DEST_PATH_IMAGE014
表示用户i对项目j和项目j+1的评分差 也体现出了项目的受欢迎程度;
步骤4:从稀疏的用户评分矩阵中得到差分矩阵并不容易;虽然用户间普遍存在评分尺度问题 但是可以近似认为绝大多数用户可以区分项目的好坏;在这里 本方法默认不同用户对相同项目的评分差一样 进而得到近似差分矩阵
Figure 717230DEST_PATH_IMAGE015
Figure 26988DEST_PATH_IMAGE016
其中Mj表示同时选择项目j和项目j+1的用户集合。
3.根据权利要求1所述的基于局部优化降维和聚类的协同过滤方法 其特征是:基于局部优化降维方法先以学习速sr1进行迭代 当前后两次均方误差(Mean Square Error,MSE)之差小于阈值
Figure 35395DEST_PATH_IMAGE017
时 以较小的学习速率sr2进行迭代 局部优化奇异值分解方法包括如下步骤:
步骤1: 初始化
PMSE=0;Sum=0;sr1=0.003; sr2=0.00005;;
Figure 866265DEST_PATH_IMAGE019
步骤2: 针对训练集D中用户项目集合(i,j):
(1) 计算用户i对项目j的评分:
Figure 281679DEST_PATH_IMAGE020
(2) 计算预测评分与真实评分之间的误差:
Figure 574120DEST_PATH_IMAGE021
(3) 对于所有特征 用梯度下降法求解:
Figure 652431DEST_PATH_IMAGE024
;
其中sr1为学习速率为正则化参数;
步骤3: if
Figure 517116DEST_PATH_IMAGE027
转到步骤4;else ,
Figure 809874DEST_PATH_IMAGE029
迭代步骤2;
步骤4: 针对用户项目集合(i,j+1):
计算近似差分矩阵与差分矩阵的误差:
;
Figure 349757DEST_PATH_IMAGE031
对于所有特征
Figure 546383DEST_PATH_IMAGE023
用梯度下降法求解:
Figure 300712DEST_PATH_IMAGE032
;
其中
Figure 501722DEST_PATH_IMAGE034
为学习速率且
Figure 869250DEST_PATH_IMAGE035
步骤5: 判断是否满足终止条件 满足的话结束迭代 否则迭代步骤4。
4.根据权利要求1所述的基于局部优化降维和聚类的协同过滤方法 其特征是:K-means聚类方法包括如下步骤:
步骤1:随机选择K个用户作为K个质心;
步骤2:其余用户根据它们到每个质心的距离分配到最近的簇中;Pearson相似性用于计算距离值;用户i和用户j之间的相似性sim(i,j)为:
Figure 782979DEST_PATH_IMAGE036
其中 Iij为用户i和用户j共同评分的项目集合 则Cip表示用户i对项目p的评分
Figure 323682DEST_PATH_IMAGE037
Figure 904836DEST_PATH_IMAGE038
分别表示用户i和j对共同评分项目的平均评分;
步骤3:计算用户类的均值以定义新的质心;
步骤4:对于每个用户 重新计算距离来更新用户所属的簇;
步骤5:根据用户与质心的距离重新分配 直到满足终止条件。
5.根据权利要求1所述的基于局部优化降维和聚类的协同过滤方法 其特征是:根据Pearson相似性计算与目标用户距离最近的聚类中心 确定其所属类别即确定了最近邻居集合;然后预测目标用户对未评分项目的评分;
假设用户集为U={u1, u2, …um} 项目集I={i1, i2, …in} 设Pu,i为用户u对项目i的预测评分Pu,i是根据邻居用户对i的评分得出的;设N为用户u的邻居集 那么可用如下公式预测Pu,i的值;
表示用户u与用户c的相似性
Figure 985421DEST_PATH_IMAGE041
是用户的平均评分 即用户u的评分习惯。
6.根据权利要求1或2所述的基于局部优化降维和聚类的协同过滤方法 其特征是:利用近似差分矩阵来表示评分矩阵的局部结构 解决了梯度下降法在求解的过程中误差下降速度逐渐降低并且需要更多的训练时间的问题 实现了局部优化的效果。
7.根据权利要求1或2或3所述的基于局部优化降维和聚类的协同过滤方法 其特征是:在考虑服务评分时效性的用户相似度的基础上 加入基于社交关系信任度 解决了恶意推荐的问题;改善了传统协同过滤方法的稀疏性问题对推荐准确性的影响。
8.根据权利要求1或2或3或4或5所述的基于局部优化降维和聚类的协同过滤方法 其特征是:在考虑稀疏性对推荐准确性的影响的基础上 加入聚类方法 降低最近邻的查找时间并具有良好的可扩展性。
CN201911005417.6A 2019-10-22 2019-10-22 基于局部优化降维和聚类的协同过滤方法 Pending CN110765364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911005417.6A CN110765364A (zh) 2019-10-22 2019-10-22 基于局部优化降维和聚类的协同过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911005417.6A CN110765364A (zh) 2019-10-22 2019-10-22 基于局部优化降维和聚类的协同过滤方法

Publications (1)

Publication Number Publication Date
CN110765364A true CN110765364A (zh) 2020-02-07

Family

ID=69331452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911005417.6A Pending CN110765364A (zh) 2019-10-22 2019-10-22 基于局部优化降维和聚类的协同过滤方法

Country Status (1)

Country Link
CN (1) CN110765364A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202606A (zh) * 2020-09-27 2021-01-08 北京六方云信息技术有限公司 基于设备连接关系的设备相似性聚类方法和系统
CN113158039A (zh) * 2021-04-06 2021-07-23 深圳先进技术研究院 应用推荐方法、系统、终端以及存储介质
CN114547482A (zh) * 2022-03-03 2022-05-27 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978573A (zh) * 2015-07-06 2015-10-14 河海大学 一种应用于高光谱图像处理的非负矩阵分解方法
CN105373597A (zh) * 2015-10-27 2016-03-02 华侨大学 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978573A (zh) * 2015-07-06 2015-10-14 河海大学 一种应用于高光谱图像处理的非负矩阵分解方法
CN105373597A (zh) * 2015-10-27 2016-03-02 华侨大学 基于k-medoids项目聚类和局部兴趣融合的用户协同过滤推荐方法

Non-Patent Citations (14)

* Cited by examiner, † Cited by third party
Title
CHENGHAO CAI: "A Combination of Multi-state Activation Functions, Mean-normalisation and Singular Value Decomposition for learning Deep Neural Networks", 《2015 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》 *
CHENGHAO CAI: "A Combination of Multi-state Activation Functions, Mean-normalisation and Singular Value Decomposition for learning Deep Neural Networks", 《2015 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》, 1 October 2015 (2015-10-01), pages 1 - 8 *
SALAKHUTDINOV 等: "Restricted Boltzmann machines for collaborative filtering", 《PROCEEDINGS OF THE 24TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》 *
SALAKHUTDINOV 等: "Restricted Boltzmann machines for collaborative filtering", 《PROCEEDINGS OF THE 24TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING》, 20 June 2007 (2007-06-20), pages 791 - 798, XP058231880, DOI: 10.1145/1273496.1273596 *
方耀宁 等: "一种基于局部结构的改进奇异值分解推荐算法", 《电子与信息学报》 *
方耀宁 等: "一种基于局部结构的改进奇异值分解推荐算法", 《电子与信息学报》, vol. 35, no. 6, 15 June 2013 (2013-06-15), pages 1284 - 1289 *
方耀宁: "协同过滤推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
方耀宁: "协同过滤推荐算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2016, 15 July 2016 (2016-07-15), pages 138 - 1300 *
李容: "协同过滤推荐系统中稀疏性数据的算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李容: "协同过滤推荐系统中稀疏性数据的算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2017, 15 February 2017 (2017-02-15), pages 138 - 4379 *
葛林涛 等: "基于模糊C均值聚类有效性的协同过滤算法", 《计算机技术与发展》 *
葛林涛 等: "基于模糊C均值聚类有效性的协同过滤算法", 《计算机技术与发展》, vol. 26, no. 01, 4 January 2016 (2016-01-04), pages 22 - 26 *
蔡传晰: "基于医学数据降维方法比较研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
蔡传晰: "基于医学数据降维方法比较研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2013, 15 June 2013 (2013-06-15), pages 138 - 776 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202606A (zh) * 2020-09-27 2021-01-08 北京六方云信息技术有限公司 基于设备连接关系的设备相似性聚类方法和系统
CN113158039A (zh) * 2021-04-06 2021-07-23 深圳先进技术研究院 应用推荐方法、系统、终端以及存储介质
CN114547482A (zh) * 2022-03-03 2022-05-27 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质
CN114547482B (zh) * 2022-03-03 2023-01-20 智慧足迹数据科技有限公司 业务特征生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110413924B (zh) 一种半监督多视图学习的网页分类方法
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
CN110765364A (zh) 基于局部优化降维和聚类的协同过滤方法
CN108665323B (zh) 一种用于理财产品推荐系统的集成方法
CN107885778B (zh) 一种基于动态临近点谱聚类的个性化推荐方法
CN108897791B (zh) 一种基于深度卷积特征和语义相似度量的图像检索方法
CN108537137B (zh) 基于标签鉴别相关分析的多模态生物特征融合识别方法
CN109635140B (zh) 一种基于深度学习和密度峰值聚类的图像检索方法
CN107256241B (zh) 基于网格与差异替换改进多目标遗传算法的电影推荐方法
CN107016122B (zh) 基于时间迁移的知识推荐方法
CN111368891A (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN110610225A (zh) 一种基于kriging代理模型加点策略的多目标粒子群优化算法
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
WO2013159356A1 (zh) 基于判别相关分析的跨媒体检索方法
Guldogan et al. Feature selection for content-based image retrieval
CN107423319B (zh) 一种垃圾网页检测方法
CN113591947A (zh) 基于用电行为的电力数据聚类方法、装置和存储介质
CN109636509B (zh) 一种基于非对称距离构建子矩阵的评分预测方法
Liu et al. Fuzzy c-mean algorithm based on Mahalanobis distances and better initial values
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
CN108984630B (zh) 复杂网络中节点重要性在垃圾网页检测中的应用方法
Chen et al. Image retrieval based on multi-feature similarity score fusion using genetic algorithm
Nilsson Hierarchical clustering using non-greedy principal direction divisive partitioning
CN112749345B (zh) 一种基于神经网络的k近邻矩阵分解推荐方法
CN110119465B (zh) 融合lfm潜在因子与svd的手机应用用户喜好检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200207