CN112734510B

CN112734510B - 基于融合改进模糊聚类和兴趣衰减的商品推荐方法

Info

Publication number: CN112734510B
Application number: CN202011608891.0A
Authority: CN
Inventors: 石朋; 樊延武
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-05-26
Anticipated expiration: 2040-12-30
Also published as: CN112734510A

Abstract

本发明公开了一种基于融合改进模糊聚类和兴趣衰减的商品推荐方法。本发明在ALS协同过滤算法的基础上，先提出NCG‑ALS算法对稀疏矩阵填充，再利用EP算法优化对项目的模糊聚类，深入挖掘簇集内项目特征，进而引入时间衰减函数来量化用户的兴趣度的权重，进而来改进项目相似度的计算，最后把Top N项目表推荐目标用户。本发明方法运算速度快，收敛性好，精确度高。

Description

基于融合改进模糊聚类和兴趣衰减的商品推荐方法

技术领域

本发明涉及推荐系统技术领域，具体涉及一种基于融合改进模糊聚类和兴趣衰减的NCG-ALS+IBCF算法的商品推荐方法。

背景技术

伴随着信息化的快速发展，我们已经进入了信息爆炸的时代，越来越多的新的信息被创造。面对信息过载的诸多问题，个性化推荐系统应运而生。推荐系统诞生至今虽然已有二十年有余，目前依旧是国内外学术界和工业界热门的研究课题之一。个性化推荐系统主要分为基于内容的推荐、基于流行度的推荐、基于关联规则的推荐和基于协同过滤的推荐。其中协同过滤算法是在当今学术界和工业界研究和应用最广泛同时也是最成功的推荐算法之一。协同过滤算法是基于用户行为的推荐方式，关于用户行为可以是过去对商品的浏览、购买和评分等。其中协同过滤算法的逻辑通俗的说是：“和你有相似爱好的人感兴趣的信息，也是你感兴趣的”或者“和你感兴趣的信息类似的信息，你也感兴趣”，这也就是协同算法中UBCF和IBCF的算法思想(Yin F.Sparsity-tolerated algorithm with missingvalue r-ecovering in user-based collaborative filtering recommendation[J].Journal of Information&Computational Science,2013,10(15):4939-4948.Sarwar B,Karypis G,Konstan J,Riedl J.Item-Based collaborative filtering recommendationalgorithms.In:Proceedings of the 10th International World Wide WebConference.2001.285～295)。

协同过滤算法被人们运用在个性化推荐领域虽取得了较大的成功，但是随着用户量的增多以及项目量的迅速增长，最近邻的确定需要大规模的运算与较长的时间耗费的问题；同时，在巨大数据量中实际只有较少部分用户活跃在较少的项目中，因此面临着矩阵稀疏、冷启动的问题。邓等人提出聚类的方法，结合协同过滤算法，解决了数据稀疏行的问题(邓爱林，左子页，周扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统，2004，25(9):1665-1670)；Billsus D等人提出通过SVD算法进行矩阵分解，将原来的评分矩阵分解为用户因子矩阵和项目因子矩阵的乘积，解决了矩阵数据稀疏的问题(Billsus D,Pazzani M J.Learning collaborative informatio-n filters[c]//Proceedings ofthe 15th International(Confere-nce on Machine Learning.San Francisco:MorganKaufmann Publishers，1998:46—54)；Simon Funk等人提出增量SVD算法，在SVD算法基础优化了均方根误差来评测训练模型的效果。Pilaszy I等人提出利用ALS算法解决了SVD算法难以处理缺失项问题(Pilaszy I,Zibriczky D,Tikk D.Fast ALS-based matrixfactorization for explicit and implicit feedback datasets[C]//Pro-ceedings ofthe fourth ACM conference on recommende-r systems.New York:ACM,2010:71-78)；后来Zhou Y等人通过对ALS算法进行改进，提出加权正则交替ALS算法，通过置信权重来处理用户偏好及不确信用户的推荐情况(Zhou Y,Dennis Wilkinson,Robert Schreiber,andRon-g Pan.Large-Scale Parallel Collaborativ-e Filtering for the Netflix Prize[J].Lecture Notes in Computer Science,2008,5034；337-348)；Wang等从用户的角度出发，以评分数据库为基础，利用K-Means算法对用户进行聚类，有效地缓解数据稀疏性问题并提高了推荐精确度(WANG Z,Yu X,FENG N.An improved collaborati-ve movierecommendation system using computational intell-igence[J].Journal of visuallanguages&computing,2014,25(6):667-675)；陈婷等人提出融合社交网络信任度的推荐算法，形成高效、统一的可信推荐模型Trust-PMF，增强了推荐效果(陈婷，朱青，周梦溪，王珊.社交网络环境下基于信任的推荐算法[J].软件学报，2017，28(3):721-731)；林建辉等人提出基于奇异值分解与模糊聚类的CF算法，通过缩小最近邻搜索范围来提高推荐效果(林建辉,严宣辉,黄波.基于SVD与模糊聚类的协同过滤推荐算法[J].计算机系统应用,2016,25(11):156-163)。

然而以上研究大多数是就考虑到用户间、项目间的显性反馈信息，默认用户兴趣等一些隐形反馈信息永恒不变，而忽略了时间对用户兴趣的减损因素。时间对兴趣的影响能直接影响到用户对项目的交互，从而成为推荐算法精确度的重要影响因子。当前较多研究仅是单一的改善了系统过滤算法中的一些缺陷，通过矩阵分解或者结合社交关系解决稀疏性的问题而忽略冷启动的问题，或是通过用户聚类解决冷启动的问题而忽略可拓展性的问题。

发明内容

有鉴于此，本发明提供了一种基于融合改进模糊聚类和兴趣衰减的NCG-ALS+IBCF算法的商品推荐方法，能够解决传统的协同过滤算法矩阵稀疏时推荐精确度低及计算量级大且耗时的问题。

本发明的基于融合改进模糊聚类和兴趣衰减的推荐方法，包括如下步骤：

步骤一，基于NCG-ALS对原始的用户-商品项目评分矩阵R进行矩阵分解：

对原始的用户-商品项目评分矩阵R进行ALS分解，其中，ALS的每次迭代后，采用NCG算法通过线性搜索法，找到的此方向最小值点作为ALS的下次迭代的迭代点；

步骤二，采用EP-FCM聚类算法对原始的用户-商品项目评分矩阵中所有商品项目进行聚类，并建立商品项目类别索引矩阵：

采用EP算法对所述所有商品项目进行聚类，得到各聚类中心；采用FCM聚类算法，以EP算法得到的各聚类中心为中心，对所述所有商品项目进行聚类；

步骤三，针对步骤二得到的各个聚类类别，采用兴趣衰减函数计算用户对该类别商品项目的兴趣度，并以兴趣度作为当前用户对该商品项目的评分值；对当前所有类别的商品项目评分进行标准化处理，挑选出用户现阶段感兴趣的商品项目类别；

步骤四，对步骤三确定的用户现阶段感兴趣的商品项目类别，利用皮尔逊相似度计算方法求出待推荐商品项与用户历史商品项之间的相似度，建立待推荐商品项与历史商品项之间的相似性矩阵，进而得到商品项目相似矩阵的特征向量；

步骤五，根据步骤四得到的相似矩阵及其特征向量，采用IBCF算法预测用户对待推荐商品项的评分并按从大到小的顺序排序，选取前N个待推荐商品项为推荐集。

较优的，将原始的用户-商品项目评分矩阵R中的数据进行数据清洗并将数据划分为训练集和验证集，先利用训练集进行模型训练，再用验证集对训练后的模型进行验证。

较优的，所述步骤二的EP算法中，对每个个体利用高斯变异算子进行变异。

较优的，所述步骤二的EP算法中，采用q-竞争算法从包括父、子代的2N个个体中选择N个作为下一代个体。

较优的，所述步骤三中，采用艾宾浩斯遗忘曲线计算用户对该类别商品项目的兴趣度。

有益效果：

(1)在ALS协同过滤算法的基础上，先提出NCG-ALS算法对稀疏矩阵填充，再利用EP算法优化对项目的模糊聚类，深入挖掘簇集内项目特征，进而引入时间衰减函数来量化用户的兴趣度的权重，进而来改进项目相似度的计算，最后把Top k项目表推荐目标用户，本发明方法较大减少计算规模，增强推荐效果，提高了推荐的精确度和实时性。

(2)本发明利用NCG-ALS算法处理用户评分矩阵，有效缓解了矩阵的稀疏性的问题。由于非线性共轭梯度算法(NCG)具有加速求解最优化问题的特性，因此本发明利用ALS算法的一次迭代作为NCG的预处理器将NCG算法融合到ALS算法中，从而实现加速ALS收敛的目的；

(3)本发明通过项目的属性特性对项目进行EP-FCM聚类从而确定项目的相似关系群。进化规划算法(EP)模拟生物种群层次上的进化，在进化过程中主要强调生物种群行为上的联系，即强调种群层次上的行为进化而建立父、子代间的行为链，意味着无论其父代如何，好的子代才有资格生存，适于选择子代。该算法可处理实数空间的优化问题，并在变异运算中引入了正态分布变异算子，使其变成了一种优化搜索工具，搜索过程平稳，收敛速度较快。因此，本发明将EP算法引入FCM聚类算法，先利用EP算法对所有商品项目进行一次聚类，能够很好的缓解模糊C-均值聚类的目标函数极值点的不确定性常常会导致算法收敛效果差的问题。

(4)本发明还结合兴趣衰减函数对历史项目分析，确定目标用户现阶段感兴趣的聚类集；利用Matlab曲线拟合工具箱CFtool对艾宾浩斯遗忘曲线进行拟合，可得到遗忘拟合函数式(11)：

f(x)＝34.92×x^-02028+12.71 (11)

f(x)为记忆保留率，范围为0.0～1.0，f(x)值越大表示记忆保留量(兴趣度留存率)越高；x为从初次记忆输入后的时间(天数)。由幂函数的特性可知，记忆保留率f(x)会随时间的增长而出现逐渐下降的趋势。利用上述遗忘拟合函数即可追踪到用户的兴趣变化，进而构造并可使得预测准确度进一步提高；

(5)本发明在聚类集内计算相似度的时候引入时间衰减函数，充分考虑到用户兴趣随时间减损的因素，同时限制在聚类集内计算相似度，可降低时间复杂度；原来时间复杂度为O(mn²)，比如有k个类别内的p个项目的相似度，因为k<<n，p<<n，所以计算目标项目与聚类中心、聚类内项目相似度的时间复杂度O(k*n)+O(p*n)<<O(mn²)，因此本发明方法可有效降低时间复杂度。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

本发明提供了一种基于融合改进模糊聚类和兴趣衰减的NCG-ALS+IBCF算法的商品推荐方法，流程图如图1所示，包括如下步骤：

步骤一:拿到原始用户对商品项目的评分数据，对原始数据进行数据清洗并将数据进行划分，80％的数据用于模型训练，20％的数据用于对算法模型的有效性进行验证；

步骤二:将训练数据集(即原始的用户-商品项目评分矩阵R)利用融合NCG的NCG-ALS算法对用户-商品项目评分矩阵R进行矩阵分解，从而填充用户-商品项目评分稀疏矩阵中的评分缺项。

ALS的核心假设为：R是近似低秩的评价矩阵，即一个m×n维的评价矩阵R可以用两个小矩阵U_m×k和V_k×n乘积来近似：R≈UV^T，k＜＜m,n评价矩阵就可以由用户喜好特征矩阵和产品特征矩阵表示。为了找到使低秩的矩阵U和V尽可能逼近R，需要最小化平方误差损失函数，即计算下式(2)：

损失函数需要加入正则化项来避免过拟合问题，使用L2正则化改造式(3)，从而把协同过滤问题转化为优化问题，采用交替最小二乘(ALS)求解。

算法流程如下：

输入：用户评分数据集；

输出：用户项目预测评分矩阵R'_m×n

处理：

步骤1:初始化Spark环境和U_m×k,V_k×n矩阵；

步骤2:重复3、4步骤，直至平方误差损失函数达到最小状态；

步骤3:固定U_m×k更新V_k×n；

步骤4:固定V_k×n更新U_m×k；

基于ALS的算法在计算规模比较大的时候，运行效率低下，实时性差并且准确度也比较低。分析其原因后发现，是由于在数据加载时，ALS收敛和预测的过程中消耗了大多数时间，前人有通过诸如优化JVM参数降低并行度的等手段实现了对数据加载和ALS预测的优化；而本发明在提高ALS收敛速度，即缩减迭代时间对该模型进行优化。

非线性共轭梯度算法(NCG)通过递推关系x_k+1＝x_k+α_kp_k，从初始X₀生成迭代序列X_i,i>＝1。其中，P_k为线搜索方向，可利用式(4)求得，α_k为步长因子，采用线性搜索法从x_k沿着P_k方向寻找下一个迭代点，即在这个方向的函数最小值点，计算公式如式(5)所示。由于非线性共轭梯度算法(NCG)具有加速求解最优化问题的特性，因此本发明利用ALS算法的一次迭代作为NCG的预处理器将NCG算法融合到ALS算法中，从而实现加速ALS收敛的目的。

f(x_k+α_kR_k)＝min_α＞0f(x_k+α_kp_k) (5)

其中β_k+1为更新参数，本发明采用PRF共轭梯度法，计算公式如式(6)求得，g_k＝Δf(x_k)是在x_k处的梯度。

定义由ALS生成的预处理梯度方向，在NCG算法中将该迭代合并，

其中，

为ALS算法对x_k的一次迭代后产生的迭代，为Q(x_k)。

本步骤的具体算法流程如下：

输入：用户评分数据集；

输出：用户-商品项目预测评分矩阵R′_m×n

处理：

步骤1：初始化Spark环境和U_m×k，V_k×n矩阵；

步骤2：通过U_m×k，V_k×n得到X₀；

步骤3：对原始的用户-商品项目评分矩阵R进行ALS一次迭代，得到Q(X₀)；

步骤4：利用式(4)～(6)计算g₀和p₀；

步骤5：Repeat步骤6-8：

步骤6：通过递推关系x_k+1＝x_k+α_kp_k，求出x_k+1，通过式(5)计算出α_k；

步骤7：ALS进行一次迭代，记为Q(X_k+1)；

步骤8：计算出ALS迭代后的

以及在x_k+1的梯度/>

步骤9：Until：p_k达到期望收敛值

步骤10：由迭代后的X_k得到最终的U_m×k，V_k×n，从而输出预测评分矩阵R′_m×n；

步骤三：将训练数据集(即原始的用户-商品项目评分矩阵R)，使用EP-FCM聚类算法对所有商品项目进行聚类操作，并建立商品项目类别索引矩阵；

由于模糊C-均值聚类的目标函数极值点的不确定性常常会导致算法收敛效果差，因为在迭代过程中目标函数极值点不稳定经常会导致初始聚类中心集中在某些极值点周围，而遗漏了其余的极值点，所以能准确确定初始聚类中心是算法的优化的关键。

进化规划算法(EP算法)模拟生物种群层次上的进化，在进化过程中主要强调生物种群行为上的联系，即强调种群层次上的行为进化而建立父、子代间的行为链，意味着无论其父代如何，好的子代才有资格生存，适于选择子代。该算法可处理实数空间的优化问题，并在变异运算中引入了正态分布变异算子，使其变成了一种优化搜索工具，搜索过程平稳，收敛速度较快。

因此，本发明首先采用EP算法对所述所有商品项目进行聚类，得到各聚类中心；然后再采用FCM聚类算法，以EP算法得到的各聚类中心为中心，对所述所有商品项目进行聚类。

本步骤的具体算法流程如下：

步骤1：初始化(群体规模，迭代次数G，阀值q等)

步骤2：随机产生初始群体，确定适应度函数并计算适应值。设聚类数为N，s_i为第i类的个体数，第i类的聚类中心如式(8)所示：

其中，x_i，j为第i类中的j个体。式(9)为适应度函数：

步骤3：Repeat步骤3～7；

步骤4：对每个个体进行变异，可采用非均匀变异、边界变异、高斯近似等算子进行变异；本实施例中，对每个个体利用高斯变异算子进行变异，如式(10)所示：

其中t为迭代次数，F为适应度函数，

为高斯变异算子，α，β为预设参数。

步骤5：对变异个体进行可行性检查，利用式(9)计算适应度值；

步骤6：选择下一代个体，可采用最佳保留选择、随机q-竞争选择、无回放随机选择等算法进行选择；本事实例中，采用随机q-竞争算法从包括父、子代的2N个个体中选择N个作为下一代个体；

步骤7：按式(8)更新项目的聚类中心；

步骤8：until：F＜q；

步骤9：将得出的聚类中心作为模糊C-均值聚类的初始聚类中心进行输入，采用模糊C-均值聚类法对所有商品项目进行聚类，完成模糊聚类。

步骤四：针对步骤三得到的各个聚类类别，采用兴趣衰减函数计算用户对该类别商品项目的兴趣度，确定用户现阶段感兴趣的商品项目类别；

传统的协同过滤算法没有考虑用户的兴趣随着时间变化的因素，默认为兴趣因子不变，但是人作为生物个体，对于事物的兴趣度往往会随着时间流逝而发生转移。因此，传统的协同过滤算法在计算相似度的时候没有考虑兴趣度随时间而损失的因素，则算法难以突破瓶颈、提高推荐结果的准确率。

本发明利用Matlab曲线拟合工具箱CFtool对艾宾浩斯遗忘曲线进行拟合，可得到遗忘拟合函数式(11)：

f(x)＝34.92×x^-02028+12.71 (11)

f(x)为记忆保留率，范围为0.0～1.0，f(x)值越大表示记忆保留量(兴趣度留存率)越高；x为从初次记忆输入后的时间(天数)。由幂函数的特性可知，记忆保留率f(x)会随时间的增长而出现逐渐下降的趋势。

利用上述遗忘拟合函数即可追踪到用户的兴趣变化，进而构造并可使得预测准确度进一步提高；

T_dev＝t_un-t_ui (12)

在式(12)中，T_dev为用户最新评价和最初评价的天数差，t_un为用户u最新评价的时间，t_ui为用户u首次对商品项目评价的时间；

f(T_dev)＝34.92×(T_dev+1)^-02028+12.71 (13)

其中f(T_dev)为用户u对项目的兴趣度保留率。

通过计算出用户对所有历史商品项目的f(T_dev)，然后计算每个类中包含商品项目的保留兴趣值并累加，从步骤三得到的各聚类类别中，找到现阶段用户感兴趣的簇集合Q，并更新现阶段用户感兴趣的簇集合Q中所有商品项的评价值为兴趣衰减函数计算后的兴趣度。

步骤五：根据用户现阶段感兴趣的商品项目类别，利用皮尔逊相似度计算方法求出待推荐商品项与用户历史商品项之间的相似度，建立待推荐商品项与历史商品项之间的相似性矩阵，进而得到商品项目相似矩阵的特征向量；

其中，皮尔逊相似度计算公式如下：

其中

为融入兴趣遗忘的商品项目I_i，I_i的皮尔逊相似度，r_ui为用户u对商品项目i的评分，/>

为所有用户对商品项目I_i的评分均值。

步骤六，根据步骤五得到的相似矩阵及其特征向量，采用IBCF算法预测用户对待推荐商品项的评分并按从大到小的顺序排序，选取前N个待推荐商品项为推荐集：

由于在步骤三中对商品项目集使用EP-FCM算法进行聚类后生成了簇集合，在簇集内利用步骤四、五中改进的皮尔逊相似度计算方法(式(14))求出推荐所有项目与目标用户历史商品项目间的相似度，通过式(15)可以求得目标用户u对推荐的商品项目l的评分，从而找出和目标用户评价过的商品项目相似度最高的项目并排列，选取Top N的商品项目为推荐集，进而推荐给用户。

其中，式(15)中sim(l,l_i)代表商品项目l和l_i相似度，N代表与项目l相似度较高的最近邻数目，

表示用户对商品项目l的平均评分，/>

表示用户对商品项目l_i的平均评分。

步骤七:利用测试数据集对算法模型的推荐结果进行验证，从而确定其有效性。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于融合改进模糊聚类和兴趣衰减的推荐方法，其特征在于，包括如下步骤：

2.如权利要求1所述的推荐方法，其特征在于，将原始的用户-商品项目评分矩阵R中的数据进行数据清洗并将数据划分为训练集和验证集，先利用训练集进行模型训练，再用验证集对训练后的模型进行验证。

3.如权利要求1所述的推荐方法，其特征在于，所述步骤二的EP算法中，对每个个体利用高斯变异算子进行变异。

4.如权利要求1所述的推荐方法，其特征在于，所述步骤二的EP算法中，采用q-竞争算法从包括父、子代的2N个个体中选择N个作为下一代个体。

5.如权利要求1所述的推荐方法，其特征在于，所述步骤三中，采用艾宾浩斯遗忘曲线计算用户对该类别商品项目的兴趣度。