CN112734510B - 基于融合改进模糊聚类和兴趣衰减的商品推荐方法 - Google Patents
基于融合改进模糊聚类和兴趣衰减的商品推荐方法 Download PDFInfo
- Publication number
- CN112734510B CN112734510B CN202011608891.0A CN202011608891A CN112734510B CN 112734510 B CN112734510 B CN 112734510B CN 202011608891 A CN202011608891 A CN 202011608891A CN 112734510 B CN112734510 B CN 112734510B
- Authority
- CN
- China
- Prior art keywords
- algorithm
- commodity
- user
- clustering
- commodity item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 title claims abstract description 8
- 230000006872 improvement Effects 0.000 title abstract description 6
- 239000011159 matrix material Substances 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 230000035772 mutation Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 8
- YOETUEMZNOLGDB-UHFFFAOYSA-N 2-methylpropyl carbonochloridate Chemical compound CC(C)COC(Cl)=O YOETUEMZNOLGDB-UHFFFAOYSA-N 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims 2
- 238000001914 filtration Methods 0.000 abstract description 18
- 230000006870 function Effects 0.000 description 21
- 230000014759 maintenance of location Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241001598984 Bromius obscurus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于融合改进模糊聚类和兴趣衰减的商品推荐方法。本发明在ALS协同过滤算法的基础上,先提出NCG‑ALS算法对稀疏矩阵填充,再利用EP算法优化对项目的模糊聚类,深入挖掘簇集内项目特征,进而引入时间衰减函数来量化用户的兴趣度的权重,进而来改进项目相似度的计算,最后把Top N项目表推荐目标用户。本发明方法运算速度快,收敛性好,精确度高。
Description
技术领域
本发明涉及推荐系统技术领域,具体涉及一种基于融合改进模糊聚类和兴趣衰减的NCG-ALS+IBCF算法的商品推荐方法。
背景技术
伴随着信息化的快速发展,我们已经进入了信息爆炸的时代,越来越多的新的信息被创造。面对信息过载的诸多问题,个性化推荐系统应运而生。推荐系统诞生至今虽然已有二十年有余,目前依旧是国内外学术界和工业界热门的研究课题之一。个性化推荐系统主要分为基于内容的推荐、基于流行度的推荐、基于关联规则的推荐和基于协同过滤的推荐。其中协同过滤算法是在当今学术界和工业界研究和应用最广泛同时也是最成功的推荐算法之一。协同过滤算法是基于用户行为的推荐方式,关于用户行为可以是过去对商品的浏览、购买和评分等。其中协同过滤算法的逻辑通俗的说是:“和你有相似爱好的人感兴趣的信息,也是你感兴趣的”或者“和你感兴趣的信息类似的信息,你也感兴趣”,这也就是协同算法中UBCF和IBCF的算法思想(Yin F.Sparsity-tolerated algorithm with missingvalue r-ecovering in user-based collaborative filtering recommendation[J].Journal of Information&Computational Science,2013,10(15):4939-4948.Sarwar B,Karypis G,Konstan J,Riedl J.Item-Based collaborative filtering recommendationalgorithms.In:Proceedings of the 10th International World Wide WebConference.2001.285~295)。
协同过滤算法被人们运用在个性化推荐领域虽取得了较大的成功,但是随着用户量的增多以及项目量的迅速增长,最近邻的确定需要大规模的运算与较长的时间耗费的问题;同时,在巨大数据量中实际只有较少部分用户活跃在较少的项目中,因此面临着矩阵稀疏、冷启动的问题。邓等人提出聚类的方法,结合协同过滤算法,解决了数据稀疏行的问题(邓爱林,左子页,周扬勇.基于项目聚类的协同过滤推荐算法[J].小型微型计算机系统,2004,25(9):1665-1670);Billsus D等人提出通过SVD算法进行矩阵分解,将原来的评分矩阵分解为用户因子矩阵和项目因子矩阵的乘积,解决了矩阵数据稀疏的问题(Billsus D,Pazzani M J.Learning collaborative informatio-n filters[c]//Proceedings ofthe 15th International(Confere-nce on Machine Learning.San Francisco:MorganKaufmann Publishers,1998:46—54);Simon Funk等人提出增量SVD算法,在SVD算法基础优化了均方根误差来评测训练模型的效果。Pilaszy I等人提出利用ALS算法解决了SVD算法难以处理缺失项问题(Pilaszy I,Zibriczky D,Tikk D.Fast ALS-based matrixfactorization for explicit and implicit feedback datasets[C]//Pro-ceedings ofthe fourth ACM conference on recommende-r systems.New York:ACM,2010:71-78);后来Zhou Y等人通过对ALS算法进行改进,提出加权正则交替ALS算法,通过置信权重来处理用户偏好及不确信用户的推荐情况(Zhou Y,Dennis Wilkinson,Robert Schreiber,andRon-g Pan.Large-Scale Parallel Collaborativ-e Filtering for the Netflix Prize[J].Lecture Notes in Computer Science,2008,5034;337-348);Wang等从用户的角度出发,以评分数据库为基础,利用K-Means算法对用户进行聚类,有效地缓解数据稀疏性问题并提高了推荐精确度(WANG Z,Yu X,FENG N.An improved collaborati-ve movierecommendation system using computational intell-igence[J].Journal of visuallanguages&computing,2014,25(6):667-675);陈婷等人提出融合社交网络信任度的推荐算法,形成高效、统一的可信推荐模型Trust-PMF,增强了推荐效果(陈婷,朱青,周梦溪,王珊.社交网络环境下基于信任的推荐算法[J].软件学报,2017,28(3):721-731);林建辉等人提出基于奇异值分解与模糊聚类的CF算法,通过缩小最近邻搜索范围来提高推荐效果(林建辉,严宣辉,黄波.基于SVD与模糊聚类的协同过滤推荐算法[J].计算机系统应用,2016,25(11):156-163)。
然而以上研究大多数是就考虑到用户间、项目间的显性反馈信息,默认用户兴趣等一些隐形反馈信息永恒不变,而忽略了时间对用户兴趣的减损因素。时间对兴趣的影响能直接影响到用户对项目的交互,从而成为推荐算法精确度的重要影响因子。当前较多研究仅是单一的改善了系统过滤算法中的一些缺陷,通过矩阵分解或者结合社交关系解决稀疏性的问题而忽略冷启动的问题,或是通过用户聚类解决冷启动的问题而忽略可拓展性的问题。
发明内容
有鉴于此,本发明提供了一种基于融合改进模糊聚类和兴趣衰减的NCG-ALS+IBCF算法的商品推荐方法,能够解决传统的协同过滤算法矩阵稀疏时推荐精确度低及计算量级大且耗时的问题。
本发明的基于融合改进模糊聚类和兴趣衰减的推荐方法,包括如下步骤:
步骤一,基于NCG-ALS对原始的用户-商品项目评分矩阵R进行矩阵分解:
对原始的用户-商品项目评分矩阵R进行ALS分解,其中,ALS的每次迭代后,采用NCG算法通过线性搜索法,找到的此方向最小值点作为ALS的下次迭代的迭代点;
步骤二,采用EP-FCM聚类算法对原始的用户-商品项目评分矩阵中所有商品项目进行聚类,并建立商品项目类别索引矩阵:
采用EP算法对所述所有商品项目进行聚类,得到各聚类中心;采用FCM聚类算法,以EP算法得到的各聚类中心为中心,对所述所有商品项目进行聚类;
步骤三,针对步骤二得到的各个聚类类别,采用兴趣衰减函数计算用户对该类别商品项目的兴趣度,并以兴趣度作为当前用户对该商品项目的评分值;对当前所有类别的商品项目评分进行标准化处理,挑选出用户现阶段感兴趣的商品项目类别;
步骤四,对步骤三确定的用户现阶段感兴趣的商品项目类别,利用皮尔逊相似度计算方法求出待推荐商品项与用户历史商品项之间的相似度,建立待推荐商品项与历史商品项之间的相似性矩阵,进而得到商品项目相似矩阵的特征向量;
步骤五,根据步骤四得到的相似矩阵及其特征向量,采用IBCF算法预测用户对待推荐商品项的评分并按从大到小的顺序排序,选取前N个待推荐商品项为推荐集。
较优的,将原始的用户-商品项目评分矩阵R中的数据进行数据清洗并将数据划分为训练集和验证集,先利用训练集进行模型训练,再用验证集对训练后的模型进行验证。
较优的,所述步骤二的EP算法中,对每个个体利用高斯变异算子进行变异。
较优的,所述步骤二的EP算法中,采用q-竞争算法从包括父、子代的2N个个体中选择N个作为下一代个体。
较优的,所述步骤三中,采用艾宾浩斯遗忘曲线计算用户对该类别商品项目的兴趣度。
有益效果:
(1)在ALS协同过滤算法的基础上,先提出NCG-ALS算法对稀疏矩阵填充,再利用EP算法优化对项目的模糊聚类,深入挖掘簇集内项目特征,进而引入时间衰减函数来量化用户的兴趣度的权重,进而来改进项目相似度的计算,最后把Top k项目表推荐目标用户,本发明方法较大减少计算规模,增强推荐效果,提高了推荐的精确度和实时性。
(2)本发明利用NCG-ALS算法处理用户评分矩阵,有效缓解了矩阵的稀疏性的问题。由于非线性共轭梯度算法(NCG)具有加速求解最优化问题的特性,因此本发明利用ALS算法的一次迭代作为NCG的预处理器将NCG算法融合到ALS算法中,从而实现加速ALS收敛的目的;
(3)本发明通过项目的属性特性对项目进行EP-FCM聚类从而确定项目的相似关系群。进化规划算法(EP)模拟生物种群层次上的进化,在进化过程中主要强调生物种群行为上的联系,即强调种群层次上的行为进化而建立父、子代间的行为链,意味着无论其父代如何,好的子代才有资格生存,适于选择子代。该算法可处理实数空间的优化问题,并在变异运算中引入了正态分布变异算子,使其变成了一种优化搜索工具,搜索过程平稳,收敛速度较快。因此,本发明将EP算法引入FCM聚类算法,先利用EP算法对所有商品项目进行一次聚类,能够很好的缓解模糊C-均值聚类的目标函数极值点的不确定性常常会导致算法收敛效果差的问题。
(4)本发明还结合兴趣衰减函数对历史项目分析,确定目标用户现阶段感兴趣的聚类集;利用Matlab曲线拟合工具箱CFtool对艾宾浩斯遗忘曲线进行拟合,可得到遗忘拟合函数式(11):
f(x)=34.92×x-02028+12.71 (11)
f(x)为记忆保留率,范围为0.0~1.0,f(x)值越大表示记忆保留量(兴趣度留存率)越高;x为从初次记忆输入后的时间(天数)。由幂函数的特性可知,记忆保留率f(x)会随时间的增长而出现逐渐下降的趋势。利用上述遗忘拟合函数即可追踪到用户的兴趣变化,进而构造并可使得预测准确度进一步提高;
(5)本发明在聚类集内计算相似度的时候引入时间衰减函数,充分考虑到用户兴趣随时间减损的因素,同时限制在聚类集内计算相似度,可降低时间复杂度;原来时间复杂度为O(mn2),比如有k个类别内的p个项目的相似度,因为k<<n,p<<n,所以计算目标项目与聚类中心、聚类内项目相似度的时间复杂度O(k*n)+O(p*n)<<O(mn2),因此本发明方法可有效降低时间复杂度。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明提供了一种基于融合改进模糊聚类和兴趣衰减的NCG-ALS+IBCF算法的商品推荐方法,流程图如图1所示,包括如下步骤:
步骤一:拿到原始用户对商品项目的评分数据,对原始数据进行数据清洗并将数据进行划分,80%的数据用于模型训练,20%的数据用于对算法模型的有效性进行验证;
步骤二:将训练数据集(即原始的用户-商品项目评分矩阵R)利用融合NCG的NCG-ALS算法对用户-商品项目评分矩阵R进行矩阵分解,从而填充用户-商品项目评分稀疏矩阵中的评分缺项。
ALS的核心假设为:R是近似低秩的评价矩阵,即一个m×n维的评价矩阵R可以用两个小矩阵Um×k和Vk×n乘积来近似:R≈UVT,k<<m,n评价矩阵就可以由用户喜好特征矩阵和产品特征矩阵表示。为了找到使低秩的矩阵U和V尽可能逼近R,需要最小化平方误差损失函数,即计算下式(2):
损失函数需要加入正则化项来避免过拟合问题,使用L2正则化改造式(3),从而把协同过滤问题转化为优化问题,采用交替最小二乘(ALS)求解。
算法流程如下:
输入:用户评分数据集;
输出:用户项目预测评分矩阵R'm×n
处理:
步骤1:初始化Spark环境和Um×k,Vk×n矩阵;
步骤2:重复3、4步骤,直至平方误差损失函数达到最小状态;
步骤3:固定Um×k更新Vk×n;
步骤4:固定Vk×n更新Um×k;
基于ALS的算法在计算规模比较大的时候,运行效率低下,实时性差并且准确度也比较低。分析其原因后发现,是由于在数据加载时,ALS收敛和预测的过程中消耗了大多数时间,前人有通过诸如优化JVM参数降低并行度的等手段实现了对数据加载和ALS预测的优化;而本发明在提高ALS收敛速度,即缩减迭代时间对该模型进行优化。
非线性共轭梯度算法(NCG)通过递推关系xk+1=xk+αkpk,从初始X0生成迭代序列Xi,i>=1。其中,Pk为线搜索方向,可利用式(4)求得,αk为步长因子,采用线性搜索法从xk沿着Pk方向寻找下一个迭代点,即在这个方向的函数最小值点,计算公式如式(5)所示。由于非线性共轭梯度算法(NCG)具有加速求解最优化问题的特性,因此本发明利用ALS算法的一次迭代作为NCG的预处理器将NCG算法融合到ALS算法中,从而实现加速ALS收敛的目的。
f(xk+αkRk)=minα>0f(xk+αkpk) (5)
其中βk+1为更新参数,本发明采用PRF共轭梯度法,计算公式如式(6)求得,gk=Δf(xk)是在xk处的梯度。
本步骤的具体算法流程如下:
输入:用户评分数据集;
输出:用户-商品项目预测评分矩阵R′m×n
处理:
步骤1:初始化Spark环境和Um×k,Vk×n矩阵;
步骤2:通过Um×k,Vk×n得到X0;
步骤3:对原始的用户-商品项目评分矩阵R进行ALS一次迭代,得到Q(X0);
步骤4:利用式(4)~(6)计算g0和p0;
步骤5:Repeat步骤6-8:
步骤6:通过递推关系xk+1=xk+αkpk,求出xk+1,通过式(5)计算出αk;
步骤7:ALS进行一次迭代,记为Q(Xk+1);
步骤10:由迭代后的Xk得到最终的Um×k,Vk×n,从而输出预测评分矩阵R′m×n;
步骤三:将训练数据集(即原始的用户-商品项目评分矩阵R),使用EP-FCM聚类算法对所有商品项目进行聚类操作,并建立商品项目类别索引矩阵;
由于模糊C-均值聚类的目标函数极值点的不确定性常常会导致算法收敛效果差,因为在迭代过程中目标函数极值点不稳定经常会导致初始聚类中心集中在某些极值点周围,而遗漏了其余的极值点,所以能准确确定初始聚类中心是算法的优化的关键。
进化规划算法(EP算法)模拟生物种群层次上的进化,在进化过程中主要强调生物种群行为上的联系,即强调种群层次上的行为进化而建立父、子代间的行为链,意味着无论其父代如何,好的子代才有资格生存,适于选择子代。该算法可处理实数空间的优化问题,并在变异运算中引入了正态分布变异算子,使其变成了一种优化搜索工具,搜索过程平稳,收敛速度较快。
因此,本发明首先采用EP算法对所述所有商品项目进行聚类,得到各聚类中心;然后再采用FCM聚类算法,以EP算法得到的各聚类中心为中心,对所述所有商品项目进行聚类。
本步骤的具体算法流程如下:
步骤1:初始化(群体规模,迭代次数G,阀值q等)
步骤2:随机产生初始群体,确定适应度函数并计算适应值。设聚类数为N,si为第i类的个体数,第i类的聚类中心如式(8)所示:
其中,xi,j为第i类中的j个体。式(9)为适应度函数:
步骤3:Repeat步骤3~7;
步骤4:对每个个体进行变异,可采用非均匀变异、边界变异、高斯近似等算子进行变异;本实施例中,对每个个体利用高斯变异算子进行变异,如式(10)所示:
步骤5:对变异个体进行可行性检查,利用式(9)计算适应度值;
步骤6:选择下一代个体,可采用最佳保留选择、随机q-竞争选择、无回放随机选择等算法进行选择;本事实例中,采用随机q-竞争算法从包括父、子代的2N个个体中选择N个作为下一代个体;
步骤7:按式(8)更新项目的聚类中心;
步骤8:until:F<q;
步骤9:将得出的聚类中心作为模糊C-均值聚类的初始聚类中心进行输入,采用模糊C-均值聚类法对所有商品项目进行聚类,完成模糊聚类。
步骤四:针对步骤三得到的各个聚类类别,采用兴趣衰减函数计算用户对该类别商品项目的兴趣度,确定用户现阶段感兴趣的商品项目类别;
传统的协同过滤算法没有考虑用户的兴趣随着时间变化的因素,默认为兴趣因子不变,但是人作为生物个体,对于事物的兴趣度往往会随着时间流逝而发生转移。因此,传统的协同过滤算法在计算相似度的时候没有考虑兴趣度随时间而损失的因素,则算法难以突破瓶颈、提高推荐结果的准确率。
本发明利用Matlab曲线拟合工具箱CFtool对艾宾浩斯遗忘曲线进行拟合,可得到遗忘拟合函数式(11):
f(x)=34.92×x-02028+12.71 (11)
f(x)为记忆保留率,范围为0.0~1.0,f(x)值越大表示记忆保留量(兴趣度留存率)越高;x为从初次记忆输入后的时间(天数)。由幂函数的特性可知,记忆保留率f(x)会随时间的增长而出现逐渐下降的趋势。
利用上述遗忘拟合函数即可追踪到用户的兴趣变化,进而构造并可使得预测准确度进一步提高;
Tdev=tun-tui (12)
在式(12)中,Tdev为用户最新评价和最初评价的天数差,tun为用户u最新评价的时间,tui为用户u首次对商品项目评价的时间;
f(Tdev)=34.92×(Tdev+1)-02028+12.71 (13)
其中f(Tdev)为用户u对项目的兴趣度保留率。
通过计算出用户对所有历史商品项目的f(Tdev),然后计算每个类中包含商品项目的保留兴趣值并累加,从步骤三得到的各聚类类别中,找到现阶段用户感兴趣的簇集合Q,并更新现阶段用户感兴趣的簇集合Q中所有商品项的评价值为兴趣衰减函数计算后的兴趣度。
步骤五:根据用户现阶段感兴趣的商品项目类别,利用皮尔逊相似度计算方法求出待推荐商品项与用户历史商品项之间的相似度,建立待推荐商品项与历史商品项之间的相似性矩阵,进而得到商品项目相似矩阵的特征向量;
其中,皮尔逊相似度计算公式如下:
步骤六,根据步骤五得到的相似矩阵及其特征向量,采用IBCF算法预测用户对待推荐商品项的评分并按从大到小的顺序排序,选取前N个待推荐商品项为推荐集:
由于在步骤三中对商品项目集使用EP-FCM算法进行聚类后生成了簇集合,在簇集内利用步骤四、五中改进的皮尔逊相似度计算方法(式(14))求出推荐所有项目与目标用户历史商品项目间的相似度,通过式(15)可以求得目标用户u对推荐的商品项目l的评分,从而找出和目标用户评价过的商品项目相似度最高的项目并排列,选取Top N的商品项目为推荐集,进而推荐给用户。
步骤七:利用测试数据集对算法模型的推荐结果进行验证,从而确定其有效性。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于融合改进模糊聚类和兴趣衰减的推荐方法,其特征在于,包括如下步骤:
步骤一,基于NCG-ALS对原始的用户-商品项目评分矩阵R进行矩阵分解:
对原始的用户-商品项目评分矩阵R进行ALS分解,其中,ALS的每次迭代后,采用NCG算法通过线性搜索法,找到的此方向最小值点作为ALS的下次迭代的迭代点;
步骤二,采用EP-FCM聚类算法对原始的用户-商品项目评分矩阵中所有商品项目进行聚类,并建立商品项目类别索引矩阵:
采用EP算法对所述所有商品项目进行聚类,得到各聚类中心;采用FCM聚类算法,以EP算法得到的各聚类中心为中心,对所述所有商品项目进行聚类;
步骤三,针对步骤二得到的各个聚类类别,采用兴趣衰减函数计算用户对该类别商品项目的兴趣度,并以兴趣度作为当前用户对该商品项目的评分值;对当前所有类别的商品项目评分进行标准化处理,挑选出用户现阶段感兴趣的商品项目类别;
步骤四,对步骤三确定的用户现阶段感兴趣的商品项目类别,利用皮尔逊相似度计算方法求出待推荐商品项与用户历史商品项之间的相似度,建立待推荐商品项与历史商品项之间的相似性矩阵,进而得到商品项目相似矩阵的特征向量;
步骤五,根据步骤四得到的相似矩阵及其特征向量,采用IBCF算法预测用户对待推荐商品项的评分并按从大到小的顺序排序,选取前N个待推荐商品项为推荐集。
2.如权利要求1所述的推荐方法,其特征在于,将原始的用户-商品项目评分矩阵R中的数据进行数据清洗并将数据划分为训练集和验证集,先利用训练集进行模型训练,再用验证集对训练后的模型进行验证。
3.如权利要求1所述的推荐方法,其特征在于,所述步骤二的EP算法中,对每个个体利用高斯变异算子进行变异。
4.如权利要求1所述的推荐方法,其特征在于,所述步骤二的EP算法中,采用q-竞争算法从包括父、子代的2N个个体中选择N个作为下一代个体。
5.如权利要求1所述的推荐方法,其特征在于,所述步骤三中,采用艾宾浩斯遗忘曲线计算用户对该类别商品项目的兴趣度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011608891.0A CN112734510B (zh) | 2020-12-30 | 2020-12-30 | 基于融合改进模糊聚类和兴趣衰减的商品推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011608891.0A CN112734510B (zh) | 2020-12-30 | 2020-12-30 | 基于融合改进模糊聚类和兴趣衰减的商品推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112734510A CN112734510A (zh) | 2021-04-30 |
CN112734510B true CN112734510B (zh) | 2023-05-26 |
Family
ID=75610877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011608891.0A Active CN112734510B (zh) | 2020-12-30 | 2020-12-30 | 基于融合改进模糊聚类和兴趣衰减的商品推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734510B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113421118B (zh) * | 2021-06-24 | 2023-05-30 | 平安壹钱包电子商务有限公司 | 数据推送方法、系统、计算机设备及计算机可读存储介质 |
CN116166890B (zh) * | 2023-04-25 | 2023-07-18 | 中国科学技术大学 | 基于浅层自动编码器模型的推荐方法、系统、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570090A (zh) * | 2016-10-20 | 2017-04-19 | 杭州电子科技大学 | 基于兴趣变化和信任关系的协同过滤推荐方法 |
CN107180088A (zh) * | 2017-05-10 | 2017-09-19 | 广西师范学院 | 基于模糊c均值聚类算法的新闻推荐方法 |
CN109784092A (zh) * | 2019-01-23 | 2019-05-21 | 北京工业大学 | 一种基于标签和差分隐私保护的推荐方法 |
CN109902235A (zh) * | 2019-03-06 | 2019-06-18 | 太原理工大学 | 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法 |
-
2020
- 2020-12-30 CN CN202011608891.0A patent/CN112734510B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570090A (zh) * | 2016-10-20 | 2017-04-19 | 杭州电子科技大学 | 基于兴趣变化和信任关系的协同过滤推荐方法 |
CN107180088A (zh) * | 2017-05-10 | 2017-09-19 | 广西师范学院 | 基于模糊c均值聚类算法的新闻推荐方法 |
CN109784092A (zh) * | 2019-01-23 | 2019-05-21 | 北京工业大学 | 一种基于标签和差分隐私保护的推荐方法 |
CN109902235A (zh) * | 2019-03-06 | 2019-06-18 | 太原理工大学 | 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法 |
Non-Patent Citations (1)
Title |
---|
基于改进聚类和矩阵分解的协同过滤推荐算法;王永贵等;计算机应用;第38卷(第4期);1001-1006 * |
Also Published As
Publication number | Publication date |
---|---|
CN112734510A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kuo et al. | Integration of ART2 neural network and genetic K-means algorithm for analyzing Web browsing paths in electronic commerce | |
Kuo et al. | Application of particle swarm optimization to association rule mining | |
Hassan et al. | A hybrid of multiobjective Evolutionary Algorithm and HMM-Fuzzy model for time series prediction | |
Duma et al. | Sparseness reduction in collaborative filtering using a nearest neighbour artificial immune system with genetic algorithms | |
CN112734510B (zh) | 基于融合改进模糊聚类和兴趣衰减的商品推荐方法 | |
Mehmanpazir et al. | Development of an evolutionary fuzzy expert system for estimating future behavior of stock price | |
Shahzad et al. | Missing data imputation using genetic algorithm for supervised learning | |
Zou et al. | Reinforcement learning to diversify top-n recommendation | |
Sánchez et al. | Mutual information-based feature selection and partition design in fuzzy rule-based classifiers from vague data | |
CN109902823A (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN115829683A (zh) | 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统 | |
Asgarnezhad et al. | An Effective Algorithm to Improve Recommender Systems using Evolutionary Computation Algorithms and Neural Network | |
Linder et al. | Artificial neural networks, classification trees and regression: Which method for which customer base? | |
Gunawan et al. | C4. 5, K-Nearest Neighbor, Naïve Bayes, and Random Forest Algorithms Comparison to Predict Students' on TIME Graduation | |
Yolcu et al. | A new fuzzy inference system for time series forecasting and obtaining the probabilistic forecasts via subsampling block bootstrap | |
Ahn et al. | Using genetic algorithms to optimize nearest neighbors for data mining | |
Türkşen et al. | Comparison of fuzzy functions with fuzzy rule base approaches | |
Arutjothi et al. | Assessment of probability defaults using K-means based multinomial logistic regression | |
Makropoulos et al. | A neurofuzzy spatial decision support system for pipe replacement prioritisation | |
Kumar et al. | A Recommendation System & Their Performance Metrics using several ML Algorithms | |
Widowati et al. | Enhance Document Contextual Using Attention-LSTM to Eliminate Sparse Data Matrix for E-Commerce Recommender System | |
Gholamnezhad et al. | A model-based many-objective evolutionary algorithm with multiple reference vectors | |
CN110956528A (zh) | 一种电商平台的推荐方法及系统 | |
Sridhar et al. | Extending Deep Neural Categorisation Models for Recommendations by Applying Gradient Based Learning | |
Xiao et al. | A hybrid recommendation algorithm based on weighted stochastic block model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Shi Peng Inventor after: Fan Tingwu Inventor before: Shi Peng Inventor before: Fan Yanwu |