CN111199422A

CN111199422A - 融合时间衰减因子的改进lfm协同过滤方法

Info

Publication number: CN111199422A
Application number: CN201911356412.8A
Authority: CN
Inventors: 甘志刚; 饶屾; 余长宏; 余斌霄; 蒋晓宁
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-26

Abstract

本发明提供融合时间衰减因子的改进LFM协同过滤方法，包括如下步骤：S1)输入用户u，每个用户u评价过的物品i，用户对物品i评价的时间戳，物品分类数K；S2)从训练样本中获得用户u评价过的物品，数量为Sp，作为正样本；S3)从训练样本中获得用户u没有评价过的物品，数量为Sn,作为负样本，用正、负样本构建用户u的训练样本库；S4)构建引入时间衰减因子的LFM算法的损失函数，通过梯度下降法，用训练样本库进行求解，得出用户u的用户特征矩阵P和物品特征矩阵Q；S5)计算用户u对物品i的兴趣度；S6)对所有物品兴趣度进行排序，选出N个兴趣度最高且用户u没有评价过的物品，给用户u进行推荐。

Description

融合时间衰减因子的改进LFM协同过滤方法

技术领域

本发明涉及互联网大数据处理技术领域，具体涉及一种融合时间衰减因子的改进LFM协同过滤方法。

背景技术

随着信息技术与和互联网的发展，我们已经进入到了一个“信息过载”的时代。面对五花八门的各类商品，铺天盖地的广告信息以及飞速增长的新闻信息，当用户不能明确自己需求或是不能准确描述自己需求的时候，我们就需要推荐系统来分析用户的历史行为给用户的兴趣建模，从而主动给用户推荐能够满足他们需求和兴趣的信息。

区别于搜索引擎系统，推荐系统可以以个性化的方式帮助用户从海量数据中快速找到自己感兴趣的对象。传统的基于用户和基于物品的协同过滤算法在基于用户行为计算相似度的时候需要主观定义分类的粒度、维度以及权重，存在数据的稀疏性和可展性等问题，所以预测评分结果的准确率和计算效率都不够高。

推荐算法的好坏直接决定了推荐系统性能的优劣。在推荐系统的众多算法中，基于内容的过滤(Content-based filtering,CBF)与协同过滤(Collaborative filtering)在实践中得到了最广泛的应用。协同过滤算法根据是否需要计算相似度可以分为基于邻域方法和基于模型的方法两类。基于邻域的推荐方法有两类，一类是基于用户的协同过滤算法(UserCF)，这种算法从用户的兴趣相似出发，给用户推荐与其兴趣相似的其他用户喜欢的物品；另一类是基于物品的协同过滤算法(ItemCF)，就是直接给用户推荐和他之前喜欢的物品相似的物品。UserCF是推荐用户所在兴趣小组中的热点，更注重社会化，而ItemCF则是根据用户历史行为推荐相似物品，更注重个性化。所以UserCF一般用在新闻类网站中，如Digg，而ItemCF则用在其他非新闻类网站中，如Amazon、hulu等。基于邻域的这两种方法为了衡量用户或者项目之间的相似性，需要存储两个用户共同的相关项目数据或两个项目共同的相关用户数据，当用户、项目的历史交互数据数量非常庞大的时候，扫描项目集合计算项目的相似性信息需要较长的时候，算法的扩展性不好，另一方面，交互数据量越大，潜在的可能性也更多，数据的稀疏性问题也将导致计算出的相似性指标可靠性降低。

基于模型的协同过滤算法是利用统计学、机器学习、数据挖掘来进行研究，将原始的评分数据进行训练得到相应的预测模型，模型的优劣直接影响着预测结果，其中应用较多的有聚类、贝叶斯以及隐语义模型。隐语义模型把用户和物品映射到相同的隐语义空间，通过隐含特征把用户的兴趣和物品进行关联，这些隐含的特征可以解释用户的喜好。

LFM(Latent factor model)隐语义模型从数据自身出发，采取基于用户行为的自动聚类，并利用机器学习的方法从用户的历史评分数据中挖掘出隐含特征。但当数据量很大的时候，用户-评分矩阵存在数据稀疏性问题，并且用户的兴趣总是随时间在不断改变，物品自身也是具有一定的生命周期的。

发明内容

基于以上问题，本发明主要是围绕LFM算法的稀疏性问题和时效性问题进行研究，提出了一种融合样本流行度、多样性以及时间衰减因子的改进FC-LFM模型。本发明首先通过对比实验证明了矩阵填充过程中负样本的流行度以及多样性对LFM模型准确率的影响，然后在此基础上引入艾宾浩斯遗忘曲线函数来改进LFM模型，将时间衰减因子融入到负样本流行度、矩阵填充、用户特征矩阵以及物品特征矩阵的迭代运算中，最后在Movielens数据集上通过对比实验验证了这种融合时间衰减因子的改进FC-LFM协同过滤算法在准确度、召回率等方面都优于传统的UserCF、ItemCF以及LFM算法。

为了达到上述目的，本发明通过以下技术方案来实现：

融合时间衰减因子的改进LFM协同过滤方法，包括如下步骤：

S1)输入用户u，每个用户u评价过的物品i，用户对物品i评价的时间戳，物品分类数K；

S2)从训练样本中获得用户u评价过的物品，数量为Sp，作为正样本；

S3)从训练样本中获得用户u没有评价过的物品，数量为Sn,作为负样本，用正、负样本构建用户u的训练样本库；

S4)构建引入时间衰减因子的LFM算法的损失函数：

通过梯度下降法，用训练样本库对式(1)进行求解，得出用户u的用户特征矩阵P和物品特征矩阵Q；

其中，Train为训练样本集，r_ui为用户u对物品i的评分，p_uk为用户u对物品类别k的兴趣度，q_ik为物品i属于类别k的权重，λ为正则化参数，f_it为物品i在t时刻的时间衰减因子；

其中，tnow为当前时间，

为用户对物品i做出评价的时间，时间单位为天；

S5)计算用户u对物品i的兴趣度：

其中，

为用户u对物品i的评价预测值；

S6)对所有物品兴趣度进行排序，选出N个兴趣度最高且用户u没有评价过的物品，给用户u进行推荐。

本发明与现有技术相比，具有以下优点：

本发明融合时间衰减因子的改进LFM协同过滤方法，主要围绕LFM算法的稀疏性问题和时效性问题进行研究，提出了一种融合样本流行度、多样性以及时间衰减因子的改进FC-LFM模型。在经典LFM算法的基础上，引入艾宾浩斯遗忘曲线的时间函数来拟合用户兴趣以及样本流行度随时间变化而产生的衰减，并通过实验验证了融合时间衰减因子的改进FC-LFM算法在推荐性能上的提升。

附图说明

图1是本发明的流程示意图；

图2是本发明FC-LFM方法相对于其他各方法在测试集不同占比下的准确率对比；

图3是本发明FC-LFM方法相对于其他各方法在测试集不同占比下的召回率对比。

具体实施方式

下面结合附图，对本发明的实施例作进一步详细的描述。

本发明采用的数据集是美国Minnesota大学GroupLens Research实验室提供的MovieLens(100k)(https://grouplens.org/datasets/movielens/100k/)，该数据集包括943名用户对1682部电影的10万条评分记录，数据稀疏度达到93.7％。每条记录包括用户对该电影的评分(1-5分)及评分时间(精确到秒)。本发明将该数据集按照9:1的比例随机抽取数据形成训练集和测试集，用于算法的训练及测试使用。

具体地，融合时间衰减因子的改进LFM协同过滤方法，包括如下步骤：

S1)输入用户u，每个用户u评价过的电影i，用户对电影i评价的时间戳，电影分类数K；

S2)从训练样本中获得用户u评价过的电影，数量为Sp，作为正样本；

S3)从训练样本中获得用户u没有评价过的电影，数量为Sn,作为负样本，用正、负样本构建用户u的训练样本库；

S4)构建引入时间衰减因子的LFM算法的损失函数：

通过梯度下降法，用训练样本库对式(1)进行求解，得出用户u的用户特征矩阵P和电影特征矩阵Q；

其中，Train为训练样本集，r_ui为用户u对电影i的评分，p_uk为用户u对电影类别k的兴趣度，q_ik为电影i属于类别k的权重，λ为正则化参数，f_it为电影i在t时刻的时间衰减因子；

其中，tnow为当前时间，

为用户对电影i做出评价的时间，时间单位为天；

S5)计算用户u对电影i的兴趣度：

其中，

为用户u对电影i的评价预测值；

S6)对所有电影兴趣度进行排序，选出N个兴趣度最高且用户u没有评价过的电影，给用户u进行推荐。

为了验证本发明FC-LFM算法的有效性，采用MovieLens数据集，将本发明FC-LFM算法与基于用户的协同过滤算法(UserCF)、基于物品的协同过滤算法(ItemCF)和隐含语义模型(LFM)进行了对比实验，验证了各个算法在训练样本与测试样本不同划分比例下的准确率和召回率指标上的性能。

准确率和召回率可以反映推荐算法的有效性，其中准确率描述推荐列表中包含多少比例的电影是用户确实看过的(针对测试集T)，其计算公式为：

召回率是描述测试集T中用户看过的电影有多少比例出现在推荐列表中，其计算公式为：

其中，T表示测试集，R(u)表示依据推荐算法对用户u推荐的电影列表，T(u)表示用户u在测试集T中真实评价过的电影。

图1是在MovieLens数据集下各算法准确率的折线对比图。从图1可以看出，当训练集样本相对充足时(Test set ratio<＝0.6)，所有算法的推荐准确度都呈上升趋势，而本发明提出的基于时间遗忘曲线的FC-LFM算法的推荐准确率要高于其他所有算法；而当测试集在总测试样本中占比大于等于0.6时，也就是在训练样本严重不足时，所有算法的推荐准确度都呈下降趋势，但FC-LFM算法的推荐准确率仍高于ItemCF和LFM算法。

图2是在MovieLens数据集下各算法召回率的折线对比图。从图2可以看出，随着测试样本集容量的不断增大，所有算法的召回率呈下降趋势，这是因为针对每个用户的推荐电影数保持不变，而测试集容量增大，根据召回率的定义，其召回率必然不断减少。但当训练集样本相对充足时(Test set ratio<＝0.6)，FC-LFM算法的推荐召回率要高于其他所有算法，而当测试集在总测试样本中占比大于等于0.6时，也就是在训练样本严重不足时，其推荐召回率小于UserCF，但仍高于ItemCF和LFM算法。

从图1和图2中可以看出，在训练样本相对充足时，LFM算法的推荐准确率和召回率均小于UserCF和ItemCF，但增加了时间遗忘特性的FC-LFM算法的推荐准确率和召回率均大于UserCF和ItemCF，说明时间遗忘特性能够显著改善算法的推荐准确率和召回率。而当训练样本相对不足时(Test set ratio>0.6)，FC-LFM算法的推荐准确率和召回率低于UseCF，可见FC-LFM算法对于学习样本的相对数量有一定依赖，而UserCF对于学习样本的相对数量依赖较少。

以上所述仅是本发明优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.融合时间衰减因子的改进LFM协同过滤方法，其特征在于包括如下步骤：

S4)构建引入时间衰减因子的LFM算法的损失函数：

其中，t_now为当前时间，

为用户对物品i做出评价的时间，时间单位为天；

S5)计算用户u对物品i的兴趣度：

其中，

为用户u对物品i的评价预测值；