CN111199422A - 融合时间衰减因子的改进lfm协同过滤方法 - Google Patents
融合时间衰减因子的改进lfm协同过滤方法 Download PDFInfo
- Publication number
- CN111199422A CN111199422A CN201911356412.8A CN201911356412A CN111199422A CN 111199422 A CN111199422 A CN 111199422A CN 201911356412 A CN201911356412 A CN 201911356412A CN 111199422 A CN111199422 A CN 111199422A
- Authority
- CN
- China
- Prior art keywords
- user
- item
- items
- lfm
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims abstract description 13
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000011478 gradient descent method Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 description 19
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供融合时间衰减因子的改进LFM协同过滤方法,包括如下步骤:S1)输入用户u,每个用户u评价过的物品i,用户对物品i评价的时间戳,物品分类数K;S2)从训练样本中获得用户u评价过的物品,数量为Sp,作为正样本;S3)从训练样本中获得用户u没有评价过的物品,数量为Sn,作为负样本,用正、负样本构建用户u的训练样本库;S4)构建引入时间衰减因子的LFM算法的损失函数,通过梯度下降法,用训练样本库进行求解,得出用户u的用户特征矩阵P和物品特征矩阵Q;S5)计算用户u对物品i的兴趣度;S6)对所有物品兴趣度进行排序,选出N个兴趣度最高且用户u没有评价过的物品,给用户u进行推荐。
Description
技术领域
本发明涉及互联网大数据处理技术领域,具体涉及一种融合时间衰减因子的改进LFM协同过滤方法。
背景技术
随着信息技术与和互联网的发展,我们已经进入到了一个“信息过载”的时代。面对五花八门的各类商品,铺天盖地的广告信息以及飞速增长的新闻信息,当用户不能明确自己需求或是不能准确描述自己需求的时候,我们就需要推荐系统来分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足他们需求和兴趣的信息。
区别于搜索引擎系统,推荐系统可以以个性化的方式帮助用户从海量数据中快速找到自己感兴趣的对象。传统的基于用户和基于物品的协同过滤算法在基于用户行为计算相似度的时候需要主观定义分类的粒度、维度以及权重,存在数据的稀疏性和可展性等问题,所以预测评分结果的准确率和计算效率都不够高。
推荐算法的好坏直接决定了推荐系统性能的优劣。在推荐系统的众多算法中,基于内容的过滤(Content-based filtering,CBF)与协同过滤(Collaborative filtering)在实践中得到了最广泛的应用。协同过滤算法根据是否需要计算相似度可以分为基于邻域方法和基于模型的方法两类。基于邻域的推荐方法有两类,一类是基于用户的协同过滤算法(UserCF),这种算法从用户的兴趣相似出发,给用户推荐与其兴趣相似的其他用户喜欢的物品;另一类是基于物品的协同过滤算法(ItemCF),就是直接给用户推荐和他之前喜欢的物品相似的物品。UserCF是推荐用户所在兴趣小组中的热点,更注重社会化,而ItemCF则是根据用户历史行为推荐相似物品,更注重个性化。所以UserCF一般用在新闻类网站中,如Digg,而ItemCF则用在其他非新闻类网站中,如Amazon、hulu等。基于邻域的这两种方法为了衡量用户或者项目之间的相似性,需要存储两个用户共同的相关项目数据或两个项目共同的相关用户数据,当用户、项目的历史交互数据数量非常庞大的时候,扫描项目集合计算项目的相似性信息需要较长的时候,算法的扩展性不好,另一方面,交互数据量越大,潜在的可能性也更多,数据的稀疏性问题也将导致计算出的相似性指标可靠性降低。
基于模型的协同过滤算法是利用统计学、机器学习、数据挖掘来进行研究,将原始的评分数据进行训练得到相应的预测模型,模型的优劣直接影响着预测结果,其中应用较多的有聚类、贝叶斯以及隐语义模型。隐语义模型把用户和物品映射到相同的隐语义空间,通过隐含特征把用户的兴趣和物品进行关联,这些隐含的特征可以解释用户的喜好。
LFM(Latent factor model)隐语义模型从数据自身出发,采取基于用户行为的自动聚类,并利用机器学习的方法从用户的历史评分数据中挖掘出隐含特征。但当数据量很大的时候,用户-评分矩阵存在数据稀疏性问题,并且用户的兴趣总是随时间在不断改变,物品自身也是具有一定的生命周期的。
发明内容
基于以上问题,本发明主要是围绕LFM算法的稀疏性问题和时效性问题进行研究,提出了一种融合样本流行度、多样性以及时间衰减因子的改进FC-LFM模型。本发明首先通过对比实验证明了矩阵填充过程中负样本的流行度以及多样性对LFM模型准确率的影响,然后在此基础上引入艾宾浩斯遗忘曲线函数来改进LFM模型,将时间衰减因子融入到负样本流行度、矩阵填充、用户特征矩阵以及物品特征矩阵的迭代运算中,最后在Movielens数据集上通过对比实验验证了这种融合时间衰减因子的改进FC-LFM协同过滤算法在准确度、召回率等方面都优于传统的UserCF、ItemCF以及LFM算法。
为了达到上述目的,本发明通过以下技术方案来实现:
融合时间衰减因子的改进LFM协同过滤方法,包括如下步骤:
S1)输入用户u,每个用户u评价过的物品i,用户对物品i评价的时间戳,物品分类数K;
S2)从训练样本中获得用户u评价过的物品,数量为Sp,作为正样本;
S3)从训练样本中获得用户u没有评价过的物品,数量为Sn,作为负样本,用正、负样本构建用户u的训练样本库;
S4)构建引入时间衰减因子的LFM算法的损失函数:
通过梯度下降法,用训练样本库对式(1)进行求解,得出用户u的用户特征矩阵P和物品特征矩阵Q;
其中,Train为训练样本集,rui为用户u对物品i的评分,puk为用户u对物品类别k的兴趣度,qik为物品i属于类别k的权重,λ为正则化参数,fit为物品i在t时刻的时间衰减因子;
S5)计算用户u对物品i的兴趣度:
S6)对所有物品兴趣度进行排序,选出N个兴趣度最高且用户u没有评价过的物品,给用户u进行推荐。
本发明与现有技术相比,具有以下优点:
本发明融合时间衰减因子的改进LFM协同过滤方法,主要围绕LFM算法的稀疏性问题和时效性问题进行研究,提出了一种融合样本流行度、多样性以及时间衰减因子的改进FC-LFM模型。在经典LFM算法的基础上,引入艾宾浩斯遗忘曲线的时间函数来拟合用户兴趣以及样本流行度随时间变化而产生的衰减,并通过实验验证了融合时间衰减因子的改进FC-LFM算法在推荐性能上的提升。
附图说明
图1是本发明的流程示意图;
图2是本发明FC-LFM方法相对于其他各方法在测试集不同占比下的准确率对比;
图3是本发明FC-LFM方法相对于其他各方法在测试集不同占比下的召回率对比。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
本发明采用的数据集是美国Minnesota大学GroupLens Research实验室提供的MovieLens(100k)(https://grouplens.org/datasets/movielens/100k/),该数据集包括943名用户对1682部电影的10万条评分记录,数据稀疏度达到93.7%。每条记录包括用户对该电影的评分(1-5分)及评分时间(精确到秒)。本发明将该数据集按照9:1的比例随机抽取数据形成训练集和测试集,用于算法的训练及测试使用。
具体地,融合时间衰减因子的改进LFM协同过滤方法,包括如下步骤:
S1)输入用户u,每个用户u评价过的电影i,用户对电影i评价的时间戳,电影分类数K;
S2)从训练样本中获得用户u评价过的电影,数量为Sp,作为正样本;
S3)从训练样本中获得用户u没有评价过的电影,数量为Sn,作为负样本,用正、负样本构建用户u的训练样本库;
S4)构建引入时间衰减因子的LFM算法的损失函数:
通过梯度下降法,用训练样本库对式(1)进行求解,得出用户u的用户特征矩阵P和电影特征矩阵Q;
其中,Train为训练样本集,rui为用户u对电影i的评分,puk为用户u对电影类别k的兴趣度,qik为电影i属于类别k的权重,λ为正则化参数,fit为电影i在t时刻的时间衰减因子;
S5)计算用户u对电影i的兴趣度:
S6)对所有电影兴趣度进行排序,选出N个兴趣度最高且用户u没有评价过的电影,给用户u进行推荐。
为了验证本发明FC-LFM算法的有效性,采用MovieLens数据集,将本发明FC-LFM算法与基于用户的协同过滤算法(UserCF)、基于物品的协同过滤算法(ItemCF)和隐含语义模型(LFM)进行了对比实验,验证了各个算法在训练样本与测试样本不同划分比例下的准确率和召回率指标上的性能。
准确率和召回率可以反映推荐算法的有效性,其中准确率描述推荐列表中包含多少比例的电影是用户确实看过的(针对测试集T),其计算公式为:
召回率是描述测试集T中用户看过的电影有多少比例出现在推荐列表中,其计算公式为:
其中,T表示测试集,R(u)表示依据推荐算法对用户u推荐的电影列表,T(u)表示用户u在测试集T中真实评价过的电影。
图1是在MovieLens数据集下各算法准确率的折线对比图。从图1可以看出,当训练集样本相对充足时(Test set ratio<=0.6),所有算法的推荐准确度都呈上升趋势,而本发明提出的基于时间遗忘曲线的FC-LFM算法的推荐准确率要高于其他所有算法;而当测试集在总测试样本中占比大于等于0.6时,也就是在训练样本严重不足时,所有算法的推荐准确度都呈下降趋势,但FC-LFM算法的推荐准确率仍高于ItemCF和LFM算法。
图2是在MovieLens数据集下各算法召回率的折线对比图。从图2可以看出,随着测试样本集容量的不断增大,所有算法的召回率呈下降趋势,这是因为针对每个用户的推荐电影数保持不变,而测试集容量增大,根据召回率的定义,其召回率必然不断减少。但当训练集样本相对充足时(Test set ratio<=0.6),FC-LFM算法的推荐召回率要高于其他所有算法,而当测试集在总测试样本中占比大于等于0.6时,也就是在训练样本严重不足时,其推荐召回率小于UserCF,但仍高于ItemCF和LFM算法。
从图1和图2中可以看出,在训练样本相对充足时,LFM算法的推荐准确率和召回率均小于UserCF和ItemCF,但增加了时间遗忘特性的FC-LFM算法的推荐准确率和召回率均大于UserCF和ItemCF,说明时间遗忘特性能够显著改善算法的推荐准确率和召回率。而当训练样本相对不足时(Test set ratio>0.6),FC-LFM算法的推荐准确率和召回率低于UseCF,可见FC-LFM算法对于学习样本的相对数量有一定依赖,而UserCF对于学习样本的相对数量依赖较少。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (1)
1.融合时间衰减因子的改进LFM协同过滤方法,其特征在于包括如下步骤:
S1)输入用户u,每个用户u评价过的物品i,用户对物品i评价的时间戳,物品分类数K;
S2)从训练样本中获得用户u评价过的物品,数量为Sp,作为正样本;
S3)从训练样本中获得用户u没有评价过的物品,数量为Sn,作为负样本,用正、负样本构建用户u的训练样本库;
S4)构建引入时间衰减因子的LFM算法的损失函数:
通过梯度下降法,用训练样本库对式(1)进行求解,得出用户u的用户特征矩阵P和物品特征矩阵Q;
其中,Train为训练样本集,rui为用户u对物品i的评分,puk为用户u对物品类别k的兴趣度,qik为物品i属于类别k的权重,λ为正则化参数,fit为物品i在t时刻的时间衰减因子;
S5)计算用户u对物品i的兴趣度:
S6)对所有物品兴趣度进行排序,选出N个兴趣度最高且用户u没有评价过的物品,给用户u进行推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356412.8A CN111199422A (zh) | 2019-12-25 | 2019-12-25 | 融合时间衰减因子的改进lfm协同过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911356412.8A CN111199422A (zh) | 2019-12-25 | 2019-12-25 | 融合时间衰减因子的改进lfm协同过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111199422A true CN111199422A (zh) | 2020-05-26 |
Family
ID=70744463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911356412.8A Pending CN111199422A (zh) | 2019-12-25 | 2019-12-25 | 融合时间衰减因子的改进lfm协同过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111199422A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112437349A (zh) * | 2020-11-10 | 2021-03-02 | 杭州时趣信息技术有限公司 | 一种视频流推荐方法及相关装置 |
CN112541407A (zh) * | 2020-08-20 | 2021-03-23 | 同济大学 | 一种基于用户服务操作流的视觉服务推荐方法 |
CN112907295A (zh) * | 2021-03-19 | 2021-06-04 | 恩亿科(北京)数据科技有限公司 | 一种基于计算广告背景下的相似人群拓展方法以及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391849A (zh) * | 2014-06-30 | 2015-03-04 | 浙江大学苏州工业技术研究院 | 融入时间上下文信息的协同过滤推荐方法 |
US20170132230A1 (en) * | 2015-11-09 | 2017-05-11 | WP Company LLC d/b/a The Washington Post | Systems and methods for recommending temporally relevant news content using implicit feedback data |
CN109241203A (zh) * | 2018-09-27 | 2019-01-18 | 天津理工大学 | 一种融合时间因素的用户偏好和距离加权的聚类方法 |
CN110399549A (zh) * | 2018-04-24 | 2019-11-01 | 河南理工大学 | 一种面向用户兴趣调和相似度的协同过滤方法 |
-
2019
- 2019-12-25 CN CN201911356412.8A patent/CN111199422A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391849A (zh) * | 2014-06-30 | 2015-03-04 | 浙江大学苏州工业技术研究院 | 融入时间上下文信息的协同过滤推荐方法 |
US20170132230A1 (en) * | 2015-11-09 | 2017-05-11 | WP Company LLC d/b/a The Washington Post | Systems and methods for recommending temporally relevant news content using implicit feedback data |
CN110399549A (zh) * | 2018-04-24 | 2019-11-01 | 河南理工大学 | 一种面向用户兴趣调和相似度的协同过滤方法 |
CN109241203A (zh) * | 2018-09-27 | 2019-01-18 | 天津理工大学 | 一种融合时间因素的用户偏好和距离加权的聚类方法 |
Non-Patent Citations (1)
Title |
---|
王尔昕: ""基于隐语义模型和聚类算法的电子商务个性化推荐系统的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541407A (zh) * | 2020-08-20 | 2021-03-23 | 同济大学 | 一种基于用户服务操作流的视觉服务推荐方法 |
CN112541407B (zh) * | 2020-08-20 | 2022-05-13 | 同济大学 | 一种基于用户服务操作流的视觉服务推荐方法 |
CN112437349A (zh) * | 2020-11-10 | 2021-03-02 | 杭州时趣信息技术有限公司 | 一种视频流推荐方法及相关装置 |
CN112907295A (zh) * | 2021-03-19 | 2021-06-04 | 恩亿科(北京)数据科技有限公司 | 一种基于计算广告背景下的相似人群拓展方法以及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Al-Badarenah et al. | An automated recommender system for course selection | |
CN103377250B (zh) | 基于邻域的top‑k推荐方法 | |
Ghazanfar et al. | An improved switching hybrid recommender system using naive bayes classifier and collaborative filtering | |
WO2016191959A1 (zh) | 一种时变的协同过滤推荐方法 | |
CN101685458B (zh) | 一种基于协同过滤的推荐方法和系统 | |
CN109684538A (zh) | 一种基于用户个人特征的推荐方法及推荐系统 | |
CN111199422A (zh) | 融合时间衰减因子的改进lfm协同过滤方法 | |
CN105183727A (zh) | 一种图书推荐方法及其系统 | |
Jiao et al. | A novel learning rate function and its application on the SVD++ recommendation algorithm | |
CN102411754A (zh) | 一种基于商品属性熵值的个性化推荐方法 | |
CN105138653A (zh) | 一种基于典型度和难度的题目推荐方法及其推荐装置 | |
CN103559622A (zh) | 基于特征的协同过滤推荐方法 | |
CN103886486A (zh) | 一种基于支持向量机svm的电子商务推荐方法 | |
CN106980646A (zh) | 基于流行度对用户兴趣的影响机制分析及其在推荐算法中应用的方法 | |
Mendoza et al. | Evaluating content novelty in recommender systems | |
Dhawan et al. | High rating recent preferences based recommendation system | |
Duan et al. | A hybrid intelligent service recommendation by latent semantics and explicit ratings | |
CN109214882A (zh) | 一种商品推荐方法 | |
CN101986301A (zh) | 一种基于逆邻分析的协作过滤推荐系统及方法 | |
Sehgal et al. | A new genre of recommender systems based on modern paradigms of data filtering | |
CN114861079A (zh) | 一种融合商品特征的协同过滤推荐方法和系统 | |
Tang et al. | Service recommendation based on dynamic user portrait: an integrated approach | |
Hartatik et al. | A comparison study of model based collaborative filtering using alternating least square and singular value decomposition | |
Zhi-Gang et al. | Improved FC-lfm algorithm integrating time decay factor | |
Gadekula et al. | Improved pearson similarity for collaborative filtering recommendation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200526 |
|
RJ01 | Rejection of invention patent application after publication |