CN109241203B - 一种融合时间因素的用户偏好和距离加权的聚类方法 - Google Patents

一种融合时间因素的用户偏好和距离加权的聚类方法 Download PDF

Info

Publication number
CN109241203B
CN109241203B CN201811129955.1A CN201811129955A CN109241203B CN 109241203 B CN109241203 B CN 109241203B CN 201811129955 A CN201811129955 A CN 201811129955A CN 109241203 B CN109241203 B CN 109241203B
Authority
CN
China
Prior art keywords
user
matrix
item
attribute
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811129955.1A
Other languages
English (en)
Other versions
CN109241203A (zh
Inventor
李文杰
薛花
张德干
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN201811129955.1A priority Critical patent/CN109241203B/zh
Publication of CN109241203A publication Critical patent/CN109241203A/zh
Application granted granted Critical
Publication of CN109241203B publication Critical patent/CN109241203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种融合时间因素的用户偏好和距离加权的聚类方法,通过引入由用户基本客观特征构造的用户—用户属性矩阵来缓解用户冷启动问题,而稀疏性问题的改进主要是通过引入项目特征,由于项目的特征可以从内容的方面来体现用户偏好,从而能够达到减少矩阵的维数;将项目特征引入到用户—项目评分来得到小维数的用户—项目属性总评分矩阵;用TF‑IDF算法构建用户—项目属性偏好矩阵时引入项目特征,同时考虑用户兴趣随时间漂移对用户偏好的影响;基于以上的三个矩阵来得到加权后欧氏距离,然后利用K‑Means算法进行聚类。本方法是以电影的推荐为例,在MovieLens数据集上进行的实验结果表明,与其他相关的算法相比,该方法具有较好的推荐质量和性能。

Description

一种融合时间因素的用户偏好和距离加权的聚类方法
技术领域
本发明涉及个性化推荐算法,具体提供一种融合了时间因素的用户偏好和距离加权的聚类方法。
背景技术
近年来,随着信息技术和Web2.0的发展,互联网的信息出现了前所未有的暴涨,问题也随之而来,主要包括信息的过载问题和用户不能准确选择相关信息的问题,而推荐系统是克服信息过载问题的有效工具之一。推荐系统的核心是设计推荐算法,所以在学术界中,提出了各种各样的推荐算法,目前主要使用的推荐算法包括有基于内容的推荐算法、组合推荐算法和协同过滤推荐算法等。
为了使用户能够合理的利用并且快速的找到需要的有用信息,首先要做的就是信息的过滤和分类,所以最受欢迎的推荐算法仍然是协同过滤,而且在互联网的各个领域中体现出了实际的应用价值。随着对协同过滤推荐算法的不断深入研究,问题也慢慢暴露出来,比如冷启动问题、数据稀疏性问题、扩展性问题、推荐效率和准确性问题,以及用户兴趣随时间改变的问题等,如何更好地解决这些问题已经成为了当前研究的热点。
协同过滤推荐算法是当下应用最广泛的推荐技术,主要是依据用户的历史行为来发现其偏好,针对不同的偏好分别来预测用户可能感兴趣的相似商品。然而,在传统的协同过滤推荐算法中,用户冷启动和数据稀疏性的问题一直都是最主要的问题,这将直接影响推荐的质量和性能,一些学者针对以上存在的问题也提出了改善的方法。
王宏杰等人提出一种根据聚类精度来调节特征权重的K-Means聚类算法,以提升聚类的准确性[1]。何明等人提出了基于用户—项目评分矩阵与项目类型来构建用户偏好矩阵,然后用SlopeOne算法进行填充,用来缓减数据稀疏性问题[2]。曾安等人提出了一种由融合时间因素和用户—项目评分来构建用户偏好矩阵的协同过滤算法,来改善推荐质量[3]。
目前的算法主要是通过利用用户—项目评分矩阵来进行欧氏距离的计算,而忽视了用户的基本客观特征和通过使用项目同一属性的个数来体现用户的主观兴趣,以及用户兴趣随时间迁移而改变的问题。
[1]王宏杰,师彦文.结合初始中心优化和特征加权的K-Means聚类算法[J].计算机科学,2017,44(b11):457-459
[2]何明,孙望,肖润,等.一种融合聚类与用户兴趣偏好的协同过滤推荐算法[J].计算机科学,2017,44(b11):391-396
[3]曾安,高成思,徐小强.融合时间因素和用户评分特性的协同过滤算法[J].计算机科学,2017,44(9):243-249
【发明内容】
本发明的目的是解决原有协同过滤推荐算法中的用户冷启动问题和数据稀疏性问题,在现有的算法基础上进行优化改进,设计了一种融合了时间因素的用户偏好和距离加权的聚类方法。该方法通过数据的预处理得到用户—用户属性矩阵和用户—项目属性总评分矩阵,分别计算其对应的欧氏距离;同时依据艾宾浩斯遗忘曲线来构建时间衰减函数,定义稳定期时间窗T,将时间衰减函数与时间窗相结合,形成新的遗忘函数;利用融合了遗忘函数的TF-IDF方法来构建用户—项目属性偏好矩阵,并计算其欧氏距离;将以上三个欧氏距离进行加权,得到综合的欧氏距离,然后用K-Means进行聚类并预测评分和推荐;最后在MovieLens数据集上进行实验,从MAE、F-Measure这两个指标来验证本方法的合理性和有效性。
本发明提供的一种融合时间因素的用户偏好和距离加权的聚类方法主要包括如下关键步骤:
第1、基本矩阵:
第1.1、对初始数据集进行处理,获得用户—用户属性矩阵和用户—项目评分矩阵;
第1.2、构建项目—项目属性矩阵,来表示电影包含的电影属性;
第1.3、通过对用户-项目评分矩阵和项目—项目属性矩阵进行计算,得到用户—项目属性总评分矩阵;
第2、用户偏好权重的计算:
第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵,由值0和1来代表一部电影是否包含某个电影属性;
第2.2、然后根据TF-IDF方法来对上述得到的用户—项目矩阵进行计算,得到用户-项目属性偏好矩阵;
第3、TF-IDF方法的改进:
第3.1、根据遗忘曲线定义一个用户评价电影的时间衰减函数;
第3.2、根据用户兴趣的实际变化情况,定义时间窗T,加入到时间衰减函数中得到最终的遗忘函数;
第3.3、在TF-IDF方法的基础上融合最终的遗忘函数,改进用户偏好权重的计算,得到最终的用户-项目属性偏好矩阵;
第4、欧氏距离的加权和K-Means聚类:
第4.1、分别对第1.1中的用户—用户属性矩,第1.3中的用户—项目属性总评分矩阵和第3.3中的最终的用户—项目属性偏好矩阵进行欧氏距离的计算;
第4.2、根据计算结果进行加权处理,得到加权后的综合欧氏距离;
第4.3、基于上述最终的欧氏距离进行K-Means聚类;
第5、相似度计算和Top-N推荐:
第5.1、同样分别对上述三个矩阵进行相似度计算并加权;
第5.2、对电影进行预测评分,并选择评分较高的前N个电影进行推荐。
本发明的优点和积极效果是:
本方法主要设计了一种融合时间因素的用户偏好和距离加权的聚类方法,该方法是基于K-Means聚类算法的。用户的喜好不仅可以通过评分来体现,而且也可以通过用户自身的特征和用户对同一属性电影观看的次数来表现。因此,本申请提出了一种以加权后的距离为基准的K-Means聚类算法来进行聚类,即对两个用户之间的客观特征、对同一属性电影的总评分和融合了时间因素的用户偏好的欧式距离进行的加权,来解决传统协同过滤算法中的用户冷启动和数据稀疏性的问题。而融合了时间因素的用户偏好就是通过用户观看同一属性电影的次数来表现用户对某种类型电影的喜欢程度,是由TF-IDF算法和加入了时间窗的时间函数共同构建的,同时,时间窗也解决了用户兴趣迁移的问题。
附图说明
图1是艾宾浩斯遗忘曲线;
图2是整个算法的流程;
图3是K-Means中聚类数目K对MAE值的影响;
图4是时间窗T对MAE值的影响;
图5是兴趣衰减系数T0对MAE值的影响;
图6是近邻个数k对MAE值的影响;
图7是推荐列表长度N对F-Measure值的影响。
具体实施方式
本发明设计的方法基于TF-IDF算法和K-Means聚类,在计算用户偏好权重中,利用了TF-IDF算法,来得到目标用户对某一特征属性的偏好程度。艾宾浩斯遗忘曲线如图1所示,根据其来定义时间函数,并通过加入时间窗来缓减兴趣的波动,最后将其和TF-IDF算法相结合,得到在时间影响的情况下,用户的偏好程度。从用户的客观特征、用户对包含某一属性电影的总评分和由上面的到的用户的偏好这三个方面来计算其对应的欧氏距离,然后进行加权,得到综合的欧氏距离。
在上述基础上,利用K-Means来聚类。根据聚类结果,在相应的类中计算目标用户的综合相似度,并对目标用户未观看的电影进行预测评分,然后从中选取评分较高的电影进行推荐。
参见附图2,本发明方法主要包括如下关键步骤:
第1、基本矩阵:
第1.1、通过对初始数据集进行处理,获得用户-用户属性矩阵和用户-项目评分矩阵,分别将其对应的矩阵记为V和R,V的形式如下:
Figure BDA0001813272500000051
其中:k代表用户属性的个数,用户的属性即用户的ID,性别,年龄段,职业等;
Figure BDA0001813272500000061
代表用户ui在其自身的客观特征属性gk上的值。
R的形式如下:
Figure BDA0001813272500000062
其中:
Figure BDA0001813272500000063
代表用户ui对电影mj的评分,评分的值域为[0,1,2,3,4,5]。
第1.2、构建项目-项目属性矩阵,来表示电影包含的电影属性,记为F。
F的矩阵形式为:
Figure BDA0001813272500000064
其中:
Figure BDA0001813272500000065
代表电影mj包含项目特征属性gk
Figure BDA0001813272500000066
代表电影mj不包含项目特征属性gk
第1.3、通过对用户-项目评分矩阵和项目-项目属性矩阵进行计算,得到用户-项目属性总评分矩阵,记为F′。
F′的矩阵形式为:
Figure BDA0001813272500000067
其中:
Figure BDA0001813272500000068
代表用户ui对包含特征属性gk电影的总评分,
Figure BDA0001813272500000069
计算公式如下:
Figure BDA0001813272500000071
第2、用户偏好权重的计算:
第2.1、对用户-项目评分矩阵R进行处理得到用户-项目矩阵R′,由值0和1来代表一部电影是否包含某个电影属性。
R′的矩阵形式为:
Figure BDA0001813272500000072
其中:
Figure BDA0001813272500000073
代表用户ui对电影mj有评分;
Figure BDA0001813272500000074
代表用户ui对电影mj没有评分。
第2.2、然后根据TF-IDF方法来对上述得到的用户-项目矩阵进行计算,得到用户-项目属性偏好矩阵记为P。
P的矩阵形式为:
Figure BDA0001813272500000075
其中:
Figure BDA0001813272500000076
代表用户ui对项目特征属性gk的偏好程度,计算公式如下:
Figure BDA0001813272500000077
其中:
Figure BDA0001813272500000078
代表用户ui观看有属性gk电影的总数;
Figure BDA0001813272500000081
代表用户ui看过的电影总数;
Figure BDA0001813272500000082
代表整个数据集中电影的总数;
Figure BDA0001813272500000083
代表整个数据集中含有属性gk电影的总数。
第3、TF-IDF方法的改进:
第3.1、用户的兴趣会随着时间的改变而发生变化。经过研究,德国心理学家艾宾浩斯(H.Ebbinghaus)发现了人类记忆的部分遗忘规律。最初会以很快的速度被遗忘,而后随着时间的推移其遗忘速度才会减慢下来,呈现出非线性的遗忘规律,而用户对历史观看行为的遗忘也符合该非线性的遗忘规律,遗忘曲线如图1所示,所以定义用户评价电影的时间衰减函数为:
Figure BDA0001813272500000084
其中:t表示一个时间差,即t=tnew-told-g,tnew是指用户现在的时间,told-g是指用户最后一次对包含属性g的电影的评分时间,以天为单位;T0表示用户兴趣衰减的衰减系数。
第3.2、在现实的生活中,用户的兴趣通常不会每时每刻都在变化,而是在一定的时间内保持不变,比如用户在对一部电影进行评分后,其影响力不会马上开始衰减,一般会保持几天,而后才开始进行衰减,衰减后其影响力又会保持几天不变。
因此,定义稳定期时间窗T,即在稳定期内用户在对电影进行评分后的影响力保持不变,故最终的遗忘函数为:
Figure BDA0001813272500000085
其中:T表示稳定期时间窗口的大小;t表示一个时间差,即t=tnew-told-g,tnew是指用户现在的时间,told-g是指用户最后一次对包含属性g的电影的评分时间,以天为单位;
Figure BDA0001813272500000091
表示将t除以T的结果数值向下取整;T0表示用户兴趣衰减的衰减系数。
第3.3、在TF-IDF方法的基础上融合最终的遗忘函数,改进用户偏好权重的计算,得到最终的用户-项目属性偏好矩阵P′。
P′的矩阵形式为:
Figure BDA0001813272500000092
其中:
Figure BDA0001813272500000093
代表使用改进的TF-IDF方法来计算用户ui对项目特征属性gk的偏好程度,计算公式如下:
Figure BDA0001813272500000094
其中:
Figure BDA0001813272500000095
代表经过时间因素处理后的用户ui观看含有属性gk电影的总数。
第4、欧氏距离的加权和K-Means聚类:
第4.1、分别对第1.1中的用户-用户属性矩阵,第1.3中的用户-项目属性总评分矩阵和第3.3中的最终的用户-项目属性偏好矩阵进行欧氏距离的计算,对应的公式如下:
Figure BDA0001813272500000096
Figure BDA0001813272500000101
Figure BDA0001813272500000102
第4.2、根据计算结果进行加权处理,得到加权后的综合欧氏距离;
两个用户ui和uj加权的欧式距离为d,公式如下:
d=αd1+βd2+γd3,(α+β+γ=1) (9)
表1仿真参数
Figure BDA0001813272500000103
第4.3、基于上述最终的欧氏距离进行K-Means聚类。
第5、相似度计算和Top-N推荐:
第5.1、相似度的计算通常只考虑了用户评分间的相似度,忽略了用户在自身属性间和项目属性间的相似度,所以利用余弦相似度分别在用户-用户属性矩阵、用户-项目属性总评分矩阵和用户-项目属性偏好矩阵上进行计算,得到的相似度分别为用户自身主观属性相似度simv(ui,uj)、用户总评分相似度simf′(ui,uj)和用户偏好相似度simp′(ui,uj)。故用户ui和uj的综合相似度的公式如下:
sim(ui,uj)=αsimv(ui,uj)+βsimf′(ui,uj)+γsimp′(ui,uj),
(α+β+γ=1) (10)
其中:相似度的各权重系数值和欧氏距离的各权重系数值取相同的数值。
以用户-用户属性矩阵为例,公式如下:
Figure BDA0001813272500000111
其中:
Figure BDA0001813272500000112
分别表示用户ui和uj自身属性gk的值;w表示用户一共有w个自身客观属性。
第5.2、通过综合相似度的计算得到目标用户的k近邻集(KN),即得到k个与目标用户相似度最高的用户。然后在近邻集中对用户未观看的电影进行预测评分,选出预测评分最高的前N个电影,也就是对用户进行的Top-N推荐,而用户ui在KN中对电影mj的预测评分的公式如下:
Figure BDA0001813272500000113
其中:
Figure BDA0001813272500000114
Figure BDA0001813272500000115
代表用户ui和uj的平均评分;sim(ui,uj)代表用户ui和uj的综合相似度;
Figure BDA0001813272500000116
代表用户ui对电影mj的评分。
实例1:
我们通过实验来验证本算法的正确以及有效性,并且通过与其相关的算法进行比较来验证算法的性能。本实验选择的是100K的MovieLens数据集,是由Minnesota大学的GroupLens研究团队所收集,其中文件u.data包括了943位用户对1682部电影的10万条评分以及时间戳。每个用户都至少有20条评分,评分的取值范围是整数1-5,取值越大,代表用户越喜欢该电影。本申请主要使用平均绝对误差(MAE)和F-Measure这两个评价指标来分析实验结果。
平均绝对误差(MAE)是用来评估用户对某个项目的预测评分和实际评分的偏差程度,MAE的值越小,表明偏差越小,推荐效果越好,公式如下:
Figure BDA0001813272500000121
其中:
Figure BDA0001813272500000122
Figure BDA0001813272500000123
分别表示用户ui对电影mj的实际评分和预测评分;T表示整个测试集。
F-Measure是用来调和准确率(Precision)和召回率(Recall)这两种算法的,F-Measure值越大,表明推荐算法的性能越好。准确率是指“推荐集中用户喜欢的项目数”占整个“推荐项目数”的比例;召回率是指“推荐集中用户喜欢的项目数”占所有“用户喜欢的项目数”的比例;公式如下:
Figure BDA0001813272500000124
Figure BDA0001813272500000125
F-Measure=2PR/P+R (16)
其中:R(u)表示为用户ui生成的推荐集;T(u)表示在测试集中,用户ui喜欢的项目集;Tu表示在测试集中,整个用户集。
本申请采用了5则交叉法,通过计算实验的平均值来验证本申请算法的有效性。首先是K-Means中聚类数目K的不同取值对MAE值的影响。因为本申请的参数比较多,为了避免各个参数间的相互影响,在对聚类数目K进行分析时,暂时先不使用时间函数。本次实验中,K的取值范围是从10到50,中间间隔为5,依据MAE值的变化,为K选出最佳值。从图3中我们可以看出,MAE的值先降低再升高,当MAE的值达到最小时,K的取值为35,因此,本实验中K-Means的聚类数为35。
其次是时间窗T和兴趣衰减系数T0的不同取值对MAE值的影响。根据下面的实验结果图6和图7可知,当近邻个数k的取值为30时,MAE的值达到最小,并且在Top-N推荐中,当推荐列表长度N取值为20时,F-Measure的值较高,说明本申请算法比较有效。
对于稳定期时间窗口T参数数值的确定,分别取兴趣衰减系数T0为10、30和50天,观察不同的兴趣衰减系数在不同的时间窗下,MAE值的变化趋势。从图4中我们很容易的了解到,MAE值的综合趋势都是先下降再上升,当兴趣衰减系数T0的值为10和30时,在T为4的时候MAE的值达到最小,而当T0的值为50时,在T为5的时候MAE的值达到最小,综合考虑后,将T的值设为4。
兴趣衰减系数T0的确定,是在T=4的取值情况下,观察不同的兴趣衰减系数对MAE值的影响趋势,结果如图5所示。当兴趣衰减系数T0的值为30时,MAE的值达到最小,故而T0的值为设定为30。
最后是本申请方法与常用方法的对比。常用的方法这里选取了使用传统的TF-IDF来构建用户-项目属性偏好矩阵和基于K-Means用户聚类的协同过滤算法(K-Means-UserCF)。是基于这三种方法来进行对比实验的,也是分别从指标MAE和F-Measure来进行比较的。
观察近邻个数k以5为递增的情况下,三种方法对应的MAE的变化趋势和比较。从图6中我们可以得到,本申请方法在近邻个数K为30的时候,MAE值达到最小,结果最佳,即推荐结果是最好的;传统TF-IDF方法在近邻个数K为35的时候,MAE值为最小,但本申请方法的MAE值始终低于传统TF-IDF方法,也就是说在TF-IDF方法中加入时间函数后,算法的性能得到了提升。同时,我们也可以看得出,本申请方法的MAE值也始终低于基于K-Means用户聚类的协同过滤算法(K-Means-UserCF)。
由于“召回率”和“精确率”这两个指标是相互制约的关系,所以通过F-Measure来找到这两个指标之间的一个平衡点。观察推荐列表长度N以5为递增的情况下,三种方法对应的F-Measure的变化趋势和比较,如图7所示。从图中我们可以很明显的看到,当推荐列表的长度逐渐增大时,本申请方法的优势也逐渐体现出来,当推荐列表的长度设为20的时候,本申请方法和基于传统TF-IDF来构建用户-项目属性偏好矩阵方法的F-Measure值达到最高;而基于K-Means用户聚类的协同过滤算法是在推荐列表长度为25时达到峰值。
综上所述,本申请的方法比其余的两种方法在平均绝对误差(MAE)和F-Measure上都有所提高。

Claims (1)

1.一种融合时间因素的用户偏好和距离加权的聚类方法,其特征在于该方法主要包括如下关键步骤:
第1、基本矩阵:
第1.1、对初始数据集进行处理,获得用户—用户属性矩阵和用户—项目评分矩阵;
第1.2、构建项目—项目属性矩阵,来表示电影包含的电影属性,记为F;
F的矩阵形式为:
Figure FDA0003100268460000011
其中:
Figure FDA0003100268460000012
代表电影mj包含项目特征属性gk
Figure FDA0003100268460000013
代表电影mj不包含项目特征属性gk
第1.3、通过对用户—项目评分矩阵和项目—项目属性矩阵进行计算,得到用户—项目属性总评分矩阵;
第2、用户偏好权重的计算:
第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵,该用户-项目矩阵R′的形式为:
Figure FDA0003100268460000014
其中:
Figure FDA0003100268460000015
代表用户ui对电影mj有评分;
Figure FDA0003100268460000016
代表用户ui对电影mj没有评分;
第2.2、根据TF-IDF方法来对上述得到的用户—项目矩阵进行计算,得到用户-项目属性偏好矩阵,该用户-项目属性偏好矩阵P的形式为:
Figure FDA0003100268460000021
其中:
Figure FDA0003100268460000022
代表用户ui对项目特征属性gk的偏好程度,计算公式如下:
Figure FDA0003100268460000023
其中:
Figure FDA0003100268460000024
代表用户ui观看有属性gk电影的总数;
Figure FDA0003100268460000025
代表用户ui看过的电影总数;
Figure FDA0003100268460000026
代表整个数据集中电影的总数;
Figure FDA0003100268460000027
代表整个数据集中含有属性gk电影的总数;
第3、TF-IDF方法的改进:
第3.1、根据遗忘曲线定义一个用户评价电影的时间衰减函数;
第3.2、根据用户兴趣的实际变化情况,定义时间窗T,加入到时间衰减函数中产生最终的遗忘函数;
第3.3、在TF-IDF方法的基础上融合最终的遗忘函数,改进用户偏好权重的计算,得到最终的用户—项目属性偏好矩阵,
最终的遗忘函数为:
Figure FDA0003100268460000028
其中:T表示稳定期时间窗口的大小;t表示一个时间差,即t=tnew-told-g,tnew是指用户现在的时间,told-g是指用户最后一次对包含属性g的电影的评分时间,以天为单位;
Figure FDA0003100268460000031
表示将t除以T的结果数值向下取整;T0表示用户兴趣衰减的衰减系数;
该用户—项目属性偏好矩阵P′的形式为:
Figure FDA0003100268460000032
其中:
Figure FDA0003100268460000033
代表使用改进的TF-IDF方法来计算用户ui对项目特征属性gk的偏好程度,计算公式如下:
Figure FDA0003100268460000034
其中:
Figure FDA0003100268460000035
代表经过时间因素处理后的用户ui观看含有属性gk电影的总数;
第4、欧氏距离的加权和K-Means聚类:
第4.1、分别对第1.1中的用户—用户属性矩阵,第1.3中的用户—项目属性总评分矩阵和第3.3中的最终的用户—项目属性偏好矩阵进行欧氏距离的计算;
第4.2、根据计算结果进行加权处理,得到加权后的综合欧氏距离;
第4.3、基于最终的欧氏距离进行K-Means聚类;
第5、相似度计算和Top-N推荐:
第5.1、同样分别对上述三个矩阵进行相似度计算并加权,
相似度的计算通常只考虑了用户评分间的相似度,忽略了用户在自身属性间和项目属性间的相似度,所以利用余弦相似度分别在用户-用户属性矩阵、用户-项目属性总评分矩阵和用户-项目属性偏好矩阵上进行计算,得到的相似度分别为用户自身主观属性相似度simv(ui,uj)、用户总评分相似度simf′(ui,uj)和用户偏好相似度simp′(ui,uj),故用户ui和uj的综合相似度的公式如下:
sim(ui,uj)=αsimv(ui,uj)+βsimf′(ui,uj)+γsimp′(ui,uj),
α+β+γ=1
其中:相似度的各权重系数值和欧氏距离的各权重系数值取相同的数值;
第5.2、对电影进行预测评分,并选择评分较高的前N个电影进行推荐,
通过综合相似度的计算得到目标用户的k近邻集KN,即得到k个与目标用户相似度最高的用户,然后在近邻集中对用户未观看的电影进行预测评分,选出预测评分最高的前N个电影,也就是对用户进行的Top-N推荐,而用户ui在KN中对电影mj的预测评分的公式如下:
Figure FDA0003100268460000041
其中:
Figure FDA0003100268460000042
Figure FDA0003100268460000043
代表用户ui和uj的平均评分;sim(ui,uj)代表用户ui和uj的综合相似度;
Figure FDA0003100268460000044
代表用户ui对电影mj的评分。
CN201811129955.1A 2018-09-27 2018-09-27 一种融合时间因素的用户偏好和距离加权的聚类方法 Active CN109241203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811129955.1A CN109241203B (zh) 2018-09-27 2018-09-27 一种融合时间因素的用户偏好和距离加权的聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811129955.1A CN109241203B (zh) 2018-09-27 2018-09-27 一种融合时间因素的用户偏好和距离加权的聚类方法

Publications (2)

Publication Number Publication Date
CN109241203A CN109241203A (zh) 2019-01-18
CN109241203B true CN109241203B (zh) 2021-08-31

Family

ID=65057026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811129955.1A Active CN109241203B (zh) 2018-09-27 2018-09-27 一种融合时间因素的用户偏好和距离加权的聚类方法

Country Status (1)

Country Link
CN (1) CN109241203B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902235B (zh) * 2019-03-06 2023-07-07 太原理工大学 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法
CN109902201A (zh) * 2019-03-08 2019-06-18 天津理工大学 一种基于cnn和bp神经网络的推荐方法
CN109884616B (zh) * 2019-03-13 2021-09-14 浙江吉利汽车研究院有限公司 一种雷达测量距离融合方法、装置及终端
CN111199422A (zh) * 2019-12-25 2020-05-26 浙江工商大学 融合时间衰减因子的改进lfm协同过滤方法
CN111460281B (zh) * 2020-02-27 2023-07-25 浙江口碑网络技术有限公司 信息推送的优化方法及装置、存储介质、终端
CN111831809A (zh) * 2020-07-17 2020-10-27 北京首汽智行科技有限公司 一种问题文本关键字提取方法
CN112380452A (zh) * 2021-01-14 2021-02-19 北京崔玉涛儿童健康管理中心有限公司 婴幼儿内容推荐中的用户兴趣收集方法、装置
CN113269609A (zh) * 2021-05-25 2021-08-17 中国联合网络通信集团有限公司 用户相似度的计算方法、计算系统、设备及存储介质
CN115809373B (zh) * 2023-02-06 2023-06-09 一智科技有限公司 一种智能推荐方法、系统和存储介质
CN116228282B (zh) * 2023-05-09 2023-08-11 湖南惟客科技集团有限公司 一种用户数据倾向的智能商品分销方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345517A (zh) * 2013-07-10 2013-10-09 北京邮电大学 模拟tf-idf相似性计算的协同过滤推荐算法
CN104063481A (zh) * 2014-07-02 2014-09-24 山东大学 一种基于用户实时兴趣向量的电影个性化推荐方法
CN106227866A (zh) * 2016-07-29 2016-12-14 武汉理工大学 一种基于数据挖掘的混合过滤电影推荐方法
CN106294758A (zh) * 2016-09-23 2017-01-04 华南师范大学 基于用户认知度变化的协同推荐方法
CN107391670A (zh) * 2017-07-21 2017-11-24 云南电网有限责任公司教育培训评价中心 一种融合协同过滤和用户属性过滤的混合推荐方法
CN107679239A (zh) * 2017-10-27 2018-02-09 天津理工大学 一种基于用户行为的个性化社区推荐方法
CN107885749A (zh) * 2016-09-30 2018-04-06 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN108132964A (zh) * 2017-11-23 2018-06-08 西北大学 一种基于用户对项目类评分的协同过滤方法
CN108256093A (zh) * 2018-01-29 2018-07-06 华南理工大学 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12032638B2 (en) * 2017-02-28 2024-07-09 Apple Inc. Enhanced search to generate a feed based on a user's interests

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103345517A (zh) * 2013-07-10 2013-10-09 北京邮电大学 模拟tf-idf相似性计算的协同过滤推荐算法
CN104063481A (zh) * 2014-07-02 2014-09-24 山东大学 一种基于用户实时兴趣向量的电影个性化推荐方法
CN106227866A (zh) * 2016-07-29 2016-12-14 武汉理工大学 一种基于数据挖掘的混合过滤电影推荐方法
CN106294758A (zh) * 2016-09-23 2017-01-04 华南师范大学 基于用户认知度变化的协同推荐方法
CN107885749A (zh) * 2016-09-30 2018-04-06 南京理工大学 本体语义扩展与协同过滤加权融合的工艺知识检索方法
CN107391670A (zh) * 2017-07-21 2017-11-24 云南电网有限责任公司教育培训评价中心 一种融合协同过滤和用户属性过滤的混合推荐方法
CN107679239A (zh) * 2017-10-27 2018-02-09 天津理工大学 一种基于用户行为的个性化社区推荐方法
CN108132964A (zh) * 2017-11-23 2018-06-08 西北大学 一种基于用户对项目类评分的协同过滤方法
CN108256093A (zh) * 2018-01-29 2018-07-06 华南理工大学 一种基于用户多兴趣及兴趣变化的协同过滤推荐算法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
"A Method of Concept Similarity Computation Based on Semantic Distance";Wenjie Li et al.;《Procedia Engineering》;20111231;第3854-3859页 *
"基于数据稀疏性和冷启动的个性化协同过滤推荐系统研究";马梦圆;《万方数据》;20160504;第1-33页 *
"基于用户偏好和项目属性的协同过滤推荐算法";姚平平等;《计算机系统应用》;20151231;第24卷(第7期);第15-21页 *
"基于用户社交网络的最短距离聚类算法";王均贤等;《天津理工大学学报》;20170430;第33卷(第2期);第48-52页 *
"基于用户评分和项目类偏好的协同过滤推荐算法";王宇飞等;《软件导刊》;20161231;第15卷(第12期);第25-29页 *
"融合时间因素和用户评分特性的协同过滤算法";曾安等;《计算机科学》;20170930;第44卷(第9期);第243-249页 *

Also Published As

Publication number Publication date
CN109241203A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109241203B (zh) 一种融合时间因素的用户偏好和距离加权的聚类方法
Zheng et al. A tourism destination recommender system using users’ sentiment and temporal dynamics
Luo et al. Personalized recommendation by matrix co-factorization with tags and time information
CN104317835B (zh) 视频终端的新用户推荐方法
Lu et al. Scalable news recommendation using multi-dimensional similarity and Jaccard–Kmeans clustering
CN107220365A (zh) 基于协同过滤与关联规则并行处理的精准推荐系统及方法
Jiao et al. A novel learning rate function and its application on the SVD++ recommendation algorithm
Sachan et al. A survey on recommender systems based on collaborative filtering technique
CN108334592A (zh) 一种基于内容与协同过滤相结合的个性化推荐方法
Lee et al. Dynamic item recommendation by topic modeling for social networks
Ambulgekar et al. A survey on collaborative filtering: tasks, approaches and applications
Duan et al. A hybrid intelligent service recommendation by latent semantics and explicit ratings
CN110059257B (zh) 基于评分修正的项目推荐方法
Xie et al. A probabilistic recommendation method inspired by latent Dirichlet allocation model
Chen et al. A fuzzy matrix factor recommendation method with forgetting function and user features
Soo Kim Text recommender system using user's usage patterns
CN108959184B (zh) 一种基于相似性和相似性可信度的协同过滤推荐算法及装置
Qin et al. Towards a personalized movie recommendation system: A deep learning approach
Madadipouya A location-based movie recommender system using collaborative filtering
Darvishy et al. New attributes for neighborhood-based collaborative filtering in news recommendation
CN108960954A (zh) 一种基于用户群行为反馈的内容推荐方法及推荐系统
Jaffali et al. Like-tasted user groups to predict ratings in recommender systems
Speciale et al. Recommendation Systems in Libraries: an Application with Heterogeneous Data Sources
Clement et al. Impact of recommendation engine on video-sharing platform-YouTube
Wang et al. BERT-based aggregative group representation for group recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20190118

Assignee: Anhui Jiufan Video Technology Co.,Ltd.

Assignor: TIANJIN University OF TECHNOLOGY

Contract record no.: X2023980054378

Denomination of invention: A clustering method that combines time factors with user preferences and distance weighting

Granted publication date: 20210831

License type: Common License

Record date: 20231227

EE01 Entry into force of recordation of patent licensing contract