CN109241203B

CN109241203B - 一种融合时间因素的用户偏好和距离加权的聚类方法

Info

Publication number: CN109241203B
Application number: CN201811129955.1A
Authority: CN
Inventors: 李文杰; 薛花; 张德干
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2021-08-31
Anticipated expiration: 2038-09-27
Also published as: CN109241203A

Abstract

一种融合时间因素的用户偏好和距离加权的聚类方法，通过引入由用户基本客观特征构造的用户—用户属性矩阵来缓解用户冷启动问题，而稀疏性问题的改进主要是通过引入项目特征，由于项目的特征可以从内容的方面来体现用户偏好，从而能够达到减少矩阵的维数；将项目特征引入到用户—项目评分来得到小维数的用户—项目属性总评分矩阵；用TF‑IDF算法构建用户—项目属性偏好矩阵时引入项目特征，同时考虑用户兴趣随时间漂移对用户偏好的影响；基于以上的三个矩阵来得到加权后欧氏距离，然后利用K‑Means算法进行聚类。本方法是以电影的推荐为例，在MovieLens数据集上进行的实验结果表明，与其他相关的算法相比，该方法具有较好的推荐质量和性能。

Description

一种融合时间因素的用户偏好和距离加权的聚类方法

技术领域

本发明涉及个性化推荐算法，具体提供一种融合了时间因素的用户偏好和距离加权的聚类方法。

背景技术

近年来，随着信息技术和Web2.0的发展，互联网的信息出现了前所未有的暴涨，问题也随之而来，主要包括信息的过载问题和用户不能准确选择相关信息的问题，而推荐系统是克服信息过载问题的有效工具之一。推荐系统的核心是设计推荐算法，所以在学术界中，提出了各种各样的推荐算法，目前主要使用的推荐算法包括有基于内容的推荐算法、组合推荐算法和协同过滤推荐算法等。

为了使用户能够合理的利用并且快速的找到需要的有用信息，首先要做的就是信息的过滤和分类，所以最受欢迎的推荐算法仍然是协同过滤，而且在互联网的各个领域中体现出了实际的应用价值。随着对协同过滤推荐算法的不断深入研究，问题也慢慢暴露出来，比如冷启动问题、数据稀疏性问题、扩展性问题、推荐效率和准确性问题，以及用户兴趣随时间改变的问题等，如何更好地解决这些问题已经成为了当前研究的热点。

协同过滤推荐算法是当下应用最广泛的推荐技术，主要是依据用户的历史行为来发现其偏好，针对不同的偏好分别来预测用户可能感兴趣的相似商品。然而，在传统的协同过滤推荐算法中，用户冷启动和数据稀疏性的问题一直都是最主要的问题，这将直接影响推荐的质量和性能，一些学者针对以上存在的问题也提出了改善的方法。

王宏杰等人提出一种根据聚类精度来调节特征权重的K-Means聚类算法，以提升聚类的准确性[1]。何明等人提出了基于用户—项目评分矩阵与项目类型来构建用户偏好矩阵，然后用SlopeOne算法进行填充，用来缓减数据稀疏性问题[2]。曾安等人提出了一种由融合时间因素和用户—项目评分来构建用户偏好矩阵的协同过滤算法，来改善推荐质量[3]。

目前的算法主要是通过利用用户—项目评分矩阵来进行欧氏距离的计算，而忽视了用户的基本客观特征和通过使用项目同一属性的个数来体现用户的主观兴趣，以及用户兴趣随时间迁移而改变的问题。

[1]王宏杰，师彦文.结合初始中心优化和特征加权的K-Means聚类算法[J].计算机科学，2017，44(b11)：457-459

[2]何明，孙望，肖润，等.一种融合聚类与用户兴趣偏好的协同过滤推荐算法[J].计算机科学，2017，44(b11)：391-396

[3]曾安，高成思，徐小强.融合时间因素和用户评分特性的协同过滤算法[J].计算机科学，2017，44(9)：243-249

【发明内容】

本发明的目的是解决原有协同过滤推荐算法中的用户冷启动问题和数据稀疏性问题，在现有的算法基础上进行优化改进，设计了一种融合了时间因素的用户偏好和距离加权的聚类方法。该方法通过数据的预处理得到用户—用户属性矩阵和用户—项目属性总评分矩阵，分别计算其对应的欧氏距离；同时依据艾宾浩斯遗忘曲线来构建时间衰减函数，定义稳定期时间窗T，将时间衰减函数与时间窗相结合，形成新的遗忘函数；利用融合了遗忘函数的TF-IDF方法来构建用户—项目属性偏好矩阵，并计算其欧氏距离；将以上三个欧氏距离进行加权，得到综合的欧氏距离，然后用K-Means进行聚类并预测评分和推荐；最后在MovieLens数据集上进行实验，从MAE、F-Measure这两个指标来验证本方法的合理性和有效性。

本发明提供的一种融合时间因素的用户偏好和距离加权的聚类方法主要包括如下关键步骤：

第1、基本矩阵：

第1.1、对初始数据集进行处理，获得用户—用户属性矩阵和用户—项目评分矩阵；

第1.2、构建项目—项目属性矩阵，来表示电影包含的电影属性；

第1.3、通过对用户-项目评分矩阵和项目—项目属性矩阵进行计算，得到用户—项目属性总评分矩阵；

第2、用户偏好权重的计算：

第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵，由值0和1来代表一部电影是否包含某个电影属性；

第2.2、然后根据TF-IDF方法来对上述得到的用户—项目矩阵进行计算，得到用户-项目属性偏好矩阵；

第3、TF-IDF方法的改进：

第3.1、根据遗忘曲线定义一个用户评价电影的时间衰减函数；

第3.2、根据用户兴趣的实际变化情况，定义时间窗T，加入到时间衰减函数中得到最终的遗忘函数；

第3.3、在TF-IDF方法的基础上融合最终的遗忘函数，改进用户偏好权重的计算，得到最终的用户-项目属性偏好矩阵；

第4、欧氏距离的加权和K-Means聚类：

第4.1、分别对第1.1中的用户—用户属性矩，第1.3中的用户—项目属性总评分矩阵和第3.3中的最终的用户—项目属性偏好矩阵进行欧氏距离的计算；

第4.2、根据计算结果进行加权处理，得到加权后的综合欧氏距离；

第4.3、基于上述最终的欧氏距离进行K-Means聚类；

第5、相似度计算和Top-N推荐：

第5.1、同样分别对上述三个矩阵进行相似度计算并加权；

第5.2、对电影进行预测评分，并选择评分较高的前N个电影进行推荐。

本发明的优点和积极效果是：

本方法主要设计了一种融合时间因素的用户偏好和距离加权的聚类方法，该方法是基于K-Means聚类算法的。用户的喜好不仅可以通过评分来体现，而且也可以通过用户自身的特征和用户对同一属性电影观看的次数来表现。因此，本申请提出了一种以加权后的距离为基准的K-Means聚类算法来进行聚类，即对两个用户之间的客观特征、对同一属性电影的总评分和融合了时间因素的用户偏好的欧式距离进行的加权，来解决传统协同过滤算法中的用户冷启动和数据稀疏性的问题。而融合了时间因素的用户偏好就是通过用户观看同一属性电影的次数来表现用户对某种类型电影的喜欢程度，是由TF-IDF算法和加入了时间窗的时间函数共同构建的，同时，时间窗也解决了用户兴趣迁移的问题。

附图说明

图1是艾宾浩斯遗忘曲线；

图2是整个算法的流程；

图3是K-Means中聚类数目K对MAE值的影响；

图4是时间窗T对MAE值的影响；

图5是兴趣衰减系数T₀对MAE值的影响；

图6是近邻个数k对MAE值的影响；

图7是推荐列表长度N对F-Measure值的影响。

具体实施方式

本发明设计的方法基于TF-IDF算法和K-Means聚类，在计算用户偏好权重中，利用了TF-IDF算法，来得到目标用户对某一特征属性的偏好程度。艾宾浩斯遗忘曲线如图1所示，根据其来定义时间函数，并通过加入时间窗来缓减兴趣的波动，最后将其和TF-IDF算法相结合，得到在时间影响的情况下，用户的偏好程度。从用户的客观特征、用户对包含某一属性电影的总评分和由上面的到的用户的偏好这三个方面来计算其对应的欧氏距离，然后进行加权，得到综合的欧氏距离。

在上述基础上，利用K-Means来聚类。根据聚类结果，在相应的类中计算目标用户的综合相似度，并对目标用户未观看的电影进行预测评分，然后从中选取评分较高的电影进行推荐。

参见附图2，本发明方法主要包括如下关键步骤：

第1、基本矩阵：

第1.1、通过对初始数据集进行处理，获得用户-用户属性矩阵和用户-项目评分矩阵，分别将其对应的矩阵记为V和R，V的形式如下：

其中：k代表用户属性的个数，用户的属性即用户的ID，性别，年龄段，职业等；

代表用户u_i在其自身的客观特征属性g_k上的值。

R的形式如下：

其中：

代表用户u_i对电影m_j的评分，评分的值域为[0,1,2,3,4,5]。

第1.2、构建项目-项目属性矩阵，来表示电影包含的电影属性，记为F。

F的矩阵形式为：

其中：

代表电影m_j包含项目特征属性g_k；

代表电影m_j不包含项目特征属性g_k。

第1.3、通过对用户-项目评分矩阵和项目-项目属性矩阵进行计算，得到用户-项目属性总评分矩阵，记为F′。

F′的矩阵形式为：

其中：

代表用户u_i对包含特征属性g_k电影的总评分，

计算公式如下：

第2、用户偏好权重的计算：

第2.1、对用户-项目评分矩阵R进行处理得到用户-项目矩阵R′，由值0和1来代表一部电影是否包含某个电影属性。

R′的矩阵形式为：

其中：

代表用户u_i对电影m_j有评分；

代表用户u_i对电影m_j没有评分。

第2.2、然后根据TF-IDF方法来对上述得到的用户-项目矩阵进行计算，得到用户-项目属性偏好矩阵记为P。

P的矩阵形式为：

其中：

代表用户u_i对项目特征属性g_k的偏好程度，计算公式如下：

其中：

代表用户u_i观看有属性g_k电影的总数；

代表用户u_i看过的电影总数；

代表整个数据集中电影的总数；

代表整个数据集中含有属性g_k电影的总数。

第3、TF-IDF方法的改进：

第3.1、用户的兴趣会随着时间的改变而发生变化。经过研究，德国心理学家艾宾浩斯(H.Ebbinghaus)发现了人类记忆的部分遗忘规律。最初会以很快的速度被遗忘，而后随着时间的推移其遗忘速度才会减慢下来，呈现出非线性的遗忘规律，而用户对历史观看行为的遗忘也符合该非线性的遗忘规律，遗忘曲线如图1所示，所以定义用户评价电影的时间衰减函数为：

其中：t表示一个时间差，即t＝t_new-t_old-g，t_new是指用户现在的时间，t_old-g是指用户最后一次对包含属性g的电影的评分时间，以天为单位；T₀表示用户兴趣衰减的衰减系数。

第3.2、在现实的生活中，用户的兴趣通常不会每时每刻都在变化，而是在一定的时间内保持不变，比如用户在对一部电影进行评分后，其影响力不会马上开始衰减，一般会保持几天，而后才开始进行衰减，衰减后其影响力又会保持几天不变。

因此，定义稳定期时间窗T，即在稳定期内用户在对电影进行评分后的影响力保持不变，故最终的遗忘函数为：

其中：T表示稳定期时间窗口的大小；t表示一个时间差，即t＝t_new-t_old-g，t_new是指用户现在的时间，t_old-g是指用户最后一次对包含属性g的电影的评分时间，以天为单位；

表示将t除以T的结果数值向下取整；T₀表示用户兴趣衰减的衰减系数。

第3.3、在TF-IDF方法的基础上融合最终的遗忘函数，改进用户偏好权重的计算，得到最终的用户-项目属性偏好矩阵P′。

P′的矩阵形式为：

其中：

代表使用改进的TF-IDF方法来计算用户u_i对项目特征属性g_k的偏好程度，计算公式如下：

其中：

代表经过时间因素处理后的用户u_i观看含有属性g_k电影的总数。

第4、欧氏距离的加权和K-Means聚类：

第4.1、分别对第1.1中的用户-用户属性矩阵，第1.3中的用户-项目属性总评分矩阵和第3.3中的最终的用户-项目属性偏好矩阵进行欧氏距离的计算，对应的公式如下：

两个用户u_i和u_j加权的欧式距离为d，公式如下：

d＝αd₁+βd₂+γd₃，(α+β+γ＝1) (9)

表1仿真参数

第4.3、基于上述最终的欧氏距离进行K-Means聚类。

第5、相似度计算和Top-N推荐：

第5.1、相似度的计算通常只考虑了用户评分间的相似度，忽略了用户在自身属性间和项目属性间的相似度，所以利用余弦相似度分别在用户-用户属性矩阵、用户-项目属性总评分矩阵和用户-项目属性偏好矩阵上进行计算，得到的相似度分别为用户自身主观属性相似度sim_v(u_i,u_j)、用户总评分相似度sim_f′(u_i,u_j)和用户偏好相似度sim_p′(u_i,u_j)。故用户u_i和u_j的综合相似度的公式如下：

sim(u_i,u_j)＝αsim_v(u_i,u_j)+βsim_f′(u_i,u_j)+γsim_p′(u_i,u_j)，

(α+β+γ＝1) (10)

其中：相似度的各权重系数值和欧氏距离的各权重系数值取相同的数值。

以用户-用户属性矩阵为例，公式如下：

其中：

分别表示用户u_i和u_j自身属性g_k的值；w表示用户一共有w个自身客观属性。

第5.2、通过综合相似度的计算得到目标用户的k近邻集(KN)，即得到k个与目标用户相似度最高的用户。然后在近邻集中对用户未观看的电影进行预测评分，选出预测评分最高的前N个电影，也就是对用户进行的Top-N推荐，而用户u_i在KN中对电影m_j的预测评分的公式如下：

其中：

和

代表用户u_i和u_j的平均评分；sim(u_i,u_j)代表用户u_i和u_j的综合相似度；

代表用户u_i对电影m_j的评分。

实例1：

我们通过实验来验证本算法的正确以及有效性，并且通过与其相关的算法进行比较来验证算法的性能。本实验选择的是100K的MovieLens数据集，是由Minnesota大学的GroupLens研究团队所收集，其中文件u.data包括了943位用户对1682部电影的10万条评分以及时间戳。每个用户都至少有20条评分，评分的取值范围是整数1-5，取值越大，代表用户越喜欢该电影。本申请主要使用平均绝对误差(MAE)和F-Measure这两个评价指标来分析实验结果。

平均绝对误差(MAE)是用来评估用户对某个项目的预测评分和实际评分的偏差程度，MAE的值越小，表明偏差越小，推荐效果越好，公式如下：

其中：

和

分别表示用户u_i对电影m_j的实际评分和预测评分；T表示整个测试集。

F-Measure是用来调和准确率(Precision)和召回率(Recall)这两种算法的，F-Measure值越大，表明推荐算法的性能越好。准确率是指“推荐集中用户喜欢的项目数”占整个“推荐项目数”的比例；召回率是指“推荐集中用户喜欢的项目数”占所有“用户喜欢的项目数”的比例；公式如下：

F-Measure＝2PR/P+R (16)

其中：R(u)表示为用户u_i生成的推荐集；T(u)表示在测试集中，用户u_i喜欢的项目集；T_u表示在测试集中，整个用户集。

本申请采用了5则交叉法，通过计算实验的平均值来验证本申请算法的有效性。首先是K-Means中聚类数目K的不同取值对MAE值的影响。因为本申请的参数比较多，为了避免各个参数间的相互影响，在对聚类数目K进行分析时，暂时先不使用时间函数。本次实验中，K的取值范围是从10到50，中间间隔为5，依据MAE值的变化，为K选出最佳值。从图3中我们可以看出，MAE的值先降低再升高，当MAE的值达到最小时，K的取值为35，因此，本实验中K-Means的聚类数为35。

其次是时间窗T和兴趣衰减系数T₀的不同取值对MAE值的影响。根据下面的实验结果图6和图7可知，当近邻个数k的取值为30时，MAE的值达到最小，并且在Top-N推荐中，当推荐列表长度N取值为20时，F-Measure的值较高，说明本申请算法比较有效。

对于稳定期时间窗口T参数数值的确定，分别取兴趣衰减系数T₀为10、30和50天，观察不同的兴趣衰减系数在不同的时间窗下，MAE值的变化趋势。从图4中我们很容易的了解到，MAE值的综合趋势都是先下降再上升，当兴趣衰减系数T₀的值为10和30时，在T为4的时候MAE的值达到最小，而当T₀的值为50时，在T为5的时候MAE的值达到最小，综合考虑后，将T的值设为4。

兴趣衰减系数T₀的确定，是在T＝4的取值情况下，观察不同的兴趣衰减系数对MAE值的影响趋势，结果如图5所示。当兴趣衰减系数T₀的值为30时，MAE的值达到最小，故而T₀的值为设定为30。

最后是本申请方法与常用方法的对比。常用的方法这里选取了使用传统的TF-IDF来构建用户-项目属性偏好矩阵和基于K-Means用户聚类的协同过滤算法(K-Means-UserCF)。是基于这三种方法来进行对比实验的，也是分别从指标MAE和F-Measure来进行比较的。

观察近邻个数k以5为递增的情况下，三种方法对应的MAE的变化趋势和比较。从图6中我们可以得到，本申请方法在近邻个数K为30的时候，MAE值达到最小，结果最佳，即推荐结果是最好的；传统TF-IDF方法在近邻个数K为35的时候，MAE值为最小，但本申请方法的MAE值始终低于传统TF-IDF方法，也就是说在TF-IDF方法中加入时间函数后，算法的性能得到了提升。同时，我们也可以看得出，本申请方法的MAE值也始终低于基于K-Means用户聚类的协同过滤算法(K-Means-UserCF)。

由于“召回率”和“精确率”这两个指标是相互制约的关系，所以通过F-Measure来找到这两个指标之间的一个平衡点。观察推荐列表长度N以5为递增的情况下，三种方法对应的F-Measure的变化趋势和比较，如图7所示。从图中我们可以很明显的看到，当推荐列表的长度逐渐增大时，本申请方法的优势也逐渐体现出来，当推荐列表的长度设为20的时候，本申请方法和基于传统TF-IDF来构建用户-项目属性偏好矩阵方法的F-Measure值达到最高；而基于K-Means用户聚类的协同过滤算法是在推荐列表长度为25时达到峰值。

综上所述，本申请的方法比其余的两种方法在平均绝对误差(MAE)和F-Measure上都有所提高。

Claims

1.一种融合时间因素的用户偏好和距离加权的聚类方法，其特征在于该方法主要包括如下关键步骤：

第1、基本矩阵：

第1.2、构建项目—项目属性矩阵，来表示电影包含的电影属性，记为F；

F的矩阵形式为：

其中：

代表电影m_j包含项目特征属性g_k；

代表电影m_j不包含项目特征属性g_k；

第1.3、通过对用户—项目评分矩阵和项目—项目属性矩阵进行计算，得到用户—项目属性总评分矩阵；

第2、用户偏好权重的计算：

第2.1、对用户—项目评分矩阵进行处理得到用户—项目矩阵，该用户-项目矩阵R′的形式为：

其中：

代表用户u_i对电影m_j有评分；

代表用户u_i对电影m_j没有评分；

第2.2、根据TF-IDF方法来对上述得到的用户—项目矩阵进行计算，得到用户-项目属性偏好矩阵，该用户-项目属性偏好矩阵P的形式为：

其中：

代表用户u_i对项目特征属性g_k的偏好程度，计算公式如下：

其中：

代表用户u_i观看有属性g_k电影的总数；

代表用户u_i看过的电影总数；

代表整个数据集中电影的总数；

代表整个数据集中含有属性g_k电影的总数；

第3、TF-IDF方法的改进：

第3.2、根据用户兴趣的实际变化情况，定义时间窗T，加入到时间衰减函数中产生最终的遗忘函数；

第3.3、在TF-IDF方法的基础上融合最终的遗忘函数，改进用户偏好权重的计算，得到最终的用户—项目属性偏好矩阵，

最终的遗忘函数为：

表示将t除以T的结果数值向下取整；T₀表示用户兴趣衰减的衰减系数；

该用户—项目属性偏好矩阵P′的形式为：

其中：

其中：

代表经过时间因素处理后的用户u_i观看含有属性g_k电影的总数；

第4、欧氏距离的加权和K-Means聚类：

第4.1、分别对第1.1中的用户—用户属性矩阵，第1.3中的用户—项目属性总评分矩阵和第3.3中的最终的用户—项目属性偏好矩阵进行欧氏距离的计算；

第4.3、基于最终的欧氏距离进行K-Means聚类；

第5、相似度计算和Top-N推荐：

第5.1、同样分别对上述三个矩阵进行相似度计算并加权，

相似度的计算通常只考虑了用户评分间的相似度，忽略了用户在自身属性间和项目属性间的相似度，所以利用余弦相似度分别在用户-用户属性矩阵、用户-项目属性总评分矩阵和用户-项目属性偏好矩阵上进行计算，得到的相似度分别为用户自身主观属性相似度sim_v(u_i,u_j)、用户总评分相似度sim_f′(u_i,u_j)和用户偏好相似度sim_p′(u_i,u_j)，故用户u_i和u_j的综合相似度的公式如下：

sim(u_i,u_j)＝αsim_v(u_i,u_j)+βsim_f′(u_i,u_j)+γsim_p′(u_i,u_j)，

α+β+γ＝1

其中：相似度的各权重系数值和欧氏距离的各权重系数值取相同的数值；

第5.2、对电影进行预测评分，并选择评分较高的前N个电影进行推荐，

通过综合相似度的计算得到目标用户的k近邻集KN，即得到k个与目标用户相似度最高的用户，然后在近邻集中对用户未观看的电影进行预测评分，选出预测评分最高的前N个电影，也就是对用户进行的Top-N推荐，而用户u_i在KN中对电影m_j的预测评分的公式如下：

其中：

和

代表用户u_i对电影m_j的评分。