CN108920647A

CN108920647A - 基于谱聚类的低秩矩阵填充top-n推荐方法

Info

Publication number: CN108920647A
Application number: CN201810713297.4A
Authority: CN
Inventors: 吴宣够; 周庆梅; 郑啸; 樊旭
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2018-11-30
Anticipated expiration: 2038-07-03
Also published as: CN108920647B

Abstract

本发明提供一种基于谱聚类的低秩矩阵填充TOP‑N推荐方法，涉及系统中的动态推荐方法分析领域，该方法通过为每个用户有效匹配子集满足低秩矩阵填充理论，实现在每个子集对应的子矩阵中进行矩阵填充和预测；本发明提供了有效跟踪用户对项目偏好记录的方法，该方法根据项目的分类标签，将用户稀疏的项目评分，映射为用户对一类项目的感兴趣程度；随后根据映射后的数据对用户进行子集的分配，该方法利用了项目的分类信息，解决了在分配用户子集时数据稀疏性对相似度计算产生的影响；基于低秩矩阵填充理论，对于一些不相关的项目列进行修剪，最后对满足低秩矩阵填充理论的子矩阵进行矩阵填充，根据填充预测后的项目评分情况，为用户产生Top‑N项目推荐列表。

Description

基于谱聚类的低秩矩阵填充TOP-N推荐方法

技术领域

本发明涉及系统中的动态推荐方法分析领域，尤其是一种基于谱聚类的低秩矩阵填充TOP-N推荐方法。

背景技术

互联网的迅速发展给人们带来了很多方便，但普遍的网络信息导致人们在网络上获取有用的信息更加困难。传统的信息检索可以解决用户的需求在一定程度上，但不能为用户提供个性化的服务。由于数据存储的成本不断下降处理，推荐系统逐渐普及到我们生活中很多领域。推荐系统是重要的解决信息过载问题的办法，可以帮助人们发现新事物并迅速作出有效决定。因此，推荐系统在因特网上因其巨大的商业价值被广泛使用。例如，网上卖家如淘宝和亚马逊，向我们推荐其他商品并通过仔细观察分析我们的购买记录提升他们的销售，在线视频网站如Netflix帮助成员找到他们最喜欢的电影来增加订阅量，社交网站如Facebook帮助我们与新朋友联系。推荐系统成为一些公司提高销售业务业绩的最有效途径，如Netflix 60％的DVD出租是根据个性化建议选择的。

推荐系统中常用的方法可以分为三种类型：基于内容的，协同过滤和混合推荐。其中，协同过滤是推荐系统中使用的最流行的技术之一。它与传统推荐技术相比具有一些优势，但是稀疏数据和冷启动使它仍然受到限制。基于模型的技术利用学习技术进行预测，但是往往需要花费很长时间来构建或更新预测模型，并需要调整一些参数来优化模型，当用户的评分数据很少时，可能不足以构建可靠的模型。基于内容的推荐根据用户过去感兴趣的项目的特征匹配相似项目推荐，缺点是新颖性不足，另外在构建用户相关的属性文件时可能涉及隐私也成为它的瓶颈。混合推荐结合两种或者两种以上不同技术进行推荐，避免单一算法在某方面的缺陷，成为推荐系统领域研究的热点，挑战是如何有效结合两种算法。

潜在因素模型在大规模推荐任务中取得了较好的性能，如近年来提出了各种基于矩阵分解的方法如最大边距矩阵分解MMMF，加权非负矩阵分解(WNNMF)，加权正则矩阵分解(WRMF)等。近年来，随着基于低秩矩阵填充理论的发展，矩阵填充为推荐系统开辟了一条新的技术途径。矩阵填充能够有效的针对低秩矩阵的大量缺失项进行精确恢复。虽然矩阵填充具有良好的矩阵缺失元素的填充功能，但实际推荐系统中存在低密度的用户评分数据。研究表明，很多商业推荐系统中可用的评分密度往往小于1％。这样低密度评分数据无法直接满足矩阵填充理论的要求。同时，个性化推荐服务的网站往往拥有以百万计的行或列的庞大用户-项目矩阵，以及数十亿条数据。如Netflix公司收集了20M以上的客户对80K电影超过五十亿的评分。

针对如此庞大的数据进行矩阵填充还存在高额计算复杂度的挑战。不同于矩阵分解，矩阵填充将缺失元素的预测作为一个凸优化问题进行求解，对于大型矩阵能够进行有效填充。但是由于现阶段系统中用户评分的数据非常稀疏，难以直接满足应用矩阵填充技术的条件。

发明内容

本发明目的在于提供一种基于谱聚类的低秩矩阵填充TOP-N推荐方法，目的在于针对传统相似度计量方式上的不足导致推荐准确度不高问题，提出评分矢量有效评估用户之间的相似性，将低秩矩阵填充技术应用到推荐系统中未知项目的评分预测或填充模块上，提高预测的精准度。

为达成上述目的，本发明提出如下技术方案：

一种基于谱聚类的低秩矩阵填充TOP-N推荐方法，包括以下步骤：

(1)建立训练数据库：包括用户行为数据库，即M个用户对N个项目的评分信息；项目属性数据库，即N个项目所属的|C|个类别信息，C＝{C₁,C₂,C₃,…C_k}，k为指定所属类别下标；

(2)根据训练数据库信息生成评分信息的待恢复矩阵和项目类别信息矩阵；

(3)提取用户评分信息的待恢复矩阵和项目类别信息矩阵之间的相关性，建立用户评分矢量，并进行归一化处理；

(4)根据归一化评分矢量基于图论的谱聚类算法对用户进行相似用户划分，得到用户分类集合；

(5)根据用户分类集合得到用户项目子矩阵，对用户项目子矩阵进行填充预测，生成用户-项目评分矩阵；

(6)对用户-项目评分矩阵降序排序，选取前N个最高评分对应的项目生成TOP-N推荐列表。

进一步的，定义步骤(2)中所述项目类别信息矩阵为I^N×|C|，所述的评分信息的待恢复矩阵为P^M×N，则：

I_jk∈I^N×|C| (1-1)

其中，I_jk∈[0,1](1≤j≤N，1≤k≤|C|)，当I_jk值为1时表示指定项目v_j包含C_k类别信号，I_jk值为0时表示指定项目v_j不包含C_k类别信号；

P_ij∈P^M×N (1-2)

其中，P_ij(1≤i≤M，1≤j≤N)表示目标用户u_i对指定项目v_j的偏好。

进一步的，定义步骤3)中用户评分矢量为则：

在评分矢量的基础上进一步进行归一化，得到归一化后的评分矢量

其中，1≤k≤|C|，1≤i≤M，1≤j≤N；为用户u_i对所有属于C_k类项目的评分总和，为用户u_i对C_k类项目的评分占该用户对所有项目评分总和的评分比，且为[0,1]的实数。

进一步的，所述步骤4)中基于图论的谱聚类算法对用户进行相似用户划分，将用户看成无向权值连接图G中的顶点V，各条边上的权值集合E为用户-类别评分矩阵中各用户行之间的距离，具体步骤如下：

(1.1)根据式(1-4)中归一化评分矢量将原始用户项目矩阵映射成M×|C|维的用户-类别评分矩阵；

(1.2)根据修正的余弦相似度公式计算用户之间的相似性，得到一个M×M维的相似度矩阵；

其中，1≤i≤M，1≤j≤M，且i≠j；l为项目类别信息下标，且1≤l≤|C|，C^*是两个用户u_i和u_j之间共同进行评分过的类集合；表示用户u_i对其已评级类的平均评分，表示用户u_j对其已评级类的平均评分；μ_i[l]表示用户u_i对所属于C_l类别信息的归一化评分矢量的模，μ_j[l]表示用户u_j对所属于C_l类别信息的归一化评分矢量的模；

(1.3)计算度矩阵D和拉普拉斯矩阵L，

L＝D-E (1-7)

其中，n为无向权值连接图G中的顶点个数，1≤n≤M；

归一化后得归一化拉普拉斯矩阵L_sym：

(1.4)通过L_sym的前K个最小特征值所对应的特征向量v₁,v₂,…,v_K，构造矩阵V；

V＝[v₁,v₂,…,v_K]∈R^n×K (1-9)

(1.5)将V中每一行看作K维空间中的一个向量，并使用K-means算法进行谱聚类，得到K个用户分类集合：U₁，U₂，...，U_K，进而得到K个用户项目子矩阵M₁，M₂，...，M_K。

进一步的，所述步骤5)中对用户项目子矩阵进行填充预测，生成用户-项目评分矩阵包括如下步骤：

(2.1)根据低秩矩阵填充理论，修剪零评分列，并进一步修剪掉评分率低于特定阈值的列来降低矩阵秩和提高矩阵密度，得到修剪后的子矩阵为M′₁，M′₂，…，M′_K；

(2.2)应用矩阵填充进行恢复填充预测，数学表达式如下：

subject to P_Ω(X′_i)＝M′_i (1-10)

其中，为低秩矩阵填充后的预测矩阵，X′_i为M′_i对应的低秩待填充预测矩阵，P_Ω为M′_i中评分为非零元素下标；

进一步的，根据步骤2.3)系统预(2.3)根据低秩矩阵填充后的子矩阵构建推荐系统预测用户-项目评分矩阵

进一步的，对一个给定矩阵中的元素进行有效预测，则其打分元素必须满足不等式(1-12)，即

m≥ca^6/5r log a (1-13)

其中，m为选取打分项的数目，c为常数，a＝max{M,N}，r为该矩阵的秩。

测用户-项目评分矩阵对每个用户的评分进行降序排列，选择前N个最高评分对应的项目生成推荐列表，推荐给相关用户。

由以上技术方案可知，本发明的技术方案提供了基于谱聚类的低秩矩阵填充TOP-N推荐方法，获得了如下有益效果：

(1)本发明相对于基于内容的推荐系统和方法，基于现有的用户评分信息，其无需收集用户的属性信息，数据来源简单普遍，不涉及用户的隐私信息保证了数据的可靠性。

(2)本发明相对于基于近邻的协同过滤推荐算法，提出了归一化评分矢量跟踪用户的偏好记录，减少评分稀疏对用户之间相似性计算的影响。

(3)本发明为了解决低评分密度矩阵计算用户相似度精度过低问题，使用的划分用户子集的谱聚类方法易于实现，能够识别任意形状的样本空间。

(4)本发明修剪了项目子矩阵中列评分密度小于阈值的列，较少不相关列对一类用户的影响，实现快速精确地推荐。

(5)本发明解决了矩阵填充无法直接应用在原始用户项目评分矩阵上的问题；使用用户划分子集的方式对每个子集分别进行矩阵填充预测，每个用户在预测模块的预测速度提高，且精度提升。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明的应用示意图；

图2是本发明的用户管理模块框架图；

图3是本发明的评分预测模块框架图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本发明主要提供一种分配用户子集的低秩矩阵填充方法，该方法通过为每个用户有效匹配子集满足低秩矩阵填充理论，实现在每个子集对应的子矩阵中进行矩阵填充和预测。

在本发明提出的推荐方法中，首先针对现有评分元素的稀疏性对相似用户计算产生的影响，建立基于项目类别信息的用户评分矢量，将原始的用户-项目评分矩阵映射成为不同类别用户评价矩阵，解决低评分密度矩阵计算用户相似度精度过低问题。其次，建立用户的无向权值连接图，利用谱聚类技术将项目分类矩阵进行子矩阵划分，并划分成若干个具有高相似用户的子矩阵。最后，通过矩阵修剪评分率较低的列，进而在子矩阵上利用矩阵填充技术实现用户评分预测，实现快速精确地推荐。

一方面，本发明提供了一个有效跟踪用户对项目偏好记录的方法，该方法根据项目的分类标签，将用户稀疏的项目评分，映射为用户对一类项目的感兴趣程度。随后根据映射后的数据对用户进行子集的分配，该方法利用了项目的分类信息，解决了在分配用户子集时数据稀疏性对相似度计算产生的影响；另一方面，对于一些不相关的项目列进行修剪，修剪的项目列对其他的项目列不产生任何影响；最后对满足低秩矩阵填充理论的子矩阵进行矩阵填充，根据填充预测后的项目评分情况，为用户产生Top-N项目推荐列表。

如图1所示，一种基于谱聚类的低秩矩阵填充TOP-N推荐算法，涉及用户行为数据：如对项目最直接的评分，和项目的类别信息或类型标签，如电影的分类信息有喜剧、动画、科幻等，音乐的类型标签有摇滚、电子、轻音乐等；输入所需的用户项目信息后，根据本发明提出的方法预测并生成推荐列表。

如图2和图3所示，实现本发明的推荐，主要包括基于谱聚类的用户管理模块和基于矩阵填充的评分预测模块，具体如以下：

(1)基于谱聚类的用户管理模块：

本发明首先需要一个训练数据库，包括用户行为数据库和项目属性数据库。用户行为数据库中，包含M个用户对N个项目的评分信息，评分值为0-5，0代表评分是未知的；项目属性数据库包含N个项目所属的|C|个类别信息，C＝{C₁,C₂,C₃,…C_k}，k为指定所属类别下标，,其中C₁,C₂,C₃,…C_k均为矢量，|C|表示类别信息的总数标量。

根据项目的类别信息生成一个项目类别信息矩阵，定义所述项目类别信息矩阵为I^N×|C|，则：

I_jk∈I^N×|C| (1-1)

根据训练库中的评分数据生成一个待恢复矩阵,定义所述的评分信息的待恢复矩阵为P^M×N，则：

P_ij∈P^M×N (1-2)

其中，P_ij(1≤i≤M，1≤j≤N)表示目标用户u_i对指定项目v_j的偏好；由于很多用户在线上时只是观看，不会特意标注喜好，因此P中大部分元素缺失。

本发明的目的就是根据已评分的项目信息来推测未知项的评分。

首先本发明需要提取用户之间的相关性，由于数据极其稀疏，任意两个用户之间共同评分项非常少，如果仅将用户未评分项视为0计算，则严重影响相关性的计算。本发明根据项目一般可以分|C|个类别，提出用户评分矢量表示如下：

由于两个用户对同一类电影的喜好程度不一样，甚至每个用户评分的项目数量千差万别，使用上面的评分矢量不能准确刻画用户偏好，则需要在评分矢量的基础上进一步进行归一化，得到归一化评分矢量

其次，本发明使用归一化评分矢量基于图论的谱聚类算法对用户进行相似用户划分，将用户看成无向权值连接图G中的顶点V，各条边上的权值集合E为用户-类别评分矩阵中各用户行之间的距离，具体处理过程步骤如下：

(1.1)根据归一化评分矢量将原始用户项目矩阵映射成M×|C|维的用户-类别评分矩阵。

(1.2)根据修正的余弦相似度公式计算用户之间的相似性，得到一个M×M维的相似度矩阵，记为e_ij；

其中，1≤i≤M，1≤j≤M，且i≠j；l为项目类别信息下标，且1≤l≤|C|，C^*是两个用户u_i和u_j之间共同进行评分过的类集合；表示用户u_i对其已评级类的平均评分，表示用户u_j对其已评级类的平均评分；μ_i[l]表示用户u_i对所属于C_l类别信息的归一化评分矢量的模，μ_j[l]表示用户u_j对所属于C_l类别信息的归一化评分矢量的模。

(1.3)计算度矩阵D和拉普拉斯矩阵L，

L＝D-E (1-7)

其中，n为无向权值连接图G中的顶点个数，1≤n≤M；

并对拉普拉斯矩阵L进行归一化后得归一化拉普拉斯矩阵L_sym；

(1.4)通过计算L_sym的前K个最小特征值所对应的特征向量v₁,v₂,…,v_K，构造矩阵V；

V＝[v₁,v₂,…,v_K]∈R^n×K (1-9)

(1.5)将V中每一行看作K维空间中的一个向量，并使用K-means算法进行谱聚类，即得到K个用户分类集合：U₁，U₂，...，U_K；

在这一步骤中，根据相似用户谱聚类，得到K个用户组集合作为输出U₁，U₂，...，U_K，对应的可以得到K个用户项目子矩阵M₁，M₂，...，M_K。在下一步骤中，通过对K个用户项目子矩阵进行填充预测。

(2)基于矩阵填充的评分预测模块：

基于现有的矩阵填充理论，应用矩阵填充恢复一个缺失元素矩阵该问题可以归结成求解矩阵秩最小化问题：

(P1)min rank(X)

Subject to X_ij＝M_ij(i,j)∈Ω (1-10)

其中，Ω对应于已知打分项坐标的集合；由于该问题是求稀疏矩阵的最小秩问题，因此可以转化为如下求其核范数问题：

(P2)min‖X‖_*

Subject to X_ij＝M_ij,(i,j)∈Ω (1-11)

其中，‖X‖_*为矩阵核范数，即σ_i是矩阵X的奇异值；因为核范数为凸函数，因此问题(P2)可以有效求解。

此外研究现有技术表明：矩阵填充的重构误差取决于矩阵的秩与打分率，如果要对一个给定矩阵中的元素进行有效预测，则其打分元素必须满足不等

式：m≥ca^6/5r log a (1-12)

其中，m为选取打分项的数目，c为常数,a＝max{n₁,n₂}，r为该矩阵的秩；除此之外，还必须考虑打分元素的选取策略，上述为均匀随机打分情况下的选取数据量。

因此，根据上述理论，根据低秩矩阵填充理论，矩阵中整行整列缺失的元素不能通过矩阵填充被恢复，对其他元素的恢复不会产生影响；因此本发明实施例中修剪零评分列，并进一步修剪掉评分率低于特定阈值的列来降低矩阵秩和规模。

修剪后的子矩阵为M′₁,M′₂,…,M′_K，对M′₁,M′₂,…,M′_K应用矩阵填充进行恢复填充预测，数学表达式如下：

subject to P_Ω(X′_i)＝M′_i (1-13)

再根据低秩矩阵填充后得到的子矩阵构建推荐系统预测用户-项目评分矩阵

并且，对一个给定矩阵中的元素进行有效预测，则其打分元素满足上述不等式(1-12)，即

m≥ca^6/5r log a (1-13)

最后，根据低秩矩阵填充后的子矩阵构建最终推荐系统预测用户-项目评分矩阵对每个用户的评分进行降序排列，选择前N个最高评分对应的项目生成推荐列表TOP-N，推荐给相关用户，完成推荐。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，包括以下步骤：

(1)建立训练数据库：包括用户行为数据库，即M个用户对N个项目的评分信息；项目属性数据库，即N个项目所属的|C|个类别信息，C＝{C₁，C₂，C₃，…C_k}，k为指定所属类别下标；

2.根据权利要求1所述的基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，定义步骤(2)中所述项目类别信息矩阵为I^N×|C|，所述的评分信息的待恢复矩阵为P^M×N，则：

I_jk∈I^N×|C| (1-1)

其中，I_jk∈[0，1](1≤j≤N，1≤k≤|C|)，当I_jk值为1时表示指定项目v_j包含C_k类别信号，I_jk值为0时表示指定项目v_j不包含C_k类别信号；

P_ij∈P^M×N (1-2)

3.根据权利要求2所述的基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，定义步骤3)中用户评分矢量为则：

其中，1≤k≤|C|，1≤i≤M，1≤j≤N；为用户u_i对所有属于C_k类项目的评分总和，为用户u_i对C_k类项目的评分占该用户对所有项目评分总和的评分比，且为[0，1]的实数。

4.根据权利要求3所述的基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，步骤4)中基于图论的谱聚类算法对用户进行相似用户划分，将用户看成无向权值连接图G中的顶点V，各条边上的权值集合E为用户-类别评分矩阵中各用户行之间的距离，具体步骤如下：

(1.3)计算度矩阵D和拉普拉斯矩阵L，

L＝D-E (1-7)

其中，n为连接图G中的顶点个数，1≤n≤M；

归一化后得归一化的拉普拉斯矩阵L_sym：

(1.4)通过L_sym的前K个最小特征值所对应的特征向量v₁，v₂，…，v_K，构造矩阵V；

V＝[v₁，v₂，…，v_K]∈R^n×K (1-9)

5.根据权利要求4所述的基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，步骤5)中对用户项目子矩阵进行填充预测，生成用户-项目评分矩阵包括如下步骤：

(2.2)应用矩阵填充进行恢复填充预测，数学表达式如下：

subject to P_Ω(X′_i)＝M′_i (1-10)

其中，为低秩矩阵填充后的预测矩阵，X′_i为M_i′对应的低秩待填充预测矩阵，P_Ω为M_i′中评分为非零元素下标；

(2.3)根据低秩矩阵填充后的子矩阵构建推荐系统预测用户-项目评分矩阵X：

6.根据权利要求5所述的基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，对一个给定矩阵中的元素进行有效预测，则其打分元素必须满足不等式(1-12)，即

m≥ca^6/5r log a (1-12)

其中，m为选取打分项的数目，c为常数，a＝max{M，N}，r为该矩阵的秩。

7.根据权利要求5所述的基于谱聚类的低秩矩阵填充TOP-N推荐方法，其特征在于，根据步骤2.3)系统预测用户-项目评分矩阵对每个用户的评分进行降序排列，选择前N个最高评分对应的项目生成推荐列表，推荐给相关用户。