CN106294447A

CN106294447A - 一种基于双聚类填充的协同过滤方法

Info

Publication number: CN106294447A
Application number: CN201510282397.2A
Authority: CN
Inventors: 汪家升; 宋宏; 周晓锋; 郝胜轩; 陈喆
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2015-05-28
Filing date: 2015-05-28
Publication date: 2017-01-04

Abstract

本发明涉及一种基于双聚类填充的协同过滤方法。包括基于双聚类的缺失项填充：对于每个缺失项在整个原始评分矩阵中找出所有包含该缺失项的子矩阵，计算所有子矩阵的平均平方残差H_min(m,n)，根据平均平方残差最小的子矩阵估计缺失项的值；基于用户的协同过滤推荐：分别赋予原始数据和填充数据以不同的可靠性权重，根据所述可靠性权重计算目标用户和其他用户之间的相似度，将与目标用户最相似度最高的若干个用户的集合作为目标用户的最近邻集合，根据目标用户的最近邻集合的评分信息预测目标用户对商品的评分；针对每个用户，向其推荐评分最高的若干个商品。本发明引入了可靠性矩阵区分真实评分项和填充项改进相似度函数及预测评分函数，改善了评分矩阵数据稀疏性带来的影响。

Description

一种基于双聚类填充的协同过滤方法

技术领域

本发明属于协同过滤推荐领域，具体涉及一种基于双聚类填充的协同过滤方法。

背景技术

随着因特网和电子商务的迅猛发展，网站的信息急剧增加，人们想要从海量的数据中快速定位到自己的需要的信息变得愈加困难。人们身处数据的海洋中却仍然承受着信息的匮乏，信息超载的现象越来越加严重。在此背景下个性化推荐系统日益受到重视。

数据稀疏性是协同过滤面临的最大挑战，在实际的商业推荐系统中，用户和项目的数量十分的庞大，而用户往往只在很少的项目上有评分记录，从而导致实际的评分矩阵非常的稀疏，通常商业推荐系统的评价矩阵稀疏度超过99％以上。在评分矩阵数据稀疏的情况下用户共同标注的项目数非常少，从而导致对于目标用户找不到足够而有效的最近邻居集合进而影响推荐质量。针对数据稀疏性问题，本发明提出了基于双聚类填充的协同过滤算法。算法首先对评分矩阵中的缺失值应用双聚类算法进行填充，经过填充后评分矩阵的稠密度增加，并引入了可靠性矩阵以区分原始值和填充值。之后结合基于用户的协同过滤算法对目标用户和目标项目进行预测评分。

推荐技术中基本分为两类：基于记忆的和基于模型的。其中基于模型的协调过滤方法采用机器学习算法或其他技术学得到一个模型，运行时只需要预计算模型就能进行预测。基于记忆的技术则直接通过保存在内存中的评分数据进行计算直接得到推荐结果。基于记忆的方法由于使用全部数据能获得较基于模型的方法更高的推荐精度，但是由于计算量巨大因此会遇到可扩展性问题。

基于记忆的技术中分为基于用户的协调过滤和基于项目的协调过滤，基于项目的协调过滤首先构建一个项目间相似度矩阵，运行时通过确定与目标项目最相似的项目并计算目标用户对这些近邻的物品的评分的加权总和得到目标用户对目标项目的评分。基于用户的协同过滤则是首先查找和目标用户最相似度额相似邻居用户集合，然后根据相似邻居用户集合对项目的的评分预测目标用户对目标项目的评分。基于项目的协调过滤在大数量级时推荐速度很快，但是推荐精度不如基于用户的协调过滤方法高，基于用户的协调过滤方法能获得较高的推荐准确度。

在协同过滤算法由于不需要考虑项目的内容、易于实现等特点被广泛应用于电影推荐、音乐推荐以及电子商务等领域。协同过滤的原理是首先为目标用户找出一组与之偏好一致的邻居用户集合,然后对邻居用户进行分析,把邻居用户感兴趣的项目推荐给目标用户。如今许多大型网站如亚马逊、豆瓣FM等都应用了协同过滤技术为用户提供个性化服务。

传统基于用户协同过滤算法是基于这样的假设：如果用户对一些项目的评分相似，那么他们的兴趣就是相似的，因此这些用户对其他项目的评分也会相似。通过对目标用户计算查找其相似邻居集合，并根据近邻集合对目标用户推荐。算法包含两个部分：

(1)相似度函数：常用的相似度计算函数有余弦相似度、相关相似度等。其中基于用户的协同过滤算法常用相关相似度函数。具体公式如(1)所示：

sim (u_{a}, u_{b}) = (\frac{\underset{j &Element; S}{Σ} (r_{aj} - \overset{&OverBar;}{r_{a}}) \cdot (r_{bj} - \overset{&OverBar;}{r_{b}})}{\sqrt{\underset{j &Element; S}{Σ} {(r_{aj} - \overset{&OverBar;}{r_{a}})}^{2}} \sqrt{\underset{j &Element; S}{Σ} {(r_{bj} - \overset{&OverBar;}{r_{b}})}^{2}}}) - - - (1)

其中r_aj表示用户u_a对项目l_j的评分，r_bj表示用户u_b对项目l_j的评分，和分别表示用户u_a和u_b对项目的评分均值。

(2)预测评分函数：在通过公式(1)获得目标用户的相似近邻集合后，对于目标项目通过如公式(2)所示的预测评分函数预测其评分值。

pred (u_{a}, l_{j}) = \overset{&OverBar;}{r_{a}} + \frac{\underset{u_{i} &Element; N}{Σ} sim (u_{a}, u_{i}) \cdot (r_{ij} - \overset{&OverBar;}{r_{i}})}{\underset{u_{i} &Element; N}{Σ} sim (u_{a}, u_{i})} - - - (2)

其中u_a是目标用户、N是其最近邻居集合,是用户i的评分均值。

由于用户评分的记录数很少，导致评分数据极端稀疏，协同过滤的稀疏性问题会导致推荐质量下降，对于新用户没有该用户对项目的任何评分记录，因而无法为其匹配与其兴趣相似的最近邻居。

发明内容

针对现有技术中存在的上述不足之处，本发明要解决的技术问题是提供一种基于双聚类填充的协同过滤方法，在传统基于用户协同过滤算法的基础上，采用双聚类算法对原始评分矩阵进行预测填充以增加数据的稠密度，通过增加矩阵的稠密度使得困扰协同过滤算法的稀疏性问题得到了改善。

本发明为实现上述目的所采用的技术方案是：一种基于双聚类填充的协同过滤方法，包括以下步骤：

基于双聚类的缺失项填充：对于每个缺失项在整个原始评分矩阵中找出所有包含该缺失项的子矩阵，计算所有子矩阵的平均平方残差H_min(m,n)，根据平均平方残差最小的子矩阵估计缺失项的值；

基于用户的协同过滤推荐：分别赋予原始数据和填充数据以不同的可靠性权重，根据所述可靠性权重计算目标用户和其他用户之间的相似度，将与目标用户最相似度最高的若干个用户的集合作为目标用户的最近邻集合，根据目标用户的最近邻集合的评分信息预测目标用户对商品的评分；

针对每个用户，向其推荐评分最高的若干个商品。

所述子矩阵至少为5行5列。

所述计算所有子矩阵的平均平方残差H_min(m,n)，具体为：

H_min(m,n)＝A₁+A₂+A₃+A₄-A₅ (1)

A_{1} = \frac{1}{mn} \underset{p &Element; U}{Σ} \underset{q &Element; V}{Σ} {(r_{pq} + \frac{SUM}{mn} - \frac{1}{n} Σ_{t = 1}^{n} r_{pt} - \frac{1}{m} Σ_{s = 1}^{m} r_{sq})}^{2} - - - (2)

A_{2} = \frac{1}{mn} \underset{q &Element; V}{Σ} {(r_{iq} + \frac{SUM}{mn} - \frac{1}{n} \underset{t &Element; V}{Σ} r_{it} - \frac{1}{m} Σ_{s = 1}^{m} r_{sq})}^{2} - - - (3)

A_{3} = \frac{1}{mn} \underset{q &Element; U}{Σ} {(r_{pj} + \frac{SUM}{mn} - \frac{1}{m} \underset{s &Element; U}{Σ} r_{sj} - \frac{1}{n} Σ_{t = 1}^{n} r_{pt})}^{2} - - - (4)

A_{4} = \frac{1}{mn} {(\frac{SUM}{mn} - \frac{1}{n} \underset{t &Element; V}{Σ} r_{it} - \frac{1}{m} \underset{s &Element; U}{Σ} r_{sj})}^{2} - - - (5)

A_{5} = \frac{(m - 1) (n - 1)}{m^{2} n^{2}} {(\frac{1}{(m - 1) (n - 1)} \underset{p &Element; U}{Σ} \underset{q &Element; V}{Σ} r_{pq} - \frac{1}{n - 1} \underset{t &Element; V}{Σ} r_{it} - \frac{1}{m - 1} \underset{s &Element; U}{Σ} r_{sj})}^{2} - - - (6)

其中，A为仅包含一个缺失项的子矩阵。A₁、A₂、A₃、A₄、A₅分别为子矩阵A中的计算式、m为A的行总数、n为A的列总数、SUM为子矩阵A中所有非缺失项数目的总和、集合U＝{1,2,…,i-1,i+1,…,m}为子矩阵中除了第i行以外所有的行的集合、集合V＝{1,2,…,j-1,j+1,…,n}为子矩阵中除了第j列以外所有的列的集合、p为集合U中的第p行、q为集合V中的第q列、s为m行中的第s行、t为n列中的第t列、i为缺失项所在行、j为缺失项所在列。r_pq为子矩阵中第p行第q列所在项的值、r_sq为子矩阵中第s行第q列所在项的值、r_iq为子矩阵中第i行第q列所在项的值、r_pj为子矩阵中第p行第j列所在项的值、r_pt为子矩阵中第p行第t列所在项的值、r_it为子矩阵中第i行第t列所在项的值、r_sj为子矩阵中第s行第j列所在项的值。

所述根据平均平方残差最小的子矩阵估计缺失项的值，具体为：

其中，i为缺失项所在行、j为缺失项所在列、m为A的行总数、n为A的列总数、s为m行中的第s行、t为n列中的第t列、集合U＝{1,2,…,i-1,i+1,…,m}为子矩阵中除了第i行以外所有的行的集合、集合V＝{1,2,…,j-1,j+1,…,n}为子矩阵中除了第j列以外所有的列的集合、p为集合U中的第p行、q为集合V中的第q列、r_it为子矩阵中第i行第t列所在项的值、r_pq为子矩阵中第p行第q列所在项的值、r_sj为子矩阵中第s行第j列所在项的值。

当平均平方残差最小的子矩阵不只一个时，选取其中包含数据量最大的子矩阵，即缺失率最低的子矩阵作为平均平方残差最小的子矩阵。

如果平均平方残差最小的子矩阵包含数据量也相同，则随机选取其中一个子矩阵作为平均平方残差最小的子矩阵。

所述可靠性权重为：

其中，i为矩阵中第i行、j为矩阵中第j列。r_ij为原始评分矩阵中的第i行第j列所在项、t_ij为可靠性矩阵中第i行第j列所在项。θ为空缺项的权重值。

所述根据所述可靠性权重计算目标用户和其他用户之间的相似度，具体为：

sim (u_{a}, u_{b}) = (\frac{\underset{jϵS}{Σ} t_{bj} \cdot (r_{aj} - \overset{&OverBar;}{r_{a}}) \cdot (r_{bj} - \overset{&OverBar;}{r_{b}})}{\sqrt{\underset{jϵS}{Σ} {(r_{aj} - \overset{&OverBar;}{r_{a}})}^{2}} \sqrt{\underset{jϵS}{Σ} {t_{bj}}^{2} \cdot {(r_{bj} - \overset{&OverBar;}{r_{b}})}^{2}}}) - - - (9)

其中，u_a为第a个用户、u_b为第b个用户、S为用户u_a和u_b的共同评分项目集合、j为集合S中的第j个项目、r_aj表示用户u_a对项目l_j的评分，r_bj表示用户u_b对项目l_j的评分，r_a和r_b分别表示用户u_a和u_b对项目的评分均值，S是用户u_a和u_b的共同评分项目集合，t_bj表示用户u_b对项目l_j的可靠性权重值。

所述根据目标用户的最近邻集合的评分信息预测目标用户对商品的评分，具体为：

pred (u_{a}, l_{j}) = \overset{&OverBar;}{r_{a}} + \frac{\underset{u_{i} &Element; K}{Σ} t_{ij} \cdot sim (u_{a}, u_{i}) \cdot (r_{ij} - \overset{&OverBar;}{r_{i}})}{\underset{u_{i} &Element; K}{Σ} t_{ij} \cdot sim (u_{a}, u_{i})} - - - (10)

其中u_a是为第a个用户，这里u_a是目标用户，u_i为第i个用户，l_j为第j个项目，K是目标用户的最近邻数量，sim(u_a,u_i)是目标用户u_a和用户u_i之间的相似度，t_ij是用户u_i对项目l_j的可靠性权重值，r_ij是用户u_i对项目l_j的评分值，为用户u_i的评分平均值，为用户u_a的评分平均值。

本发明具有以下优点及有益效果：

1.改善了评分矩阵数据稀疏性带来的影响。

2.引入了可靠性矩阵区分真实评分项和填充项改进相似度函数及预测评分函数。

3.提高了推荐准确度。

附图说明

图1为本发明方法中原始评分矩阵示意图；

图2为本发明方法中填充后的评分矩阵示意图；

图3为本发明方法中不同近邻数量时基于双聚类填充协同过滤算法和传统基于用户协同过滤算法MAE值图；

图4为本发明方法中可靠性矩阵参数θ取不同值时基于双聚类填充协同过滤算法的MAE值图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

如图1所示，原始评分矩阵为一个10行10列的矩阵，行分别为U₁到U₁₀的十个用户，列分别为I₁到I₁₀的十个商品。已有评分项是取值范围1到5之间的整数值。原始评分矩阵中含有空缺项。

如图2所示，填充后的评分矩阵为一个10行10列的矩阵，行分别为U₁到U₁₀的十个用户，列分别为I₁到I₁₀的十个商品。其中空缺项已被填充为精度为保留一位小数的填充值。填充值的范围不受约束，由双聚类算法计算得到。

本发明效果的验证实例：

1、数据集。MovieLens数据集是美国Minnesota大学GroupLens项目组提供的电影评分数据集。MovieLens是一个基于Web的研究性推荐系统，用于接收用户对电影的评分并提供相应的电影推荐列表。MovieLens数据集中包含了943个用户对1682部电影的10000条评分数据。其中每个用户至少对20部电影有评分记录。实验对数据集进行了划分，80％的数据用作训练集，20％的数据用作测试集。

数据稀疏度能度量数据集的稀疏程度，其定义为用户评分矩阵中未评分条目占总数据条目的百分比。MovieLens数据集的稀疏度为1-100000/(943*1682)＝0.93695可见该数据集是非常稀疏的，有约93.7％的项都是空缺项。

2、评价标准。评价推荐系统推荐质量的度量标准主要包括统计精度度量方法和决策支持精度度量方法两类。统计精度度量方法中的平均绝对偏差MAE(mean absolute error)可以直观地对推荐质量进行度量，是最常用推荐质量度量方法。本发明采用MAE作为推荐质量的评价标准，平均绝对偏差MAE通过计算预测的用户评分与实际的用户评分之间的偏差度量预测的准确性，MAE越小，推荐质量越高。设预测的用户评分集合表示为{p₁,p₂,...,p_N}，对应的实际用户评分集合为{q₁,q₂,...,q_N}，则平均绝对偏差定义为：

MAE = \frac{Σ_{i = 1}^{N} | p_{i} - q_{i} |}{N} - - - (14)

3、结果分析。采用传统基于用户协同过滤算法(UB-CF)和基于双聚类填充的协同过滤算法(BF-CF)按照K取从10到100之间10的倍数进行10组实验并进行分析，实验参数与结果表如表1和表2所示，结果对比图如图3和图4所示。

表1 近邻数量取不同值时两种算法推荐质量对比

K	UB-CF	BF-CF
			10	0.8203	0.8268
20	0.8078	0.8092
			30	0.8069	0.7991
40	0.8066	0.7961
			50	0.8068	0.7964
60	0.8073	0.7955
			70	0.8085	0.7963
80	0.8097	0.7973
			90	0.8107	0.7976
100	0.8125	0.7972

此处BF-CF算法中θ值预设为0.3。最近邻居的个数会影响算法的性能，实验中将最近邻居的个数从10递增到100。分别计算了传统基于用户的协同过滤算法和本文提出的基于双聚类填充的协同过滤算法的MAE。实验结果如图3所示，当最近邻居数选取较小值时，BF-CF算法的MAE大于UB-CF算法，但当最近邻居集合数等于30及以上时，BF-CF的预测误差显著低于UB-CF。可见本文提出的基于双聚类填充的协同过滤算法的推荐质量高于传统基于用户的协同过滤算法。

表2 可靠性矩阵t中参数θ取不同值时算法推荐质量对比

θ	BF-CF
		k＝40,θ＝0.1	0.8117
k＝40,θ＝0.2	0.7972
		k＝40,θ＝0.3	0.7961
k＝40,θ＝0.4	0.7968
		k＝40,θ＝0.5	0.7973
k＝40,θ＝0.6	0.7979
		k＝40,θ＝0.7	0.7996
k＝40,θ＝0.8	0.7999
		k＝40,θ＝0.9	0.8002
k＝40,θ＝1.0	0.8005

可靠性矩阵t中参数θ的选取在很大程度上影响了推荐的精度，θ的取值范围是0到1。如果θ取最大值1，则真实值和填充值拥有相等的可靠性。如果θ取0则算法退化为传统基于用户协同过滤算法。表2表示了参数θ的改变对MAE的影响，实验结果如图4所示，可见当θ取值为0.3时算法性能达到最优。

Claims

1.一种基于双聚类填充的协同过滤方法，其特征在于，包括以下步骤：

针对每个用户，向其推荐评分最高的若干个商品。

2.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，所述子矩阵至少为5行5列。

3.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，所述计算所有子矩阵的平均平方残差H_min(m,n)，具体为：

H_min(m,n)＝A₁+A₂+A₃+A₄-A₅ (1)

A_{1} = \frac{1}{mn} \underset{p &Element; U}{Σ} \underset{q &Element; V}{Σ} {(r_{pq} + \frac{SUM}{mn} - \frac{1}{n} Σ_{t = 1}^{n} r_{pt} - \frac{1}{m} Σ_{s = 1}^{m} r_{sq})}^{2} - - - (2)

A_{2} = \frac{1}{mn} \underset{q &Element; V}{Σ} {(r_{iq} + \frac{SUM}{mn} - \frac{1}{n} \underset{t &Element; V}{Σ} r_{it} - \frac{1}{m} Σ_{s = 1}^{m} r_{sq})}^{2} - - - (3)

A_{3} = \frac{1}{mn} \underset{q &Element; U}{Σ} {(r_{pj} + \frac{SUM}{mn} - \frac{1}{m} \underset{s &Element; U}{Σ} r_{sj} - \frac{1}{n} Σ_{t = 1}^{n} r_{pt})}^{2} - - - (4)

A_{4} = \frac{1}{mn} {(\frac{SUM}{mn} - \frac{1}{n} \underset{t &Element; V}{Σ} r_{it} - \frac{1}{n} \underset{s &Element; U}{Σ} r_{sj})}^{2} - - - (5)

A_{5} = \frac{(m - 1) (n - 1)}{m^{2} n^{2}} {(\frac{1}{(m - 1) (n - 1)} \underset{p &Element; U}{Σ} \underset{q &Element; V}{Σ} r_{pq} - \frac{1}{n - 1} \underset{t &Element; V}{Σ} r_{it} - \frac{1}{m - 1} \underset{s &Element; U}{Σ} r_{sj})}^{2} - - - (6)

4.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，所述根据平均平方残差最小的子矩阵估计缺失项的值，具体为：

5.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，当平均平方残差最小的子矩阵不只一个时，选取其中包含数据量最大的子矩阵，即缺失率最低的子矩阵作为平均平方残差最小的子矩阵。

6.根据权利要求5所述的一种基于双聚类填充的协同过滤方法，其特征在于，如果平均平方残差最小的子矩阵包含数据量也相同，则随机选取其中一个子矩阵作为平均平方残差最小的子矩阵。

7.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，所述可靠性权重为：

8.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，所述根据所述可靠性权重计算目标用户和其他用户之间的相似度，具体为：

sim (u_{a}, u_{b}) = (\frac{\underset{jϵS}{Σ} t_{bj} \cdot (r_{aj} - {\overset{&OverBar;}{r}}_{a}) \cdot (r_{bj} - {\overset{&OverBar;}{r}}_{b})}{\sqrt{\underset{jϵS}{Σ} {(r_{aj} - {\overset{&OverBar;}{r}}_{a})}^{2}} \sqrt{\underset{jϵS}{Σ} {t_{bj}}^{2} \cdot {(t_{bj} - {\overset{&OverBar;}{r}}_{b})}^{2}}}) - - - (9)

9.根据权利要求1所述的一种基于双聚类填充的协同过滤方法，其特征在于，所述根据目标用户的最近邻集合的评分信息预测目标用户对商品的评分，具体为：

pred (u_{a}, l_{j}) = {\overset{&OverBar;}{r}}_{a} + \frac{\underset{u_{i} &Element; K}{Σ} t_{ij} \cdot sim (u_{a}, u_{i}) \cdot (r_{ij} - {\overset{&OverBar;}{r}}_{i})}{\underset{u_{i} &Element; K}{Σ} t_{ij} \cdot sim (u_{a}, u_{i})} - - - (10)

其中u_a是为第a个用户，这里u_a是目标用户，u_i为第i个用户，l_j为第j个项目，K是目标用户的最近邻数量，sim(u_a,u_i)是目标用户u_a和用户u_i之间的相似度，t_ij是用户u_i对项目l_j的可靠性权重值，r_ij是用户u_i对项目l_j的评分值，r_i为用户u_i的评分平均值，为用户u_a的评分平均值。