CN104239496A

CN104239496A - 一种结合模糊权重相似性度量和聚类协同过滤的方法

Info

Publication number: CN104239496A
Application number: CN201410457937.1A
Authority: CN
Inventors: 齐小刚; 张雅科; 郑耿忠; 刘立芳; 马军艳; 李强; 杨国平; 冯海林
Original assignee: Xidian University; Hanshan Normal University
Current assignee: Xidian University; Hanshan Normal University
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2014-12-24
Anticipated expiration: 2034-09-10
Also published as: CN104239496B

Abstract

本发明公开了一种结合模糊权重相似性度量和聚类协同过滤的方法，依据用户—项目评分矩阵R_m×n，用fcos,fcor,fadj分别计算用户三种不同的相似度矩阵FCOS,FCOR,FADJ，再根据k-means算法和分类个数kcluster对所有用户进行分类。确定用户的最近邻居集s(U_i)，然后利用r_i,c计算预测评分；依照上述策略，直到对所有用户评分进行预测。本发明的模糊相似度聚类IBCF\UBCF在邻居集s(U_i)查找准确度上有了明显提高；对评分值和评分偏差进行模糊化，更接近于用户对于项目的真实评价；相似度计算加入模糊权重w_c后，用户间的相似度更趋于精确，从而提高了推荐系统的性能。

Description

一种结合模糊权重相似性度量和聚类协同过滤的方法

技术领域

本发明属于推荐系统技术领域，尤其涉及一种结合模糊权重相似性度量和聚类协同过滤的方法。

背景技术

随着互联网和信息技术的快速发展和普及，人们对信息的依赖程度与日俱增。信息技术的大量使用提高了信息的生产、处理和传播的效率。互联网作为信息时代的基础平台，承载了大量的信息资源。面对海量的信息资源，用户无法筛选出对自己有用的信息，这就是信息过载问题。为了解决信息过载问题，推荐系统应运而生。与传统的信息过滤技术搜索引擎相比，推荐系统不需要用户提供搜索的关键词，而是通过分析用户历史行为记录发现用户潜在爱好，从而产生推荐。因此，推荐系统满足了用户的个性化需求。

协同过滤推荐算法是推荐系统的主流算法，这种算法的基本思想是：用户会喜欢(不喜欢)与他兴趣相同(不相同)的用户所喜欢的项目。协同过滤算法主要分为：基于内存的算法和基于模型的算法。基于内存的协同过滤算法可分为基于用户的协同过滤算法(user-based collaborative filtering,UBCF)和基于项目的协同过滤算法(item-based collaborative filtering,IBCF)。两种算法的关键都在于相似度的计算，不同的相似度计算方法会对目标用户产生不同的邻居集，进而影响推荐结果。而传统的相似度计算方法直接应用用户的评分值或评分偏差，没有考虑用户评分的不确定性和不同的评分习惯。因此，我们应该给原始评分加上合适的权重值，以逼近用户真实的评分意愿。文献Improving Coll-aborative Filtering Recommender System Results and Performance Using GeneticAlgorithms研究了评分和权重线性组合以优化相似度计算函数方法，其中权重通过遗传算法(genetic algorithm)迭代收敛到预定条件。文献OptimizingCollaborative Filtering Recommender Systems提出了对用户和邻近项目采用不同的权重方式来提高推荐的质量。文献Cluster ensembles in collaborative filteringrecommendation提出了聚类融合技术，首先应用两个著名的聚类技术(self-organizing maps(SOM)和k-means)对用户进行聚类寻找相似用户群，然后分别用三种聚类融合算法(the cluster-based similarity partitioning algorithm(CSPA),hypergraph partitioning algorithm(HGPA)和majority voting)对相似用户群进行融合得到综合相似关系群。最后,利用综合相似关系群为目标用户推荐项目。该方法改善了基于用户的协同过滤推荐算法面临的“冷启动”问题,而且提高了推荐系统的推荐精度。文献A fuzzy recommender system based on theintegration of subjective preferences and objective information将模糊语义模型融入到协同过滤推荐中，并提出了组合主观和客观用户观点的协同过滤算法(aggregated subjective and objective users’ viewpoint(ASOV))该算法在一定程度上解决了“冷启动”和数据稀疏性问题。文献Facing the cold start problem inrecommender systems提出了改进的相似度技术、预测机制，将人口统计信息应用到相似关系群的查找，该方法改善了协同过滤推荐算法面临的“冷启动”问题。

虽然国内外的众多学者对协同过滤推荐算法进行了深入地研究,但协同过滤算法仍存在很多值得研究的问题,特别是大量数据导致的稀疏性问题,“冷启动”问题和提高推荐精度等方面仍值得进行探索。

发明内容

本发明实施例的目的在于提供一种结合模糊权重相似性度量和聚类协同过滤的方法，旨在解决协同过滤算法中存在的提高推荐精度，数据稀疏性问题和“冷启动”问题。

本发明实施例是这样实现的，一种结合模糊权重相似性度量和聚类协同过滤的方法，该结合模糊权重相似性度量和聚类协同过滤的方法根据用户评分值和模糊权重w_c，计算任意两个用户之间的相似度；利用k-means聚类方法对全部用户分成若干类；对于目标用户，在所属的类中按相似度由高到底选取邻居集；然后，根据邻居集内其他用户对目标项目的评分，预测目标用户对目标项目的评分。

进一步，该结合模糊权重相似性度量和聚类协同过滤的方法包括以下步骤：

步骤一，处理用户—项目评分矩阵R_m×n，确定目标用户U_i、待评分的项目I_c、最近邻居查询个数knear和分类数kcluster；

步骤二，依据评分矩阵R_m×n，用fcos,fcor,fadj分别计算用户三种不同的相似度矩阵FCOS,FCOR,FADJ，从相似度矩阵中知道任意两个用户之间的相似度；fcos：模糊加权余弦相似性；fcor：模糊加权相关相似性；fadj：模糊加权修正余弦相似性；

步骤三，由步骤二得出的相似度，再根据k-means算法和分类个数kcluster对所有用户进行分类；

步骤四，选取用户U_i所在的类index；确定用户的最近邻居集s(U_i)；

步骤五，然后利用r_i,c计算预测评分；

r_{i, c} = \overset{&OverBar;}{r_{i}} + \frac{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j}) \times (r_{jc} - \overset{&OverBar;}{r_{j}})}{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j})}

r_i,c：用户U_i对项目I_c的评分；用户U_i的平均评分；s(U_i)：用户U_i的最近邻居集；

步骤六，循环步骤四和五直到对测试集中的所有用户的评分都进行了预测。

进一步，步骤二中的fcos,fcor,fadj通过引入模糊权重w_c，模糊加权余弦相似性、模糊加权相关相似性和模糊加权修正余弦相似性的定义如下：

f \cos (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} r_{i, c} r_{j, c}}{\sqrt{\underset{c &Element; I_{ij}}{Σ} {r_{i, c}}^{2} \underset{c &Element; I_{ij}}{Σ} {r_{j, c}}^{2}}}

fcor (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} (r_{i, c} - \overset{&OverBar;}{r_{i}}) (r_{j, c} - \overset{&OverBar;}{r_{j}})}{\sqrt{\underset{c &Element; I_{ij}}{Σ} {(r_{i, c} - \overset{&OverBar;}{r_{i}})}^{2} \underset{c &Element; I_{ij}}{Σ} {(r_{j, c} - \overset{&OverBar;}{r_{j}})}^{2}}}

fadj (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} (r_{i, c} - \overset{&OverBar;}{r_{i}}) (r_{j, c} - \overset{&OverBar;}{r_{j}})}{\sqrt{\underset{c &Element; I_{j}}{Σ} {(r_{i, c} - \overset{&OverBar;}{r_{i}})}^{2} \underset{c &Element; I_{i}}{Σ} {(r_{j, c} - \overset{&OverBar;}{r_{j}})}^{2}}} .

r_i,c表示用户U_i对项目I_c的评分，和分别表示用户U_i和用户U_j的平均评分。

进一步，fcos中w_c求得的方法：

模糊向量中的元素个数是由模糊集的个数决定，评分的隶属函数为：

\{\begin{matrix} μ_{bad} (r) = \frac{r - 1}{4} & 1 \leq r \leq 5 \\ μ_{good} (r) = \frac{5 - r}{4} & 1 \leq r \leq 5 \end{matrix}

r＝4时，相应的二元隶属向量为任取用户U_i和用户U_j共同评价过的推荐项目I_c∈I_ij，向量和关于推荐项目I_c∈I_ij的模糊权重w_c为：

w_{c} = \sqrt{2} - dis ({\overset{&RightArrow;}{r}}_{ic} - {\overset{&RightArrow;}{r}}_{jc})

dis ({\overset{&RightArrow;}{r}}_{ic} - {\overset{&RightArrow;}{r}}_{jc}) = \sqrt{Σ_{k = 1}^{l} {(r_{ic}^{k} - r_{jc}^{k})}^{2}}

其中表示向量和之间的欧式距离，l为向量的维数，为向量中的第k个元素；在w_c中，用减去其它值是因为为的最大值(对于向量

{\overset{&RightArrow;}{r}}_{ic} = (0,1), {\overset{&RightArrow;}{r}}_{jc} = (1,0)

的dis(·))。

进一步，fcor：和fadj中w_c的求得方法：

用户U_i和用户U_j对共同评分过的推荐项目I_c∈I_ij的评分与各自评分均值的偏差为dev_ic和dev_jc；分别用very bad(vb)、bad(b)、fair(f)、good(g)、very good(vg)表示5个模糊集，由5个模糊集组成评分偏差的隶属函数为：

dev_ic＝2.7，根据隶属函数的定义，隶属向量为：对于向量和关于推荐项目c∈I_ij的模糊权重w_c为：

w_{c} = \sqrt{2} - dis (\overset{&RightArrow;}{{dev}_{ic}} - \overset{&RightArrow;}{{dev}_{jc}})

dis (\overset{&RightArrow;}{{dev}_{ic}} - \overset{&RightArrow;}{{dev}_{jc}}) = \sqrt{Σ_{k = 1}^{l} {({dev}_{ic}^{k} - {dev}_{jc}^{k})}^{2}}

其中表示向量和之间的欧式距离,l为向量的维数，为向量的第k个元素；在w_c中，用减去其它值是因为为的最大值(对于

\overset{&RightArrow;}{{dev}_{ic}} = (0,0,0,0,1), \overset{&RightArrow;}{{dev}_{jc}} = (1, 0, 0, 0,0)

的dis(·))。

进一步，在步骤五中s(U_i)的更新方法包括：

第一步，对用户U_i与所在的类index中的其它用户按照相似度大小降序排列；并与对目标项目I_c评分不为0的用户集USER_c中用户求交集组成用户群q(U_i)；

第二步，若|q(U_i)|≥knear，取q(U_i)中前knear个用户组成s(U_i)；

第三步，当0＜|q(U_i)|≤knear时，则s(U_i)为q(U_i)；

第四步，当|q(U_i)|＝0时，对用户U_i与所有用户U按照相似度大小降序排列；并与USER_c中用户求交集组成新用户群q(U_i)；

第五步，若|q(U_i)|≥knear，取q(U_i)中前knear个用户组成s(U_i)；

第六步，当0＜|q(U_i)|≤knear时，则s(U_i)为q(U_i)；

与现有技术相比，本发明具有如下的优点：

(1)本发明给出了新的评分值和评分偏差的隶属函数，运用模糊数代替具体评分值和评分偏差的方法，对评分进行模糊化，考虑到用户评分的不精确性对推荐性能的影响，提高了推荐精度。

(2)本发明对传统的几种相似度计算方法加入模糊权重，降低相关性差的用户评分对预测评分的干扰，和评分习惯对推荐结果的影响，有效的提高了相似邻居集查找的准确性。

(3)本发明提出了模糊相似度k-means聚类的协同过滤算法，在准确得到用户相似度关系后，进一步缩小邻居查找范围，提高了算法执行效率，降低数据稀疏性问题导致的预测结果不准确。

(4)本发明运用模糊逻辑理论对相似度进行改进并结合聚类算法到协同过滤系统中，对于大规模真实数据集依然适用，方法理论基础可靠、运行稳定，同时求解方法实现简单且具有较好的推荐精度。

附图说明

图1是本发明实施例提供的结合模糊权重相似性度量和聚类协同过滤的方法流程图；

图2是本发明实施例提供的实施例1的总流程图；

图3是本发明实施例提供的评分三角模糊集隶属函数示意图；

图4是本发明实施例提供的评分偏差梯形模糊集隶属函数示意图；

图5是本发明实施例提供的余弦相似性模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF比较示意图；

图6是本发明实施例提供的相关相似性模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF比较示意图；

图7是本发明实施例提供的修正余弦相似性模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF比较示意图；

图8是本发明实施例提供的模糊相似度聚类UBCF和聚类UBCF三种相似性模糊加权前后比较示意图；

图9是本发明实施例提供的模糊相似度聚类IBCF和聚类IBCF三种相似性模糊加权前后比较示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例的结合模糊权重相似性度量和聚类协同过滤的方法包括以下步骤：

S101：根据用户评分值和模糊权重，计算任意两个用户之间的相似度；

S102：利用k-means聚类方法对全部用户分成若干类；对于目标用户，在所属的类中按相似度由高到底选取邻居集；

S103：然后，根据邻居集内其他用户对目标项目的评分，预测目标用户对目标项目的评分。

本发明的工作原理：根据用户评分值和模糊权重w_c，计算任意两个用户之间的相似度；利用k-means聚类方法对全部用户分成若干类；对于目标用户，在所属的类中按相似度由高到底选取邻居集；然后，根据邻居集内其他用户对目标项目的评分，预测目标用户对目标项目的评分；

具体实现包括如下步骤：

步骤二，依据评分矩阵R_m×n，用fcos,fcor,fadj分别计算用户三种不同的相似度矩阵FCOS,FCOR,FADJ，从相似度矩阵中知道任意两个用户之间的相似度；

步骤五，然后利用r_i,c计算预测评分；

r_{i, c} = \overset{&OverBar;}{r_{i}} + \frac{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j}) \times (r_{jc} - \overset{&OverBar;}{r_{j}})}{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j})}

步骤六，循环步骤四和五直到对测试集中的所有用户的评分都进行了预测；

s(U_i)更新机制为：

(1)对用户U_i与其所在的类index中的其它用户按照相似度大小降序排列；并与对目标项目I_c评分不为0的用户集USER_c中用户求交集组成用户群q(U_i)；

(2)当|q(U_i)|不为0时，取q(U_i)中前min{|q(U_i)|,knear}组成s(U_i)；

(3)当|q(U_i)|＝0时，对用户U_i与所有用户U按照相似度大小降序排列；并与USER_c中用户求交集组成新用户群q(U_i)；

(4)当|q(U_i)|不为0时，取q(U_i)中前min{|q(U_i)|,knear}组成s(U_i)；

定义1(rating of membership function and fuzzy weight)(评分的隶属函数和模糊权重)一个具体的评分值r可经过相应的隶属函数转化为一个模糊向量模糊向量中的元素个数是由模糊集的个数决定，评分的隶属函数为：

\{\begin{matrix} μ_{bad} (r) = \frac{r - 1}{4} & 1 \leq r \leq 5 \\ μ_{good} (r) = \frac{5 - r}{4} & 1 \leq r \leq 5 \end{matrix}

图3为评分三角模糊集隶属函数图；如r＝4时，相应的二元隶属向量为任取用户U_i和用户U_j共同评价过的推荐项目I_c∈I_ij，向量和关于推荐项目I_c∈I_ij的模糊权重w_c为：

w_{c} = \sqrt{2} - dis ({\overset{&RightArrow;}{r}}_{ic} - {\overset{&RightArrow;}{r}}_{jc})

dis ({\overset{&RightArrow;}{r}}_{ic} - {\overset{&RightArrow;}{r}}_{jc}) = \sqrt{Σ_{k = 1}^{l} {(r_{ic}^{k} - r_{jc}^{k})}^{2}}

{\overset{&RightArrow;}{r}}_{ic} = (0,1), {\overset{&RightArrow;}{r}}_{jc} = (1,0)

的dis(·))；

定义2(rating deviation value of membership function and fuzzy weight)设用户U_i和用户U_j对共同评分过的推荐项目I_c∈I_ij的评分与各自评分均值的偏差为dev_ic和dev_jc；分别用very bad(vb)、bad(b)、fair(f)、good(g)、very good(vg)表示5个模糊集，由5个模糊集组成评分偏差的隶属函数为：

图4为评分偏差梯形模糊集隶属函数图；如dev_ic＝2.7，根据隶属函数的定义，隶属向量为：对于向量和关于推荐项目c∈I_ij的模糊权重w_c为：

w_{c} = \sqrt{2} - dis (\overset{&RightArrow;}{{dev}_{ic}} - \overset{&RightArrow;}{{dev}_{jc}})

dis (\overset{&RightArrow;}{{dev}_{ic}} - \overset{&RightArrow;}{{dev}_{jc}}) = \sqrt{Σ_{k = 1}^{l} {({dev}_{ic}^{k} - {dev}_{jc}^{k})}^{2}}

\overset{&RightArrow;}{{dev}_{ic}} = (0,0,0,0,1), \overset{&RightArrow;}{{dev}_{jc}} = (1, 0, 0, 0,0)

的dis(·))；

定义3(fuzzy-weighted similarity measure)通过引入模糊权重w_c，模糊加权余弦相似性(fuzzy-weighted cosine similarity measure(fcos))、模糊加权相关相似性(fuzzy-weighted Pearson correlation coefficient(fcor))和模糊加权修正余弦相似性(fuzzy-weighted adjusted cosine similarity measure(fadj))的定义如下：

f \cos (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} r_{i, c} r_{j, c}}{\sqrt{\underset{c &Element; I_{ij}}{Σ} {r_{i, c}}^{2} \underset{c &Element; I_{ij}}{Σ} {r_{j, c}}^{2}}}

fcor (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} (r_{i, c} - \overset{&OverBar;}{r_{i}}) (r_{j, c} - \overset{&OverBar;}{r_{j}})}{\sqrt{\underset{c &Element; I_{ij}}{Σ} {(r_{i, c} - \overset{&OverBar;}{r_{i}})}^{2} \underset{c &Element; I_{ij}}{Σ} {(r_{j, c} - \overset{&OverBar;}{r_{j}})}^{2}}}

fadj (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} (r_{i, c} - \overset{&OverBar;}{r_{i}}) (r_{j, c} - \overset{&OverBar;}{r_{j}})}{\sqrt{\underset{c &Element; I_{j}}{Σ} {(r_{i, c} - \overset{&OverBar;}{r_{i}})}^{2} \underset{c &Element; I_{i}}{Σ} {(r_{j, c} - \overset{&OverBar;}{r_{j}})}^{2}}}

其中，fcos中w_c由定义1求出，fcor和fadj中的w_c由定义2求得；r_i,c表示用户U_i对项目I_c的评分，和分别表示用户U_i和用户U_j的平均评分。

在现实生活中，很多的评价系统要求用户使用数值的形式对项目进行评价；但是，用户的喜好程度并不能被精确表达，因为用户评分往往涉及用户个人口味、个人倾向和当时的心情状况等不确定因素的影响；从这个方面讲，采用数值评分的推荐系统收集到的用户喜好信息是模糊、不精确和不完整的；另一方面，用户喜好信息和用户自己的理解、感知和辨别能力密切相关；一个单一的数值不能包含丰富的信息来表达用户喜好，也会导致推荐结果的不准确性；在这种情况下，我们采用模糊逻辑(Fuzzy Logic)的方法给用户喜好信息添加一定的权重，使预测值更接近用户的真实意愿从而提高预测准确率；并且由于用户—项目评分矩阵规模较大且具有稀疏性，且为了进一步提高邻居集查找准确度，我们引入k-means聚类方法；

本发明的具体实施例：

实施例1：

参照图1，本发明的具体步骤如下:

步骤一，在训练集中处理用户—项目评分矩阵R_m×n，去掉评分少于20个的用户和没有被任何用户评分的项目，相应的测试集的用户和评分也去掉；确定目标用户U_i、待评分的项目I_c、最近邻居查询个数knear和分类数kcluster；

步骤二，依据处理后的评分矩阵R_m×n，用fcos,fcor,fadj分别计算用户三种不同的相似度矩阵FCOS,FCOR,FADJ，从相似度矩阵中知道任意两个用户之间的相似度；

步骤四，选取用户U_i所在的类index；取类index和对目标项目I_c评分不为0的用户集USER_c的交集组成用户群q(U_i)，选取用户群q(U_i)中相似度较高的knear个用户组成s(U_i)；如果q(U_i)不足knear个，则s(U_i)为q(U_i)；如果目标用户U_i为孤立点，或者目标项目I_c在类index中都没有评分，则在整个用户空间U中根据相似度寻找s(U_i)；

步骤五，然后根据下式计算预测评分r_ic；

r_{i, c} = \overset{&OverBar;}{r_{i}} + \frac{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j}) \times (r_{jc} - \overset{&OverBar;}{r_{j}})}{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j})}

步骤六循环步骤四和五直到对测试集中的所有用户的评分都进行了预测。

下面详述s(U_i)更新机制；

(2)若|q(U_i)|≥knear，取q(U_i)中前knear个用户组成s(U_i)；

(3)当0＜|q(U_i)|≤knear时，则s(U_i)为q(U_i)；

(4)当|q(U_i)|＝0时，对用户U_i与所有用户U按照相似度大小降序排列；并与USER_c中用户求交集组成新用户群q(U_i)；

(5)若|q(U_i)|≥knear，取q(U_i)中前knear个用户组成s(U_i)；

(6)当0＜|q(U_i)|≤knear时，则s(U_i)为q(U_i)；

通过以下仿真对本发明的应用效果进行进一步的说明:

1.仿真条件：

本发明使用的数据集是GroupLens研究产品组(http://www.grouplens.org)提供的电影评分数据MovieLens，通过实验仿真，来说明算法的有效性；仿真实验室在一台2G内存，赛扬双核2.6GHz，32位win7操作系统下，使用matlab2012b进行的；实验采用5折交叉验证法，将实验数据集平均分成5个互不相交的数据子集，其中训练集和测试集的数据比例为4:1；每次实验选择其中一个数据子集作为测试集，其余4个数据集作为训练集；循环5次，取5次实验结果的平均值作为最终结果；5折交叉实验可以有效的降低数据集的不同对实验结果的影响；

2.评价标准

本发明中采用统计精度度量方法中的平均绝对偏差MAE(mean absoluteerror)对推荐结果进行度量；设预测的用户评分集合表示为{r′₁,r′₂,...,r′_n}，相应的实际用户评分集合为{r₁,r₂,...,r_n}，平均绝对偏差MAE为：

MAE = \frac{Σ_{i = 1}^{n} | r_{i}^{'} - r_{i} |}{n}

3.仿真内容

仿真1，对于相似性的三种计算方法(余弦相似性、相关相似性和修正余弦相似性),我们对模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF进行比较；

图5中当kcluster＝5，对于余弦相似性模糊加权前后的MAE对比图；图中用模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF产生推荐结果；knear从10变化到80，聚类IBCF\UBCF的MAE有所下降，但下降幅度较小，为5个百分点；相比之下，模糊相似度聚类IBCF\UBCF在knear较小时的MAE就明显低于聚类IBCF\UBCF，其值分布在0.6，随着knear的增加，MAE变化不大；

图6为对于相关相似性模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF进行比较；图7为对于修正余弦相似性模糊相似度聚类IBCF\UBCF和聚类IBCF\UBCF进行比较；三个图中，模糊相似度聚类IBCF\UBCF得出的MAE大体为0.75，聚类IBCF\UBCF得出的MAE平均为0.6，MAE下降为15个百分点；

仿真2，对于模糊相似度聚类UBCF和聚类UBCF，三种相似度之间的比较图；和对于模糊相似度聚类IBCF和聚类IBCF，三种相似度之间的比较图；

图8为模糊相似度聚类UBCF和聚类UBCF的三种相似性模糊加权前后比较图，图中每个点为kcluster＝[5,10,15,20]四种不同情况下所得MAE的平均值；未加模糊权重前，余弦相似性的MAE值比其它两种两种相似性算法平均高出7个百分点，加上模糊权重后，三种相似性计算方法的结果基本相同；通过加权前后的比较，对于三种相似性计算方法，加上模糊权重后，都明显的提高了推荐的准确性；而余弦相似性加上模糊权重后，效果更明显；图9则是模糊相似度聚类IBCF和聚类IBCF三种相似性模糊加权前后比较图；

上述现象说明本发明的模糊相似度聚类IBCF\UBCF在邻居集s(U_i)查找准确度上有了明显提高；在相同的knear和kcluster下，模糊相似度聚类IBCF\UBCF的MAE值低于聚类IBCF\UBCF，较低的MAE是因为模糊相似度聚类IBCF\UBCF中对评分值和评分偏差进行模糊化，更接近于用户对于项目的真实评价；加入模糊权重w_c后，用户间的相似度更趋于精确；上述原因直接导致在查找邻居集s(U_i)时，真正相似的用户的聚类；

符号说明：UBCF:基于用户的协同过滤算法；IBCF:基于项目的协同过滤算法；R_m×n:用户评价矩阵；w_c:模糊权重；fcos：模糊加权余弦相似性；fcor：模糊加权相关相似性；fadj：模糊加权修正余弦相似性；r_i,c：用户U_i对项目I_c的评分；用户U_i的平均评分；knear:邻居数；kcluster：分类数；s(U_i)：用户U_i的最近邻居集。

相对于现有技术，本发明具有如下的优点：

(1)本发明给出了新的评分值和评分偏差的隶属函数，运用模糊数代替具体评分值和评分偏差的方法，对评分进行模糊化。

(2)本发明对传统的几种相似度计算方法加入模糊权重，计算相似度。

(3)本发明提出了模糊相似度聚类的协同过滤算法，提高相似邻居查找准确性。

(4)本发明对于大规模真实数据集依然适用，且具有较好的试验效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种结合模糊权重相似性度量和聚类协同过滤的方法，其特征在于，该结合模糊权重相似性度量和聚类协同过滤的方法包括以下步骤：

步骤五，然后利用r_i,c计算预测评分；

r_{i, c} = \overset{&OverBar;}{r_{i}} + \frac{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j}) \times (r_{jc} - \overset{&OverBar;}{r_{j}})}{\underset{U_{j} &Element; S (U_{i})}{Σ} sim (U_{i}, U_{j})}

步骤六，循环步骤四和步骤五直到对测试集中的所有用户的评分都进行了预测。

2.如权利要求1所述的结合模糊权重相似性度量和聚类协同过滤的方法，其特征在于，步骤二中的fcos,fcor,fadj通过引入模糊权重w_c，模糊加权余弦相似性、模糊加权相关相似性和模糊加权修正余弦相似性的定义如下：

f \cos (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} r_{i, c} r_{j, c}}{\sqrt{\underset{c &Element; I_{ij}}{Σ} {r_{i, c}}^{2} \underset{c &Element; I_{ij}}{Σ} {r_{j, c}}^{2}}}

fcor (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} (r_{i, c} - \overset{&OverBar;}{r_{i}}) (r_{j, c} - \overset{&OverBar;}{r_{j}})}{\sqrt{\underset{c &Element; I_{ij}}{Σ} {(r_{i, c} - \overset{&OverBar;}{r_{i}})}^{2} \underset{c &Element; I_{ij}}{Σ} {(r_{j, c} - \overset{&OverBar;}{r_{j}})}^{2}}}

fadj (U_{i}, U_{j}) = \frac{\underset{c &Element; I_{ij}}{Σ} w_{c} (r_{i, c} - \overset{&OverBar;}{r_{i}}) (r_{j, c} - \overset{&OverBar;}{r_{j}})}{\sqrt{\underset{c &Element; I_{j}}{Σ} {(r_{i, c} - \overset{&OverBar;}{r_{i}})}^{2} \underset{c &Element; I_{i}}{Σ} {(r_{j, c} - \overset{&OverBar;}{r_{j}})}^{2}}};

3.如权利要求2所述的结合模糊权重相似性度量和聚类协同过滤的方法，其特征在于，fcos中w_c求得的方法：

\{\begin{matrix} μ_{bad} (r) = \frac{r - 1}{4} & 1 \leq r \leq 5 \\ μ_{good} (r) = \frac{5 - r}{4} & 1 \leq r \leq 5 \end{matrix}

w_{c} = \sqrt{2} - dis ({\overset{&RightArrow;}{r}}_{ic} - {\overset{&RightArrow;}{r}}_{jc})

dis ({\overset{&RightArrow;}{r}}_{ic} - {\overset{&RightArrow;}{r}}_{jc}) = \sqrt{Σ_{k = 1}^{l} {(r_{ic}^{k} - r_{jc}^{k})}^{2}}

{\overset{&RightArrow;}{r}}_{ic} = (0,1), {\overset{&RightArrow;}{r}}_{jc} = (1,0)

的dis(·))。

4.如权利要求2所述的结合模糊权重相似性度量和聚类协同过滤的方法，其特征在于，fcor和fadj中w_c的求得方法：

w_{c} = \sqrt{2} - dis (\overset{&RightArrow;}{{dev}_{ic}} - \overset{&RightArrow;}{{dev}_{jc}})

dis (\overset{&RightArrow;}{{dev}_{ic}} - \overset{&RightArrow;}{{dev}_{jc}}) = \sqrt{Σ_{k = 1}^{l} {({dev}_{ic}^{k} - {dev}_{jc}^{k})}^{2}}

\overset{&RightArrow;}{{dev}_{ic}} = (0,0,0,0,1), \overset{&RightArrow;}{{dev}_{jc}} = (1, 0, 0, 0,0)

的dis(·))。

5.如权利要求1所述的结合模糊权重相似性度量和聚类协同过滤的方法，其特征在于，在步骤五中s(U_i)的更新方法包括：

第二步，若|q(U_i)|≥knear，取q(U_i)中前knear个用户组成s(U_i)；

第三步，当0＜|q(U_i)|≤knear时，则s(U_i)为q(U_i)；

第五步，若|q(U_i)|≥knear，取q(U_i)中前knear个用户组成s(U_i)；

第六步，当0＜|q(U_i)|≤knear时，则s(U_i)为q(U_i)；