CN110704496B

CN110704496B - 基于不对称响应的建议聚合方法

Info

Publication number: CN110704496B
Application number: CN201910822227.7A
Authority: CN
Inventors: 纪淑娟; 郭盛辉; 杨伟; 张纯金; 赵建立
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2019-09-02
Filing date: 2019-09-02
Publication date: 2023-01-24
Anticipated expiration: 2039-09-02
Also published as: CN110704496A

Abstract

本发明公开了一种基于不对称响应的建议聚合方法，该建议聚合方法包括：在第一步骤中，计算多个用户中的目标用户和其它用户之间的评分相似度，并根据评分相似度在其它用户中寻找目标用户的邻居；在第二步骤中，计算邻居的建议给目标用户带来的关于各个项目的积极增量和消极增量，其中，积极增量表示邻居关于项目向目标用户提出的积极建议所产生的增量，且消极增量表示邻居关于项目向目标用户提出的消极建议所产生的增量；在第三步骤中，根据积极增量和消极增量，利用机器学习算法分别学习目标用户对积极建议和消极建议的响应度；并且在第四步骤中，利用响应度，对积极建议和消极建议进行聚合。

Description

基于不对称响应的建议聚合方法

技术领域

本发明涉及数据挖掘和机器学习领域，更具体地涉及一种基于不对称响应的建议聚合方法。

背景技术

随着智能设备的普及和互联网的发展，人们的消费理念和消费模式都发生了巨大的改变，网上购物成为人们普遍的消费方式。在现实的电子商务购物过程中，消费者在体验过商品或服务之后经常会在商品主页上发表自己对商品的评论，因此这些大量的在线历史评论为消费者购买商品时对商品的评价提供了决策参考。

一方面，消费者在购买商品时会充分考虑历史购买者给出的评价(也称为建议)。每个评价者的建议都会对后面消费者对该商品的评价和最终决策形成一定的影响。评价者给出的积极建议会提高目标消费者的购买欲望，而消极建议会降低消费者的购买欲望。因此，准确获取消费者对消极建议和积极建议的敏感性对准确的消费者画像有重要的意义。

另一方面，融合用户对积极/消极建议的不同敏感性(即响应度、响应因子，有时简称为响应)，设计一种邻居建议聚合方法，能够更准确地预测消费者对商品的评价并针对性地推荐商品对于商家精准营销来说至关重要。

发明内容

为此，本发明提出了一种基于不对称响应的建议聚合方法，并将该方法应用于用户兴趣预测和推荐中。

本发明的建议聚合方法属于数据挖掘、机器学习领域。在不同邻居发现方式、不同体量和稀疏度数据以及不同应用需求下，PARSA方法都优于其他对比方法；对比其他方法，PARSA方法融合心理学结论“用户对积极建议和消极建议的响应不同”及机器学习技术以学习用户对他人积极/消极建议的响应度，并给出了一种新的邻居建议聚合方法，属于机器学习技术。在不同邻居发现方式、不同体量和稀疏度数据下用户兴趣预测和电影推荐方面都表现出很大的优势，因此PAR方法SA方法可直接应用到真实的电子商务环境中。

具体地，本发明提出了一种基于不对称响应的建议聚合方法，该建议聚合方法包括：在第一步骤中，计算多个用户中的目标用户和其它用户之间的评分相似度，并根据所述评分相似度在所述其它用户中寻找所述目标用户的邻居；在第二步骤中，计算所述邻居的建议给所述目标用户带来的关于各个项目的积极增量和消极增量，其中，所述积极增量表示所述邻居关于所述项目向所述目标用户提出的积极建议所产生的增量，且所述消极增量表示所述邻居关于所述项目向所述目标用户提出的消极建议所产生的增量；在第三步骤中，根据所述积极增量和所述消极增量，利用机器学习算法分别学习所述目标用户对所述积极建议和所述消极建议的响应度；并且在第四步骤中，利用所述响应度，对所述积极建议和所述消极建议进行聚合。

实验证明本发明能够更准确预测消费者对商品的兴趣，并且可以更有针对性地为用户推荐商品、实现精准营销。

附图说明

图1示出了根据本发明的PARSA方法结构。

图2示出了根据本发明的IARSA方法框架。

图3分别示出了在Eachmovie数据集和Netflix数据集上基于不同 TMFSF相似度计算因子下三种建议聚合方法的MAE和RMSE结果图。

图4示出了在Eachmovie数据集上选择不同相似度时各响应度区间人数统计结果。

图5示出了在Netflix数据集上选择不同相似度时各响应度区间人数统计结果。

图6示出了基于Eachmovie数据集9种方法在预测方面的结果。

图7示出了基于Netflix数据集9种方法在预测方面的结果。

图8示出了表5中9种方法的推荐方面的准确率(Precision)结果。

图9示出了表5中9种方法推荐方面的召回率(Recall)结果。

图10示出了表5中9种方法推荐方面的覆盖率(Coverage)结果。

图11示出了表5中9种方法推荐方面的多样性(Diversity)结果。

具体实施方式

现实生活中，人们对积极的建议和消极的建议的响应(即敏感性)可能是不一样的。不同用户对消极建议与积极建议的敏感性(也称为接受程度，心理学中称为响应)也可能不同。

因此，本申请做出如下假设：

假设1每一个用户对积极/消极建议的响应可能是不同的，公式化表示如下式(0)。

且

)或(

且

)或(

且

) (0)

其中，

和

分别代表多个用户中的第m个用户 (下文也简称用户m)对积极建议和消极建议的响应，

和

分别代表多个用户中的第v个用户(下文也简称用户v)对积极建议和消极建议的响应。

为了形式化表示朋友(评分相似度大于某一个值的其他评价者，也称为邻居)给出的建议给目标用户带来的影响，本申请给出定义1和定义2。

定义1积极增量：

表示用户m的邻居v关于多个项目中的第j个项目(以下简称项目j)向用户m提出的积极建议所产生的增量。

例如，积极增量的定义可以如下式(1)：

其中，

是所有邻居的积极建议给目标用户带来的关于项目j的积极增量，Sim(u_m,u_v)是用户m与用户v的评分相似度，它代表用户之间关系的远近。r_vj是用户v对项目j的评分，n代表用户m的邻居v的数目，

是用户v的评分的平均值。

这里所述的项目可以指商品或服务。

定义2消极增量：

表示用户m的邻居v关于项目j向用户m提出的消极建议所产生的增量。

例如，消极增量的定义可以如下式(2)：

其中，

是所有邻居的消极建议给目标用户带来的关于项目j的消极增量，Sim(u_m,u_v)是用户m与用户v的评分相似度，它代表用户之间关系的远近。r_vj是用户v对项目j的评分，n代表用户m的邻居v的数目，并且

是用户v的历史评分的平均值。

注意，用户v的历史评分的平均值

反映了用户v的打分特点，例如严苛的，宽容的，还是一般的。历史评分不限于上面定义中涉及的项目，且可以任何其它项目。

基于假设1、定义1和定义2，本申请对协同过滤中TSA方法进行改进，得到一个基于不对称响应的个性化建议聚合方法(PARSA)，方法框架如图 1所示。

图1示出了根据本发明的PARSA方法框架结构。该方法由四个模块组成，即基于评分矩阵的相似度计算模块、用户积极/消极增量库、用户积极/消极响应度并行学习模块、不对称响应的建议聚合模块。

如图1所示，第一步，计算多个用户中的目标用户(例如，第m个用户，以下也简称用户m或目标用户m)和其它用户之间的评分相似度，并根据评分相似度在其它用户中寻找目标用户m的邻居。

在该步骤中，可以使用已有的用户相似度方法来计算用户之间的评分相似度。例如，已知的用户相似度方法为余弦相似度、皮尔逊相似度等。

这里，邻居的数量需满足实际要求。例如，可以根据评分相似度对其它用户进行排序，并按照这个排序选取预定数量的其它用户作为目标用户的邻居。

第二步，寻找到邻居后，计算邻居给目标用户m带来的关于多个项目中的第j个项目(以下简称项目j)的积极增量和消极增量。

例如，在图1所示的实施例中，可以根据上述的定义1和定义2来计算积极增量

和消极增量

另外，在图1所示的实施例中，可以将获得的积极增量

和消极增量

保存在增量数据库中。

第三步，利用得到的积极增量

和消极增量

根据机器学习算法来学习目标用户m对积极建议和消极建议的响应度

和

另外，可以对这些作为学习结果的响应度

和

进行优化。

由于每个用户都是相互独立的，因此可以并行学习每个用户对积极建议和消极建议的响应度，如图1中的并行学习模块所示。

例如，机器学习算法可以是线性回归、神经网络、支持向量机等算法。另外，优化过程可以采用利用梯度下降、Adagrad、Adadelta等算法。

第四步，学习到每个用户对积极建议和消极建议的响应度后，对邻居的包括积极建议和消极建议在内的各个建议进行聚合，从而对目标用户进行评分预测，如图1中的预测模块。

例如，利用上述响应

和

根据如下的式(3)对邻居建议(即，上述的积极建议和消极建议)进行聚合。

其中，A是对用户m的邻居们给项目j评分进行聚合得到的项目j的聚合评分，

表示用户m对积极建议的响应，

表示用户m对消极建议的响应。

是用户m的邻居给其带来关于项目j的积极增量，

是用户m的邻居给其带来关于项目j的消极增量。

如上所述，在该方法的第三步骤中，本申请可以利用线性回归方法学习用户对积极建议和消极建议的响应度，并可以利用梯度下降方法对其进行优化。首先，定义预测评分的损失函数E(m)，如式(4)。然后，基于损失函数E(m)，利用式(5)和(6)计算积极增量的梯度

和消极增量的梯度

得到积极增量和消极增量的梯度

和

之后，根据式(7)和(8)对

和

进行迭代优化。

其中，B_m表示用户m评论的项目的项目数。r_mj表示用户m在消费历史上对项目j的历史评分。如果用户m从未对项目j作出过历史评分，则可以历史评分r_mj可以取随机值或其它用户对项目j的评分的平均值等等。

表示用户m对项目j的评分的预测值，

表示用户m对积极建议的响应度，

表示用户m对消极建议的响应度，

和

的初始值是随机生成的。

是用户m 的邻居给其带来关于项目j的积极增量，

是用户m的邻居给其带来关于项目j的消极增量。α∈[0,1]是学习率。

PARSA方法的对比方法——IARSA方法

为了分析PARSA方法的性能，本申请还提出了一种非个性化的情况—IARSA方法。该方法假设所有用户对积极(消极)建议的响应相同，如假设2：

假设2：所有用户对邻居提出的积极/消极建议的接受程度是相同的，公式化表示如式(9)。

且

其中，

和

代表用户m对积极建议和消极建议的响应度，

和

代表用户v对积极建议和消极建议的响应度，用户m和用户v是用户集中的成员。

显然，PARSA方法是一种个性化建议聚合方法。然而，IARSA方法认为所有用户对积极建议的响应是一样的，这是一种极端的、在现实生活中不太可能出现的情况。之所以提出它，是将该基于不对称响应的非个性化建议聚合方法(IARSA)作为PARSA方法的下限。

IARSA方法框架图如图2所示。该框架图与图1的结构相同，只有学习模块的计算方法不同，IARSA方法根据式(10)进行评分聚合的。

其中，A^j是对用户m的邻居们给项目j评分进行聚合得到的项目j的聚合评分，S^P表示所有用户对积极建议的共同响应度，S^N表示所有用户对消极建议的共同响应度，

是用户m的邻居给其带来关于项目j的积极增量，

是用户m的邻居给其带来关于项目j的消极增量。

与PARSA方法相同，IARSA方法也是利用线性回归方法来学习用户对积极建议和消极建议的响应度，并利用梯度下降方法进行优化。首先，利用式(11)得到所有用户的评分损失。然后，利用式(12)和(13)计算对积极建议和消极建议的梯度。最后，利用式(14)和(15)进行迭代优化。

其中，B_m表示用户m评论的项目数，M是用户的数目，r_mj表示用户m在消费历史上对项目j的评分，S^P表示所有用户对积极建议的共同响应度，S^N表示所有用户对消极建议的共同响应度。

是用户m的邻居给其带来关于项目j的积极增量，

是用户m的邻居给其带来关于项目j的消极增量，α∈[0,1]是学习率。

实验及结果分析

为了验证本申请提出的PARSA和IARSA方法的性能，并与传统的建议聚合方法(TSA)进行对比，本申请基于两套数据集(Eachmovie和Netflix) 和三种用户相似度方法，也即邻居发现方法(PCC、TMFSF和HySim。注：先发现邻居，再根据邻居的评分聚合邻居的意见，最后得到聚合的评分)设计了四套实验。在第一套实验中，为了得到最优的TMFSF相似度，本申请用MAE和RMSE对TMFSF+TSA、TMFSF+IARSA和TMFSF+PARSA方法进行插值评估；在第二套实验中，为了验证本申请提出的假设1和假设2，本申请统计了PCC+PARSA、TMFSF+PARSA和HySim+PARSA方法中用户在不同响应度下的数目；在第三套实验室中，为了验证TSA、IARSA和 PARSA方法在评分预测方面的性能，本申请用MAE和RMSE对这些方法进行评估；在第四套实验室中，为了验证TSA、IARSA和PARSA方法在推荐方面的性能，本申请用准确率(Precision)、召回率(Recall)、覆盖率 (Coverage)和多样性(Diversity)对这些方法进行评估。

在第三套实验中应用TSA方法预测用户m对项目j的评分时所用公式为(16)。

其中,预测用户m对项目j的评分，

是用户m评分的平均值， sim(u_m,u_v)为用户m和用户v之间的相似度，

是用户v评分的平均值，r_v,j是用户v对项目j的评分。

在应用PARSA预测用户m对项目j的评分时所用公式为(17)，其中的 A^j应用公式(3)计算得到。在应用IARSA方法预测用户m对项目j的评分时所用公式仍为(17)，但是其中的A^j应用公式(10)计算得到。

其中，A^j是对用户m的邻居们给项目j评分进行聚合得到的项目j的聚合评分，

是用户m评分的平均值。

在第四套实验中应用TSA、PARSA和IARSA方法为用户推荐产品时，首先利用第三套实验相同的方法得到预测评分，再对预测的评分进排序，最后应用top-10方法生成推荐列表。

3.1数据集

本申请选择了两种不同稀疏性的电影数据集进行实验：Eachmovie(评分等级为0，0.2，0.4，0.6，0.8，1.0.http://www.kumpf.org/eachtoeach/ eachmovie.html)和Netflix(评分等级为0，1，2，3，4，5. http://www.datatang.com/data/45455)。因为在Eachmovie和Netflix数据集中有许多不活跃的用户，所以本节对两个数据集进行了数据预处理，具体信息如表2和表3。

表2数据集Eachmovie的原数据及预处理

表3数据集Netflix的原数据及预处理

因为Eachmovie数据集稀疏性较大，所以本节过滤掉其中评论数少于 200的用户。而Netflix数据集稀疏性较小，所以本节过滤掉其中评论数少于 500的用户。对于两种数据集，本申请将其随机分为10份，选择8份作为训练集，剩余2份作为测试集，并采用交叉验证的方法进行实验。

3.2评估标准

本申请在实验中，为了验证TSA、PARSA和IARSA在评分预测方面的性能，采用绝对平均误差(MAE)和(RMSE)进行评估，如式(18)和(19)；为了验证TSA、PARSA和IARSA在推荐方面的性能，本申请采用准确率 (Precision)、召回率(Recall)、多样性(Diversity)和覆盖率(Coverage) 进行评估，如式(20)-(23)。

其中，Ω^test是测试集，|Ω^test|代表测试集的大小。r_mj是用户m对项目j的评分，

是用户m对项目j的预测评分。L_u是用户u的推荐列表，B_u是测试集中用户喜欢的项目的集合，User是用户集合，n是用户集的大小。

3.3实验设置

为了验证本申请提出的建议聚合方法(PARSA)的性能，本章将它们与本申请给出的IARSA方法和传统的建议聚合方法(TSA)进行对比。为了分析邻居寻找方法对建议聚合方法的影响，本申请选择三种用户相似度寻找邻居：皮尔逊相似度(PCC)、TMFSF相似度和一种混合的相似度(HySim)。皮尔逊相似度是一种经典的相似度方法。TMFSF方法是文献提出的一种相似度方法，它综合了改进的皮尔逊相似度并且融入信任关系。而混合相似度考虑了四种因素：用户之间非线性关系，项目相似性，非共评论数据，非对称因子。三种相似度和三种建议聚合方法的简写形式如表4所示。为了分析聚合方法性能受到数据集稀疏性和随机性的影响，本申请选用两种不同的数据集进行验证。其中，Eachmovie数据集稀疏性较大；Netflix数据集稀疏性较小。

表4相似度及建议聚合方法对应简写

为了验证本申请提出的方法的性能，本申请设置了四套实验。

(1)因为TMFSF相似度的计算与参数f有关，所以第一套实验旨在得到TMFSF相似度的最优参数值。在第一套实验中，本申请选择MAE和 RMSE评估基于TMFSF相似度的三种建议聚合方法(TSA、IARSA和 PARSA)的性能。

(2)由于PARSA方法学习了每个用户对消极建议和积极建议的响应，第二套实验旨在统计PCC、TMFSF和HySim三种相似度计算方法下用户对积极建议和消极建议的各响应值区间人数，以验证假设1和假设2。

(3)第三套实验旨在比较TSA、IARSA和PARSA方法在预测方面的性能。因此，本申请用MAE和RMSE指标评估基于PCC、TMFSF和HySim 三种相似度的PARSA方法，IARSA方法和TSA方法的性能。

(4)第四套实验旨在比较PCC、TMFSF和HySim相似度下TSA、IARSA 和PARSA三种建议聚合方法在推荐方面的性能。

以上实验涉及三种用户相似度方法(PCC、TMFSF和HySim)和三种建议聚合方法(TSA、IARSA和PARSA)。它们组合得到9种方法，具体信息如表5。在实验过程中做了一些实验设置，具体信息如表6所示。在PARSA 和IARSA方法中使用的梯度下降法中，本申请将学习率设为0.15，迭代次数设为500000次。由于两种数据集的评分标准不同，对于Eachmovie数据集，本申请将误差阈值设置为0.001；对于Netflix数据集，本申请将误差阈值设置为0.005。在实现HySim相似度时，需要人为设定一种平滑参数，本申请将其设为0.5。此外，为了得到TMFSF相似度中最优的相似度影响因子，第一套插值实验中的具体插值为1.0，1.1，1.2，1.3，1.4和1.5。第二套实验中，响应值分为10个区间，分别为[0.0,0.1)，[0.1,0.2)，[0.2,0.3)，[0.3,0.4)， [0.4,0.5)，[0.5,0.6)，[0.6,0.7)，[0.7,0.8)，[0.8,0.9)和[0.9,1.0]。由于邻居的数目是影响预测性能的一个因素，所以第三套和第四套实验中本申请在两种数据集上设置邻居数目为10，30，50，70，90，110，130，150和170。

表5不同相似度度量下的对比方法

表6梯度下降方法参数值

3.4实验结果分析

本节主要分析上述四套实验所得到的结果。在3.4.1节中，分析了第一套实验的结果，基于两套数据集(Eachmovie和Netflix)得到最优的TMFSF 相似度；在3.4.2节中，分析了第二套实验的结果，得到了不同响应值区间的用户数目统计图；在3.4.2节中，分析了第三套实验的结果，得到了所有方法的预测性能结果；在3.4.4节中，分析了第四套实验的结果，得到了所有方法的推荐性能结果。

3.4.1TMFSF相似度中最优相似度因子选择

本节分析了第一套实验的结果。在第一套实验中，本申请在两种数据上实现了不同相似度因子f下的TMFSF相似度，并基于TMFSF相似度实现三种建议聚合方法(TSA、IARSA和PARSA)。为了得到最优的TMFSF相似度，本申请选择MAE和RMSE对这些方法进行插值评估，结果如图3所示。

图3中的(a)是在Eachmovie数据集上不同相似度因子f(TMFSF相似度)下建议聚合方法的MAE和RMSE结果图。根据图3中的(a)可以知道，当选择f值为1.0的TMFSF相似度时，所有建议聚合方法的MEA和 RMSE值到达最优。另外，图3中的(b)是在Netflix数据集上不同相似度因子f下方法的MAE和RMSE结果图。根据图3中的(b)可以知道，当选择f值为1.1的TMFSF相似度时，所有建议聚合方法的MEA和RMSE 值到达最优。根据上述分析，可以得出结果：在Eachmovie数据集上，本申请将TMFSF相似度中的影响因子f设为1.0；在Netflix数据集上，本申请将TMFSF相似度中的影响因子f设为1.1。

3.4.2不同响应度区间内人数统计分析

本节分析了第二套实验的结果。在第二套实验中，本申请在两种数据集上(Eachmovie和Netflix)实现了表5种列出的PCC+PARSA、TMFSF+PARSA 和HySim+PARSA方法，并统计了不同响应值区间的用户数目，结果如图4 和5。其中，图4展示了在Eachmovie数据集上选择不同相似度时各响应度区间人数统计结果。从图4中的(a)和5中的(b)中可以看到，当选择 PCC相似度时，大多数用户对积极建议的响应值主要集中在0.2到0.5之间，对消极建议的响应值主要集中在0.5到0.8之间。另外，图5展示了在Netflix 数据集上选择不同相似度时响应统计结果。从图5中的(a)和图5中的(b) 中可以看到，当选择PCC相似度时，大多数用户对积极建议的响应值主要集中在0.2到0.5之间，对消极建议的响应值主要集中在0.5到0.8之间。从图4和5中，可以发现当选择TMFSF和HySim相似度时，统计结果与选择 PCC相似度的结果相似。

综合上述分析，可以得出结论：

结论1：不论在稀疏数据集还是稠密数据集上，大部分用户对消极建议更敏感，这和心理学得出的结论一致。

3.4.3预测结果分析

本节分析了第三套实验的结果。在第三套实验中，本申请在两套数据集(Eachmovie和Netflix)上实现了表5中的9种方法，并用MAE和RMSE 评估它们在预测方面的性能，结果如图6和图7所示。

图6展示基于Eachmovie数据集9种方法在预测方面的结果。从图6中可以看出，基于Eachmovie数据集，所有方法的MAE和RMSE曲线先降低、后升高，最后趋于稳定。无论选择哪一种相似度，无论邻居数目是多少， PARSA方法的MAE最小，TSA方法的MAE值最大。当邻居数目为70时， PCC+(TSA、IARSA和PARSA)方法的MAE都达到了最小值；当邻居数目为70时，TMFSF+(TSA、IARSA和PARSA)方法的MAE都达到了最小值；当邻居数目为50时，HySim+(TSA、IARSA和PARSA)方法的MAE 都达到了最小值。为了定性的分析PARSA和IARSA方法的性能，本申请将方法的MAE的最小值进行比较，具体信息如表7(a)所示。从表7(a)中可以得出，当选择PCC相似度时，PARSA方法的MAE值比TSA方法降低 7.32％，IARSA方法的MAE值比TSA方法降低3.28％；当选择TMFSF相似度时，PARSA方法的MAE值比TSA方法降低16.04％，IARSA方法的 MAE值比TSA方法降低3.86％；当选择HySim相似度时，PARSA方法的 MAE值比TSA方法降低13.59％，IARSA方法的MAE值比TSA方法降低 3.92％。图6中的(b)展示了所有方法的RMSE值，从中可以看到，无论选择哪一种相似度，无论邻居数目为多少，PARSA方法的RMSE最小，TSA 方法的RMSE值最大。当邻居数目为70时，PCC+(TSA、IARSA和PARSA) 方法的RMSE都达到了最小值；当邻居数目为70时，TMFSF+(TSA、IARSA 和PARSA)方法的RMSE都达到了最小值；当邻居数目为50时，HySim+ (TSA、IARSA和PARSA)方法的RMSE都达到了最小值。因为HySim相似度受到数据稀疏性的影响较小，所以从较少的邻居中就可以获得足够的信息。为了定性的分析PARSA和IARSA方法的性能，本申请将方法的RMSE 的最小值进行比较，具体信息如表7(b)所示。从表7(b)中可以得出，当选择PCC相似度时，PARSA方法的MAE值比TSA方法降低3.70％， IARSA方法的MAE值比TSA方法降低0.51％；当选择TMFSF相似度时， PARSA方法的MAE值比TSA方法降低6.89％，IARSA方法的MAE值比 TSA方法降低1.26％；当选择HySim相似度时，PARSA方法的MAE值比 TSA方法降低9.36％，IARSA方法的MAE值比TSA方法降低3.52％。

表7(a)Eachmovie数据集上最优评分预测性能分析结果(MAE)

表7(b)Eachmovie数据集上最优评分预测性能分析结果(RMSE)

图7展示基于Netflix数据集9种方法在预测方面结果。从图7中可以看出，基于Netflix数据集，所有方法的MAE和RMSE曲线先降低、后升高，最后趋于稳定。

图7中的(a)展示了所有方法的MAE值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的MAE最小，TSA方法的MAE值最大。当邻居数目为30时，所有方法的MAE都达到了最小值；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的MAE的最小值进行比较，具体信息如表8(a)所示。从表8(a)中可以得出，当选择PCC相似度时，PARSA方法的MAE值比TSA方法降低6.28％，IARSA 方法的MAE值比TSA方法降低3.22％；当选择TMFSF相似度时，PARSA 方法的MAE值比TSA方法降低12.61％，IARSA方法的MAE值比TSA方法降低5.03％；当选择HySim相似度时，PARSA方法的MAE值比TSA方法降低20.49％，IARSA方法的MAE值比TSA方法降低7.03％。

图7中的(b)展示了所有方法的RMSE值，从中可以看到，当选择无论选择哪一种相似度，无论邻居数目时多少，PARSA方法的RMSE最小， TSA方法的RMSE值最大。当邻居数目为30时，所有方法的RMSE都达到了最小值；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的 RMSE的最小值进行比较，具体信息如表8(b)所示。从表8(b)中可以得出，当选择PCC相似度时，PARSA方法的MAE值比TSA方法降低1.66％， IARSA方法的MAE值比TSA方法降低0.47％；当选择TMFSF相似度时， PARSA方法的MAE值比TSA方法降低1.90％，IARSA方法的MAE值比 TSA方法降低0.85％；当选择HySim相似度时，PARSA方法的MAE值比 TSA方法降低2.88％，IARSA方法的MAE值比TSA方法降低0.75％。

表8(a)Netflix数据集上最优评分预测性能分析结果(MAE)

表8(b)Netflix数据集上最优评分预测性能分析结果(RMSE)

通过比较图6和图7中的结果，可以发现两个数据集上方法的MAE和 RMSE值相差比较大。这是因为Eachmovie数据集中采用的打分形式是0.2， 0.4，0.6，0.8和1.0。而Netflix数据集中采用的打分形式为1，2，3，4和5。而且，在两个数据集上方法性能最优的邻居数目不同，那是因为相关的建议聚合方法都会受到数据稀疏度的影响。数据稀疏度越高，最优邻居数目越大。通过以上分析，可以得出结论：

结论2：不论什么样的邻居发现方法，考虑人们对积极建议和消极建议不对称响应都可以提高预测性能。邻居发现方法越先进，性能提高越明显。数据越稀疏，性能提高也越明显。

3.4.4推荐结果分析

本节分析了第四套实验的结果。在第四套实验中，本申请在两套数据集上实现了表5中的9种方法，并用准确率(Precision)、召回率(Recall)、覆盖率(Coverage)和多样性(Diversity)评估它们在推荐方面的性能，结果如图8、9、10和11所示。

图8展示表5中9种方法的推荐方面的Precision结果。从图9中可以看出，所有方法的Precision曲线先高、后降低。图9中的(a)展示了Eachmovie 数据集上所有方法的Precision值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Precision最大，TSA方法的Precision 值最小。当邻居数目为70时，PCC+(TSA、IARSA和PARSA)方法的Precision 都达到了最大值；当邻居数目为70时，TMFSF+(TSA、IARSA和PARSA) 方法的Precision都达到了最大值；当邻居数目为50时，HySim+(TSA、IARSA 和PARSA)方法的Precision都达到了最大值。根据上述分析，可以发现 HySim+(TSA、IARSA和PARSA)方法达到最优Precision值的邻居数目比另外两种相似度少，这是因为HySim受到数据稀疏的影响较小，可以从较少的邻居中挖掘足够的信息。为了定性的分析PARSA和IARSA方法的性能，本申请将方法的Precision的最大值进行比较，具体信息如表9(a)所示。从表9(a)中可以得出，当选择PCC相似度时，PARSA方法的精度比TSA 方法提高了16.67％，IARSA方法的精度比TSA方法提高了5.91％；当选择 TMFSF相似度时，PARSA方法的精度比TSA方法提高了12.55％，IARSA 方法的精度比TSA方法提高了2.43％；当选择HySim相似度时，PARSA方法的精度值比TSA方法提高了8.76％，IARSA方法的精度比TSA方法提高了3.14％。图8中的(b)展示了Netflix数据集上所有方法的Precision值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Precision最大，TSA方法的Precision值最小。当邻居数目为30时，所有方法的Precision都达到了最大值；为了定量的分析PARSA和IARSA方法的性能，本申请将所有方法的Precision的最大值进行比较，具体信息如表9(b)所示。从表9(b)中可以得出，当选择PCC相似度时，PARSA 方法的精度比TSA方法提高了5.18％，IARSA方法的精度比TSA方法提高了1.30％；当选择TMFSF相似度时，PARSA方法的精度比TSA方法提高了9.64％，IARSA方法的精度比TSA方法提高了2.94％；当选择HySim相似度时，PARSA方法的精度值比TSA方法提高了2.83％，IARSA方法的精度比TSA方法提高了0.94％。综合上述分析，PARSA和IARSA方法可以提高建议聚合方法的精度，而且数据越稠密，提高的越明显。

表9(a)Eachmovie数据集最优推荐性能分析结果(Precision)

表9(b)Netflix数据集最有性能分析结果(Precision)

图9展示表5中9种方法推荐方面的Recall结果。从图9中可以看出，所有方法的Recall曲线先高、后降低。图9中的(a)展示了Eachmovie数据集上所有方法的Recall值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Recall值最大，TSA方法的Recall值最小。当邻居数目为50时，所有方法的Recall值都达到了最大值；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的召回率的最大值进行比较，具体信息如表10(a)所示。从表10(a)中可以得出，当选择PCC相似度时，PARSA方法的召回率比TSA方法提高了1.69％，IARSA方法的召回率比TSA方法提高了0.45％；当选择TMFSF相似度时，PARSA方法的召回率比TSA方法提高了1.91％，IARSA方法的召回率比TSA方法提高了0.85％；当选择HySim相似度时，PARSA方法的召回率值比TSA方法提高了2.89％，IARSA方法的召回率比TSA方法提高了0.76％。图9中的(b) 展示了Netflix数据集上所有方法的Recall值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Recall值最大，TSA方法的Recall值最小。当邻居数目为30时，所有方法的Recall值都达到了最大值；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的召回率的最大值进行比较，具体信息如表10(b)所示。从表10(b)中可以得出，当选择PCC相似度时，PARSA方法的召回率比TSA方法提高了2.46％， IARSA方法的召回率比TSA方法提高了0.62％；当选择TMFSF相似度时， PARSA方法的召回率比TSA方法提高了5.39％，IARSA方法的召回率比 TSA方法提高了1.81％；当选择HySim相似度时，PARSA方法的召回率值比TSA方法提高了2.50％，IARSA方法的召回率比TSA方法提高了0.77％。综合上述分析，PARSA和IARSA方法可以提高建议聚合方法的召回率，而且数据越稠密，提高的越明显。

表10(a)Eachmovie数据集最优推荐性能分析结果(Recall)

表10(b)Netflix数据集最优推荐性能分析结果(Recall)

图10展示表5中9种方法推荐方面的Coverage结果。从图10中可以看出，所有方法的Coverage曲线随着邻居数目的增加而降低。图10中的(a) 展示了Eachmovie数据集上所有方法的Coverage值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Coverage值最大， TSA方法的Coverage值最小。当邻居数目大于90时，所有方法的Coverage 值将变化不大；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的在邻居为90时的覆盖率进行比较，具体信息如表11(a)所示。从表 11(a)中可以得出，当选择PCC相似度时，PARSA方法的覆盖率比TSA 方法提高了1.41％，IARSA方法的覆盖率比TSA方法提高了0.41％；当选择TMFSF相似度时，PARSA方法的覆盖率比TSA方法提高了3.70％，IARSA方法的覆盖率比TSA方法提高了1.92％；当选择HySim相似度时，PARSA 方法的覆盖率值比TSA方法提高了1.78％，IARSA方法的覆盖率比TSA方法提高了0.69％。

表11(a)Eachmovie数据集最优推荐性能分析结果(Coverage)

表11(b)Netflix数据集最优推荐性能分析结果(Coverage)

图10中的(b)展示了Netflix数据集上所有方法的Coverage值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Coverage值最大，TSA方法的Coverage值最小。当邻居数目大于130时，所有方法的Coverage值将变化不大；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的在邻居为90时的覆盖率进行比较，具体信息如表11(b)所示。从表11(b)中可以得出，当选择PCC相似度时，PARSA 方法的覆盖率比TSA方法提高了14.56％，IARSA方法的覆盖率比TSA方法提高了5.83％；当选择TMFSF相似度时，PARSA方法的覆盖率比TSA 方法提高了18.94％，IARSA方法的覆盖率比TSA方法提高了7.58％；当选择HySim相似度时，PARSA方法的覆盖率值比TSA方法提高了6.88％， IARSA方法的覆盖率比TSA方法提高了2.65％。综合上述分析，PARSA和 IARSA方法可以提高建议聚合方法的覆盖率。

图11展示表5中9种方法推荐方面的Diversity结果。从图11中可以看出，所有方法的Diversity曲线随着邻居数目的增加而增加。图11中的(a) 展示了Eachmovie数据集上所有方法的Diversity值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的Diversity值最大， TSA方法的Diversity值最小。当邻居数目大于90时，所有方法的Diversity 值将变化不大；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的在邻居为90时的多样性进行比较，具体信息如表12(a)所示。从表 12(a)中可以得出，当选择PCC相似度时，PARSA方法的多样性比TSA 方法提高了2.85％，IARSA方法的多样性比TSA方法提高了0.55％；当选择TMFSF相似度时，PARSA方法的多样性比TSA方法提高了4.94％，IARSA 方法的多样性比TSA方法提高了1.46％；当选择HySim相似度时，PARSA 方法的多样性值比TSA方法提高了3.27％，IARSA方法的多样性比TSA方法提高了1.27％。

图11中的(b)展示了Netflix数据集上所有方法的Diversity值，从中可以看到，无论选择哪一种相似度，无论邻居数目是多少，PARSA方法的 Diversity值最大，TSA方法的Diversity值最小。当邻居数目大于130时，所有方法的Diversity值将变化不大；为了定量的分析PARSA和IARSA方法的性能，本申请将方法的在邻居为130时的多样性进行比较，具体信息如表12(b)所示。从表12(b)中可以得出，当选择PCC相似度时，PARSA 方法的多样性比TSA方法提高了14.56％，IARSA方法的多样性比TSA方法提高了5.83％；当选择TMFSF相似度时，PARSA方法的多样性比TSA 方法提高了18.94％，IARSA方法的多样性比TSA方法提高了7.58％；当选择HySim相似度时，PARSA方法的多样性值比TSA方法提高了6.88％， IARSA方法的多样性比TSA方法提高了2.65％。综合上述分析，PARSA和 IARSA方法可以提高建议聚合方法的多样性。

表12(a)Eachmovie数据集最优推荐性能分析结果(Diversity)

表12(b)Netflix数据集最优推荐性能分析结果(Diversity)

综合上述分析，得出以下结论：

结论3：考虑用户对积极建议和消极建议不对称响应的聚合方法可以提高推荐方法的性能，数据越稠密，提高的越明显。