CN110704496B - 基于不对称响应的建议聚合方法 - Google Patents
基于不对称响应的建议聚合方法 Download PDFInfo
- Publication number
- CN110704496B CN110704496B CN201910822227.7A CN201910822227A CN110704496B CN 110704496 B CN110704496 B CN 110704496B CN 201910822227 A CN201910822227 A CN 201910822227A CN 110704496 B CN110704496 B CN 110704496B
- Authority
- CN
- China
- Prior art keywords
- increment
- target user
- user
- similarity
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于不对称响应的建议聚合方法,该建议聚合方法包括:在第一步骤中,计算多个用户中的目标用户和其它用户之间的评分相似度,并根据评分相似度在其它用户中寻找目标用户的邻居;在第二步骤中,计算邻居的建议给目标用户带来的关于各个项目的积极增量和消极增量,其中,积极增量表示邻居关于项目向目标用户提出的积极建议所产生的增量,且消极增量表示邻居关于项目向目标用户提出的消极建议所产生的增量;在第三步骤中,根据积极增量和消极增量,利用机器学习算法分别学习目标用户对积极建议和消极建议的响应度;并且在第四步骤中,利用响应度,对积极建议和消极建议进行聚合。
Description
技术领域
本发明涉及数据挖掘和机器学习领域,更具体地涉及一种基于不对称响应的建议聚合方法。
背景技术
随着智能设备的普及和互联网的发展,人们的消费理念和消费模式都发生了巨大的改变,网上购物成为人们普遍的消费方式。在现实的电子商务购物过程中,消费者在体验过商品或服务之后经常会在商品主页上发表自己对商品的评论,因此这些大量的在线历史评论为消费者购买商品时对商品的评价提供了决策参考。
一方面,消费者在购买商品时会充分考虑历史购买者给出的评价(也称为建议)。每个评价者的建议都会对后面消费者对该商品的评价和最终决策形成一定的影响。评价者给出的积极建议会提高目标消费者的购买欲望,而消极建议会降低消费者的购买欲望。因此,准确获取消费者对消极建议和积极建议的敏感性对准确的消费者画像有重要的意义。
另一方面,融合用户对积极/消极建议的不同敏感性(即响应度、响应因子,有时简称为响应),设计一种邻居建议聚合方法,能够更准确地预测消费者对商品的评价并针对性地推荐商品对于商家精准营销来说至关重要。
发明内容
为此,本发明提出了一种基于不对称响应的建议聚合方法,并将该方法应用于用户兴趣预测和推荐中。
本发明的建议聚合方法属于数据挖掘、机器学习领域。在不同邻居发现方式、不同体量和稀疏度数据以及不同应用需求下,PARSA方法都优于其他对比方法;对比其他方法,PARSA方法融合心理学结论“用户对积极建议和消极建议的响应不同”及机器学习技术以学习用户对他人积极/消极建议的响应度,并给出了一种新的邻居建议聚合方法,属于机器学习技术。在不同邻居发现方式、不同体量和稀疏度数据下用户兴趣预测和电影推荐方面都表现出很大的优势,因此PAR方法SA方法可直接应用到真实的电子商务环境中。
具体地,本发明提出了一种基于不对称响应的建议聚合方法,该建议聚合方法包括:在第一步骤中,计算多个用户中的目标用户和其它用户之间的评分相似度,并根据所述评分相似度在所述其它用户中寻找所述目标用户的邻居;在第二步骤中,计算所述邻居的建议给所述目标用户带来的关于各个项目的积极增量和消极增量,其中,所述积极增量表示所述邻居关于所述项目向所述目标用户提出的积极建议所产生的增量,且所述消极增量表示所述邻居关于所述项目向所述目标用户提出的消极建议所产生的增量;在第三步骤中,根据所述积极增量和所述消极增量,利用机器学习算法分别学习所述目标用户对所述积极建议和所述消极建议的响应度;并且在第四步骤中,利用所述响应度,对所述积极建议和所述消极建议进行聚合。
实验证明本发明能够更准确预测消费者对商品的兴趣,并且可以更有针对性地为用户推荐商品、实现精准营销。
附图说明
图1示出了根据本发明的PARSA方法结构。
图2示出了根据本发明的IARSA方法框架。
图3分别示出了在Eachmovie数据集和Netflix数据集上基于不同 TMFSF相似度计算因子下三种建议聚合方法的MAE和RMSE结果图。
图4示出了在Eachmovie数据集上选择不同相似度时各响应度区间人数统计结果。
图5示出了在Netflix数据集上选择不同相似度时各响应度区间人数统计结果。
图6示出了基于Eachmovie数据集9种方法在预测方面的结果。
图7示出了基于Netflix数据集9种方法在预测方面的结果。
图8示出了表5中9种方法的推荐方面的准确率(Precision)结果。
图9示出了表5中9种方法推荐方面的召回率(Recall)结果。
图10示出了表5中9种方法推荐方面的覆盖率(Coverage)结果。
图11示出了表5中9种方法推荐方面的多样性(Diversity)结果。
具体实施方式
现实生活中,人们对积极的建议和消极的建议的响应(即敏感性)可能是不一样的。不同用户对消极建议与积极建议的敏感性(也称为接受程度,心理学中称为响应)也可能不同。
因此,本申请做出如下假设:
假设1每一个用户对积极/消极建议的响应可能是不同的,公式化表示如下式(0)。
为了形式化表示朋友(评分相似度大于某一个值的其他评价者,也称为邻居)给出的建议给目标用户带来的影响,本申请给出定义1和定义2。
例如,积极增量的定义可以如下式(1):
其中,是所有邻居的积极建议给目标用户带来的关于项目j的积极增量,Sim(um,uv)是用户m与用户v的评分相似度,它代表用户之间关系的远近。rvj是用户v对项目j的评分,n代表用户m的邻居v的数目,是用户v的评分的平均值。
这里所述的项目可以指商品或服务。
例如,消极增量的定义可以如下式(2):
其中,是所有邻居的消极建议给目标用户带来的关于项目j的消极增量,Sim(um,uv)是用户m与用户v的评分相似度,它代表用户之间关系的远近。rvj是用户v对项目j的评分,n代表用户m的邻居v的数目,并且是用户v的历史评分的平均值。
基于假设1、定义1和定义2,本申请对协同过滤中TSA方法进行改进,得到一个基于不对称响应的个性化建议聚合方法(PARSA),方法框架如图 1所示。
图1示出了根据本发明的PARSA方法框架结构。该方法由四个模块组成,即基于评分矩阵的相似度计算模块、用户积极/消极增量库、用户积极/消极响应度并行学习模块、不对称响应的建议聚合模块。
如图1所示,第一步,计算多个用户中的目标用户(例如,第m个用户,以下也简称用户m或目标用户m)和其它用户之间的评分相似度,并根据评分相似度在其它用户中寻找目标用户m的邻居。
在该步骤中,可以使用已有的用户相似度方法来计算用户之间的评分相似度。例如,已知的用户相似度方法为余弦相似度、皮尔逊相似度等。
这里,邻居的数量需满足实际要求。例如,可以根据评分相似度对其它用户进行排序,并按照这个排序选取预定数量的其它用户作为目标用户的邻居。
第二步,寻找到邻居后,计算邻居给目标用户m带来的关于多个项目中的第j个项目(以下简称项目j)的积极增量和消极增量。
由于每个用户都是相互独立的,因此可以并行学习每个用户对积极建议和消极建议的响应度,如图1中的并行学习模块所示。
例如,机器学习算法可以是线性回归、神经网络、支持向量机等算法。另外,优化过程可以采用利用梯度下降、Adagrad、Adadelta等算法。
第四步,学习到每个用户对积极建议和消极建议的响应度后,对邻居的包括积极建议和消极建议在内的各个建议进行聚合,从而对目标用户进行评分预测,如图1中的预测模块。
其中,A是对用户m的邻居们给项目j评分进行聚合得到的项目j的聚合评分,表示用户m对积极建议的响应,表示用户m对消极建议的响应。是用户m的邻居给其带来关于项目j的积极增量,是用户m的邻居给其带来关于项目j的消极增量。
如上所述,在该方法的第三步骤中,本申请可以利用线性回归方法学习用户对积极建议和消极建议的响应度,并可以利用梯度下降方法对其进行优化。首先,定义预测评分的损失函数E(m),如式(4)。然后,基于损失函数E(m),利用式(5)和(6)计算积极增量的梯度和消极增量的梯度得到积极增量和消极增量的梯度和之后,根据式(7)和(8)对和进行迭代优化。
其中,Bm表示用户m评论的项目的项目数。rmj表示用户m在消费历史上对项目j的历史评分。如果用户m从未对项目j作出过历史评分,则可以历史评分rmj可以取随机值或其它用户对项目j的评分的平均值等等。表示用户m对项目j的评分的预测值,表示用户m对积极建议的响应度,表示用户m对消极建议的响应度,和的初始值是随机生成的。是用户m 的邻居给其带来关于项目j的积极增量,是用户m的邻居给其带来关于项目j的消极增量。α∈[0,1]是学习率。
PARSA方法的对比方法——IARSA方法
为了分析PARSA方法的性能,本申请还提出了一种非个性化的情况—IARSA方法。该方法假设所有用户对积极(消极)建议的响应相同,如假设2:
假设2:所有用户对邻居提出的积极/消极建议的接受程度是相同的,公式化表示如式(9)。
显然,PARSA方法是一种个性化建议聚合方法。然而,IARSA方法认为所有用户对积极建议的响应是一样的,这是一种极端的、在现实生活中不太可能出现的情况。之所以提出它,是将该基于不对称响应的非个性化建议聚合方法(IARSA)作为PARSA方法的下限。
IARSA方法框架图如图2所示。该框架图与图1的结构相同,只有学习模块的计算方法不同,IARSA方法根据式(10)进行评分聚合的。
其中,Aj是对用户m的邻居们给项目j评分进行聚合得到的项目j的聚合评分,SP表示所有用户对积极建议的共同响应度,SN表示所有用户对消极建议的共同响应度,是用户m的邻居给其带来关于项目j的积极增量,是用户m的邻居给其带来关于项目j的消极增量。
与PARSA方法相同,IARSA方法也是利用线性回归方法来学习用户对积极建议和消极建议的响应度,并利用梯度下降方法进行优化。首先,利用式(11)得到所有用户的评分损失。然后,利用式(12)和(13)计算对积极建议和消极建议的梯度。最后,利用式(14)和(15)进行迭代优化。
其中,Bm表示用户m评论的项目数,M是用户的数目,rmj表示用户m在消费历史上对项目j的评分,SP表示所有用户对积极建议的共同响应度,SN表示所有用户对消极建议的共同响应度。是用户m的邻居给其带来关于项目j的积极增量,是用户m的邻居给其带来关于项目j的消极增量,α∈[0,1]是学习率。
实验及结果分析
为了验证本申请提出的PARSA和IARSA方法的性能,并与传统的建议聚合方法(TSA)进行对比,本申请基于两套数据集(Eachmovie和Netflix) 和三种用户相似度方法,也即邻居发现方法(PCC、TMFSF和HySim。注:先发现邻居,再根据邻居的评分聚合邻居的意见,最后得到聚合的评分)设计了四套实验。在第一套实验中,为了得到最优的TMFSF相似度,本申请用MAE和RMSE对TMFSF+TSA、TMFSF+IARSA和TMFSF+PARSA方法进行插值评估;在第二套实验中,为了验证本申请提出的假设1和假设2,本申请统计了PCC+PARSA、TMFSF+PARSA和HySim+PARSA方法中用户在不同响应度下的数目;在第三套实验室中,为了验证TSA、IARSA和 PARSA方法在评分预测方面的性能,本申请用MAE和RMSE对这些方法进行评估;在第四套实验室中,为了验证TSA、IARSA和PARSA方法在推荐方面的性能,本申请用准确率(Precision)、召回率(Recall)、覆盖率 (Coverage)和多样性(Diversity)对这些方法进行评估。
在第三套实验中应用TSA方法预测用户m对项目j的评分时所用公式为(16)。
在应用PARSA预测用户m对项目j的评分时所用公式为(17),其中的 Aj应用公式(3)计算得到。在应用IARSA方法预测用户m对项目j的评分时所用公式仍为(17),但是其中的Aj应用公式(10)计算得到。
在第四套实验中应用TSA、PARSA和IARSA方法为用户推荐产品时,首先利用第三套实验相同的方法得到预测评分,再对预测的评分进排序,最后应用top-10方法生成推荐列表。
3.1数据集
本申请选择了两种不同稀疏性的电影数据集进行实验:Eachmovie(评分等级为0,0.2,0.4,0.6,0.8,1.0.http://www.kumpf.org/eachtoeach/ eachmovie.html)和Netflix(评分等级为0,1,2,3,4,5. http://www.datatang.com/data/45455)。因为在Eachmovie和Netflix数据集中有许多不活跃的用户,所以本节对两个数据集进行了数据预处理,具体信息如表2和表3。
表2数据集Eachmovie的原数据及预处理
表3数据集Netflix的原数据及预处理
因为Eachmovie数据集稀疏性较大,所以本节过滤掉其中评论数少于 200的用户。而Netflix数据集稀疏性较小,所以本节过滤掉其中评论数少于 500的用户。对于两种数据集,本申请将其随机分为10份,选择8份作为训练集,剩余2份作为测试集,并采用交叉验证的方法进行实验。
3.2评估标准
本申请在实验中,为了验证TSA、PARSA和IARSA在评分预测方面的性能,采用绝对平均误差(MAE)和(RMSE)进行评估,如式(18)和(19);为了验证TSA、PARSA和IARSA在推荐方面的性能,本申请采用准确率 (Precision)、召回率(Recall)、多样性(Diversity)和覆盖率(Coverage) 进行评估,如式(20)-(23)。
其中,Ωtest是测试集,|Ωtest|代表测试集的大小。rmj是用户m对项目j的评分,是用户m对项目j的预测评分。Lu是用户u的推荐列表,Bu是测试集中用户喜欢的项目的集合,User是用户集合,n是用户集的大小。
3.3实验设置
为了验证本申请提出的建议聚合方法(PARSA)的性能,本章将它们与本申请给出的IARSA方法和传统的建议聚合方法(TSA)进行对比。为了分析邻居寻找方法对建议聚合方法的影响,本申请选择三种用户相似度寻找邻居:皮尔逊相似度(PCC)、TMFSF相似度和一种混合的相似度(HySim)。皮尔逊相似度是一种经典的相似度方法。TMFSF方法是文献提出的一种相似度方法,它综合了改进的皮尔逊相似度并且融入信任关系。而混合相似度考虑了四种因素:用户之间非线性关系,项目相似性,非共评论数据,非对称因子。三种相似度和三种建议聚合方法的简写形式如表4所示。为了分析聚合方法性能受到数据集稀疏性和随机性的影响,本申请选用两种不同的数据集进行验证。其中,Eachmovie数据集稀疏性较大;Netflix数据集稀疏性较小。
表4相似度及建议聚合方法对应简写
为了验证本申请提出的方法的性能,本申请设置了四套实验。
(1)因为TMFSF相似度的计算与参数f有关,所以第一套实验旨在得到TMFSF相似度的最优参数值。在第一套实验中,本申请选择MAE和 RMSE评估基于TMFSF相似度的三种建议聚合方法(TSA、IARSA和 PARSA)的性能。
(2)由于PARSA方法学习了每个用户对消极建议和积极建议的响应,第二套实验旨在统计PCC、TMFSF和HySim三种相似度计算方法下用户对积极建议和消极建议的各响应值区间人数,以验证假设1和假设2。
(3)第三套实验旨在比较TSA、IARSA和PARSA方法在预测方面的性能。因此,本申请用MAE和RMSE指标评估基于PCC、TMFSF和HySim 三种相似度的PARSA方法,IARSA方法和TSA方法的性能。
(4)第四套实验旨在比较PCC、TMFSF和HySim相似度下TSA、IARSA 和PARSA三种建议聚合方法在推荐方面的性能。
以上实验涉及三种用户相似度方法(PCC、TMFSF和HySim)和三种建议聚合方法(TSA、IARSA和PARSA)。它们组合得到9种方法,具体信息如表5。在实验过程中做了一些实验设置,具体信息如表6所示。在PARSA 和IARSA方法中使用的梯度下降法中,本申请将学习率设为0.15,迭代次数设为500000次。由于两种数据集的评分标准不同,对于Eachmovie数据集,本申请将误差阈值设置为0.001;对于Netflix数据集,本申请将误差阈值设置为0.005。在实现HySim相似度时,需要人为设定一种平滑参数,本申请将其设为0.5。此外,为了得到TMFSF相似度中最优的相似度影响因子,第一套插值实验中的具体插值为1.0,1.1,1.2,1.3,1.4和1.5。第二套实验中,响应值分为10个区间,分别为[0.0,0.1),[0.1,0.2),[0.2,0.3),[0.3,0.4), [0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8),[0.8,0.9)和[0.9,1.0]。由于邻居的数目是影响预测性能的一个因素,所以第三套和第四套实验中本申请在两种数据集上设置邻居数目为10,30,50,70,90,110,130,150和170。
表5不同相似度度量下的对比方法
表6梯度下降方法参数值
3.4实验结果分析
本节主要分析上述四套实验所得到的结果。在3.4.1节中,分析了第一套实验的结果,基于两套数据集(Eachmovie和Netflix)得到最优的TMFSF 相似度;在3.4.2节中,分析了第二套实验的结果,得到了不同响应值区间的用户数目统计图;在3.4.2节中,分析了第三套实验的结果,得到了所有方法的预测性能结果;在3.4.4节中,分析了第四套实验的结果,得到了所有方法的推荐性能结果。
3.4.1TMFSF相似度中最优相似度因子选择
本节分析了第一套实验的结果。在第一套实验中,本申请在两种数据上实现了不同相似度因子f下的TMFSF相似度,并基于TMFSF相似度实现三种建议聚合方法(TSA、IARSA和PARSA)。为了得到最优的TMFSF相似度,本申请选择MAE和RMSE对这些方法进行插值评估,结果如图3所示。
图3中的(a)是在Eachmovie数据集上不同相似度因子f(TMFSF相似度)下建议聚合方法的MAE和RMSE结果图。根据图3中的(a)可以知道,当选择f值为1.0的TMFSF相似度时,所有建议聚合方法的MEA和 RMSE值到达最优。另外,图3中的(b)是在Netflix数据集上不同相似度因子f下方法的MAE和RMSE结果图。根据图3中的(b)可以知道,当选择f值为1.1的TMFSF相似度时,所有建议聚合方法的MEA和RMSE 值到达最优。根据上述分析,可以得出结果:在Eachmovie数据集上,本申请将TMFSF相似度中的影响因子f设为1.0;在Netflix数据集上,本申请将TMFSF相似度中的影响因子f设为1.1。
3.4.2不同响应度区间内人数统计分析
本节分析了第二套实验的结果。在第二套实验中,本申请在两种数据集上(Eachmovie和Netflix)实现了表5种列出的PCC+PARSA、TMFSF+PARSA 和HySim+PARSA方法,并统计了不同响应值区间的用户数目,结果如图4 和5。其中,图4展示了在Eachmovie数据集上选择不同相似度时各响应度区间人数统计结果。从图4中的(a)和5中的(b)中可以看到,当选择 PCC相似度时,大多数用户对积极建议的响应值主要集中在0.2到0.5之间,对消极建议的响应值主要集中在0.5到0.8之间。另外,图5展示了在Netflix 数据集上选择不同相似度时响应统计结果。从图5中的(a)和图5中的(b) 中可以看到,当选择PCC相似度时,大多数用户对积极建议的响应值主要集中在0.2到0.5之间,对消极建议的响应值主要集中在0.5到0.8之间。从图4和5中,可以发现当选择TMFSF和HySim相似度时,统计结果与选择 PCC相似度的结果相似。
综合上述分析,可以得出结论:
结论1:不论在稀疏数据集还是稠密数据集上,大部分用户对消极建议更敏感,这和心理学得出的结论一致。
3.4.3预测结果分析
本节分析了第三套实验的结果。在第三套实验中,本申请在两套数据集(Eachmovie和Netflix)上实现了表5中的9种方法,并用MAE和RMSE 评估它们在预测方面的性能,结果如图6和图7所示。
图6展示基于Eachmovie数据集9种方法在预测方面的结果。从图6中可以看出,基于Eachmovie数据集,所有方法的MAE和RMSE曲线先降低、后升高,最后趋于稳定。无论选择哪一种相似度,无论邻居数目是多少, PARSA方法的MAE最小,TSA方法的MAE值最大。当邻居数目为70时, PCC+(TSA、IARSA和PARSA)方法的MAE都达到了最小值;当邻居数目为70时,TMFSF+(TSA、IARSA和PARSA)方法的MAE都达到了最小值;当邻居数目为50时,HySim+(TSA、IARSA和PARSA)方法的MAE 都达到了最小值。为了定性的分析PARSA和IARSA方法的性能,本申请将方法的MAE的最小值进行比较,具体信息如表7(a)所示。从表7(a)中可以得出,当选择PCC相似度时,PARSA方法的MAE值比TSA方法降低 7.32%,IARSA方法的MAE值比TSA方法降低3.28%;当选择TMFSF相似度时,PARSA方法的MAE值比TSA方法降低16.04%,IARSA方法的 MAE值比TSA方法降低3.86%;当选择HySim相似度时,PARSA方法的 MAE值比TSA方法降低13.59%,IARSA方法的MAE值比TSA方法降低 3.92%。图6中的(b)展示了所有方法的RMSE值,从中可以看到,无论选择哪一种相似度,无论邻居数目为多少,PARSA方法的RMSE最小,TSA 方法的RMSE值最大。当邻居数目为70时,PCC+(TSA、IARSA和PARSA) 方法的RMSE都达到了最小值;当邻居数目为70时,TMFSF+(TSA、IARSA 和PARSA)方法的RMSE都达到了最小值;当邻居数目为50时,HySim+ (TSA、IARSA和PARSA)方法的RMSE都达到了最小值。因为HySim相似度受到数据稀疏性的影响较小,所以从较少的邻居中就可以获得足够的信息。为了定性的分析PARSA和IARSA方法的性能,本申请将方法的RMSE 的最小值进行比较,具体信息如表7(b)所示。从表7(b)中可以得出,当选择PCC相似度时,PARSA方法的MAE值比TSA方法降低3.70%, IARSA方法的MAE值比TSA方法降低0.51%;当选择TMFSF相似度时, PARSA方法的MAE值比TSA方法降低6.89%,IARSA方法的MAE值比 TSA方法降低1.26%;当选择HySim相似度时,PARSA方法的MAE值比 TSA方法降低9.36%,IARSA方法的MAE值比TSA方法降低3.52%。
表7(a)Eachmovie数据集上最优评分预测性能分析结果(MAE)
表7(b)Eachmovie数据集上最优评分预测性能分析结果(RMSE)
图7展示基于Netflix数据集9种方法在预测方面结果。从图7中可以看出,基于Netflix数据集,所有方法的MAE和RMSE曲线先降低、后升高,最后趋于稳定。
图7中的(a)展示了所有方法的MAE值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的MAE最小,TSA方法的MAE值最大。当邻居数目为30时,所有方法的MAE都达到了最小值;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的MAE的最小值进行比较,具体信息如表8(a)所示。从表8(a)中可以得出,当选择PCC相似度时,PARSA方法的MAE值比TSA方法降低6.28%,IARSA 方法的MAE值比TSA方法降低3.22%;当选择TMFSF相似度时,PARSA 方法的MAE值比TSA方法降低12.61%,IARSA方法的MAE值比TSA方法降低5.03%;当选择HySim相似度时,PARSA方法的MAE值比TSA方法降低20.49%,IARSA方法的MAE值比TSA方法降低7.03%。
图7中的(b)展示了所有方法的RMSE值,从中可以看到,当选择无论选择哪一种相似度,无论邻居数目时多少,PARSA方法的RMSE最小, TSA方法的RMSE值最大。当邻居数目为30时,所有方法的RMSE都达到了最小值;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的 RMSE的最小值进行比较,具体信息如表8(b)所示。从表8(b)中可以得出,当选择PCC相似度时,PARSA方法的MAE值比TSA方法降低1.66%, IARSA方法的MAE值比TSA方法降低0.47%;当选择TMFSF相似度时, PARSA方法的MAE值比TSA方法降低1.90%,IARSA方法的MAE值比 TSA方法降低0.85%;当选择HySim相似度时,PARSA方法的MAE值比 TSA方法降低2.88%,IARSA方法的MAE值比TSA方法降低0.75%。
表8(a)Netflix数据集上最优评分预测性能分析结果(MAE)
表8(b)Netflix数据集上最优评分预测性能分析结果(RMSE)
通过比较图6和图7中的结果,可以发现两个数据集上方法的MAE和 RMSE值相差比较大。这是因为Eachmovie数据集中采用的打分形式是0.2, 0.4,0.6,0.8和1.0。而Netflix数据集中采用的打分形式为1,2,3,4和5。而且,在两个数据集上方法性能最优的邻居数目不同,那是因为相关的建议聚合方法都会受到数据稀疏度的影响。数据稀疏度越高,最优邻居数目越大。通过以上分析,可以得出结论:
结论2:不论什么样的邻居发现方法,考虑人们对积极建议和消极建议不对称响应都可以提高预测性能。邻居发现方法越先进,性能提高越明显。数据越稀疏,性能提高也越明显。
3.4.4推荐结果分析
本节分析了第四套实验的结果。在第四套实验中,本申请在两套数据集上实现了表5中的9种方法,并用准确率(Precision)、召回率(Recall)、覆盖率(Coverage)和多样性(Diversity)评估它们在推荐方面的性能,结果如图8、9、10和11所示。
图8展示表5中9种方法的推荐方面的Precision结果。从图9中可以看出,所有方法的Precision曲线先高、后降低。图9中的(a)展示了Eachmovie 数据集上所有方法的Precision值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Precision最大,TSA方法的Precision 值最小。当邻居数目为70时,PCC+(TSA、IARSA和PARSA)方法的Precision 都达到了最大值;当邻居数目为70时,TMFSF+(TSA、IARSA和PARSA) 方法的Precision都达到了最大值;当邻居数目为50时,HySim+(TSA、IARSA 和PARSA)方法的Precision都达到了最大值。根据上述分析,可以发现 HySim+(TSA、IARSA和PARSA)方法达到最优Precision值的邻居数目比另外两种相似度少,这是因为HySim受到数据稀疏的影响较小,可以从较少的邻居中挖掘足够的信息。为了定性的分析PARSA和IARSA方法的性能,本申请将方法的Precision的最大值进行比较,具体信息如表9(a)所示。从表9(a)中可以得出,当选择PCC相似度时,PARSA方法的精度比TSA 方法提高了16.67%,IARSA方法的精度比TSA方法提高了5.91%;当选择 TMFSF相似度时,PARSA方法的精度比TSA方法提高了12.55%,IARSA 方法的精度比TSA方法提高了2.43%;当选择HySim相似度时,PARSA方法的精度值比TSA方法提高了8.76%,IARSA方法的精度比TSA方法提高了3.14%。图8中的(b)展示了Netflix数据集上所有方法的Precision值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Precision最大,TSA方法的Precision值最小。当邻居数目为30时,所有方法的Precision都达到了最大值;为了定量的分析PARSA和IARSA方法的性能,本申请将所有方法的Precision的最大值进行比较,具体信息如表9(b)所示。从表9(b)中可以得出,当选择PCC相似度时,PARSA 方法的精度比TSA方法提高了5.18%,IARSA方法的精度比TSA方法提高了1.30%;当选择TMFSF相似度时,PARSA方法的精度比TSA方法提高了9.64%,IARSA方法的精度比TSA方法提高了2.94%;当选择HySim相似度时,PARSA方法的精度值比TSA方法提高了2.83%,IARSA方法的精度比TSA方法提高了0.94%。综合上述分析,PARSA和IARSA方法可以提高建议聚合方法的精度,而且数据越稠密,提高的越明显。
表9(a)Eachmovie数据集最优推荐性能分析结果(Precision)
表9(b)Netflix数据集最有性能分析结果(Precision)
图9展示表5中9种方法推荐方面的Recall结果。从图9中可以看出,所有方法的Recall曲线先高、后降低。图9中的(a)展示了Eachmovie数据集上所有方法的Recall值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Recall值最大,TSA方法的Recall值最小。当邻居数目为50时,所有方法的Recall值都达到了最大值;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的召回率的最大值进行比较,具体信息如表10(a)所示。从表10(a)中可以得出,当选择PCC相似度时,PARSA方法的召回率比TSA方法提高了1.69%,IARSA方法的召回率比TSA方法提高了0.45%;当选择TMFSF相似度时,PARSA方法的召回率比TSA方法提高了1.91%,IARSA方法的召回率比TSA方法提高了0.85%;当选择HySim相似度时,PARSA方法的召回率值比TSA方法提高了2.89%,IARSA方法的召回率比TSA方法提高了0.76%。图9中的(b) 展示了Netflix数据集上所有方法的Recall值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Recall值最大,TSA方法的Recall值最小。当邻居数目为30时,所有方法的Recall值都达到了最大值;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的召回率的最大值进行比较,具体信息如表10(b)所示。从表10(b)中可以得出,当选择PCC相似度时,PARSA方法的召回率比TSA方法提高了2.46%, IARSA方法的召回率比TSA方法提高了0.62%;当选择TMFSF相似度时, PARSA方法的召回率比TSA方法提高了5.39%,IARSA方法的召回率比 TSA方法提高了1.81%;当选择HySim相似度时,PARSA方法的召回率值比TSA方法提高了2.50%,IARSA方法的召回率比TSA方法提高了0.77%。综合上述分析,PARSA和IARSA方法可以提高建议聚合方法的召回率,而且数据越稠密,提高的越明显。
表10(a)Eachmovie数据集最优推荐性能分析结果(Recall)
表10(b)Netflix数据集最优推荐性能分析结果(Recall)
图10展示表5中9种方法推荐方面的Coverage结果。从图10中可以看出,所有方法的Coverage曲线随着邻居数目的增加而降低。图10中的(a) 展示了Eachmovie数据集上所有方法的Coverage值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Coverage值最大, TSA方法的Coverage值最小。当邻居数目大于90时,所有方法的Coverage 值将变化不大;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的在邻居为90时的覆盖率进行比较,具体信息如表11(a)所示。从表 11(a)中可以得出,当选择PCC相似度时,PARSA方法的覆盖率比TSA 方法提高了1.41%,IARSA方法的覆盖率比TSA方法提高了0.41%;当选择TMFSF相似度时,PARSA方法的覆盖率比TSA方法提高了3.70%,IARSA方法的覆盖率比TSA方法提高了1.92%;当选择HySim相似度时,PARSA 方法的覆盖率值比TSA方法提高了1.78%,IARSA方法的覆盖率比TSA方法提高了0.69%。
表11(a)Eachmovie数据集最优推荐性能分析结果(Coverage)
表11(b)Netflix数据集最优推荐性能分析结果(Coverage)
图10中的(b)展示了Netflix数据集上所有方法的Coverage值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Coverage值最大,TSA方法的Coverage值最小。当邻居数目大于130时,所有方法的Coverage值将变化不大;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的在邻居为90时的覆盖率进行比较,具体信息如表11(b)所示。从表11(b)中可以得出,当选择PCC相似度时,PARSA 方法的覆盖率比TSA方法提高了14.56%,IARSA方法的覆盖率比TSA方法提高了5.83%;当选择TMFSF相似度时,PARSA方法的覆盖率比TSA 方法提高了18.94%,IARSA方法的覆盖率比TSA方法提高了7.58%;当选择HySim相似度时,PARSA方法的覆盖率值比TSA方法提高了6.88%, IARSA方法的覆盖率比TSA方法提高了2.65%。综合上述分析,PARSA和 IARSA方法可以提高建议聚合方法的覆盖率。
图11展示表5中9种方法推荐方面的Diversity结果。从图11中可以看出,所有方法的Diversity曲线随着邻居数目的增加而增加。图11中的(a) 展示了Eachmovie数据集上所有方法的Diversity值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的Diversity值最大, TSA方法的Diversity值最小。当邻居数目大于90时,所有方法的Diversity 值将变化不大;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的在邻居为90时的多样性进行比较,具体信息如表12(a)所示。从表 12(a)中可以得出,当选择PCC相似度时,PARSA方法的多样性比TSA 方法提高了2.85%,IARSA方法的多样性比TSA方法提高了0.55%;当选择TMFSF相似度时,PARSA方法的多样性比TSA方法提高了4.94%,IARSA 方法的多样性比TSA方法提高了1.46%;当选择HySim相似度时,PARSA 方法的多样性值比TSA方法提高了3.27%,IARSA方法的多样性比TSA方法提高了1.27%。
图11中的(b)展示了Netflix数据集上所有方法的Diversity值,从中可以看到,无论选择哪一种相似度,无论邻居数目是多少,PARSA方法的 Diversity值最大,TSA方法的Diversity值最小。当邻居数目大于130时,所有方法的Diversity值将变化不大;为了定量的分析PARSA和IARSA方法的性能,本申请将方法的在邻居为130时的多样性进行比较,具体信息如表12(b)所示。从表12(b)中可以得出,当选择PCC相似度时,PARSA 方法的多样性比TSA方法提高了14.56%,IARSA方法的多样性比TSA方法提高了5.83%;当选择TMFSF相似度时,PARSA方法的多样性比TSA 方法提高了18.94%,IARSA方法的多样性比TSA方法提高了7.58%;当选择HySim相似度时,PARSA方法的多样性值比TSA方法提高了6.88%, IARSA方法的多样性比TSA方法提高了2.65%。综合上述分析,PARSA和 IARSA方法可以提高建议聚合方法的多样性。
表12(a)Eachmovie数据集最优推荐性能分析结果(Diversity)
表12(b)Netflix数据集最优推荐性能分析结果(Diversity)
综合上述分析,得出以下结论:
结论3:考虑用户对积极建议和消极建议不对称响应的聚合方法可以提高推荐方法的性能,数据越稠密,提高的越明显。
Claims (6)
1.一种基于不对称响应的建议聚合方法,其包括:
在第一步骤中,计算多个用户中的目标用户和其它用户之间的评分相似度,并根据所述评分相似度在所述其它用户中寻找所述目标用户的邻居;
在第二步骤中,计算所述邻居的建议给所述目标用户带来的关于各个项目的积极增量和消极增量,其中,所述积极增量表示所述邻居关于所述项目向所述目标用户提出的积极建议所产生的增量,且所述消极增量表示所述邻居关于所述项目向所述目标用户提出的消极建议所产生的增量;
在第三步骤中,根据所述积极增量和所述消极增量,利用机器学习算法分别学习所述目标用户对所述积极建议和所述消极建议的响应度;并且
在第四步骤中,利用所述响应度,对所述积极建议和所述消极建议进行聚合;
其中,假设第m个用户um为所述目标用户,则所述邻居的所述积极建议给所述目标用户带来的关于所述项目中的第j个项目的所述积极增量和所述邻居的所述消极建议给所述目标用户带来的关于所述第j个项目的所述消极增量分别由如下的式(1)和(2)来定义,这里m≠v,
其中,是所述邻居的所述积极建议给所述目标用户带来的关于所述第j个项目的所述积极增量,是所述邻居的所述消极建议给所述目标用户带来的关于所述第j个项目的所述消极增量,Sim(um,uv)是所述目标用户与作为所述邻居的第v个用户uv的所述评分相似度,rvj是所述第v个用户uv对所述第j个项目的评分,是所述第v个用户uv的历史评分的平均值,并且n是所述邻居的数量;
其中,在所述第三步骤中,进一步优化所述响应度;
其中,在所述第三步骤中,根据如下的式(4)来定义所述评分的损失函数E(m),利用如下的式(5)和(6)基于所述损失函数分别计算所述积极增量的积极增量梯度和所述消极增量的消极增量梯度,并根据如下的式(7)和(8)对所述响应度进行迭代优化,
其中,E(m)表示所述损失函数,表示所述积极增量梯度,表示所述消极增量梯度,Bm表示所述项目的项目数,rmj表示所述目标用户在消费历史上对所述第j个项目的历史评分,表示所述目标用户对所述第j个项目的评分的预测值,表示所述目标用户对所述积极建议的所述响应度,表示所述目标用户对所述消极建议的所述响应度,和的初始值是随机生成的,并且α是学习率且α∈[0,1];
其中,在所述第四步骤中,利用如下的式(3)进行所述聚合以获得所述目标用户对所述第j个项目的聚合评分,
其中,Aj表示所述目标用户对所述第j个项目的聚合评分。
2.根据权利要求1所述的建议聚合方法,其中,所述机器学习算法是线性回归算法、神经网络算法或支持向量机算法。
3.根据权利要求1所述的建议聚合方法,其中,所述优化采用梯度下降算法、Adagrad算法或Adadelta算法。
4.根据权利要求1至3中任一项所述的建议聚合方法,其中,将所计算的所述积极增量和所述消极增量存储在增量数据库中。
5.根据权利要求1至3中任一项所述的建议聚合方法,其中,根据所述评分相似度对所述其它用户的排序来寻找预定数量的所述邻居。
6.根据权利要求1至3中任一项所述的建议聚合方法,其中,针对所述多个用户,并行地执行所述第三步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910822227.7A CN110704496B (zh) | 2019-09-02 | 2019-09-02 | 基于不对称响应的建议聚合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910822227.7A CN110704496B (zh) | 2019-09-02 | 2019-09-02 | 基于不对称响应的建议聚合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704496A CN110704496A (zh) | 2020-01-17 |
CN110704496B true CN110704496B (zh) | 2023-01-24 |
Family
ID=69193418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910822227.7A Active CN110704496B (zh) | 2019-09-02 | 2019-09-02 | 基于不对称响应的建议聚合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704496B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645067A (zh) * | 2008-08-05 | 2010-02-10 | 北京大学 | 一种讨论区集合中热点讨论区的预测方法 |
CN104298772A (zh) * | 2014-10-29 | 2015-01-21 | 吴健 | 一种优化近邻选择的协同过滤推荐方法及装置 |
CN105976229A (zh) * | 2016-05-13 | 2016-09-28 | 云南大学 | 一种基于用户和项目混合的协同过滤算法 |
CN109214454A (zh) * | 2018-08-31 | 2019-01-15 | 东北大学 | 一种面向微博的情感社区分类方法 |
CN109408734A (zh) * | 2018-09-28 | 2019-03-01 | 嘉兴学院 | 一种融合信息熵相似度与动态信任的协同过滤推荐方法 |
CN109509086A (zh) * | 2018-11-28 | 2019-03-22 | 上海点融信息科技有限责任公司 | 基于人工智能的处理催收业务的方法、装置及存储介质 |
-
2019
- 2019-09-02 CN CN201910822227.7A patent/CN110704496B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645067A (zh) * | 2008-08-05 | 2010-02-10 | 北京大学 | 一种讨论区集合中热点讨论区的预测方法 |
CN104298772A (zh) * | 2014-10-29 | 2015-01-21 | 吴健 | 一种优化近邻选择的协同过滤推荐方法及装置 |
CN105976229A (zh) * | 2016-05-13 | 2016-09-28 | 云南大学 | 一种基于用户和项目混合的协同过滤算法 |
CN109214454A (zh) * | 2018-08-31 | 2019-01-15 | 东北大学 | 一种面向微博的情感社区分类方法 |
CN109408734A (zh) * | 2018-09-28 | 2019-03-01 | 嘉兴学院 | 一种融合信息熵相似度与动态信任的协同过滤推荐方法 |
CN109509086A (zh) * | 2018-11-28 | 2019-03-22 | 上海点融信息科技有限责任公司 | 基于人工智能的处理催收业务的方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
社交网络环境下基于用户响应的推荐方法研究;王刚等;《情报工程》;20190215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110704496A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Min et al. | Detection of the customer time-variant pattern for improving recommender systems | |
US20220114680A1 (en) | System and method for evaluating the true reach of social media influencers | |
CN109740924B (zh) | 融合属性信息网络和矩阵分解的物品评分预测方法 | |
CN108921604B (zh) | 一种基于代价敏感分类器集成的广告点击率预测方法 | |
Guo et al. | Personalized ranking with pairwise factorization machines | |
CN103761237A (zh) | 一种基于用户特征及其信任度的协同过滤推荐方法 | |
Kommineni et al. | Machine learning based efficient recommendation system for book selection using user based collaborative filtering algorithm | |
CN106980646A (zh) | 基于流行度对用户兴趣的影响机制分析及其在推荐算法中应用的方法 | |
CN105761154A (zh) | 一种社会化推荐方法及装置 | |
CN114491263A (zh) | 推荐模型训练方法及装置、推荐方法及装置 | |
CN105260460A (zh) | 一种面向多样性的推荐方法 | |
Hassan et al. | Performance analysis of neural networks-based multi-criteria recommender systems | |
Kumar et al. | A novel fuzzy rough sets theory based CF recommendation system | |
Hossain et al. | A neural engine for movie recommendation system | |
CN110704496B (zh) | 基于不对称响应的建议聚合方法 | |
CN112232388A (zh) | 基于elm-rfe的购物意图关键因素识别方法 | |
Salehi et al. | Attribute-based collaborative filtering using genetic algorithm and weighted c-means algorithm | |
Ito et al. | A study on improvement of serendipity in item-based collaborative filtering using association rule | |
Xu et al. | User Intention Prediction Method Based on Hybrid Feature Selection and Stacking Multi-model Fusion | |
CN113190763A (zh) | 一种信息推荐方法及系统 | |
Kumar et al. | A Deep Ranking Weighted Multihashing Recommender System for Item Recommendation | |
Rawat et al. | An embedding-based deep learning approach for movie recommendation | |
Gadekula et al. | Improved pearson similarity for collaborative filtering recommendation system | |
Jadon et al. | A Comprehensive Survey of Evaluation Techniques for Recommendation Systems | |
Tang et al. | Service recommendation based on dynamic user portrait: an integrated approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |