CN105069140B - 基于高阶用户偏好的推荐方法 - Google Patents

基于高阶用户偏好的推荐方法 Download PDF

Info

Publication number
CN105069140B
CN105069140B CN201510511083.5A CN201510511083A CN105069140B CN 105069140 B CN105069140 B CN 105069140B CN 201510511083 A CN201510511083 A CN 201510511083A CN 105069140 B CN105069140 B CN 105069140B
Authority
CN
China
Prior art keywords
preference
parameter
model
article
pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510511083.5A
Other languages
English (en)
Other versions
CN105069140A (zh
Inventor
王亮
谭铁牛
吴书
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201510511083.5A priority Critical patent/CN105069140B/zh
Publication of CN105069140A publication Critical patent/CN105069140A/zh
Application granted granted Critical
Publication of CN105069140B publication Critical patent/CN105069140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于高阶用户偏好的推荐方法,包括:利用用户‑物品评分数据集,计算用户对成对物品的高阶偏好值,构建用户‑物品‑物品成对偏好数据集;初始化模型,从正态分布中随机选取值对模型初始化;从评分数据集和成对偏好数据集中选择相关数据;计算误差和用户偏好相似度,构成最优化准则;计算偏好指标梯度,更新模型;重复步骤直到模型参数收敛。本发明方法由OPTRP最优化准则和LearnRP学习算法组成,通过学习可以产生已有CF模型,且还可产生新模型,能有效地处理高度偏斜的评分数据集,使得推荐系统的预测精度和推荐准确度都得到提高,在真实场景中有重要的应用价值。

Description

基于高阶用户偏好的推荐方法
技术领域
本发明涉及机器学习和模式识别领域,特别是基于高阶用户偏好的推荐方法。
背景技术
近年来,随着网络的飞速发展,人们每天都会面临大量的信息(即信息过载)。面对成千上万的信息,人们疲于从中发现自己感兴趣的有价值的信息,推荐系统的出现正是为了解决信息过载问题。推荐系统是一种信息过滤技术,它能够从大量的信息中筛选出用户感兴趣的有价值的内容并提供给用户,从而使用户从纷杂繁多的信息中解脱出来。常用的推荐系统技术有基于内容的推荐系统、基于协同过滤的推荐系统和混合推荐系统,其中最流行的属基于协同过滤的推荐系统。
基于协同过滤的推荐系统收集并汇聚用户偏好信息,依托用户和物品的相似性度量对用户可能的偏好物品进行个性化预测。基于协同过滤的技术又可以分为最近邻协同过滤和基于模型的协同过滤。最近邻协同过滤利用最相似的若干个用户的偏好来计算目标用户对目标物品的偏好程度,然后再向目标用户推荐其最感兴趣的物品;基于模型的协同过滤不直接操作已有评分而得到预测值,而是使用已有评分去训练模型再基于模型对物品进行评分预测。评分数据集可以分为正态分布数据集和高度偏斜数据集,正态分布数据集的分布是对称的,评分大多集中在均值附近;高度偏斜数据集的分布是非对称而且是高度偏斜的,即大多数评分是较低评分或者是较高评分,并不集中在均值附近。已有的协同过滤技术的研究大多集中在正态分布数据集上,鲜有工作是基于高度偏斜数据集的。
在真实的应用场景中,高度偏斜评分数据集是普遍存在的,例如电子商务网站、产品评论网站和内容提供网站中的数据集。虽然具有高度偏斜的高度偏斜数据集普遍存在,但是却很少有工作研究用户评分的分布情况,而且传统的协同过滤技术不能很好地处理高度偏斜的数据集。
发明内容
有鉴于此,本发明的目的在于提出一种基于高阶用户偏好的推荐系统及方法。本发明的推荐方法通过利用LeamRP学习算法来最小化OPTRP最优化准则,从而产生各种各样的协同过滤模型,产生的模型不仅能够处理对称分布的正态分布数据集,而且还能够处理具有高度偏斜特征的高度偏斜数据集。
为了实现上述目的,本发明提出了一种基于高阶用户偏好的推荐方法,包括以下步骤:
步骤S1,利用用户-物品评分数据集,计算用户对成对物品的高阶偏好值,构建用户-物品-物品成对偏好数据集;
步骤S2,构建协同过滤模型,初始化所述协同过滤模型的参数矢量,从正态分布中随机选取值来对所述协同过滤模型的参数进行初始化;
步骤S3,从所述用户-物品评分数据集和用户-物品成对偏好数据集中选择一对相关的数据;
步骤S4,基于所述一对相关数据计算评分预测误差、定量偏好预测误差和用户偏好相似度,构成最优化准则;
步骤S5,计算预测成对偏好对偏好指标的梯度和预测物品相异度对偏好指标的梯度,并更新所述协同过滤模型的参数;
步骤S6,计算预测评分对评分指标的梯度,并更新所述协同过滤模型的参数;
步骤S7,重复步骤S3到S6,直到所述协同过滤模型的参数收敛,此时得到的参数使得最优化准则达到全局最优,所述参数构成学习出来的所述协同过滤模型。
基于上述技术方案可知,本发明的推荐方法基于高阶用户偏好,推荐系统框架由OPTRP最优化准则和LearnRP学习算法组成,该框架通过学习可以产生已有的CF模型,而且还可以产生新的模型,利用该框架产生的CF模型能够有效地处理高度偏斜的评分数据集,使得推荐系统的预测精度和推荐准确度都得到提高。本发明方法产生的协同过滤模型,在高度偏斜数据集上,其效果都比传统的模型要好,在真实的场景中有重要的应用价值。
附图说明
图1是利用本发明方法产生的MF-RP模型与传统的MF模型在两个高度偏斜数据集上(Epinions Datasets,Amazon Datasets)收敛快慢的比较。
表1是MF-RP与MF预测精确度的比较,表2是本发明方法产生的KNN-RP模型与传统的KNN模型关于预测精确度的比较,表3是本发明方法产生的两种模型与对应的传统模型在三个高度偏斜数据集上关于召回率度量指标的比较,表4是本发明方法产生的两种模型与对应的传统模型在三个高度偏斜数据集上关于排名准确率的比较。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
现有的研究工作大多集中在正态分布数据集上而没有考虑具有高度偏斜特征的高度偏斜数据集,本发明提出了一种基于高阶用户偏好的推荐系统框架,采用OPTRP最优化准则和LearnRP学习算法构成该框架,通过最小化OPTRP最优化准则学习出来的模型不仅能够处理对称分布的正态分布数据集,而且能够很好地处理具有高度偏斜特征的情感数据集,提高预测评分的精确度从而进行更好的推荐。在该框架中,利用LearnRP学习算法不仅能够产生能够处理高度偏斜的数据集的模型,而且还能够学习出已知的模型,从而产生各种各样的协同过滤模型。
本发明公开的基于高阶用户偏好的推荐方法,包括以下步骤:
第一步,利用用户-物品评分数据集,计算用户对成对物品的高阶偏好值,构建用户-物品-物品成对偏好数据集;
第二步,建立协同过滤模型,并初始化该模型的参数矢量,从正态分布中随机选取值来对模型的参数进行初始化;
第三步,从评分数据集和成对偏好数据集中选择相关的数据;
第四步,计算评分预测误差、定量偏好预测误差和用户偏好相似度,构成最优化准则;
第五步,计算预测的成对偏好对偏好指标的梯度和预测的物品相异度对偏好指标的梯度,并更新模型的参数;
第六步,计算预测的评分对评分指标的梯度,并更新模型的参数;
第七步,重复第三步到第六步,直到模型的参数收敛,此时得到的参数使得最优化准则达到全局最优,这些参数构成了基于本发明系统框架学习出来的新模型。
更具体地,本发明提出的基于高阶用户偏好的推荐方法,包括以下步骤:
给定用户集U和物品集I,所有用户和所有物品构成集合Dt=U×I,所有用户的评分rui构成了用户-物品评分数据集,记为Rt
Rt={rui|(u,i)∈Dt} (1)
设置LearnRP学习算法中的参数γn、γt、λs、λn、λt,其中γn和γt是学习率,λs是偏好相似度条件的规范化因子,λn和λt是模型参数的规范化因子,是权重系数,控制评分指标和偏好指标的重要性。
第1步,利用评分数据集Rt,得到成对偏好数据集Dn
然后根据成对偏好数据集Dn计算定量成对偏好ruij,所有ruij构成了成对偏好数据集Rn
ruij=rui-ruj (3)
Rn={ruij|(u,i,j)∈Dn} (4)
第2步,初始化模型的参数矢量,从正态分布中随机选取值来对模型的参数进行初始化。例如对于MF-RP模型,用上述初始化方法初始化qi、qj、pu三个参数;对于KNN-RP模型,用上述方法初始化sim和sjm
第3步,从评分数据集和成对偏好数据集中选择一对相关的数据,例如从评分数据集Rt中选取一个rui,然后从成对偏好数据集Rn中随机选取另外一个物品j得到ruij
第4步,计算评分预测误差xui、定量偏好预测误差xuij、用户偏好相似度suij和物品相异度构成最优化准则,其中
代入ruij的表达式可得
其中分别是真实的评分值和成对偏好值。然后计算用户偏好相似度suij
suij=exp(-r2 uij) (8)
最后物品的相异度可以用Frobenius范式来定义。由以上可得最优化准则为
其中Θ是模型的参数,λs是偏好相似度条件的规范化因子,λΘ是模型参数的规范化因子,α是权重系数。
第5步,计算预测成对偏好对偏好指标的梯度和预测物品相异度对偏好指标的梯度然后按下式更新模型的参数
其中γn、λs和λn是预先设定好的系数。
第6步,计算预测评分对评分指标的梯度,然后按下式更新模型的参数
其中γt和λt是预先设定好的系数。
第7步,通过上述第3步到第6步,在一次迭代过程中更新模型的参数,然后重复上述步骤,经过多次迭代直到模型的RMSE指标值提高小于.001,此时最优化准则取得全局最小值而且模型达到收敛状态。
实施例
下面通过在三个高度偏斜数据集Epinions、Amazon和Ciao评分数据集,利用RMSE、NDCG和Recall三个指标来比较利用本发明方法产生的模型与传统的模型的效果。RMSE是用来度量预测精度的指标,RMSE越小,说明预测越准确,模型越好;NDCG是用来度量预测排名的指标,NDCG值越大,说明模型越好;Recall是用来度量Top-N推荐物品的指标,Recall值越大,说明模型效果越好,产生的Top-N推荐物品越准确。
本实施例中利用本发明方法产生两种协同过滤模型MF-RP和cosineKNN-RP模型,并将这两种模型与传统的MF模型和cosineKNN模型进行比较。如图1所示,图1是MF-RP模型和MF模型在Epinions和Amazon数据集上收敛过程的比较。由图1可知,在早期阶段MF-RP和MF有相似的收敛过程,但是随着迭代次数的增加,MF模型会出现过拟合现象,然而MF-RP模型却能够继续提高预测准确率,取得尽可能小的RMSE值并避免过拟合现象,所以说明用本发明方法产生的MF-RP模型在收敛方面要优于传统的MF模型。
如下表1、2所示,表1是MF-RP模型和MF模型在三种高度偏斜数据集上的预测性能,表2是cosineKNN-RP模型和cosineKNN模型在三种高度偏斜数据集上的预测性能,预测性能均是用RMSE指标来进行度量的。由表1可知,随着参数维度f的增加,MF-RP和MF模型的性能都会提升;MF-RP模型在三种数据集上的性能都要优于MF模型。由表2可知,cosineKNN-RP模型在三种高度偏斜的数据集上的性能要比传统的cosineKNN模型好很多。
表1
表2
如下表3所示,表3是用本发明方法产生的MF-RP模型、cosineKNN-RP模型和传统的MF模型、cosineKNN模型在Top-N推荐列表上的性能比较,采用Recall度量指标来度量模型在Top-N推荐列表上的性能好坏。由表3可知,MF-RP模型的效果总是比MF模型要好,而且MF-RP在Amazon数据集上的性能提升是最显著的;cosineKNN-RP模型的效果也始终比cosineKNN的模型好,而且cosineKNN-RP在Epinions和Amazon数据集上的性能提升比较明显。
表3
如下表4所示,表4是用本发明方法产生的MF-RP模型和cosineKNN-NP模型,以及传统的MF模型和cosineKNN模型在三种高度偏斜数据集上的排名准确度的比较,排名准确度用NDCG度量指标来度量。由表4可知,在NDCG度量指标上,MF-RP模型在三种高度偏斜的数据集上的性能都比MF模型好,而且MF-RP和MF模型的性能都随参数维度的增加而提高,另外在Amazon数据集上MF-RP的性能提升最显著;cosineKNN-RP在各种情况下其排名准确度都比传统的cosineKNN要高。
表4
以上实施例表明,用本发明方法产生的协同过滤模型能够较好的处理具有高度偏斜特征的用户评分数据集,而且用本发明方法产生的模型的性能要比传统模型的性能要好,所以说明本发明方法具有重要的研究意义和广泛的应用价值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于高阶用户偏好的推荐方法,包括以下步骤:
步骤S1,利用用户-物品评分数据集,计算用户对成对物品的高阶偏好值,构建用户-物品-物品成对偏好数据集;
步骤S2,构建协同过滤模型,初始化所述协同过滤模型的参数矢量,从正态分布中随机选取值来对所述协同过滤模型的参数进行初始化;
步骤S3,从所述用户-物品评分数据集和用户-物品成对偏好数据集中选择一对相关的数据;
步骤S4,基于所述一对相关数据计算评分预测误差、定量偏好预测误差和用户偏好相似度,构成最优化准则;
步骤S5,计算预测成对偏好对偏好指标的梯度和预测物品相异度对偏好指标的梯度,并更新所述协同过滤模型的参数;
步骤S6,计算预测评分对评分指标的梯度,并更新所述协同过滤模型的参数;
步骤S7,重复步骤S3到S6,直到所述协同过滤模型的参数收敛,此时得到的参数使得最优化准则达到全局最优,所述参数构成学习出来的所述协同过滤模型。
2.根据权利要求1所述的基于高阶用户偏好的推荐方法,其特征在于,步骤2中所述协同过滤模型为MF-RP模型或KNN-RP模型。
3.根据权利要求1所述的基于高阶用户偏好的推荐方法,其特征在于,步骤S4中构成的所述最优化准则为OPTRP最优化准则。
4.根据权利要求1所述的基于高阶用户偏好的推荐方法,其特征在于,步骤S4中所述基于所述一对相关数据计算评分预测误差、定量偏好预测误差和用户偏好相似度,构成最优化准则的步骤包括:
计算评分预测误差xui、定量偏好预测误差xuij、用户偏好相似度suij和物品相异度其中
代入ruij的表达式可得
其中分别是真实的评分值和成对偏好值;然后计算用户偏好相似度suij
suij=exp(-r2 ij)
其中,ruij指定量成对偏好;
由以上可得最优化准则为
其中Θ是模型的参数,λs是偏好相似度条件的规范化因子,λΘ是模型参数的规范化因子,α是权重系数。
5.根据权利要求1所述的基于高阶用户偏好的推荐方法,其特征在于,步骤S5中所述计算预测成对偏好对偏好指标的梯度和预测物品相异度对偏好指标的梯度,并更新所述协同过滤模型的参数的步骤包括:
计算预测成对偏好对偏好指标的梯度和预测物品相异度对偏好指标的梯度然后按下式更新模型的参数
其中Θ是模型的参数,γn、λs和λn是预先设定好的系数。
6.根据权利要求1所述的基于高阶用户偏好的推荐方法,其特征在于,步骤S6中所述计算预测评分对评分指标的梯度,并更新所述协同过滤模型的参数的步骤包括:
计算预测评分对评分指标的梯度,然后按下式更新模型的参数
其中Θ是模型的参数,γt和λt是预先设定好的系数。
7.根据权利要求1所述的基于高阶用户偏好的推荐方法,其特征在于,步骤S7中所述直到协同过滤模型的参数收敛的条件为经过多次迭代直到所述协同过滤模型的最后一次迭代的RMSE指标值与前一次迭代的RMSE指标值的差值小于0.001。
CN201510511083.5A 2015-08-19 2015-08-19 基于高阶用户偏好的推荐方法 Active CN105069140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510511083.5A CN105069140B (zh) 2015-08-19 2015-08-19 基于高阶用户偏好的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510511083.5A CN105069140B (zh) 2015-08-19 2015-08-19 基于高阶用户偏好的推荐方法

Publications (2)

Publication Number Publication Date
CN105069140A CN105069140A (zh) 2015-11-18
CN105069140B true CN105069140B (zh) 2018-07-27

Family

ID=54498509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510511083.5A Active CN105069140B (zh) 2015-08-19 2015-08-19 基于高阶用户偏好的推荐方法

Country Status (1)

Country Link
CN (1) CN105069140B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105761154B (zh) * 2016-04-11 2019-10-15 北京邮电大学 一种社会化推荐方法及装置
CN106408377A (zh) * 2016-08-31 2017-02-15 广东华邦云计算股份有限公司 购物推荐方法及系统
CN108829846B (zh) * 2018-06-20 2021-09-10 中国联合网络通信集团有限公司 一种基于用户特征的业务推荐平台数据聚类优化系统及方法
EP3828804A1 (en) 2019-11-27 2021-06-02 Tata Consultancy Services Limited Method and system for recommender model selection

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530416A (zh) * 2013-10-28 2014-01-22 海南大学 项目数据预测评分库的生成、项目数据的推送方法和系统
CN104572995A (zh) * 2015-01-06 2015-04-29 北京卫星环境工程研究所 一种分布式实时数据快速处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7523106B2 (en) * 2003-11-24 2009-04-21 International Business Machines Coporation Computerized data mining system, method and program product

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530416A (zh) * 2013-10-28 2014-01-22 海南大学 项目数据预测评分库的生成、项目数据的推送方法和系统
CN104572995A (zh) * 2015-01-06 2015-04-29 北京卫星环境工程研究所 一种分布式实时数据快速处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种面向用户偏好定向挖掘的协同过滤个性化推荐算法;王伟军;《现代图书情报技术》;20140630(第6期);第25-31页 *
融合奇异性和扩散过程的协同过滤模型;杨兴耀;《软件学报》;20130831;第24卷(第8期);第1868-1884页 *

Also Published As

Publication number Publication date
CN105069140A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN105069140B (zh) 基于高阶用户偏好的推荐方法
CN110110094A (zh) 基于社交网络知识图谱的跨网络人物关联方法
CN110020128B (zh) 一种搜索结果排序方法及装置
CN109815402A (zh) 基于用户特征的协同过滤推荐算法
CN108665323A (zh) 一种用于理财产品推荐系统的集成方法
CN109740064A (zh) 一种融合矩阵分解和挖掘用户项目信息的cf推荐方法
CN105354260B (zh) 一种融合社会网络和项目特征的移动应用推荐方法
CN107507073A (zh) 基于信任扩展和列表级排序学习的服务推荐方法
CN104933156A (zh) 一种基于共享近邻聚类的协同过滤方法
CN113592609B (zh) 一种利用时间因素的个性化服饰搭配推荐方法与系统
CN107025311A (zh) 一种基于k近邻的贝叶斯个性化推荐方法及装置
CN109902235A (zh) 基于蝙蝠优化的用户偏好聚类协同过滤推荐算法
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
CN107301583A (zh) 一种基于用户偏好和信任的冷启动推荐方法
CN104239496A (zh) 一种结合模糊权重相似性度量和聚类协同过滤的方法
CN104850645B (zh) 一种基于矩阵分解的主动学习评分引导方法及系统
CN110334284A (zh) 一种新型融合多因素决策的推荐方法
CN106202377A (zh) 一种基于随机梯度下降的在线协同排序方法
CN104657336A (zh) 一种基于半余弦函数的个性化推荐算法
CN111191076B (zh) 基于前景理论与多目标进化的电影推荐方法
CN108122126A (zh) 关联规则的扩充方法、应用其的装置及电脑可读取介质
CN106503267A (zh) 一种适用于用户偏好动态演变的个性化推荐算法
CN110059257B (zh) 基于评分修正的项目推荐方法
CN108694234A (zh) 一种基于改进协同过滤算法的服务推荐模型
CN115204967A (zh) 一种融入用户长短期兴趣表征隐式反馈的推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant