CN111079028B - 基于多源辅助信息的协同过滤推荐系统及方法 - Google Patents
基于多源辅助信息的协同过滤推荐系统及方法 Download PDFInfo
- Publication number
- CN111079028B CN111079028B CN201911226825.4A CN201911226825A CN111079028B CN 111079028 B CN111079028 B CN 111079028B CN 201911226825 A CN201911226825 A CN 201911226825A CN 111079028 B CN111079028 B CN 111079028B
- Authority
- CN
- China
- Prior art keywords
- user
- item
- module
- domain
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001914 filtration Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 72
- 230000014509 gene expression Effects 0.000 claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 8
- 238000005065 mining Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 241001209177 Akis Species 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供基于多源辅助信息的协同过滤推荐系统及方法,本发明提供的基于多源辅助信息的协同过滤推荐系统包括:评分矩阵模块、物品画像模块、用户潜在表达更新模块、基于用户相似度的推荐模块;所述评分矩阵模块基于预先定义的评分指标及用户偏好函数,从用户隐式交互信息中挖掘潜在偏好,向基于用户相似度的推荐模块输出用户评分矩阵;所述物品画像模块获取领域相关的物品描述文本及关键词百科文本,提取文本特征,向基于用户相似度的推荐模块输出物品特征向量;所述用户潜在表达更新模块获取用户网页浏览行为信息,根据网页文本内容,向基于用户相似度的推荐模块的输出用户潜在表达的更新权重;所述基于用户相似度的推荐模块根据所述评分矩阵、物品特征向量和用户潜在表达的更新权重,计算用户相似度,输出用户未评分物品的预测评分。
Description
技术领域
本发明属于推荐系统技术领域,具体涉及基于多源辅助信息的协同过滤推荐系统及方法。
背景技术
传统的协同过滤推荐方法基于用户显式交互行为的相似性,找出邻域用户并进行推荐。在推荐过程中,协同过滤方法只依赖用户的评分等显式交互信息,无需物品的描述性信息,因此,对于某些专业性较强的领域,协同过滤方法比基于内容的推荐方法拥有更好的适应性。由于协同过滤方法需要用到用户的显式交互信息,显式交互数据的稀疏性问题是协同过滤推荐的一大难题,现有的关于协同过滤推荐系统中数据稀疏性问题的研究大致有两个方向:一个方向是在协同过滤方法上进行创新,如矩阵分解等,这些新方法依旧需要用户评分等显式交互信息;另一个方向是借助辅助信息,这些研究通常是在评分信息的基础上引入辅助信息,来缓解稀疏性问题并提升推荐效果。Vasile等使用物品的源信息作为辅助信息,即物品的类别信息,对物品序列和源信息序列同时进行嵌入,进而预测用户未来可能感兴趣的物品。刘卫东等研究电影评分及高考成绩的预测问题,将电影类型以及考生个人信息等辅助信息加入变分自编码器,并引入评分行为的负反馈信息,提高了预测的准确度。在各种辅助信息中,文本类辅助信息使用最为频繁,尤其是用户评论文本,因为其经常伴随着评分信息一起出现,且主观情感较强,从中能直接挖掘出用户的喜好。李琳等对潜在主题因素模型(HFT:Hidden Factors as Topics)进行了改进,将用户评论集和商品评论集各自的潜在主题向量与传统矩阵分解的用户潜在因子向量和商品潜在因子向量建立正向的映射关系,并添加潜在主题作为评分预测的引导项。Almahairi等从词袋模型和循环神经网络模型两方面对评论文本进行建模,构造凸函数来同时优化矩阵分解和文本建模的结果,使得推荐效果优于以LDA模型进行建模的方法。Karamanolakis等把变分自编码器运用到基于评论辅助信息的协同过滤推荐中,通过将用户相关的先验分布信息加入到编码器的潜在空间中,对评论文本中的用户偏好信息进行编码,使得潜在空间同时考虑了评论和评分两方面的信息。Wu等构建了两个学习模块来分别学习用户评论文本中的特征和用户-物品交互数据中的特征,其中评论文本特征的学习模块使用卷积操作和注意力机制,最后将两个模块学到的特征进行动态的线性融合来预测最终评分。然而,当显式交互信息缺失时,完全利用辅助信息挖掘用户潜在偏好并进行协同过滤推荐的研究相对较少。
发明内容
本发明解决的问题是,当显式交互信息缺失时,完全利用辅助信息挖掘用户潜在偏好并进行协同过滤推荐;为解决所述问问题,本发明提供一种基于多源辅助信息的协同过滤推荐系统及方法。
本发明提供的基于多源辅助信息的协同过滤推荐系统包括:评分矩阵模块、物品画像模块、用户潜在表达更新模块、基于用户相似度的推荐模块;所述评分矩阵模块基于预先定义的评分指标及用户偏好函数,从用户隐式交互信息中挖掘潜在偏好,向基于用户相似度的推荐模块输出用户评分矩阵;所述物品画像模块获取领域相关的物品描述文本及关键词百科文本,提取文本特征,向基于用户相似度的推荐模块输出物品特征向量;所述用户潜在表达更新模块获取用户网页浏览行为信息,根据网页文本内容,向基于用户相似度的推荐模块输出用户潜在表达的更新权重;所述基于用户相似度的推荐模块根据所述评分矩阵、物品特征向量和用户潜在表达的更新权重,计算用户相似度,输出用户未评分物品的预测评分。
进一步,所述评分矩阵模块包含评分指标子模块和偏好函数子模块,所述评分指标子模块包括用户个人兴趣度、物品公共影响力以及用户忠实度三个评分指标;用户u对物品i的个人兴趣度物品i的公共影响力/>
用户u的忠实度其中,Tu,i表示用户u对物品i的购买次数,Cu,i表示用户u对物品i的消费总额,U表示用户集合,I表示物品集合;表示用户u的历史消费平均价格;所述偏好函数子模块根据三个评分指标,构造偏好函数:Ru,i=ULR(u)*UIR(u,i)+(1-ULR(u))*IIR(i),其中,Ru,i表示特定用户u对物品i的评分。
进一步,所述物品画像模块包括物品-关键词向量子模块和物品-主题向量子模块,所述物品-关键词向量子模块从物品表述文本中提取领域关键词,根据关键词词频,将物品向量化表示:Vi 1=(k1,k2,...km),其中,Vi 1是物品i的关键词词频向量,(k1,k2,...km)为各领域关键词在物品i的描述文本中出现的次数,m为领域数;所述物品-主题向量子模块将物品描述文本与关键词百科文本组合,构建物品的领域相关文本,采用主题模型进行文本建模,将物品向量化表示:Vi 2=(t1,t2,...tn),其中,Vi 2是物品i的主题向量,(t1,t2,...tn)为各主题在物品i的领域相关文本中的分布值,n为主题数;将物品-关键词向量Vi 1与物品-主题向量Vi 2合并,得到物品i的画像Pitem(i),物品i的特征向量形式为:Vi=(k1,k2,...km,...t1,t2,...tn)。
进一步,所述用户潜在表达更新模块包含跨领域词向量训练子模块和更新权重计算子模块,所述跨领域词向量训练子模块以用户浏览的网页文本内容为源领域语料库Ds,以所有物品的领域相关文本为目标领域语料库Dt;先采用Word2vec方法分别训练源领域词向量ws和目标领域词向量wt,再采用跨领域词嵌入方法,根据跨领域词的重要性,训练跨领域词向量w′t;设定β为词数阈值,Vu为用户的潜在表达;若跨领域关键词词数C≥β,采用独立更新规则,包括:对于每个领域关键词k∈Pitem∩{ω|ω∈Dt∩Ds},计算跨领域词向量w′t(k)与目标领域词向量wt(k)的余弦相似度sim(wt(k),w′t(k))作为每个领域关键词各自的更新权重,采用独立更新规则更新用户潜在表达的对应维度V′u,k=Vu,k*(1+sim(wt(k),w′t(k)));若跨领域关键词词数C<β,采用整体更新规则,包括:对于每个跨领域词ω∈Dt∩Ds,计算跨领域词向量w′t与目标领域词向量wt的余弦相似度sim(Wt,w′t),对所有跨领域词的相似度取平均值作为所有跨领域关键词共享的更新权重:采用整体更新规则更新用户潜在表达的每个维度V′u,k=Vu,k*(1+avgsim)。
进一步,所述基于用户相似度的推荐模块首先采用Niu等人提出的用户CTRI值方法,考虑用户评分信息的并集以及物品画像,计算融合多源辅助信息后的用户潜在表达(Latent Representation):其中,Vu,k表示用户u在物品画像维度k上的权值,Iuv是用户u与用户v评分物品的并集,RPu,m是用户u在物品m上的评分,Vm,k是物品m的画像中第k个维度的权值。由于用户在并集中的物品上未必都有评分,该方法首先会根据用户画像和用户评分过的物品画像训练评分预测器,并预测用户在并集中为评分的物品评分。计算出用户潜在表达后,根据用户潜在表达更新模块输出的对应用户的更新权重和更新规则,更新该用户的潜在表达。最后,进行协同过滤推荐,计算任意两个用户潜在表达的相似度:/>基于用户相似度,找出排名前N的用户作为邻域用户:Su={v|rank sim(u,v)≤N},进行评分预测:/>其中,Pu,i是用户u在未评分物品i上预测评分,Rv,i是邻域用户v在物品i上的评分。
本发明的优点包括:本发明实施例提供的基于多源辅助信息的协同过滤推荐系统及方法,首先,利用用户隐式交互行为信息来挖掘偏好并生成评分,使得缺少用户显式交互信息的领域也能采用协同过滤方法进行推荐任务。其次,本发明基于跨领域词向量来挖掘用户的网页浏览行为,使得用户偏好信息尽可能全面。最后,本发明采用了能够缓解稀疏性问题的相似度计算方法来计算用户相似度并进行协同过滤推荐。
附图说明
图1是本发明实施例提供的基于多源辅助信息的协同过滤推荐系统的框架图。
具体实施方式
下面结合附图和实施例,对本发明提供基于多源辅助信息的协同过滤推荐系统及方法做进一步阐述。
如图1所示,本发明提供的基于多源辅助信息的协同过滤推荐系统,包括:评分矩阵模块01、物品画像模块02、用户潜在表达更新模块03、基于用户相似度的推荐模块04。
结合图1,所述评分矩阵模块01基于预先定义的评分指标及用户偏好函数,从用户隐式交互信息中挖掘潜在偏好,向基于用户相似度的推荐模块输出用户评分矩阵。所述评分矩阵模块01包含评分指标子模块和偏好函数子模块,所述评分指标子模块包括用户个人兴趣度、物品公共影响力以及用户忠实度三个评分指标;用户u对物品i的个人兴趣度
物品i的公共影响力用户u的忠实度/> 其中,Tu,i表示用户u对物品i的购买次数,Cu,i表示用户u对物品i的消费总额,U表示用户集合,I表示物品集合;/>表示用户u的历史消费平均价格;所述偏好函数子模块根据三个评分指标,构造偏好函数:Ru,i=ULR(u)*UIR(u,i)+(1-ULR(u))*IIR(i),其中,Ru,i表示特定用户u对物品i的评分。
继续结合图1,所述物品画像模块02获取领域相关的物品描述文本及关键词百科文本,提取文本特征,向基于用户相似度的推荐模块输出物品特征向量;所述物品画像模块包括物品-关键词向量子模块和物品-主题向量子模块,所述物品-关键词向量子模块从物品表述文本中提取领域关键词,将物品向量化表示:Vi 1=(k1,k2,...km),其中,Vi 1是物品i的关键词词频向量,(k1,k2,...km)为各领域关键词在物品i的描述文本中出现的次数,m为领域数;所述物品-主题向量子模块将物品描述文本与关键词百科文本组合,构建物品的领域相关文本,采用主题模型进行文本建模,将物品向量化表示:Vi 2=(t1,t2,...tn),其中,Vi 2是物品i的主题向量,(t1,t2,...tn)为各主题在物品i的领域相关文本中的分布值,n为主题数;物品i的特征向量为:Vi=(k1,k2,...km,...t1,t2,...tn)。
继续结合图1,所述用户潜在表达更新模块03获取用户网页浏览行为信息,根据网页文本内容,向基于用户相似度的推荐模块的输出用户潜在表达的更新权重及采用的更新规则;所述用户潜在表达更新模块包含跨领域词向量训练子模块和更新权重计算子模块,所述跨领域词向量训练子模块以用户浏览的网页文本内容为源领域语料库Ds,以所有物品的领域相关文本为目标领域语料库Dt;先采用Word2vec方法分别训练源领域词向量ws和目标领域词向量wt,再采用Yang等人提出的跨领域词嵌入方法,根据跨领域词的重要性,训练跨领域词向量w′t;设定β为词数阈值,Vu为用户的潜在表达。若跨领域关键词词数C≥β,采用独立更新规则,包括:对于每个领域关键词k∈Pitem∩{ω|ω∈Dt∩Ds},计算跨领域词向量w′t(k)与目标领域词向量wt(k)的余弦相似度sim(wt(k),w′t(k))作为每个领域关键词各自的更新权重,采用独立更新规则更新用户潜在表达的对应维度V′u,k=Vu,k*(1+sim(wt(k),w′t(k)));若跨领域关键词词数C<β,采用整体更新规则,包括:对于每个跨领域词ω∈Dt∩Ds,计算跨领域词向量w′t与目标领域词向量wt的余弦相似度sim(wt,w′t),对所有跨领域词的相似度取平均值作为所有跨领域关键词共享的更新权重:采用整体更新规则更新用户潜在表达的每个维度V′u,k=Vu,k*(1+avgsim)。
继续结合图1,所述基于用户相似度的推荐模块04根据所述评分矩阵、物品特征向量和用户潜在表达的更新权重,计算用户相似度,输出用户未评分物品的预测评分。所述基于用户相似度的推荐模块04首先采用Niu等人提出的用户CTRI值方法,根据用户评分信息的并集以及物品画像,计算融合多源辅助信息后的用户潜在表达(Latent Representation):其中,Vu,k表示用户u在物品画像维度k上的权值,Iuv是用户u与用户v评分物品的并集,RPu,m是用户u在物品m上的评分,Vm,k是物品m的画像中第k个维度的权值;计算出用户潜在表达后,根据用户潜在表达更新模块输出的对应用户的更新权重和更新规则,更新该用户的潜在表达;最后,进行协同过滤推荐,计算任意两个用户潜在表达的相似度:/>基于用户相似度,找出排名前N的用户作为邻域用户:Su={v|rank sim(u,v)≤N},进行评分预测:/> 其中,Pu,i是用户u在未评分物品i上预测评分,Rv,i是邻域用户v在物品i上的评分。
本发明还提供采用本发明所提供的基于多源辅助信息的协同过滤推荐系统的基于多源辅助信息的协同过滤推荐方法。
在本发明的一个实施例中,所述基于多源辅助信息的协同过滤推荐系统及方法被用于交响乐领域,用户隐式交互数据是某大型剧院两年问的会员用户购票记录,主要字段包括用户编号、节目编号、节目名称、购票时间、节目票价、购买张数以及用户截至该时间段之前的累计消费额和累计购买张数。经过筛选后,得到396个用户在205场节目上的9123条购票记录,由于用户在同一个节目上会出现多次购买,按照用户编号和节目编号分组累计后,一共有7985条购票记录,数据稀疏度为1-7985/(396×205)≈0.9016。
物品描述文本为该剧院节目的介绍文本。从这些节目介绍文本中提取到的关键词主要以交响乐领域的作家名、演出者名字、曲名以及演奏乐器和演奏形式等专有名词组成。关键词的百科文本则是从百度百科中爬取对应词条的部分文本获得。
用户浏览的网页文本的浏览时间段与购票数据所属的时间段相同。实验过程中,先对网页文本的网站来源进行了分类,主要分为“音乐相关网页”和“普通网页”。其中,“音乐相关网页”为用户在指定的多个音乐相关域名的浏览记录,总共有2406个不同的网页,而“普通网页”则没有对域名进行筛选,是用户在互联网上的浏览记录。之后,在处理用户网页文本的过程中,就直接根据不同的网页文本类型来更新用户的潜在表达,而没有设置跨领域关键词词数的阈值β。由于“音乐相关网页”与“交响乐”同属于“音乐”这一大领域,它们之间的相关性可能较大,采取独立更新规则,而“普通网页”相关性较小,采取整体更新规则。
本实施例在实验过程中使用评分排名前K的物品的召回率Recall@K以及平均绝对误差(MAE:Mean Absolute Error)这两个指标来评价本算法的性能。
Recall@K反映了用户实际评分的物品中被推荐的物品的比例,其中K为用户推荐列表中的物品个数。其计算公式如下:
在实验过程中,使用所有用户的Recall@K均值来评价推荐效果。
对于预测评分的推荐系统,平均绝对误差是使用最频繁的一种评价指标。平均绝对误差是最终预测评分与真实评分之间的误差绝对值的均值,对于任意一组预测评分pi和真实评分ri,平均绝对误差MAE的计算公式如下:
整体实验过程中,选择70%的评分数据作为训练集进行训练,30%的评分数据作为测试集,来验证最后的推荐效果。对于每一项对比实验,都进行5次验证。在使用用户浏览的网页文本以及所有节目文本训练词向量时,词向量维度设置为100维,最小词频设置为3,其他参数与Yang等人的词嵌入方法中使用的默认参数相同。最终生成评分排名前K的推荐列表的参数K设置为10。
为验证基于评分信息进行预测并生成推荐列表的有效性,实验对比使用偏好函数计算评分与只使用购票张数替代评分的推荐效果,并使用随机选取推荐方法作为基准,使用Recall@K作为评价指标。选取评分排名前10的物品作为推荐列表,整体推荐效果用所有用户的Recall@10的均值来衡量。为了保证随机选取结果的稳定性,对于每个用户,均进行10次随机选取,再求均值作为最终结果。两种评分生成方法与随机选取方法的对比结果如下:
表1评分生成方法的Recall@10比较(无网页文本辅助信息)
表2评分生成方法的Recall@10比较(有网页文本辅助信息)
从实验结果中可以看出,使用偏好函数和购票张数来生成评分均比随机选取的推荐结果好很多,且使用偏好函数比仅仅使用购票张数的效果更好,这也说明了从用户-物品交互辅助信息中挖掘多角度信息来生成初始评分的方法,比仅仅考虑其中一种信息的效果更合理。
为验证使用关键词词频与LDA主题建模构建物品画像的有效性,实验中固定邻域用户个数以及用户浏览的网页文本辅助信息这两个变量,比较单独使用关键词词频以及单独使用LDA主题文本建模,与同时使用这两种方法构造物品画像,对评分预测结果的影响,得到的实验结果如图所示:
表3各物品表示方法的平均绝对误差(无网页文本辅助信息)
表4各物品表示方法的平均绝对误差(有网页文本辅助信息)
从实验结果中可以看出,不加入用户浏览的网页文本辅助信息时,将关键词词频和LDA主题建模这两种方法相结合能使评分预测更为准确,且较为稳定。加入网页文本辅助信息后,单独使用关键词词频表示物品也能得到较好的结果。因此,使用关键词与LDA主题建模相结合的方法,来构建物品画像,能够对推荐结果产生一定的正向作用。
为评估基于多源辅助信息的协同过滤推荐框架的有效性,与传统的推荐方法进行对比,如:基于KNN的推荐方法,以及矩阵分解方法SVD、SVD++和NMF等,其中矩阵分解方法的潜在因素个数均设置为20。对比实验的输入数据与之前相同,使用用户购票辅助信息生成的用户-节目评分矩阵中的训练集,选用平均绝对误差作为评价指标。为验证方法的稳定性,选择五次实验的平均值、最大值和最小值进行比较。使用本发明的推荐方法时,选择邻域用户个数N=20,并加入用户的网页浏览信息,对比结果如下:
表5推荐方法比较
在其他推荐方法中,在该数据集上表现最好的是NMF算法,平均绝对误差在0.19左右。使用本发明提出的推荐框架的预测效果比这些传统的推荐方法都好,相较于NMF,平均绝对误差能够有0.01左右的提升。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明。任何本领域技术人员在不脱离发明的精神和范围内,都可以利用上述揭示方法和技术内容对本发明方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
Claims (5)
1.基于多源辅助信息的协同过滤推荐系统,其特征在于,包括:评分矩阵模块、物品画像模块、用户潜在表达更新模块、基于用户相似度的推荐模块;所述评分矩阵模块基于预先定义的评分指标及用户偏好函数,从用户隐式交互信息中挖掘潜在偏好,向基于用户相似度的推荐模块输出用户评分矩阵;所述物品画像模块获取领域相关的物品描述文本及关键词百科文本,提取文本特征,向基于用户相似度的推荐模块输出物品特征向量;所述用户潜在表达更新模块获取用户网页浏览行为信息,根据网页文本内容,向基于用户相似度的推荐模块的输出用户潜在表达的更新权重及采用的更新规则;所述用户潜在表达更新模块包含跨领域词向量训练子模块和更新权重计算子模块,所述跨领域词向量训练子模块以用户浏览的网页文本内容为源领域语料库Ds,以所有物品的领域相关文本为目标领域语料库Dt;先采用Word2vec方法分别训练源领域词向量ws和目标领域词向量wt,再采用跨领域词嵌入方法,根据跨领域词的重要性,训练跨领域词向量w′t;设定β为词数阈值,Vu为用户的潜在表达;若跨领域关键词词数C≥β,采用独立更新规则,包括:对于每个领域关键词k∈Pitem∩{ω|ω∈Dt∩Ds},计算跨领域词向量w′t(k)与目标领域词向量wt(k)的余弦相似度sim(wt(k),w′t(k))作为每个领域关键词各自的更新权重,采用独立更新规则更新用户潜在表达的对应维度V′u,k=Vu,k*(1+sim(wt(k),w′t(k)));若跨领域关键词词数C<β,采用整体更新规则,包括:对于每个跨领域词ω∈Dt∩Ds,计算跨领域词向量wt′与目标领域词向量wt的余弦相似度sim(wt,w′t),对所有跨领域词的相似度取平均值作为所有跨领域关键词共享的更新权重:采用整体更新规则更新用户潜在表达的每个维度V′u,k=Vu,k*(1+avgsim)。
2.依据权利要求1所述的基于多源辅助信息的协同过滤推荐系统,其特征在于,所述评分矩阵模块包含评分指标子模块和偏好函数子模块,所述评分指标子模块包括用户个人兴趣度、物品公共影响力以及用户忠实度三个评分指标;用户u对物品i的个人兴趣度
物品i的公共影响力
用户u的忠实度其中,Tu,i表示用户u对物品i的购买次数,Cu,i表示用户u对物品i的消费总额,U表示用户集合,I表示物品集合;表示用户u的历史消费平均价格;所述偏好函数子模块根据三个评分指标,构造偏好函数:Ru,i=ULR(u)*UIR(u,i)+(1-ULR(u))*IIR(i),其中,Ru,i表示特定用户u对物品i的评分。
3.依据权利要求1所述的基于多源辅助信息的协同过滤推荐系统,其特征在于,所述物品画像模块包括物品-关键词向量子模块和物品-主题向量子模块,所述物品-关键词向量子模块从物品表述文本中提取领域关键词,将物品向量化表示:Vi 1=(k1,k2,…km),其中,Vi 1是物品i的关键词词频向量,(k1,k2,…km)为各领域关键词在物品i的描述文本中出现的次数,m为领域数;所述物品-主题向量子模块将物品描述文本与关键词百科文本组合,构建物品的领域相关文本,采用主题模型进行文本建模,将物品向量化表示:Vi 2=(t1,t2,…tn),其中,Vi 2是物品i的主题向量,(t1,t2,…tn)为各主题在物品i的领域相关文本中的分布值,n为主题数;物品i的特征向量为:Vi=(k1,k2,…km,…t1,t2,…tn)。
4.依据权利要求1所述的基于多源辅助信息的协同过滤推荐系统,其特征在于,所述基于用户相似度的推荐模块首先采用用户CTRI值方法,根据用户评分信息的并集以及物品画像,计算融合多源辅助信息后的用户潜在表达:其中,Vu,k表示用户u在物品画像维度k上的权值,Iuv是用户u与用户v评分物品的并集,RPu,m是用户u在物品m上的评分,Vm,k是物品m的画像中第k个维度的权值;计算出用户潜在表达后,根据用户潜在表达更新模块输出的对应用户的更新权重和更新规则,更新该用户的潜在表达;最后,进行协同过滤推荐,计算任意两个用户潜在表达的相似度:/>基于用户相似度,找出排名前N的用户作为邻域用户:Su={v|rank sim(u,v)≤N},进行评分预测:/>其中,Pu,i是用户u在未评分物品i上预测评分,Rv,i是邻域用户v在物品i上的评分。
5.依据权利要求1至4中任意一项所提供的基于多源辅助信息的协同过滤推荐系统的方法,其特征在于,包括:
步骤一、所述评分矩阵模块获取用户-物品的隐式交互行为信息,计算评分指标,根据预先定义的偏好函数,生成用户评分矩阵,输入到基于用户相似度的推荐模块;
步骤二、所述物品画像模块获取物品描述文本以及关键词百科文本,构建物品-关键词向量和物品-主题向量,将两者合并,作为物品画像的向量表示,输入到基于用户相似度的推荐模块;
步骤三、所述用户潜在表达更新模块获取用户的网页浏览行为,训练源领域、目标领域以及跨领域词向量,并根据网页文本内容的领域相关程度采取不同的更新规则,计算用户的潜在表达更新权重,将更新权重输入到基于用户相似度的推荐模块;
步骤四、所述基于用户相似度的推荐模块以评分矩阵、物品的特征向量以及用户潜在表达更新权重作为输入在此基础上,计算用户潜在表达的相似度并预测用户未评分物品的评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911226825.4A CN111079028B (zh) | 2019-12-04 | 2019-12-04 | 基于多源辅助信息的协同过滤推荐系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911226825.4A CN111079028B (zh) | 2019-12-04 | 2019-12-04 | 基于多源辅助信息的协同过滤推荐系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079028A CN111079028A (zh) | 2020-04-28 |
CN111079028B true CN111079028B (zh) | 2023-10-20 |
Family
ID=70312807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911226825.4A Active CN111079028B (zh) | 2019-12-04 | 2019-12-04 | 基于多源辅助信息的协同过滤推荐系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079028B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666496B (zh) * | 2020-06-09 | 2022-12-16 | 中森云链(成都)科技有限责任公司 | 一种基于评论文本的组推荐方法 |
CN111652695B (zh) * | 2020-06-11 | 2023-05-30 | 扬州大学 | 一种基于并行自编码机的协同过滤推荐方法 |
CN112256970A (zh) * | 2020-10-28 | 2021-01-22 | 四川金熊猫新媒体有限公司 | 一种新闻文本推送方法、装置、设备及存储介质 |
CN112328908B (zh) * | 2020-11-11 | 2022-10-28 | 北京工业大学 | 一种基于协同过滤的个性化推荐方法 |
CN112433655B (zh) * | 2020-12-04 | 2021-09-07 | 武汉迈异信息科技有限公司 | 基于云计算的信息流交互处理方法及云计算验证互动中心 |
CN112667919A (zh) * | 2020-12-28 | 2021-04-16 | 山东大学 | 一种基于文本数据的个性化社区矫正方案推荐系统及其工作方法 |
CN112700342B (zh) * | 2020-12-29 | 2022-09-13 | 四川大学 | 社交媒体信息真实性的个性化评分预测模型及预测方法 |
CN112632397A (zh) * | 2021-01-04 | 2021-04-09 | 同方知网(北京)技术有限公司 | 基于多类型学术成果画像及混合推荐策略的个性化推荐方法 |
CN113158077B (zh) * | 2021-04-08 | 2022-11-08 | 南京邮电大学 | 一种基于用户画像的学术资源推荐方法 |
CN113032682B (zh) * | 2021-04-22 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 基于协同过滤的产品推荐方法、装置、设备及存储介质 |
CN113722443B (zh) * | 2021-09-10 | 2024-04-19 | 焦点科技股份有限公司 | 一种融合文本相似度和协同过滤的标签推荐方法和系统 |
CN114048387B (zh) * | 2021-11-23 | 2023-03-24 | 中山市明源云科技有限公司 | 基于大数据和ai预测的内容推荐方法及人工智能云系统 |
CN114860918A (zh) * | 2022-05-25 | 2022-08-05 | 重庆邮电大学 | 一种融合多源可靠信息的移动应用推荐方法及装置 |
CN114971817B (zh) * | 2022-07-29 | 2022-11-22 | 中国电子科技集团公司第十研究所 | 基于用户需求画像的产品自适应服务方法、介质及装置 |
CN114996589B (zh) * | 2022-08-02 | 2022-10-21 | 八爪鱼人工智能科技(常熟)有限公司 | 基于防疫大数据的线上资讯推送方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463645A (zh) * | 2017-07-21 | 2017-12-12 | 雷锤智能科技南京有限公司 | 基于用户属性评分导向的个性化推荐系统及其推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150046479A1 (en) * | 2013-08-08 | 2015-02-12 | Vidmind Ltd. | Collaborative filtering recommendations using implicit user actions |
-
2019
- 2019-12-04 CN CN201911226825.4A patent/CN111079028B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463645A (zh) * | 2017-07-21 | 2017-12-12 | 雷锤智能科技南京有限公司 | 基于用户属性评分导向的个性化推荐系统及其推荐方法 |
Non-Patent Citations (3)
Title |
---|
zhengshen jiang et al..Recommendation in Heterogeneous Information Networks Based on Generalized Random Walk Model and Bayesian Personalized Ranking.《WSDM‘18:Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining》.2018,第288-296页. * |
彭鹏.结合用户信任和兴趣的协同过滤推荐算法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,全文. * |
李满天 ; 王劲林 ; 邓浩江 ; 刘学 ; .一种面向排序的Top-N推荐算法.计算机仿真.2013,(05),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111079028A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079028B (zh) | 基于多源辅助信息的协同过滤推荐系统及方法 | |
Da'u et al. | Recommendation system exploiting aspect-based opinion mining with deep learning method | |
Singh et al. | Predicting the “helpfulness” of online consumer reviews | |
Ahmadian et al. | A deep learning based trust-and tag-aware recommender system | |
Bach et al. | Personalized recommendation of stories for commenting in forum-based social media | |
Zhang et al. | Joint Personalized Markov Chains with social network embedding for cold-start recommendation | |
CN103164463B (zh) | 推荐标签的方法和装置 | |
Lee et al. | Learning to rank products based on online product reviews using a hierarchical deep neural network | |
Wu et al. | Contextual operation for recommender systems | |
CN112991017A (zh) | 基于用户评论解析的标签体系精准推荐方法 | |
CN109960749B (zh) | 模型获取方法、关键词生成方法、装置、介质及计算设备 | |
Kuo et al. | Applying particle swarm optimization algorithm-based collaborative filtering recommender system considering rating and review | |
CN111488526A (zh) | 一种推荐方法及装置 | |
Chakraverty et al. | Review based emotion profiles for cross domain recommendation | |
Khan et al. | Comparative analysis on Facebook post interaction using DNN, ELM and LSTM | |
Shrivastava et al. | An optimized recommendation framework exploiting textual review based opinion mining for generating pleasantly surprising, novel yet relevant recommendations | |
Ding et al. | Tdtmf: A recommendation model based on user temporal interest drift and latent review topic evolution with regularization factor | |
Liu et al. | Unveiling consumer preferences in automotive reviews through aspect-based opinion generation | |
Sun et al. | Hierarchical word mover distance for collaboration recommender system | |
Shou et al. | Predictions on usefulness and popularity of online reviews: evidence from mobile phones for older adults | |
CN110795640B (zh) | 一种弥补群组成员差异的自适应组推荐方法 | |
Vysotska et al. | V. Lytvyn | |
Qiu et al. | A novel non-Gaussian embedding based model for recommender systems | |
Zhong et al. | Hignet: hierarchical and interactive gate networks for item recommendation | |
Li et al. | A hybrid recommendation algorithm based on user comment sentiment and matrix decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |