CN114329233A - 一种跨区域跨评分协同过滤推荐方法及系统 - Google Patents

一种跨区域跨评分协同过滤推荐方法及系统 Download PDF

Info

Publication number
CN114329233A
CN114329233A CN202210021494.6A CN202210021494A CN114329233A CN 114329233 A CN114329233 A CN 114329233A CN 202210021494 A CN202210021494 A CN 202210021494A CN 114329233 A CN114329233 A CN 114329233A
Authority
CN
China
Prior art keywords
scoring
users
target domain
user
projects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210021494.6A
Other languages
English (en)
Inventor
于旭
詹定佳
孙丽珺
杜军威
徐凌伟
江峰
刘金环
刘德发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202210021494.6A priority Critical patent/CN114329233A/zh
Publication of CN114329233A publication Critical patent/CN114329233A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于协同过滤推荐领域,提供了一种跨区域跨评分协同过滤推荐方法及系统,包括:将目标域评分矩阵和源域评分矩阵中全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;对目标域评分矩阵和源域评分矩阵进行分解,提取目标域和源域中用户隐向量和项目隐向量;针对活跃用户和热门项目,分别学习目标域和源域在两种评分制下对应的用户隐向量和项目隐向量的映射关系;利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征;根据目标域上非活跃用户和非热门项目特征,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。

Description

一种跨区域跨评分协同过滤推荐方法及系统
技术领域
本发明属于协同过滤推荐方法技术领域,尤其涉及一种跨区域跨评分协同过滤推荐方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
传统的协同过滤推荐算法是大数据时代解决信息过载问题的一种重要手段,该算法的主要思想是基于用户历史反馈数据学习用户偏好,为用户提供个性化服务,提升用户满意度与平台商业收入,然而当用户反馈数据非常稀疏时,协同过滤算法往往不能有效捕捉用户的偏好,数据稀疏性将导致推荐算法产生严重过拟合,影响推荐算法的性能,这种数据稀疏现象在用户反馈数据为大多数推荐算法依赖的1-5等级评分信息时,往往更加明显。为了缓解数据稀疏问题,迁移学习的思想被应用到推荐系统中,从源域的信息中提取并迁移知识到目标域中,来提升目标域的推荐效果。
将用户在密集的二元评分上的信息迁移到目标域中,缓解目标域数据稀疏性问题,能有效提升目标域推荐效果。尽管其它场景下也存在一些基于迁移学习的协同过滤推荐模型,但是,一方面这些模型不能很好的考虑等级评分与二元评分之间的异质性,直接将二元评分迁移到等级评分中可能导致知识负迁移,导致推荐效果不佳。另一方面,目标域中由不同用户在不同项目上的评分数据组成的区域具有不同的数值评分密度,高密度区域反馈信息较丰富,对源域信息的依赖较小,低密度区域反馈信息较匮乏,对源域信息的依赖较大。现有模型往往假设推荐系统中的所有区域数值评分均较为稀疏,对不同区域采取一致的评分预测策略,忽视了评分密度对用户和项目隐向量求解精度的影响,导致评分稀疏区域评分预测不够准确。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供一种跨区域跨评分协同过滤推荐方法及系统,其将目标域和源域的用户-项目评分数据分别组成目标域评分矩阵和源域评分矩阵,将目标域评分矩阵中用户和项目按照评分个数的大小进行排序,按照阈值将全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目。然后,基于Funk-SVD模型对目标域和源域评分矩阵分别进行矩阵分解,提取目标域和源域中用户和项目的隐向量。其次,针对活跃用户和热门项目,构建基于自教学习的深度回归网络分别学习目标域和源域上两种评分对应的用户隐向量和项目隐向量的映射关系。然后,将活跃用户和热门项目的隐向量的映射关系泛化到目标域非活跃用户和非热门项目上,利用非活跃用户和非热门项目在辅助域上的隐向量推导其在目标域上的隐向量。最后,以求得的非活跃用户和非热门项目在目标域上的隐向量为约束,求解受限矩阵分解模型,并给出相应推荐结果。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种跨区域跨评分协同过滤推荐方法,包括如下步骤:
获取目标域和源域的用户-项目评分数据,预处理后得到目标域评分矩阵和源域评分矩阵;
将目标域评分矩阵和源域评分矩阵中全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;
基于隐语义模型对目标域评分矩阵和源域评分矩阵进行分解,提取目标域和源域中用户隐向量和项目隐向量;
针对活跃用户和热门项目,基于训练好的深度回归网络,分别学习目标域和源域在两种评分制下对应的用户隐向量和项目隐向量的映射关系;
利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征;
根据目标域上非活跃用户和非热门项目特征,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。
本发明的第二个方面提供一种跨区域跨评分协同过滤推荐系统,包括:
数据预处理模块,被配置为:获取目标域和源域的用户-项目评分数据,预处理后得到目标域评分矩阵和源域评分矩阵;
将目标域评分矩阵和源域评分矩阵中全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;
特征提取模块,被配置为:基于隐语义模型对目标域评分矩阵和源域评分矩阵进行分解,提取目标域和源域中用户隐向量和项目隐向量;
针对活跃用户和热门项目,基于训练好的深度回归网络,分别学习目标域和源域在两种评分制下对应的用户隐向量和项目隐向量的映射关系;
利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征;
推荐获取模块,被配置为:根据目标域上非活跃用户和非热门项目特征,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种跨区域跨评分协同过滤推荐方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种跨区域跨评分协同过滤推荐方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明定义了活跃用户和非活跃用户,热门项目和非热门项目,根据活跃用户和非活跃用户、热门项目和非热门项目将目标域评分矩阵划分为密度不同的四个区域,并对评分矩阵中不同评分密度的区域,采取不同的评分预测策略,进行细粒度的精准推荐,提升推荐的性能,提出基于自教学习的深度回归网络学习活跃用户和热门项目在目标域和辅助域上对应的隐向量的映射关系,可充分利用非活跃用户和非热门项目相关的大量无监督数据提高映射关系建模的准确性。
本发明提出受限矩阵分解模型,以有效融合目标域稀疏数值评分和辅助域二元评分,有效避免迁移学习中的负迁移现象。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是跨区域跨评分协同过滤推荐方法流程图;
图2是所有用户对所有项目的评分数据组成的稀疏的等级评分大矩阵;
图3是数据整理示意图;
图4是回归模型预训练示意图;
图5是回归模型微调框图;
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释:
跨区域:评分矩阵中评分密度高的区域和评分密度低的区域。
跨评分:用户的1-5等级评分和用户0-1(喜欢/不喜欢,赞/踩)二元评分。
针对存在两种评分格式的推荐平台(例如movieplot电影网站包含1-10等级评分和喜欢/不喜欢二元评分两种评分格式),相对于等级评分(1-5、1-10评分),用户更倾向于进行简单的1,0二元评分(例如喜欢/不喜欢,赞/踩)。因此除稀疏的5分制数值评分(目标域)外,推荐平台往往含有相对较丰富的1,0二元评分(源域),即用户的二元评分相对于用户的等级评分整体更加密集。由于等级评分具有更细颗粒度的评分规则,能更好的反映用户的偏好特征,所以相对于直接使用二元评分数据进行评分预测,使用二元评分数据(源域)来辅助等级评分(目标域)进行评分预测能够获得更准确的用户的特征,生成更具有针对性的推荐。此外,观察到生活中用户和项目的评分数量在分布上往往呈现出长尾分布,即使大部分用户评分数量比较少,但仍然有少部分用户有较多的评分。同样的,即使大量的非热门项目只有较少的评分,仍然有少部分热门项目有较多的评分。例如,在著名的公开数据集movielens数据集中,可以容易地找出一个100活跃用户和200热门影片组成的评分子集,该子集具有相对较高的评分密度。因此,如图2所示,在由所有用户对所有项目的评分数据组成的稀疏的等级评分大矩阵中,仍然存在由少部分评分比较多的用户在热门项目上的评分数据组成的密集的等级评分小矩阵。
实施例一
如图1所示,本实施例提供了一种跨区域跨评分协同过滤推荐方法,包括如下步骤:
步骤一:获取目标域和源域的用户-项目评分数据;
步骤二:将目标域和源域的用户-项目评分数据组成目标域评分矩阵和源域评分矩阵;
步骤三:将目标域评分矩阵中用户和项目按照评分个数的大小进行排序;按照阈值将全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;
步骤四:基于隐语义Funk-SVD模型对目标域和源域评分矩阵分别进行矩阵分解,提取目标域和源域中用户和项目的隐向量;
步骤五:针对活跃用户和热门项目,构建基于自教学习的深度回归网络分别学习目标域和源域上两种评分对应的用户隐向量和项目隐向量的映射关系;
步骤六:将活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域泛化到目标域非活跃用户和非热门项目上,利用非活跃用户和非热门项目在辅助域上的隐向量推导出其在目标域上的隐向量;
步骤七:根据非活跃用户和非热门项目在目标域上的隐向量,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。
步骤二中,如图3所示,按照跨区域推荐场景进行整理。其中,R(5)为目标域数据,R(2)为辅助域数据,R(5)和R(2)共享相同的用户集合U和项目集合I。
其中,R(5)可以采用5分制(1-5分)评分矩阵,R(2)可以采用二元(1/0,即喜欢/不喜欢)评分矩阵。
其中,评分矩阵中每一行评分个数即为该用户的评分个数,评分矩阵中每一列的评分个数即为该项目收到的评分个数。
步骤三中,对于目标域评分矩阵,根据用户评分个数的大小对用户进行排序,将用户按照评分个数从大往小的顺序在评分矩阵中从上往下排列,同样的根据项目评分个数的大小,将项目按照评分个数从大往小的顺序在评分矩阵中从左往右排列。
如此,整体上评分多的用户集中在评分矩阵上方,评分多的项目集中在评分矩阵的左边;将源域中用户和项目按照与目标域相同的顺序排列,目标域和源域中用户和项目是一一对应的关系。
如图3所示,为了便于观察R(5)和R(2),我们用前后两个切片对其进行分别表示。在R(5)
Figure BDA0003462554670000081
Figure BDA0003462554670000082
分别表示活跃用户和非活跃用户集合,
Figure BDA0003462554670000083
Figure BDA0003462554670000084
分别表示热门项目和非热门项目集合。所以a(i),b(i),c(i),d(i)(i=5,2)分别表示目标域和辅助域上由活跃用户和热门项目,活跃用户和非热门项目,非活跃用户和热门项目,非活跃用户和非热门项目构成的评分区域。
通常活跃用户相对于非活跃用户会提供更多的评分,热门项目相对于非热门项目会获得更多的评分,因此,density(a(i))比较高,且density(d(i))<density(b(i)或c(i))<density(a(i)),注意density(b(i))和density(c(i))通常不存在明显的大小关系,其中i=5,2。此外,相对于较为复杂的数值评分,全体用户往往更倾向进行1,0二元评分,因此,相对于评分稀疏的R(5),可认为R(2)甚至d(2)均具有较高的评分密度,且满足density(R(5)<<density(d(2))<density(R(2))。
由于不同数据集的评分密度不同,且活跃用户和热门项目是一种相对的概念,怎么划分活跃用户和热门项目需要一个明确的定义,下面基于用户和项目的评分个数大小将用户和项目划分为活跃用户和非活跃用户、热门物品和非热门物品,以进行更有针对性地推荐。
所述活跃用户和非活跃用户定义如下:
对于任意一个用户u∈U={u1,u2,…,um},让du表示目标域用户u的评分个数(即用户u评价的所有项目的个数),将用户按照评分个数由大到小排序,取前μ1%的用户作为活跃用户,剩下的用户作为非活跃用户;其中μ1是一个预先设定的参数,称为用户活跃度阈值,μ1的最优值通过实验来确定。
所述热门项目和非热门项目定义如下:
对于任意一个项目i∈I={i1,i2,…,in},让di表示目标域项目i的评分个数(即评价过项目i的所有用户的个数),将项目按照评分个数由大到小排序,取前μ2%的项目作为热门项目,剩下的项目作为非热门项目;其中μ2称为项目热门度阈值。
步骤四中,基于隐语义Funk-SVD模型对目标域和源域评分矩阵分别进行矩阵分解,提取目标域和源域中用户和项目的隐向量;具体包括:
(1)对目标域评分矩阵进行分解提取用户隐向量pu和项目隐向量qi
采用随机梯度下降来求解如下优化问题,获取评分矩阵对应的用户隐向量pu和项目隐向量qi
Figure BDA0003462554670000091
其中,D表示有评分rui的(u,i)对集合,λ是正则化系数。
为了避免过拟合,我们利用交叉验证来确定合适的λ值。
随机梯度下降迭代公式为:
qi←qi+γ(euipu-λqi)
pu←pu+γ(euiqi-λpu)
其中,
Figure BDA0003462554670000092
γ是学习率。具体的,本实时例采用
Figure BDA0003462554670000093
Figure BDA0003462554670000094
分别表示5分制数值评分矩阵R(5)分解得到的用户和项目隐向量。
(2)对源域评分矩阵进行矩阵分解提取用户隐向量pu和项目隐向量qi
由于辅助域0-1评分预测更适合被看作是一个具有0,1标签的分类问题,而不适合被看作数值评分回归问题。
本实施例采用改进的Funk-SVD模型进行辅助域隐向量特征提取,即使用交叉熵损失函数替代最小二乘损失函数作为模型的损失函数,从而将回归问题转化为分类问题。
具体的,针对辅助域隐向量特征提取求解如下优化问题:
Figure BDA0003462554670000101
式中,
Figure BDA0003462554670000102
D0表示辅助域上评分rui对应的(u,i)对集合,λ是正则化系数。
使用随机梯度下降来求解上述优化问题,迭代公式如下:
Figure BDA0003462554670000103
Figure BDA0003462554670000104
具体的,本实施例用
Figure BDA0003462554670000105
Figure BDA0003462554670000106
分别表示二元评分矩阵R(2)分解得到的用户和项目隐向量。
步骤五中,针对活跃用户和热门项目,构建基于自教学习的深度回归网络分别学习目标域和源域上两种评分对应的用户隐向量和项目隐向量的映射关系;包括:
利用活跃用户在目标域和源域中的隐向量训练深度回归模型,构建活跃用户的源域隐向量和目标域隐向量之间映射关系F1
同样的,利用热门项目在目标域和源域中的隐向量训练深度回归模型,构建热门项目的源域隐向量和目标域隐向量之间映射关系F2
由于活跃用户和热门项目相关的评分较为丰富,有助于求解相对准确的隐向量特征,本实施例首先针对活跃用户和热门项目计算隐向量特征,进而建模活跃用户和热门项目在两种评分上对应的隐向量映射关系。
Figure BDA0003462554670000107
Figure BDA0003462554670000108
分别表示5分制评分矩阵R(5)对应的活跃用户ua和热门项目ip的隐向量,
Figure BDA0003462554670000109
Figure BDA00034625546700001010
分别表示二元评分矩阵R(2)对应的活跃用户和热门项目的隐向量。
值得注意的是,本实施例中对评分矩阵R(5)和R(2)整体进行矩阵分解,而不是仅针对活跃用户和热门项目关联的区域a(5)和a(2)所对应的评分子矩阵R(a(5))和R(a(2))进行分解。
由于R(5)和R(2)比R(a(5))和R(a(2))具有更多的评分信息,因此对评分矩阵R(5)和R(2)整体进行矩阵分解可以获得更为精确的隐向量特征。
基于获取的活跃用户隐向量特征
Figure BDA0003462554670000111
Figure BDA0003462554670000112
Figure BDA0003462554670000113
作为输入,以
Figure BDA0003462554670000114
作为输出,构建深度回归网络学习它们之间的映射关系F1
同样的原理,以学习热门项目对应的两种隐向量映射关系F2
然而,由于活跃用户和热门项目数量往往偏少,直接构建深度回归网络效果不够理想。
以活跃用户隐向量映射关系建模为例,考虑到推荐平台还存在大量的非活跃用户,他们的隐向量特征与活跃用户的隐向量特征共享同一特征空间,为进一步提升映射关系建模的准确性,本实施例在映射关系建模时,包括如下步骤:
首先利用大量非活跃用户的隐向量特征
Figure BDA0003462554670000115
作为无监督训练数据训练栈式降噪自编码器(Stacked Denoising Autoencoders,SDAE),获取隐向量特征的低维高层表示;
例如,让x表示原始的训练数据,x加上高斯噪声转化为
Figure BDA0003462554670000116
Figure BDA0003462554670000117
经过编码器编码得到低维特征表示y,公式如下:
Figure BDA0003462554670000118
其中,W和b分别表示编码器权值矩阵和偏置向量,S表示ReLu激活函数。将y经过解码器得到输入数据的重构数据,表达式为:
z=g(y)=S(W′y+b′)
其中z为经过重构得到的数据,W′和b′分别表示解码器权值矩阵和偏置向量。
损失函数为:
Figure BDA0003462554670000121
其中M表示样本数。将多个降噪自编码器(Denoising Autoencoder,DAE)堆叠起来,得到栈式降噪自编码器,利用非活跃用户对应的无监督特征数据训练栈式降噪自编码器获取隐向量特征的低维高层表示。如图4所示,其中(a)进行逐层学习;(b)将多层降噪自编码器进行拼接;(c)使用整个无监督数据集合,利用BP算法对权重进行微调。
然后,在编码层的基础上外接一层线性回归单元,构建深度回归网络,并利用少量对应活跃用户的有监督训练数据
Figure BDA0003462554670000122
对深度回归网络进行训练,建模映射关系。
回归模型微调过程如图5所示,其中线性回归单元不含有任何激活函数,仅仅计算各个输入单元的加权和。
损失函数定义如下:
Figure BDA0003462554670000123
其中
Figure BDA0003462554670000124
是活跃用户ua基于R(5)矩阵分解得到的隐向量,
Figure BDA0003462554670000125
是基于深度回归网络预测的隐向量,其中
Figure BDA0003462554670000126
为活跃用户ua基于R(2)矩阵分解得到的隐向量。
如图5所示,在深度回归网络训练过程中,使用图4中已训练好的SDAE中编码器的最终权重(W′1,W′2,W′3)初始化深度回归网络中编码器的权重,随机初始化最外层的线性回归单元权重W′4。然后用BP算法对深度回归网络所有权重进行学习,得到最终的深度回归网络,即映射关系F1。同样的方法可以用于建模热门项目对应的两种隐向量的映射关系F2
步骤六中,利用用户隐向量和项目隐向量的映射关系得到目标域中非活跃项目和非热门项目特征;包括:
将活跃用户和热门项目对应的隐向量映射关系F1和F2扩展到目标域全体区域;
将非活跃用户在源域中较为准确的潜在因子向量
Figure BDA0003462554670000131
通过映射关系F1得到非活跃用户uina在目标域的潜在因子向量
Figure BDA0003462554670000132
Figure BDA0003462554670000133
同样的,将非热门项目在源域中较为准确的潜在因子向量
Figure BDA0003462554670000134
通过映射关系F2得到非热门项目iunp在目标域的潜在因子向量
Figure BDA0003462554670000135
Figure BDA0003462554670000136
步骤七中,根据非活跃用户和非热门项目在目标域上的隐向量,受限矩阵分解模型构建过程包括:
Figure BDA0003462554670000137
为数值矩阵R(5)中用户u对项目i的评分,
Figure BDA0003462554670000138
为本文跨区域跨评分协同过滤模型最终求解的任意用户u的隐向量,
Figure BDA0003462554670000139
为最终求解的任意项目i的隐向量。
Figure BDA00034625546700001310
为活跃用户ua基于评分矩阵R(5)分解得到的隐向量,
Figure BDA00034625546700001311
为热门项目ip基于R(5)分解得到的隐向量。
针对目标域具有不同评分密度的各个区域,我们通过求解如下优化问题来获取目标域最终的用户和项目隐向量,实现知识从辅助域和目标域评分密集区域向目标域评分非密集区域的转移:
Figure BDA00034625546700001312
其中λ12是两个正则化系数,
Figure BDA00034625546700001313
本实施例使用随机梯度下降来求解优化问题,迭代公式如下:
Figure BDA00034625546700001314
Figure BDA00034625546700001315
其中
Figure BDA0003462554670000141
γ表示学习率。
在上述优化问题中,采用
Figure BDA0003462554670000142
对目标域活跃用户和非活跃用户的隐向量进行约束,如果u为活跃用户,则
Figure BDA0003462554670000143
即以活跃用户u基于评分矩阵R(5)分解得到的隐向量作为约束。如果u为非活跃用户,则
Figure BDA0003462554670000144
即以非活跃用户u基于映射关系得到的隐向量作为约束。对于项目,采用
Figure BDA0003462554670000145
对目标域热门项目和非热门项目的隐向量进行约束,如果i为热门项目,则
Figure BDA0003462554670000146
即以热门项目i基于R(5)分解得到的隐向量作为约束。如果i为非热门项目,则
Figure BDA0003462554670000147
即以非热门项目i基于映射关系得到的隐向量作为约束。因此,本实施例通过上述优化问题的求解实现了针对目标域不同区域的个性化知识迁移,将上述添加约束的矩阵分解方法称为受限矩阵分解方法。
根据求解得到的任意用户u的潜在因子向量
Figure BDA0003462554670000148
和任意项目i的潜在因子向量
Figure BDA0003462554670000149
预测用户u对项目i的评分,即
Figure BDA00034625546700001410
根据目标用户对待预测项目的预测评分值大小,选择预测评分最高的Top-N个项目作为给用户的推荐列表。
实施例二
本实施例提供了一种一种跨区域跨评分协同过滤推荐系统,包括:
数据预处理模块,被配置为:获取目标域和源域的用户-项目评分数据,预处理后得到目标域评分矩阵和源域评分矩阵;
将目标域评分矩阵和源域评分矩阵中全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;
特征提取模块,被配置为:基于隐语义模型对目标域评分矩阵和源域评分矩阵进行分解,提取目标域和源域中用户隐向量和项目隐向量;
针对活跃用户和热门项目,基于训练好的深度回归网络,分别学习目标域和源域在两种评分制下对应的用户隐向量和项目隐向量的映射关系;
利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征;
推荐获取模块,被配置为:根据目标域上非活跃用户和非热门项目特征,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种跨区域跨评分协同过滤推荐方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种跨区域跨评分协同过滤推荐方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种跨区域跨评分协同过滤推荐方法,其特征在于,包括:
获取目标域和源域的用户-项目评分数据,预处理后得到目标域评分矩阵和源域评分矩阵;
将目标域评分矩阵和源域评分矩阵中全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;
基于隐语义模型对目标域评分矩阵和源域评分矩阵进行分解,提取目标域和源域中用户隐向量和项目隐向量;
针对活跃用户和热门项目,基于训练好的深度回归网络,分别学习目标域和源域在两种评分制下对应的用户隐向量和项目隐向量的映射关系;
利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征;
根据目标域上非活跃用户和非热门项目特征,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。
2.如权利要求1所述的一种跨区域跨评分协同过滤推荐方法,其特征在于,所述目标域评分矩阵和源域评分矩阵中,每一行评分个数为该用户的评分个数,每一列的评分个数为该项目收到的评分个数。
3.如权利要求1所述的一种跨区域跨评分协同过滤推荐方法,其特征在于,对于目标域评分矩阵,根据用户评分个数的大小对用户进行排序,将用户按照评分个数从大往小的顺序在评分矩阵中从上往下排列,根据项目评分个数的大小,将项目按照评分个数从大往小的顺序在评分矩阵中从左往右排列,将源域中用户和项目按照与目标域相同的顺序排列,目标域和源域中用户和项目一一对应。
4.如权利要求1所述的一种跨区域跨评分协同过滤推荐方法,其特征在于,提取源域中用户隐向量和项目隐向量包括:采用改进的Funk-SVD模型进行辅助域隐向量特征提取,采用交叉熵损失函数替代最小二乘损失函数作为模型的损失函数,将回归问题转化为分类问题。
5.如权利要求1所述的一种跨区域跨评分协同过滤推荐方法,其特征在于,所述深度回归网络训练过程中,使用训练好的SDAE中编码器的最终权重初始化深度回归网络中编码器的权重,随机初始化最外层的线性回归单元权重,然后用BP算法对深度回归网络所有权重进行学习。
6.如权利要求1所述的一种跨区域跨评分协同过滤推荐方法,其特征在于,所述利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征包括:
将活跃用户和热门项目对应的隐向量映射关系和扩展到目标域全体区域;
将非活跃用户和非热门项目在源域中的潜在因子向量通过隐向量映射关系得到非活跃用户和非热门项目在目标域的潜在因子向量。
7.如权利要求1所述的一种跨区域跨评分协同过滤推荐方法,其特征在于,所述受限矩阵分解模型的构建过程为:
Figure FDA0003462554660000021
其中,
Figure FDA0003462554660000022
为5分制评分矩阵中用户u对项目i的评分,
Figure FDA0003462554660000023
为任意用户u的隐向量,
Figure FDA0003462554660000024
为活跃用户ua基于5分制评分矩阵分解得到的隐向量,
Figure FDA0003462554660000025
为热门项目ip基于5分制评分矩阵分解得到的隐向量,λ12是两个正则化系数,
Figure FDA0003462554660000026
为对目标域活跃用户和非活跃用户的隐向量约束条件,
Figure FDA0003462554660000027
为目标域热门项目和非热门项目的隐向量约束条件。
8.一种跨区域跨评分协同过滤推荐系统,其特征在于,包括:
数据预处理模块,被配置为:获取目标域和源域的用户-项目评分数据,预处理后得到目标域评分矩阵和源域评分矩阵;
将目标域评分矩阵和源域评分矩阵中全体用户划分为活跃用户和非活跃用户,将全部项目划分为热门项目和非热门项目;
特征提取模块,被配置为:基于隐语义模型对目标域评分矩阵和源域评分矩阵进行分解,提取目标域和源域中用户隐向量和项目隐向量;
针对活跃用户和热门项目,基于训练好的深度回归网络,分别学习目标域和源域在两种评分制下对应的用户隐向量和项目隐向量的映射关系;
利用活跃用户和热门项目的用户隐向量和项目隐向量的映射关系得到目标域上非活跃用户和非热门项目特征;
推荐获取模块,被配置为:根据目标域上非活跃用户和非热门项目特征,构建受限矩阵分解模型,预测任意用户对任意项目的评分,选择预测评分最高的项目作为用户的推荐结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种跨区域跨评分协同过滤推荐方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种跨区域跨评分协同过滤推荐方法中的步骤。
CN202210021494.6A 2022-01-10 2022-01-10 一种跨区域跨评分协同过滤推荐方法及系统 Pending CN114329233A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210021494.6A CN114329233A (zh) 2022-01-10 2022-01-10 一种跨区域跨评分协同过滤推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210021494.6A CN114329233A (zh) 2022-01-10 2022-01-10 一种跨区域跨评分协同过滤推荐方法及系统

Publications (1)

Publication Number Publication Date
CN114329233A true CN114329233A (zh) 2022-04-12

Family

ID=81026020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210021494.6A Pending CN114329233A (zh) 2022-01-10 2022-01-10 一种跨区域跨评分协同过滤推荐方法及系统

Country Status (1)

Country Link
CN (1) CN114329233A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952360A (zh) * 2023-03-14 2023-04-11 中国海洋大学 基于用户和物品共性建模的域自适应跨域推荐方法及系统
CN116992155A (zh) * 2023-09-20 2023-11-03 江西财经大学 一种利用nmf的不同活跃度用户长尾推荐方法与系统
CN117891238A (zh) * 2024-03-13 2024-04-16 青岛科技大学 一种阻拦着舰装备中定长冲跑阀故障诊断方法
CN117891238B (zh) * 2024-03-13 2024-05-28 青岛科技大学 一种阻拦着舰装备中定长冲跑阀故障诊断方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952360A (zh) * 2023-03-14 2023-04-11 中国海洋大学 基于用户和物品共性建模的域自适应跨域推荐方法及系统
CN116992155A (zh) * 2023-09-20 2023-11-03 江西财经大学 一种利用nmf的不同活跃度用户长尾推荐方法与系统
CN116992155B (zh) * 2023-09-20 2023-12-12 江西财经大学 一种利用nmf的不同活跃度用户长尾推荐方法与系统
CN117891238A (zh) * 2024-03-13 2024-04-16 青岛科技大学 一种阻拦着舰装备中定长冲跑阀故障诊断方法
CN117891238B (zh) * 2024-03-13 2024-05-28 青岛科技大学 一种阻拦着舰装备中定长冲跑阀故障诊断方法

Similar Documents

Publication Publication Date Title
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
Hall et al. Clustering with a genetically optimized approach
CN109033095B (zh) 基于注意力机制的目标变换方法
CN110807154A (zh) 一种基于混合深度学习模型的推荐方法与系统
CN112199520B (zh) 基于细粒度相似性矩阵的跨模态哈希检索算法
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN106503654A (zh) 一种基于深度稀疏自编码网络的人脸情感识别方法
CN109948029A (zh) 基于神经网络自适应的深度哈希图像搜索方法
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN114329233A (zh) 一种跨区域跨评分协同过滤推荐方法及系统
Li et al. Exploring compositional high order pattern potentials for structured output learning
CN112529168A (zh) 一种基于gcn的属性多层网络表示学习方法
CN112487200B (zh) 一种改进的包含多重边信息与多任务学习的深度推荐方法
CN113065649A (zh) 一种复杂网络拓扑图表示学习方法、预测方法及服务器
Varshaneya et al. Res‐SE‐Net: Boosting Performance of ResNets by Enhancing Bridge Connections
CN114880538A (zh) 基于自监督的属性图社团检测方法
James et al. Deep learning
Zhang et al. Deep compression of probabilistic graphical networks
CN104573726B (zh) 基于四等分及各成分重构误差最优组合的人脸图像识别方法
Cong et al. Gradient-Semantic Compensation for Incremental Semantic Segmentation
CN112860856A (zh) 一种算数应用题智能解题方法及系统
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
Xie et al. Scalenet: Searching for the model to scale
CN116303386A (zh) 一种基于关系图谱的缺失数据智能插补方法和系统
CN116094977A (zh) 基于时间感知面向特征优化的服务Qos预测的深度学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination