CN114491095A

CN114491095A - 基于时序漂移的潜在因子模型对项目的推荐方法

Info

Publication number: CN114491095A
Application number: CN202210054508.4A
Authority: CN
Inventors: 胡广伟; 丁浩
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-13

Abstract

基于时序漂移的潜在因子模型对项目的推荐方法，通过采集所需要推荐项目的历史信息，构建时序漂移矩阵分解模型以及时序漂移联合目标函数后，对联合目标函数进行求解后得到基于时序漂移矩阵分解模型，输入的用户信息后可进行项目推荐。本发明考虑并结合了用户的时序动态偏好演变以及用户过去行为对当前行为的影响关系进行建模，通过构建辅助矩阵捕捉用户两个时期之间演变关系，引入时间影响因子平衡当前和过去行为的影响，并在三个实验数据集中和基线方法对比测试均取得较好的仿真推荐效果，以说明本发明具有更优越的有效性。

Description

基于时序漂移的潜在因子模型对项目的推荐方法

技术领域

本发明属于多媒体信息处理技术领域，具体涉及基于时序漂移的潜在因子模型对项目的推荐方法。

背景技术

随着大数据时代的发展，推荐系统在生活中起着至关重要的作用，在推荐系统中，具有相似活动信息的用户往往会得到推荐，其中包括显示信息(例如评级或标记行为等)和隐式信息(时序行为特征等)，往往隐式信息最为关键，因为隐式信息量更大并且更能反映出用户详实的行为关系。在实际环境中，随着时间的推移，用户偏好也发生隐式演变。为了解决这个问题，Vaca等人在2014年发表于《International Conference on World WideWeb.》的《A Time-based Collective Factorization for Topic Discovery andMonitoring in News》中提出了集体矩阵分解来给在线主题发现问题建模，使用了一种自适应的非负矩阵分解(NMF)方法，该方法通过映射矩阵来捕获两个时间段之间的兴趣转换来共同获得主题演变。然而，这种模式只专注于新闻的主题发现，无法在常规的推荐系统上运行。Rafailidis等人在2017年发表于《Expert Systems with Applications》的《Preference Dynamics with Multimodal User-Item Interactions in Social MediaRecommendation》中提出一种通过将多模态信息与得分相结合来减少数据稀疏性的推荐方案，该模型还考虑了多模态数据以解释每个时间步长的分数，但这些数据不能揭示评论者提供的内容主题因素。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供基于时序漂移的潜在因子模型推荐方法。

本发明采用如下的技术方案：

基于时序漂移的潜在因子模型对项目的推荐方法包括以下步骤：

步骤1，采集所需要推荐项目的历史信息；

步骤2，基于采集的历史信息构建时序漂移矩阵分解模型；

步骤3，基于时序漂移矩阵分解模型构建时序漂移联合目标函数；

步骤4，对步骤3构建的联合目标函数进行求解后得到基于时序漂移矩阵分解模型，输入的用户信息后可进行项目推荐。

在步骤1中，历史信息包括项目的用户信息与项目评级信息；

用户信息包括用户行为的时间信息；用户行为的时间信息包括用户在亚马逊网站上浏览这些项目的时长、收藏时间、加入购物车时间以及结账时间；

评级范围是1-5分的整数，并对数据集中用户评级数量小于等于1的数据进行筛除。

在步骤2中，所述时序漂移矩阵分解模型将每个用户u_i的t时刻用户潜在因子矩阵

与t-T时刻的用户潜在因子矩阵

相联系，在t和t-T时刻之间定义一个辅助转移矩阵

表示当前用户潜在因子矩阵

可用t-T时刻的用户潜在因子矩阵

通过辅助转移矩阵

转移后表示；

当前用户潜在因子矩阵

包含t时刻每个项目的用户信息；项目潜在因子矩阵

包含t时刻每个项目的项目评级信息。

所构建的时序漂移矩阵分解模型满足以下关系式：

其中，

表示n维实数空间，

表示当前时间t的评分矩阵,

表示评分矩阵R^(t)由i×j维的实数组成；

表示t时刻目标矩阵R^(t)的用户潜在因子矩阵，

表示潜在用户潜在因子矩阵

由i×l维的实数组成；

表示t-T时刻目标矩阵R^(t)的用户潜在因子矩阵；

表示t时刻目标矩阵R^(t)的项目潜在因子矩阵，

表示项目潜在因子矩阵

由l×j维的实数组成；

表示

和

之间的辅助转换矩阵。

定义在t时刻和t-T时刻分别对应的评分矩阵R^(t)和R^(t-1)的最小化问题：

其中，

表示Frobenius范数。

引入时间影响因子α，得到联合最小化问题：

其中，0<α<1，

对联合最小化问题进行求解，得到时序漂移联合目标函数，其满足以下关系式：

其中，

表示预测数据与实际数据之间误差最小化，

表示由t-1时刻获得用户潜在因子矩阵的转换预测误差的最小化；U^(t-T)的分解偏置度由时间正则化项

控制，γ₁，γ₂为各项影响调节参数，当γ₁值越高，则表示该模型对

更偏向于辅助矩阵

对其影响作用；||·||₁表示L1范数。

使用一阶必要条件等式约束求解时序漂移联合目标函数，得到以下关系式：

其中，符号⊙表示两个矩阵对应位置元素进行乘积，

符号表示各参数损失函数梯度。

以及

梯度的更新规则为：

所述

的更新规则为：

的更新规则为：

的更新规则为：

本发明的有益效果在于，与现有技术相比，本发明考虑并结合了用户的时序动态偏好演变以及用户过去行为对当前行为的影响关系进行建模，通过构建辅助矩阵捕捉用户两个时期之间演变关系，引入时间影响因子平衡当前和过去行为的影响，并在三个实验数据集中和基线方法对比测试均取得较好的仿真推荐效果，说明本发明具有有效性。

附图说明

图1为本发明提出的基于时序漂移的潜在因子分解模型示意图；

图2为本发明时间影响因子α取值与精确度指标关系示意图；

图3为本发明模型与各基线模型在不同TopN中NDCG指标对比示意图；

图4为本发明模型与各基线模型在不同TopN中精确度指标对比示意图。

具体实施方式

下面结合附图对本申请作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

基于时序漂移的潜在因子模型推荐方法，包括以下步骤：

步骤1，采集所需要推荐项目的历史信息；

历史信息包括项目的用户信息与项目评级信息；在本发明中，选用了来自美国斯坦福大学收集的亚马逊数据集，数据集中包括家电、书籍以及电脑游戏的用户信息、项目评级；

用户信息包括用户行为的时间信息；用户行为的时间信息包括用户在亚马逊网站上浏览这些项目的时长、收藏时间、加入购物车时间以及评级时间；

评级范围是1-5分的整数，并对数据集中用户评级数量小于等于1的数据进行筛除；

具体数据如表1所示：

表1本发明实施例使用的数据规模

步骤2，基于采集的历史信息构建时序漂移矩阵分解模型；

首先构建数据矩阵，数据矩阵包括用户潜在因子矩阵

以及项目潜在因子矩阵

用户潜在因子矩阵

包含t时刻每个项目的用户信息；项目潜在因子矩阵

包含t时刻每个项目的项目评级信息；

如图1所示为时序漂移矩阵分解模型示意图，模型把于每个用户u_i的t时刻用户潜在因子矩阵

与t-T时刻的用户潜在因子矩阵

的联系考虑在内，在t和t-T时刻之间定义一个辅助转移矩阵

表示当前用户潜在因子矩阵

可用过去用户潜在因子矩阵

通过辅助转移矩阵

转移后表示；另一方面，根据到t时刻的时间间隔长度，考虑引入影响因子表达对不同时刻用户特征因子矩阵的时间影响；

所构建的时序漂移矩阵分解模型满足以下关系式：

其中，

表示n维实数空间，

表示当前时间t的评分矩阵,

表示评分矩阵R^(t)由i×j维的实数组成；

表示t时刻目标矩阵R^(t)的用户潜在因子矩阵，

表示用户潜在因子矩阵

由i×l维的实数组成；

表示t-T时刻目标矩阵R^(t)的用户潜在因子矩阵；

表示t时刻目标矩阵R^(t)的项目潜在因子矩阵，

表示项目潜在因子矩阵

由l×j维的实数组成；

表示

和

之间的辅助转换矩阵，用于捕捉

和

之间的多重潜在用户潜在因子时序变化关系

首先定义在t时刻和t-T时刻分别对应的评分矩阵R^(t)和R^(t-1)的最小化问题：

其中，

表示Frobenius范数；

对上述公式引入时间影响因子α(0<α<1)，将其转化为联合最小化问题：

其中，

时间影响因子α用于平衡用户评级时间衰减影响；本发明将调节参数γ₁,γ₂均设置为0.5，并调整α的值对比效果，时间间隔参数T的取值范围为24个月。影响因子α取值范围是0.05到1.0，步进为0.05，结果如图2所示。可以看出，当α增加时，性能逐步提高，但当α超过0.55时，准确度开始下降。这一结果表明，如果α太大或者太小，准确度都偏低，无法准确预测用户偏好，因此性能的最优值为α＝0.55时，这表示用户近期偏好产生了较大的影响。

在本实施例中，求解联合最小化问题的目标函数为：

表示预测数据与实际数据之间误差最小化，

更偏向于辅助矩阵

对其影响作用；||·||₁表示L1范数；从简化算法实现复杂度考虑，本发明设定模型调节参数γ₁＝γ₂；

优选地，γ₁,γ₂均设置为0.5；

步骤4，对步骤3构建的联合目标函数进行求解后得到基于时序漂移矩阵分解模型，输入的用户信息后可进行项目推荐；

本领域的技术人员可以利用现有的计算模型或商业求解软件进行求解，本实施例提供的方法仅为一优选方案，不能是本发明的必然约束：

根据一阶必要条件等式约束解决优化问题，得到以下关系式：

其中，符号⊙表示两个矩阵对应位置元素进行乘积，

符号表示各参数损失函数梯度，每个参数的损失函数梯度满足以下关系式：

其中，

的更新规则为：

的更新规则为：

的更新规则为：

为了确定模型与推荐数量的关系，本发明将潜在因子的数量设定为20，并将推荐数量从100增加到500，步进为100。图3和图4分别显示了不同推荐方法在NDCG和精确度方面的性能。可以看出，在不同的Top-N推荐中，本发明所提出的TDMF模型优于所有其他基线模型，表明其在处理用户时序动态偏好问题方面具有较强的能力。

本发明使用NDCG(Normalized Discounted Cummulative Gain)、准确率P、召回率Recall和F1值作为主要实验评价指标，各指标定义如下：

NDCG表示归一化折损累计增益。前N个推荐结果中NDCG@N的定义如下式：

其中，b_i表示如果项目i位于推荐结果集中，则为1，否则为0；IDCG@N定义如下式：

IDCG@N表示理想情况下推荐结果中最相关的结果列表，即按照推荐相关性从大到小的顺序排序，取前N个结果组成的集合。因此，推荐结果相关度越高，则NDCG值越大。

根据用户是否有兴趣购买的商品进行分类。假设推荐系统为目标用户提供一个包含N项的推荐列表，则精度定义如下:

其中BUY是测试集中目标用户购买的商品集，ALL是推荐列表中全部N个商品的推荐列表，|ALL∩BUY|是ALL和BUY之间的商品交集数量。

召回率Recall是在TopN位置返回的相关项目与实际返回的相关项目数量的比例，如下所示：

F1值是对准确率和召回率进行整体评价,可以防止出现其中一项指标偏高而另一项偏低的情况，其定义如下：

表1提供了更详细的数据集分析。各个模型的R@N、P@N、F1@N和NDCG@N(N＝100和200)性能指标结果如表1所示。在各基线方法中，各个指标性能最好的是本文的TDMF模型。因此，与其它时序方法相比，本文方法能更好地捕捉识别用户偏好的时序动态变化。此外，与TCMF使用的辅助转换矩阵不同，本文辅助矩阵针对每个用户特征因子单独进行训练，因此本文方法较之能更好的提取用户个性化特征。因此，可以通过结合用户时序特征的潜在因子分解来实现推荐。

表1：本发明模型与各基线模型详细指标对比

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。