CN116664253B

CN116664253B - 一种基于广义矩阵分解与遮蔽注意力的项目推荐方法

Info

Publication number: CN116664253B
Application number: CN202310940554.9A
Authority: CN
Inventors: 钱忠胜; 姚昌森; 万子珑; 蒋鹏; 王亚惠; 俞情媛
Original assignee: Jiangxi University of Finance and Economics
Current assignee: Jiangxi University of Finance and Economics
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-24
Anticipated expiration: 2043-07-28
Also published as: CN116664253A

Abstract

本发明提供一种基于广义矩阵分解与遮蔽注意力的项目推荐方法，该方法通过广义矩阵分解为模型提供用户与项目、用户与时间、项目与时间的二阶交互信息，给予模型深层次的抽象特征，使其整体预测能力得以提升；部分项目序列和时间序列存在空值，在注意力机制过程中空值会占据一定的权重，从而影响项目与时间的特征提取，本发明通过将注意力进行遮蔽化，能够协助模型屏蔽空值的影响；本发明通过广义矩阵分解与遮蔽注意力提取用户‑项目‑时间的重要特征信息，预测用户评分，使得模型能更高效地利用评分信息，从而有效的为用户提供项目推荐列表。

Description

一种基于广义矩阵分解与遮蔽注意力的项目推荐方法

技术领域

本发明涉及数据处理技术领域，特别是涉及一种基于广义矩阵分解与遮蔽注意力的项目推荐方法。

背景技术

在用户与项目的交互中学习到的结果已使许多现实用户和服务受益，例如在线购物平台的项目推荐，其结果主要是潜在特征向量模型，尤其是基于潜在因子分解的技术，比如矩阵分解(Matrix Factorization, MF)已在工业界表现非凡，吸引了大量研究人员探索提升其预测能力。

这些研究的一个方向是改进矩阵分解算法的传统学习能力。矩阵分解能使用简单的内积方式推测未知值且易于实现，因而在推荐系统中得到广泛应用。但对用户与物品间的非线性关系，矩阵分解无法利用简单内积操作对其建模，限制了模型预测能力，故有诸多学者对矩阵分解算法进行改进。例如，利用单层神经网络或多层感知机(MLP)，赋予MF非线性的学习能力。然而，这些方法均为静态的，在涉及动态场景时，用户与项目的交互数据无法表现出由时间而演化的动态性。例如，在Netflix用户在不同月份对各种电影的评分中，上述模型只能抓住用户全年的整体兴趣，而无法精确推测在当前月份的兴趣偏好。

另一个研究方向是将代表用户与项目交互的二维矩阵扩展为包含时间信息的三维张量。随后，可使用张量分解(Tensor Factorization, TF)技术将用户与项目投影到具有时间编码的潜在空间。存在传统的张量分解假设两个连续的时隙是独立的，也有通过循环神经网络(Recurrent Neural Network, RNN)学习连续时隙的交互，从而推测下一个时隙信息。然而，不管是独立还是连续的交互，它们的做法均将得到的用户、项目以及时间潜在向量直接输入到多层感知机中预测评分。它们并未考虑用户与项目、项目与时间、用户与时间之间的交互，一定程度上给模型带来信息缺失问题，导致整体预测能力较差，并且忽视了空值在序列中的误差影响。

发明内容

为此，本发明的实施例提出一种基于广义矩阵分解与遮蔽注意力的项目推荐方法，以解决现有技术整体预测能力较差、忽视了空值在序列中的误差影响的问题。

根据本发明一实施例的基于广义矩阵分解与遮蔽注意力的项目推荐方法，应用于项目推荐模型，所述项目推荐模型包括特征编码层、广义矩阵分解层和神经张量分解层；

所述方法包括：

步骤1，对用户的历史交互项目记录进行重组，重新编号并依照时间顺序进行排序，从而生成项目编号序列和时间编号序列，项目编号序列和时间编号序列的长度相同；

步骤2，对用户信息、项目编号序列、时间编号序列分别输入至特征编码层进行Embedding嵌入编码，以得到用户特征、项目特征向量序列、时间特征向量序列，将项目特征向量序列和时间特征向量序列输入至长短期记忆网络中，得到项目隐向量组和时间隐向量组，之后通过遮蔽注意力网络提取出项目隐藏状态向量和时间隐藏状态向量，再将项目隐藏状态向量和时间隐藏状态向量通过投影层调整维度，使项目隐藏状态向量和时间隐藏状态向量与用户特征对齐，从而形成项目投影特征与时间投影特征；

步骤3，将用户特征、项目投影特征、时间投影特征输入至广义矩阵分解层，生成用户与项目、用户与时间、项目与时间的二阶交互特征；

步骤4，对用户与项目、用户与时间、项目与时间的二阶交互特征，以及用户特征、项目投影特征、时间投影特征进行拼接，再输至神经张量分解层得到用户对项目的预测评分值；

步骤5：通过目标函数计算预测评分值与真实评分值间的损失，将损失最小化，再通过反向传播优化目标函数参数，完成算法收敛，进而得到最终的预测评分值，再根据最终的预测评分值向用户提供项目推荐列表。

根据本发明实施例的基于广义矩阵分解与遮蔽注意力的项目推荐方法，具有以下有益效果：

1) 通过广义矩阵分解为模型提供用户与项目、用户与时间、项目与时间的二阶交互信息，给予模型深层次的抽象特征，使其整体预测能力得以提升；

2) 部分项目序列和时间序列存在空值，在注意力机制过程中空值会占据一定的权重，从而影响项目与时间的特征提取，本发明通过将注意力进行遮蔽化，能够协助模型屏蔽空值的影响；

3) 本发明通过广义矩阵分解与遮蔽注意力提取用户-项目-时间的重要特征信息，预测用户评分，使得模型能更高效地利用评分信息，从而有效的为用户提供项目推荐列表。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例的项目推荐模型结果框图；

图2是本发明实施例的基于广义矩阵分解与遮蔽注意力的项目推荐方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供一种基于广义矩阵分解与遮蔽注意力的项目推荐方法，应用于项目推荐模型，请参阅图1，所述项目推荐模型包括特征编码层、广义矩阵分解层（GMF层）和神经张量分解层（NTF层）。所述特征编码层包括嵌入层、遮蔽注意力层（MA层）、投影层。

请参阅图2，所述方法包括步骤1~步骤5：

步骤1，对用户的历史交互项目记录进行重组，重新编号并依照时间顺序进行排序，从而生成项目编号序列和时间编号序列，项目编号序列和时间编号序列的长度相同。

其中，对于用户、项目/>、时间/>，通过查询用户/>按时间顺序排列的历史交互项目记录，得到序列长为/>的项目编号序列/>，/>分别为第1个、第2个、第/>个项目，依据时间进行纯数值逆向选取，得到序列长为s的时间编号序列/>，分别为第1、第2、第/>时刻。

步骤2，对用户信息、项目编号序列、时间编号序列分别输入至特征编码层进行Embedding嵌入编码，以得到用户特征、项目特征向量序列、时间特征向量序列，将项目特征向量序列和时间特征向量序列输入至长短期记忆网络中，得到项目隐向量组和时间隐向量组，之后通过遮蔽注意力网络提取出项目隐藏状态向量和时间隐藏状态向量，再将项目隐藏状态向量和时间隐藏状态向量通过投影层调整维度，使项目隐藏状态向量和时间隐藏状态向量与用户特征对齐，从而形成项目投影特征与时间投影特征。

其中，用户信息经特征编码层中的嵌入层形成维度的用户特征/>；

将项目编号序列输入至嵌入层，得到维度的项目特征向量序列/>，分别为第1个、第2个、第/>个项目特征向量；

将时间编号序列输入至嵌入层，得到维度的时间特征向量序列，/>分别为第1个、第2个、第/>个时间特征向量。

在遮蔽注意力层(MA层)，用遮蔽化的神经注意力机制来捕捉项目序列中的重要语义信息，经过权向量相乘，将每个时间步长的词向量合并为一个项目特征向量，如下式所示：

；

其中，为项目隐向量组，/>是由长短期记忆网络的输出向量组成的第一矩阵，/>为第一权重向量，/>表示转置操作，/>是由非线性激活函数/>转化的第一状态矩阵，为遮蔽归一化函数，/>为第一训练参数向量，/>为记录的项目编号序列中空值的个数及位置信息；项目隐向量组/>包含/>中的重要信息，且/>、/>、/>的维度分别是。

通过投影层将的维度与嵌入层向量维度保持一致，最终可得项目投影特征/>，如下式所示：

；

其中，表示第一激活函数，/>为第一权重矩阵，/>为第一偏置向量。

类似的，时间投影特征满足以下条件式：

；

其中，表示第二激活函数，/>为第二权重矩阵，/>为时间隐向量组，/>为第二偏置向量，/>是由长短期记忆网络的输出向量组成的第二矩阵，/>为第二权重向量，/>表示转置操作，/>是由非线性激活函数/>转化的第二状态矩阵，/>为第二训练参数向量，为记录的时间编号序列中空值的个数及位置信息。

步骤3，将用户特征、项目投影特征、时间投影特征输入至广义矩阵分解层，生成用户与项目、用户与时间、项目与时间的二阶交互特征。

其中，在广义矩阵分解层，将用户特征、项目投影特征/>、时间投影特征/>作为输入，学习得到用户、项目和时间三者间的二阶交互信息，如下式所示：

；

其中，、/>、/>分别是用户与项目、用户与时间、项目与时间的二阶交互向量，、/>、/>为第三激活函数，/>、/>、/>是第三权重矩阵，/>、/>、/>是第三偏置向量，/>表示点乘操作。

步骤4，对用户与项目、用户与时间、项目与时间的二阶交互特征，以及用户特征、项目投影特征、时间投影特征进行拼接，再输至神经张量分解层得到用户对项目的预测评分值。

其中，将二阶交互信息以及特征向量一并输入至MLP，由MLP输出预测评分值。

具体的，步骤4满足以下条件式：

；

其中，表示在时间/>时，用户/>对项目/>的预测评分值；/>为第四激活函数；/>、、/>、/>为第四权重矩阵；/>表示隐藏层数；/>、/>、/>、/>为第四偏置向量，/>、/>、、/>为中间值。

具体的，先得到一个初始的预测评分值，然后进行目标函数最小化，反向传播优化模型参数，通过优化后的模型参数，得到新的预测值，再进行目标函数最小化，以此循环，直至损失最小化，并得到最终的预测评分值，再根据最终的预测评分值给予用户推荐列表。

其中，目标函数损失最小化的表达式为：

；

其中，为采用Adam梯度下降法的损失最小化函数；/>表示在时间/>时，用户/>对项目/>的真实评分值；/>分别为用户、项目、时间的潜在因子矩阵，/>分别表示用户、项目、时间的总数。

完成算法收敛后，能够得到最终的预测评分值，再根据最终的预测评分值向用户提供项目推荐列表，例如，可以按照从大到小的顺序对最终的预测评分值进行排序，将排序靠前的预设数量（例如前3个）的项目组成项目推荐列表，并向用户推荐。

下面对上述方法进行实验验证，实验在1000万条数据的Netflix公开数据集上进行，采用Pytorch作为深度学习框架，CPU为AMD R7 3700X 3.6GHz，GPU为Nvidia GeForceRTX 2080Ti。对比7个具有代表性的经典模型。对比模型介绍及部分实验结果如下所示：

PMF(2007)：一种矩阵分解的概率方法，评分由潜在特征向量内积得出，在预测评级方面取得稳定而有力的结果。

RRN(2017)：通过基于历史评分的LSTM模型推断动态嵌入向量，预测用户与项目间的交互。

NCF(2017)：利用神经网络构建一种通用的协同过滤框架，对用户与项目间的交互实施建模。

DMF(2020)：在广义矩阵分解中引入隐藏层，通过神经网络提取用户与项目间的高阶交互信息。

MAMF(2022)：通过深度神经网络与多层注意力机制提取用户与项目特征，以预测用户选择。

NTF(2019)：基于神经网络的张量分解方法，通过长短期记忆网络描述关系数据上的多维时间交互。

LA-NTF(2021)：在NTF的基础上融入注意力机制，过滤噪音提升模型推荐效果。

表1展示了本发明的方法与现有技术中的7个经典模型的比较结果，本发明的方法的评价指标值以加粗形式显示，对比模型的最佳评价指标值用下划线表示，最后一列计算出本发明的方法针对最佳对比值的改进情况。数据集中训练集比例以30%、50%、70%递增，验证集始终为10%，测试集以60%、40%、20%递减。

表1

在表1的Netflix数据集中，随着训练集比例增长，模型推荐性能同样存在明显提高，在训练集为70%时达到最高，与PMF、RRN、NCF、DMF、MAMF、NTF、LA-NTF模型相比，本发明在RMSE上分别提升1.53%、4.33%、2.26%、2.27%、1.86%、1.81%、1.63%，在MAE上分别提升2.31%、5.15%、3.22%、3.75%、1.78%、1.19%、2.25%。从对比结果可知，本文模型性能相对于所有对比模型均有较大提升。本发明在RMSE和MAE上分别比LA-NTF提高1.63%和1.19%，这是由于LA-NTF缺乏广义矩阵分解与遮蔽注意力机制，广义矩阵分解能帮助模型更好地理解用户、项目、时间之间的深层关系，而遮蔽注意力机制能为评分过少的用户屏蔽大量空值信息的干扰。广义矩阵分解与遮蔽注意力机制使得模型能更高效地利用评分信息，因此效果提升较大。

综上，根据本发明提供的基于广义矩阵分解与遮蔽注意力的项目推荐方法，具有以下有益效果：

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于广义矩阵分解与遮蔽注意力的项目推荐方法，其特征在于，应用于项目推荐模型，所述项目推荐模型包括特征编码层、广义矩阵分解层和神经张量分解层；

所述方法包括：

步骤1中，通过查询用户按时间顺序排列的历史交互项目记录，得到序列长为/>的项目编号序列/>，/>分别为第1个、第2个、第/>个项目，依据时间进行纯数值逆向选取，得到序列长为/>的时间编号序列/>，/>、/>、/>分别为第1、第2、第/>时刻；

步骤2具体包括：

用户信息经特征编码层中的嵌入层形成维度的用户特征/>；

将时间编号序列输入至嵌入层，得到维度的时间特征向量序列，/>，/>、/>分别为第1个、第2个、第/>个时间特征向量；

步骤2中，项目投影特征满足以下条件式：

；

其中，表示第一激活函数，/>为第一权重矩阵，/>为项目隐向量组，/>为第一偏置向量，/>是由长短期记忆网络的输出向量组成的第一矩阵，/>为第一权重向量，/>表示转置操作，/>是由非线性激活函数/>转化的第一状态矩阵，/>为遮蔽归一化函数，/>为第一训练参数向量，/>为记录的项目编号序列中空值的个数及位置信息；

步骤2中，时间投影特征满足以下条件式：

；

其中，表示第二激活函数，/>为第二权重矩阵，/>为时间隐向量组，/>为第二偏置向量，/>是由长短期记忆网络的输出向量组成的第二矩阵，/>为第二权重向量，/>表示转置操作，/>是由非线性激活函数/>转化的第二状态矩阵，/>为第二训练参数向量，/>为记录的时间编号序列中空值的个数及位置信息；

步骤3具体包括：

在广义矩阵分解层，将用户特征、项目投影特征/>、时间投影特征/>作为输入，学习得到用户、项目和时间三者间的二阶交互信息，如下式所示：

；

其中，、/>、/>分别是用户与项目、用户与时间、项目与时间的二阶交互向量，/>、、/>为第三激活函数，/>、/>、/>是第三权重矩阵，/>、/>、/>是第三偏置向量，/>表示点乘操作；

步骤4满足以下条件式：

；

其中，表示在时间/>时，用户/>对项目/>的预测评分值；/>为第四激活函数；/>、/>、、/>为第四权重矩阵；/>表示隐藏层数；/>、/>、/>、/>为第四偏置向量，/>、/>、/>、/>为中间值；

步骤5：通过目标函数计算预测评分值与真实评分值间的损失，将损失最小化，再通过反向传播优化目标函数参数，完成算法收敛，进而得到最终的预测评分值，再根据最终的预测评分值向用户提供项目推荐列表；

步骤5中，目标函数损失最小化的表达式为：

；

其中，为采用Adam梯度下降法的损失最小化函数；/>表示在时间/>时，用户/>对项目/>的真实评分值；/>、/>、/>分别为用户、项目、时间的潜在因子矩阵，/>、/>、/>分别表示用户、项目、时间的总数。