CN114493755B

CN114493755B - 一种融合时序信息的自注意力序列推荐方法

Info

Publication number: CN114493755B
Application number: CN202111625259.1A
Authority: CN
Inventors: 杨波; 张懿虎
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-10-14
Anticipated expiration: 2041-12-28
Also published as: CN114493755A

Abstract

本发明公开了一种融合时序信息的自注意力序列推荐方法，该方法采用编码器‑解码器结构实现，使用编码器处理交互时间戳序列，使用解码器处理交互商品序列，从而融合每次交互行为的具体时序信息以捕获更为细粒度的用户行为模式；同时针对时序信息具有连续性的特点，使用了一种基于窗函数的编码方法，可以更好地将时间戳转换成嵌入编码；再结合自注意力机制，剔除时序信息和物品信息中的冗余部分，利用其中的关键信息，对用户近期交互行为做出更精确的预测，克服现有方法没有考虑具体时序信息的缺陷，提高了推荐效果。

Description

一种融合时序信息的自注意力序列推荐方法

技术领域

本发明涉及序列推荐领域，具体涉及一种融合时序信息的自注意力序列推荐方法。

背景技术

现有的序列推荐方法主要通过常见的序列建模算法(例如马尔科夫链，循环神经网络，自注意力机制模型)对用户历史交互行为序列建模，捕获有效用户行为模式，从而预测用户未来可能交互的物品，但现有的序列建模算法仍存在不足之处：现有序列推荐方法使用根据交互时间戳排序后的交互物品序列作为模型的输入，仅仅考虑了用户历史交互物品之间的基本的先后顺序，没有考虑用户每次交互的具体时间带来的影响，复杂的用户行为模式难以得到深入有效的建模。

发明内容

针对现有方法无法利用时序信息对用户历史交互行为进行建模的缺点，本发明提出了一种融合“时序信息”的基于自注意力机制的序列推荐方法，可用于常见的序列推荐场景(短视频推荐，电商平台，电影音乐推荐等)。本发明采用了一种独特的编码器-解码器结构方法，使用编码器处理交互时间戳序列，使用解码器处理交互商品序列，从而融合每次交互行为的具体时序信息以捕获更为细粒度的用户行为模式。同时针对时序信息具有连续性的特点，使用了一种基于窗函数的编码方法，可以更好地将时间戳转换成嵌入编码。再结合自注意力机制，剔除时序信息和物品信息中的冗余部分，利用其中的关键信息，对用户近期交互行为做出更精确的预测，克服现有方法没有考虑具体时序信息的缺陷，提高了推荐效果。

本发明提供了一种融合时序信息的自注意力序列推荐方法，具体包括以下步骤：

步骤S1)数据预处理：获取数据集，并将数据集中的用户历史交互记录转换成长度为L的历史交互序列

其中t_i是第i次交互的具体时间戳，s_i是第i次交互的商品编号，(t_i,s_i)表示第i次交互的时间商品二元组；

步骤S2)构建融合时序信息的自注意力序列推荐模型，并根据获取的数据集得到训练集，采用所述训练集对融合时序信息的自注意力序列推荐模型进行训练，得到训练好的融合时序信息的自注意力序列推荐模型；

步骤S3)获取长度为L的用户历史交互序列，输入通过步骤S2)得到的训练好的融合时序信息的自注意力序列推荐模型中，然后根据预测层给出用户对每个商品的偏好分数，将这些偏好分数从高到低排序，偏好分数越高，其对应的商品被推荐的可能性越大，从而得到推荐给用户的交互商品序列集合。

其中，所述融合时序信息的自注意力序列推荐模型的主要结构分为时间戳编码模块、商品编码模块、编码器、解码器、预测层五个部分；所述时间戳编码模块将用户历史交互时间戳转换成时序信息嵌入编码；所述商品编码模块将用户历史交互商品编号转换成商品嵌入编码；依次通过所述编码器中的残差注意力模块和前馈层，深入挖掘来自所述时间戳编码模块的时序信息嵌入编码之间的潜在关系，得到商品序列的时序信息；所述解码器首先使用第一残差注意力模块处理来自商品编码模块的商品嵌入编码，捕获商品序列中各个商品的相互关系，得到商品序列信息，接着使用第二残差注意力模块和前馈层，融合来自于所述编码器的商品序列的时序信息和第一残差注意力模块得到的商品序列信息，得到融合信息；最后将得到的融合信息送入所述预测层，预测层综合商品序列信息和商品序列的时序信息对用户近期可能的交互商品做出预测。

本发明通过基于窗函数的编码模块对时间信息进行编码，同时还引入了编码器-解码器的结构，利用编码器处理时序信息，利用解码器处理商品信息并融合时序信息辅助推荐，从而捕获到更细粒度的用户行为模式。基于窗函数的编码方式更好地编码时间信息，基于编码器-解码器的结构更好地引入了时间信息辅助推荐。本发明的方法可以应用在诸多存在序列依赖的推荐场景中，例如短视频推荐，电商推荐，电影音乐推荐等。由于引入了具体时间戳的影响，可以更深入地把握用户近期兴趣，为用户提供更精确的推荐，从而提升用户体验，提高平台流量。

附图说明

图1为本发明采用构建的推荐模型进行融合时序信息的自注意力序列推荐方法的示意图。

具体实施方式

下面结合附图和具体实施例详细描述本发明的技术方案。

本发明提出的一种融合时序信息的自注意力序列推荐方法，具体包括：

步骤S1)数据预处理：获取数据集，在现实情况下，所述数据集中的每个用户的历史交互序列记录长度是不尽相同的，本发明将用户的历史交互记录转换成长度为L的历史交互序列

t_i是第i次交互的具体时间戳，s_i是第i次交互的商品编号，(t_i,s_i)表示第i次交互的时间商品二元组。具体转换方式如下：对于长度超过L的序列，我们选取它最近L次时间商品二元组，对于长度小于L的序列，我们在它最左边填充若干个填充时间戳和填充商品编号(实际方法中都使用0)，直到它的长度达到L，最后输入的用户历史交互记录都转换为长度为L的序列即

步骤S2)构建融合时序信息的自注意力序列推荐模型，并根据获取的训练集对该模型进行训练，得到训练好的融合时序信息的自注意力序列推荐模型。本发明构建的所述融合时序信息的自注意力序列推荐模型主要结构类似于经典的Transformer模型，由图1所示，主要可分为时间戳编码模块、商品编码模块、编码器、解码器、预测层等五个部分。其中，时间戳编码模块将用户历史交互时间戳转换成时序信息嵌入编码；商品编码模块将用户历史交互商品编号转换成商品嵌入编码；依次通过编码器中的残差注意力模块和前馈层，深入挖掘来自时间戳编码模块的时序信息嵌入编码之间的潜在关系，得到商品序列的时序信息；解码器首先使用第一残差注意力模块处理来自商品编码模块的商品嵌入编码，捕获商品序列中各个商品的相互关系(即商品序列信息)，接着使用第二残差注意力模块和前馈层，融合来自于编码器的商品序列中的时序信息和第一残差注意力模块得到的商品序列信息，得到融合信息，最后将得到的融合信息送入预测层，预测层综合商品序列信息和商品序列的时序信息对用户近期可能的交互商品做出预测。

下面按照时间戳编码模块、商品编码模块、编码器、解码器和预测层的顺序依次介绍各部分的详细内容，最后介绍所述融合时序信息的自注意力序列推荐模型的训练过程。

一、时间戳编码模块：该模块的输入是提前经过预处理，长度为L的用户历史交互时间戳序列T＝[t₁,t₂,…,t_L]，这里设计了一种基于窗函数的编码方法，利用窗函数计算编码权重取值，可以保证相似的时间被转换成相似的嵌入编码。具体过程如下：

1.对于时间来说，它们之间的相对大小比它们的绝对大小更有意义，因此将时间戳序列[t₁,t₂,…,t_L]转换成相对时间间隔序列：

T_r＝[0,t₂-t₁,…,t_L-t₁]

2.根据最大时间间隔

将相对时间间隔序列归一化得到归一化的相对时间间隔序列，R^U是所有用户的相对时间间隔集合，

是将最大时间间隔缩放到一个合理范围的超参数，经过归一化的相对时间间隔序列T_s通过下面的公式计算得到，

是第i次交互时间戳转换成的归一化相对时间间隔：

这里的

k是分桶数目，也就是将相对时间间隔归一化到[0,k]。

3.这里定义了一个可学习的时间戳编码矩阵

这里的d是每个编码向量的维度大小(e_j表示第j个编码向量，j＝1,2,…,k)

4.根据窗函数计算编码权重w∈R^L×k，

代表归一化的相对时间间隔

对第j个编码向量的权重取值：

其中，w′表示窗函数的窗口大小，为一个常数。

5.根据第3步定义的时间戳编码矩阵M_T和第4步计算的权重计算每个归一化相对时间间隔的嵌入编码，得到相对时间间隔的嵌入编码矩阵E_T，

二、商品编码模块：该模块的输入是用户历史交互商品编号序列[s₁,s₂,…,s_L]。首先定义了一个可学习的商品编码矩阵M∈R^N×d，N是商品总数量，d为每个商品编码向量的维度大小，和时间戳编码矩阵中的编码向量的维度大小相同。然后根据商品编号s_i从M中检索到物品i的编码

得到物品编码矩阵E_I∈R^L×d，具体检索操作为：

为M中第s_i个编码向量。为了引入商品的先后顺序，这里加入位置编码P∈R^L×d来记录商品在历史交互序列中的位置信息，这样就可以得到加入位置编码的商品嵌入编码：

这里的P_i代表用户历史交互商品编号序列中第i个位置的位置编码。

三、编码器和解码器：

(1)残差注意力模块：由图1所示，时序信息嵌入编码和商品嵌入编码分别送入编码器和解码器进行进一步处理，在编码器和解码器中都使用了残差注意力模块，因此下面首先介绍残差注意力模块，残差注意力模块的输入是Q，K，V三个矩阵，具体过程如下：

1.放缩点乘注意力SDPA定义如下：

这里的d是维度大小，和前面的d均相同，softmax(*)表示归一化指数函数，softmax

2.考虑序列因果性：序列推荐本质上是一个序列预测任务，预测第t+1个商品的时候只能参考前t次交互行为，因此需要修改注意力的形式，禁止Q_i′和K_j′(j′＞i′)之间的联系以避免信息泄露，其中，Q_i′表示矩阵Q的第i′行，K_j′表示矩阵K的第j′行。

3.多头机制：多头机制可以从不同位置，不同特征子空间中共同获取信息，从而提高表征能力。多头机制MH具体如下所示：

这里的W^O，

是可学习参数，i″＝1，2，...，n_h，n_h是头的数目，Concat(*)表示拼接操作。

4.残差机制：为了解决当网络层数增加时产生的网络退化问题，同时在使用编码器来引入时序信息的同时保存原有的商品序列信息，本发明使用了一个残差连接，同时为了解决神经网络中的内部协变量偏移问题，这里使用了常用的层归一化(LayerNorm)操作，该过程由如下所示：

M″＝LayerNorm(M′+Q)＝LayerNorm(MH(Q，K，V)+Q)

为了表述方便，上述整个残差注意力模块操作简写为：

O＝RAB(Q，K，V)

Q，K，V为残差注意力模块的输入，O为残差注意力模块的输出。

(2)编码器：编码器接收从时间信息编码模块得到的时序信息嵌入编码E_T∈R^L×d，首先将时序信息嵌入编码送入残差注意力模块，捕获时间戳的相互关系，得到：

E′_T＝RAB(E_T，E_T，E_T)

本发明使用两层带有ReLU激活函数的全连接层以增强模型表征能力，同时使用层归一化(Layer Normalization)以稳定模型和加速训练，Dropout作为正则化手段以提升模型泛化能力，最后得到E″_T，即商品序列的时序信息：

FFN(E′_T)＝ReLU(E′_T W₁+b₁)W₂+b₂

F″_T＝E′_T+Dropout(FFN(LayerNorm(E′_T)))

其中，W₁、b₁分别表示第一层全连接层的权重和偏置；W₂、b₂分别表示第二层全连接层的权重和偏置。FFN(*)表示两层带有ReLU激活函数的全连接层。

最后，整个编码器模块的操作简写为：

O_E＝EB(E_T)，O_E∈R^L×d

其中，O_E表示编码器的最终输出，EB(*)表示编码器函数，E_T表示所述编码器的输入。

(3)解码器：解码器首先使用第一残差注意力模块处理商品序列，即接收从商品编码模块得到的商品嵌入编码

从中捕获商品的相互关系，得到商品序列信息

此时输入的Q，K，V都等于物品嵌入编码

然后使用第二残差注意力模块接收来自编码器的商品序列的时序信息E″_T(即O_E)和第一残差注意力模块得到的商品序列信息

令

K＝O_E，V＝O_E：

这里的O_E为编码器的输出，其实也就是E″_T，这里简写成O_E。

和编码器一样，这里也使用全连接层和残差连接来增强性能，得到：

E′_PT＝E_PT+Dropout(FFN(LayerNorm(E_PT)))

最后，整个解码器模块的操作简写为：

其中，O_D表示解码器的最终输出，DB(*)表示解码器函数，

O_E分别表示所述解码器的两个不同的输入。

(4)模块堆叠：在深度学习领域中，重复使用一些类似的单元从而增加网络深度，从而提升模型拟合能力，已成为一种广泛的操作，正如图1中所示，本发明将上述编码器和解码器的结构分别重复堆叠G次和P次，以获得更好的拟合能力，堆叠后的编码器中的第q个块和堆叠后的解码器中的第p个块分别如下所示：

其中

q∈[0,G]，,p∈[0,P]。

四、预测层：

最后所述融合时序信息的自注意力序列推荐模型通过一个点乘操作来计算用户对每个商品的偏好分数r：

其中

代表

的第t行，M∈R^N×d代表前面的商品编码矩阵，r_i,t是在已有t个历史交互商品编号(例如s₁,s₂,…,s_t)时，用户对商品i的偏好分数，因此在所述融合时序信息的自注意力序列推荐模型训练过程中，模型输入一个历史交互序列：((t₁,s₁),(t₂,s₂),…,(t_L,s_L))，然后它的期望输出是输入商品序列的一个“偏移”版本：(s₂,s₃,…,s_L+1)。在所述训练好的融合时序信息的自注意力序列推荐模型测试或实际使用阶段，使用

的最后一行来预测下一个商品。注意，这里我们使用在商品编码模块中定义的商品编码矩阵M而不是新建一个，这是因为使用共享的商品编码矩阵可以显著地提高模型表现。

五、训练过程

在序列推荐任务中，需要根据用户的历史交互信息推荐一个排序过的商品列表，但是由于用户历史交互行为是隐式反馈(Implicit Response)，所以无法直接优化之前得到的偏好分数r_i,t，因此，我们使用了负采样技术来生成样本，在已知当前时间和历史交互序列的情况下，定义o＝(o₁,o₂,…,o_L)为其期望输出，并为每一个o_i采样一个负样本o′_i，o′_i从用户未交互过的商品中随机选取，从而得到训练集D＝{(I,o,o′)}，其中i＝1,2,..,L，o′为负样本集合。

使用二值交叉熵损失(Binary Cross Entropy Loss)作为所述融合时序信息的自注意力序列推荐模型的损失函数L，使用Adam作为优化器。

σ(x)＝1/(1+e^-x)

其中，

定义在预测层，是用户已有i个交互商品时，对商品o_i的偏好分数，S^u表示当前用户，S表示训练集中的所有用户集合，每个用户都会有一条交互记录，每条用户交互记录都可以用来训练。

通过梯度下降，逐步降低损失函数值，当模型的参数达到收敛时停止训练，即可得到所述训练好的融合时序信息的自注意力序列推荐模型。

步骤S3)获取长度为L的用户历史交互序列，输入进通过步骤S2)训练好的融合时序信息的自注意力序列推荐模型中，然后根据预测层给出的用户对每个商品的偏好分数从高到低排序，推荐用户最有可能交互的商品集合，其中，偏好分数越高，其对应的商品被推荐的可能性越大。

实施例

本发明在两个来自显示场景的公开数据集评估了本发明的方法，这些数据集有着不同的稀疏度，大小，时间跨度。

Steam：一个在推荐系统领域被广泛使用的基准数据集，这个数据集来源于“Steam”游戏平台。

Userbehavior：由阿里巴巴提供，其中包含了用户在电商平台上和商品的历史交互记录。这个数据集不仅仅包含了必要的信息(商品编号，用户编号，交互时间)，同时也包含了其他的丰富信息例如交互类型，有点击，收藏，购买等。

表1数据集特征(预处理后)

数据集	用户数目	商品数目	平均用户交互数目	交互总数目	最大时间跨度
						Steam	334730	13047	10.59	4.2M	7年
Userbehavior	100000	677456	76.43	7.8M	7天

本发明使用了三种在业界被广泛使用的评价指标：

1.准确率(Hit Ratio，HR)，HR主要是衡量推荐的准确性。

2.归一化折损累计增益(Normalized Discounted Cumulative Gain，NDCG)，NDCG是一个和位置相关的评价指标，对排名越高的位置，会赋予越大的权重。

3.平均倒数排名(Mean Reciprocal Rank，MRR)，MRR是根据正确推荐商品在推荐列表中的位置来衡量模型的推荐效果。

对比的其他现有方法：

PopRec：最简单的baseline，根据物品流行度推荐商品。

Caser：基于CNN结构的模型，使用卷积操作提取特征，可以捕获高阶的马尔科夫链。

GRU4Rec：一使用RNN来建模用户历史交互行为的模型，提出一种“会话并行”的方式加速。

GRU4Rec+：GRU4Rec的改进版本，使用了一种新的损失函数来缓解梯度消失问题，并结合一种新的基于流行度的负采样策略使得推荐效果在原有版本上有较大提升。

SASRec：将Transformer中的Encoder结构应用在序列推荐问题中。

FDSA：在物品层次和特征层次分别使用注意力机制。

实验结果：

表2本发明与现有技术的对比效果

本发明提出的方法TAT4SRec在Steam和Userbehavior两个数据集上的各个指标上都获得了最好的结果，如表2所示，黑体为当前指标下最好结果，下划线为次佳结果。

和现有方法不同的是，本发明提出的TAT4SRec方法通过基于窗函数的编码模块对时间信息进行编码，同时还引入了编码器-解码器的结构，利用编码器处理时序信息，利用解码器处理物品信息并融合时序信息辅助推荐，从而捕获到更细粒度的用户行为模式。基于窗函数的编码方式可以会更好地编码时间信息，基于编码器-解码器的结构可以更好地引入时间信息辅助推荐。本文的方法可以应用在诸多存在序列依赖的推荐场景中，例如短视频推荐，电商推荐，电影音乐推荐等。由于引入了具体时间戳的影响，可以更深入地把握用户近期兴趣，可以威为用户提供更精确的推荐，从而提升用户体验，提高平台流量。

以上所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种融合时序信息的自注意力序列推荐方法，其特征在于，该方法包括以下步骤：

其中t_i是第i次交互的具体时间戳，s_i是第i次交互的商品编号，(t_i,s_i)表示第i次交互的时间商品二元组，i＝1,2,..,L；

步骤S3)获取长度为L的用户历史交互序列，输入通过步骤S2)得到的训练好的融合时序信息的自注意力序列推荐模型中，然后根据融合时序信息的自注意力序列推荐模型中的预测层给出用户对每个商品的偏好分数，将这些偏好分数从高到低排序，偏好分数越高，其对应的商品被推荐的可能性越大，从而得到推荐给用户的交互商品序列集合；

2.根据权利要求1所述的融合时序信息的自注意力序列推荐方法，其特征在于，所述步骤S1)中将数据集中的用户历史交互记录转换成长度为L的历史交互序列

的具体方法为：

对于所述数据集中长度超过L的序列，选取其最近L次时间商品二元组；对于长度小于L的序列，在其最左边填充若干个填充时间戳和填充商品编号，直到它的长度达到L，其中，所述填充时间戳和填充商品编号均采用0表示。

3.根据权利要求2所述的融合时序信息的自注意力序列推荐方法，其特征在于，所述融合时序信息的自注意力序列推荐模型中各部分的具体结构如下：

一、时间戳编码模块：该模块的输入是提前经过预处理，长度为L的用户历史交互时间戳序列T＝[t₁,L₂,…,t_L]，采用一种基于窗函数的编码方法，利用窗函数计算编码权重取值，具体过程如下：

1)对于时间来说，它们之间的相对大小比它们的绝对大小更有意义，因此将用户历史交互时间戳序列[t₁,t₂,…,t_L]转换成相对时间间隔序列：

T_r＝[0,t₂-t₁,…,t_L-t₁]

2)根据最大时间间隔

是将最大时间间隔缩放到一个合理范围的超参数，经过归一化的相对时间间隔序列T_s通过下面的公式计算得到，其中

是第i次交互时间戳转换成的归一化相对时间间隔：

这里的

k是分桶数目，也就是将相对时间间隔归一化到[0,k]；

3)定义一个可学习的时间戳编码矩阵

这里的d是每个编码向量的维度大小，e_j表示第j个编码向量，j＝1,2,…,k；

4)根据窗函数计算编码权重矩阵w∈R^L×k，矩阵w中的元素

代表归一化相对时间间隔

对第j个编码向量的权重取值：

其中，w′表示窗函数的窗口大小，为一个常数；

5)根据定义的时间戳编码矩阵M_T和计算得到的权重矩阵w，计算每个归一化相对时间间隔的嵌入编码，从而得到相对时间间隔的嵌入编码矩阵E_T：

二、商品编码模块：该模块的输入是用户历史交互商品编号序列[s₁,s₂,…,s_L]，首先定义一个可学习的商品编码矩阵M∈R^N×d，N是商品总数量，d为每个商品编码向量的维度大小，和时间戳编码矩阵中的编码向量的维度大小相同；然后根据商品编号s_i从M中检索到物品i的编码

得到物品编码矩阵E_I∈R^L×d，具体检索操作为：

为M中第s_i个编码向量，为了引入商品的先后顺序，这里加入位置编码P∈R^L×d来记录商品在历史交互序列中的位置信息，得到加入位置编码的商品嵌入编码：

这里的P_i代表用户历史交互商品编号序列中第i个位置的位置编码；

三、编码器和解码器：

1)残差注意力模块：所述时序信息嵌入编码和所述商品嵌入编码分别送入编码器和解码器进行进一步处理，在编码器和解码器中都使用了残差注意力模块，因此下面首先介绍残差注意力模块，残差注意力模块的输入是Q，K，V三个矩阵，具体过程如下：

a.放缩点乘注意力SDPA定义如下：

这里的d是维度大小，和前面的d均相同，softmax(*)表示归一化指数函数；

b.考虑序列因果性：序列推荐本质上是一个序列预测任务，预测第t+1个商品的时候只能参考前t次交互行为，因此需要修改注意力的形式，禁止Q_i′和K_j′之间的联系以避免信息泄露，其中，Q_i′表示矩阵Q的第i′行，K_j′表示矩阵K的第j′行，j′>i′；

c.多头机制：多头机制能够从不同位置、不同特征子空间中共同获取信息，从而提高表征能力，多头机制MH具体表示如下：

这里的W^o,

是可学习的参数，i″＝1,2,…,n_h，n_h是头的数目，Concat(*)表示拼接操作；

d.残差机制：为了解决当网络层数增加时产生的网络退化问题，同时在使用编码器来引入时序信息的同时保存原有的商品序列信息，使用了一个残差连接，同时为了解决神经网络中的内部协变量偏移问题，使用了层归一化操作LayerNorm，该过程由如下所示：

M″＝LayerNorm(M′+Q)＝LayerNorm(MH(Q，K，V)+Q)

为了表述方便，上述整个残差注意力模块操作简写为：

O＝RAB(Q，K，V)

其中，Q，K，V为残差注意力模块的输入，O为残差注意力模块的输出；

2)编码器：编码器接收从时间信息编码模块得到的时序信息嵌入编码E_T∈R^L×d，首先将时序信息嵌入编码送入残差注意力模块，捕获时间戳的相互关系，得到：

E′_T＝RAB(E_T，E_T，E_T)

接着使用两层带有ReLU激活函数的全连接层以增强模型表征能力，同时使用层归一化以稳定模型和加速训练，Dropout作为正则化手段以提升模型泛化能力，最后得到E″_T，即商品序列的时序信息：

FFN(E′_T)＝ReLU(E′_TW₁+b₁)W₂+b₂

E″_T＝E′_T+Dropout(FFN(LayerNorm(E′_T)))

其中，W₁、b₁分别表示第一层全连接层的权重和偏置；W₂、b₂分别表示第二层全连接层的权重和偏置；FFN(*)表示两层带有ReLU激活函数的全连接层的操作；

最后，整个编码器模块的操作简写为：

O_E＝EB(E_T)，O_E∈R^L×d

其中，O_E表示编码器的最终输出，即E″_T；EB(*)表示编码器函数，E_T表示所述编码器的输入；

3)解码器：解码器首先使用第一残差注意力模块接收从商品编码模块得到的商品嵌入编码

从中捕获商品的相互关系，得到商品序列信息

此时输入的Q，K，V都等于物品嵌入编码

然后使用第二残差注意力模块接收来自编码器的商品序列的时序信息O_E和第一残差注意力模块得到的商品序列信息

令

K＝O_E，V＝O_E，得到E_PT，

E′_PT＝E_PT+Dropout(FFN(LayerNorm(E_PT)))

最后，整个解码器模块的操作简写为：

其中，O_D表示解码器的最终输出，DB(*)表示解码器函数，

O_E分别表示所述解码器的两个不同的输入；

4)模块堆叠：将上述编码器和解码器的结构分别重复堆叠G次和P次，以获得更好的拟合能力，堆叠后的编码器中的第q个块和堆叠后的解码器中的第p个块分别如下所示：

其中

q∈[0,G]，p∈[0,p]；

四、预测层：

其中

代表

的第t行，M∈R^N×d代表前面的商品编码矩阵，r_i,t是在已有t个历史交互商品编号时，用户对商品i的偏好分数，因此在所述融合时序信息的自注意力序列推荐模型训练过程中，模型输入一个历史交互序列：((t₁,s₁),(t₂,s₂),…,(t_L,s_L))，然后它的期望输出是输入商品序列的一个“偏移”版本：(s₂,s₃,…,s_L+1)；在所述训练好的融合时序信息的自注意力序列推荐模型测试或实际使用阶段，使用

的最后一行来预测下一个商品。

4.根据权利要求3所述的融合时序信息的自注意力序列推荐方法，其特征在于，所述步骤S2)中根据获取的数据集得到训练集，并采用所述训练集对融合时序信息的自注意力序列推荐模型进行训练，得到训练好的融合时序信息的自注意力序列推荐模型的具体方法为：

在序列推荐任务中，需要根据用户的历史交互信息推荐一个排序过的商品列表，但是由于用户历史交互行为是隐式反馈，所以无法直接优化之前得到的偏好分数r_i,t，因此，使用负采样技术来生成样本，在已知当前时间和历史交互序列的情况下，定义o＝(o₁,o₂,…,o_L)为其期望输出，并为每一个o_i采样一个负样本o′_i，o′_i从用户未交互过的商品中随机选取，从而得到训练集D＝{(I,o,o′)}，o′为负样本集合；

使用二值交叉熵损失作为所述融合时序信息的自注意力序列推荐模型的损失函数L，使用Adam作为优化器：

σ(x)＝1/(1+e^-x)

其中，

定义在预测层，是用户已有i个交互商品时，对商品o_i的偏好分数，S^u表示当前用户，S表示所述训练集中的所有用户集合；

通过梯度下降，逐步降低损失函数值，当模型的参数达到收敛时停止训练，得到训练好的融合时序信息的自注意力序列推荐模型。