CN111429234B

CN111429234B - 一种基于深度学习的商品序列推荐方法

Info

Publication number: CN111429234B
Application number: CN202010299217.2A
Authority: CN
Inventors: 何怀文; 李治浩; 刘贵松; 王贺立; 陈述; 肖涛; 张绍楷
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-09-29
Anticipated expiration: 2040-04-16
Also published as: CN111429234A

Abstract

本发明公开了一种基于深度学习的商品序列推荐方法，包括以下步骤：步骤1：获取公开的用户购买商品序列，对其进行预处理，得到商品名及商品的元数据；步骤2：将商品名和元数据作为输入，输送至设计的序列推荐模型中，得到预训练模型，所述预训练模型分为输入层、编码层、多层感知机层和映射层；步骤3：在预训练模型的输出层上选择合适的输出作为当前序列的表示，进一步计算得到推荐商品列表，本方法考虑了日常购物商品的双向影响，采用的是编码器‑解码器结构，能对商品序列进行双向建模，编码信息获取优于单向模型，能优化最终推荐内容。

Description

一种基于深度学习的商品序列推荐方法

技术领域

本发明涉及故障处理技术领域，特别是一种基于深度学习的商品序列推荐方法。

背景技术

随着电子商务平台的不断发展，商品数量正在呈现指数级别的增长；商品规模的扩大，一方面提高了满足用户不同需求的可能性，但另一方面也加剧了用户从海量商品中定位有效商品的时间成本。在淘宝、亚马逊等电子商务平台内有着亿万级别的商品，用户往往需要花费大量的时间去搜索自己感兴趣的商品。用户在网购时通常只对少数的商品感兴趣，而大量无关的冗余商品严重地影响了用户正常搜寻自己感兴趣的商品。出于时间和资源等方面的限制，用户希望能够从电子商务平台中高效地搜寻自己想要的商品。日常的购物往往具有连贯性，物品之间相互影响，序列推荐方法能更加实时为用户购买提供便利。

基于深度学习的序列推荐方法通常分为：

1、基于循环神经网络的序列推荐方法。基于RNN的序列推荐方法试图通过给定的用户-商品交互建立一个序列依赖关系，以此预测接下来可能的交互。将上一时刻的商品编码信息作为输入，以此来预测下一时刻提供的商品。

2、基于卷积神经网络的序列推荐方法。基于CNN的序列推荐方法不同于上述方法，首先给定一个用户-商品交互的顺序，卷积神经网络将所有交互嵌入到矩阵中，接着在时间和潜在空间中将此矩阵视为一张图片。然后卷积神经网络学习这个序列模式并将最后的隐层输出最为这张图片的本地特征，最后使用卷积过滤以便后续的推荐。

3、基于图神经网络的序列推荐方法。基于图神经网络的推荐方法主要是利用图神经网络去捕获序列中复杂的用户-商品交互的转换。当每一个序列被映射到路径上时，有向图首先建立在序列数据之上，并将每一个交互作为图中的一个节点，然后，在图上学习用户或商品的嵌入以作出相应的推荐方案。

注意力机制起源于计算机视觉，其想法是模拟人类的关注焦点，即反馈给我们主要信息的区域往往只占一小部分。而将注意力机制运用到商品建模中，能够自动的生成两两商品之间的权重关系，无视商品序列的长度，解决了基于RNN的推荐方法的权重消失问题。单向模型限制了历史序列中隐式表示形式的能力，只能从前面的编码获取信息，而这并不总是符合现实中的用户行为。由于种种原因，用户的购物选择并不遵循严格的顺序假设。双向解码器-编码器结构保证了序列的双向建模，能更贴切实际的对商品序列进行建模。

Balázs Hidasi等人提出GRU4Rec，他们认为传统序列化推荐方法只考虑了用户的最近的行为，没有使用完整的session行为序列信息，所以引入RNN-based方法解决该问题。作者将session中的点击序列转换为one hot encoding编码，通过embedding压缩为低维连续向量作为GRU的输入，然后通过N层GRU网络，最终对下一个目标进行预测。Bogina等人提出GRU4Rec-DWELL，该作者认为一个item可能停留的之间较长，产生的影响应该大于一般的物品，所以将时间因素考虑进来，将停留时间切片，在最终数据集上的表现优于GRU4Rec。Kang W等人提出SAS4Rec，该方法综合考虑基于马尔科夫链的方法和基于RNN的方法，选取用户的最近n个行为组成序列，对于小于n的序列用0来填补，由于使用的是self-attention，对物品的位置信息没有记忆，所以选择了在物品的embedding上加入位置编码。最后根据获取的隐层表示作出下一项目推荐。

Jiaxi Tang等人提出了Caser模型，其对用户过去交互过的序列进行建模，目的是预测用户在不久可能进行交互的Top-N个物品。其思想是在时间和潜在空间中将一组最近的物品序列嵌入到一张“图像”中，并利用卷积滤波器来学习作为图像的局部特征的序列模式。在用户行为序列上滑窗产生样本，分别用水平和垂直的两个卷积核来捕捉用户行为序列里面的结构信息，最后将得到的行为表示和用户表示相连接，预测下一个目标。

1.中国专利“CN110263257A基于深度学习的多源异构数据混合推荐模型”提出使用PV-DBOW模型获取文本的特征向量表示，通过加权求和得到用户的特征表示，通过将物品收到的评论特征向量加权求和得到物品特征，然后基于社交网络采样得到带有用户偏好的三元组，根据贝叶斯理论优化得到最佳模型参数。最后根据所得模型参数，将用户和物品的特征向量输入到模型中为用户推荐物品。

2.中国专利“CN109271550A一种基于深度学习的音乐个性化分类推荐方法”提出获取用户收听数多的高频词音乐列表，通过word2vec训练音乐向量模型，对音乐向量模型进行用户喜好聚类，训练深度网络对频谱图进行用户喜好分类，最后计算具体用户的喜好类别并未其推荐同类相似歌曲。

3.中国专利“CN110196946A一种基于深度学习的个性化推荐方法”提出使用一维卷积来获取不同时刻的用户的兴趣特征，然后利用自注意力机制对不同时刻兴趣特征进行加权求和，以此来作出最终的推荐预测结果。

现有技术的缺点在于：非序列推荐方法主要是无法完全模拟用户的动态购物过程，通常只是预测用户的可能偏好或者是进行top-n推荐，这和我们的实际情况是不一致的。同时大多方法存在严重的数据稀疏问题，对于电子购物其推荐精度无法保证。

基于循环神经网络的序列推荐方法(Balázs Hidasi等人提出的GRU4Rec，Bogina等人提出GRU4Rec-DWELL，)通常建立于强制假设基础上的，其假定序列中任何相邻的交互一定是依赖的，所以这很容易生成错误的依赖关系。并且RNN对与长序列的建模效果并不好，其权重分配往往是基于最邻近的节点。基于卷积神经网络的序列推荐方法(Jiaxi Tang等人提出了Caser)由于卷积过滤器的大小限制，无法高效的捕获长期依赖关系，同时由于CNN本身的限制：局部链接，权值共享，所以在文本处理方面并不如RNN。基于transformer的序列推荐方法(Kang W等人提出的SAS4Rec)仅考虑了购物的从前到后的关系而忽略了购物的双向影响，且未考虑商品的其他属性。综上可知，现有技术无法对商品序列进行双向建模，限制了历史序列中隐式表示形式的能力，且大多数都是基于RNN的推荐方法，无法建立长期依赖，存在着严重的权重消失问题，推荐的商品往往是基于购物序列的尾部得到的推荐结果，忽略了序列头部的影响。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种基于深度学习的商品序列推荐方法，用于电子商品的在线推荐，任务目标为根据当前用户的商品购买序列，来预测下一时刻用户的购物选择，基本过程为利用双向编码器-解码器结构获取序列的隐层表示，结合商品的其他属性，通过多层感知机得到融合后的隐层表示。然后根据该隐层表示得到概率较大的商品集并作出推荐。

为解决上述问题，本发明采用如下的技术方案。

一种基于深度学习的商品序列推荐方法，包括以下步骤：

步骤1：获取公开的用户购买商品序列，对其进行预处理，得到商品名及商品的元数据；

步骤2：将商品名和元数据作为输入，输送至设计的序列推荐模型中，得到预训练模型，所述预训练模型分为输入层、编码层、多层感知机层和映射层；

步骤3：在预训练模型的输出层上选择合适的输出作为当前序列的表示，进一步计算得到推荐商品列表。

作为本发明的进一步改进，在步骤2中，在输入层阶段，有N个输入，每个输入v_i∈R^d，i∈[1,N]，v_i为商品的嵌入表示，有其对应的位置编码p_i∈R^d，其中p_i是通过位置嵌入表获取的，在输入阶段，令，作为每一个商品的初始输入，输入层的目的在于将商品名向量化，作为模型的输入数据，经过输入层处理的数据被送至编码层处理。

作为本发明的进一步改进，在步骤2中，所述编码层的输入为输入层的输出，在编码层可以获取物品的隐层表示，编码层由多层transformer组合而成，其中transformer包括多头注意力层、L1归一化层、前馈网络层以及L2归一化层。

作为本发明的进一步改进，所述多头注意力层用于考虑输入层传送过来的数据之间的权重比，确保模型能获取商品间的长期依赖。多头注意力的计算公式为：

由于采用的是自注意力，所以这里Q,K,V来自同一向量，其中Q表示查询向量query，K表示键向量key，V表示value向量V。在第一层Q,K,V都等于d表示输入向量的维度，h为多头的数量，/>是为了产生更小的注意力分布，防止梯度极小化，由于是多头注意力，所以在计算的过程中独立的分成几份来计算，这里选用4个头的注意力层，即h＝4。多头的计算方式如下所示：

MH(H^L)＝[head₁；head₂；head₃；head₄]W^O

其中，head_i为第i个计算得到的多头注意力值，MH(H^L)为第L层的4个多头注意力值的拼接。

其中H^L表示的是第L层的隐层表示输出，所以对于每个头能求得其对应的注意力，其中为独立的权重矩阵，且每个头不共享。最后将得到的4个头拼接起来，再乘上一个权重矩阵W^O即得到当前第L层的多头注意力值，多头注意力层的输出作为L1归一化层的输入。

作为本发明的进一步改进，所述归一化层的作用是将参数限定值一个区间内，能大幅提升模型的训练速度。在编码层的Transformer结构里，L1归一化层是将多层注意力层的输出做一个归一化整合，其输出为前馈网络层的输入，其表达式如下所示：

其中/>表示第L层L1归一化层处理后得到的结果。

作为本发明的进一步改进，所述前馈网络层的输入为L1归一化层的输出，其目的是采用GELU函数激活归一化后的多头注意力值，使得该模型具有非线性，非线性的作用是使模型能拟合任意函数，。其激活表达式如下所示：

FFN(x)＝GELU(xW^f1+b_f1)W^f2+b_f2

GELU(x)＝xφ(x)

其中，FFN(x)为前馈网络层计算得到的结果，其中是标准高斯分布的累积分布函数，W^f1∈R^d×4d，W^f2∈R^4d×d，b_f1∈R^4d,b_f2∈R^d是学习的参数，且在每个transformer中共享参数。表示前馈网络层的输出结果,前馈网络层的输出为L2归一化层的输入。

作为本发明的进一步改进，所述L2归一化层的输入为前馈网络层的输出，其目的是将激活后的多层注意力值进行一个缩放，提升模型训练速度。其执行表达式如下所示：

其中，ANL2表示第L层L2归一化层处理后得到的结果，

结合前馈网络层，整个transformer执行过程如式8、式9、式10和式11所示：

经过编码层的处理后，得到了商品的隐层表示。编码层的输出为多层感知机层的输入。

作为本发明的进一步改进，所述多层感知机层将商品的隐层表示和商品的元数据结合起来，丰富商品的隐层表示的语义，多层感知机层的输入为编码层的输出，多层感知机采用3层结构，输入层d+c+t为个单元，隐藏层与输入层一致，输出层为d个单元，其中d表示编码层输出的向量维度，c为类别编码的向量维度，t为品牌编码的向量维度。其执行过程如下示：

H(x)＝f(W₁·x+b₁)

O(x)＝f(W₂·x+b₂)

其中f采用tanh激活函数，H(x)表示多层感知机的隐层表示，O(x)表示多层感知机的输出，W₁∈R^{(d+c+t)×(d+c+t)},W₂∈R^d×(d+c+t),b₁∈R^d+c+t,b₂∈R^d为学习参数，多层感知机的输出为映射层的输入。

作为本发明的进一步改进，所述映射层的输入为多层感知机的输出，其目的是将多层感知机输出的混合隐层表示转换为对应的概率值，其转换公式如下所示：

PR_m＝softmax(GELU(h_hybridW^PR+b^PR)T^T+b^O)

其中W^PR是学习参数，b^PR,b^O是偏置项，训练的损失函数如式13所示：

其中M是输入序列，|M|为输入序列个数，P(V_mask＝V_true)表示模型预测出当前被mask的商品为其本身的概率。

作为本发明的进一步改进，在步骤3中，对训练模型进行微调以用于序列推荐，因为是下一项预测，所以在模型末端加入V_mask，V_mask∈T，其对应的p_mask可以从位置表中获取，通过编码层得到其对应的输出隐层表示h_m，进而可以得到其预测概率，最后我们选取概率值前10位的商品作为推荐，如果存在新的商品加入序列，则将该商品向量加入至模型尾部，V_mask进行后移，做出下一次推荐。

本发明的有益效果

相比于现有技术，本发明的优点在于：

1.融合能力强，能结合多种异构信息，有效得到商品的混合特征表示，作出更精确的推荐内容；

2.可塑性强，该推荐方法采用的是预训练+微调模式，所以在原有预训练基础上加以改进，可以进行其他相似的推荐任务；

3.本方法考虑了日常购物商品的双向影响，采用的是编码器-解码器结构，能对商品序列进行双向建模，编码信息获取优于单向模型，能优化最终推荐内容；

4.实时监测用户购买的商品，基于当前时刻的商品序列预测下一时刻的商品集，为用户提供动态推荐内容。

附图说明

图1为本发明transformer的结构示意图。

图2为本发明训练过程示意图。

图3为本发明微调过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图3，一种基于深度学习的商品序列推荐方法，包括以下步骤：

在步骤1中，将获取的商品数据分为商品名称和商品的元数据，如商品的类别、商品的品牌，将商品的类别用one-hot编码表示，商品的类别分为图书、音像、电子书刊，手机，家用电器，数码家居，家装电脑、办公厨具，个护化妆，服饰内衣，钟表，鞋靴，母婴，礼品箱包，食品饮料、保健食品，珠宝，汽车用品，运动健康，玩具，乐器，彩票、旅行、充值、票务，生鲜20种类，比如图书可以编码成[1,0,0……,0],生鲜编码成[0,0……0,0,1]，商品的品牌通过Wikidata embedding(wikidata的词嵌入来源于论文Wembedder:Wikidata entityembedding web service的实验结果)。获取到其对应的编码，限制长度为t维。商品的名通过商品序列号(商品序列号可通过训练数据中的商品序号得到)进行初始化。

在步骤2中，需要先设计出模型的整体结构，然后根据模型的结构做预训练。模型结构分为输入层、编码层、多层感知机层和映射层。

(1)输入层

在输入层阶段，有N个输入，每个输入v_i∈R^d，i∈[1,N]，v_i为商品的嵌入表示。另外有其对应的位置编码p_i∈R^d，其中p_i是通过位置嵌入表获取的(位置嵌入表为一个随机初始化矩阵，取p_i对应位置的向量作为其绝对位置编码。位置编码的作用是使模型得知输入的先后顺序，因为该训练模型是双向的，如果不加位置编码，那么模型对于“钱包面包苹果”和“苹果面包钱包”这两个输入的处理是一样的，这就等同于是随机输入，无法生成正确的序列推荐参数)。在这里得到一个初始化商品向量表T∈R^M×d，M为商品总量。

每个输入对应的类别编码为对应的one-hot编码，长度为N的序列的类别编码为X∈R^N×c，品牌编码为Wikidata的编码结果Y∈R^N×t(wikidata的词向量结果来源于论文Wembedder:Wikidata entity embedding web service的实验结果)。在输入阶段，令作为每一个商品的初始输入。输入层的目的在于将商品名向量化，作为模型的输入数据。经过输入层处理的数据被送至编码层处理。

(2)编码层

编码层的输入为输入层的输出，在编码层可以获取物品的隐层表示，编码层由多层transformer组合而成，其中transformer的结构如图1所示，它由一个多头注意力层、一层前馈网络、两层归一化层组成。其具体流程如下：

1)多头注意力层

多头注意力层的目的是考虑输入层传送过来的数据之间的权重比，确保模型能获取商品间的长期依赖。多头注意力的计算公式如式1所示：

因为采用的是自注意力，所以这里Q,K,V来自同一向量，其中Q表示查询向量query，K表示键向量key，V表示value向量V。在第一层Q,K,V都等于表示d输入向量的维度，h为多头的数量。/>是为了产生更小的注意力分布，防止梯度极小化。由于是多头注意力，所以在计算的过程中独立的分成几份来计算，这里选用4个头的注意力层，即h＝4。多头的计算方式如式2和式3所示：

(head_i为第i个计算得到的多头注意力值，MH(H^L))为第L层的4个多头注意力值的拼接)，

其中H^L表示的是第L层的隐层表示输出，所以对于每个头能求得其对应的注意力，其中为独立的权重矩阵，且每个头不共享。最后将得到的4个头拼接起来，再乘上一个权重矩阵W^O即得到当前第L层的多头注意力值。多头注意力层的输出作为L1归一化层的输入。

2)L1归一化层

归一化层的作用是将参数限定值一个区间内，能大幅提升模型的训练速度。在编码层的Transformer结构里，采用了2个归一化层：L1归一化层和L2归一化层。L1归一化层是将多层注意力层的输出做一个归一化整合，其输出为前馈网络层的输入。其表达式如式4所示：

(ANL1表示第L层L1归一化层处理后得到的结果)

3)前馈网络层

前馈网络层的输入为L1归一化层的输出，其目的是采用GELU函数激活归一化后的多头注意力值，使得该模型具有非线性(非线性的作用是使模型能拟合任意函数)。其激活表达式如式5和式6所示：

FFN(x)＝GELU(xW^f1+b_f1)W^f2+b_f2 式5

GELU(x)＝xφ(x) 式6

FFN(x)为前馈网络层计算得到的结果，其中是标准高斯分布的累积分布函数(相比sigmoid和relu，GELU函数引入了随机正则的思想，实验效果要优于sigmoid和relu激活函数)，W^f1∈R^d×4d，W^f2∈R^4d×d，b_f1∈R^4d,b_f2∈R^d是学习的参数，且在每个transformer中共享参数。FFN(x)表示前馈网络层的输出结果。前馈网络层的输出为L2归一化层的输入。

4)L2归一化层

L2归一化层的输入为前馈网络层的输出，其目的是将激活后的多层注意力值进行一个缩放，提升模型训练速度。其执行表达式如式7所示：

(ANL2表示第L层L2归一化层处理后得到的结果)

(3)多层感知机层

多层感知机层的目的是将商品的隐层表示和商品的元数据结合起来，丰富商品的隐层表示的语义。多层感知机层的输入为编码层的输出。

多层感知机采用3层结构，输入层为d+c+t个单元，隐藏层与输入层一致，输出层为d个单元，其中d表示编码层输出的向量维度，c为类别编码的向量维度，t为品牌编码的向量维度。其执行过程如式10和式11所示：

H(x)＝f(W₁·x+b₁) 式10

O(x)＝f(W₂·x+b₂) 式11

其中采用tanh激活函数，H(x)表示多层感知机的隐层表示，O(x)表示多层感知机的输出，W₁∈R^{(d+c+t)×(d+c+t)},W₂∈R^d×(d+c+t),b₁∈R^d+c+t,b₂∈R^d为学习参数。多层感知机的输出为映射层的输入。

(4)映射层

映射层的输入为多层感知机的输出，其目的是将多层感知机输出的混合隐层表示转换为对应的概率值，其转换公式如式12所示：

PR_m＝softmax(GELU(h_hybridW^PR+b^PR)T^T+b^O) 式12

其中W^PR是学习参数，b^PR,b^O是偏置项。训练的损失函数如式13所示：

其中M是输入序列，|M|输入序列个数，P(V_mask＝V_true)表示模型预测出当前被mask的商品为其本身的概率。

总结：在训练阶段，首先随机令序列中位置为i的物品为V_mask，然后根据上述的描述，得到transformer层最后的输出h_m，其中h_m选取的编码层输出取决于V_mask的相对位置。令d＝64,c＝21,t＝32，其中d是h_m的维度，c是类别编码的维度的，t是品牌编码的维度。具体的，对类别编码做最大池化操作，得到一个向量V^x∈R²¹，对品牌编码做平均池化操作，得到一个向量V^y∈R³²。然后令这三个向量h_m，V^x,V^y拼接作为多层感知机的输入，训练得到一个表示当前序列的融合向量h_hybrid。在映射层阶段，得到最终的商品预测概率，训练过程如图2所示。

在步骤3中，对训练模型进行微调以用于序列推荐，因为是下一项预测，所以在模型末端加入V_mask，V_mask∈T，其对应的p_mask可以从位置表中获取，通过编码层得到其对应的输出隐层表示h_m，进而可以得到其预测概率，最后我们选取概率值前10位的商品作为推荐，如果存在新的商品加入序列，则将该商品向量加入至模型尾部，V_mask进行后移，做出下一次推荐，微调过程如图3所示。

以上所述，仅为本发明较佳的具体实施方式；但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其改进构思加以等同替换或改变，都应涵盖在本发明的保护范围内。

Claims

1.一种基于深度学习的商品序列推荐方法，其特征在于，包括以下步骤：

步骤3：在预训练模型的输出层上选择合适的输出作为当前序列的表示，进一步计算得到推荐商品列表；

在步骤2中，在输入层阶段，有N个输入，每个输入v_i∈R^d，i∈[1,N]，v_i为商品的嵌入表示，有其对应的位置编码p_i∈R^d，其中p_i是通过位置嵌入表获取的，在输入阶段，令作为每一个商品的初始输入，输入层的目的在于将商品名向量化，作为模型的输入数据，经过输入层处理的数据被送至编码层处理；

在步骤2中，所述编码层的输入为输入层的输出，在编码层可以获取物品的隐层表示，编码层由多层transformer组合而成，其中transformer包括多头注意力层、L1归一化层、前馈网络层以及L2归一化层；

所述多头注意力层用于考虑输入层传送过来的数据之间的权重比，确保模型能获取商品间的长期依赖，多头注意力的计算公式为：

由于采用的是自注意力，所以这里Q,K,V来自同一向量，其中Q表示查询向量query，K表示键向量key，V表示value向量V，在第一层Q,K,V都等于d表示输入向量的维度，h为多头的数量，/>是为了产生更小的注意力分布，防止梯度极小化，由于是多头注意力，所以在计算的过程中独立的分成几份来计算，这里选用4个头的注意力层，即h＝4，多头的计算方式如下所示：

head_i＝Attention(H^L-1W_i ^Q，H^L-1W_i ^K，H^L-1W_i ^V)

MH(H^L)＝[head₁；head₂；head₃；head₄]W^O

其中，head_i为第i个计算得到的多头注意力值，MH(H^L)为第L层的4个多头注意力值的拼接；

其中H^L表示的是第L层的隐层表示输出，所以对于每个头能求得其对应的注意力，其中W_i ^Q∈R^d×d/4，W_i ^K∈R^d×d/4，W_i ^V∈R^d×d/4为独立的权重矩阵，且每个头不共享，最后将得到的4个头拼接起来，再乘上一个权重矩阵W^O即得到当前第L层的多头注意力值，多头注意力层的输出作为L1归一化层的输入；

所述归一化层的作用是将参数限定值一个区间内，能大幅提升模型的训练速度，在编码层的Transformer结构里，L1归一化层是将多层注意力层的输出做一个归一化整合，其输出为前馈网络层的输入，其表达式如下所示：

其中AN^L ₁表示第L层L1归一化层处理后得到的结果；

所述前馈网络层的输入为L1归一化层的输出，其目的是采用GELU函数激活归一化后的多头注意力值，使得该模型具有非线性，非线性的作用是使模型能拟合任意函数，其激活表达式如下所示：

FFN(x)＝GELU(xW^f1+b_f1)W^f2+b_f2

GELU(x)＝xφ(x)

其中，FFN(x)为前馈网络层计算得到的结果，其中是标准高斯分布的累积分布函数，W^f1∈R^d×4d，W^f2∈R^4d×d，b_f1∈R^4d,b_f2∈R^d是学习的参数，且在每个transformer中共享参数，表示前馈网络层的输出结果,前馈网络层的输出为L2归一化层的输入；

所述L2归一化层的输入为前馈网络层的输出，其目的是将激活后的多层注意力值进行一个缩放，提升模型训练速度，其执行表达式如下所示：

其中，表示第L层L2归一化层处理后得到的结果，

结合前馈网络层，整个transformer执行过程如下所示：

经过编码层的处理后，得到了商品的隐层表示，编码层的输出为多层感知机层的输入；

所述多层感知机层将商品的隐层表示和商品的元数据结合起来，丰富商品的隐层表示的语义，多层感知机层的输入为编码层的输出，

多层感知机采用3层结构，输入层d+c+t为个单元，隐藏层与输入层一致，输出层为d个单元，其中d表示编码层输出的向量维度，c为类别编码的向量维度，t为品牌编码的向量维度，其执行过程如下示：

H(x)＝f(W₁·x+b₁)

O(x)＝f(W₂·x+b₂)

其中f采用tanh激活函数，H(x)表示多层感知机的隐层表示，O(x)表示多层感知机的输出，W₁∈R^{(d+c+t)×(d+c+t)},W₂∈R^d×(d+c+t),b₁∈R^d+c+t,b₂∈R^d为学习参数，多层感知机的输出为映射层的输入；

所述映射层的输入为多层感知机的输出，其目的是将多层感知机输出的混合隐层表示转换为对应的概率值，其转换公式如下所示：

其中W^PR是学习参数，b^PR,b^O是偏置项，训练的损失函数如下所示：

其中M是输入序列，|M|为输入序列个数，P(V_mask＝V_true)表示模型预测出当前被mask的商品为其本身的概率；

在步骤3中，对训练模型进行微调以用于序列推荐，因为是下一项预测，所以在模型末端加入V_mask，其对应的p_mask可以从位置表中获取，通过编码层得到其对应的输出隐层表示h_m，进而可以得到其预测概率，最后我们选取概率值前10位的商品作为推荐，如果存在新的商品加入序列，则将该商品向量加入至模型尾部，V_mask进行后移，做出下一次推荐。