CN117078354A

CN117078354A - 序列生成模型的训练方法、装置、电子设备和存储介质

Info

Publication number: CN117078354A
Application number: CN202311149088.9A
Authority: CN
Inventors: 吴跃
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-11-17

Abstract

本申请关于一种序列生成模型的训练方法、装置、电子设备和存储介质，属于数据处理技术领域。该方法包括：获取样本物料序列，样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数；获取样本序列中每个样本物料的第一向量表示，并基于样本序列中前K‑1个样本物料的第一向量表示，得到第一向量序列；将第一向量序列输入序列生成模型中，输出样本序列中第K个样本物料的第二向量表示；基于第K个样本物料的第一向量表示和第二向量表示，对序列生成模型进行修正，直至训练结束得到目标序列生成模型。由此，本方案基于第一向量表示，根据序列生成模型得到第二向量表示，进而对模型进行修正得到目标序列生成模型。

Description

序列生成模型的训练方法、装置、电子设备和存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种序列生成模型的训练方法、装置、电子设备和存储介质。

背景技术

目前推荐系统中的一个重要模块为打散环节，主要解决推荐物品相似度过高、过于集中的问题。而现有的打散技术的出发点均为将相似的物品“间隔”开，无法验证扩散结果是否符合点击率最优化。且技术方案中存在较多人为干预因素，影响推荐系统的客观性。

发明内容

本申请提供一种序列生成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以解决推荐系统无法以点击率作为参考，且推荐系统主观因素过多的问题。本申请的技术方案如下：

根据本申请实施例的第一方面，提供一种序列生成模型的训练方法，包括：获取样本物料序列，所述样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数；获取所述样本序列中每个样本物料的第一向量表示，并基于所述样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列；将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示；基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型。

在本申请的一个实施例中，所述序列生成模型包括编码层和池化层，其中，所述将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示，包括：由所述编码层对所述第一向量序列进行双向信息抽取，得到第二向量序列，其中所述第二向量序列包括所述前K-1个样本物料各自的第三向量表示；由所述池化层对所述第二向量序列进行池化操作，得到所述第K个样本物料的第二向量表示。

在本申请的一个实施例中，所述由所述池化层对所述第二向量序列进行池化操作，得到所述第K个样本物料的第二向量表示，包括：确定所述序列生成模型的注意力向量和空间变换矩阵；基于所述注意力向量、所述空间变换矩阵和所述第二向量序列，得到所述K个样本物料的第二向量表示。

在本申请的一个实施例中，所述基于所述注意力向量、所述空间变换矩阵和所述第二向量序列，得到所述K个样本物料的第二向量表示，包括：基于所述注意力向量、所述空间变换矩阵和所述前K-1个样本物料各自的第三向量表示，分别得到所述前K-1个样本物料各自的注意力权重；针对所述前K-1个样本物料中每个样本物料，基于所述样本物料的注意力权重，对所述样本物料的第三向量表示进行加权，得到所述样本物料的第四向量表示；对所述前K-1个样本物料的所述第四向量表示求和，得到所述K个样本物料的第二向量表示。

在本申请的一个实施例中，所述获取所述样本序列中每个样本物料的第一向量表示，包括：获取所述样本物料的属性特征和预测点击率，其中，所述属性特征包括物料标识、物料类型和物料品牌中一个或多个特征信息；对所述样本物料的属性特征和所述预测点击率进行编码，得到所述样本物料的第一向量表示。

在本申请的一个实施例中，所述基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型，包括：对所述第K个样本物料的所述第一向量表示和所述第二向量表示做向量内积，得到所述样本物料序列被预测为正样本的概率；基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，直至训练结束得到目标序列生成模型。

在本申请的一个实施例中，所述基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，包括：基于所述样本物料序列的所述概率和所述样本标签，确定所述样本物料序列对应的损失值，并基于所述损失函数，对所述序列生成模型的模型参数进行修正。

在本申请的一个实施例中，所述基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，包括：在采用批量样本物料序列对所述序列生成模型进行训练的情况下，针对当前批次内的每个所述样本物料序列，基于所述样本物料序列的所述概率和所述样本标签，确定所述样本物料序列对应的损失值；对当前批次内所述样本物料序列的所述损失值进行求平均，得到所述序列生成模型的损失函数，并基于所述损失函数，对所述序列生成模型的模型参数进行修正。

在本申请的一个实施例中，所述方法还包括：判断所述样本物料序列中的第K个样本物料是否被用户点击；若所述第K个样本物料被点击，确定所述样本物料序列的样本标签为正样本标签；或者，若所述K个样本物料未被点击，确定所述样本物料序列中的样本标签为负样本标签。

根据本申请实施例的第二方面，提供一种物料推送方法，包括：获取多个候选推送物料，并基于所述目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，其中所述物料推送序列中包括排序后的所述候选推送物料。

在本申请的一个实施例中，所述基于目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，包括：从所述多个候选推送物料中确定首位推送物料；从所述首位推送物料开始，向所述目标序列生成模型中输入第i位推送物料，由所述目标序列生成模型基于所述首位推送物料至所述第i位推送物料，预测第i+1位推送物料的第二向量表示，其中，i为大于或者等于1的整数；获取所述多个候选推送物料中未确定顺序的剩余推送物料的第一向量表示；获取所述第i+1位推送物料的第二向量表示，与每个所述剩余推送物料的第一向量表示之间的向量内积，选取所述向量内积最大的剩余推送物料，作为所述第i+1位推送物料，直至所述多个候选推送物料排序完成，得到所述物料推送序列。

在本申请的一个实施例中，所述从所述多个候选推送物料中确定首位推送物料，包括：对所述多个候选推送物料中每个推送物料进行点击率预测，并选取所述预测点击率最高的推送物料作为所述首位推送物料。

在本申请的一个实施例中，所述方法还包括：获取所述物料的属性特征和预测点击率；对所述属性特征和预测点击率进行编码，得到所述任一物料的第一向量表示。

根据本申请实施例的第三方面，提供一种序列生成模型的训练装置，包括：第一获取模块，用于获取样本物料序列，所述样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数；第二获取模块，用于获取所述样本序列中每个样本物料的第一向量表示，并基于所述样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列；训练模块，用于将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示；修正模块，用于基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型。

根据本申请实施例的第四方面，提供物料推送装置，包括：获取模块，用于获取多个候选推送物料；推送模块，用于基于目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，其中所述物料推送序列中包括排序后的所述候选推送物料。

根据本申请实施例的第五方面，提供一种电子设备，包括处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为实现本申请实施例第一方面方法和第二方面方法的步骤。

根据本申请实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本申请实施例第一方面方法和第二方面方法的步骤。

根据本申请实施例的第七方面，提供一种计算机程序产品，包括计算机程序，其特征在于，计算机程序被电子设备的处理器执行时实现如本申请实施例第一方面方法和第二方面方法的步骤。

本申请的实施例提供的技术方案至少带来以下有益效果：通过对样本物料序列中每个样本物料的特征信息进行编码，得到第一向量表示，生成包含前K-1个样本物料的第一向量序列。将第一向量序列输入序列生成模型中，得到第K个样本物料的第二向量表示。基于第K个样本物料的第一向量表示和第二向量表示，对模型进行修正，可以使得第二向量表示尽可能接近第一向量表示，得到目标序列生成模型，可以使得模型具有更好的稳定性，以提高模型预测结果的准确性，从而可以提高推送效果，得到个性化的推送内容，生成最有效的推送策略。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释申请的原理。

图1是根据一示例性实施例示出的一种序列生成模型的训练方法的流程图。

图2是根据另一示例性实施例示出的一种序列生成模型的训练方法的流程图。

图3是根据一示例性实施例示出的一种序列生成模型的训练方法的流程图。

图4是根据一示例性实施例示出的一种物料推送方法的流程图。

图5是根据一示例性实施例示出的一种物料推送方法中确定物料推送序列的过程的流程图。

图6是根据另一示例性实施例示出的一种基于目标序列生成模型的推送方法的流程图。

图7是根据一示例性实施例示出的基于目标序列生成模型的推送方法的结构示意图。

图8是根据一示例性实施例示出的一种序列生成模型的训练装置的结构框图。

图9是根据一示例性实施例示出的一种物料推送装置的结构框图。

图10是根据一示例性实施例示出的一种电子设备框图。

图11是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本申请的技术方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

图1是根据一示例性实施例示出的一种序列生成模型的训练方法的流程图，如图1所示，本申请实施例的序列生成模型的训练方法，包括但不限于以下步骤：

S101，获取样本物料序列，样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数。

需要说明的是，本申请实施例提供的序列生成模型的训练方法的执行主体为电子设备，该电子设备可以是终端设备，或者服务器。可选地，终端设备可以为移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等。服务器也可以服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器等。本申请实施例不作具体限定。

在一些实现中，可以在网络平台采集已推荐过的物料作为样本物料。可选地，物料可以包括但不限于电商平台的商品或物品、新闻文章、小说、短视频等。

进一步地，将样本物料按照推送时间从早到晚的顺序进行排列，得到样本物料序列。其中，样本物料序列中包括按序排列的已推荐过的K个样本物料，K为大于1的整数。例如，可以将电商平台给用户推荐过的商品序列，作为样本物料序列。可选地，可以将样本物料序列记为[i₁,i₂,i₃,…,i_k]，i为样本物料。

S102，获取样本序列中每个样本物料的第一向量表示，并基于样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列。

在一些实现中，可以针对样本物料序列中的任一样本物料，获取该样本物料的属性特征和预测点击率。样本物料序列中每个样本物料都有其对应的属性特征和预测点击率(Predict Click-Through Rate，pctr)，对属性特征和预测点击率进行编码，得到任一物料的第一向量表示。

可选地，将每个样本物料的属性特征和点击率进行向量化嵌入编码，得到每个样本物料的第一向量表示。样本物料的属性特征包括但不限于样本物料的标识、样本物料的类型、样本物料的品牌、样本物料的介绍信息、样本物料的外观信息等特征。例如，样本物料为已推荐过的商品，该样本物料的属性信息可以包括但不限于：该商品的最小存货单位的编号(Stock Keeping Unit Identity Document，sku id)、该商品的类型(Category，cate)、该商品的品牌(brand)等特征。

在一些实现中，第一向量表示的公式如下所示：

e_j＝[e_sku，j||e_cate，j||e_brand，j||...||e_pctr，j] (1)

其中，e_j为样本物料序列的第j个样本物料的第一向量表示，j为大于或者等于1且小于或者等于K-1。e_sku，j为样本物料序列的第j个样本物料的标识，e_cate，j为样本物料序列的第j个样本物料的类型，e_brand，j为样本物料序列的第j个样本物料的品牌，e_pctr，j为样本物料序列的第j个样本物料的点击率。

进一步地，将样本物料的第一向量表示，按样本物料对应的推送时间的先后顺序进行排序，得到样本序列中前K-1个样本物料的第一向量序列，如[e₁，e₂，e₃，...，e_k-1]。

S103，将第一向量序列输入序列生成模型中，输出样本序列中第K个样本物料的第二向量表示。

本申请实施例中，序列生成模型可以使用Transformer Encoder网络结构，对输入的第一向量序列进行序列生成，输出样本物料序列中第K个样本物料的第二向量表示。可选地，序列生成模型还可以使用卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、注意力机制网络Attention、胶囊网络Capsule Net等结构进行序列生成，本申请对序列生成模型的结构不作限定。

在一些实现中，序列生成模型对第一向量序列进行双向信息抽取，得到的结果记为第二向量序列。进一步地，序列生成模型对第二向量序列进行池化，得到样本物料序列中第K个样本物料的第二向量表示。可选地，可以将第二向量表示记为t_k。

可以理解的是，双向信息抽取是指从输入序列中同时获取正向和逆向的信息，并将这些信息整合输出，得到结果向量序列。双向信息抽取能够帮助模型更全面地理解输入序列的语义和上下文关联，从而提升模型性能。

S104，基于第K个样本物料的第一向量表示和第二向量表示，对序列生成模型进行修正，直至训练结束得到目标序列生成模型。

可选地，可以基于第K个样本物料的第一向量表示和第二向量表示，得到该样本物料序列的预测标对应的概率，进而基于样本物料的标定标签和预测标签对应的概率，计算序列生成模型的损失函数，并基于该损失函数确定模型的修正梯度，以对待训练的序列生成模型的模型参数进行修正。在模型修正后，继续使用下一训练样本物料序列对修正后的序列生成模型继续训练，直至训练结束得到目标序列生成模型。

可以理解是，通过对序列生成模型的模型参数进行修正，使得模型输出的第K个样本物料的第二向量表示t_k需尽可能接近第一向量表示e_k，降低预测的误差，以提高模型推荐的准确性。

可选地，可以将设定的训练次数作为训练结束条件，当序列生成模型的训练次数达到设定值时结束训练，得到目标序列生成模型。可选地，可以将设定的训练时长作为训练结束条件，当序列生成模型的训练时长达到设定值时结束训练，得到目标序列生成模型。

在本申请实施例提供的序列生成模型的训练方法，通过对样本物料序列中每个样本物料的特征信息进行编码，得到第一向量表示，生成包含前K-1个样本物料的第一向量序列。将第一向量序列输入序列生成模型中，得到第K个样本物料的第二向量表示。基于第K个样本物料的第一向量表示和第二向量表示，对模型进行修正，可以使得第二向量表示尽可能接近第一向量表示，得到目标序列生成模型，可以使得模型具有更好的稳定性，以提高模型预测结果的准确性，从而可以提高推送效果，得到个性化的推送内容，生成最有效的推送策略。

图2是根据一示例性实施例示出的一种序列生成模型的训练方法的流程图，如图2所示，本申请实施例的序列生成模型的训练方法，包括但不限于以下步骤：

S201，获取样本物料序列，样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数。

在本申请实施例中，步骤S201的实现方式可以分别采用本申请各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S202，获取样本序列中每个样本物料的第一向量表示，并基于样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列。

在一些实现中，可以基于样本物料的特征信息，对特征信息进行编码，得到样本物料的第一向量表示。其中，特征信息可以是属性特征和预测点击率。

可选地，通过获取样本物料的属性特征和预测点击率，进而对样本物料的属性特征和预测点击率进行编码，得到样本物料的第一向量表示。其中，属性特征包括物料标识、物料类型和物料品牌中一个或多个特征信息。

在本申请实施例中，步骤获取第一向量序列的实现方式可以分别采用本申请各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S203，由编码层对第一向量序列进行双向信息抽取，得到第二向量序列，其中第二向量序列包括前K-1个样本物料各自的第三向量表示。

在一些实现中，序列生成模型包括编码层和池化层，且编码层和池化层相连接。将第一向量序列输入序列生成模型中，由编码层对第一向量序列进行双向信息抽取，得到第二向量序列。

可选地，编码层可以从第一向量序列中抽取正向和逆向的信息，得到的结果为第二向量序列。其中，第二向量序列中包括前K-1个样本物料各自的第三向量表示，将第三向量表示记为h，则第二向量序列为[h₁,h₂,h₃,…,h_k-1]。

S204，由池化层对第二向量序列进行池化操作，得到第K个样本物料的第二向量表示。

在一些实现中，第二向量序列输入至池化层进行池化操作，可选地，可以使用池化函数，对第二向量序列进行池化操作，将池化的结果作为第K个样本物料的第二向量表示。可选地，可以基于注意力向量、空间变换矩阵和第二向量序列，确定池化函数，进而得到K个样本物料的第二向量表示。

在一些实现中，可以通过确定序列生成模型的注意力向量和空间变换矩阵，并基于注意力向量、空间变换矩阵和前K-1个样本物料各自的第三向量表示，分别得到前K-1个样本物料各自的注意力权重。计算注意力权重的公式如下所示：

其中，α_m表示第二向量序列中第m个物料的注意力权重，u为注意力向量，W为空间变换矩阵，h_m为第二向量序列中第m个物料的第三向量表示，m小于K-1。

进一步地，针对前K-1个样本物料中每个样本物料，基于样本物料的注意力权重，对样本物料的第三向量表示进行加权，得到样本物料的第四向量表示。进而对前K-1个样本物料的第四向量表示求和，得到第K个样本物料的第二向量表示。计算公式如下所示：

t_k＝∑_mα_mh_m (3)

其中，t_k为第K个样本物料的第二向量表示，α_mh_m为每个样本物料的第四向量表示。可以理解的是，公式(3)为池化函数。

S205，基于第K个样本物料的第一向量表示和第二向量表示，对序列生成模型进行修正，直至训练结束得到目标序列生成模型。

在本申请实施例中，步骤S205的实现方式可以分别采用本申请各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

在本申请实施例提供的序列生成模型的训练方法，通过对样本物料序列中每个样本物料的特征信息进行编码，得到第一向量表示，进而生成包含前K-1个样本物料的第一向量序列。将第一向量序列输入序列生成模型中，基于注意力向量、空间变换矩阵等参数进行池化操作，可以得到第K个样本物料的第二向量表示。在模型中使用关键参数，可以减少人工干预，消除主观偏差，提高模型的客观性。进一步地，基于第K个样本物料的第一向量表示和第二向量表示，对序列生成模型进行修正，可以使得第二向量表示尽可能接近第一向量表示，得到目标序列生成模型，可以使得模型具有更好的稳定性，以提高模型预测结果的准确性。从而可以提高推送效果，得到个性化的推送内容，生成最有效的推送策略。

图3是根据一示例性实施例示出的一种序列生成模型的训练方法的流程图，如图3所示，本申请实施例的序列生成模型的训练方法，包括但不限于以下步骤：

S301，获取样本物料序列，样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数。

在本申请实施例中，步骤S301中获取样本物料序列的实现方式可以分别采用本申请各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

需要说明的是，样本物料序列的最后一个样本物料，若被用户真实点击过，则记为正样本，若未被用户点击过，则记为负样本。

在一些实现中，由于负样本数量远多于正样本数量，需要对负样本做降采样，得到最终的样本物料序列。可选地，样本物料序列中的正负样本比例在1∶3到1∶10范围。

S302，获取样本序列中每个样本物料的第一向量表示，并基于样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列。

在本申请实施例中，步骤S302的实现方式可以分别采用本申请各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S303，将第一向量序列输入序列生成模型中，输出样本序列中第K个样本物料的第二向量表示。

在本申请实施例中，步骤S303的实现方式可以分别采用本申请各实施例中的任一种方式实现，在此并不对此作出限定，也不再赘述。

S304，对第K个样本物料的第一向量表示和第二向量表示做向量内积，得到样本物料序列被预测为正样本的概率。

在一些实现中，可以基于第K个样本物料的第一向量表示和第二向量表示，得到该样本物料序列被预测为正样本的概率。可选地，可以将第K个样本物料的第一向量表示和第二向量表示做向量内积，得到样本物料序列被预测为正样本的概率。计算样本物料序列被预测为正样本的概率的公式如下所示：

p_i＝sigmoid(e_k·t_k) (4)

其中，p_i为第i个样本为正样本的概率，e_k为第K个样本物料的第一向量表示，t_k为第K个样本物料的第二向量表示。

S305，基于样本物料序列的概率和样本标签，对序列生成模型的模型参数进行修正，直至训练结束得到目标序列生成模型。

在一些实现中，可以通过判断样本物料序列中的第K个样本物料是否被用户点击，样本物料序列的确定样本标签。可选地，若第K个样本物料被点击，确定样本物料序列的样本标签为正样本标签。或者，若K个样本物料未被点击，确定样本物料序列中的样本标签为负样本标签。

进一步地，基于样本物料序列的概率和样本标签，确定样本物料序列对应的损失值，并基于损失函数，对序列生成模型的模型参数进行修正。

可选地，将正样本标签与被预测为正样本的概率的对数相乘，将负样本标签与被预测为负样本的概率的对数相乘，将两个结果相加得到样本物料序列对应的损失值。进而对损失值求平均，得到损失函数，并对序列生成模型的模型参数进行修正。

在一些实现中，在采用批量样本物料序列对序列生成模型进行训练的情况下，针对当前批次内的每个样本物料序列，基于样本物料序列的概率和样本标签，确定样本物料序列对应的损失值。进而对当前批次内样本物料序列的损失值进行求平均，得到序列生成模型的损失函数，并基于损失函数，对序列生成模型的模型参数进行修正。设当前批次的样本数为n，计算序列生成模型的损失函数如下所示：

其中，L为损失函数，y_i为样本标签，y_i log(p_i)+(1-y_i)log(1-p_i)为样本物料序列的损失值。

进一步地，在得到序列生成模型的损失函数后，可以确定模型的修正梯度，以对序列生成模型的模型参数进行修正。例如，可以对注意力向量u和空间变换矩阵W进行修正。在模型修正后，继续使用下一训练样本物料序列对修正后的序列生成模型继续训练，直至训练结束得到目标序列生成模型。

可以理解的是，训练结束条件可以是序列生成模型的训练时长到达设定值。训练结束条件还可以是序列生成模型的训练次数达到设定值。

在一些实现中，若样本物料序列中的i_k为正样本，则目标序列生成模型输出的t_k需尽可能接近i_k；若样本物料序列中的i_k为负样本，则目标序列生成模型输出的t_k需尽可能与i_k有差别。

需要说明的是，在模型训练阶段，本申请使用的样本物料序列主要包括样本物料的相关数据。在一些实现中，可以添加用户的相关数据，使得序列生成模型具有更好的个性化效果。例如，可以将用户id向量化后拼接，或向量加和添加到样本物料序列的每个物料中。

在本申请实施例提供的序列生成模型的训练方法，通过对样本物料序列中每个样本物料的特征信息属性和预测点击率进行编码，得到第一向量表示，进而生成包含前K-1个样本物料的第一向量序列。将第一向量序列输入序列生成模型中，得到第K个样本物料的第二向量表示。进一步地，基于第K个样本物料的第一向量表示和第二向量表示，对序列生成模型进行修正，可以使得第二向量表示尽可能接近第一向量表示，得到目标序列生成模型，可以使得模型具有更好的稳定性，以提高模型预测结果的准确性。基于预测点击率对模型进行训练，从而可以提高推送效果，得到个性化的推送内容，生成最有效的推送策略。

上述实施例提供的序列生成模型的训练方法，可以离线完成，在离线完成训练得到目标序列生成模型后，可以进行线上推理或服务，也就是通过目标序列生成模型，得到物料推送序列。

图4是根据一示例性实施例示出的一种物料推送方法的流程图，如图4所示，本申请实施例的物料推送方法，包括但不限于以下步骤：

S401，获取多个候选推送物料。

S402，基于目标序列生成模型，对多个候选推送物料进行序列预测，输出物料推送序列，其中物料推送序列中包括排序后的候选推送物料。

需要说明的是，目标序列生成模型可采用图1至图3所示的序列生成模型的训练方法得到，这里不再赘述。

可选地，可以从电商平台上的多个候选商品中，获取待推送的候选商品作为候选推送物料；可选地，可以从短视频平台中的多个候选短视频中，获取待推送的候选短视频，作为候选推送物料。本申请实施例中，对物料的类型不做限定。

在获取到多个候选推送物料后，可以随机或者指定选取一个候选推送物料作为首个推送物料，确定除首位推送物料外的多个候选推送物料的第一向量表示，基于目标序列生成模型，确定第i+1位推送物料的第二向量表示。其中，第i+1位推送物料的第二向量表示由前i位推送物料确定。

进一步地，基于第i+1位推送物料的第二向量表示，从剩余的未排序的候选推送物料中，确定第i+1位推送物料，直至多个候选推送物料排序完成，得到物料推送序列，并将该物料推送序列推送给用户。

示例性说明，以待推送的候选商品作为候选推送物料，可以通过分析候选商品的特征(如品牌、类型等)和用户的特征信息(如性别、年龄、地域)，确定用户的偏好，对候选推送物料进行偏好预测，预测用户最感兴趣的推送物料，作为首个推送物料。可选地，可以预测用户对候选推送物料的偏好分数，将分数最高的候选推送物料作为首个推送物料。

在本申请实施例提供的序列生成模型的训练方法，基于样本物料序列中得到第一向量表示，生成第一向量序列。将第一向量序列输入序列生成模型中，得到第K个样本物料的第二向量表示。基于第一向量表示和第二向量表示，对模型进行训练得到目标序列生成模型，以获得具有更好稳定性、预测结果准确性高的模型。基于训练好的目标序列推送模型，对多个候选推荐物料推送物料进行序列预测，得到物料推送序列，进而推送给用户，可以减少重复的推送物料，并提供个性化的推送内容，提升用户使用体验，生成最有效的推送策略。

在上述实施例的基础上，本申请实施例可以对确定物料推送序列的过程进行解释说明，该确定物料推送序列的过程包括但不限于以下步骤：

S501，从多个候选推送物料中确定首位推送物料。

在一些实现中，将多个候选推送物料输入至预先训练好的点击率预测模型中，由该模型对多个候选推送物料中每个推送物料进行点击率预测，并选取预测点击率最高的推送物料作为首位推送物料。例如，存在N个候选推送物料，通过预测N个候选推送物料中每个推送物料的点击率，并进行数值比较，确定预测点击率数值最大的推送物料作为首位推送物料。

S502，从首位推送物料开始，向目标序列生成模型中输入第i位推送物料，由目标序列生成模型基于首位推送物料至第i位推送物料，预测第i+1位推送物料的第二向量表示，其中，i为大于或者等于1的整数。

可以理解的是，第i+1位推送物料的第二向量表示由前i位推送物料确定，示例性说明，若当前输入第4位推送物料，则目标序列生成模型基于首位推送物料、第2位推送物料以及第3位推送物料，预测第4位推送物料的第二向量表示t₄。

S503，获取多个候选推送物料中未确定顺序的剩余推送物料的第一向量表示。

在一些实现中，针对候选推送物料中的任一物料，获取物料的属性特征和预测点击率。进而对属性特征和预测点击率进行编码，得到任一物料的第一向量表示。候选推送物料的属性特征包括但不限于候选推送物料的标识(sku id)、候选推送物料三维类型(cate)、候选推送物料的品牌(brand)等属性特征。

进一步地，使用公式(1)，对剩余推送物料属性特征和预测点击率进行编码，得到剩余推送物料的第一向量表示。

可以理解的是，剩余推送物料为多个候选推送物料中，除已确定的首位推送物料外的，未确定顺序的候选推送物料。

S504，获取第i+1位推送物料的第二向量表示，与每个剩余推送物料的第一向量表示之间的向量内积，选取向量内积最大的剩余推送物料，作为第i+1位推送物料，直至多个候选推送物料排序完成，得到物料推送序列。

在一些实现中，计算第i+1位推送物料的第二向量表示，与每个剩余推送物料的第一向量表示之间的向量内积，通过比较向量内积的大小，确定向量内积最大的第一向量表示对应的候选推送物料，作为第i+1位推送物料。重复此操作，确定第i+2位推送物料、第i+3位推送物料、……、第N位推送物料，直至将多个候选推送物料排序完成，得到物料推送序列。

图6是根据一示例性实施例示出的一种序列生成模型的训练方法的流程图，如图6所示，本申请实施例的序列生成模型的训练方法，包括但不限于以下步骤：

S601，获取样本物料序列，样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数。

S602，获取样本序列中每个样本物料的第一向量表示，并基于样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列。

S603，将第一向量序列输入序列生成模型中，输出样本序列中第K个样本物料的第二向量表示。

S604，对第K个样本物料的第一向量表示和第二向量表示做向量内积，得到样本物料序列被预测为正样本的概率。

S605，基于样本物料序列的概率和样本标签，确定样本物料序列对应的损失值，并基于损失函数，对序列生成模型的模型参数进行修正，得到目标序列生成模型。

S606，获取多个候选推送物料。

S607，对多个候选推送物料中每个推送物料进行点击率预测，并选取预测点击率最高的推送物料作为首位推送物料。

S608，从首位推送物料开始，向目标序列生成模型中输入第i位推送物料，由目标序列生成模型基于首位推送物料至第i位推送物料，预测第i+1位推送物料的第二向量表示，其中，i为大于或者等于1的整数。

S609，获取多个候选推送物料中未确定顺序的剩余推送物料的第一向量表示。

S610，获取第i+1位推送物料的第二向量表示，与每个剩余推送物料的第一向量表示之间的向量内积，选取向量内积最大的剩余推送物料，作为第i+1位推送物料，直至多个候选推送物料排序完成，得到物料推送序列。

在本申请实施例提供的序列生成模型的训练方法，通过对样本物料序列中每个物料的属性和预测点击率进行编码，得到第一向量表示，进而生成包含前K-1个样本物料的第一向量序列。将第一向量序列输入序列生成模型中，得到第K个样本物料的第二向量表示。基于预测点击率对模型进行训练，可以提高推送效果，得到个性化的推送内容，生成最有效的推送策略。进一步地，基于第K个样本物料的第一向量表示和第二向量表示，得到样本物料序列被预测为正样本的概率，进而根据概率和样本标签对序列生成模型进行修正，得到目标序列生成模型，可以使得模型具有更好的稳定性，以提高模型预测结果的准确性。

如图7所示的基于目标序列生成模型的推送方法的结构示意图。序列生成方法包括离线训练部分和线上推理或服务部分。在离线训练部分，将样本物料序列[i₁,i₂,i₃,…,i_k]中每个物料的属性特征和预测点击率，通过向量化嵌入编码得到第一向量表示e_k。进而将第一向量序列输入序列生成模型中，经过双向信息抽取和整合(池化)，输出第二向量表示t_k。基于第一向量表示、第二向量表示和样本标签，对序列生成模型进行修正，直至训练结束得到目标序列生成模型。

在线上推理或服务部分，通过获取多个候选推送物料，基于训练好的目标序列生成模型，对多个候选推送物料进行序列预测，得到排序好的候选推送物料，生成物料推送序列，并将该物料推送序列推送给用户。

本申请图8是根据一示例性实施例示出的一种序列生成模型的训练装置的结构框图。参照图8本申请实施例的序列生成模型的训练装置800，包括：第一获取模块801、第二获取模块802、训练模块803和修正模块804。

第一获取模块801，用于获取样本物料序列，所述样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数。

第二获取模块802，用于获取所述样本序列中每个样本物料的第一向量表示，并基于所述样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列。

训练模块803，用于将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示。

修正模块804，用于基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型。

在本申请的一个实施例中，所述训练模块803，还用于：由所述编码层对所述第一向量序列进行双向信息抽取，得到第二向量序列，其中所述第二向量序列包括所述前K-1个样本物料各自的第三向量表示；由所述池化层对所述第二向量序列进行池化操作，得到所述第K个样本物料的第二向量表示。

在本申请的一个实施例中，所述训练模块803，还用于：确定所述序列生成模型的注意力向量和空间变换矩阵；基于所述注意力向量、所述空间变换矩阵和所述第二向量序列，得到所述K个样本物料的第二向量表示。

在本申请的一个实施例中，所述训练模块803，还用于：基于所述注意力向量、所述空间变换矩阵和所述前K-1个样本物料各自的第三向量表示，分别得到所述前K-1个样本物料各自的注意力权重；针对所述前K-1个样本物料中每个样本物料，基于所述样本物料的注意力权重，对所述样本物料的第三向量表示进行加权，得到所述样本物料的第四向量表示；对所述前K-1个样本物料的所述第四向量表示求和，得到所述K个样本物料的第二向量表示。

在本申请的一个实施例中，所述第二获取模块802，还用于：获取所述样本物料的属性特征和预测点击率，其中，所述属性特征包括物料标识、物料类型和物料品牌中一个或多个特征信息；对所述样本物料的属性特征和所述预测点击率进行编码，得到所述样本物料的第一向量表示。

在本申请的一个实施例中，所述修正模块804，还用于：对所述第K个样本物料的所述第一向量表示和所述第二向量表示做向量内积，得到所述样本物料序列被预测为正样本的概率；基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，直至训练结束得到目标序列生成模型。

在本申请的一个实施例中，所述修正模块804，还用于：基于所述样本物料序列的所述概率和所述样本标签，确定所述样本物料序列对应的损失值，并基于所述损失函数，对所述序列生成模型的模型参数进行修正。

在本申请的一个实施例中，所述修正模块804，还用于：在采用批量样本物料序列对所述序列生成模型进行训练的情况下，针对当前批次内的每个所述样本物料序列，基于所述样本物料序列的所述概率和所述样本标签，确定所述样本物料序列对应的损失值；对当前批次内所述样本物料序列的所述损失值进行求平均，得到所述序列生成模型的损失函数，并基于所述损失函数，对所述序列生成模型的模型参数进行修正。

在本申请的一个实施例中，所述修正模块804，还用于：判断所述样本物料序列中的第K个样本物料是否被用户点击；若所述第K个样本物料被点击，确定所述样本物料序列的样本标签为正样本标签；或者，若所述K个样本物料未被点击，确定所述样本物料序列中的样本标签为负样本标签。

在本申请实施例提供的序列生成模型的训练装置，通过对样本物料序列中每个样本物料的特征信息进行编码，得到第一向量表示，生成包含前K-1个样本物料的第一向量序列。将第一向量序列输入序列生成模型中，得到第K个样本物料的第二向量表示。基于第K个样本物料的第一向量表示和第二向量表示，对模型进行修正，可以使得第二向量表示尽可能接近第一向量表示，得到目标序列生成模型，可以使得模型具有更好的稳定性，以提高模型预测结果的准确性，从而可以提高推送效果，得到个性化的推送内容，生成最有效的推送策略。

本申请图9是根据一示例性实施例示出的一种物料推送装置的结构框图。参照图9本申请实施例的物料推送装置900，包括：获取模块901和推送模块902。

获取模块901，用于获取多个候选推送物料。

推送模块902，用于基于目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，其中所述物料推送序列中包括排序后的所述候选推送物料。

在本申请的一个实施例中，所述推送模块902，还用于：从所述多个候选推送物料中确定首位推送物料；从所述首位推送物料开始，向所述目标序列生成模型中输入第i位推送物料，由所述目标序列生成模型基于所述首位推送物料至所述第i位推送物料，预测第i+1位推送物料的第二向量表示，其中，i为大于或者等于1的整数；获取所述多个候选推送物料中未确定顺序的剩余推送物料的第一向量表示；获取所述第i+1位推送物料的第二向量表示，与每个所述剩余推送物料的第一向量表示之间的向量内积，选取所述向量内积最大的剩余推送物料，作为所述第i+1位推送物料，直至所述多个候选推送物料排序完成，得到所述物料推送序列。

在本申请的一个实施例中，所述推送模块902，还用于：对所述多个候选推送物料中每个推送物料进行点击率预测，并选取所述预测点击率最高的推送物料作为所述首位推送物料。

在本申请的一个实施例中，所述推送模块902，还用于：获取所述候选推送物料的属性特征和预测点击率；对所述候选推送物料属性特征和预测点击率进行编码，得到所述候选推送物料的第一向量表示。

图10是根据一示例性实施例示出的一种电子设备框图。图10示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000包括处理器1001，其可以根据存储在只读存储器(ReadOnly Memory，ROM)1002中的程序或者从存储器1006加载到随机访问存储器(RandomAccess Memory，RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中，还存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(Input/Output，I/O)接口1005也连接至总线1004。

以下部件连接至I/O接口1005：包括硬盘等的存储器1006；以及包括诸如局域网(Local Area Network，LAN)卡、调制解调器等的网络接口卡的通信部分1007，通信部分1007经由诸如因特网的网络执行通信处理；驱动器1008也根据需要连接至I/O接口1005。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1007从网络上被下载和安装。在该计算机程序被处理器1001执行时，执行本申请的方法中限定的上述功能。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备1000的处理器1001执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

图11是根据一示例性实施例示出的一种电子设备的结构框图。图11示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。如图11所示，该电子设备1100包括处理器1101、存储器1102。其中，存储器1102用于存储程序代码，处理器1101与存储器1102连接，用于从存储器1102内读取程序代码，以实现上述实施例中的序列生成模型的训练方法。

可选地，处理器1101的数量可以是一个或多个。

可选地，电子设备还可以包括接口1103，该接口1103的数量可以是多个。该接口1103可以与应用程序连接，并且可以接收外部设备如传感器的数据等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种序列生成模型的训练方法，其特征在于，包括：

获取样本物料序列，所述样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数；

获取所述样本序列中每个样本物料的第一向量表示，并基于所述样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列；

将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示；

基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型。

2.根据权利要求1所述的方法，其特征在于，所述序列生成模型包括编码层和池化层，其中，所述将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示，包括：

由所述编码层对所述第一向量序列进行双向信息抽取，得到第二向量序列，其中所述第二向量序列包括所述前K-1个样本物料各自的第三向量表示；

由所述池化层对所述第二向量序列进行池化操作，得到所述第K个样本物料的第二向量表示。

3.根据权利要求2所述的方法，其特征在于，所述由所述池化层对所述第二向量序列进行池化操作，得到所述第K个样本物料的第二向量表示，包括：

确定所述序列生成模型的注意力向量和空间变换矩阵；

基于所述注意力向量、所述空间变换矩阵和所述第二向量序列，得到所述K个样本物料的第二向量表示。

4.根据权利要求3所述的方法，其特征在于，所述基于所述注意力向量、所述空间变换矩阵和所述第二向量序列，得到所述K个样本物料的第二向量表示，包括：

基于所述注意力向量、所述空间变换矩阵和所述前K-1个样本物料各自的第三向量表示，分别得到所述前K-1个样本物料各自的注意力权重；

针对所述前K-1个样本物料中每个样本物料，基于所述样本物料的注意力权重，对所述样本物料的第三向量表示进行加权，得到所述样本物料的第四向量表示；

对所述前K-1个样本物料的所述第四向量表示求和，得到所述K个样本物料的第二向量表示。

5.根据权利要求1所述的方法，其特征在于，所述获取所述样本序列中每个样本物料的第一向量表示，包括：

获取所述样本物料的属性特征和预测点击率，其中，所述属性特征包括物料标识、物料类型和物料品牌中一个或多个特征信息；

对所述样本物料的属性特征和所述预测点击率进行编码，得到所述样本物料的第一向量表示。

6.根据权利要求1-5中任一项所述的方法，其特征在于，所述基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型，包括：

对所述第K个样本物料的所述第一向量表示和所述第二向量表示做向量内积，得到所述样本物料序列被预测为正样本的概率；

基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，直至训练结束得到目标序列生成模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，包括：

基于所述样本物料序列的所述概率和所述样本标签，确定所述样本物料序列对应的损失值，并基于所述损失函数，对所述序列生成模型的模型参数进行修正。

8.根据权利要求6所述的方法，其特征在于，所述基于所述样本物料序列的所述概率和样本标签，对所述序列生成模型的模型参数进行修正，包括：

在采用批量样本物料序列对所述序列生成模型进行训练的情况下，针对当前批次内的每个所述样本物料序列，基于所述样本物料序列的所述概率和所述样本标签，确定所述样本物料序列对应的损失值；

对当前批次内所述样本物料序列的所述损失值进行求平均，得到所述序列生成模型的损失函数，并基于所述损失函数，对所述序列生成模型的模型参数进行修正。

9.根据权利要求6所述的方法，其特征在于，所述方法还包括：

判断所述样本物料序列中的第K个样本物料是否被用户点击；

若所述第K个样本物料被点击，确定所述样本物料序列的样本标签为正样本标签；或者，

若所述K个样本物料未被点击，确定所述样本物料序列中的样本标签为负样本标签。

10.一种物料推送方法，其特征在于，所述方法包括：

获取多个候选推送物料，并基于目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，其中所述物料推送序列中包括排序后的所述候选推送物料；

其中，所述目标序列生成模型为如权利要求1-8中任一项所述的训练方法得到的模型。

11.根据权利要求10所述的方法，其特征在于，所述基于目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，包括：

从所述多个候选推送物料中确定首位推送物料；

从所述首位推送物料开始，向所述目标序列生成模型中输入第i位推送物料，由所述目标序列生成模型基于所述首位推送物料至所述第i位推送物料，预测第i+1位推送物料的第二向量表示，其中，i为大于或者等于1的整数；

获取所述多个候选推送物料中未确定顺序的剩余推送物料的第一向量表示；

获取所述第i+1位推送物料的第二向量表示，与每个所述剩余推送物料的第一向量表示之间的向量内积，选取所述向量内积最大的剩余推送物料，作为所述第i+1位推送物料，直至所述多个候选推送物料排序完成，得到所述物料推送序列。

12.根据权利要求11所述的方法，其特征在于，所述从所述多个候选推送物料中确定首位推送物料，包括：

对所述多个候选推送物料中每个推送物料进行点击率预测，并选取所述预测点击率最高的推送物料作为所述首位推送物料。

13.根据权利要求10-12中任一项所述的方法，其特征在于，所述方法还包括：

获取所述候选推送物料的属性特征和预测点击率；

对所述候选推送物料属性特征和预测点击率进行编码，得到所述候选推送物料的第一向量表示。

14.一种序列生成模型的训练装置，其特征在于，包括：

第一获取模块，用于获取样本物料序列，所述样本物料序列中包括按照按序排列的已推荐过的K个样本物料，其中，K为大于1的整数；

第二获取模块，用于获取所述样本序列中每个样本物料的第一向量表示，并基于所述样本序列中前K-1个样本物料的第一向量表示，得到第一向量序列；

训练模块，用于将所述第一向量序列输入序列生成模型中，输出所述样本序列中第K个样本物料的第二向量表示；

修正模块，用于基于所述第K个样本物料的所述第一向量表示和所述第二向量表示，对所述序列生成模型进行修正，直至训练结束得到目标序列生成模型。

15.一种物料推送装置，其特征在于，所述装置包括：

获取模块，用于获取多个候选推送物料；

推送模块，用于基于目标序列生成模型，对所述多个候选推送物料进行序列预测，输出物料推送序列，其中所述物料推送序列中包括排序后的所述候选推送物料，其中，所述目标序列生成模型为如权利要求1-8中任一项所述的训练方法得到的模型。

16.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现权利要求1-9中任一项方法的步骤，或者，实现权利要求10-13中任一项方法的步骤。

17.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1-9中任一项方法的步骤，或者，实现权利要求10-13中任一项方法的步骤。