CN115935185A

CN115935185A - 一种推荐模型的训练方法及装置

Info

Publication number: CN115935185A
Application number: CN202211532165.4A
Authority: CN
Inventors: 暴宇健; 董辉
Original assignee: Beijing Longzhi Digital Technology Service Co Ltd
Current assignee: Beijing Longzhi Digital Technology Service Co Ltd
Priority date: 2022-12-01
Filing date: 2022-12-01
Publication date: 2023-04-07

Abstract

本公开涉及人工智能技术领域，提供了一种推荐模型的训练方法、装置、计算机设备及计算机可读存储介质。该方法能够充分利用海量的用户历史交互序列，充分挖掘不同历史交互特征信息之间潜在的语义关联，且能规避推荐场景中正负样本比例悬殊的问题，这样，便可以提升推荐模型对于推荐对象、交互结果的预测评估的训练的精度，从而可以进一步提升推荐模型在稀疏推荐场景中的泛化性能，以及，可以提升推荐模型对于推荐对象、交互结果的预测评估的精确度，进而可以提高推荐对象的转化率以及用户体验。

Description

一种推荐模型的训练方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种推荐模型的训练方法及装置。

背景技术

在互联网电子商务业务中，如何根据用户的个性化特征，向用户推荐合适的商品或服务一直是一个重要课题。在某些相对低频场景下，如线上广告、线上租房、买房等，由于正样本数据(比如点击，购买)的稀疏性，基于用户线上行为所构造的序列推荐模型，会由于序列本身的长度较短，且前后关联性差等问题，导致在序列推荐模型的训练过程中，会由于序列的表征特征中的信息不足，出现模型过拟合、泛化能力弱的问题，这样，会使得利用序列推荐模型向用户推荐商品或服务的场景下，给用户所推荐的商品或服务并不是用户真正想要的商品或服务，从而导致用户体验较差，且在提高商品或服务的转化率上有一定的局限性。

发明内容

有鉴于此，本公开实施例提供了一种推荐模型的训练方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中基于用户线上行为所构造的序列推荐模型，会由于序列本身的长度较短，且前后关联性差等问题，导致在序列推荐模型的训练过程中，会由于序列的表征特征中的信息不足，出现模型过拟合、泛化能力弱的问题，这样，会使得利用序列推荐模型向用户推荐商品或服务的场景下，给用户所推荐的商品或服务并不是用户真正想要的商品或服务，从而导致用户体验较差，且在提高商品或服务的转化率上有一定的局限性的问题。

本公开实施例的第一方面，提供了一种推荐模型的训练方法，所述方法包括：

利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息；

根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型；

利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息；

根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。

本公开实施例的第二方面，提供了一种推荐模型的训练装置，所述装置包括：

第一预测单元，用于利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息；

第一调整单元，用于根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型；

第二预测单元，用于利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息；

第二调整单元，用于根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。

本公开实施例的第三方面，提供了一种计算机设备，包括存储器、处理器以及存储在存储器中并且可以在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息。然后，可以根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型。接着，可以利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息。最后，可以根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。可见，本实施例中，可以先利用第一交互训练样本中第一历史交互序列，使推荐模型可以基于用户交互序列(即第一历史交互序列)进行建模，以便推荐模型可以提取出交互序列中的丰富信息且动态的语义表征信息，从而可以提高推荐模型的推荐精准度；然后，可以利用第二交互训练样本中第二历史交互序列与所述第二历史交互序列对应的真实交互结果，对推荐模型进行调优，以便可以提高推荐模型对于交互结果的评估的精准度。这样，可以能够充分利用海量的用户历史交互序列，充分挖掘不同历史交互特征信息之间潜在的语义关联，且能规避推荐场景中正负样本比例悬殊的问题，这样，便可以提升推荐模型对于推荐对象、交互结果的预测评估的训练的精度，从而可以进一步提升推荐模型在稀疏推荐场景中的泛化性能，以及，可以提升推荐模型对于推荐对象、交互结果的预测评估的精确度，进而可以提高推荐对象的转化率以及用户体验。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的推荐模型的训练方法的流程图；

图3是本公开实施例提供的确定预测交互特征信息的模型训练流程示意图；

图4是本公开实施例提供的确定预测交互结果的模型训练流程示意图；

图5是本公开实施例提供的推荐模型的训练装置的框图；

图6是本公开实施例提供的计算机设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

下面将结合附图详细说明根据本公开实施例的一种推荐模型的训练方法和装置。

在现有技术中，由于传统的推荐模型的训练方法，在某些相对低频场景下，如线上广告、线上租房、买房等，由于正样本数据(比如点击，购买)的稀疏性，基于用户线上行为所构造的序列推荐模型，会由于序列本身的长度较短，且前后关联性差等问题，导致在序列推荐模型的训练过程中，会由于序列的表征特征中的信息不足，出现模型过拟合、泛化能力弱的问题，这样，会使得利用序列推荐模型向用户推荐商品或服务的场景下，给用户所推荐的商品或服务并不是用户真正想要的商品或服务，从而导致用户体验较差，且在提高商品或服务的转化率上有一定的局限性。

在线上电子商务推荐场景中，现有技术主要采用基于用户行为作为反馈信息，对用户的喜好进行建模，然后根据用户喜好与已有商品库内的商品或服务的匹配关系排序，推荐最符合用户喜好的商品或服务。而该类模型的整体结构都是输入给模型一批用户特征和商品特征，对某一个特定商品进行判别用户是否会点击或者购买该商品；而该判别结果被作为模型的输出结果与真实的用户点击或者购买结果进行损失函数计算，从而指导模型进行优化。比较有代表性的模型有深度因式分解机(DeepFM)和深度兴趣网络(DIN)等。以DIN模型为例，该模型会通过过去的历史点击或购买商品的记录判断用户对当前该商品的喜好程度，最后输出一个单独的概率判断用户点击或者购买该商品的倾向。而这类模型的共同点是使用已知特征对某用户对单一的某个特定商品进行预测，而此方式使得模型在仅可以基于单个商品的正样本(即被点击或被购买的商品)进行训练，且负样本(即未被点击或购买的商品)比例很小时，会对模型的训练造成较大不良影响，导致模型的精度下降和正样本的召回率下降。这种情况下，这类模型需要对正样本进行过采样或对负样本进行欠采样等操作，从而会使得模型训练的过程相对复杂困难。另外，此类模型只考虑了一段时间中的商品交互行为序列对最后一次行为的影响，针对序列本身的表征特征的学习，没有充分发挥其特有潜力，使得模型的泛化能力在稀疏场景下的性能会较差。

为了解决上述问题。本发明提供了一种推荐模型的训练方法，在本方法中，由于本实施例可以先利用第一交互训练样本中第一历史交互序列，使推荐模型可以基于用户交互序列(即第一历史交互序列)进行建模，以便推荐模型可以提取出交互序列中的丰富信息且动态的语义表征信息，从而可以提高推荐模型的推荐精准度；然后，可以利用第二交互训练样本中第二历史交互序列与所述第二历史交互序列对应的真实交互结果，对推荐模型进行调优，以便可以提高推荐模型对于交互结果的评估的精准度。这样，可以能够充分利用海量的用户历史交互序列，充分挖掘不同历史交互特征信息之间潜在的语义关联，且能规避推荐场景中正负样本比例悬殊的问题，这样，便可以提升推荐模型对于推荐对象、交互结果的预测评估的训练的精度，从而可以进一步提升推荐模型在稀疏推荐场景中的泛化性能，以及，可以提升推荐模型对于推荐对象、交互结果的预测评估的精确度，进而可以提高推荐对象的转化率以及用户体验。

举例说明，本发明实施例可以应用到如图1所示的应用场景。在该场景中，可以包括终端设备1和服务器2。

终端设备1可以是硬件，也可以是软件。当终端设备1为硬件时，其可以是具有显示屏且支持与服务器2通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1为软件时，其可以安装在如上该的电子设备中。终端设备1可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器2可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器2可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器2可以是硬件，也可以是软件。当服务器2为硬件时，其可以是为终端设备1提供各种服务的各种电子设备。当服务器2为软件时，其可以是为终端设备1提供各种服务的多个软件或软件模块，也可以是为终端设备1提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

终端设备1与服务器2可以通过网络进行通信连接。网络可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near Field Communication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

具体地，用户可以通过终端设备1输入第一交互训练样本，以及第二交互训练样本；终端设备1将第一交互训练样本，以及第二交互训练样本向服务器2发送。服务器2存储有待训练的推荐模型；服务器2可以先利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息；然后，服务器2可以根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型；接着，服务器2可以利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息；最后，服务器2可以根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。这样，由于本申请可以先利用第一交互训练样本中第一历史交互序列，使推荐模型可以基于用户交互序列(即第一历史交互序列)进行建模，以便推荐模型可以提取出交互序列中的丰富信息且动态的语义表征信息，从而可以提高推荐模型的推荐精准度；然后，可以利用第二交互训练样本中第二历史交互序列与所述第二历史交互序列对应的真实交互结果，对推荐模型进行调优，以便可以提高推荐模型对于交互结果的评估的精准度。这样，可以能够充分利用海量的用户历史交互序列，充分挖掘不同历史交互特征信息之间潜在的语义关联，且能规避推荐场景中正负样本比例悬殊的问题，这样，便可以提升推荐模型对于推荐对象、交互结果的预测评估的训练的精度，从而可以进一步提升推荐模型在稀疏推荐场景中的泛化性能，以及，可以提升推荐模型对于推荐对象、交互结果的预测评估的精确度，进而可以提高推荐对象的转化率以及用户体验。

需要说明的是，终端设备1和服务器2以及网络的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

需要注意的是，上述应用场景仅是为了便于理解本公开而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图2是本公开实施例提供的一种推荐模型的训练方法的流程图。图2的一种推荐模型的训练方法可以由图1的终端设备或服务器执行。如图2所示，该推荐模型的训练方法包括：

S201：利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息。

在本实施例中，推荐模型可以理解为用于为用户进行个性化推荐对象(例如商品或服务)的神经网络模型。作为一种示例，推荐模型可以为输入为序列且输出为序列的神经网络模型，即序列到序列(seq2seq)的神经网络模型，例如，可以为RNN系列、CNN系列、自注意力网络、由transformers构成编码器和解码器的网络，具体地，可以为RNN系列的长短期记忆网路(LSTM)、卷积神经网络(CNN)或者自注意力神经网络(transformer)。在本实施例中不对推荐模型进行具体限定。

其中，第一交互训练样本可以包括第一历史交互序列和与所述第一历史交互序列对应的真实交互特征信息。

第一历史交互序列包括若干历史交互特征信息，可以理解的是，若干历史交互特征信息按照预设顺序进行排序可以作为第一历史交互序列，例如，若干历史交互特征信息可以按照对应的交互时间进行排序作为第一历史交互序列。举例来说，在一段时间内同一个用户在某电子商务网站或应用程序中存在交互行为的商品(即交互对象)，可以按照时间先后顺序排列后就构成一个关于该用户的交互商品序列(即第一历史交互序列)。

在一种实现方式中，所述历史交互特征信息可以包括交互对象属性特征、历史交互行为特征和交互用户属性特征。交互对象属性特征可以理解为能够反映交互对象本身属性的特征信息，其中，交互对象可以理解为被执行交互行为的对象，例如，交互对象为商品或服务时，交互对象属性特征可以为能够反映商品或服务的价格、单日销售量、产品类型等属性的特征。交互用户属性特征可以理解为能够反映执行交互行为的用户(即账号)本身属性的特征信息，例如，能够反映用户所使用的手机的型号(即账号所登录的手机型号)、账号的位置(比如省份、城市)等的特征。历史交互行为特征可以理解为历史已经发生的交互行为特征，交互行为特征可以理解为能够反映交互用户对交互对象所执行的操作的特征信息，例如，假设交互对象为商品，交互行为特征包括能够反映交互用户对商品的点击次数、是否被用户收藏和/或购买的特征；需要说明的是，在线上电子商务场景中，用户常常在同一个电子商务网站或移动端应用程序中浏览多个商品或服务，其行为可能有在某商品页面停留、点击商品查看详情等操作，可以将这些操作统称为交互行为。可以理解的是，用户会产生大量的交互序列，不同用户的序列内容、长短、顺序都会不同，因此，根据用户所产生大量的交互序列提取到的历史交互特征信息可以代表了用户个性化的行为轨迹。

举例来说，假设账号A于一个小时内在某电子商务网站中依次浏览了6个商品，具体的浏览顺序为(商品a,商品b,商品c,商品d,商品e,商品f)，并且最后购买了商品f，可以将这些商品、账号A和交互行为“浏览”对应的特征按照交互时间顺序排列成一个时间序列(即历史交互序列)，具体地，第一历史交互序列可以为{(交互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品c的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品d的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品e的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品f的价格和产品类型；历史交互行为特征：浏览、购买；交互用户属性特征：账号A对应的位置)}。

所述第一历史交互序列对应的真实交互特征信息可以理解为与第一历史交互序列连续发生的交互特征信息。在一种实现方式中，所述真实交互特征信息可以包括真实交互对象属性特征(即已发生的交互对象属性特征)、真实交互行为特征(即已发生的交互行为特征)和真实交互用户属性特征(即已发生的交互用户属性特征)。需要说明的是，真实交互特征信息可以包括一个交互特征信息，也可以包括多个交互特征信息，当真实交互特征信息包括多个交互特征信息时，真实交互特征信息也为一个序列。举例来说，假设用户A的历史序列为{(交互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品c的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品d的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品e的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品f的价格和产品类型；历史交互行为特征：浏览、购买；交互用户属性特征：账号A对应的位置)}，第一历史交互序列可以为{(交互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品c的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)}，第一历史交互序列对应的真实交互特征信息为{(真实交互对象属性特征：商品d的价格和产品类型；真实交互行为特征：浏览；真实交互用户属性特征：账号A对应的位置)，(真实交互对象属性特征：商品e的价格和产品类型；真实交互行为特征：浏览；真实交互用户属性特征：账号A对应的位置)，(真实交互对象属性特征：商品f的价格和产品类型；真实交互行为特征：浏览、购买；真实交互用户属性特征：账号A对应的位置)}。

第一历史交互序列对应的预测交互特征信息可以理解为利用推荐模型预测得到的第一历史交互序列后续的交互特征信息。在一种实现方式中，预测交互特征信息包括预测交互对象属性特征(即预测得到的交互对象属性特征)、预测交互行为特征(即预测得到的交互行为特征)和预测交互用户属性特征(即预测得到的交互用户属性特征)。例如，第一历史交互序列可以为{(交互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)}，可以利用推荐模型预测得到的第一历史交互序列后续的交互特征信息为(交互对象属性特征：商品f的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)。

S202：根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型。

在得到第一交互训练样本中第一历史交互序列对应的预测交互特征信息后，可以利用所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息计算损失函数值，若所述损失函数值不满足预设条件，则可以根据损失函数值对所述推荐模型的模型参数进行调整，得到调整后的推荐模型，继续执行S201，直至所述损失函数值满足预设条件，或者S201的训练次数达到预设次数。

在一种实现方式中，可以利用交叉熵损失函数、所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型。具体地，可以根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，确定交叉熵损失平均值；以及，根据所述交叉熵损失平均值，确定总损失函数值，例如，将所述交叉熵损失平均值作为总损失函数值。

S203：利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果。

在本实施例中，第二交互训练样本可以包括第二历史交互序列和第二历史交互序列对应的真实交互结果。

所述第二历史交互序列包括若干历史交互特征信息。可以理解的是，若干历史交互特征信息按照预设顺序进行排序可以作为第二历史交互序列，例如，若干历史交互特征信息可以按照对应的交互时间进行排序作为第二历史交互序列。举例来说，假设账号A于一个小时内在某电子商务网站中依次浏览了6个商品，具体的浏览顺序为(商品a,商品b,商品c,商品d,商品e,商品f)，并且最后购买了商品f，可以将这些商品、账号A和交互行为“浏览”对应的特征按照交互时间顺序排列成一个时间序列(即历史交互序列)，具体地，第二历史交互序列可以为{(交互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品c的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品d的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品e的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，

(交互对象属性特征：商品f的价格和产品类型；历史交互行为特征：浏览、5购买；交互用户属性特征：账号A对应的位置)}。需要说明的是，第一历史

交互序列与第二历史交互序列可以为相同的，也可以为不相同的。

在一种实现方式中，为了使得推荐模型更好的适应不同用户的个性化需求，每个推荐模型可以针对每个用户进行个性化训练，相应地，每个推荐模型的训

练样本(即第一交互训练样本、第二交互训练样本)均为同个用户的训练样本，0即第一交互训练样本的第一历史交互序列和第二交互训练样本的第二历史交互序列中的每个历史交互特征信息的交互用户属性特征均为相同的。这样，在训练推荐模型的过程中，可以依据不同用户的动态变化，将用户个性化信息融入到向量表达中，可以有效提升推荐模型对应的下游推荐任务的个性化性能。

第二历史交互序列对应的真实交互结果可以理解为第二历史交互序列中的5交互对象对应的真实转化结果，即第二历史交互序列对应的真实交互结果包括第二历史交互序列中的交互对象的真实转化结果，具体地，第二历史交互序列对应的真实交互结果可以包括第二历史交互序列中的全部交互对象的真实转化结果，也可以是部分交互对象的真实转化结果。举例来说，假设账号A于一个

小时内在某电子商务网站中依次浏览了2个商品，第二历史交互序列为{(交0互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览，购买；

交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)}，则第二历史交互序列对应的真实交互结果可以为商品b的转化结果

是未购买，也可以是商品a的转化结果是购买和商品b的转化结果是未购买。5需要说明的是，假设交互对象为商品，则可以基于该用户在与最后一个商品交

互后的一段时间内，若用户对交互商品产生了订购或预约等进一步的行为，这类更进一步的用户行为可以称之为转化；在训练模型时，需要针对用户的交互商品的序列进行转化行为收集，获得用户最终是否在某些商品上进行了转化；模型的训练目标就是在以用户的交互商品序列为输入的情况下，进行用户会在哪些商品上产生实际的转化行为，这样，训练后的推荐模型便可在使用中将高转化可能性的商品推送给用户，从而提高用户对于交互商品的转化率。

第二历史交互序列对应的预测交互结果可以理解为利用调整后的推荐模型预测得到的第二历史交互序列对应的预测交互结果，所述预测交互结果包括交互对象的预测转化结果。具体地，第二历史交互序列对应的预测交互结果可以包括第二历史交互序列中的全部交互对象的预测转化结果，也可以是部分交互对象的预测转化结果。在一种实现方式中，第二历史交互序列对应的预测交互结果可以为预测转化成功概率，可以理解的是，预测转化成功概率越高，说明交互对象被转化成功的可能性越大，反之，预测转化成功概率越低，说明交互对象被转化成功的可能性越小。在另一种实现方式中，交互结果可以使用1和0来代表，其中，1代表该交互对象最终被用户购买或预定(也即用户在该交互对象上发生了转化行为)，0代表该交互对象最终未被用户购买或预定(也即用户在该交互对象上未发生转化行为)。举例来说，假设账号A于一个小时内在某电子商务网站中依次浏览了2个商品，第二历史交互序列为{(交互对象属性特征：商品a的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)，(交互对象属性特征：商品b的价格和产品类型；历史交互行为特征：浏览；交互用户属性特征：账号A对应的位置)}，则第二历史交互序列对应的真实交互结果可以为商品b的转化结果是购买，也可以是商品a的转化结果是购买和商品b的转化结果是购买。

S204：根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。

在得到第二交互训练样本中第二历史交互序列对应的预测交互结果后，可以利用所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果计算损失函数值，若所述损失函数值不满足预设条件，则可以根据损失函数值对所述推荐模型的模型参数进行调整，得到目标推荐模型，继续执行S203，直至所述损失函数值满足预设条件，或者S203的训练次数达到预设次数。

在一种实现方式中，可以利用二分类交叉熵损失函数、所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。具体地，可以根据预测交互结果，以及真实交互结果，确定二分类交叉熵损失值；以及，根据所述二分类交叉熵损失值，确定总损失函数值，例如，将所述二分类交叉熵损失值作为总损失函数值。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例可以先利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息。然后，可以根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型。接着，可以利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息。最后，可以根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。可见，本实施例中，可以先利用第一交互训练样本中第一历史交互序列，使推荐模型可以基于用户交互序列(即第一历史交互序列)进行建模，以便推荐模型可以提取出交互序列中的丰富信息且动态的语义表征信息，从而可以提高推荐模型的推荐精准度；然后，可以利用第二交互训练样本中第二历史交互序列与所述第二历史交互序列对应的真实交互结果，对推荐模型进行调优，以便可以提高推荐模型对于交互结果的评估的精准度。这样，两个阶段训练能在一定程度上起到正则化效果，让推荐模型的优化过程的数值稳定性提升，并且可以能够充分利用海量的用户历史交互序列，充分挖掘不同历史交互特征信息之间潜在的语义关联，且能规避推荐场景中正负样本比例悬殊的问题，这样，便可以提升推荐模型对于推荐对象、交互结果的预测评估的训练的精度，从而可以进一步提升推荐模型在稀疏推荐场景中的泛化性能，以及，可以提升推荐模型对于推荐对象、交互结果的预测评估的精确度，进而可以提高推荐对象的转化率以及用户体验。

在一些实施例中，推荐模型包括神经网络编码器和神经网络解码器；S201“利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息”的步骤，可以包括以下步骤：

S201a：将所述第一交互训练样本中第一历史交互序列输入所述神经网络编码器，得到所述第一历史交互序列中每个历史交互特征信息各自分别对应的编码表征特征。

在本实施例中，可以先将第一交互训练样本中的第一历史交互序列输入神经网络编码器。然后，神经网络编码器输出第一历史交互序列中每个历史交互特征信息各自分别对应的编码表征特征。其中，历史交互特征信息对应的编码表征特征可以为低维度稠密表征向量。需要说明的是，第一历史交互序列中的若干历史交互特征信息的排序不同，第一历史交互序列对应的编码表征特征也会不同的，从而更好的适应不同用户的个性化需求。

以图3为例，可以将第一历史交互序列{(U0,I0,P0),(U1,I1,P1)，(U2,I2,P2)}输入推荐模型中的神经网络编码器，得到历史交互特征信息(U0,I0,P0)对应的编码表征特征E0、历史交互特征信息(U1,I1,P1)对应的编码表征特征E1和历史交互特征信息(U2,I2,P2)对应的编码表征特征E2。

S201b：将所述第一历史交互序列中所有历史交互特征信息各自分别对应的编码表征特征输入所述神经网络解码器，得到所述第一历史交互序列对应的第一预测解码表征向量；

S201c：针对第i-1预测解码表征向量，将所述第一历史交互序列中所有历史交互特征信息各自分别对应的编码表征特征，以及所述第一预测解码表征向量至第i-1预测解码表征向量全部输入所述神经网络解码器，得到第i预测解码表征向量；其中，i为大于1的正整数。

在本实施例中，可以将第一历史交互序列中所有历史交互特征信息各自分别对应的编码表征特征输入所述神经网络解码器，以便神经网络解码器进行自回归式的解码处理，得到第一历史交互序列对应的预测解码表征向量。

以图3为例，将历史交互特征信息(U0,I0,P0)对应的编码表征特征E0、历史交互特征信息(U1,I1,P1)对应的编码表征特征E1和历史交互特征信息(U2,I2,P2)对应的编码表征特征E2输入所述神经网络解码器中，得到第一历史交互序列对应的第一预测解码表征向量D2。然后，将历史交互特征信息(U0,I0,P0)对应的编码表征特征E0、历史交互特征信息(U1,I1,P1)对应的编码表征特征E1、历史交互特征信息(U2,I2,P2)对应的编码表征特征E2和第一预测解码表征向量D2输入所述神经网络解码器中，得到第一历史交互序列对应的第二预测解码表征向量D3。接着，将历史交互特征信息(U0,I0,P0)对应的编码表征特征E0、历史交互特征信息(U1,I1,P1)对应的编码表征特征E1、历史交互特征信息(U2,I2,P2)对应的编码表征特征E2、第一预测解码表征向量D2和第二预测解码表征向量D3输入所述神经网络解码器中，得到第一历史交互序列对应的第三预测解码表征向量D4。

S201d：将所述第i预测解码表征向量分别输入交互对象属性特征分类器、交互行为特征分类器和交互用户属性特征分类器，得到所述预测交互对象属性特征、所述预测交互行为特征和所述预测交互用户属性特征。

在本实施例中，可以在神经网络解码器后接三个分类器(即交互对象属性特征分类器、交互行为特征分类器和交互用户属性特征分类器)，分别用来预测所述预测交互对象属性特征、所述预测交互行为特征和所述预测交互用户属性特征。需要说明的是，在本实施例的一种实现方式中，可以将任意一个预测解码表征向量(比如可以是最后一个预测解码表征向量)输入交互对象属性特征分类器、交互行为特征分类器和交互用户属性特征分类器，也可以是将每一个预测解码表征向量均输入交互对象属性特征分类器、交互行为特征分类器和交互用户属性特征分类器。

以图3为例，假设将第二预测解码表征向量D3分别输入交互对象属性特征分类器、交互行为特征分类器和交互用户属性特征分类器，得到第二预测解码表征向量D3对应的所述预测交互对象属性特征P’3、所述预测交互行为特征I’3和所述预测交互用户属性特征U’3。

在一些实施例中，推荐模型包括神经网络编码器和神经网络解码器；S203“利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果”的步骤，可以包括以下步骤：

S203a：将所述第二交互训练样本中第二历史交互序列输入所述神经网络编码器，得到所述第二历史交互序列中每个历史交互特征信息各自分别对应的编码表征特征。

需要说明的是，第二历史交互序列中的若干历史交互特征信息的排序不同，第二历史交互序列对应的编码表征特征也会不同的，从而更好的适应不同用户的个性化需求。

以图4为例，可以将第二历史交互序列{(U0,I0,P0),(U1,I1,P1)，(U2,I2,P2)，(U3,I3,P3)，(U4,I4,P4)，(U5,I5,P5)}输入推荐模型中的神经网络编码器，得到历史交互特征信息(U0,I0,P0)对应的编码表征特征E0、历史交互特征信息(U1,I1,P1)对应的编码表征特征E1、历史交互特征信息(U2,I2,P2)对应的编码表征特征E2、历史交互特征信息(U3,I3,P3)对应的编码表征特征E3、历史交互特征信息(U4,I4,P4)对应的编码表征特征E4和历史交互特征信息(U5,I5,P5)对应的编码表征特征E5。

S203b：将所述第二历史交互序列中最后一个历史交互特征信息对应的编码表征特征输入交互行为分类器，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果。

需要说明的是，在本实施例的一种实现方式中，可以将任意一个历史交互特征信息对应的编码表征特征(比如可以是最后一个编码表征特征)输入交互行为分类器，也可以是将每一个历史交互特征信息对应的编码表征特征均输入交互行为分类器。在本实施例中对此不限定。

以图4为例，可以将历史交互特征信息(U5,I5,P5)对应的编码表征特征E5输入交互行为分类器器，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果为0.6，即预测转化成功概率为0.6；由于预测转化成功概率大于预设阈值0.5，则可以认为该交互对象最终被用户购买或预定(也即用户在该交互对象上发生了转化行为)，因此，预测交互结果也可以为1，即该交互对象最终被用户购买或预定(也即用户在该交互对象上发生了转化行为)。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的推荐模型的训练装置的示意图。如图5所示，该推荐模型的训练装置包括：

第一预测单元501，用于利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息；

第一调整单元502，用于根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型；

第二预测单元503，用于利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息；

第二调整单元504，用于根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。

可选的，所述历史交互特征信息包括交互对象属性特征、历史交互行为特征和交互用户属性特征。

可选的，所述第一历史交互序列和所述第二历史交互序列中的每个历史交互特征信息的交互用户属性特征均为相同的。

可选的，所述预测交互特征信息包括预测交互对象属性特征、预测交互行为特征和预测交互用户属性特征；

所述真实交互特征信息包括真实交互对象属性特征、真实交互行为特征和真实交互用户属性特征。

可选的，所述推荐模型包括神经网络编码器和神经网络解码器；所述第一预测单元501，具体用于：

将所述第一交互训练样本中第一历史交互序列输入所述神经网络编码器，得到所述第一历史交互序列中每个历史交互特征信息各自分别对应的编码表征特征；

将所述第一历史交互序列中所有历史交互特征信息各自分别对应的编码表征特征输入所述神经网络解码器，得到所述第一历史交互序列对应的第一预测解码表征向量；

针对第i-1预测解码表征向量，将所述第一历史交互序列中所有历史交互特征信息各自分别对应的编码表征特征，以及所述第一预测解码表征向量至第i-1预测解码表征向量全部输入所述神经网络解码器，得到第i预测解码表征向量；其中，i为大于1的正整数；

将所述第i预测解码表征向量分别输入交互对象属性特征分类器、交互行为特征分类器和交互用户属性特征分类器，得到所述预测交互对象属性特征、所述预测交互行为特征和所述预测交互用户属性特征。

可选的，所述第一调整单元502，用于：

利用交叉熵损失函数、所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型。

可选的，所述预测交互结果包括交互对象的预测转化结果；所述真实交互结果包括交互对象的真实转化结果。

可选的，第二预测单元503，用于：

将所述第二交互训练样本中第二历史交互序列输入所述神经网络编码器，得到所述第二历史交互序列中每个历史交互特征信息各自分别对应的编码表征特征；

将所述第二历史交互序列中最后一个历史交互特征信息对应的编码表征特征输入交互行为分类器，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果。

可选的，第二调整单元504，用于：

利用二分类交叉熵损失函数、所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。

本公开实施例与现有技术相比存在的有益效果是：本公开实施例提供了一种推荐模型的训练装置，所述装置包括：第一预测单元，用于利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息；其中，所述第一历史交互序列包括若干历史交互特征信息；第一调整单元，用于根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型；第二预测单元，用于利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果；其中，所述第二历史交互序列包括若干历史交互特征信息；第二调整单元，用于根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型。可见，本实施例中，可以先利用第一交互训练样本中第一历史交互序列，使推荐模型可以基于用户交互序列(即第一历史交互序列)进行建模，以便推荐模型可以提取出交互序列中的丰富信息且动态的语义表征信息，从而可以提高推荐模型的推荐精准度；然后，可以利用第二交互训练样本中第二历史交互序列与所述第二历史交互序列对应的真实交互结果，对推荐模型进行调优，以便可以提高推荐模型对于交互结果的评估的精准度。这样，可以能够充分利用海量的用户历史交互序列，充分挖掘不同历史交互特征信息之间潜在的语义关联，且能规避推荐场景中正负样本比例悬殊的问题，这样，便可以提升推荐模型对于推荐对象、交互结果的预测评估的训练的精度，从而可以进一步提升推荐模型在稀疏推荐场景中的泛化性能，以及，可以提升推荐模型对于推荐对象、交互结果的预测评估的精确度，进而可以提高推荐对象的转化率以及用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图6是本公开实施例提供的计算机设备6的示意图。如图6所示，该实施例的计算机设备6包括：处理器601、存储器602以及存储在该存储器602中并且可以在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块/模块的功能。

示例性地，计算机程序603可以被分割成一个或多个模块/模块，一个或多个模块/模块被存储在存储器602中，并由处理器601执行，以完成本公开。一个或多个模块/模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序603在计算机设备6中的执行过程。

计算机设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算机设备。计算机设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是计算机设备6的示例，并不构成对计算机设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如，计算机设备还可以包括输入输出设备、网络接入设备、总线等。

处理器601可以是中央处理模块(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器602可以是计算机设备6的内部存储模块，例如，计算机设备6的硬盘或内存。存储器602也可以是计算机设备6的外部存储设备，例如，计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器602还可以既包括计算机设备6的内部存储模块也包括外部存储设备。存储器602用于存储计算机程序以及计算机设备所需的其它程序和数据。存储器602还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能模块、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块、模块完成，即将装置的内部结构划分成不同的功能模块或模块，以完成以上描述的全部或者部分功能。实施例中的各功能模块、模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，各功能模块、模块的具体名称也只是为了便于相互区分，并不用于限制本公开的保护范围。上述系统中模块、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

在本公开所提供的实施例中，应该理解到，所揭露的装置/计算机设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算机设备实施例仅仅是示意性的，例如，模块或模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或模块的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块/模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种推荐模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述历史交互特征信息包括交互对象属性特征、历史交互行为特征和交互用户属性特征。

3.根据权利要求2所述的方法，其特征在于，所述第一历史交互序列和所述第二历史交互序列中的每个历史交互特征信息的交互用户属性特征均为相同的。

4.根据权利要求1所述的方法，其特征在于，所述预测交互特征信息包括预测交互对象属性特征、预测交互行为特征和预测交互用户属性特征；

5.根据权利要求4所述的方法，其特征在于，所述推荐模型包括神经网络编码器和神经网络解码器；所述利用推荐模型，得到所述第一交互训练样本中第一历史交互序列对应的预测交互特征信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述预测交互特征信息，以及所述第一交互训练样本中与所述第一历史交互序列对应的真实交互特征信息，对所述推荐模型的模型参数进行调整，得到调整后的推荐模型，包括：

7.根据权利要求1所述的方法，其特征在于，所述预测交互结果包括交互对象的预测转化结果；所述真实交互结果包括交互对象的真实转化结果。

8.根据权利要求7所述的方法，其特征在于，所述推荐模型包括神经网络编码器；所述利用所述调整后的推荐模型，得到所述第二交互训练样本中第二历史交互序列对应的预测交互结果，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述预测交互结果，以及所述第二交互训练样本中与所述第二历史交互序列对应的真实交互结果，对所述调整后的推荐模型的模型参数进行调整，得到目标推荐模型，包括：

10.一种推荐模型的训练装置，其特征在于，所述装置包括：

11.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。