CN117951385A

CN117951385A - 对象推荐模型训练方法、装置、电子设备及可读存储介质

Info

Publication number: CN117951385A
Application number: CN202410261103.7A
Authority: CN
Inventors: 闫培; 杜梦雪
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-04-30

Abstract

本公开涉及推荐系统技术领域，提供了一种对象推荐模型训练方法、装置、电子设备及可读存储介质。该方法包括：将各个第一训练样本输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量；对各个第一训练样本的初始特征向量和各个第一训练样本的初始增强特征向量进行非线性变换，得到各个第一训练样本的特征向量和各个第一训练样本的增强特征向量；基于各个第一训练样本的特征向量对各个第一训练样本中第一训练对象进行概率预测，得到各个第一训练用户对于各个第一训练对象的预测行为概率；基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值；根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数，结合监督学习和自监督学习，解决现有技术中推荐不准确的问题，提高对象推荐模型的准确性。

Description

对象推荐模型训练方法、装置、电子设备及可读存储介质

技术领域

本公开涉及推荐系统技术领域，尤其涉及一种对象推荐模型训练方法、装置、电子设备及可读存储介质。

背景技术

推荐系统在电子商务和广告等各种在线服务中发挥着至关重要的作用，它可以帮助用户找到与其兴趣相匹配的对象。转化率预测是推荐系统中的一个重要任务，它指的是预测用户在点击对象后是否会进行转化行为。现有的转化率预测方法通常基于监督的深度神经网络模型，需要大量的标注数据进行训练。然而，现有的转化率预测方法通常忽略了对象和用户之间的相似性和差异性，以及用户的长期和短期兴趣，这些都容易造成对用户数据以及对象数据训练不充分，转化率预估不准确，从而导致推荐系统的推荐不准确的发生。

发明内容

有鉴于此，本公开实施例提供了一种对象推荐模型训练方法、装置、电子设备及可读存储介质，以解决现有技术中推荐不准确的问题。

本公开实施例的第一方面，提供了一种对象推荐模型训练方法，包括：获取第一训练集，第一训练集包括多个第一训练样本和各个第一训练样本的标签，各个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，标签用于表示第一训练样本中用户对第一训练对象的行为结果；将各个第一训练样本输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量；对各个第一训练样本的初始特征向量进行非线性变换，得到各个第一训练样本的特征向量，以及对各个第一训练样本的初始增强特征向量进行非线性变换，得到各个第一训练样本的增强特征向量；基于各个第一训练样本的特征向量对各个第一训练样本中第一训练对象进行概率预测，得到各个第一训练用户对于各个第一训练对象的预测行为概率；基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值；根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数。

本公开实施例的第二方面，提供了一种对象推荐模型训练装置，包括：获取模块，用于获取第一训练集，第一训练集包括多个第一训练样本和各个第一训练样本的标签，各个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，标签用于表示第一训练样本中用户对第一训练对象的行为结果；向量表征模块，用于将各个第一训练样本输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量；非线性变换模块，用于对各个第一训练样本的初始特征向量进行非线性变换，得到各个第一训练样本的特征向量，以及对各个第一训练样本的初始增强特征向量进行非线性变换，得到各个第一训练样本的增强特征向量；概率预测模块，用于基于各个第一训练样本的特征向量对各个第一训练样本中第一训练对象进行概率预测，得到各个第一训练用户对于各个第一训练对象的预测行为概率；第一损失计算模块，用于基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；第二损失计算模块，用于基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值；更新模块，用于根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数。

本公开实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本公开实施例的第四方面，提供了一种可读存储介质，该可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本公开实施例与现有技术相比存在的有益效果是：通过获取第一训练集，第一训练集包含多个第一训练样本和各个第一训练样本对应的标签，每个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，数据描述了用户和对象的属性和特征，标签用于表示各个第一训练用户对各个第一训练对象的行为结果，行为可以是购买。将各个第一训练样本输入对象推荐模型进行向量表征，将各个第一训练对象特征数据和各个第一训练用户特征数据转换为对象推荐模型可以处理的向量形式，得到各个第一训练样本的初始特征向量。根据各个第一训练样本的初始特征向量，对各个第一训练样本的初始特征向量进行随机掩码处理，随机遮盖部分特征，得到对应的多个第一训练样本的初始增强特征向量。对各个第一训练样本的初始特征向量进行非线性变换，学习复杂的函数关系，通过多层非线性变换提取特征之间的深层次信息，得到各个第一训练样本的特征向量。对各个第一训练样本的初始增强特征向量进行非线性变换，学习复杂的函数关系，通过多层非线性变换提取特征之间的深层次信息，得到各个第一训练样本的增强特征向量。在非线性变换的过程中，捕捉到用户和对象之间的非线性关系，从而提升对象推荐模型的预测能力。基于各个第一训练样本的特征向量，对象推荐模型对各个第一训练对象进行概率预测，输出各个第一训练用户对于各个第一训练对象的预测行为概率，表示各个第一训练用户在给定情况下对各个第一训练对象采取上述行为的可能性。通过二元交叉熵损失函数计算预测行为概率与真实标签之间的差异，得到第一损失值。基于各个第一训练样本的增强特征向量和特征向量，使用对比损失函数计算第二损失值，增强对象推荐模型的泛化性。通过比较同一训练样本的不同增强表示，对象推荐模型可以学习到更鲁棒和通用的特征表示，有助于提升对象推荐模型的性能。结合第一损失值和第二损失值进行反向传播，同时采用监督学习和自监督学习的信息更新对象推荐模型的参数，通过反向传播算法，计算出损失函数关于参数的梯度，并使用优化算法(例如梯度下降)更新对象推荐模型的参数，从而逐步减小损失函数的值，提高对象推荐模型的性能，最终得到训练完成的对象推荐模型。本公开的对象推荐模型的训练方法结合了监督学习和自监督学习，通过深度神经网络对各个第一训练样本的特征进行非线性变换，学习得到更好的数据表示，并引入掩码处理和对比损失函数来提升对象推荐模型的泛化能力和表示学习的质量，解决现有技术中推荐不准确的问题，提高对象推荐模型的准确性。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本公开实施例的应用场景的场景示意图；

图2是本公开实施例提供的一种对象推荐模型训练方法的流程示意图；

图3是本公开实施例提供的另一种对象推荐模型训练方法的流程示意图；

图4是本公开实施例提供的再一种对象推荐模型训练方法的流程示意图；

图5是本公开实施例提供的一种对象推荐模型训练装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本公开实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本公开的描述。

需要说明的是，本公开所涉及的用户信息(包括但不限于终端设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

下面将结合附图详细说明根据本公开实施例的一种对象推荐模型训练方法和装置。

图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备1、2和3为软件时，其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本公开实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本公开实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本公开实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙(Bluetooth)、近场通信(Near FieldCommunication，NFC)、红外(Infrared)等，本公开实施例对此不作限制。

用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接，以接收或发送信息等。具体地，服务器4获取第一训练集，第一训练集包括多个第一训练样本和各个第一训练样本的标签，各个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，标签用于表示第一训练样本中用户对第一训练对象的行为结果；将各个第一训练样本输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量；对各个第一训练样本的初始特征向量进行非线性变换，得到各个第一训练样本的特征向量，以及对各个第一训练样本的初始增强特征向量进行非线性变换，得到各个第一训练样本的增强特征向量；基于各个第一训练样本的特征向量对各个第一训练样本中第一训练对象进行概率预测，得到各个第一训练用户对于各个第一训练对象的预测行为概率；基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值；根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本公开实施例对此不作限制。

图2是本公开实施例提供的一种对象推荐模型训练方法的流程示意图。图2的对象推荐模型训练方法可以由图1的服务器执行。如图2所示，该对象推荐模型训练方法包括：

步骤201，获取第一训练集，第一训练集包括多个第一训练样本和各个第一训练样本的标签，各个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，标签用于表示第一训练样本中用户对第一训练对象的行为结果。

在一些实施例中，本公开的对象推荐方法可以应用在多种平台的推荐系统，也可以应用于在线广告系统。获取第一训练集在对象推荐模型的训练过程中起着至关重要的作用。在深度学习中，对象推荐模型的性能和准确性很大程度上受第一训练集的数据的质量和数量的影响。第一训练集提供了对象推荐模型学习的基础数据，使得对象推荐模型能够从第一训练集中提取有用的信息和模式。第一训练集包含了一系列对象推荐相关的样本数据，这些样本数据为用户特征和对象特征以及用户对对象的交互行为。本公开的对象推荐模型可以应用于在线广告系统。具体地，第一训练对象特征数据可以为广告的属性、类别、类别、投放时间等，第一训练对象特征数据帮助对象推荐模型理解广告的特点，从而更准确地预测用户对广告的可能反应。第一训练用户特征数据可以为与广告交互的用户的各种属性和行为，可以包括用户的个人信息(例如年龄、性别、地理位置等)、用户的购买历史、用户对类似广告的过去反应等。第一训练用户特征数据对于个性化对象推荐至关重要，可以帮助对象推荐模型捕捉用户的兴趣和偏好。在广告推荐中，第一训练样本中用户对第一训练对象的行为结果可以是购买行为的结果，已购买的结果是“1”，未购买的结果是“0”。各个第一训练样本的标签可以作为监督学习的指导信号，有助于对象推荐模型学习从用户和广告特征到用户行为的映射关系。获取包含多个第一训练样本和多个第一训练样本的标签的第一训练集，对于训练准确、有效的对象推荐模型至关重要，第一训练集为对象推荐模型提供学习的基础，有助于模型理解用户与对象之间的交互关系，从而实现更精准的对象推荐。

步骤202，将各个第一训练样本特征数据输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量。

在一些实施例中，第一训练样本特征数据包括第一训练样本离散特征和第一训练样本连续特征，第一训练样本离散特征可以为类别类特征，第一训练样本连续特征可以为文本特征、图像特征等。可以通过嵌入层或者嵌入矩阵将各个第一训练样本特征数据进行向量表征，各个第一训练样本特征数据可以被映射到一个向量空间中的一点，即对应的各个第一训练样本的初始特征向量，上述向量空间是对象推荐模型在训练过程中学习得到。将各个第一训练样本特征数据输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，可以捕捉各个第一训练样本特征数据之间的关系和模式。各个第一训练样本的初始特征向量为对象推荐模型学习的基础，包含了原始特征数据的关键信息，有助于对象推荐模型对原始特征数据进行有效的处理和分析。可以采用Dropout的方法对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量。掩码处理可以突出对预测结果有重要影响的特征，以使得对象推荐模型在训练过程中更加关注这些特征，有助于提升对象推荐模型的性能。将各个第一训练样本的特征数据输入对象推荐模型进行向量表征，并对初始特征向量进行掩码处理，是对象推荐模型训练过程中的重要步骤，有助于对象推荐模型更好地理解和利用特征数据，提高对象推荐模型的预测精度和性能。

步骤203，对各个第一训练样本的初始特征向量进行非线性变换，得到各个第一训练样本的特征向量，以及对各个第一训练样本的初始增强特征向量进行非线性变换，得到各个第一训练样本的增强特征向量。

在一些实施例中，对象推荐模型包括第一深度学习模型和第二深度学习模型。将各个第一训练样本的初始特征向量输入第一深度神经网络进行非线性变换，深度神经网络具有强大的特征提取和表示学习能力，通过多层的非线性变换，可以从初始特征向量中提取出更加抽象、高级的特征表示，得到各个第一训练样本的特征向量，各个第一训练样本的特征向量能够更好地表示特征数据的内在结构和模式，使得对象推荐模型在后续概率预测任务中能够取得更好的性能。将各个第一训练样本的初始增强特征向量输入第二深度神经网络进行非线性变换，利用深度神经网络的特征提取和表示学习能力，通过多层的非线性变换，可以从初始增强特征向量中提取出更加抽象、高级的特征表示，得到各个第一训练样本的增强特征向量，对象推荐模型可以更加专注于学习那些对预测结果有重要影响的特征，使得对象推荐模型在后续概率预测任务中能够取得更好的性能。第一深度神经网络和第二深度神经网络通过逐层学习不同级别的特征表示，有助于提高模型的泛化能力。

步骤204，基于各个第一训练样本的特征向量对各个第一训练样本中第一训练对象进行概率预测，得到各个第一训练用户对于各个第一训练对象的预测行为概率。

在一些实施例中，对象推荐模型还包括第一逻辑回归层。将各个第一训练样本的特征向量输入第一逻辑回归层进行逻辑回归的变换，对各个第一训练样本中第一训练对象进行概率预测，包括：对各个第一训练样本的特征向量进行线性变换，通过计算各个第一训练样本的特征向量与权重矩阵的乘积，并加上一个偏置项，这个线性变换可以表示为：z＝w^T*x+b

其中z是线性变换后的输出，w是权重矩阵，x是输入的第一训练样本的特征向量，b是偏置项，T表示对权重矩阵w进行转置。将线性变换的输出z通过sigmoid函数进行非线性变换，将其映射到0和1之间，从而得到各个第一训练用户对于各个第一训练对象的预测行为概率。预测行为概率可以表示对象推荐模型对于第一训练用户将对对应的第一训练对象执行特定行为的信心程度，若预测概率接近1，对象推荐模型认为该第一训练用户很可能会执行该行为。

步骤205，基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值。

在一些实施例中，二元交叉熵损失函数可以用于衡量对象推荐模型预测结果与实际标签之间的差异。基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，可以计算第一训练集上的二元交叉熵损失函数值，即第一损失值。第一损失值反映了对象推荐模型的预测结果与实际标签之间的平均差异。第一损失值越小，表明对象推荐模型预测越准确。第一损失值在对象推荐模型训练过程中起着十分重要的作用，可以用于评估对象推荐模型在当前参数下的性能，并指导对象推荐模型参数的更新方向。

步骤206，基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值。

在一些实施例中，对象推荐模型还包括对比学习层，将各个第一训练样本的增强特征向量和各个第一训练样本的特征向量输入对比学习层，可以将每个第一训练样本的特征向量视为锚点，而对应的第一训练样本的增强特征向量作为正例，同时可以从其他第一训练样本中随机选择增强特征向量作为负例，得到对比损失函数对应的第二损失值。对比损失函数鼓励对象推荐模型学习使得锚点和正例在特征空间中彼此接近，而锚点和负例在特征空间中彼此远离。第二损失值反映了对象推荐模型在区分第一训练样本的增强特征向量和第一训练样本的特征向量以及与其他第一训练样本的增强特征向量方面的性能。在训练的过程中减小第二损失值，对象推荐模型可以学习到更加有效的特征表示，提高对象推荐的准确性。

步骤207，根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数。

在一些实施例中，在训练对象推荐模型的过程中结合第一损失值和第二损失值，以共同指导对象推荐模型参数的更新。第一损失值关注对象推荐模型预测概率与实际标签之间的匹配程度，第二损失值关注对象推荐模型在特征空间中对不同对象的区分能力。结合第一损失值和第二损失值，有助于对象推荐模型在预测准确性和特征表示学习方面都得到优化。将第一损失值和第二损失值进行加权求和，可以得到联合损失值，并计算联合损失值对于对象推荐模型的参数的梯度，逐层更新每个参数的梯度，并基于每个参数的梯度使用优化算法更新对象推荐模型的参数。通过多次迭代，对象推荐模型参数会逐渐低于预设值，从而提高对象推荐模型的预测性能。

通过本公开对象推荐模型的训练方法，通过获取第一训练集，第一训练集包含多个第一训练样本和各个第一训练样本对应的标签，每个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，数据描述了用户和对象的属性和特征，标签用于表示各个第一训练用户对各个第一训练对象的行为结果，行为可以是购买。将各个第一训练样本输入对象推荐模型进行向量表征，将各个第一训练对象特征数据和各个第一训练用户特征数据转换为对象推荐模型可以处理的向量形式，得到各个第一训练样本的初始特征向量。根据各个第一训练样本的初始特征向量，对各个第一训练样本的初始特征向量进行随机掩码处理，随机遮盖部分特征，得到对应的多个第一训练样本的初始增强特征向量。对各个第一训练样本的初始特征向量进行非线性变换，学习复杂的函数关系，通过多层非线性变换提取特征之间的深层次信息，得到各个第一训练样本的特征向量。对各个第一训练样本的初始增强特征向量进行非线性变换，学习复杂的函数关系，通过多层非线性变换提取特征之间的深层次信息，得到各个第一训练样本的增强特征向量。在非线性变换的过程中，捕捉到用户和对象之间的非线性关系，从而提升对象推荐模型的预测能力。基于各个第一训练样本的特征向量，对象推荐模型对各个第一训练对象进行概率预测，输出各个第一训练用户对于各个第一训练对象的预测行为概率，表示各个第一训练用户在给定情况下对各个第一训练对象采取上述行为的可能性。通过二元交叉熵损失函数计算预测行为概率与真实标签之间的差异，得到第一损失值。基于各个第一训练样本的增强特征向量和特征向量，使用对比损失函数计算第二损失值，增强对象推荐模型的泛化性。通过比较同一训练样本的不同增强表示，对象推荐模型可以学习到更鲁棒和通用的特征表示，有助于提升对象推荐模型的性能。结合第一损失值和第二损失值进行反向传播，同时采用监督学习和自监督学习的信息更新对象推荐模型的参数，通过反向传播算法，计算出损失函数关于参数的梯度，并使用优化算法(例如梯度下降)更新对象推荐模型的参数，从而逐步减小损失函数的值，提高对象推荐模型的性能，最终得到训练完成的对象推荐模型。本公开的对象推荐模型的训练方法结合了监督学习和自监督学习，通过深度神经网络对各个第一训练样本的特征进行非线性变换，学习得到更好的数据表示，并引入掩码处理和对比损失函数来提升对象推荐模型的泛化能力和表示学习的质量，解决现有技术中推荐不准确的问题，提高对象推荐模型的准确性。

在一些实施例中，将各个第一训练样本输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，包括：对各个第一训练对象特征数据进行特征嵌入，得到各个第一训练对象的初始特征向量；对各个第一训练用户特征数据进行特征嵌入，得到各个第一训练用户的初始特征向量；对各个第一训练对象的初始特征向量和各个第一训练用户的初始特征向量进行拼接处理，得到各个第一训练样本的初始特征向量。

在一些实施例中，对象推荐模型还包括第一嵌入层、第二嵌入层、第一拼接层。各个第一训练对象特征数据和各个第一训练用户特征数据均包含离散的特征数据和连续的特征数据，将各个第一训练对象特征数据输入第一嵌入层进行特征嵌入，将这些高维特征转换为低维的连续的特征向量，得到各个第一训练对象的初始特征向量，将各个第一训练用户特征数据输入第二嵌入层进行特征嵌入，得到各个第一训练用户的初始特征向量，可以减少计算量，并且有助于对象推荐模型捕捉特征数据之间的差异与关联。将各个第一训练对象的初始特征向量和各个第一训练用户的初始特征向量输入第一拼接层进行拼接处理，将对象和用户的信息结合起来，形成同时包含了对象和用户的信息的综合的特征向量，得到对应的各个第一训练样本的初始特征向量。有助于对象推荐模型可以在一个统一的特征空间中同时考虑这两方面的信息。通过特征嵌入和拼接处理，可以更好地捕捉和利用对象和用户之间的关联和差异，从而提高推荐以及预测的准确性，同时还可以降低计算复杂性，减少过拟合的风险，以使得模型更容易训练和优化。

在一些实施例中，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量，包括：对各个第一训练对象的初始特征向量进行掩码处理，得到各个第一训练对象的初始增强特征向量；对各个第一训练用户的初始特征向量进行掩码处理，得到各个第一训练用户的初始增强特征向量；对各个第一训练对象的初始增强特征向量和各个第一训练用户的初始增强特征向量进行拼接处理，得到各个第一训练样本的初始增强特征向量。

在一些实施例中，对象推荐模型还包括第一掩码层、第二掩码层和第二拼接层。将各个第一训练对象的初始特征向量输入第一掩码层进行掩码处理，得到各个第一训练对象的初始增强特征向量。将各个第一训练用户的初始特征向量输入第二掩码层进行掩码处理，得到各个第一训练用户的初始增强特征向量。通过掩码处理可以引入噪声或变化来防止对象推荐模型过拟合，同时有助于对象推荐模型选择更加重要的特征。通过掩码处理，对象推荐模型可以学习到在部分信息缺失或变化时仍然能够保持性能的能力，从而提高对象推荐模型的鲁棒性。掩码处理的方法可以包括随机掩码、序列掩码、基于注意力机制的掩码等。将各个第一训练对象的初始增强特征向量和各个第一训练用户的初始增强特征向量输入第二拼接层进行拼接处理，得到对应的各个第一训练样本的初始增强特征向量，可以得到更加全面和准确的表示，从而提高推荐或预测的准确性。

在一些实施例中，根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数，包括：对第一损失值和第二损失值进行加权计算，得到联合损失值；基于联合损失值进行反向传播，更新对象推荐模型的参数；在联合损失值小于等于预设值，得到训练完成的对象推荐模型。

在一些实施例中，对象推荐模型还包括联合优化层。上述预设值本公开不作限制，根据具体实际情况进行设置。在训练通过调整第一损失值和第二损失值的权重，可以改变对象推荐模型优化的重点。通过将第一损失值和第二损失值输入联合优化层，对第一损失值和第二损失值进行加权组合，有助于对象推荐模型在训练过程中同时预测准确性和提高向量表征能力。第一损失值关注对象推荐模型预测概率与实际标签之间的匹配程度，第二损失值关注对象推荐模型在特征空间中对不同对象的区分能力。通过联合损失值进行反向传播，可以确保对象推荐模型参数更新的方向是同时减少第一损失值和第二损失值，从而实现多个目标的协同优化。通过设置预设值控制训练停止的条件，可以平衡对象推荐模型的性能、训练时间和泛化能力，有助于提高对象推荐模型的准确性和鲁棒性。

在一些实施例中，基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值，包括：选取第一训练集中任意一个训练样本为第一样本，将第一训练集中其他训练样本确定为第二样本；将第一样本的增强特征向量和第一样本的特征向量进行相乘，得到第一乘积结果；将第一样本的特征向量和各个第二样本的增强特征向量进行相乘，得到各个第二乘积结果，并将各个第二乘积结果相加，得到第二乘积结果和；基于第一乘积结果和第二乘积结果和，计算得到第二损失值。

在一些实施例中，在对象推荐模型的训练中，使用对比损失函数有助于学习得到相同样本的特征表示接近，而不同样本的特征表示距离相对远，即第一样本的增强特征向量和第一样本的特征向量在特征空间内距离近，第一样本的特征向量和其他各个第二样本的增强特征向量在特征空间内距离远。将第一样本的增强特征向量和第一样本的特征向量进行点积相乘，得到第一乘积结果。第一乘积结果可以衡量同一样本两种不同表示之间的相似度。将第一样本的特征向量与每个第二样本的增强特征向量进行相乘，得到各个第二乘积结果，并将这些第二乘积结果相加，得到第二乘积结果和。第二乘积结果和可以衡量第一样本与所有其他样本之间的不相似度。基于第一乘积结果和第二乘积结果和，计算得到第二损失值。对比损失函数的参数是一个温度系数(Temperature Coefficient，TC)，TC的值可以根据实际情况调整。通过对比损失函数和相应的第二损失值计算，对象推荐模型可以学习到更加区分性和泛化能力强的特征表示，进而改善对象推荐系统的推荐效果。

在一些实施例中，获取第一训练集之前还包括：获取第二训练集，第二训练集包括多个第二训练样本和各个第二训练样本的标签，各个第二训练样本包括第二训练对象特征数据和第二训练用户特征数据，标签用于表示第二训练样本中用户对第二训练对象的第一行为结果和用户对第二训练对象的第二行为结果；将各个第二训练样本输入对象推荐模型进行向量表征，得到各个第二训练样本的初始特征向量，并对各个第二训练样本的初始特征向量进行掩码处理，得到各个第二训练样本的初始增强特征向量；对各个第二训练样本的初始特征向量进行非线性变换，得到各个第二训练样本的特征向量，以及对各个第二训练样本的初始增强特征向量进行非线性变换，得到各个第二训练样本的增强特征向量；基于各个第二训练样本的特征向量对各个第二训练样本中第二训练对象进行概率预测，得到各个第二训练用户对于各个第二训练对象的第一行为预测概率和各个第二训练对象的第二行为预测概率；基于各个第二训练对象的第一行为预测概率和各个用户对第二训练对象的第一行为结果，得到二元交叉熵损失函数对应的第三损失值；基于各个第二训练对象的第二行为预测概率和各个用户对第二训练对象的第二行为结果，得到二元交叉熵损失函数对应的第四损失值；基于各个第二训练样本的增强特征向量和各个第二训练样本的特征向量，得到对比损失函数对应的第五损失值；根据第三损失值、第四损失值和第五损失值进行反向传播，更新对象推荐模型的参数。

在一些实施例中，第二训练集提供了第二训练用户对于第二训练对象的两种不同行为结果的数据。第二训练集用于训练对象推荐模型，使其能够预测用户对对象的两种不同行为的概率，两种不同行为可以为购买行为和点击行为。与第一训练集的处理方式相同，对第二训练集也进行向量表征和掩码处理，将原始特征数据转换为向量形式，并引入噪声或隐藏部分信息，可以增强对象推荐模型的鲁棒性和泛化能力。通过对各个第二训练样本的初始特征向量和各个第二训练样本的初始增强特征向量进行非线性变换，可以捕捉数据之间复杂的非线性关系，从而更加准确地表示和预测用户的不同行为。基于各个第二训练样本的特征向量对第二训练样本中的各个第二训练对象进行概率预测，包括预测各个第二训练用户对于各个第二训练对象的第一行为预测概率和各个第二训练用户对于各个第二训练对象的第二行为预测概率。第一行为预测概率和第二行为预测概率是对象推荐模型优化的目标。基于各个第二训练对象的第一行为预测概率和实际的第一行为结果，计算二元交叉熵损失函数对应的第三损失值。第三损失值可以衡量对象推荐模型在预测用户第一种行为上的准确性。基于各个第二训练对象的第二行为预测概率和实际的第二行为结果，计算二元交叉熵损失函数对应的第四损失值，第四损失值可以衡量对象推荐模型在预测用户第二种行为上的准确性。基于各个第二训练样本的增强特征向量和各个第二训练样本的特征向量，计算对比损失函数对应的第五损失值，第五损失值鼓励对象推荐模型学习更加区分性的特征表示。根据第三损失值、第四损失值和第五损失值进行反向传播，更新对象推荐模型的参数，在训练过程降低所有损失函数的值，从而优化模型的预测性能。通过同时考虑用户的不同行为结果和特征表示的区分性，对象推荐模型可以更好地理解和预测用户的行为，提高推荐的准确性。通过使用第二训练集，引入了对用户两种不同行为结果的预测和相应的损失计算，进一步优化和调整了对象推荐模型的参数，有助于提高对象推荐模型在预测用户不同行为上的准确性和泛化能力。

在一些实施例中，得到训练完成的对象推荐模型之后，还包括：获取用户特征数据和候选对象特征数据集合，候选对象特征数据集合包括多个候选对象特征数据；对用户特征数据进行特征嵌入，得到用户的初始特征向量，以及对各个候选对象特征数据进行特征嵌入，得到各个候选对象的初始特征向量；对用户的初始特征向量和各个候选对象的初始特征向量分别进行拼接，得到对应的多个初始融合特征向量；对各个初始融合特征向量进行非线性变换，得到多个融合特征向量；基于各个融合特征向量对各个候选对象进行概率预测，得到各个候选对象的预测概率；基于各个候选对象的预测概率，从候选对象特征数据集合中选取向用户推荐的目标对象。

在一些实施例中，本公开的对象推荐方法可以应用于在线广告推荐系统。用户特征数据可以为年龄、性别、兴趣、历史行为等，候选对象特征数据可以为广告的价格、类别、流行度、图像特征、文本特征等等。对用户特征数据进行特征嵌入，得到用户的初始特征向量，以及对各个候选对象特征数据进行特征嵌入，得到各个候选对象的初始特征向量，将用户特征数据和各个候选对象特征数据转换为固定长度的向量表示，有助于对象推荐模型可以更有效地处理和理解这些数据。在嵌入过程可以捕捉特征之间的复杂关系，并将高维数据降维到适合对象推荐模型处理的维度。将用户的初始特征向量与各个候选对象的初始特征向量进行拼接，可以组合用户和对象的信息，形成更丰富的表示，得到对应的多个初始融合特征向量，有助于对象推荐模型捕捉用户和对象之间的交互和关系。将各个初始融合特征向量输入第一深度神经网络进行非线性变换，得到多个融合特征向量，可以捕捉复杂的数据模式并提高推荐的准确性。将各个融合特征向量输入第一逻辑回归层对各个候选对象进行概率预测，得到各个候选对象的预测概率，预测概率可以表示用户对该候选对象的行为可能性。基于各个候选对象的预测概率，会从候选对象特征数据集合中选取最有可能吸引用户的候选对象作为推荐目标。结合用户特征数据和候选对象特征数据，通过对象推荐模型的学习和预测，为用户推荐最相关、最符合其兴趣和需求的对象。有助于提供高质量、个性化的推荐服务。

参考图3，对象推荐模型可以包括第一嵌入层301、第二嵌入层302、第一拼接层303、第一深度神经网络304、第一逻辑回归层305。将各个候选对象特征数据输入第一嵌入层301进行特征嵌入，得到各个候选对象的初始特征向量，以及将用户特征数据输入第二嵌入层302进行特征嵌入，得到用户的初始特征向量。将用户的初始特征向量和各个候选对象的初始特征向量输入第一拼接层303分别进行拼接，得到对应的多个初始融合特征向量；将各个初始融合特征向量输入第一深度神经网络304进行非线性变换，得到多个融合特征向量；将各个融合特征向量输入第一逻辑回归层305对各个候选对象进行概率预测，得到各个候选对象的预测概率。基于各个候选对象的预测概率，从候选对象特征数据集合中选取向用户推荐的目标对象。结合用户特征数据和候选对象特征数据，通过对象推荐模型的学习和预测，为用户推荐最相关、最符合其兴趣和需求的对象，提高推荐的准确性，提供高质量、个性化的推荐服务。

参考图4，对象推荐模型的训练过程还包括第一掩码层401、第二掩码层02、第二拼接层403、第二深度神经网络404、第一损失计算模块405、对比学习层406、联合优化层407。将第一训练对象特征数据输入第一嵌入层301进行特征嵌入，得到第一训练对象的初始特征向量，将各个第一训练用户的特征数据输入第二嵌入层302进行特征嵌入，得到第一训练用户的初始特征向量。将第一训练对象的初始特征向量和第一训练用户的初始特征向量输入第一拼接层303进行拼接处理，得到对应的第一训练样本的初始特征向量。将第一训练对象的初始特征向量输入第一掩码层401进行掩码处理，得到第一训练对象的初始增强特征向量。将第一训练用户的初始特征向量输入第二掩码层402进行掩码处理，得到第一训练用户的初始增强特征向量。将第一训练对象的初始增强特征向量和第一训练用户的初始增强特征向量输入第二拼接层403进行拼接处理，得到对应的第一训练样本的初始增强特征向量。将第一训练样本的初始特征向量输入第一深度神经网络304进行非线性变换，得到第一训练样本的特征向量，将第一训练样本的初始增强特征向量输入第二深度神经网络404进行非线性变换，得到第一训练样本的增强特征向量。将第一训练样本的特征向量输入第一逻辑回归层进行逻辑回归的变换，对第一训练样本中第一训练对象进行概率预测，得到第一训练用户对于各个第一训练对象的预测行为概率。将第一训练集中各个第一训练样本输入对象推荐模型，得到各个第一训练用户对于各个第一训练对象的预测行为概率。将各个第一训练对象的预测行为概率输入第一损失计算模块405，基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值。将各个第一训练样本的增强特征向量和各个第一训练样本的特征向量输入对比学习层406，可以将每个第一训练样本的特征向量视为锚点，而对应的第一训练样本的增强特征向量作为正例，同时可以从其他第一训练样本中随机选择增强特征向量作为负例，得到对比损失函数对应的第二损失值。将第二损失值和第一损失值输入联合优化层407，根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数。本公开的对象推荐模型的训练方法结合了监督学习和自监督学习，通过深度神经网络对各个第一训练样本的特征进行非线性变换，学习得到更好的数据表示，并引入掩码处理和对比损失函数来提升对象推荐模型的泛化能力和表示学习的质量，解决现有技术中推荐不准确的问题，提高对象推荐模型的准确性。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是本公开实施例提供的一种对象推荐模型训练装置的示意图。如图5所示，该对象推荐模型训练装置包括：

获取模块501，用于获取第一训练集，第一训练集包括多个第一训练样本和各个第一训练样本的标签，各个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，标签用于表示第一训练样本中用户对第一训练对象的行为结果；

向量表征模块502，用于将各个第一训练样本输入对象推荐模型进行向量表征，得到各个第一训练样本的初始特征向量，并对各个第一训练样本的初始特征向量进行掩码处理，得到各个第一训练样本的初始增强特征向量；

非线性变换模块503，用于对各个第一训练样本的初始特征向量进行非线性变换，得到各个第一训练样本的特征向量，以及对各个第一训练样本的初始增强特征向量进行非线性变换，得到各个第一训练样本的增强特征向量；

概率预测模块504，用于基于各个第一训练样本的特征向量对各个第一训练样本中第一训练对象进行概率预测，得到各个第一训练用户对于各个第一训练对象的预测行为概率；

第一损失计算模块505，用于基于各个第一训练对象的预测行为概率和各个第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；

第二损失计算模块506，用于基于各个第一训练样本的增强特征向量和各个第一训练样本的特征向量，得到对比损失函数对应的第二损失值；

更新模块507，用于根据第一损失值和第二损失值进行反向传播，更新对象推荐模型的参数。

根据本公开实施例提供的技术方案，通过获取第一训练集，第一训练集包含多个第一训练样本和各个第一训练样本对应的标签，每个第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，数据描述了用户和对象的属性和特征，标签用于表示各个第一训练用户对各个第一训练对象的行为结果，行为可以是购买。将各个第一训练样本输入对象推荐模型进行向量表征，将各个第一训练对象特征数据和各个第一训练用户特征数据转换为对象推荐模型可以处理的向量形式，得到各个第一训练样本的初始特征向量。根据各个第一训练样本的初始特征向量，对各个第一训练样本的初始特征向量进行随机掩码处理，随机遮盖部分特征，得到对应的多个第一训练样本的初始增强特征向量。对各个第一训练样本的初始特征向量进行非线性变换，学习复杂的函数关系，通过多层非线性变换提取特征之间的深层次信息，得到各个第一训练样本的特征向量。对各个第一训练样本的初始增强特征向量进行非线性变换，学习复杂的函数关系，通过多层非线性变换提取特征之间的深层次信息，得到各个第一训练样本的增强特征向量。在非线性变换的过程中，捕捉到用户和对象之间的非线性关系，从而提升对象推荐模型的预测能力。基于各个第一训练样本的特征向量，对象推荐模型对各个第一训练对象进行概率预测，输出各个第一训练用户对于各个第一训练对象的预测行为概率，表示各个第一训练用户在给定情况下对各个第一训练对象采取上述行为的可能性。通过二元交叉熵损失函数计算预测行为概率与真实标签之间的差异，得到第一损失值。基于各个第一训练样本的增强特征向量和特征向量，使用对比损失函数计算第二损失值，增强对象推荐模型的泛化性。通过比较同一训练样本的不同增强表示，对象推荐模型可以学习到更鲁棒和通用的特征表示，有助于提升对象推荐模型的性能。结合第一损失值和第二损失值进行反向传播，同时采用监督学习和自监督学习的信息更新对象推荐模型的参数，通过反向传播算法，计算出损失函数关于参数的梯度，并使用优化算法(例如梯度下降)更新对象推荐模型的参数，从而逐步减小损失函数的值，提高对象推荐模型的性能，最终得到训练完成的对象推荐模型。本公开的对象推荐模型的训练方法结合了监督学习和自监督学习，通过深度神经网络对各个第一训练样本的特征进行非线性变换，学习得到更好的数据表示，并引入掩码处理和对比损失函数来提升对象推荐模型的泛化能力和表示学习的质量，解决现有技术中推荐不准确的问题，提高对象推荐模型的准确性。

在一些实施例中，向量表征模块502被配置为对各个第一训练对象特征数据进行特征嵌入，得到各个第一训练对象的初始特征向量；对各个第一训练用户特征数据进行特征嵌入，得到各个第一训练用户的初始特征向量；对各个第一训练对象的初始特征向量和各个第一训练用户的初始特征向量进行拼接处理，得到各个第一训练样本的初始特征向量。

在一些实施例中，向量表征模块502被配置为对各个第一训练对象的初始特征向量进行掩码处理，得到各个第一训练对象的初始增强特征向量；对各个第一训练用户的初始特征向量进行掩码处理，得到各个第一训练用户的初始增强特征向量；对各个第一训练对象的初始增强特征向量和各个第一训练用户的初始增强特征向量进行拼接处理，得到各个第一训练样本的初始增强特征向量。

在一些实施例中，更新模块507被配置为对第一损失值和第二损失值进行加权计算，得到联合损失值；基于联合损失值进行方向传播，更新对象推荐模型的参数；在联合损失值小于等于预设值，得到训练完成的对象推荐模型。

在一些实施例中，第二损失计算模块506被配置为选取第一训练集中任意一个训练样本为第一样本，将第一训练集中其他训练样本确定为第二样本；将第一样本的增强特征向量和第一样本的特征向量进行相乘，得到第一乘积结果；将第一样本的特征向量和各个第二样本的增强特征向量进行相乘，得到各个第二乘积结果，并将各个第二乘积结果相加，得到第二乘积结果和；基于第一乘积结果和第二乘积结果和，计算得到第二损失值，

在一些实施例中，获取训练集之前，对象推荐模型训练装置被配置为获取第二训练集，第二训练集包括多个第二训练样本和各个第二训练样本的标签，各个第二训练样本包括第二训练对象特征数据和第二训练用户特征数据，标签用于表示第二训练样本中用户对第二训练对象的第一行为结果和用户对第二训练对象的第二行为结果；将各个第二训练样本输入对象推荐模型进行向量表征，得到各个第二训练样本的初始特征向量，并对各个第二训练样本的初始特征向量进行掩码处理，得到各个第二训练样本的初始增强特征向量；对各个第二训练样本的初始特征向量进行非线性变换，得到各个第二训练样本的特征向量，以及对各个第二训练样本的初始增强特征向量进行非线性变换，得到各个第二训练样本的增强特征向量；基于各个第二训练样本的特征向量对各个第二训练样本中第二训练对象进行概率预测，得到各个第二训练用户对于各个第二训练对象的第一行为预测概率和各个第二训练对象的第二行为预测概率；基于各个第二训练对象的第一行为预测概率和各个用户对第二训练对象的第一行为结果，得到二元交叉熵损失函数对应的第三损失值；基于各个第二训练对象的第二行为预测概率和各个用户对第二训练对象的第二行为结果，得到二元交叉熵损失函数对应的第四损失值；基于各个第二训练样本的增强特征向量和各个第二训练样本的特征向量，得到对比损失函数对应的第五损失值；根据第三损失值、第四损失值和第五损失值进行反向传播，更新对象推荐模型的参数。

在一些实施例中，得到训练完成的对象推荐模型之后，对象推荐模型训练装置被配置为获取用户特征数据和候选对象特征数据集合，候选对象特征数据集合包括多个候选对象特征数据；对用户特征数据进行特征嵌入，得到用户的初始特征向量，以及对各个候选对象特征数据进行特征嵌入，得到各个候选对象的初始特征向量；对用户的初始特征向量和各个候选对象的初始特征向量分别进行拼接，得到对应的多个初始融合特征向量；对各个初始融合特征向量进行非线性变换，得到多个融合特征向量；基于各个融合特征向量对各个候选对象进行概率预测，得到各个候选对象的预测概率；基于各个候选对象的预测概率，从候选对象特征数据集合中选取向用户推荐的目标对象。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本公开实施例的实施过程构成任何限定。

图6是本公开实施例提供的电子设备6的示意图。如图6所示，该实施例的电子设备6包括：处理器601、存储器602以及存储在该存储器602中并且可在处理器601上运行的计算机程序603。处理器601执行计算机程序603时实现上述各个方法实施例中的步骤。或者，处理器601执行计算机程序603时实现上述各装置实施例中各模块/单元的功能。

电子设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备6可以包括但不仅限于处理器601和存储器602。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器601可以是中央处理单元(Central Processing Unit，CPU)，也可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器602可以是电子设备6的内部存储单元，例如，电子设备6的硬盘或内存。存储器602也可以是电子设备6的外部存储设备，例如，电子设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。存储器602还可以既包括电子设备6的内部存储单元也包括外部存储设备。存储器602用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解，本公开实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围，均应包含在本公开的保护范围之内。

Claims

1.一种对象推荐模型训练方法，其特征在于，包括：

获取第一训练集，所述第一训练集包括多个第一训练样本和各个所述第一训练样本的标签，各个所述第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，所述标签用于表示所述第一训练样本中所述用户对所述第一训练对象的行为结果；

将各个所述第一训练样本输入所述对象推荐模型进行向量表征，得到各个所述第一训练样本的初始特征向量，并对各个所述第一训练样本的初始特征向量进行掩码处理，得到各个所述第一训练样本的初始增强特征向量；

对各个所述第一训练样本的初始特征向量进行非线性变换，得到各个所述第一训练样本的特征向量，以及对各个所述第一训练样本的初始增强特征向量进行非线性变换，得到各个所述第一训练样本的增强特征向量；

基于各个所述第一训练样本的特征向量对各个所述第一训练样本中所述第一训练对象进行概率预测，得到各个所述第一训练用户对于各个所述第一训练对象的预测行为概率；

基于各个所述第一训练对象的预测行为概率和各个所述第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；

基于各个所述第一训练样本的增强特征向量和各个所述第一训练样本的特征向量，得到对比损失函数对应的第二损失值；

根据所述第一损失值和所述第二损失值进行反向传播，更新所述对象推荐模型的参数。

2.根据权利要求1所述的方法，其特征在于，所述将各个所述第一训练样本输入所述对象推荐模型进行向量表征，得到各个所述第一训练样本的初始特征向量，包括：

对各个所述第一训练对象特征数据进行特征嵌入，得到各个所述第一训练对象的初始特征向量；

对各个所述第一训练用户特征数据进行特征嵌入，得到各个所述第一训练用户的初始特征向量；

对各个所述第一训练对象的初始特征向量和各个所述第一训练用户的初始特征向量进行拼接处理，得到各个所述第一训练样本的初始特征向量。

3.根据权利要求2所述的方法，所述并对各个所述第一训练样本的初始特征向量进行掩码处理，得到各个所述第一训练样本的初始增强特征向量，包括：

对各个所述第一训练对象的初始特征向量进行掩码处理，得到各个所述第一训练对象的初始增强特征向量；

对各个所述第一训练用户的初始特征向量进行掩码处理，得到各个所述第一训练用户的初始增强特征向量；

对各个所述第一训练对象的初始增强特征向量和各个所述第一训练用户的初始增强特征向量进行拼接处理，得到各个所述第一训练样本的初始增强特征向量。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失值和所述第二损失值进行反向传播，更新所述对象推荐模型的参数，包括：

对所述第一损失值和所述第二损失值进行加权计算，得到联合损失值；

基于所述联合损失值进行方向传播，更新所述对象推荐模型的参数；

在所述联合损失值小于等于预设值，得到训练完成的对象推荐模型。

5.根据权利要求1所述的方法，其特征在于，所述基于各个所述第一训练样本的增强特征向量和各个所述第一训练样本的特征向量，得到对比损失函数对应的第二损失值，包括：

选取所述第一训练集中任意一个训练样本为第一样本，将所述第一训练集中其他训练样本确定为第二样本；

将所述第一样本的增强特征向量和所述第一样本的特征向量进行相乘，得到第一乘积结果；

将所述第一样本的特征向量和各个所述第二样本的增强特征向量进行相乘，得到各个第二乘积结果，并将各个所述第二乘积结果相加，得到第二乘积结果和；

基于所述第一乘积结果和第二乘积结果和，计算得到所述第二损失值。

6.根据权利要求1所述的方法，其特征在于，所述获取第一训练集之前，还包括：

获取第二训练集，所述第二训练集包括多个第二训练样本和各个所述第二训练样本的标签，各个所述第二训练样本包括第二训练对象特征数据和第二训练用户特征数据，所述标签用于表示所述第二训练样本中所述用户对所述第二训练对象的第一行为结果和所述用户对所述第二训练对象的第二行为结果；

将各个所述第二训练样本输入所述对象推荐模型进行向量表征，得到各个所述第二训练样本的初始特征向量，并对各个所述第二训练样本的初始特征向量进行掩码处理，得到各个所述第二训练样本的初始增强特征向量；

对各个所述第二训练样本的初始特征向量进行非线性变换，得到各个所述第二训练样本的特征向量，以及对各个所述第二训练样本的初始增强特征向量进行非线性变换，得到各个所述第二训练样本的增强特征向量；

基于各个所述第二训练样本的特征向量对各个所述第二训练样本中所述第二训练对象进行概率预测，得到各个所述第二训练用户对于各个所述第二训练对象的第一行为预测概率和各个所述第二训练对象的第二行为预测概率；

基于各个所述第二训练对象的第一行为预测概率和各个所述用户对所述第二训练对象的第一行为结果，得到所述二元交叉熵损失函数对应的第三损失值；

基于各个所述第二训练对象的第二行为预测概率和各个所述用户对所述第二训练对象的第二行为结果，得到所述二元交叉熵损失函数对应的第四损失值；

基于各个所述第二训练样本的增强特征向量和各个所述第二训练样本的特征向量，得到所述对比损失函数对应的第五损失值；

根据所述第三损失值、所述第四损失值和所述第五损失值进行反向传播，更新所述对象推荐模型的参数。

7.根据权利要求4所述的方法，其特征在于，所述得到训练完成的对象推荐模型之后，还包括：

获取用户特征数据和候选对象特征数据集合，所述候选对象特征数据集合包括多个所述候选对象特征数据；

对所述用户特征数据进行特征嵌入，得到所述用户的初始特征向量，以及对各个所述候选对象特征数据进行特征嵌入，得到各个所述候选对象的初始特征向量；

对所述用户的初始特征向量和各个所述候选对象的初始特征向量分别进行拼接，得到对应的多个初始融合特征向量；

对各个所述初始融合特征向量进行非线性变换，得到多个融合特征向量；

基于各个所述融合特征向量对各个所述候选对象进行概率预测，得到各个所述候选对象的预测概率；

基于各个所述候选对象的预测概率，从所述候选对象特征数据集合中选取向所述用户推荐的目标对象。

8.一种对象推荐模型的训练装置，其特征在于，包括：

获取模块，用于获取第一训练集，所述第一训练集包括多个第一训练样本和各个所述第一训练样本的标签，各个所述第一训练样本包括第一训练对象特征数据和第一训练用户特征数据，所述标签用于表示所述第一训练样本中所述用户对所述第一训练对象的行为结果；

向量表征模块，用于将各个所述第一训练样本输入所述对象推荐模型进行向量表征，得到各个所述第一训练样本的初始特征向量，并对各个所述第一训练样本的初始特征向量进行掩码处理，得到各个所述第一训练样本的初始增强特征向量；

非线性变换模块，用于对各个所述第一训练样本的初始特征向量进行非线性变换，得到各个所述第一训练样本的特征向量，以及对各个所述第一训练样本的初始增强特征向量进行非线性变换，得到各个所述第一训练样本的增强特征向量；

概率预测模块，用于基于各个所述第一训练样本的特征向量对各个所述第一训练样本中所述第一训练对象进行概率预测，得到各个所述第一训练用户对于各个所述第一训练对象的预测行为概率；

第一损失计算模块，用于基于各个所述第一训练对象的预测行为概率和各个所述第一训练样本的标签，得到二元交叉熵损失函数对应的第一损失值；

第二损失计算模块，用于基于各个所述第一训练样本的增强特征向量和各个所述第一训练样本的特征向量，得到对比损失函数对应的第二损失值；

更新模块，用于根据所述第一损失值和所述第二损失值进行反向传播，更新所述对象推荐模型的参数。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种可读存储介质，所述可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。