CN113761347A

CN113761347A - 一种商品推荐方法、装置、存储介质及系统

Info

Publication number: CN113761347A
Application number: CN202110211889.8A
Authority: CN
Inventors: 王颖帅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-12-07

Abstract

本申请提供了一种商品推荐方法、装置、存储介质及系统，该方法包括：获取多个候选商品对应的多个待计算特征数据；将多个待计算特征数据输入到目标推荐模型，获取目标推荐模型输出的多个候选商品各自的点击概率值和购买概率值；目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；根据多个候选商品各自的点击概率值和购买概率值，计算多个候选商品各自的推荐分数；根据多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。这样，目标推荐模型是由高质量正样本、低质量正样本和负样本训练得到的，能够使目标推荐模型学习到更为深入的特征，提高商品推荐的准确性。

Description

一种商品推荐方法、装置、存储介质及系统

技术领域

本申请涉及商品推荐技术领域，尤其涉及一种商品推荐方法、装置、存储介质及系统。

背景技术

随着大数据和人工智能技术的发展，越来越多的用户喜欢网络上购物。为了吸引更多的流量，提升用户活跃度，各大电商平台都需要针对用户个性化的设计推荐商品，以提高成交额。目前，已有的商品推荐算法一般是根据推荐业务对商品提取多个特征，然后配置线性加权的系数，从而为每一个商品打分，然后根据商品分数将多个商品排序后推荐给用户。

然而，对于已有的商品推荐算法来说，所提取的多个特征是人工设计的，大多依靠业务经验，有一定的局限性；另外，线性加权模型学到的特征信息比较粗浅，对商品的排序能力也有一定的局限性。

发明内容

本申请提供了一种商品推荐方法、装置、存储介质及系统，通过引入高质量正样本、低质量正样本和负样本的细分逻辑，提高了商品推荐的准确性。

本申请的技术方案是这样实现的：

第一方面，本申请实施例提供了一种商品推荐方法，该方法包括：

获取多个候选商品对应的多个待计算特征数据；

将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；

根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；

根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。

第二方面，本申请实施例提供了一种商品推荐装置，该商品推荐装置包括数据单元、计算单元、确定单元和推荐单元；其中，

数据单元，配置为获取多个候选商品对应的多个待计算特征数据；

计算单元，配置为将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；

确定单元，配置为根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；

推荐单元，配置为根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。

第三方面，本申请实施例提供了一种商品推荐装置，该商品推荐装置包括存储器和处理器；其中，

存储器，用于存储能够在所述处理器上运行的计算机程序；

处理器，用于在运行所述计算机程序时，执行如第一方面所述方法的步骤。

第四方面，本申请实施例提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述方法的步骤。

第五方面，本申请提供一种商品推荐系统，该商品推荐系统至少包括如第二方面或第三方面所述的商品推荐装置。

本申请实施例提供了一种商品推荐方法、装置、存储介质及系统，获取多个候选商品对应的多个待计算特征数据；将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。这样，目标推荐模型是由高质量正样本、低质量正样本和负样本训练得到的，能够使目标推荐模型学习到更为深入的特征，从而提高商品推荐的准确性，最终提高商品转化率。

附图说明

图1为本申请实施例提供的一种商品推荐方法的流程示意图；

图2为本申请实施例提供的另一种商品推荐方法的流程示意图；

图3为本申请实施例提供的一种商品推荐方法的应用场景示意图；

图4为本申请实施例提供的一种商品推荐系统的结构示意图；

图5为本申请实施例提供的一种商品推荐装置的组成结构示意图；

图6为本申请实施例提供的另一种商品推荐装置的组成结构示意图；

图7为本申请实施例提供的一种商品推荐装置的硬件结构示意图；

图8为本申请实施例提供的另一种商品推荐系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

以下为本申请实施例中涉及到的技术名词及其解释：

下沉市场：用户群体喜欢低价商品、对促销敏感以及热衷于互动分享，增长与发展潜力比较大。

特征工程：系统化设计用户行为、商品行为等多维度的特征。

高低质量点击：将点击行为根据用户停留时长等多个因素区分。

多任务学习：是机器学习中的一个领域，目标是利用多个学习任务中所包含的有用信息，来帮助为每个任务得到更为准确的学习器，在本申请实施例中多任务学习分为点击任务(或称为点击计算任务)和订单任务(或称为购买计算任务)。

评估指标：对线上排序模型进行效果评价的依据，主要分为点击类评估指标和订单类评估指标。

极速版：极速版是本申请具体的业务场景，主要针对下沉用户。

随着大数据和人工智能技术的发展，越来越多的用户喜欢网络上购物。为了吸引更多的流量，提升用户活跃度，各大电商平台都需要针对用户个性化的设计推荐商品，以提高购买概率值。目前，已有的商品推荐算法一般是根据推荐业务提取多个特征，然后配置线性加权的系数，为商品打分，然后根据商品分数排序，推荐给用户。

然而，已有的商品推荐算法具有以下缺点：针对业务背景提取的多个特征是人工设计的，大多依靠业务经验，有一定的局限性。另外，线性加权模型学到的特征信息比较粗浅，对商品的排序能力也有一定的局限性。本申请实施例设计了系统性的特征工程，将排序模型改进为多任务学习，可以更好地学习业务深层次的特征表征，提升了线上效果。

本申请实施例提供了一种商品推荐方法，该方法的基本思想为：获取多个候选商品对应的多个待计算特征数据；将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。这样，在模型训练阶段，可以根据样本特征数据对预设多任务模型进行训练，使预设多任务模型学习到更为深入的特征，最终得到更加准确的目标推荐模型；其次，在标签值方面引入了高质量正样本、低质量正样本和负样本的细分逻辑，而且对于高低质量点击做了子场景划分，进一步提高了目标推荐模型的准确性；最后，对于预设多任务模型，引入了四个优化点(自注意力机制、共享专家和独有专家区分、梯度提升树串行机制和多层级训练)提升了目标推荐模型使用效果，从而提高了商品推荐的准确性。

下面将结合附图对本申请各实施例进行详细说明。

在本申请的一实施例中，参见图1，其示出了本申请实施例提供的一种商品推荐方法的流程示意图。如图1所示，该方法可以包括：

S101：获取多个候选商品对应的多个待计算特征数据。

需要说明的是，本申请实施例提供了一种商品推荐方法，用于向用户个性化的推荐商品。在这里，商品可以是实体商品，也可以是视频、小说、应用、新闻、电影等虚拟商品。因此，本申请实施例提供的商品推荐方法可以应用于各大电商平台、影视播放网站以及聊天通信软件等。

需要说明的是，在对待推荐用户进行商品推荐时，获取多个候选商品的多个待计算特征数据，在一种具体的实施例中，每一条待计算特征数据都是待推荐用户的用户特征和某一候选商品的商品特征拼接而成的，从而多个候选商品和多个待计算特征数据是一一对应的；这样，能够利用目标推荐模型分别计算出待推荐用户对每一个候选商品的点击概率值和购买概率值，从而进行商品推荐。

S102：将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值。

需要说明的是，目标推荐模型是根据实际使用场景预设训练好的。具体地，目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的。也就是说，在模型训练阶段，用于训练的样本在正负样本的逻辑上进一步引入了细分逻辑，即将正样本进一步细分为高质量正样本、低质量正样本，从而能够使得目标推荐模型学习到更为深入的特征，提高后续商品推荐的准确性。

这样，将多个待计算特征数据依次输入到目标推荐模型中，由目标推荐模型会输出到多个候选商品各自的点击概率值和购买概率值。

需要说明的是，目标推荐模型可以包括多种原理的模型架构，例如Multi-GateMixture-of-Experts(MMoE)多任务模型、Deep Factorization Machines(DeepFM)多任务学习模型、Mixture of Sequential Experts(MoSE)多任务模型、Mixture-of-Experts(MoE)多任务模型等，本申请实施例不作限定。但为方便说明，下述内容中均以MMoE多任务模型为例进行解释。

具体地，MMoE多任务模型包括多个专家子模型(简称为Expert)和门控子模型(简称为Gate)，多个专家子模型分别输出多个特征矩阵，由门控子模型根据不同的任务对多个特征矩阵进行赋权计算，从而分别得到点击概率值和购买概率值。对于MMoE多任务模型，门控子模型实际上包括多个，为了方便陈述，本申请实施例中仅以“门控子模型”进行统称。

以目标推荐模型为MMoE多任务模型为例，在一些实施例中，所述目标推荐模型包括至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家模型和目标门控子模型；所述将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值，可以包括：

利用至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家模型分别对所述多个待计算特征数据进行计算，得到至少一个第一输出结果、至少一个第二输出结果和至少一个共享输出结果；

基于所述第一输出结果和所述共享输出结果，通过所述目标门控子模型得到所述其中一个候选商品的点击概率值；

基于所述第二输出结果和所述共享输出结果，通过所述目标门控子模型得到所述其中一个候选商品的购买概率值；

需要说明的是，本申请实施例将多个预设专家子模型细分为任务独有专家和共有专家，进一步更好的表征不同任务的相关性和区别。因此，多个目标专家子模型至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家子模型。第一目标专家模型和第二目标专家模型分别被用于执行点击概率值任务和购买概率值任务，而共享目标专家子模型则在两个任务中均有使用。

在一种具体的实施例中，目标专家子模型共有8个，分别是2个第一目标专家子模型、2个第二目标专家子模型和4个共享目标专家子模型。也就是说，在计算点击概率值时，采用2个第一目标专家子模型和4个共享目标专家子模型的输出结果进行计算；在计算购买概率值时，采用2个第二目标专家子模型和4个共享目标专家子模型的输出结果进行计算。

这样，通过将专家细分为任务独有专家和共有专家，进一步更好的表征不同任务的相关性和区别，提升了目标推荐模型的准确性。

除了Expert共享改进之外，相比较于相关技术中的MMoE多任务模型，目标推荐模型中还存在另外三点优化：Gate注意力改进、引入GDBT思想和多层级训练。根据以上四个优化点，给出另一种具体实施例中的模型计算过程：

假定目标推荐模型包括N个目标专家子模型和门控子模型；所述将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值，可以包括：

利用第1个目标专家子模型对所述其中一个待计算特征数据进行计算，得到所述其中一个候选商品的第1个特征矩阵；

利用第i个目标专家子模型对第(i-1)个特征矩阵和所述其中一个待计算特征数据进行计算，得到所述其中一个候选商品的第i个特征矩阵；其中，i为整数，i大于或等于2，且小于或等于N；N为目标专家子模型的数量，N为正整数；

根据所述其中一个候选商品的N个特征矩阵，利用所述目标门控子模型分别计算所述其中一个候选商品的点击概率值和购买概率值。

需要说明的是，以MMoE多任务模型为例，训练得到的目标推荐模型包括有多个目标专家子模型和目标门控子模型，多个目标专家子模型是由多个预设专家子模型训练得到，目标门控子模型是由的预设门控子模型训练得到。

在这里，目标专家子模型用于对待计算特征数据进行深层次特征提取，即每一个目标专家子模型输出的都是特征矩阵，目标门控子模型可以根据不同的任务(点击计算任务和购买计算任务)对目标专家子模型输出的特征矩阵分别进行赋权计算，从而计算出点击概率值和购买概率值。

也就是说，通过所述目标推荐模型对所述多个待计算特征数据进行计算可以分为两个步骤：(1)利用多个目标专家子模型分别对待计算特征数据进行计算，得到多个特征矩阵；(2)根据多个特征矩阵，利用目标门控子模型分别计算所述其中一个候选商品的点击概率值和购买概率值。

需要说明的是，根据前述内容，本申请实施例利用梯度提升树串行机制对多个预设专家子模型进行了优化，使得多个预设专家子模型串行链接；相应地，多个目标专家子模型同样是串行机制的。也就是说，在本申请实施例中，只有第1个目标专家子模型的输入为待计算特征数据，后续目标专家子模型的输入均为待计算特征数据和前一个目标专家子模型的输出拼接得到的数据。

专家子模型的输出结果实际上是特征矩阵。因此，在一些实施例中，当N大于或等3时，所述多个目标专家子模型包括至少一个第一专家模型、至少一个第二专家模型和至少一个共享专家模型；所述根据所述其中一个候选商品的多个特征矩阵，利用所述目标门控子模型分别计算所述其中一个候选商品的点击概率值和购买概率值，可以包括：

在所述其中一个候选商品的N个特征矩阵中确定第一矩阵集合和第二矩阵集合；其中，所述第一矩阵集合包括所述至少一个第一专家模型计算到的特征矩阵和所述至少一个共享专家模型计算得到的特征矩阵，所述第一矩阵集合包括所述至少一个第二专家模型计算到的特征矩阵和所述至少一个共享专家模型计算得到的特征矩阵；

通过所述目标门控子模型对所述第一矩阵集合进行计算，得到所述其中一个候选商品的点击概率值；

通过所述目标门控子模型对所述第二矩阵集合进行计算，得到所述其中一个候选商品的购买概率值。

需要说明的是，根据前述内容，本申请实施例将多个预设专家子模型细分为任务独有专家和共有专家，进一步更好的表征不同任务的相关性和区别。因此，多个专家子模型至少一个第一专家模型、至少一个第二专家模型和至少一个共享专家模型。第一专家模型和第二专家模型分别被用于执行点击概率值任务和购买概率值任务，而共享专家模型则在两个任务中均有使用。

进一步地，在一些实施例中，所述通过所述目标门控子模型对所述第一矩阵集合进行计算，得到所述其中一个候选商品的点击概率值，可以包括：

根据多个预设第一查询向量对所述第一矩阵集合进行自注意力计算，得到所述第一矩阵集合对应的第一自注意力得分集合；其中，所述第一自注意力得分集合和所述第一矩阵集合中的元素是一一对应的；

对所述第一矩阵集合中多个特征矩阵分别进行第一赋权操作，得到赋权后的第一矩阵集合；

对所述第一自注意力得分集合和所述赋权后的第一矩阵集合进行计算，得到其中一个候选商品的点击概率值。

需要说明的是，在本申请实施例中，根据前述内容，本申请实施例利用自注意力机制对多个预设专家子模型进行了优化。因此，在计算候选商品的点击概率值时，可以包括以下步骤：

首先，根据多个预设第一查询向量对第一特征矩阵集合进行自注意力计算，得到第一特征矩阵集合对应的第一自注意力得分集合；在这里，预设第一查询向量与第一特征矩阵是一一对应的，预设第一查询向量是在模型训练过程中从大量样本数据中学习到的；另外，第一自注意力得分集合和所述第一矩阵集合中的元素是一一对应的；

其次，对所述第一矩阵集合中的多个特征矩阵分别进行第一赋权操作，得到赋权后的第一矩阵集合；在这里，第一赋权操作中的具体权值也是在模型训练过程中从大量样本数据中学习到的；

最后，根据第一自注意力得分集合和赋权后的第一矩阵集合，计算得到其中一个候选商品的点击概率值。

类似的，在一些实施例中，所述通过所述目标门控子模型对所述第二矩阵集合进行计算，得到所述其中一个候选商品的购买概率值，可以包括：

根据多个预设第二查询向量对所述第二矩阵集合进行自注意力计算，得到所述第二矩阵集合对应的第二自注意力得分集合；其中，所述第二自注意力得分集合和所述第二矩阵集合中的元素是一一对应的；

对所述第二矩阵集合中多个特征矩阵分别进行第一赋权操作，得到赋权后的第二矩阵集合；

对所述第二自注意力得分集合和所述赋权后的第二矩阵集合进行计算，得到其中一个候选商品的购买概率值。

需要说明的是，在计算购买概率值时可参照前述的点击概率值，在此不做赘述。

总的来说，在预设门控子模型中引入自注意力的机制，目标专家子模型相当于将输入投影到了不同的特征空间，每个任务偏向不同的特征空间。借助查询/键/值权重矩阵集(Transformer)的思想，为每个任务学习多个查询向量，利用查询向量和目标专家子模型的内积作为该目标专家子模型的自注意力分值。由于内积有正有负，选择将加权的特征向量进行合并，然后再降维到原有的空间而不是直接进行相加。这样，通过在门控子模型中引入自注意力机制能够进一步提高模型的准确性。

进一步地，在一些实施例中，所述多个专家子模型中的每一专家子模型均包括多个深度学习隐藏层。

需要说明的是，深度学习隐藏层越多可以更好的学习高阶特征，本申请实施例将原有MMoE多任务模型改进为多层Expert-Gate结构，更进一步提高模型的准确性。

综上所述，通过目标推荐模型，最终计算到了多个候选商品各自的点击概率值和购买概率值。

S103：根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数。

需要说明的是，根据多个候选商品各自的点击概率值和购买概率值，能够计算出每个候选商品的推荐分数，然后根据推荐分数进行后续推荐操作。在这里，根据点击概率值和购买概率值来计算推荐分数的算法可以有多种，例如加权求和、乘法运算等等。

进一步地，在一些实施例中，所述根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数，包括：

基于预设权值，对其中一个候选商品的点击概率值和购买概率值进行赋权求和运算，得到所述其中一个候选商品的推荐分数。

需要说明的是，根据预设权值分别对点击概率值和购买概率值进行赋权求和运算，最终得到其中一个候选商品的推荐分数。

S104：根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。

需要说明的是，根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。一般来说，可以将推荐分数高的候选商品优先推荐给用户。在这里，可以选取多个候选商品中的部分商品，按照推荐分数排序后推荐给用户，也可以将全部商品按照推荐分数排序后推荐给用户，或者只选取推荐分数最高的商品推荐给用户。

本申请实施例提供了一种商品推荐方法，通过获取多个候选商品对应的多个待计算特征数据；将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。这样，通过目标推荐模型能够对多个候选商品进行计算，从而向待推荐用户进行商品推荐；另外，由于对目标推荐模型进行了四点优化(Gate注意力改进、引入GDBT思想、Expert共享改进和多层级训练)，所以提高了商品推荐的准确性。

在本申请的另一实施例中，参见图2，其示出了本申请实施例提供的另一种商品推荐方法的流程示意图。如图2所示，该方法可以包括：

S201：获取多个样本特征数据，在预设标签值集合中确定所述多个样本特征数据各自的目标标签值。

需要说明的是，在本申请实施例中提供了目标推荐模型的训练方法。在这里，目标推荐模型是根据样本特征数据训练得到的。因此，在模型训练之前，需要获取多个样本特征数据，然后在预设标签值集合中确定多个样本特征数据各自的目标标签值。

需要说明的是，目标推荐模型是根据样本特征数据训练得到的。因此，在模型训练之前，需要获取多个样本特征数据，然后在预设标签值集合中确定多个样本特征数据各自的目标标签值。

样本特征数据一般是从系统日志数据中获取的。具体一个样本特征数据实际上由某一样本用户的用户特征以及曝光给该样本用户的某一商品的商品特征构成。以电商平台为例，样本特征数据可以是从系统日志中提取后处理得到的，例如，根据电商平台的后台访问记录数据，获取进入网站的用户特征以及该用户所交互商品的商品特征，经过处理后可以生成样本特征数据；应理解，用户进入网站后可能会与多个商品存在交互行为，此时将生成多条样本特征数据。

进一步地，在一些实施例中，样本特征数据可以包括用户行为特征子集、用户偏好特征子集、商品粒度特征子集和商品属性特征子集。

在一种具体的实施例中，用户行为特征子集可以包括浏览的商品、搜索的商品、添加入购物车的商品、关注的商品、下订单的商品等；用户偏好特征子集可以包括品牌偏好、品类偏好、店铺偏好、好评率偏好、促销偏好等；商品粒度特征子集可以包括单品粒度、三级品类粒度、品牌粒度、店铺粒度等；商品属性特征子集可以包括商品的产品词、搜索词、品牌词、修饰词、渠道来源、价格、销量、扩展属性等。

下面列举部分主要特征：(1)用户最近一次点击商品距离现在的时间；(2)用户最近一次点击的单品(Stock Keeping Unit，SKU)列表；(3)当前商品价格和用户在过去一次内点击过的同三级品类商品的平均价格的相对差值；(4)用户最近一次点击的品牌列表；(5)用户最近一次点击的三级品类列表；(6)用户最近一次点击的店铺列表；(7)用户在过去一小时点击过的商品性别；(8)用户在过去一天内点击过的商品对应的产品词列表；(9)用户在过去一个月加入关注的商品列表；(10)用户性别和SKU性别是否相同。

需要说明的是，预设标签值(Label)是根据应用环境人工设计的。在相关技术方案中，标签值一般只包括两个，分别用于标识负样本和正样本。而本实施例中，设置了多个预设标签值，划分更为细致，能够提高模型的最终训练效果。

进一步地，在一些实施例中，所述预设标签值集合包括第一标签值，第二标签值、第三标签值、第四标签值和第五标签值；其中，所述第一标签值指示不点击事件、所述第二标签值指示低质量点击事件、所述第三标签值指示高质量点击事件、所述第四标签值指示低质量订单事件、所述第五标签值指示高质量订单事件。

需要说明的是，在本申请实施例中，预设标签值集合可以分为五类，分别是第一标签值，第二标签值、第三标签值、第四标签值和第五标签值，且第一标签值，第二标签值、第三标签值、第四标签值、第五标签值与不点击事件、低质量点击事件、高质量点击事件、低质量购买事件、高质量购买事件一一对应。另外，本申请实施例仅以五类标签值进行举例说明，但是预设标签值的类别数量可以根据使用环境具体确定，本申请实施例不做限定。

进一步地，在一些实施例中，所述在预设标签值集合中确定多个样本特征数据各自的目标标签值，可以包括：

获取第一样本特征数据对应的第一样本用户；其中，所述第一样本特征数据是所述多个样本特征数据中的任意一个样本特征数据；

依次判断所述第一样本用户是否执行过所述不点击事件、所述低质量点击事件、所述高质量点击事件、所述低质量订单事件和所述高质量订单事件；

根据判断结果确定所述第一样本特征数据对应的标签值子集；

将所述标签值子集中的最大标签值确定为所述第一样本特征数据的目标标签值。

需要说明的是，对于具体一个样本特征数据(以第一样本特征数据进行代称)，确定该样本特征数据所对应的目标标签值的步骤如下：

首先，获取第一样本特征数据对应的第一样本用户；

其次，依次判断第一样本用户是否执行过不点击事件、低质量点击事件、高质量点击事件、低质量订单事件和高质量订单事件，从而在所述预设标签值集合中确定第一样本特征数据对应的标签值子集。应理解，在第一样本用户对于一个商品的交互过程中，可能同时完成了多个事件(例如点击事件、购买事件)，因此第一样本特征数据可能对应多个标签值，这多个标签值就构成了标签值子集。

最后，将所述标签值子集中的最大标签值确定为第一样本特征数据的目标标签值。一般来说，标签值越大，证明第一样本用户具有更加积极的行为(例如购买)，这些样本用户是推荐模型更加应该关注的，所以一般取标签值子集中的最大标签值作为目标标签值。应理解，目标标签值的确定规则是与预设标签值的定义规则相适应的，因此，本申请实施例只是给出一种可行的目标标签值的确定规则，而不构成对目标标签值的确定规则的限定。

在这里，一般需要获取第一样本用户的第一样本行为数据，从而根据第一样本行为数据判断第一样本用户是否执行过前述的多个事件。在这里，第一样本特征数据实质上包括了第一样本用户的用户特征和某一商品的商品特征，而第一样本行为数据就是第一样本用户与该商品进行交互时的行为特征数据，例如第一样本用户是否点击了该商品、是否打开了该商品的详情页、浏览了该商品多长时间等等。

进一步地，在一些实施例中，当判断所述样本用户是否执行过所述低质量点击事件和所述高质量点击事件时，该方法还可以包括：

在预设父场景集合中确定第一样本用户所处对应的用户父场景；

获取所述用户父场景对应的预设子场景集合，并在所述预设子场景集合中确定第一样本用户对应的用户子场景；

基于所述用户子场景，获取高质量点击事件的发生条件和低质量点击事件的发生条件；

根据所述高质量点击事件的发生条件和低质量点击事件的发生条件，执行所述判断所述样本用户是否执行过所述低质量点击事件和所述高质量点击事件。

需要说明的是，对于低质量点击和高质量点击，由于点击事件相对数量较大，且发生原因比较复杂(例如误点击、感兴趣、随手点击等)，为了更好的评判用本用户的点击是高质量点击还是低质量点击，可以根据第一样本行为特征确定第一样本用户所处的场景，根据第一样本用户所处的场景确定高质量点击和低质量点击的具体定义，从而提升了标签的准确性。

具体的，在本申请实施例中，将场景区分为多个父场景，每个父场景下又细分为多个子场景，根据第一样本行为数据，能够确定第一样本用户所对应的用户父场景，进而确定第一样本用户最终对应的用户子场景，在这里，每个用户子场景中判断高质量点击或者低质量点击的阈值条件是不同的。因此，根据第一样本用户所对应的用户子场景，获取高质量点击事件定义和低质量点击事件定义，从而完成后续的判断过程。这样，高/低质量点击事件定义是与第一样本用户所属的用户子场景相适应的，提升了标签值的准确性。

在一种具体的实施例中，预设父场景集合包括复购场景、目的明确场景和闲逛场景；预设子浏览场景集合包括立即购买场景、有兴趣场景和误点击场景。

这样，由于引入了高低质量的标签细分逻辑，能够进将样本特征数据细分为高质量正样本、低质量正样本或负样本；在标签的具体设计上，对高低质量点击做了子场景划分，提升了标签的准确度。从而提高了后续模型训练效果。

S202：基于所述多个样本特征数据各自的目标标签值，在所述多个样本特征数据中确定出至少一个高质量正样本、至少一个低质量正样本和至少一个负样本；

需要说明的是，基于所述多个样本特征数据各自的目标标签值，在所述多个样本特征数据中确定出至少一个高质量正样本、至少一个低质量正样本和至少一个负样本。

也就是说，样本特征数据的目标标签值用于指示样本特征数据的训练类别，所述训练类别包括高质量正样本、低质量正样本和负样本。换句话说，对于正样本，本申请实施例进一步将其细分为高质量正样本和低质量正样本，以使得后续模型训练时更加注重高质量正样本的特征，从而提升模型的准确性。

进一步地，在一些实施例中，在所述多个样本特征数据中确定出至少一个高质量正样本、至少一个低质量正样本和至少一个负样本之前，所述方法还包括：

当所述预设多任务模型用于确定点击概率值时，将目标标签值为所述第一标签值的样本特征数据确定为负样本；将目标标签值为所述第二标签值的样本特征数据确定为低质量正样本，将目标标签值为所述第三标签值、所述第四标签值或所述第五标签值的样本特征数据确定为高质量正样本；

当所述预设多任务模型用于确定购买概率值时，将目标标签值为所述第一标签值、所述第二标签值或所述第三标签值的样本特征数据确定为负样本；将目标标签值为所述第四标签值的样本特征数据确定为低质量正样本，将目标标签值为所述第五标签值的样本特征数据确定为高质量正样本。

需要说明的是，多任务模型能够同时执行多个不同的任务，在本申请实施例中，目标推荐模型可以同时执行点击计算任务和购买计算任务。

换句话说，预设多任务模型包括两条计算链路，分别用于完成点击计算任务和购买计算任务，点击计算任务是用于计算待推荐用户对于某一候选商品的点击概率值，购买计算任务是用于计算待推荐用户对于某一候选商品的购买概率值，之后，根据所确定的点击概率值和购买概率值，最终得到某一候选商品相对于待推荐用户的推荐分数。

此时，对于不同的任务，高质量正样本、低质量正样本和负样本的定义时不同的。具体的，由于五类标签值分别对应不点击事件、高质量点击事件、低质量点击事件、高质量订单事件和低质量订单事件。

当所述预设多任务模型用于确定点击概率值时，所述第一标签值代表负样本，所述第二标签值代表低质量正样本，所述第三标签值、第四标签值和第五标签值均代表高质量正样本。

当所述预设多任务模型用于确定购买概率值时，第一标签值、第二标签值、第三标签值均代表负样本，第四标签值代表低质量正样本，第五标签值均代表高质量正样本。

这样，在所述多个样本特征数据中确定出至少一个高质量正样本、至少一个低质量正样本和至少一个负样本，从而能够根据这些样本进行后续的模型训练。

S203：利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练，得到目标推荐模型。

需要说明的是，在确定每个样本特征数据的目标标签值之后，可以利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练，得到目标推荐模型。

在这里，预设多任务模型可以包括多种原理的模型，例如Multi-Gate Mixture-of-Experts(MMoE)多任务模型、Deep Factorization Machines(DeepFM)多任务学习模型、Mixture of Sequential Experts(MoSE)多任务模型、Mixture-of-Experts(MoE)多任务模型等，本申请实施例不作限定。但为方便说明，下述内容中均以MMoE多任务模型为例进行解释。

进一步地，由于引入了标签细分逻辑，在正样本中进一步细分了高质量正样本和低质量正样本，所以可以分别为高质量正样本和低质量正样本确定相应的权重，从而对不同的样本进行加权。此时，所述利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练，得到目标推荐模型，可以包括：

根据所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的目标标签值，确定所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的权重系数；

基于所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的权重系数，构造所述预设多任务模型的损失函数；

利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对所述预设多任务模型进行训练，当所述损失函数的结果达到预设阈值时，将训练后的预设多任务模型确定为所述目标推荐模型。

需要说明的是，根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的目标标签值，能够分别确定至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的权重系数。在这里，权重系数和目标标签值的对应的关系是预设的。

接下来，基于至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的权重系数，构造所述预设多任务模型的损失函数，此时，每个样本由于权重系数不同，所以在计算损失函数时受到的关注不同，也就是说，在模型训练的损失函数中，设置不同的标签权重进行样本加权。具体的，根据目标标签值能够确定出那些具有积极行为的样本(例如存在高质量购买行为)，相对较于其他行为的样本，更应该关注这些具有积极行为的样本，所以可以为这些具有积极行为的样本赋予更大的权重。以前述的标签值方案为例，可以将标签值为4的样本赋予最大的权重值，而标签值为0的样本赋予最小的权重值。

最后，利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本，当所述损失函数的结果低于预设阈值(或者收敛于某一值)时，将训练后的预设多任务模型确定为所述目标推荐模型。

还需要说明的是，MMoE多任务模型包括多个专家子模型(简称为Expert)和门控子模型(简称为Gate)，多个专家子模型分别输出多个特征矩阵，由门控子模型根据不同的任务对多个特征矩阵进行赋权计算，从而分别得到点击概率值和购买概率值。对于MMoE多任务模型，门控子模型实际上包括多个，为了方便陈述，本申请实施例中仅以“门控子模型”进行统称。

因此，在一些实施例中，所述预设多任务模型包括至少一个第一预设专家子模型、至少一个第二预设专家子模型和至少一个共享预设专家子模型；其中，

所述至少一个第一预设专家子模型和至少一个共享预设专家子模型用于确定点击概率值；

所述至少一个第二预设专家子模型和至少一个共享预设专家子模型用于确定购买概率值。

需要说明的是，根据前述内容，预设多任务模型可以包括点击计算任务和购买计算任务。在相关技术中，MMoE多任务模型中的多个专家子模型被不同任务共享，只是门控子模型分别为不同任务建立不同的权重。而本申请实施例中，多个预设专家子模型被分为第一预设专家子模型、第二预设专家子模型和共享预设专家模型。

这里，第一预设专家子模型和共享预设专家模型组合用于计算点击概率值，第二预设专家子模型和共享预设专家模型组合用于计算购买概率值。也就是说，本申请将预设专家子模型细分为任务独有专家和共有专家，进一步更好的表征不同任务的相关性和区别。

为了进一步提高目标推荐模型的准确性，本申请实施例对于MMoE多任务模型做了一些优化。因此，在一些实施例中，在所述利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练之前，该方法还包括：

利用梯度提升树模型对所述至少一个第一预设专家子模型、至少一个第二预设专家子模型和至少一个共享预设专家子模型进行优化操作。

需要说明的是，在相关技术方案中，MMoE多任务模型中多个专家子模型之间的关系可以看作随机森林，每个专家子模型给出自己的建议，以集成的思路贡献给整个模型。然而，对于树模型来说，梯度提升树模型(Gradient Boostiong Decision Tree，GBDT)串行的方式效果好于随机森林并行的方式，因此，本申请实施例利用梯度提升树串行机制对多个预设专家子模型进行优化操作。

具体的，对于多个专家子模型来说，后一个专家子模型将样本特征数据和前一个专家子模型的输出拼接作为输入，提高了最终的模型准确度。

进一步地，在一些实施例中，所述预设多任务模型包括预设门控子模型；在所述利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练之前，该方法还可以包括：

利用自注意力模型对所述预设门控子模型进行优化操作。

需要说明的是，预设多任务模型还包括预设门控子模型，从而根据不同的任务为预设专家子模型的输出进行赋权，最终计算点击概率值或者购买概率值。在相关技术中，MMoE多任务模型只是对每个任务学习一个特征权重，然后对专家子模型的输出进行线性加权，即门控子模型部分只通过一次线性变换，未能充分学习样本特征分布，同时门控子模型和子任务强相关，应该更靠近输出而不是输入。因此，在本申请实施例中，利用自注意力模型(attention，也称为自注意力机制)对预设门控子模型进行了优化，专家子模型相当于将输入投影到了不同的特征空间，每个任务偏向不同的特征空间，进一步提高了模型准确性。

需要说明的是，深度学习隐藏层越多可以更好的学习高阶特征，本申请实施例将原有MMoE多任务模型改进为多层Expert-Gate结构，进一步提高模型的准确性。

本申请实施例提供了一种商品推荐方法，通过本实施例对前述实施例的详细阐述，从中可以看出，根据样本特征数据对预设多任务模型进行训练，使预设多任务模型学习到更为深入的特征，最终得到更加准确的目标推荐模型；同时由于在标签值方面引入了高质量正样本、低质量正样本和负样本的细分逻辑，而且对于高低质量点击做了子场景划分，进一步提高了目标推荐模型的准确性；另外，对于预设多任务模型，还引入了四个优化点(Gate注意力改进、引入GBDT思想、Expert共享改进和多层级训练)，从而更进一步地提高了目标推荐模型的准确性。

在本申请的又一实施例中，以某极速版应用为例，将前述的模型训练和商品推荐方法应用在首页排序场景中，参见图3，其示出了本申请实施例提供的一种商品推荐方法的应用场景示意图。

如图3所示，在该应用场景中，包括以下板块：极速版首页、极速版商详(商品详情)、极速版支付完成(简极支付完成)、订单详情、订单跟踪、购物车和极速版我的京东(简称极速版我京)。具体的，某极速版应用的闭环链路如下：(1)极速版首页是以转化为目标，让用户发现感兴趣的商品；(2)极速版商详分为中部和底部，中部以转化为目标，让用户快速查看主单品(Stock Keeping Unit，SKU)的相似相关商品，底部在中部的基础上，让用户发现其它感兴趣的商品；(3)支付完成页以转化为目标，让用户快速发现根据主SKU可以搭配的商品；(4)订单详情页以转化为目标，让用户快速发现根据主SKU可以搭配的商品；(5)订单跟踪页以转化为目标，让用户快速发现根据主SKU可以搭配的商品；(6)极速版我的京东以转化为目标，让用户快速发现感兴趣的商品；(7)购物车以转化为目标，如果有加购商品，主要让用户发现可以与主SKU搭配购买的相关商品，如果没有加购商品，主要让用户发现其感兴趣的商品。

基于某极速版应用的业务闭环，参见图4，其示出了本申请实施例提供的一种商品推荐系统的结构示意图。如图4所示，本申请实施例提供的商品推荐系统可以由以下六个模块构成：业务定位模块301、特征挖掘模块302、标签设计模块303，、多任务学习模型改进模块304、离线评估指标模块305和上线迭代模块306。

对于极速版的业务定位模块301，包括以下内容：

(1)下沉场景：极速版为面向下沉用户的轻量化应用程序(Application，APP)，为强调极速版的下沉特性，需将极速版推荐策略建立在极速版独立的下沉场景之上，以便更好的识别极速版用户需求，并进行精准人货匹配；低价是极速版的核心竞争力与核心差异化点之一，因此采用了降低邮费结合低价商品的方式实现真正低价好物的定位。在推荐模型的基础上引入包邮因子和用户包邮敏感度因子，以增大对包邮敏感用户推荐包邮商品的概率；为了更好的强调极速版低价的特性和整体商品与用户的匹配程度，极速版推出了专属渠道价，以低价高质的商品打造整体下沉电商氛围；另外，极速版还推出逛商品送金币活动，让用户在浏览商品的时候做一些小任务，希望在做任务过程中产生即时购买行为。“赚钱”为极速版主打定位之一，极速版APP内现有大量的游戏和任务资源位，其中包含逛商品、逛活动、看视频赚金币的游戏和任务，初期游戏资源位的商品为随机展示，后期接入推荐能力，精准分发。

(2)预期收益：调整推荐策略以和也无方长期的下沉战略方向保持一致。初期的目标是提升曝光用户点击值，随着业务迭代还要兼顾曝光用户转化指标和用户(uniquevisitor，UV)价值指标；

(3)首页为你推荐优化：极速版首页为你推荐在召回、排序、多样性的基础上，增加低价商品的权重，本申请实施例从召回阶段和排序阶段都做了优化；

(4)用户体验优化：(a)极速版全场景增加曝光负反馈过滤逻辑，极速版有时候会出现给用户推荐出不感兴趣的商品的情况，且初期极速版无负反馈渠道，对用户体验有较大的影响，因此新增了各场景联动的曝光过滤。主要包括：无货过滤、已购过滤、敏感词过滤、价格过滤、季节过滤、同图过滤、购买力过滤等；(b)极速版商品标题性别过滤，极速版产品体验出现大量性别相关案例(case)，给无相关行为的男用户推出了丝袜、丁字裤等女性商品，对用户体验有较明显的影响。为了提升用户体验，在召回阶段，对部分和行为弱相关的召回源，根据SKU的标题判断，若标题里有强性别的字符，比如“男、女”等，则对这部分商品进行过滤。

对于特征挖掘模块302，主要用于对用户数据进行预处理，得到样本特征数据，包括以下内容：

(1)用户行为画像(用于得到用户行为特征子集)：用户的行为主要包括浏览的商品、搜索的商品、加购的商品、关注的商品、下订单的商品等。

(2)用户偏好画像(用于得到用户偏好特征子集)：用户偏好主要包括品牌偏好、品类偏好、店铺偏好、好评值偏好、促销偏好等。

(3)商品粒度画像(用于得到商品粒度特征子集)：商品粒度主要包括SKU粒度、三级品类粒度、品牌粒度、店铺粒度等。

(4)商品属性画像(用于得到商品属性特征子集)：商品属性主要包括商品的产品词、搜索词、品牌词、修饰词、渠道来源、价格、销量、扩展属性等。

下面列举部分主要特征：(1)用户最近一次点击商品距离现在的时间；(2)用户最近一次点击的SKU列表；(3)当前商品价格和用户在过去一次内点击过的同三级品类商品的平均价格的相对差值；(4)用户最近一次点击的品牌列表；(5)用户最近一次点击的三级品类列表；(6)用户最近一次点击的店铺列表；(7)用户在过去一小时点击过的商品性别；(8)用户在过去一天内点击过的商品对应的产品词列表；(9)用户在过去一个月加入关注的商品列表；(10)用户性别和SKU性别是否相同。

对于标签设计模块303，主要用于确定样本特征数据对应的目标标签值，包括以下内容：

(1)底层Label表逻辑：根据用户在京东系统的行为，通过服务端上报在feature-log落日志，曝光给用户但是用户不点击Label为0，用户低质量点击为1，用户高质量点击为2、用户低质量购买为3和用户高质量购买为4。

(2)高低质量点击事件的定义：由于点击事件的数据量较大，为了更准确的细分该次点击属于高质量点击事件还是低质量点击时间。因此，针对用户进入商品详情页这一重要场景，通过记录用户从进入到离开商品详情页的一系列会话(session)行为，来判断识别是否是有价值的一次点击。用户可能抱着不同的意愿，通过各种渠道到达商品详情页。本申请实施例的高质量点击事件的定义根据用户所处场景的不同而不同，具体的场景分为复购、目的明确和闲逛3个父场景，每个父场景下再分为立即购买、有兴趣和误点击三个子场景。

在这里，立即购买、有兴趣和误点击三个子场景的定义分别如下：

A.父场景1-复购：一年内用户有买过改商品，或者点击来源于订单页。

(a)子场景1-立即购买：点击事件中包含立即购买、添加购物车等购买倾向类事件；

(b)子场景2-有兴趣：不包含购买倾向类事件，同时停留时长>＝30秒或者包含的事件个数>＝3；

(c)子场景3-误点击：不包含购买倾向类事件，同时停留时长<30并且包含的事件个数<3。

B.父场景2-目的明确：点击来源于搜索结果页、购物车页、关注页等。

C.父场景3-闲逛：点击来源于其它。

本申请实施例设置合理的阈值，根据业务背景，调试高低质量点击事件的数据分布，最终得到每个子场景对应的高低质量点击事件定义。实际使用时，根据用户的行为数据，判断出用户所处的父场景，进一步判断出用户所处的子场景，然后根据用户所处的子场景获取对应的高低质量点击事件定义，然后判断该用户的此次点击事件属于高质量点击事件还是低质量点击事件。

(3)高低质量订单事件的定义：高质量订单事件定义为用户下了订单且完成整个购买流程的是高质量订单；低质量订单事件定义为用户下了订单但是之后又取消订单的。

(4)Label细化作用：细化Label的作用是在模型训练的损失函数中，设置不同的Label权重进行样本加权。

对于多任务学习模型改进模块304，现有技术使用的多任务学习MMoE多任务模型，包括专家子模型(Expert，或称为专家子网络)和门控子模型(Gate，或称为门控子网络)。每个子网络内部是深度神经网络(Deep Neural Networks，DNN)实现，通过门控子模型给专家子模型加权，多个专家子模型之间没有直接的交互。本申请实施例从专家交互和专家深层共享的角度对其做了改进，主要包括以下内容：

(1)Gate注意力改进：原有MMoE多任务模型在Mixture-of-Experts(MOE)模型的基础上，对每个任务学习一个特征权重，对专家子模型提取的特征进行线性加权。门控子模型只通过一次线性变换，未能充分学习样本分布，同时门控子模型和子任务强相关，应该更靠近输出而不是输入。在此基础上，本申请实施例在门控子模型部分中引入自注意力的机制，专家子模型相当于将输入投影到了不同的特征空间，每个任务偏向不同的特征空间。借助transformer的思想，为每个任务学习多个查询向量(每个查询向量对应一个专家子模型)，利用查询向量和所对应的专家子模型输出的内积作为该专家子模型的自注意力分值。由于内积有正有负，选择将加权的特征向量进行合并，然后再降维到原有的空间而不是直接进行相加。模型上线，曝光用户人均点击提升1.2％。

(2)引入GBDT思想：原有MMoE多任务模型多个专家之间的关系可以看作随机森林，每个专家给出自己的建议，以集成的思路贡献给整个网络。由于在树模型中，梯度提升树模型串行的方式效果好于随机森林并行的方式，本申请实施例将专家子模型改进为串行模式，后一个专家子模型将样本特征数据和前一个专家子模型的输出拼接作为输入。模型上线，曝光用户人均点击提升0.88％，浏览深度提升1.23％。

(3)Expert共享改进：原有MMoE多任务模型多个专家被不同任务共享，只是为不同任务建立不同的Gate权重。本申请实施例将专家细分为任务独有专家和共有专家，进一步更好的表征不同任务的相关性和区别。模型上线后，曝光用户点击值提升2％。

(4)多层级训练：深度学习隐藏层越多可以更好的学习高阶特征，本申请实施例将原有MMoE多任务模型改进为多层Expert-Gate结构。

对于离线评估指标模块305，主要包括以下内容：

(1)曝光用户点击值：曝光用户点击值＝点击数/曝光UV，其中曝光UV是按浏览器去重曝光，即曝光用户数；

(2)曝光用户转化值：曝光用户转化值＝订单行/曝光UV；

(3)浏览深度：浏览深度＝用户浏览的商品个数/曝光给用户的商品个数；

(4)用户UV价值：用户UV价值＝GMV/曝光UV，其中GMV是指用户贡献的总金额。

对于上线迭代模块306，主要包括以下内容：

(1)多方联调：本申请实施例的商品推荐模型上线之前数据同学、算法同学、研发同学、产品同学、运营同学进行了多方联合调试，确保闪现之前逻辑正确，性能可接受；

(2)测试白名单：为了提前及时发现问题，本申请实施例的商品推荐模型上线实现，配置白名单测试推荐商品的效果和用户体验；

(3)上线观察：本申请实施例的商品推荐模型上线之后，观察实时效果、线上服务性能、推荐位可用值等指标，确保一切正常；

(4)优化迭代：随着业务的不断更新，首页推荐的评估指标在不断升级，本申请实施例根据新需求，优化迭代模型，提升线上效果。

简言之，本申请实施例引入了高低质量标签细分逻辑，相比之前的标签定义，带来了显著效果提升。多任务学习模型的四点改进：Gate注意力改进、引入GDBT思想、Expert共享改进、多层级训练，成功应用到线上，并且带来指标提升护。另外，本申请实施例探索了多种离线评估指标，对于模型实验线上线下的对齐，具有指导意义。

本申请实施例提供了一种商品推荐方法，通过本实施例对前述实施例的详细阐述，从中可以看出，根据样本特征数据对预设多任务模型进行训练，使预设多任务模型学习到更为深入的特征，最终得到更加准确的目标推荐模型；同时由于在标签值方面引入了高质量正样本、低质量正样本和负样本的细分逻辑，而且对于高低质量点击做了子场景划分，进一步提高了目标推荐模型的准确性；另外，对于预设多任务模型，还引入了四个优化点(Gate注意力改进、引入GBDT思想、Expert共享改进、多层级训练)，从而更进一步地提高了目标推荐模型的准确性。

在本申请的再一实施例中，参见图5，其示出了本申请实施例提供的一种商品推荐装置40的组成结构图，如图5所示，该商品推荐装置40包括数据单元401、计算单元402、确定单元403和推荐单元404；其中，

数据单元401，配置为获取多个候选商品对应的多个待计算特征数据；

计算单元402，配置为将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；

确定单元403，配置为根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；

推荐单元404，配置为根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。

在一些实施例中，目标推荐模型包括至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家模型和目标门控子模型；计算单元402，具体配置为利用至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家模型分别对所述多个待计算特征数据进行计算，得到至少一个第一输出结果、至少一个第二输出结果和至少一个共享输出结果；基于所述第一输出结果和所述共享输出结果，通过所述目标门控子模型得到所述其中一个候选商品的点击概率值；基于所述第二输出结果和所述共享输出结果，通过所述目标门控子模型得到所述其中一个候选商品的购买概率值。

在一些实施例中，确定单元403，具体配置为基于预设权值，对其中一个候选商品的点击概率值和购买概率值进行赋权求和运算，得到所述其中一个候选商品的推荐分数。

在一些实施例中，如图6所示，该商品推荐装置40还包括训练单元405，配置为获取多个样本特征数据，在预设标签值集合中确定所述多个样本特征数据各自的目标标签值；基于所述多个样本特征数据各自的目标标签值，从所述多个样本特征数据中确定至少一个高质量正样本、至少一个低质量正样本和至少一个负样本；利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练，得到目标推荐模型。

在一些实施例中，训练单元405，还配置为根据所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的目标标签值，确定所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的权重系数；基于所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本各自的权重系数，构造所述预设多任务模型的损失函数；利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对所述预设多任务模型进行训练，当所述损失函数的结果达到预设阈值时，将训练后的预设多任务模型确定为所述目标推荐模型。

在一些实施例中，所述预设标签值集合包括第一标签值，第二标签值、第三标签值、第四标签值和第五标签值；其中，所述第一标签值指示不点击事件、所述第二标签值指示低质量点击事件、所述第三标签值指示高质量点击事件、所述第四标签值指示低质量订单事件、所述第五标签值指示高质量订单事件。

在一些实施例中，训练单元405，还配置为获取第一样本特征数据对应的第一样本用户；其中，所述第一样本特征数据是所述多个样本特征数据中的任意一个样本特征数据；依次判断所述第一样本用户是否执行过所述不点击事件、所述低质量点击事件、所述高质量点击事件、所述低质量订单事件和所述高质量订单事件；根据判断结果确定所述第一样本特征数据对应的标签值子集；将所述标签值子集中的最大标签值确定为所述第一样本特征数据的目标标签值。

在一些实施例中，训练单元405，还配置为当所述预设多任务模型用于确定点击概率值时，将目标标签值为所述第一标签值的样本特征数据确定为负样本；将目标标签值为所述第二标签值的样本特征数据确定为低质量正样本，将目标标签值为所述第三标签值、所述第四标签值或所述第五标签值的样本特征数据确定为高质量正样本；当所述预设多任务模型用于确定购买概率值时，将目标标签值为所述第一标签值、所述第二标签值或所述第三标签值的样本特征数据确定为负样本；将目标标签值为所述第四标签值的样本特征数据确定为低质量正样本，将目标标签值为所述第五标签值的样本特征数据确定为高质量正样本。

在一些实施例中，所述预设多任务模型包括至少一个第一预设专家子模型、至少一个第二预设专家子模型和至少一个共享预设专家子模型；其中，所述至少一个第一预设专家子模型和至少一个共享预设专家子模型用于确定点击概率值；所述至少一个第二预设专家子模型和至少一个共享预设专家子模型用于确定购买概率值。

在一些实施例中，所述预设多任务模型包括多个预设专家子模型；训练单元405，还配置为利用梯度提升树模型对所述至少一个第一预设专家子模型、至少一个第二预设专家子模型和至少一个共享预设专家子模型进行优化操作。

在一些实施例中，所述预设多任务模型包括预设门控子模型；训练单元405，还配置为利用自注意力模型对所述预设门控子模型进行优化操作。

可以理解地，在本实施例中，“单元”可以是部分电路、部分处理器、部分程序或软件等等，当然也可以是模块，还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本实施例提供了一种计算机存储介质，应用于商品推荐装置40，该计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现前述实施例中任一项所述的方法。

基于上述商品推荐装置40的组成以及计算机存储介质，参见图7，其示出了本申请实施例提供的商品推荐装置40的具体硬件结构示例，如图7所示，商品推荐装置40可以包括：通信接口501、存储器502和处理器503；各个组件通过总线系统504耦合在一起。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统504。其中，

通信接口501，用于在与其他外部网元之间进行收发信息过程中，信号的接收和发送；

存储器502，用于存储能够在处理器503上运行的计算机程序；

处理器503，用于在运行所述计算机程序时，执行：

获取多个候选商品对应的多个待计算特征数据；

可以理解，本申请实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请描述的系统和方法的存储器502旨在包括但不限于这些和任意其它适合类型的存储器。

而处理器503可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器503可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器503读取存储器502中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本申请所述功能的模块(例如过程、函数等)来实现本申请所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，作为另一个实施例，处理器503还配置为在运行所述计算机程序时，执行前述实施例中任一项所述的方法。

基于上述商品推荐装置40的组成以及硬件结构示例，参见图8，其示出了本申请实施例提供的另一种商品推荐系统60的结构示意图。

如图8所示，商品推荐系统60至少包括前述实施例中任一项所述的商品推荐装置40，能够根据样本特征数据对预设多任务模型进行训练，使预设多任务模型学习到更为深入的特征，最终得到更加准确的目标推荐模型；同时在标签值方面引入了高质量正样本、低质量正样本和负样本的细分逻辑，进一步提高了目标推荐模型的准确性；另外，对于预设多任务模型，还引入了四个优化点(Gate注意力改进、引入GBDT思想、Expert共享改进和多层级训练)，从而更进一步地提高了目标推荐模型的准确性。这时候商品推荐装置40利用该目标推荐模型对待推荐用户进行商品推荐，还可以提高商品推荐的准确性。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

需要说明的是，在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种商品推荐方法，其特征在于，所述方法包括：

获取多个候选商品对应的多个待计算特征数据；

2.根据权利要求1所述的商品推荐方法，其特征在于，所述目标推荐模型包括至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家模型和目标门控子模型；

所述将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值，包括：

利用至少一个第一目标专家模型、至少一个第二目标专家模型和至少一个共享目标专家模型分别对其中一个待计算特征数据进行计算，得到至少一个第一输出结果、至少一个第二输出结果和至少一个共享输出结果；

基于所述至少一个第一输出结果和所述至少一个共享输出结果，通过所述目标门控子模型计算得到其中一个候选商品的点击概率值；

基于所述至少一个第二输出结果和所述至少一个共享输出结果，通过所述目标门控子模型计算得到所述其中一个候选商品的购买概率值。

3.根据权利要求1所述的商品推荐方法，其特征在于，所述根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数，包括：

4.根据权利要求1所述的商品推荐方法，其特征在于，所述方法还包括：

获取多个样本特征数据，在预设标签值集合中确定所述多个样本特征数据各自的目标标签值；

基于所述多个样本特征数据各自的目标标签值，从所述多个样本特征数据中确定至少一个高质量正样本、至少一个低质量正样本和至少一个负样本；

利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练，得到目标推荐模型。

5.根据权利要求4所述的商品推荐方法，其特征在于，所述利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练，得到目标推荐模型，包括：

6.根据权利要求4所述的商品推荐方法，其特征在于，所述预设标签值集合包括第一标签值，第二标签值、第三标签值、第四标签值和第五标签值；其中，所述第一标签值指示不点击事件、所述第二标签值指示低质量点击事件、所述第三标签值指示高质量点击事件、所述第四标签值指示低质量订单事件、所述第五标签值指示高质量订单事件。

7.根据权利要求6所述的商品推荐方法，其特征在于，所述在预设标签值集合中确定多个样本特征数据各自的目标标签值，包括：

8.根据权利要求6所述的商品推荐方法，其特征在于，在所述多个样本特征数据中确定出至少一个高质量正样本、至少一个低质量正样本和至少一个负样本之前，所述方法还包括：

9.根据权利要求8所述的商品推荐方法，其特征在于，所述预设多任务模型包括至少一个第一预设专家子模型、至少一个第二预设专家子模型和至少一个共享预设专家子模型；其中，

所述至少一个第一预设专家子模型和至少一个共享预设专家子模型用于确定所述点击概率值；

所述至少一个第二预设专家子模型和至少一个共享预设专家子模型用于确定所述购买概率值。

10.根据权利要求9所述的商品推荐方法，其特征在于，在所述利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练之前，所述方法还包括：

11.根据权利要求4所述的商品推荐方法，其特征在于，所述预设多任务模型包括预设门控子模型；在所述利用所述至少一个高质量正样本、至少一个低质量正样本和至少一个负样本对预设多任务模型进行训练之前，所述方法还包括：

利用自注意力模型对所述预设门控子模型进行优化操作。

12.一种商品推荐装置，其特征在于，所述商品推荐装置包括数据单元、计算单元、确定单元和推荐单元；其中，

所述数据单元，配置为获取多个候选商品对应的多个待计算特征数据；

所述计算单元，配置为将所述多个待计算特征数据输入到目标推荐模型，获取所述目标推荐模型输出的所述多个候选商品各自的点击概率值和购买概率值；其中，所述目标推荐模型是根据至少一个高质量正样本、至少一个低质量正样本和至少一个负样本训练得到的；

所述确定单元，配置为根据所述多个候选商品各自的点击概率值和购买概率值，计算所述多个候选商品各自的推荐分数；

所述推荐单元，配置为根据所述多个候选商品各自的推荐分数，向待推荐用户进行商品推荐。

13.一种商品推荐装置，其特征在于所述商品推荐装置包括存储器和处理器；其中，

所述存储器，用于存储能够在所述处理器上运行的计算机程序；

所述处理器，用于在运行所述计算机程序时，执行如权利要求1至11任一项所述方法的步骤。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述方法的步骤。

15.一种商品推荐系统，其特征在于，所述商品推荐系统至少包括如权利要求12或13所述的商品推荐装置。