CN110569427B

CN110569427B - 一种多目标排序模型训练、用户行为预测方法及装置

Info

Publication number: CN110569427B
Application number: CN201910727793.XA
Authority: CN
Inventors: 方晗吟; 单厚智; 高俊敏; 斯奇; 张瑞
Original assignee: Zhizhe Sihai Beijing Technology Co Ltd
Current assignee: Zhizhe Sihai Beijing Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2022-03-01
Anticipated expiration: 2039-08-07
Also published as: CN110569427A

Abstract

本申请提供一种多目标排序模型训练、用户行为预测方法及装置，涉及人工智能领域。在构建初始多目标排序模型和损失函数之后，先通过初始多目标排序模型对训练样本进行处理，得到点击预估值和多任务预估值，然后再对点击预估值进行矫正处理，以减少点击预估值与实际点击率之间的偏差，能够避免训练得到的多目标排序模型在实际应用中预测用户行为时，出现预测不准确，预测误差大的问题。

Description

一种多目标排序模型训练、用户行为预测方法及装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种多目标排序模型训练、用户行为预测方法及装置。

背景技术

在现今众多的互联网服务(例如，电子商务、新闻阅读、视频播放等)场景中，用户被动地浏览和消费由服务方推荐的信息越来越普遍，因此需要由推荐系统向用户推荐相应的内容，而推荐系统可以利用排序模型来预测用户行为，进而对将要被推荐的候选内容进行排序，以向用户提供更加优质的推荐服务。现有的排序模型的训练方法中，需要对原始数据进行采样得到训练数据，会导致排序模型输出的预估值存在较大的误差，从而导致训练得到的排序模型在预测用户行为时，出现预测不准确，预测误差大的问题。

发明内容

本申请实施例的目的在于提供一种多目标排序模型训练方法及装置，能够在训练过程中对输出的预估值进行矫正处理，进而避免在实际应用预测用户行为时，出现预测不准确，预测误差大的问题。

本申请实施例第一方面提供了一种多目标排序模型训练方法，包括：

构建初始多目标排序模型和损失函数；

获取用于训练所述初始多目标排序模型的训练样本；

通过所述初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值；

对所述点击预估值进行矫正处理，得到矫正点击预估值；

通过所述损失函数、所述多任务预估值和所述矫正点击预估值对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型。

在上述实现过程中，在构建初始多目标排序模型和损失函数之后，先通过初始多目标排序模型对训练样本进行处理，得到点击预估值和多任务预估值，然后再对点击预估值进行矫正处理，以减少点击预估值与实际点击率之间的偏差，能够避免训练得到的多目标排序模型在实际应用中预测用户行为时，出现预测不准确，预测误差大的问题。

进一步地，所述构建损失函数，包括：

构建用于对各个转化任务之间关联关系进行约束的约束函数；

构建点击预估值与转化任务之间的关联损失函数；

根据所述约束函数和所述关联损失函数，构建损失函数。

在上述实现过程中，通过在损失函数中添加点击预估值与转化任务之间的关联损失函数和约束函数，能够使得初始多目标排序模型能够更加充分地学习到主任务(点击行为)与副任务(其他转化任务)以及各个副任务之间的关联关系。

进一步地，所述约束函数Loss_relation的公式为：

Loss_relation＝∑sim(w_i，w_j)-∑sim(w_p，w_q)；

其中，sim为相似度量函数；w_i和w_j为与所述点击预估值正相关的转化任务对应的独有参数，w_p和w_q为与所述点击预估值负相关的转化任务的独有参数。

在上述实现过程中，约束函数能够对各个转化任务对应的初始转化任务分支网络所独有的网络参数施加相关性约束。

进一步地，关联损失函数的公式为：

其中，f表示关联损失函数，i∈(1，N)表示所述训练样本中的第i个样本，N为所述训练样本的样本总数，M为所述初始多目标排序模型构建时存在的M种转化任务，j∈(1，M)表示所述M种转化任务中的第j种转化任务，Cross Entropy为交叉熵损失函数，

为第i个样本对应的矫正点击预估值，

为所述第j种转化任务对应的预测值，

表示第i个样本的第j种转化任务所对应的标签。

在上述实现过程中，关联损失函数表示点击行为与其他转化任务之间的转化关系。

进一步地，所述损失函数为：

其中，Loss表示损失函数，

为第i个样本对应的标签，α为超参数，用于调节所述约束函数与前面两项损失之间的比例，Loss_relation为所述约束函数。

进一步地，所述获取用于训练所述初始多目标排序模型的训练样本，包括：

获取原始用户行为数据，并对所述原始用户行为数据进行向量化处理，得到原始训练样本；

通过降采样的方法对所述原始训练样本进行采样处理，得到用于训练所述初始多目标排序模型的训练样本。

在上述实现过程中，在得到原始训练样本之后，还需要对原始训练样本进行降采样处理，进而解决训练样本中正负样本不均衡的问题。

进一步地，对所述点击预估值进行矫正处理时所采用的矫正公式为：

其中，CTR为所述点击预估值，SamplingRate为通过降采样的方法对所述原始训练样本进行采样处理时的采样率，CTR_calibrated为所述矫正点击预估值。

在上述实现过程中，由于在获取训练样本时，会对原始数据进行采样处理，进而使得模型输出的点击预估值与实际的点击值相差较大，误差大，进而影响训练结果，因此在此对所述点击预估值进行矫正处理，能够提升模型训练精度，减少训练得到的多目标排序模型在实际应用中产生的误差。

进一步地，所述初始多目标排序模型包括初始共享参数网络和初始分支网络；其中，所述初始分支网络包括初始点击分支网络和至少一个初始转化任务分支网络。

在上述实现过程中，采用初始共享参数网络和初始分支网络的结构既可以利用初始共享参数网络的部分来减少整体模型的计算量。

进一步地，通过所述初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值，包括：

通过所述初始共享参数网络对所述训练样本进行处理，得到基础处理数据；

通过所述初始点击分支网络对所述基础处理数据进一步处理，得到点击预估值，以及通过所述初始转化任务分支网络对所述基础处理数据进一步进行处理，得到转化任务预估值。

在上述实现过程中，初始共享参数网络能够减少整体模型的计算量，进而提升模型计算的速度。

进一步地，通过所述损失函数、所述多任务预估值和所述矫正点击预估值对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型，包括：

根据所述转化任务预估值与所述矫正点击预估值，计算后续行为转化率；

根据所述后续行为转化率、所述矫正点击预估值以及所述损失函数对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型。

在上述实现过程中，通过后续行为转化率、矫正点击预估值以及损失函数对初始多目标排序模型的模型参数进行调整处理，得到的多目标排序模型在实际应用中，预测结果准确，误差小。

本申请实施例第二方面提供了一种用户行为预测方法，其特征在于，包括：

获取用户行为数据；

提取所述用户行为数据的数据特征；

通过所述多目标排序模型对所述数据特征进行处理，得到用户行为预测结果。

在上述实现过程中，多目标排序模型能够根据用户行为数据的数据特征，预测出该用户行为预测结果，预测精度高，误差小。

进一步地，在通过所述多目标排序模型对所述数据特征进行处理，得到用户行为预测结果之后，还包括：

获取候选推荐数据，并根据所述用户行为预测结果对所述候选推荐数据进行排序，得到排序结果；

根据所述排序结果生成待推荐数据，并输出所述待推荐数据。

在上述实现过程中，在得到用户行为预测结果之后，还可以根据用户行为预测结果对候选的推荐内容进行排序，得到排序结果，进而根据该排序结果为用户推荐待推荐的内容，以向用户提供更加优质的推荐服务。

进一步地，所述用户行为预测结果包括点赞行为预测结果、收藏行为预测结果、反对行为预测结果、回答行为预测结果、购买行为预测结果中的一种或者多种。

在上述实现过程中，能够实现多用户行为预测，提升多目标排序模型的普适性和实用性。

本申请实施例第三方面提供了一种多目标排序模型训练装置，其特征在于，包括：

构建模块，用于构建初始多目标排序模型和损失函数；

样本获取模块，用于获取用于训练所述初始多目标排序模型的训练样本；

处理模块，用于通过所述初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值；

矫正模块，用于对所述点击预估值进行矫正处理，得到矫正点击预估值；

参数调整模块，用于通过所述损失函数、所述多任务预估值和所述矫正点击预估值对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型。

在上述实现过程中，在构建模块构建初始多目标排序模型和损失函数之后，首先处理模块通过初始多目标排序模型对训练样本进行处理，得到点击预估值和多任务预估值，然后矫正模块再对点击预估值进行矫正处理，以减少点击预估值与实际点击率之间的偏差，能够避免参数调整模块得到的多目标排序模型在实际应用中预测用户行为时，出现预测不准确，预测误差大的问题。

本申请实施例第四方面提供了一种用户行为预测装置，其特征在于，包括：

数据获取模块，用于获取用户行为数据；

特征提取模块，用于提取所述用户行为数据的数据特征；

预测模块，用于通过所述多目标排序模型对所述数据特征进行处理，得到用户行为预测结果。

在上述实现过程中，多目标排序模型能够根据用户行为数据预测出用户行为预测结果，预测结果准确，误差小。

本发明第五方面公开一种计算机设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行第一方面公开的部分或者全部所述的多目标排序模型训练方法。

本发明第六方面公开一种计算机可读存储介质，其存储有用于实现第一方面公开的部分或者全部所述的多目标排序模型训练方法时所使用的计算机程序。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的一种多目标排序模型训练方法的流程示意框图；

图2为本申请实施例二提供的一种多目标排序模型训练方法的流程示意框图；

图3为本申请实施例三提供的一种用户行为预测方法的流程示意框图；

图4为本申请实施例四提供的一种多目标排序模型训练装置的结构示意框图；

图5为本申请实施例四提供的另一种多目标排序模型训练装置的结构示意框图；

图6为本申请实施例提供五的一种用户行为预测装置的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本申请实施例提供的一种多目标排序模型训练方法的流程示意框图。如图1所示，该多目标排序模型训练方法包括：

S101、构建初始多目标排序模型和损失函数。

本申请实施例中，初始多目标排序模型可以为完整空间多任务(Entire SpaceMulti-task Model，ESMM)模型、卷积神经网络、级联卷积神经网络、任务约束深度卷积网络等，对此本申请实施例不作限定。

本申请实施例中，ESMM模型能够在完整的样本数据空间(即曝光的样本空间，下图最外层圈)同时学习点击率(post-view click-through rate，CTR)和转化率(post-clickconversion rate，CVR)。

本申请实施例中，损失函数(loss function)又称为代价函数(cost function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计(parameterestimation)等。

S102、获取用于训练初始多目标排序模型的训练样本。

本申请实施例中，训练样本包括用户对内容的多种消费行为的样本，其中，多种消费行为包括点击行为、点赞行为、收藏行为、反对行为、回答行为、购买行为等中的一种或者多种，对此本申请实施例不作限定。

S103、通过初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值。

本申请实施例中，在实际应用的推荐系统中，多任务预估值包括点赞行为预估值、收藏行为预估值、反对行为预估值、回答行为预估值、购买行为预估值等，对此本申请实施例不作限定。其中，以点赞行为预估值为例，用户在对某一内容产生点击行为之后，进而产生点赞行为的概率，即为该点赞行为预估值，其它预估值同理。

S104、对点击预估值进行矫正处理，得到矫正点击预估值。

本申请实施例中，由于在获取训练样本时，会对原始数据进行采样处理，进而使得模型输出的点击预估值与实际的点击值相差较大，误差大，进而影响训练结果，因此在此对点击预估值进行矫正处理，能够提升模型训练精度，减少训练得到的多目标排序模型在实际应用中产生的误差。

S105、通过损失函数、多任务预估值和矫正点击预估值对初始多目标排序模型的模型参数进行调整处理，得到训练后的多目标排序模型。

本申请实施例中，对初始多目标排序模型的模型参数进行调整处理，即对初始多目标排序模型的模型参数进行更新，其更新方法可以采用ADAM优化器。Adam是一种基于一阶梯度的随机目标函数优化算法，基于低阶矩的自适应估计。该方法实现简单，计算效率高，存储器要求少，对梯度的对角重新缩放不变，并且非常适合于数据和/或参数方面较大的问题。该方法也适用于非静止目标和具有非常嘈杂和/或稀疏梯度的问题。超参数具有直观的解释，并且通常需要很少的调整。

可见，实施图1所描述的多目标排序模型训练方法，能够在训练过程中对输出的预估值进行矫正处理，进而避免在实际应用预测用户行为时，出现预测不准确，预测误差大的问题。

实施例2

请参看图2，图2为本申请实施例提供的一种多目标排序模型训练方法的流程示意框图。如图2所示，该多目标排序模型训练方法包括：

S201、构建初始多目标排序模型和损失函数。

本申请实施例中，初始多目标排序模型包括初始共享参数网络和初始分支网络；其中，初始分支网络包括初始点击分支网络和至少一个初始转化任务分支网络。在初始共享参数网络的基础之上，添加能够同时输出多个预估目标的初始分支网络，通过底层特征共享的方式来达到各个任务相互促进的目的，采用这样的结构既可以利用初始共享参数网络的部分来减少整体模型的计算量，同时，初始分支网络部分可以分别对不同任务的转化任务预估值进行训练。

本申请实施例中，在构建初始多目标排序模型时，还需要对初始多目标排序模型的模型参数进行初始化处理，模型参数初始化可以采用Xavier方法。Xavier是一种神经网络模型初始化方法。

本申请实施例中，构建损失函数可以包括以下步骤：

构建点击预估值与转化任务之间的关联损失函数；

根据约束函数和关联损失函数，构建损失函数。

本申请实施例中，约束函数Loss_relation的公式为：

Loss_relation＝∑sim(w_i，w_j)-∑sim(w_p，w_q)；

其中，sim为相似度量函数；w_i和w_j为与点击预估值正相关的转化任务对应的独有参数，w_p和w_q为与点击预估值负相关的转化任务的独有参数。

本申请实施例中，具体而言，初始转化任务分支网络部分代表了各个转化任务独有的特征，所以存在正相关的转化任务之间其独有参数应该更为相似，而负相关的转化任务之间则相反，反映到具体的模型训练上则是在原有的各个转化任务分支网络对应的损失函数之外，添加约束函数，用于对各个转化任务对应的初始转化任务分支网络所独有的网络参数施加相关性约束。

本申请实施例中，关联损失函数的公式为：

其中，f表示关联损失函数，i∈(1，N)表示训练样本中的第i个样本，N为训练样本的样本总数，M为初始多目标排序模型构建时存在的M种转化任务，j∈(1，M)表示M种转化任务中的第j种转化任务，Cross Entropy为交叉熵损失函数，

为第i个样本对应的矫正点击预估值，

为第j种转化任务对应的预测值，

表示第i个样本的第j种转化任务所对应的标签。

本申请实施例中，损失函数为：

其中，Loss表示损失函数，

为第i个样本对应的标签，α为超参数，用于调节约束函数与前面两项损失之间的比例，Loss_relation为上述约束函数，f为上述关联损失函数。

本申请实施例中，利用点击行为与其他转化任务之间的转化关系，更进一步地提出了通过在损失函数中添加点击预估值与转化任务之间的关联损失函数，能够使得初始多目标排序模型能够更加充分地学习到主任务(点击行为)与副任务(其他转化任务)以及各个副任务之间的关联关系。

在步骤S201之后，还包括以下步骤：

S202、获取原始用户行为数据，并对原始用户行为数据进行向量化处理，得到原始训练样本。

本申请实施例中，原始用户行为数据包括用户对内容的多种消费行为(例如点击、点赞、收藏、购买、反对等行为)数据，对此本申请实施例不作限定。

本申请实施例中，原始用户行为数据可以为线上日志系统产生的用户行为数据，可以先对该原始用户行为数据进行向量化处理得到的原始训练样本，例如，用户i对内容j进行了点击且点赞行为，则对该原始用户行为数据进行向量化处理，得到相应的原始训练样本，即(user_i，feed_j，1，1，0，0，0)，其中，user_i表示用户i的特征，feed_j表示内容j的特征，(1，1，0，0，0)中的每一位则分别对应是否存在点击行为、点赞行为、收藏行为、反对行为、回答行为，存在该行为则值为1，否则为0。

S203、通过降采样的方法对原始训练样本进行采样处理，得到用于训练初始多目标排序模型的训练样本。

本申请实施例中，在实际应用中，推荐系统展现给用户的商品数量要远远大于被用户点击的商品数量，同时有点击行为的用户也仅仅只占所有用户的一小部分，因此，由于所有用户行为数据均存在明显的正负样本不均衡问题，这对后续初始多目标排序模型的训练极为不利，在得到原始训练样本之后，还需要对原始训练样本进行降采样处理，进而解决训练样本中正负样本不均衡的问题。

本申请实施例中，对原始训练样本进行采样处理，即对原始训练样本进行了稀疏化处理。降采样又作减采集，是一种降低信号采样率的过程，通常用于降低数据大小。

本申请实施例中，实施上述步骤S202～步骤S203，能够获取用于训练初始多目标排序模型的训练样本。

在步骤S203之后，还包括以下步骤：

S204、通过初始共享参数网络对训练样本进行处理，得到基础处理数据。

S205、通过初始点击分支网络对基础处理数据进一步处理，得到点击预估值，以及通过初始转化任务分支网络对基础处理数据进一步进行处理，得到转化任务预估值。

本申请实施例中，实施上述步骤S204～步骤S205，能够通过初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值

S206、对点击预估值进行矫正处理，得到矫正点击预估值。

本申请实施例中，模型训练过程中会存在“不对训练数据进行降采样，则正样本无法被充分学习，而进行降采样后，其预估值得偏差会再点击转化的建模过程中被进一步放大”的问题，针对这一问题，在对原始训练样本进行降采样之后，可以根据降采样的采样率自适应地对所得到的点击预估值进行矫正处理，则对点击预估值进行矫正处理时所采用的矫正公式为：

其中，CTR为点击预估值，SamplingRate为通过降采样的方法对原始训练样本进行采样处理时的采样率，CTR_calibrated为矫正点击预估值。

本申请实施例中，同过对点击预估值进行自适应地矫正处理，能够避免对原始训练样本进行重采样或者降采样带来的误差。在实际应用的绝大多数的推荐业务场景中，无论是点击行为还是其他行为(例如点赞、收藏等)，其正负样本的占比差距是非常大的，其中，点击行为的负样本数量约为正样本的十倍，而其他行为则更加悬殊，往往负样本数量是正样本的成百上千倍。大量实践表明，如果直接使用正负样本比例过于悬殊的数据进行模型训练，模型对于占比小的样本无法予以充分的学习，最终得到的模型无论离线还是在线效果都较差。而为了使训练得到更加精确稳定符合实际应用的多目标排序模型，则需要对原始训练样本中过多的负样本进行降采样(即随机丢弃一定比例的负样本)，从而使得到的训练样本中的正负样本数量大致相当，同时也会带来使模型输出的点击预估值失真。例如，假设某个内容在线上的实际点击率为20％，则原始训练样本中正负样本比例应为1：4，但经过降采样后，正负样本比例变为1：1，那么经过训练后的多目标排序模型对原始训练样本进行处理，将会得到点击预估值为50％，远高于实际点击率20％，由于多目标排序模型在实际使用中，在得到点击预估值之后，进一步会对点击预估值与后续行为转化率进行相乘计算处理得到转化任务预估值，所以会对转化任务预估值产生进一步的失真影响，导致预测结果误差大的问题。对此，对于多目标排序模型的训练，在得到点击预估值之后，可以采用矫正公式对点击预估值进行矫正处理，以使其接近实际点击率，进而使得训练得到的多目标排序模型在实际使用中，预测得到的转化预估值更为精确。

在步骤S206之后，还包括以下步骤：

S207、根据转化任务预估值与矫正点击预估值，计算后续行为转化率。

本申请实施例中，考虑点击行为与其他行为之间的转化关系(这种转化关系在推荐业务中是实际广泛存在的)，将矫正点击预估值与后续行为转化率(Convert Rate,CVR)进行乘法计算，可以得到转化任务预估值，因此，在模型训练的时候，可以根据矫正点击预估值和矫正点击预估值反算出后续行为转化率。

S208、根据后续行为转化率、矫正点击预估值以及损失函数对初始多目标排序模型的模型参数进行调整处理，得到训练后的多目标排序模型。

本申请实施例中，实施上述步骤S207～步骤S208，能够通过损失函数、多任务预估值和矫正点击预估值对初始多目标排序模型的模型参数进行调整处理，得到训练后的多目标排序模型

可见，实施图2所描述的多目标排序模型训练方法，能够在训练过程中对输出的预估值进行矫正处理，进而避免在实际应用预测用户行为时，出现预测不准确，预测误差大的问题。

实施例3

请参看图3，图3为本申请实施例提供的一种用户行为预测方法的流程示意框图。如图3所示，该用户行为预测方法包括：

S301、获取用户行为数据。

S302、提取用户行为数据的数据特征。

S303、通过预先构建的多目标排序模型对数据特征进行处理，得到用户行为预测结果。

本申请实施例中，多目标排序模型是在传统深度神经网络模型的基础之上，结合多目标学习框架，在输出层增加多个分支，可以同时预测出各种行为出现的可能性(即多任务预估值)。例如，多目标排序模型可以根据输入的用户行为数据，同时预测出出现点击行为的概率为0.5，出现点赞行为的概率为0.7，出现收藏行为的概率为0.4，出现反对行为的概率为0.002，出现回答行为的概率为0.15。

S304、获取候选推荐数据，并根据用户行为预测结果对候选推荐数据进行排序，得到排序结果。

本申请实施例中，多目标排序模型还包括排序子模型，根据用户行为预测结果对候选推荐数据进行排序，得到排序结果，以向用户提供更加优质的推荐服务。

S305、根据排序结果生成待推荐数据，并输出待推荐数据。

本申请实施例中，用户行为预测结果包括点赞行为预测结果、收藏行为预测结果、反对行为预测结果、回答行为预测结果、购买行为预测结果中的一种或者多种。

可见，实施图3所描述的用户行为预测方法，不仅能够准确预测用户行为，还能够对待推荐内容进行打分排序，以向用户提供更加优质的推荐服务。

实施例4

请参看图4，图4为本申请实施例提供的一种多目标排序模型训练装置的结构示意框图。如图4所示，该多目标排序模型训练装置包括：

模型构建模块410，用于构建初始多目标排序模型。

函数构建模块420，用于构建损失函数。

本申请实施例中，模型构建模块410在构建出初始多目标排序模型之后，还可以触发函数构建模块420构建损失函数。

样本获取模块430，用于获取用于训练初始多目标排序模型的训练样本。

本申请实施例中，函数构建模块420在构建损失函数之后，还可以触发样本获取模块430获取训练样本。

处理模块440，用于通过初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值。

矫正模块450，用于对点击预估值进行矫正处理，得到矫正点击预估值。

本实施例中，对点击预估值进行矫正处理时所采用的矫正公式为：

参数调整模块460，用于通过损失函数、多任务预估值和矫正点击预估值对初始多目标排序模型的模型参数进行调整处理，得到训练后的多目标排序模型。

作为一种可选的实施方式，请参阅图5，图5是本申请实施例提供的另一种多目标排序模型训练装置的结构示意框图。其中，图5所示的多目标排序模型训练装置是由图4所示的多目标排序模型训练装置进行优化得到的，如图5所示，函数构建模块420包括：

第一构建子模块421，用于构建用于对各个转化任务之间关联关系进行约束的约束函数。

第二构建子模块422，用于构建点击预估值与转化任务之间的关联损失函数。

第三构建子模块423，用于根据约束函数和关联损失函数，构建损失函数。

在上述实施方式中，约束函数Loss_relation的公式为：

Loss_relation＝∑sim(w_i，w_j)-∑sim(w_p，w_q)；

在上述实施方式中，关联损失函数的公式为：

为第i个样本对应的矫正点击预估值，

为第j种转化任务对应的预测值，

表示第i个样本的第j种转化任务所对应的标签。

在上述实施方式中，损失函数为：

其中，Loss表示损失函数，

为第i个样本对应的标签，α为超参数，用于调节约束函数与前面两项损失之间的比例，Loss_relation为约束函数。

作为一种可选的实施方式，样本获取模块430包括：

数据获取子模块431，用于获取原始用户行为数据，并对原始用户行为数据进行向量化处理，得到原始训练样本。

采样子模块432，用于通过降采样的方法对原始训练样本进行采样处理，得到用于训练初始多目标排序模型的训练样本。

本申请实施例中，初始多目标排序模型包括初始共享参数网络和初始分支网络；其中，初始分支网络包括初始点击分支网络和至少一个初始转化任务分支网络。

作为一种可选的实施方式，处理模块440包括：

基础处理子模块441，用于通过初始共享参数网络对训练样本进行处理，得到基础处理数据。

预估子模块442，用于通过初始点击分支网络对基础处理数据进一步处理，得到点击预估值，以及通过初始转化任务分支网络对基础处理数据进一步进行处理，得到转化任务预估值。

作为一种可选的实施方式，参数调整模块460包括：

计算子模块461，用于根据转化任务预估值与矫正点击预估值，计算后续行为转化率。

参数调整子模块462，用于根据后续行为转化率、矫正点击预估值以及损失函数对初始多目标排序模型的模型参数进行调整处理，得到训练后的多目标排序模型。

可见，实施本实施例所描述的多目标排序模型训练装置，能够避免训练得到的多目标排序模型在实际应用中预测用户行为时，出现预测不准确，预测误差大的问题。

实施例5

请参看图6，图6为本申请实施例提供的一种用户行为预测装置的结构示意框图。如图6所示，该用户行为预测装置包括：

数据获取模块510，用于获取用户行为数据。

特征提取模块520，用于提取用户行为数据的数据特征。

预测模块530，用于通过预先构建的多目标排序模型对数据特征进行处理，得到用户行为预测结果。

作为一种可选的实施方式，如图6所示，该用户行为预测装置还包括：

排序模块540，用于在通过预先构建的多目标排序模型对数据特征进行处理，得到用户行为预测结果之后，获取候选推荐数据，并根据用户行为预测结果对候选推荐数据进行排序，得到排序结果。

推荐模块550，用于根据排序结果生成待推荐数据，并输出待推荐数据。

可见，实施图6所描述的用户行为预测装置，不仅能够准确预测用户行为，还能够对待推荐内容进行打分排序，以向用户提供更加优质的推荐服务。

此外，本发明还提供了一种计算机设备。该计算机设备包括存储器和处理器，存储器可用于存储计算机程序，处理器通过运行计算机程序，从而使该计算机设备执行上述方法或者上述多目标排序模型训练装置中的各个模块的功能。

存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本实施例还提供了一种计算机存储介质，用于储存上述计算机设备中使用的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种多目标排序模型训练方法，其特征在于，包括：

构建初始多目标排序模型和损失函数；

获取用于训练所述初始多目标排序模型的训练样本；

对所述点击预估值进行矫正处理，得到矫正点击预估值；

通过所述损失函数、所述多任务预估值和所述矫正点击预估值对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型；

其中，构建损失函数，包括：

构建点击预估值与转化任务之间的关联损失函数；

根据所述约束函数和所述关联损失函数，构建损失函数；

其中，所述约束函数Loss_relation的公式为：

Loss_relation＝∑sim(w_i，w_j)-∑sim(w_p，w_q)；

其中，sim为相似度量函数；w_i和w_j为与所述点击预估值正相关的转化任务对应的独有参数，w_p和w_q为与所述点击预估值负相关的转化任务的独有参数；

其中，关联损失函数的公式为：

其中，f表示关联损失函数，i∈(1，N)表示所述训练样本中的第i个样本，N为所述训练样本的样本总数，M为所述初始多目标排序模型构建时存在的M种转化任务，j∈(1，M)表示所述M种转化任务中的第j 种转化任务，Cross Entropy为交叉熵损失函数，

为第i个样本对应的矫正点击预估值，

为所述第j种转化任务对应的预测值，

表示第i个样本的第j种转化任务所对应的标签；

其中，所述损失函数为：

其中，Loss表示损失函数，

为第i个样本对应的标签，α为超参数，用于调节所述约束函数与前面两项损失之间的比例，Loss_relation为所述约束函数；

其中，所述获取用于训练所述初始多目标排序模型的训练样本，包括：

通过降采样的方法对所述原始训练样本进行采样处理，得到用于训练所述初始多目标排序模型的训练样本；

其中，对所述点击预估值进行矫正处理时所采用的矫正公式为：

2.根据权利要求1所述的多目标排序模型训练方法，其特征在于，所述初始多目标排序模型包括初始共享参数网络和初始分支网络；其中，所述初始分支网络包括初始点击分支网络和至少一个初始转化任务分支网络。

3.根据权利要求2所述的多目标排序模型训练方法，其特征在于，通过所述初始多目标排序模型对该训练样本进行处理，得到点击预估值和多任务预估值，包括：

4.根据权利要求3所述的多目标排序模型训练方法，其特征在于，通过所述损失函数、所述多任务预估值和所述矫正点击预估值对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型，包括：

5.一种用户行为预测方法，其特征在于，包括：

获取用户行为数据；

提取所述用户行为数据的数据特征；

通过多目标排序模型对所述数据特征进行处理，得到用户行为预测结果；所述多目标排序模型是根据权利要求1至4中任一项所述的多目标排序模型训练方法进行训练得到的。

6.根据权利要求5所述的用户行为预测方法，其特征在于，在通过多目标排序模型对所述数据特征进行处理，得到用户行为预测结果之后，还包括：

7.根据权利要求5所述的用户行为预测方法，其特征在于，所述用户行为预测结果包括点赞行为预测结果、收藏行为预测结果、反对行为预测结果、回答行为预测结果、购买行为预测结果中的一种或者多种。

8.一种多目标排序模型训练装置，其特征在于，包括：

构建模块，用于构建初始多目标排序模型和损失函数；

参数调整模块，用于通过所述损失函数、所述多任务预估值和所述矫正点击预估值对所述初始多目标排序模型的模型参数进行调整处理，得到训练后的所述多目标排序模型；

其中，函数构建模块包括：

第一构建子模块，用于构建用于对各个转化任务之间关联关系进行约束的约束函数；

第二构建子模块，用于构建点击预估值与转化任务之间的关联损失函数；

第三构建子模块，用于根据所述约束函数和所述关联损失函数，构建损失函数；

其中，所述约束函数Loss_relation的公式为：

Loss_relation＝∑sim(w_i，w_j)-∑sim(w_p，w_q)；

其中，关联损失函数的公式为：

为第i个样本对应的矫正点击预估值，

为所述第j种转化任务对应的预测值，

表示第i个样本的第j种转化任务所对应的标签；

其中，所述损失函数为：

其中，Loss表示损失函数，

其中，所述样本获取模块包括：

数据获取子模块，用于获取原始用户行为数据，并对所述原始用户行为数据进行向量化处理，得到原始训练样本；

采样子模块，用于通过降采样的方法对所述原始训练样本进行采样处理，得到用于训练所述初始多目标排序模型的训练样本；

9.一种用户行为预测装置，其特征在于，包括：

数据获取模块，用于获取用户行为数据；

特征提取模块，用于提取所述用户行为数据的数据特征；

预测模块，用于通过多目标排序模型对所述数据特征进行处理，得到用户行为预测结果；所述多目标排序模型是根据权利要求8所述的多目标排序模型训练装置训练出来的。

10.一种计算机设备，其特征在于，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述计算机设备执行权利要求1至4中任一项所述的多目标排序模型训练方法。

11.一种计算机可读存储介质，其特征在于，其存储有用于实现权利要求1至4中任一项所述的多目标排序模型训练方法时所使用的计算机程序。