CN111401963A

CN111401963A - 训练用户行为预测模型的方法和装置

Info

Publication number: CN111401963A
Application number: CN202010202058.XA
Authority: CN
Inventors: 黄珊; 何勇; 张亮; 赖志坚; 梅寒; 刘贝; 陆彬; 侯丽微; 沈彬; 丁珂
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-10
Anticipated expiration: 2040-03-20
Also published as: CN111401963B

Abstract

本说明书实施例提供一种训练用户行为预测模型的方法和装置，方法包括：获取多个训练样本，训练样本包括样本特征、第一标签、第二标签和第三标签，第一标签对应主任务，第二标签对应第一辅助任务，第三标签对应第二辅助任务；将各样本特征输入用户行为预测模型，基于主任务的预测输出和第一标签，第一辅助任务的预测输出和第二标签，第二辅助任务的预测输出和第三标签，采用多任务学习的方式训练用户行为预测模型；其中，主任务用于预测用户点击目标对象后发生预设行为的概率，第一辅助任务用于预测用户点击目标对象的概率，第二辅助任务用于预测用户点击目标对象并发生预设行为的概率。训练后的模型预测准确率高。

Description

训练用户行为预测模型的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及训练用户行为预测模型的方法和装置。

背景技术

当前，常常需要对用户行为进行预测，也就是说，预测用户是否会发生预设行为，例如，预测用户是否会下载或注册某个应用程序APP，或者，预测用户是否会购买某个商品，等等。一种典型的场景是，展示目标对象，预测用户点击该目标对象后发生预设行为的概率。上述目标对象可以为商品图片、APP的图片等。通常地，展示目标对象后，用户可能点击该目标对象，也可能不点击该目标对象。用户点击该目标对象后，可能发生预设行为，也可能不发生预设行为。准确地预测用户行为，有助于有针对性地展示目标对象，使得展示的目标对象更符合用户需求。

发明内容

本说明书一个或多个实施例描述了一种训练用户行为预测模型的方法和装置，使得训练后的用户行为预测模型能够准确地预测用户行为。

第一方面，提供了一种训练用户行为预测模型的方法，用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，方法包括：

获取多个训练样本，每个所述训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，所述第一标签指示用户点击目标对象后是否发生预设行为，所述第二标签指示用户是否点击目标对象，第三标签指示是否用户点击目标对象然后发生预设行为；

将所述多个训练样本中的任一训练样本作为目标训练样本，将所述目标训练样本的样本特征输入所述用户行为预测模型，基于所述用户行为预测模型对应于主任务的预测输出和所述第一标签，以及基于所述用户行为预测模型对应于第一辅助任务的预测输出和所述第二标签，以及基于所述用户行为预测模型对应于第二辅助任务的预测输出和所述第三标签，利用预先设定的对应于所述多个训练样本的总损失函数，采用多任务学习的方式训练所述用户行为预测模型；其中，所述主任务用于预测用户点击目标对象后发生预设行为的概率，所述第一辅助任务用于预测用户点击目标对象的概率，所述第二辅助任务用于预测用户点击目标对象并发生预设行为的概率。

在一种可能的实施方式中，所述获取多个训练样本，包括：

获取目标对象的历史点击与转化数据，所述历史点击与转化数据包括初始转化行为数据集和初始点击行为数据集，所述初始转化行为数据集中各条样本具有已知标签值的所述第一标签，所述初始点击行为数据集中各条样本具有已知标签值的所述第二标签；

从所述初始点击行为数据集中筛选出符合预设过滤条件的各条样本，得到过滤点击行为数据集；所述预设过滤条件至少包括第一过滤条件，所述第一过滤条件为选取所述第二标签的标签值指示出用户未点击目标对象的样本；

确定所述初始转化行为数据集和所述过滤点击行为数据集中各条样本分别对应的第一标签、第二标签和第三标签的标签值，得到所述多个训练样本。

进一步地，所述确定所述初始转化行为数据集和所述过滤点击行为数据集中各条样本分别对应的第一标签、第二标签和第三标签的标签值，包括：

确定所述初始转化行为数据集中所述第二标签的标签值指示用户点击了目标对象，以及确定所述第三标签与所述第一标签的标签值相同；

确定所述过滤点击行为数据集中所述第一标签的标签值指示用户点击目标对象后未发生预设行为，以及所述第三标签的标签值指示未发生用户点击目标对象然后发生预设行为。

进一步地，所述预设过滤条件还包括：第二过滤条件；

所述第二过滤条件为对所述初始点击行为数据集过滤后的样本进行随机采样，得到预设数目的样本。

在一种可能的实施方式中，所述样本特征包括：

用户端特征和目标对象端特征；

所述用户端特征包括：用户静态属性、用户画像特征、资产类特征、矩阵页面访问数据、小程序和生活号用户行为数据、目标对象归属页用户行为数据、集团兴趣数据、消费行为数据、线下支付行为数据中的至少一项特征；

所述目标对象端特征包括：目标对象标识、计划标识、目标对象归属者标识、展位特征、创意特征中的至少一项特征。

在一种可能的实施方式中，所述样本特征包括：

多个连续型特征和多个离散型特征；

所述用户行为预测模型包括特征处理层，用于对所述多个连续型特征进行第一处理，对所述多个离散型特征进行第二处理，第一处理包括直接输出各连续型特征的特征值；

第二处理包括先分别对各离散型特征的特征值进行嵌入得到各自对应的嵌入向量，再将各嵌入向量进行和池化得到综合嵌入向量，输出所述综合嵌入向量。

在一种可能的实施方式中，所述总损失函数包括：

第一损失项，用于从所述多个训练样本中选取所述第二标签的标签值指示出用户未点击目标对象的部分训练样本，根据所述部分训练样本中各训练样本的分别针对所述主任务的预估偏差，确定所述主任务对应于所述多个训练样本的第一预估偏差；

第二损失项，用于根据所述多个训练样本中各训练样本分别针对所述第一辅助任务的预估偏差，确定所述第一辅助任务对应于所述多个训练样本的第二预估偏差；

第三损失项，用于根据所述多个训练样本中各训练样本分别针对所述第二辅助任务的预估偏差，确定所述第二辅助任务对应于所述多个训练样本的第三预估偏差。

进一步地，所述总损失函数还包括：

偏差修正项，用于确定多次预估的所述主任务的预测输出之和与真实发生预设行为的用户的个数之间的第四预估偏差。

进一步地，所述第四预估偏差通过多次预估的所述主任务的预测输出之和与真实发生预设行为的用户的个数之间的差值来体现。

进一步地，所述偏差修正项包括准入因子；

当所述第一预估偏差小于预设阈值时，所述准入因子为1；

当所述第一预估偏差大于或等于所述预设阈值时，所述准入因子为0。

在一种可能的实施方式中，所述用户行为预测模型包括第一网络层、第二网络层和第三网络层；

所述第一网络层用于输出所述主任务的预测输出；

所述第二网络层用于输出所述第一辅助任务的预测输出；

所述第三网络层用于接收所述第一网络层和所述第二网络层相乘的结果，用于输出所述第二辅助任务的预测输出。

在一种可能的实施方式中，所述方法还包括：

获取当前时间的目标用户的第一用户端特征和目标对象的第一目标对象端特征；

将所述第一用户端特征和所述第一目标对象端特征输入训练后的所述用户行为预测模型，通过所述用户行为预测模型输出所述目标用户点击所述目标对象后的发生预设行为的预估概率。

进一步地，所述目标对象属于商品广告；所述方法还包括：

根据所述预估概率和预先设定的目标转化价格，确定针对所述目标对象的当前出价。

第二方面，提供了一种训练用户行为预测模型的装置，用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，装置包括：

获取单元，用于获取多个训练样本，每个所述训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，所述第一标签指示用户点击目标对象后是否发生预设行为，所述第二标签指示用户是否点击目标对象，第三标签指示是否用户点击目标对象然后发生预设行为；

训练单元，用于将所述获取单元获取的多个训练样本中的任一训练样本作为目标训练样本，将所述目标训练样本的样本特征输入所述用户行为预测模型，基于所述用户行为预测模型对应于主任务的预测输出和所述第一标签，以及基于所述用户行为预测模型对应于第一辅助任务的预测输出和所述第二标签，以及基于所述用户行为预测模型对应于第二辅助任务的预测输出和所述第三标签，利用预先设定的对应于所述多个训练样本的总损失函数，采用多任务学习的方式训练所述用户行为预测模型；其中，所述主任务用于预测用户点击目标对象后发生预设行为的概率，所述第一辅助任务用于预测用户点击目标对象的概率，所述第二辅助任务用于预测用户点击目标对象并发生预设行为的概率。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先获取多个训练样本，每个训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，每个标签对应一项任务的真实值；然后根据多个训练样本，利用预先设定的对应于所述多个训练样本的总损失函数，采用多任务学习的方式训练所述用户行为预测模型；其中，主任务用于预测用户点击目标对象后发生预设行为的概率，第一辅助任务用于预测用户点击目标对象的概率，第二辅助任务用于预测用户点击目标对象并发生预设行为的概率。由上可见，本说明书实施例，一方面，可以在完整样本空间建模，避免了传统用户行为预测模型经常遭遇的样本选择偏差和训练数据稀疏的问题；另一方面，总损失函数考虑了主任务的损失、第一辅助任务的损失和第二辅助任务的损失，从业务目标出发，目标输出是主任务的输出，考虑主任务的损失可以让模型更好的学习目标空间分布。结合上述两方面，可以取得很好的训练效果，使得训练后的用户行为预测模型能够准确地预测用户行为。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的训练用户行为预测模型的方法流程图；

图3示出根据一个实施例的转化预估模型的训练过程示意图；

图4示出根据一个实施例的训练用户行为预测模型的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及训练用户行为预测模型。用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，其中，用户点击目标对象后发生预设行为常称为转化，相应地，用户点击目标对象后未发生预设行为则称为未转化。用户点击目标对象后发生预设行为的概率称为转化率(conversionrate，CVR)，用户点击目标对象的概率称为点击率(click through rate，CTR)，用户点击目标对象并发生预设行为的概率称为点击转化率(post-view clickthrough&conversionrate，CTCVR)。

可选地，上述目标对象可以为商品图片、APP的图片等，用作广告用途，也就是商品广告。需要说明的是上述目标对象并不限定于此，在各种涉及用户点击的场景均适用。

参照图1，用户遵循一定的行为序列，首先看到目标对象，然后点击目标对象，再发生预设行为，这一过程可以表示为：曝光(impression)->点击(click)->转化(conversion)。其中，曝光对应的用户空间包含点击对应的用户空间，点击对应的用户空间包含转化对应的用户空间。本说明书实施例的用户行为预测模型基于曝光对应的用户空间作为样本空间，从该样本空间中选取训练样本，预测空间与该样本空间相一致，可以克服通常地样本选择偏差和训练数据稀疏等问题。

本说明书实施例，采用了多任务学习(multi-task Learning)的方式训练用户行为预测模型。多任务学习是把多个相关的任务放在一起同时并行学习，梯度同时反向传播。通过共享相关任务之间的浅层表征，可以使模型更好地概括原始任务，提升泛化效果。其中，主要关注的是一个任务，该任务称为主任务，多任务学习中的其他任务称为辅助任务。主任务通过使用包含在相关辅助任务的监督信号中的领域知识来提高学习及泛化性能。

本说明书实施例，在训练用户行为预测模型时，考虑了主任务的损失、第一辅助任务的损失和第二辅助任务的损失，从业务目标出发，目标输出是主任务的输出，考虑主任务的损失可以让模型更好的学习目标空间分布，可以取得很好的训练效果，使得训练后的用户行为预测模型能够准确地预测用户行为。

图2示出根据一个实施例的训练用户行为预测模型的方法流程图，用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，该方法可以基于图1所示的实施场景。如图2所示，该实施例中训练用户行为预测模型的方法包括以下步骤：

首先在步骤21，获取多个训练样本，每个训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，第一标签指示用户点击目标对象后是否发生预设行为，第二标签指示用户是否点击目标对象，第三标签指示是否用户点击目标对象并发生预设行为。可以理解的是，上述第一标签、第二标签和第三标签分别是对应不同任务的标签。

在一个示例中，所述获取多个训练样本，包括：

进一步地，所述预设过滤条件还包括：第二过滤条件；

在一个示例中，所述样本特征包括：

用户端特征和目标对象端特征；

在一个示例中，所述样本特征包括：

多个连续型特征和多个离散型特征；

然后在步骤22，将多个训练样本中的任一训练样本作为目标训练样本，将目标训练样本的样本特征输入用户行为预测模型，基于用户行为预测模型对应于主任务的预测输出和第一标签，以及基于用户行为预测模型对应于第一辅助任务的预测输出和第二标签，以及基于用户行为预测模型对应于第二辅助任务的预测输出和第三标签，利用预先设定的对应于多个训练样本的总损失函数，采用多任务学习的方式训练用户行为预测模型；其中，主任务用于预测用户点击目标对象后发生预设行为的概率，第一辅助任务用于预测用户点击目标对象的概率，第二辅助任务用于预测用户点击目标对象并发生预设行为的概率。可以理解的是，总损失函数与主任务的预测损失、第一辅助任务的预测损失和第二辅助任务的预测损失相关。

在一个示例中，所述总损失函数包括：

进一步地，所述总损失函数还包括：

进一步地，所述偏差修正项包括准入因子；

当所述第一预估偏差小于预设阈值时，所述准入因子为1；

在一个示例中，所述用户行为预测模型包括第一网络层、第二网络层和第三网络层；

所述第一网络层用于输出所述主任务的预测输出；

所述第二网络层用于输出所述第一辅助任务的预测输出；

在一个示例中，在步骤22之后，所述方法还包括：

进一步地，所述目标对象属于商品广告；所述方法还包括：

可以理解的是，对应图1所示的实施场景，以目标对象为商品广告为例，对本说明书实施例提供的方法做出进一步地说明。该实施例中，用户行为预测模型具体为转化预估模型，主任务为预测发生转化行为的概率P_CVR，第一辅助任务为预测发生点击行为的概率P_CTR，第二辅助任务为预测发生点击转化行为的概率P_CTCVR。

图3示出根据一个实施例的转化预估模型的训练过程示意图。参照图3，该实施例中使用电子支付平台的商品广告的历史点击与转化数据，结合广告端特征和用户在该电子支付平台内的行为数据(例如，矩阵页面中点击行为数据，小程序和生活号中的浏览、关注、收藏、交易行为等行为数据)进行建模。针对某一商品广告，对用户的转化行为进行预估。主要的流程如下：

首先，进行多行为数据拼接，以获得多个训练样本。

现有数据包括转化行为数据集(CVR数据集)和点击行为数据集(CTR数据集)，首先将它们进行合并与拼接。在该实施例中，CVR数据集与CTR数据集中的特征是一致的，又因为转化预估模型是多任务模型，包括CVR任务(即主任务)、CTR任务(即第一辅助任务)、CTCVR任务(即第二辅助任务)，所以可以拼接成一条数据对应3个标签的形式，记作：

X→(Label_CTR,Label_CVR,Label_CTCVR)

其中，X为每条数据对应的特征集合。

然后，将第T-k天到第T天的用户端特征和广告端特征全部量化，分别表示成F_user和F_ad。F_user和F_ad构成特征集合X，记作X＝(F_user,F_ad)。可选地，k＝15，可以理解的是，其他合理的k值也是可以的。

本说明书实施例中，用户端特征F_user包括：静态属性(性别、年龄、收入、职业、基于位置的服务(location based services，LBS)住址)，用户画像特征，资产类特征(账户、花呗或银行账号余额等)，矩阵页面访问数据(登录或点击等行为数据)，小程序和生活号用户行为数据(浏览、关注、收藏或交易等行为数据)，支付成功页用户行为数据，集团兴趣数据、消费行为数据(购物平台的搜索、浏览、关注、购买等行为数据)，线下支付行为等特征。广告端特征F_ad包括：广告标识(ID)、计划ID、广告主ID、展位特征、创意特征等。

其中，用户端特征F_user和广告端特征F_ad中都包含连续型特征(即稠密型特征)和离散型特征，本说明书实施例的转化预估模型中，分别对不同类型的特征采取不同的处理方式。

接着，是模型训练过程。本说明书实施例采用了基于多任务的深度学习模型，参见图3所示的模型结构，可以理解的是，还可以使用其他模型结构，如增加或减少全连接层的个数，改变参数共享方式等。模型输入为F_user和F_ad类特征，模型输出为模型分别在CTR任务、CVR任务和CTCVR任务上的打分。

模型可以定义为：

(F_user,F_ad)→P(Label_CTR＝1|F_user,F_ad),P(Label_CVR＝1|F_user,F_ad),P(Label_CTCVR＝1|F_user,F_ad)

损失函数(lossfunction)为：

Loss＝λ₁L_CTR+λ₂L_CTCVR+λ₃L_CVR+isdrop×λ₄||∑P_CVR-Nconversion||₂

其中,每个子任务的损失函数loss(L_CTR，L_CVR和L_CTCVR)均为交叉熵损失函数(crossentropy loss)。可选地，权重设置为λ₁＝1,λ₂＝10,λ₃＝10,λ₄＝0.01，可以理解的是，其他合理的权重设置也是可以的。isdrop用来判断是否加入偏差修正项，取值为0或1。

最后，利用上述训练好的模型，预测第T+1天的转化概率P_CVR，如下所示：

(F′_user,F′_ad)→P(Label_CVR＝1|F′_user,F′_ad)＝P_CVR

其中F′_user和F′_ad是第T+1天的用户端特征和广告端特征。

下面详细介绍图3所示实施例中转化预估方案的具体细节：

首先介绍数据拼接细节。

CVR数据集中，只有转化相关的标签Label_CVR，值为0或1，0代表未转化，1代表转化。因为CVR数据集中都是点击过的数据，所以令Label_CTR＝1。CVR数据集记作集合X_CVR。

CTR数据集中，只有点击相关的标签Label_CTR，值为0或1，0代表未点击，1代表点击。因为Label_CTR＝1的样本都包含在CVR数据集中，所以本说明书实施例中只使用Label_CTR＝0的样本构成集合X_CTR。因为X_CTR中的样本都是未点击的数据，不可能发生转化，所以令Label_CVR＝0。

X_CVR和X_CTR就可以拼接成特征集合X，记作：

为了避免加入过多的未点击数据削弱CVR任务的效果，本说明书实施例对集合X_CTR进行随机采样，采样后的新集合记作X′_CTR。本说明书实施例中，可以预先设定采样个数(例如2万)，可以理解的是，其他合理的采样个数也是可以的。

综上所述，训练样本可以记作：

其中根据CTCVR的定义可得，Label_CTCVR＝Label_CTR*Label_CVR。特别的指出，这里Label_CTCVR＝Label_CVR。

然后介绍特征提取细节。

在用户端特征F_user中，静态属性和用户画像特征为离散型特征(即稀疏型特征)，特征值为对应值的编号(如男＝0，女＝1等)。

对于F_user中的行为类特征(矩阵页面访问数据，小程序和生活号用户行为，支付成功页用户行为，集团兴趣、消费行为，线下支付行为)主要提取统计特征。例如对于支付成功页用户的交易行为，可以提取以下几个统计特征：最近1天的交易笔数、最近3天的交易笔数、最近7天的交易笔数。对于登录行为，可以提取以下特征：蚂蚁森林最近30天登陆天数、刮刮卡活动最近30天登陆天数、口碑最近30天登陆天数。将资产类特征量化为5个等级，分别为低、较低、中等、较高、高。在本说明书实施例中，这些统计类或量化类特征属于稠密型特征。

广告端特征F_ad包括：广告ID、计划ID、广告主ID、展位特征、创意特征等。本说明书实施例中使用的Fad特征都是稀疏型特征，特征值为对应的ID编号。

除上述特征，还可以采用更多的特征，比如用户社交行为、场景类特征、广告的图像特征及内容描述特征等。其中场景类特征可以包括：设备相关特征(设备类型、手机品牌、操作系统、当前LBS)，场景上下文(上下文文本，包括信息流(feeds)上下文和横幅(banner)上下文)，时间相关特征(小时(hour)、工作日(workday)、周末(weekend))等。

在转化预估模型中，对稀疏型特征的处理方式为：先分别对每个特征值进行嵌入(embedding)，再将这条数据中不同特征的嵌入值进行和池化(sumpooling)。对稠密型特征的处理方式是直接将特征值输入到模型。

嵌入(embedding)：一种将离散变量转变为连续向量的方式。本说明书实施例中，对所有的离散特征均采用嵌入处理，特征间的拼接方式为和池化(sumpooling)。

例如，在某个实例中，有n个离散特征，离散特征i的嵌入值为：

Emb_i＝[e_i,1,e_i,2,...,e_i,j]

则和池化后的特征为：

最后介绍偏差修模块。

为了防止模型的偏差过高或过低，本说明书实施例在损失函数中加入偏差惩罚项，实现批量(batch)级别的偏差修正。例如在一批样本中，真实的转化个数为N^conversion，模型CVR任务对每个样本的转化预估打分为P_CVR，预测值与真实值的偏差(predicted CVRover CVR，PCOC)用来评估模型打分的偏差，理想情况下PCOC值为1。根据PCOC的定义可以得到：

期望PCOC趋近于1，等价于，期望||∑P_CVR-N^conversion||₂趋近于0。

此外，模型的主要目标是尽可能的提高预估准确性，偏差应该在模型训练稳定后再进行微调。为了实现这一思想，本说明书实施例中采用CVR任务的预测损失(loss)大小确定偏差修正项的准入时机。

其中，m是根据历史模型稳定时，统计出的CVR任务的预测损失(loss)的均值。可选地，m的取值为0.05。

接着介绍不同任务的损失函数计算方式。

根据不同任务的定义，对于CTR和CTCVR任务，使用全量样本计算预测损失(loss)，上述全量样本可以对应于能够看到广告的用户，参照图1所示的曝光对应的样本空间；对于CVR任务，使用点击的样本(Label_CTR＝1)计算预测损失(loss)，参照图1所示的点击对应的样本空间。例如，在一个实例中，一个批样本(batch)有u个样本，则在该批样本中，CTR任务的损失函数L_CTR、CTCVR任务的损失函数L_CTCVR、CVR任务的损失函数L_CVR的计算公式分别为：

本说明书实施例中，对CVR的准确预估，有助于对广告的合理出价。

目标转化出价(optimized cost per click，OCPC)：一种广告出价策略。广告系统以广告主设定的广告目标作为系统的优化核心，并基于目标转化价格，灵活的调整出价(bid)，以每点击成本(cost per click，CPC)进行计费，使得实际最终的转化价格在趋同于目标转化价格情况下，获得更多的转化数量。

当前，一个重要的工作是通过精准匹配等算法，优化APP端内广告与流量匹配，满足生态伙伴目标。对于广告主来说，他们的目标就是获得更多的流量。其中一种常见的方法就是采用OCPC竞价机制对广告进行动态调价，以此来提升广告主的投资回报率(ROI)。OCPC是依据转化价值进行出价，因此离不开高质量的转化预估模型的支持。

通常的转化预估模型往往只关注预估准确性，没有考虑到预估打分的偏差。在OCPC机制下，如果PCOC过分高估，会导致每次行动成本(cost per action，CPA)高，从而有损广告主的ROI；如果PCOC过分低估，说明模型对用户的转化打分偏低，大部分流量被截断，导致广告主拿到的流量变少，甚至拿不到流量。本说明书实施例提供的方法，有助于流量的合理分配。

本说明书实施例提供的方法，在提高模型的转化预估能力的同时，尽可能的降低预估偏差(让PCOC尽可能的接近于1)，增加模型的实用性与可用性。可以使用曲线下面积(area under curve，AUC)来评估模型的预估能力。

P_CTR本说明书实施例提供的方法，从业务目标出发，目标输出是CVR任务的打分，增加CVR任务的预测损失可以让模型更好的学习目标空间分布，从而避免训练崩溃问题；不直接将CVR与CTR任务的打分相乘，而是将对应的网络层相乘，将CTCVR任务作为一种正则方式，约束模型；由于增加了CTR负样本，并且调节了损失函数中的各个任务的权重比例，相应地，加入额外的PCOC矫正模块，保证偏差在可接受范围内。从PCOC的定义可以得出，期望的是CVR任务的打分和与转化数尽可能的接近，因此可以把这两块的差值的二范数当作约束项，加入到预测损失中。另外，偏差应该在模型稳定后再进行微调，本说明书实施例根据CVR任务的预测损失确定偏差修正项的准入时机。

根据另一方面的实施例，还提供一种训练用户行为预测模型的装置，所述用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，该装置用于执行本说明书实施例提供的训练用户行为预测模型的方法。图4示出根据一个实施例的训练用户行为预测模型的装置的示意性框图。如图4所示，该装置400包括：

获取单元41，用于获取多个训练样本，每个所述训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，所述第一标签指示用户点击目标对象后是否发生预设行为，所述第二标签指示用户是否点击目标对象，第三标签指示是否用户点击目标对象并发生预设行为；

训练单元42，用于将所述获取单元41获取的多个训练样本中的任一训练样本作为目标训练样本，将所述目标训练样本的样本特征输入所述用户行为预测模型，基于所述用户行为预测模型对应于主任务的预测输出和所述第一标签，以及基于所述用户行为预测模型对应于第一辅助任务的预测输出和所述第二标签，以及基于所述用户行为预测模型对应于第二辅助任务的预测输出和所述第三标签，利用预先设定的对应于所述多个训练样本的总损失函数，采用多任务学习的方式训练所述用户行为预测模型；其中，所述主任务用于预测用户点击目标对象后发生预设行为的概率，所述第一辅助任务用于预测用户点击目标对象的概率，所述第二辅助任务用于预测用户点击目标对象并发生预设行为的概率。

可选地，作为一个实施例，所述获取单元41包括：

获取子单元，用于获取目标对象的历史点击与转化数据，所述历史点击与转化数据包括初始转化行为数据集和初始点击行为数据集，所述初始转化行为数据集中各条样本具有已知标签值的所述第一标签，所述初始点击行为数据集中各条样本具有已知标签值的所述第二标签；

过滤子单元，用于从所述获取子单元获取的初始点击行为数据集中筛选出符合预设过滤条件的各条样本，得到过滤点击行为数据集；所述预设过滤条件至少包括第一过滤条件，所述第一过滤条件为选取所述第二标签的标签值指示出用户未点击目标对象的样本；

确定子单元，用于确定所述获取子单元获取的所述初始转化行为数据集和所述过滤点击行为数据集中各条样本分别对应的第一标签、第二标签和第三标签的标签值，得到所述多个训练样本。

进一步地，所述确定子单元，具体用于：

进一步地，所述预设过滤条件还包括：第二过滤条件；

可选地，作为一个实施例，所述样本特征包括：

用户端特征和目标对象端特征；

可选地，作为一个实施例，所述样本特征包括：

多个连续型特征和多个离散型特征；

所述用户行为预测模型包括特征处理层，用于对所述多个连续型特征进行第一处理，对所述多个离散型特征进行第二处理，第一处理包括：直接输出各连续型特征的特征值；

第二处理包括：先分别对各离散型特征的特征值进行嵌入得到各自对应的嵌入向量，再将各嵌入向量进行和池化得到综合嵌入向量，输出所述综合嵌入向量。

可选地，作为一个实施例，所述总损失函数包括：

第一损失项，用于从所述获取单元41获取的多个训练样本中选取所述第二标签的标签值指示出用户未点击目标对象的部分训练样本，根据所述部分训练样本中各训练样本的分别针对所述主任务的预估偏差，确定所述主任务对应于所述多个训练样本的第一预估偏差；

进一步地，所述总损失函数还包括：

进一步地，所述偏差修正项包括准入因子；

当所述第一预估偏差小于预设阈值时，所述准入因子为1；

可选地，作为一个实施例，所述用户行为预测模型包括第一网络层、第二网络层和第三网络层；

所述第一网络层用于输出所述主任务的预测输出；

所述第二网络层用于输出所述第一辅助任务的预测输出；

可选地，作为一个实施例，所述获取单元41，还用于获取当前时间的目标用户的第一用户端特征和目标对象的第一目标对象端特征；

所述装置还包括：

预测单元，用于将所述获取单元41获取的所述第一用户端特征和所述第一目标对象端特征输入所述训练单元42训练后的所述用户行为预测模型，通过所述用户行为预测模型输出所述目标用户点击所述目标对象后的发生预设行为的预估概率。

进一步地，所述目标对象属于商品广告；所述装置还包括：

出价单元，用于根据所述预测单元得到的预估概率和预先设定的目标转化价格，确定针对所述目标对象的当前出价。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种训练用户行为预测模型的方法，所述用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，所述方法包括：

获取多个训练样本，每个所述训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，所述第一标签指示用户点击目标对象后是否发生预设行为，所述第二标签指示用户是否点击目标对象，第三标签指示是否用户点击目标对象并发生预设行为；

2.如权利要求1所述的方法，其中，所述获取多个训练样本，包括：

3.如权利要求2所述的方法，其中，所述确定所述初始转化行为数据集和所述过滤点击行为数据集中各条样本分别对应的第一标签、第二标签和第三标签的标签值，包括：

4.如权利要求2所述的方法，其中，所述预设过滤条件还包括：第二过滤条件；

5.如权利要求1所述的方法，其中，所述样本特征包括：

用户端特征和目标对象端特征；

6.如权利要求1所述的方法，其中，所述样本特征包括：

多个连续型特征和多个离散型特征；

7.如权利要求1所述的方法，其中，所述总损失函数包括：

8.如权利要求7所述的方法，其中，所述总损失函数还包括：

9.如权利要求8所述的方法，其中，所述第四预估偏差通过多次预估的所述主任务的预测输出之和与真实发生预设行为的用户的个数之间的差值来体现。

10.如权利要求8所述的方法，其中，所述偏差修正项包括准入因子；

当所述第一预估偏差小于预设阈值时，所述准入因子为1；

11.如权利要求1所述的方法，其中，所述用户行为预测模型包括第一网络层、第二网络层和第三网络层；

所述第一网络层用于输出所述主任务的预测输出；

所述第二网络层用于输出所述第一辅助任务的预测输出；

12.如权利要求1所述的方法，其中，所述方法还包括：

13.如权利要求12所述的方法，其中，所述目标对象属于商品广告；所述方法还包括：

14.一种训练用户行为预测模型的装置，所述用户行为预测模型用于确定用户点击目标对象后发生预设行为的概率，所述装置包括：

获取单元，用于获取多个训练样本，每个所述训练样本包括用户和目标对象的样本特征、第一标签、第二标签和第三标签，其中，所述第一标签指示用户点击目标对象后是否发生预设行为，所述第二标签指示用户是否点击目标对象，第三标签指示是否用户点击目标对象并发生预设行为；

15.如权利要求14所述的装置，其中，所述获取单元包括：

16.如权利要求15所述的装置，其中，所述确定子单元，具体用于：

17.如权利要求15所述的装置，其中，所述预设过滤条件还包括：第二过滤条件；

18.如权利要求14所述的装置，其中，所述样本特征包括：

用户端特征和目标对象端特征；

19.如权利要求14所述的装置，其中，所述样本特征包括：

多个连续型特征和多个离散型特征；

20.如权利要求14所述的装置，其中，所述总损失函数包括：

第一损失项，用于从所述获取单元获取的多个训练样本中选取所述第二标签的标签值指示出用户未点击目标对象的部分训练样本，根据所述部分训练样本中各训练样本的分别针对所述主任务的预估偏差，确定所述主任务对应于所述多个训练样本的第一预估偏差；

21.如权利要求20所述的装置，其中，所述总损失函数还包括：

22.如权利要求21所述的装置，其中，所述第四预估偏差通过多次预估的所述主任务的预测输出之和与真实发生预设行为的用户的个数之间的差值来体现。

23.如权利要求21所述的装置，其中，所述偏差修正项包括准入因子；

当所述第一预估偏差小于预设阈值时，所述准入因子为1；

24.如权利要求14所述的装置，其中，所述用户行为预测模型包括第一网络层、第二网络层和第三网络层；

所述第一网络层用于输出所述主任务的预测输出；

所述第二网络层用于输出所述第一辅助任务的预测输出；

25.如权利要求14所述的装置，其中，所述获取单元，还用于获取当前时间的目标用户的第一用户端特征和目标对象的第一目标对象端特征；

所述装置还包括：

预测单元，用于将所述获取单元获取的所述第一用户端特征和所述第一目标对象端特征输入所述训练单元训练后的所述用户行为预测模型，通过所述用户行为预测模型输出所述目标用户点击所述目标对象后的发生预设行为的预估概率。

26.如权利要求25所述的装置，其中，所述目标对象属于商品广告；所述装置还包括：

27.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-13中任一项的所述的方法。

28.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项的所述的方法。