CN111667024B

CN111667024B - 内容推送方法、装置、计算机设备和存储介质

Info

Publication number: CN111667024B
Application number: CN202010615721.9A
Authority: CN
Inventors: 孙栋衡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-09-05
Anticipated expiration: 2040-06-30
Also published as: CN111667024A

Abstract

本申请涉及一种内容推送方法、装置、计算机设备和存储介质。方法包括：确定第一转化负样本；利用待训练的转化操作识别模型对第一转化负样本进行识别，得到第一操作可能度；利用已训练的转化延时识别模型对第一转化负样本进行识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度；根据第一操作可能度以及转化延时可能度计算得到第一模型损失值，根据第一模型损失值对待训练的转化操作识别模型的模型参数进行调整。上述转化操作识别模型可以是基于人工智能的模型，采用有监督的训练得到，上述方法可以由云服务器执行，采用本方法能够提高转化操作识别模型的识别准确度以及内容推送准确度。

Description

内容推送方法、装置、计算机设备和存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种内容推送方法、装置、计算机设备和存储介质。

背景技术

随着计算机以及互联网技术的发展，人们对互联网的使用越来越频繁。在很多场景下都存在向用户推送内容的需求，例如向用户终端推送广告。

目前，可以通过基于人工智能的转化操作识别模型确定用户对内容进行转化操作的可能度，以根据用户对内容进行转化操作的可能度向用户对应的终端推送内容。然而，经常存在转化操作识别模型识别得到的可能度不准确的情况，导致推送的内容可信赖度低，对用户造成干扰，即转化操作识别模型的识别准确度差。

发明内容

基于此，有必要针对上述技术问题，提供一种内容推送方法、装置、计算机设备和存储介质。

一种内容推送方法，所述方法包括：确定第一转化负样本，所述第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本；利用待训练的转化操作识别模型对所述第一转化负样本进行识别，得到所述第一用户对所述第一推送内容进行转化操作的第一操作可能度；利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在所述目标时刻之前，对所述第一推送内容进行转化操作的可能度，作为转化延时可能度；根据所述第一操作可能度以及所述转化延时可能度计算得到第一模型损失值，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；根据所述第一模型损失值对所述待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于所述训练后的转化操作识别模型进行内容推送。

一种内容推送装置，所述装置包括：转化负样本获取模块，用于确定第一转化负样本，所述第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本；第一操作可能度获取模块，用于利用待训练的转化操作识别模型对所述第一转化负样本进行识别，得到所述第一用户对所述第一推送内容进行转化操作的第一操作可能度；转化延时可能度得到模块，用于利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在所述目标时刻之前，对所述第一推送内容进行转化操作的可能度，作为转化延时可能度；第一模型损失值得到模块，用于根据所述第一操作可能度以及所述转化延时可能度计算得到第一模型损失值，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；训练模块，用于根据所述第一模型损失值对所述待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于所述训练后的转化操作识别模型进行内容推送。

在一些实施例中，所述转化负样本获取模块用于：获取训练负样本，所述训练负样本为在目标时刻，候选用户对候选推送内容未进行转化操作的样本；将对应的目标时刻小于时刻阈值的训练负样本，作为第一转化负样本。

在一些实施例中，所述装置还包括：第二转化负样本获取模块，用于将对应的目标时刻大于所述时刻阈值的训练负样本，作为第二转化负样本；当前转化操作识别模型训练模块，用于根据所述第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的当前转化操作识别模型作为所述待训练的转化操作识别模型。

在一些实施例中，当前转化操作识别模型训练模块用于：利用当前内容转化模型对所述第二转化负样本进行识别，得到第二用户对第二推送内容进行转化操作的可能度，作为第二操作可能度；根据所述第二操作可能度计算得到第二模型损失值，所述第二模型损失值与所述第二操作可能度成正相关关系；根据所述第二模型损失值对当前转化操作识别模型的模型参数进行调整。

在一些实施例中，当前转化操作识别模型训练模块用于：获取转化正样本，所述转化正样本为第三用户对第三推送内容进行转化操作的样本；根据所述第二转化负样本以及所述转化正样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的转化操作识别模型作为所述待训练的转化操作识别模型。

在一些实施例中，所述第一模型损失值得到模块用于：将所述第一操作可能度与所述转化延时可能度进行乘积运算，得到第一乘积；根据所述第一乘积进行对数计算，得到第一模型损失值，所述第一模型损失值与所述第一乘积成正相关关系。

在一些实施例中，第一模型损失值得到模块用于：根据所述第一操作可能度计算得到对数损失值，所述对数损失值与所述第一操作可能度成正相关关系；将所述对数损失值与所述转化延时可能度进行乘积运算，得到第一模型损失值。

在一些实施例中，所述转化延时可能度得到模块：利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在各个候选时刻，对所述第一推送内容进行转化操作的可能度；将在所述目标时刻之前的候选时刻，对所述第一推送内容进行转化操作的可能度相加，得到转化延时可能度。

在一些实施例中，所述转化延时识别模型的训练模块用于：获取转化正样本，所述转化正样本为在转化时刻，第三用户对第三推送内容进行转化操作的样本；利用待训练的转化延时识别模型对所述转化正样本进行识别，得到所述第三用户在候选时刻，对所述第三推送内容进行转化操作的预测可能度分布；根据所述预测可能度分布，与所述转化时刻对应的标准可能度分布的差异，得到第三模型损失值，根据所述第三模型损失值对所述待训练的转化延时识别模型的模型参数进行调整，直至满足模型收敛条件，得到已训练的转化延时识别模型。

在一些实施例中，所述训练模块用于：根据所述第一模型损失值进行反向传播，并在反向传播的过程中，沿梯度下降方向更新所述待训练的转化操作识别模型的模型参数，得到训练后的转化操作识别模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述内容推送方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述内容推送方法的步骤。

上述内容推送方法、装置、计算机设备和存储介质，对于目标时刻之前，第一用户对第一推送内容未进行转化操作的第一转化负样本，可以基于已训练的转化延时识别模型对第一转化负样本进行转化时刻识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度，因此转化延时可能度代表了第一转化负样本在目标时刻之前转化完成的可能性，可能性越大，则说明第一转化负样本是真正的负样本的可能性越大，即采集的负样本越准确，因此通过使第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系，能够使得越准确的负样本对模型参数的调整的影响越大，使得模型参数的调整更加准确，提高了训练得到的转化操作识别模型的识别准确度。

一种内容推送方法，所述方法包括：接收目标用户对应的内容推送请求；响应于所述内容推送请求，根据训练后的转化操作识别模型确定所述目标用户对各个候选推送内容的转化操作可能度，所述训练后的转化操作识别模型是根据第一模型损失值进行模型训练得到的，所述第一模型损失值根据第一操作可能度以及转化延时可能度计算得到，所述第一操作可能度为利用待训练的转化操作识别模型对第一转化负样本进行识别得到的，所述转化延时可能度为利用已训练的转化延时识别模型对所述第一转化负样本进行识别得到的，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；根据所述候选推送内容对应的转化操作可能度确定目标推送内容；向所述目标用户对应的终端推送所述目标推送内容。

一种内容推送装置，所述装置包括：内容推送请求接收模块，用于接收目标用户对应的内容推送请求；转化操作可能度获取模块，用于响应于所述内容推送请求，根据训练后的转化操作识别模型确定所述目标用户对各个候选推送内容的转化操作可能度，所述训练后的转化操作识别模型是根据第一模型损失值进行模型训练得到的，所述第一模型损失值根据第一操作可能度以及转化延时可能度计算得到，所述第一操作可能度为利用待训练的转化操作识别模型对第一转化负样本进行识别得到的，所述转化延时可能度为利用已训练的转化延时识别模型对所述第一转化负样本进行识别得到的，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；目标推送内容确定模块，用于根据所述候选推送内容对应的转化操作可能度确定目标推送内容；推送模块，用于向所述目标用户对应的终端推送所述目标推送内容。

在一些实施例中，所述目标推送内容确定模块用于：确定所述目标用户对所述候选推送内容的点击操作可能度；根据所述候选推送内容对应的点击操作可能度、所述候选推送内容对应的转化操作可能度以及所述候选推送内容对应的转化价值，确定所述候选推送内容对应的展现价值；根据所述候选推送内容对应的展现价值确定目标推送内容。

上述内容推送方法、装置、计算机设备和存储介质，对于目标时刻之前，第一用户对第一推送内容未进行转化操作的第一转化负样本，可以基于已训练的转化延时识别模型对第一转化负样本进行转化时刻识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度，因此转化延时可能度代表了第一转化负样本在目标时刻之前转化完成的可能性，可能性越大，则说明第一转化负样本是真正的负样本的可能性越大，即采集的负样本越准确，因此通过使第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系，能够使得越准确的负样本对模型参数的调整的影响越大，因此能够使得模型参数的调整更加准确，提高了训练得到的转化操作识别模型的转化识别准确度，故基于训练后的转化操作识别模型识别得到的转化操作可能度确定目标推送内容，能够提高内容推送的准确度。

附图说明

图1为一些实施例中内容推送方法的应用环境图；

图2为一些实施例中内容推送方法的流程示意图；

图3A为一些实施例中转化操作识别模型的识别原理示意图；

图3B为一些实施例中DNN模型的结构示意图；

图4A为一些实施例中转化延时模型的识别原理示意图；

图4B为一些实施例中内容推送的界面示意图；

图5为一些实施例中内容推送方法的流程示意图；

图6为一些实施例中内容推送方法的流程示意图；

图7为一些实施例中广告系统的结构图；

图8为一些实施例中内容推送装置的结构框图；

图9为一些实施例中内容推送装置的结构框图；

图10为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一转化负样本称为第二转化负样本，且类似地，可将第二转化负样本称为第一转化负样本。

本申请提供的内容推送方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104可以根据本申请实施例提供的内容推送方法进行模型训练，得到训练后的转化操作识别模型。服务器104中可以部署有训练后的转化操作识别模型。当需要推送内容时，例如当服务器104接收到向用户对应的终端102推送内容的请求时，则服务器104利用训练后的转化操作识别模型确定目标推送内容。服务器104可以向终端102返回目标推送内容，终端102展示目标推送内容。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。可以理解，本申请实施例提供的方法也可以是在终端中执行的。可以理解，本申请实施例提供的方法也可以是在终端中执行的。

本申请实施例提供的转化操作识别模型是基于人工智能的模型，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的转化操作识别模型可以部署于云服务器中，云服务器可以基于该转化操作识别模型进行内容推送，以从海量内容中得到推送至目标用户的目标推送内容。

在一些实施例中，如图2所示，提供了一种内容推送方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，确定第一转化负样本，第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本。

具体地，负样本(negative sample)是与正样本(positive sample)相反的样本。转化负样本是用户对推送内容没有进行转化操作的样本，转化正样本是用户对推送内容进行了转化操作的样本。转化操作是指推送内容推送至用户对应的终端之后，用户对该推送内容的特定操作，转化操作可以根据内容推送的目的确定。用户对推送内容进行转化操作，能够使得内容完成其推送的目的。比如，如果推送内容为商品的广告，推送目的为使得用户购买该商品，那么用户对该商品进行下单的操作为相应的转化操作；如果推送内容为APP(Application，应用程序)的广告，推送目的为使得用户下载该APP，转化操作可以设定为用户下载该APP的操作，如果推送目的为使得用户在app上进行付费操作，则转化操作可以设定为用户在app中进行付费的操作。

第一推送内容是推送至第一用户对应的终端的内容，推送内容是指向终端推送的信息，例如可以是广告，广告例如可以是衣服类的广告或者应用程序类的广告等。第一用户以及第一推送内容可以根据需要确定，例如第一推送内容可以是特定类型的内容，如衣服类别的广告。

目标时刻可以是指确定第一转化负样本时，转化负样本所对应的时刻，“目标时刻之前”包括目标时刻本身。时刻的度量单位可以根据需要设置，例如可以以天为单位也可以是以小时为单位。目标时刻的计算基准点是第一用户点击第一推送内容的时间，将距离第一用户点击第一推送内容的时间的时间间隔来度量目标时刻，即目标时刻表示从点击第一推送内容的操作发生的时间开始，到当前时间所经历的时长。举个例子，假设用户点击一个衣服类的广告的时间是10点，时刻以小时为单位，当前时间为11点，则经历的时间长度为1小时，得到的第一转化负样本对应的目标时刻为1小时，该第一转化负样本为该用户对该衣服类广告进行点击之后的1个小时之内，没有对该衣服进行购买的样本。假设另一个用户点击一个衣服类的广告的时间是9点，时刻以小时为单位，当前时间为11点，则经历的时间长度为2小时，得到的第一转化负样本对应的目标时刻为2小时。

具体地，服务器在获取用于进行模型训练的训练样本时，可以获取当前时间为止，用户还没有对推送内容进行转化操作的样本，作为第一转化负样本。

在一些实施例中，可以是将当前时间为止，所有未转化的样本作为第一转化负样本，也可以是对当前时间为止，所有未转化的样本进行筛选，得到第一转化负样本。例如，对广告的点击操作发生后，通常会存在转化延时问题，即转化操作有时候会有较长时间的延时，或许是几分钟或者几天，甚至一个月以上，因此可以将目标时刻小于转化回流窗口的负样本作为第一转化负样本。其中，转化回流是指点击操作发生后，对应的转化操作回传回来。转化回流窗口表示时间间隔，可以是根据经验自定义的，例如可以是5天。转化回流窗口代表点击之后，等待多久之后可以视作转化回流完全，超过转化回流窗口的样本可以视为是转化回流完全，即视为是用户不会对该推送内容进行转化的样本，未超过转化回流窗口的样本视为是转化回流不完全，用户在转化回流窗口内，还可能对推送内容进行转化操作。

例如，对于广告，当用户点击该广告后，从点击广告到转化(购买该广告中的商品)往往需要一段时间。如用户在点击广告进入广告详情页面，了解广告中的商品的信息之后，不一定是马上购买该商品，而是过了一段时间才购买该商品，即从点击到购买存在一定的时间差，因此可以设定转化回流窗口，为5天，将点击操作发生5天内，还没转化的样本作为第一转化负样本，该第一转化负样本是转化回流不完全的负样本，即第一转化负样本从点击推送的内容到当前时间所经历的时间长度小于转化回流窗口，用户还可能在转化回流窗口内对该推送内容进行转化操作。

步骤S204，利用待训练的转化操作识别模型对第一转化负样本进行识别，得到第一用户对第一推送内容进行转化操作的第一操作可能度。

其中，转化操作识别模型是对用户对推送内容进行点击操作后，发生转化操作的可能度进行建模的模型，可能度表示可能的程度，可能度越大，则越有可能，可能度可以用概率表示。即转化操作识别模型可以用于确定用户点击推送内容之后，对该推送内容进行转化操作的概率，转化操作识别模型可以称为CVR(Conversion Rate，转化率)预估模型。

一条第一转化负样本为一个特征集合所代表的一条样本，例如，第一转化负样本可以包括第一用户对应的用户特征以及第一推送内容对应的内容特征组成的特征集合。用户特征是与目标用户相关的特征，用于描述用户的特性。用户特征可以包括用户的属性信息。用户属性信息例如可以包括用户的年龄、性别以及居住地中的至少一种信息。推送内容对应的内容特征可以包括推送内容的类型、关键词特征或者推送内容的名称等，具体可以根据需要设置。

待训练的转化操作识别模型是指还需要进一步训练的模型，可以是还未训练过的转化操作识别模型，也可以是经过一轮或者多轮模型训练得到的转化操作识别模型。例如，可以通过转化回流完全的转化正样本和转化负样本进行模型训练，将训练得到的模型，作为需要利用第一转化负样本进行训练的模型。

具体地，可以将第一转化负样本所对应的特征集合输入到待训练的转化操作识别模型中，转化操作识别模型对特征集合进行处理，得到第一用户对第一推送内容进行转化操作的第一操作可能度，第一操作可能度越大，表示转化操作识别模型预测的第一用户对第一推送内容进行转化操作的可能性越大。

在一些实施例中，转化操作识别模型可以是LR(LogisticRegression，逻辑回归)模型或者DNN(Deep Neural Networks，深度神经网络)模型，LR模型的输入可以是one-hot(独热)离散特征，输出是0至1之间的概率值。DNN模型的输入可是one-hot离散特征，输出是0至1之间的概率值。

在一些实施例中，DNN的输入还可以是LR模型以及FM(Factorization Machine，因子分解机)模型进行特征提取得到的特征，FM模型的输入可以是one-hot(独热)离散特征，输出是0至1之间的概率值。例如，如图3A所示，可以将LR模型以及FM模型进行特征提取得到的权重作为DNN模型的输入，以进行稀疏学习(Sparse learner)，提高模型训练效果。图3A中，S1，…，SN是LR模型离散特征对应的权重，S1_DimK,…，SN_DimK是FM模型的离散特征对应的权重。DNN模型的特征嵌入层可以获取FM模型以及LR模型得到的特征权重，经过隐藏层(Hidden layer)以及激活函数(例如ReLU函数)的处理，可以得到第一用户对第一推送内容进行转化操作的第一操作可能度。

图3B为一些实施例中，DNN模型的结构示意图。DNN模型可以理解为有多个隐藏层的神经网络，多个是指至少两个，DNN也叫做多层感知机(Multi-Layer perceptron,MLP)。按不同层的位置划分，DNN内部的神经网络层可以分为三类：输入层、隐藏层和输出层，一般来说第一层是输入层，最后一层是输出层，而中间的层数是隐藏层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。从小的局部模型来说，DNN的数据处理原理与感知机原理类型，为线性关系z＝∑wi*xi+b加上一个激活函数，wi表示第i个模型参数，xi表示第i个输入的特征，b为模型的偏置。

步骤S206，利用已训练的转化延时识别模型对第一转化负样本进行识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度。

其中，转化延时识别模型为对用户对推送内容进行点击后，转化操作发生在各个时刻的可能度进行建模的模型。即转化延时识别模型是对点击操作发生后，如果转化操作要发生，则转化操作相对于点击操作的延时时长进行建模的模型。例如，转化延时识别模型可以输出点击操作发生后，转化操作在各个候选时刻发生的概率。候选时刻的个数可以根据转化回流窗口确定，例如，当转化回流窗口以天为单位时，假设转化回流窗口为5天，则候选时刻包括第1天、第2天、第3天、第4天以及第5天，转化延时识别模型输出转化操作发生在点击操作发生的第1天、第2天、第3天、第4天以及第5天的概率。

具体地，可以将第一转化负样本所对应的特征集合输入到转化延时识别模型中，转化延时识别模型对特征集合进行处理，得到第一用户在每个候选时刻，对第一推送内容进行转化操作的可能度，可以将在目标时刻之前的候选时刻，对第一推送内容进行转化操作的可能度相加，得到转化延时可能度。

举个例子，对于APP广告，假设转化回流窗口以天为单位，转化回流窗口为5天，用户点击app广告的为9月1日，候选时刻包括第1天、第2天、第3天、第4天以及第5天，转化延时识别模型输出转化操作(下载app的操作)发生在点击操作发生后的第1天(当天)、第2天、第3天、第4天以及第5天的概率，分别为0.2、0.3、0.1、0.05以及0.03。假设当前时间是9月3日，即目标时刻为第3天，则在第3天之前，用户对app下载的概率为0.2+0.3+0.1＝0.6，将0.6作为转化延时可能度。

在一些实施例中，转化延时识别模型可以是LR模型或者softmax(柔性最大值模型)模型，softmax的输入是one-hot离散特征，输出多个值，这些值的和为1，是一个概率分布。服务器可以根据时刻的单位确定模型的类型。例如，对于天级转化识别模型，可以采用softmax模型，对于小时级转化识别模型，可以采用LR模型，天级转化识别模型预测推送内容在不同天进行转化的概率，小时级转化识别模型预测推送内容在不同小时进行转化的概率。如图4A所示，为一些实施例中转化延时识别模型的识别示意图，转化延时识别模型可以包括LR模型以及softmax模型，对于小时级转化识别模型，采用的是LR模型，对于天级转化识别模型，采用的是softmax模型。S1，…，SN是离散特征，有N个离散特征。

在一些实施例中，转化延时识别模型的训练步骤包括：获取转化正样本，转化正样本为在转化时刻，第三用户对第三推送内容进行转化操作的样本；利用待训练的转化延时识别模型对转化正样本进行识别，得到第三用户在候选时刻，对第三推送内容进行转化操作的预测可能度分布；根据预测可能度分布，与转化时刻对应的标准可能度分布的差异，得到第三模型损失值，根据第三模型损失值对待训练的转化延时识别模型的模型参数进行调整，直至满足模型收敛条件，得到已训练的转化延时识别模型。

其中，第三用户可以与第一用户以及第二用户相同，也可以不同。转化时刻是指第三用户对第三推送内容进行转化操作的时刻，为第三用户对第三推送内容进行点击操作与转化操作之间的时间间隔。待训练的转化延时识别模型可以是没有训练过的模型，也可以是经过一次或者多次训练得到的模型。转化延时识别模型是通过转化正样本训练得到的。预测可能度分布是各个候选时刻对应的预测可能度组成的，也可以称为概率分布。标准可能度分布是指转化时刻对应的真实的可能度分布。例如，标准可能度分布中，转化时刻对应的概率为1，其他非转化时刻对应的概率为0。预测可能度分布，与转化时刻对应的标准可能度分布的差异与第三模型损失值成正相关关系，例如可以使用交叉熵损失函数计算得到第三模型损失值。可以朝着第三模型损失值下降的方向调整转化延时识别模型的参数，采用的梯度下降方法可以是随机梯度下降法或者批量梯度下降等等。模型收敛条件可以是模型损失值的小于预设损失值、模型参数的变化小于预设参数变化值或者模型训练次数达到预设次数的至少一个。

具体地，可以将转化正样本的特征集合输入到转化延时识别模型中，转化延时识别模型对特征集合进行处理，输出第三用户在各个候选时刻对推送内容进行转化操作的概率值，得到预测概率分布，根据转化时刻(标签)对应的标准概率分布与预测概率分布的差异，得到第三模型损失值。朝着使第三模型损失值减小的方向，对待训练的转化延时识别模型的模型参数进行更新，得到已训练的转化延时识别模型，从而使得根据转化延时识别模型得到的转化延时可能度更加准确。

步骤S208，根据第一操作可能度以及转化延时可能度计算得到第一模型损失值，第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系。

其中，损失值是根据损失函数得到的，损失函数(loss function)是用于表示事件的“风险”或“损失”的函数。正相关关系是指：在其他条件不变的情况下，两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。即在其他条件不变的情况下，转化延时可能度越大，第一模型损失值越大。

由于第一操作可能度表示第一用户对第一推送内容进行转化操作的可能性，因此第一操作可能度越大，则第一用户对第一推送内容进行转化操作的可能性越大，但由于第一转化负样本是第一用户对第一推送内容未进行转化操作的样本，即在实际中，第一用户并未对第一推送内容进行转化操作，故第一操作可能度越大，表示转化操作识别模型对第一转化负样本的识别能力越差，故第一模型损失值与第一操作可能度成正相关关系，能够表示转化操作识别模型对第一转化负样本的识别能力。

由于第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本，但在点击操作发生后，转化操作可能会有较长时间的延时，即实际上，在目标时刻之后，第一用户是否会对第一推送内容进行转化操作是未知的，即该第一转化负样本有可能在未来的某个时刻为变成正样本，即并不是真正的负样本。而转化延时可能度表示转化负样本在目标时刻之前转化完成的可能性，转化延时可能度越大，说明如果第一用户要对第一训练内容进行转化操作，则在目标时刻之前执行转化操作的可能性是越大的。但是实际上，目标时刻之前，第一用户并没有对第一推送内容进行转化操作，故可以确定在目标时刻之后(即未来时刻)，第一用户对第一推送内容进行第一转化的可能性是越小的，故说明第一转化负样本是真正的负样本的可能性大，通过使得第一模型损失值与转化延时可能度成正相关关系，能够使得为真正的负样本的可能性越大的第一转化负样本对应的模型损失值越大。

从另一个角度看，转化延时识别模型输出的是如果用户要对推送内容进行转化操作，该转化操作发生在各个时刻的可能度，如果转化回流不完全的负样本，在目标时刻之后会转为正样本，则转化延时识别模型输出的其在目标时刻之后转化的概率会大，在目标时刻之前转化的概率小，所以如果目标时刻之前，执行转化操作的可能性小，说明该负样本的标签存在偏差的可能性大，因此要降低其损失值，由于第一模型损失值与在目标时刻之前的转化延时可能度成正相关关系，故在目标时刻之前的转化延时可能度越小，使得标签存在偏差的可能性越大的负样本对模型损失值的影响越小。

具体地，根据第一操作可能度以及转化延时可能度得到第一模型损失值的对应关系可以根据需要设置，例如，服务器可以根据第一操作可能度计算得到交叉熵损失值，根据转化延时可能度得到交叉熵损失值的调整因子，将交叉熵损失值乘以调整因子，得到第一模型损失值。

在一些实施例中，服务器可以根据第一操作可能度计算得到第一转化负样本的对数损失值，对数损失值与第一操作可能度成正相关关系。将转化延时可能度作为调整因子，将对数损失值与转化延时可能度进行乘积运算，即将对数损失值与转化延时可能度相乘，得到第一模型损失值。其中，对数损失值是根据对数似然损失(Log-likelihood Loss))函数计算得到的。

在一些实施例中，根据第一操作可能度以及转化延时可能度计算得到第一模型损失值包括：将第一操作可能度与转化延时可能度进行乘积运算，得到第一乘积；根据第一乘积进行对数计算，得到第一模型损失值，第一模型损失值与第一乘积成正相关关系。

具体地，可以将第一操作可能度与转化延时可能度相乘，得到第一乘积，可以利用预设常数例如1减去第一乘积，得到对数的真数，可以以预设数值作为底数进行对数计算，预设数值大于1，例如可以为自然常数e。将计算得到的对数值进行取反，得到第一模型损失值。例如，第一模型损失值的计算公式可以表示为L1＝-ln(1-a*b)。其中，L1表示第一模型损失值，ln是以自然常数e为底数的对数函数，a为第一操作可能度，b为转化延时可能度。

步骤S210，根据第一模型损失值对待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于训练后的转化操作识别模型进行内容推送。

其中，模型参数是指图像识别模型内部的变量参数，对于神经网络模型，也可以称为神经网络权重(weight)。训练后的转化操作识别模型可以是经过一次或者多次训练得到的。

具体地，服务器可以朝着损失值变小的方向调整待训练的转化操作识别模型中的模型参数，可以经过多次迭代训练，得到训练后的转化操作识别模型。得到训练后的转化操作识别模型之后，服务器可以利用训练后的转化操作识别模型进行转化操作可能度的预测，根据预测得到的转化操作可能度进行内容的推送，例如可以向用户推送转化操作可能度最大的内容。

在一些实施例中，也可以是根据转化操作可能度计算得到eCPM(effective costper mille或者cost per 1000Impressions)值，根据eCPM值进行推送。例如可以是推送eCPM最大的内容。eCPM是指每一千次展示可以获得的收入。

如图4B所示，为进行广告推送后，浏览器中的页面示意图，该页面中可以包括页面内容显示区域402以及广告显示区域404。页面内容显示区域402用于显示页面中的具体页面信息，广告显示区域404用于显示广告。

上述内容推送方法，对于目标时刻之前，第一用户对第一推送内容未进行转化操作的第一转化负样本，可以基于已训练的转化延时识别模型对第一转化负样本进行转化时刻识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度，因此转化延时可能度代表了第一转化负样本在目标时刻之前转化完成的可能性，可能性越大，则说明第一转化负样本是真正的负样本的可能性越大，即采集的负样本越准确，因此通过使第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系，能够使得越准确的负样本对模型参数的调整的影响越大，因此能够使得模型参数的调整更加准确，提高了训练得到的转化操作识别模型的识别准确度。

在一些实施例中，根据第一模型损失值对待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型包括：根据第一模型损失值进行反向传播，并在反向传播的过程中，沿梯度下降方向更新待训练的转化操作识别模型的模型参数，得到训练后的转化操作识别模型。

其中，反向是指参数的更新与确定转化操作可能度的方向是相反的，由于参数的更新是反向传播的，因此可以根据第一模型损失值得到下降梯度，从转化操作识别模型的最后一层开始，根据下降梯度开始进行模型参数的梯度更新，直至到达转化操作识别模型的第一层。梯度下降方法可以是随机梯度下降法和批量梯度下降等等。可以理解，模型的训练可以是迭代多次的，即训练后的转化操作识别模型可以是迭代训练得到的，当满足模型收敛条件时再停止训练，

本申请实施例提供的内容推送方法可以应用于对广告的转化率(ConversionRate)进行预估的转化率预估模型的模型训练中。为了提高转化率预估模型的实时性，需要采用最近的数据进行模型的训练，例如采用最近几天或者几小时的样本进行训练，但是用户对广告的转化操作往往是延时的，例如对广告的点击操作发生后，转化会有较长时间的延时。如果不将最近的数据，例如转化回流不完全的样本为训练样本，将无法利用最新的数据进行模型的训练，导致模型的预估效果差。但如果将转化回流不完全的样本作为训练样本，由于在目标时刻之后，第一用户是否会对第一推送内容进行转化是未知的，即该第一转化负样本有可能在未来的某个时刻为变成正样本，即负样本的标签会存在偏差，导致学习得到的转化率预估模型存在预估偏差，因此可以通过已训练的转化延时识别模型确定转化负样本在目标时刻之前转化完成的可能性(转化延时可能度)，转化延时可能度越大，表示该第一转化负样本是真正的负样本的概率越大，即未来时刻不会转化的可能度越大，故该第一转化负样本对应的模型损失值越大，从而可以尽可能减少由于负样本的标签存在偏差，导致学习得到的转化率预估模型存在预估偏差的情况，使得学习得到的转化操作识别模型既具有实时性，又能够减少预估偏差。

在一些实施例中，确定第一转化负样本包括：获取训练负样本，训练负样本为目标时刻，候选用户对候选推送内容未进行转化操作的样本；将对应的目标时刻小于时刻阈值的训练负样本，作为第一转化负样本。

具体地，训练负样本是用于进行模型训练的负样本。训练负样本中的负样本对应的目标时刻根据用户点击推送内容的时间确定。例如，假设当前时间是12点，训练负样本A中，用户点击对应的推送内容的时间为9点，则训练负样本A对应的目标时刻(时间间隔)为3小时，训练负样本B中，用户点击对应的推送内容的时间为8点，则训练负样本B对应的目标时刻(时间间隔)为4小时。

时刻阈值可以是转化回流窗口的大小，可以根据需要设置，例如可以是5天。当一个训练负样本的目标时刻为第3天时，则目标时刻3天小于时刻阈值5天，将该训练负样本作为第一转化负样本。当一个训练负样本的目标时刻为第6天时，则目标时刻6天大于时刻阈值5天，则可以不将该训练负样本作为第一转化负样本。

本申请实施例中，将目标时刻小于转化回流窗口的训练负样本作为第一转化负样本，即可以将第一转化负样本视为是转化回流不完全的负样本。对于转化回流不完全的负样本，可以联合转化延时识别模型进行训练，即根据转化延时识别模型得到的转化延时可能度计算得到第一模型损失值，这样可以减少转化回流不完全的负样本可能存在的标签偏差对模型训练造成的影响。而对于目标时刻大于转化回流窗口的训练负样本，则可以作为第二转化负样本，即第二转化负样本视为是转化回流完全的样本，其标签可以视为是不存在偏差的，因此在利用第二转化负样本对转化操作识别模型进行训练时，可以不联合转化延时识别模型进行训练，从而使得模型训练更加快捷。

在一些实施例中，如图5所示，步骤S204利用待训练的转化操作识别模型对第一转化负样本进行识别，得到第一用户对第一推送内容进行转化操作的第一操作可能度之前还包括：

步骤S502，将对应的目标时刻大于时刻阈值的训练负样本，作为第二转化负样本。

具体地，可以将所对应的目标时刻大于转化回流窗口的训练负样本，作为第二转化负样本。

步骤S504，根据第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的当前转化操作识别模型作为待训练的转化操作识别模型。

具体地，当前转化操作识别模型是指当前的转化操作识别模型，可以是还未训练过的转化操作识别模型。也可以是经过一次或者多次训练得到的转化操作识别模型。例如，可以是每天对转化操作识别模型进行更新。模型收敛条件可以是训练次数大于预设次数。当满足模型收敛条件时，则进入利用第一转化负样本对模型进行训练的步骤，利用第一转化负样本对更新后的当前转化操作识别模型集进行训练。

本申请实施例中，通过根据第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的转化操作识别模型作为待训练的转化操作识别模型，即可以先通过转化回流完全的负样本对模型进行训练，使得模型的参数的更新准确，再根据转化回流不完全的第一转化负样本进行训练，由于第一转化负样本是在转化回流窗口内的第一转化负样本，实时性强，因此使得模型的参数能够及时的根据新的样本进行学习，不断的根据最新的样本进行优化。

在一些实施例中，根据第二转化负样本对当前转化操作识别模型进行模型训练包括：利用当前内容转化模型对第二转化负样本进行识别，得到第二用户对第二推送内容进行转化操作的可能度，作为第二操作可能度；根据第二操作可能度计算得到第二模型损失值，第二模型损失值与第二操作可能度成正相关关系；根据第二模型损失值对当前转化操作识别模型的模型参数进行调整

其中，第二操作可能度是将第二转化负样本的特征集合输入到当前内容转化模型中，当前内容转化模型对该特征集合进行处理得到的。第二操作可能度可以是值在0至1之间的概率值，第二模型损失值可以是根据交叉熵损失函数得到。第二操作可能度越大，则第二模型损失值越大。可以朝着沿第二模型损失值下降的方向对当前转化操作识别模型的模型参数进行调整。

在一些实施例中，根据第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的当前转化操作识别模型作为待训练的转化操作识别模型包括：获取转化正样本，转化正样本为第三用户对第三推送内容进行转化操作的样本；根据第二转化负样本以及转化正样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的转化操作识别模型作为待训练的转化操作识别模型。

具体地，转化正样本可以是在转化回流窗口内，第三用户对第三推送内容进行转化操作的样本。转化正样本也可以是转化回流窗口外，第三用户对第三推送内容进行转化操作的样本。在对当前转化操作识别模型进行训练时，结合第二转化负样本以及转化正样本进行模型的训练，可以使得模型能够根据正样本和转化回流完全的负样本学习到确定用户是否会对推送内容进行转化操作的模型参数。

在一些实施例中，如图6所示，提供了一种内容推送方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S602，接收目标用户对应的内容推送请求。

具体地，内容推送请求可以是根据目标用户对应的操作触发的。例如，当目标用户需要获取阅读某个页面的文章时，可以通过操作终端发送获取页面的请求，该页面可以存在广告位(广告显示区域)，该广告位用于展示广告，因此服务器可以触发目标用户对应的广告推送请求。

步骤S604，响应于内容推送请求，根据训练后的转化操作识别模型确定目标用户对各个候选推送内容的转化操作可能度。

具体地，转化操作可能度是用户对候选推送内容进行转化操作的可能度，候选推送内容是指候选的可能向目标用户推送的内容。例如服务器可以从广告库中筛选部分广告作为候选推送内容。筛选的规则可以根据需要设置，例如根据目标用户的年龄以及收入等进行筛选。可以获取目标用户的用户特征，以及获取各个候选推送内容的内容特征，将用户特征与候选推送内容的特征输入到训练后的转化操作识别模型中，转化操作识别模型确定目标用户对各个候选推送内容的转化操作可能度。例如，假设候选广告有两个：J1以及J2。则可以将J1的广告特征以及目标用户的特征输入到转化操作识别模型中，得到目标用户对J1进行转化的概率，将J2的广告特征以及目标用户的特征输入到转化操作识别模型中，得到目标用户对J2进行转化操作的概率。

训练后的转化操作识别模型如何进行训练的步骤可以参见步骤S202～S210，在此不在赘述。

步骤S606，根据候选推送内容对应的转化操作可能度确定目标推送内容。

具体地，可以根据预测得到的转化操作可能度进行内容的推送，例如可以向用户推送转化操作可能度最大的内容。

在一些实施例中，根据候选推送内容对应的转化操作可能度确定目标推送内容包括：确定目标用户对候选推送内容的点击操作可能度；根据候选推送内容对应的点击操作可能度、候选推送内容对应的转化操作可能度以及候选推送内容对应的转化价值，确定候选推送内容对应的展现价值；根据候选推送内容对应的展现价值确定目标推送内容。

具体地，点击操作可能度是指用户对候选推送内容进行点击操作的可能度，可以用预测点击率表示。展现价值是指候选推送内容推送至用户的终端，所带来的价值，也可以称为曝光价值，例如可以是eCPM值。可以根据计算得到的每个候选推送内容对应的eCPM值确定目标推送内容，例如可以是将ecpm值满足条件的候选推送内容作为目标推送内容。满足条件可以是eCPM的排序在预设排序之前，如可以将eCPM值最大的候选推送内容作为目标推送内容。

ecpm的计算公式可以表示如下：eCPM＝cpa*ctr*cvr*1000。cpa(cost peraction)是指转化单价，也可以称为转化价值。转化单价是指转化一次对应的转化成本，可以由广告主设定，ctr(Click-Through-Rate)是指预测点击率，预测点击率可以是通过点击率预测模型计算得到的用户对广告的点击概率，cvr(Conversion Rate)是指预测转化率,可以利用本申请实施例提供的训练后的转化操作识别模型，所输出的用户对内容进行转化操作的转化操作可能度表示。

步骤S608，向目标用户对应的终端推送目标推送内容。

具体地，得到目标推送内容后，服务器可以向终端推送目标推送内容，例如可以在终端展示的页面上显示目标推送内容。

上述内容推送方法，对于目标时刻之前，第一用户对第一推送内容未进行转化操作的第一转化负样本，可以基于已训练的转化延时识别模型对第一转化负样本进行转化时刻识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度，因此转化延时可能度代表了第一转化负样本在目标时刻之前转化完成的可能性，可能性越大，则说明第一转化负样本是真正的负样本的可能性越大，即采集的负样本越准确，因此通过使第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系，能够使得越准确的负样本对模型参数的调整的影响越大，因此能够使得模型参数的调整更加准确，提高了训练得到的转化操作识别模型的转化识别准确度，故基于转化操作识别模型识别得到的转化操作可能度确定目标推送内容，能够提高内容推送的准确度。

本申请实施例提供的方法可以应用于竞价广告中，例如应用于ocpa(OptimizedCost per Action，优化转化行为出价)广告中。Ocpa广告中，当广告主在广告投放流程中选定特定的优化目标，例如，移动应用的激活或者网站的下单，即转化目标可以为移动应用的激活或者在网站下单。广告主提供愿意为此投放目标而支付的平均价格(称为转化单价)，则可以借助转化率预估模型，实时预估每一次点击对广告主的转化价值，自动出价，最终按照点击扣费。由于系统预估转化率CTR以及CVR越高(即对该广告主而言，用户质量越高)，则系统帮助客户CPM出价越高，这样可以实现即使出价高，但由于高质量用户的精准定向带来的高转化，CPA成本能达到广告主目标。其中转化预估模型可以根据广告转化数据不断自动优化。在优化时，为了使得转化预估模型更加实时，广告主的终端可以实时回传广告转化数据，服务器可以获取转化回流不完全的负样本进行模型训练，以优化模型。通过实验，当联合天级转化延时模型对转化操作识别模型训练，基于本申请实施例提供的训练后的转化操作识别模型进行广告推荐，会提升整体广告效果auc(Area Under Curve)千分位绝对值提升7，和新广告auc千分位绝对值提升1.5。当联合小时级转化时模型对转化操作识别模型训练，基于本申请实施例提供的训练后的转化操作识别模型进行广告推荐，会提升整体广告效果auc千分位绝对值提升1.7，和新广告auc千分位绝对值提升5.6。

如图7所示，为本申请实施例中广告系统的架构示意图，流量接入层用于接入用户对应的广告展现请求，可以通过用户画像检索模型获取用户画像，根据用户画像在广告库中进行广告的检索(称为粗选)作为候选的广告，混合器可以根据转化率预估模型以及点击率预估模型进行精选，例如可以计算得到eCPM值，从而进行自动出价，获取出价即eCPM值最高的候选广告，作为目标广告，在用户的终端上展示该目标广告。广告系统中还可以根据广告曝光日志信息获取正样本以及负样本，进行模型的更新。其中，服务器可以在广告粗选以及精选时使用转化率预估模型。liteCVR模型为粗选时所使用的转化率预估模型，PCVR模型为精选时所使用的转化率预估模型

以下对本申请实施例的模型训练原理进行说明，其中，各个字母的定义如下：x：一个特征集合所代表的一条样本；Y：值为0或者1，代表一个转化是否已经发生(发生则Y＝1，未发生则Y＝0)；C：值为0或1，代表一个样本最终是否是正样本，也就是最后是否会转化(发生转化则C＝1，不会转化C＝0)；L：如果在转化回流窗口内，尚未发生转化，则为0；如果已经发生转化，则是回流的时刻b，由于转化回流窗口之外，假设转化回流已经完成，因此b大于0，小于等于w，w为转化回流窗口的值，例如为5天。B：代表回流时刻，具体的值可以用b表示，当回流窗口为5天时，可以是天(1、2、3、4、5分别代表第几天回流)，也可以是小时(1、2、……120分别代表第几小时回流)，当然可以是分钟(1,2，...分别代表第几分钟回流)，可以根据实际情况设定b的取值。t：点击操作发生后，到当前时间经历的时间，也可以称为目标时刻。由于转化不可逆，已经发生了转化，不可能撤销这个转化，因此如果Y＝1，则可以得到C＝1；如果Y＝0，则转化在点击操作之后的目标时刻t尚未发生，则有可能这个转化永远不会发生，则C＝0，或者在未来的时刻转化会发生，则C＝1。

在建模时，假设f(x；θ1)是转化操作识别模型，h(b│x；θ2)是转化延时识别模型，θ1表示转化操作识别模型的模型参数，θ2表示转化延时识别模型的模型参数，则两个模型的目标函数可以表示为公式(1)，其中“Π”表示连乘符号，maxmize表示最大化，P表示概率。在目标函数中，样本可以分为三类，第一类是正样本(Y＝1)，第二类是第二转化负样本，为转化回流窗口之外的负样本(Y＝0，t>＝w)，第三类是第一转化负样本，为在转化回流窗口之内的负样本(Y＝0，t<w)。

maxminzeΠ_Y＝1 P(L＝b|x)Π_{Y＝O，t≥w} P(L＝0|x)Π_{Y＝O，t＜w}(1-P(O＜L≤t|x))(2)

其中，对于各个类别的样本的概率值的计算公式可以推理如下：

1、样本对应的目标时刻在转化回流窗口之外(t>＝w)；

则要么是正样本Y＝1，C＝1，要么是负样本Y＝0，C＝0，故对于Y＝1，有C＝1且L＝b(代表第b时刻回流)，则可以得到样本在b时刻进行转化的概率为：P(L＝b│x)＝P(C＝1│x)*P(B＝b|x)＝P(C＝1│x)*h(b│x；θ_2)。

对于Y＝0，有C＝0且L＝0，则P(L＝0│x)＝P(C＝0│x)＝1-P(C＝1│x)

2、如果样本对应的目标时刻在转化回流窗口之内(t<w)；

则要么是正样本Y＝1，C＝1，要么是负样本Y＝0，C＝0或者C＝1；同样的，对于Y＝1，有C＝1且L＝b(代表第b时刻回流)，则样本在b时刻进行转化的概率P(L＝b│x)＝P(C＝1│x)*P(B＝b|x)＝P(C＝1│x)*h(b│x；θ_2)，

而对于Y＝0，有C＝0或者C＝1，分别代表不会回流(负样本C＝0)，或者是正样本，但是在点击后t时间内没有回流，则C＝1，则样本为转化操作未发生的概率P(Y＝0│x)可以计算如下：

P(Y＝0│x)＝P(Y＝0│C＝0，x)*P(C＝0│x)+P(Y＝0│C＝1，x)*P(C＝1│x)

＝P(C＝0|x)+(1-P(0＜L≤t|C＝1，x))*P(C＝1|x)

＝1-P(C＝1|x)+P(C＝1|x)-P(C＝1|x)*P(0＜L≤t|C＝1，x)

＝1-P(C＝1|x)P(0＜L≤t|C＝1，x)

＝1-P(0＜L≤t|x)

其中，P(Y＝0|C＝0，x)＝1，因为C＝0有Y＝0；而P(0＜L≤t|C＝1，x)代表正样本在点击发生后，t时长内转化回流的概率，则1-P(0＜L≤t|C＝1，x)代表正样本在点击发生t时长内没有转化回流的概率。

根据以上分析，各个类别的样本的概率值的计算公式可以表示为：

P(L＝0|x)＝1-P(C＝1|x)

P(L＝b|x)＝P(C＝1|x)P(B＝b|x)

P(0＜L≤t|x)＝P(C＝1|x)P(0＜L≤t|C＝1，x)

因此在建模时，建模的公式可以表示如公式(3)以及公式(4)，st(subject to)表示约束条件：

P(C＝1|x)＝f(x；θ₁) st.0≤f(x；θ₁)≤1 (3)

P(B＝b|x)＝h(b|x；O₂) st.∑h(B|x；O₂)＝1 (4)

其中，

其中，H(t|x，θ)表示获取到转化延时识别模型输出的在各个候选时刻，对第一推送内容进行转化操作的可能度后，可以将在目标时刻t之前的候选时刻，对第一推送内容进行转化操作的可能度相加，得到转化延时可能度。

根据上述分析，根据目标函数，可以得到转化操作识别模型以及转化延时识别模型对应的总体的损失函数L(θ1，θ2)可以表示如下：

根据损失函数进行求导，可以得到梯度公式以及其中，表示利用转化正样本对转化操作识别模型进行训练，根据损失函数所求解得到的转化操作识别模型的模型参数对应的梯度，表示利用转化负样本(第一转化负样本以及第二转化负样本)对转化操作识别模型进行训练，根据损失函数所求解得到的转化操作识别模型的模型参数对应的梯度。表示利用转化正样本对转化延时识别模型进行训练，根据损失函数所求解得到的转化延时识别模型的模型参数对应的梯度，表示利用第一转化负样本对转化延时识别模型进行训练，根据损失函数所求解得到的转化延时识别模型的模型参数对应的梯度。其中，在根据未转化回流完全的负样本(第一转化负样本)进行模型训练时，不利用未转化回流完全的负样本对转化延时识别模型进行训练，即对于转化回流不完全的负样本，只用于更新转化操作识别模型的模型参数，不用于更新转化延时识别模型的模型参数，以保证转化延时识别模型的准确度。

以下以进行广告推送为例，对本申请实施例提供的内容推送方法进行说明，包括以下步骤：

1、获取转化正样本，转化正样本为第三用户对第三推送内容进行转化操作的样本。

2、获取训练负样本，训练负样本为在目标时刻，候选用户对候选推送内容未进行转化操作的样本。将对应的目标时刻小于时刻阈值的训练负样本，作为第一转化负样本，将对应的目标时刻大于时刻阈值的训练负样本，作为第二转化负样本。

具体地，步骤1和步骤2可以是同时进行的。例如，在推送广告时，如果用户没有对广告进行转化操作，则为负样本。其中负样本又可以区分为转化回流不完全的负样本(第一转化负样本)以及转化回流完全的负样本(第二转化负样本)。

3、根据转化正样本对待训练的转化延时识别模型进行训练，得到已训练的转化延时识别模型。

4、根据第二转化负样本以及转化正样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的转化操作识别模型作为待训练的转化操作识别模型。

具体地，步骤3以及步骤4可以是同时进行的，步骤3中转化延时识别模型的训练以及步骤4中转化操作识别模型可以是互不干扰的。

5、利用待训练的转化操作识别模型对第一转化负样本进行识别，得到第一用户对第一推送内容进行转化操作的第一操作可能度。

6、利用已训练的转化延时识别模型对第一转化负样本进行识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度。

7、根据第一操作可能度以及转化延时可能度计算得到第一模型损失值，第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系。

8、根据第一模型损失值对待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于训练后的转化操作识别模型进行内容推送。

具体地，当利用转化正样本训练得到转化延时识别模型，以及利用第二转化负样本以及转化正样本更新转化操作识别模型后，为了提高转化操作识别模型实时性，可以利用转化回流不完全的负样本对转化操作识别模型进行模型训练，为了修正转化回流不完全的负样本的标签偏差，可以联合转化延时识别模型进行训练，即可以利用转化延时识别模型识别得到转化延时可能度，对转化回流不完全的负样本的损失值进行修正，以得到修正后的模型损失值(第一模型损失值)，使得转化操作识别模型更加实时和准确。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一些实施例中，如图8所示，提供了一种内容推送装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括转化负样本获取模块802、第一操作可能度获取模块804、转化延时可能度得到模块806、第一模型损失值得到模块808以及训练模块810，其中：

转化负样本获取模块802，用于确定第一转化负样本，第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本。

第一操作可能度获取模块804，用于利用待训练的转化操作识别模型对第一转化负样本进行识别，得到第一用户对第一推送内容进行转化操作的第一操作可能度。

转化延时可能度得到模块806，用于利用已训练的转化延时识别模型对第一转化负样本进行识别，得到第一用户在目标时刻之前，对第一推送内容进行转化操作的可能度，作为转化延时可能度。

第一模型损失值得到模块808，用于根据第一操作可能度以及转化延时可能度计算得到第一模型损失值，第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系。

训练模块810，用于根据第一模型损失值对待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于训练后的转化操作识别模型进行内容推送。

在一些实施例中，转化负样本获取模块用于：获取训练负样本，训练负样本为在目标时刻，候选用户对候选推送内容未进行转化操作的样本；将对应的目标时刻小于时刻阈值的训练负样本，作为第一转化负样本。

在一些实施例中，装置还包括：第二转化负样本获取模块，用于将对应的目标时刻大于时刻阈值的训练负样本，作为第二转化负样本；当前转化操作识别模型训练模块，用于根据第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的当前转化操作识别模型作为待训练的转化操作识别模型。

在一些实施例中，当前转化操作识别模型训练模块用于：利用当前内容转化模型对第二转化负样本进行识别，得到第二用户对第二推送内容进行转化操作的可能度，作为第二操作可能度；根据第二操作可能度计算得到第二模型损失值，第二模型损失值与第二操作可能度成正相关关系；根据第二模型损失值对当前转化操作识别模型的模型参数进行调整。

在一些实施例中，当前转化操作识别模型训练模块用于：获取转化正样本，转化正样本为第三用户对第三推送内容进行转化操作的样本；根据第二转化负样本以及转化正样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的转化操作识别模型作为待训练的转化操作识别模型。

在一些实施例中，第一模型损失值得到模块用于：根据第一操作可能度计算得到对数损失值，对数损失值与第一操作可能度成正相关关系；将对数损失值与转化延时可能度进行乘积运算，得到第一模型损失值。

在一些实施例中，转化延时可能度得到模块：利用已训练的转化延时识别模型对第一转化负样本进行识别，得到第一用户在各个候选时刻，对第一推送内容进行转化操作的可能度；将在目标时刻之前的候选时刻，对第一推送内容进行转化操作的可能度相加，得到转化延时可能度。

在一些实施例中，转化延时识别模型的训练模块用于：获取转化正样本，转化正样本为在转化时刻，第三用户对第三推送内容进行转化操作的样本；利用待训练的转化延时识别模型对转化正样本进行识别，得到第三用户在候选时刻，对第三推送内容进行转化操作的预测可能度分布；根据预测可能度分布，与转化时刻对应的标准可能度分布的差异，得到第三模型损失值，根据第三模型损失值对待训练的转化延时识别模型进行模型训练，直至满足模型收敛条件，得到已训练的转化延时识别模型。

在一些实施例中，训练模块用于：根据第一模型损失值进行反向传播，并在反向传播的过程中，沿梯度下降方向更新待训练的转化操作识别模型的模型参数，得到训练后的转化操作识别模型。

在一些实施例中，如图9所示，提供了一种内容推送装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括内容推送请求接收模块902、转化操作可能度获取模块、目标推送内容确定模块以及推送模块908。其中：

内容推送请求接收模块902，用于接收目标用户对应的内容推送请求。

转化操作可能度获取模块904，用于响应于内容推送请求，根据训练后的转化操作识别模型确定目标用户对各个候选推送内容的转化操作可能度，训练后的转化操作识别模型是根据第一模型损失值进行模型训练得到的，第一模型损失值根据第一操作可能度以及转化延时可能度计算得到，第一操作可能度为利用待训练的转化操作识别模型对第一转化负样本进行识别得到的，转化延时可能度为利用已训练的转化延时识别模型对第一转化负样本进行识别得到的，第一模型损失值与第一操作可能度成正相关关系，第一模型损失值与转化延时可能度成正相关关系。

目标推送内容确定模块906，用于根据候选推送内容对应的转化操作可能度确定目标推送内容；

推送模块908，用于向目标用户对应的终端推送目标推送内容。

在一些实施例中，目标推送内容确定模块用于：确定目标用户对候选推送内容的点击操作可能度；根据候选推送内容对应的点击操作可能度、候选推送内容对应的转化操作可能度以及候选推送内容对应的转化价值，确定候选推送内容对应的展现价值；根据候选推送内容对应的展现价值确定目标推送内容。

关于内容推送装置的具体限定可以参见上文中对于内容推送方法的限定，在此不再赘述。上述内容推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种内容推送方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一些实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种内容推送方法，其特征在于，所述方法包括：

确定第一转化负样本，所述第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本；

利用待训练的转化操作识别模型对所述第一转化负样本进行识别，得到所述第一用户对所述第一推送内容进行转化操作的第一操作可能度；

利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在所述目标时刻之前，对所述第一推送内容进行转化操作的可能度，作为转化延时可能度；

根据所述第一操作可能度以及所述转化延时可能度计算得到第一模型损失值，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；

根据所述第一模型损失值对所述待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于所述训练后的转化操作识别模型进行内容推送。

2.根据权利要求1所述的方法，其特征在于，所述确定第一转化负样本包括：

获取训练负样本，所述训练负样本为在目标时刻，候选用户对候选推送内容未进行转化操作的样本；

将对应的目标时刻小于时刻阈值的训练负样本，作为第一转化负样本。

3.根据权利要求2所述的方法，其特征在于，所述利用待训练的转化操作识别模型对所述第一转化负样本进行识别，得到所述第一用户对所述第一推送内容进行转化操作的第一操作可能度之前，还包括：

将对应的目标时刻大于所述时刻阈值的训练负样本，作为第二转化负样本；

根据所述第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的当前转化操作识别模型作为所述待训练的转化操作识别模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二转化负样本对当前转化操作识别模型进行模型训练包括：

利用当前内容转化模型对所述第二转化负样本进行识别，得到第二用户对第二推送内容进行转化操作的可能度，作为第二操作可能度；

根据所述第二操作可能度计算得到第二模型损失值，所述第二模型损失值与所述第二操作可能度成正相关关系；

根据所述第二模型损失值对当前转化操作识别模型的模型参数进行调整。

5.根据权利要求3所述的方法，其特征在于，所述根据所述第二转化负样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的当前转化操作识别模型作为所述待训练的转化操作识别模型包括：

获取转化正样本；

根据所述第二转化负样本以及所述转化正样本对当前转化操作识别模型进行模型训练，直至满足模型收敛条件，将更新后的转化操作识别模型作为所述待训练的转化操作识别模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一操作可能度以及所述转化延时可能度计算得到第一模型损失值包括：

将所述第一操作可能度与所述转化延时可能度进行乘积运算，得到第一乘积；

根据所述第一乘积进行对数计算，得到第一模型损失值，所述第一模型损失值与所述第一乘积成正相关关系。

7.根据权利要求1所述的方法，其特征在于，所述利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在所述目标时刻之前，对所述第一推送内容进行转化操作的可能度，作为转化延时可能度包括：

利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在各个候选时刻，对所述第一推送内容进行转化操作的可能度；

将在所述目标时刻之前的候选时刻，对所述第一推送内容进行转化操作的可能度相加，得到转化延时可能度。

8.根据权利要求7所述的方法，其特征在于，所述转化延时识别模型的训练步骤包括：

获取转化正样本，所述转化正样本为在转化时刻，第三用户对第三推送内容进行转化操作的样本；

利用待训练的转化延时识别模型对所述转化正样本进行识别，得到所述第三用户在候选时刻，对所述第三推送内容进行转化操作的预测可能度分布；

根据所述预测可能度分布，与所述转化时刻对应的标准可能度分布的差异，得到第三模型损失值，根据所述第三模型损失值对所述待训练的转化延时识别模型的模型参数进行调整，直至满足模型收敛条件，得到已训练的转化延时识别模型。

9.根据权利要求1所述的方法，其特征在于，所述根据所述第一模型损失值对所述待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型包括：

根据所述第一模型损失值进行反向传播，并在反向传播的过程中，沿梯度下降方向更新所述待训练的转化操作识别模型的模型参数，得到训练后的转化操作识别模型。

10.一种内容推送方法，其特征在于，所述方法包括：

接收目标用户对应的内容推送请求；

响应于所述内容推送请求，根据训练后的转化操作识别模型确定所述目标用户对各个候选推送内容的转化操作可能度，所述训练后的转化操作识别模型是根据第一模型损失值进行模型训练得到的，所述第一模型损失值根据第一操作可能度以及转化延时可能度计算得到，所述第一操作可能度为利用待训练的转化操作识别模型对第一转化负样本进行识别得到的，所述转化延时可能度为利用已训练的转化延时识别模型对所述第一转化负样本进行识别得到的，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；

根据所述候选推送内容对应的转化操作可能度确定目标推送内容；

向所述目标用户对应的终端推送所述目标推送内容。

11.根据权利要求10所述的方法，其特征在于，所述根据所述候选推送内容对应的转化操作可能度确定目标推送内容包括：

确定所述目标用户对所述候选推送内容的点击操作可能度；

根据所述候选推送内容对应的点击操作可能度、所述候选推送内容对应的转化操作可能度以及所述候选推送内容对应的转化价值，确定所述候选推送内容对应的展现价值；

根据所述候选推送内容对应的展现价值确定目标推送内容。

12.一种内容推送装置，其特征在于，所述装置包括：

转化负样本获取模块，用于确定第一转化负样本，所述第一转化负样本为目标时刻之前，第一用户对第一推送内容未进行转化操作的样本；

第一操作可能度获取模块，用于利用待训练的转化操作识别模型对所述第一转化负样本进行识别，得到所述第一用户对所述第一推送内容进行转化操作的第一操作可能度；

转化延时可能度得到模块，用于利用已训练的转化延时识别模型对所述第一转化负样本进行识别，得到所述第一用户在所述目标时刻之前，对所述第一推送内容进行转化操作的可能度，作为转化延时可能度；

第一模型损失值得到模块，用于根据所述第一操作可能度以及所述转化延时可能度计算得到第一模型损失值，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；

训练模块，用于根据所述第一模型损失值对所述待训练的转化操作识别模型的模型参数进行调整，得到训练后的转化操作识别模型，并基于所述训练后的转化操作识别模型进行内容推送。

13.一种内容推送装置，其特征在于，所述装置包括：

内容推送请求接收模块，用于接收目标用户对应的内容推送请求；

转化操作可能度获取模块，用于响应于所述内容推送请求，根据训练后的转化操作识别模型确定所述目标用户对各个候选推送内容的转化操作可能度，所述训练后的转化操作识别模型是根据第一模型损失值进行模型训练得到的，所述第一模型损失值根据第一操作可能度以及转化延时可能度计算得到，所述第一操作可能度为利用待训练的转化操作识别模型对第一转化负样本进行识别得到的，所述转化延时可能度为利用已训练的转化延时识别模型对所述第一转化负样本进行识别得到的，所述第一模型损失值与所述第一操作可能度成正相关关系，所述第一模型损失值与所述转化延时可能度成正相关关系；

目标推送内容确定模块，用于根据所述候选推送内容对应的转化操作可能度确定目标推送内容；

推送模块，用于向所述目标用户对应的终端推送所述目标推送内容。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。