CN111507768A

CN111507768A - 一种潜在用户的确定方法、模型训练的方法及相关装置

Info

Publication number: CN111507768A
Application number: CN202010304614.4A
Authority: CN
Inventors: 张一飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-07
Anticipated expiration: 2040-04-17
Also published as: CN111507768B

Abstract

本申请公开了一种应用于人工智能领域的潜在用户确定方法，该方法包括：获取M个种子用户所对应的用户特征，并基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值；根据每个种子用户所对应的预测概率分值，从M个种子用户中确定待推荐用户集合；从待推荐用户集合中确定N个潜在用户。本申请还提供了一种模型训练的方法以及相关装置。本申请能够在有限的投放量下筛选出更准确的潜在用户确定为受众群体，由此达到更好的广告投放效果。

Description

一种潜在用户的确定方法、模型训练的方法及相关装置

技术领域

本申请涉及人工智能领域，尤其涉及一种潜在用户的确定方法、模型训练的方法及相关装置。

背景技术

在现代生活中，广告成为人们了解商品或服务的重要渠道，随着时代的进步，广告投放越来越具体丰富化、多样化和精细化的需求，而广告主对投放效果的要求愈发强烈，不同场景下不同用户行为与广告投放诉求存在显著关系。

目前，在广告投放的场景下，广告主主要通过人工选定几个被认为与商品或服务相关的标签，然后提取出具有该标签的用户，将这部分用户确定为广告的潜在用户。

然而，利用标签选择潜在用户，虽然能够在一定程度上提升广告投放的准确性，但是投放效果很大程度上取决于人工选定标签的质量。如果选定的标签质量较差，则会导致筛选出的潜在用户不够准确，难以达到预期的广告投放效果。

发明内容

本申请实施例提供了一种模型训练的方法、潜在用户的确定方法及相关装置，可在有限的投放量下筛选出更准确的潜在用户确定为受众群体，由此达到更好的广告投放效果。

有鉴于此，本申请一方面提供一种潜在用户的确定方法，包括：

获取M个种子用户所对应的用户特征，并基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，其中，M为大于或等于1的整数；

根据每个种子用户所对应的预测概率分值，从M个种子用户中确定待推荐用户集合，其中，待推荐用户集合包括至少一个待推荐用户，每个待推荐用户所对应的预测概率分值大于或等于目标概率阈值；

从待推荐用户集合中确定N个潜在用户，其中，N个潜在用户为待推荐用户集合中预测概率分值前N的待推荐用户，N为大于或等于1，且小于或等于M的整数。

本申请另一方面提供一种模型训练的方法，包括：

获取初始特征集合，其中，初始特征集合包括每个用户所对应的P个初始类型的特征，P为大于或等于1的整数；

基于初始特征集合，通过特征筛选模型获取待训练类型集合，其中，待训练类型集合包括Q个待训练类型，其中，Q个待训练类型属于P个初始类型的部分类型，Q为大于或等于1，且小于或等于P的整数；

根据待训练类型集合生成用户样本集合，其中，用户样本集合包括至少一个用户样本，每个用户样本具有Q个待训练类型对应的特征，每个用户样本对应于一个标注标签；

基于用户样本集合，通过待训练用户预测模型获取每个用户样本所对应的预测概率分值；

根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型，其中，用户预测模型用于执行如上述第一方面所描述的方法。

本申请另一方面提供一种潜在用户确定装置，包括：

获取模块，用于获取M个种子用户所对应的用户特征，并基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，其中，M为大于或等于1的整数；

确定模块，用于根据每个种子用户所对应的预测概率分值，从M个种子用户中确定待推荐用户集合，其中，待推荐用户集合包括至少一个待推荐用户，每个待推荐用户所对应的预测概率分值大于或等于目标概率阈值；

确定模块，还用于从待推荐用户集合中确定N个潜在用户，其中，N个潜在用户为待推荐用户集合中预测概率分值前N的待推荐用户，N为大于或等于1，且小于或等于M的整数。

本申请另一方面提供一种模型训练装置，包括：

获取模块，用于获取初始特征集合，其中，初始特征集合包括每个用户所对应的P个初始类型的特征，P为大于或等于1的整数；

获取模块，还用于基于初始特征集合，通过特征筛选模型获取待训练类型集合，其中，待训练类型集合包括Q个待训练类型，其中，Q个待训练类型属于P个初始类型的部分类型，Q为大于或等于1，且小于或等于P的整数；

生成模块，用于根据待训练类型集合生成用户样本集合，其中，用户样本集合包括至少一个用户样本，每个用户样本具有Q个待训练类型对应的特征，每个用户样本对应于一个标注标签；

获取模块，还用于基基于用户样本集合，通过待训练用户预测模型获取每个用户样本所对应的预测概率分值；

训练模块，用于根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型，其中，用户预测模型用于执行如上述第一方面所描述的方法。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，

获取模块，还用于基于初始特征集合，通过特征筛选模型获取待训练特征集合之前，获取核心用户特征集合以及候选用户特征集合，其中，核心用户特征集合包括至少一个核心用户的用户特征，候选用户特征集合包括至少一个候选用户的用户特征；

训练模块，还用于基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对待训练特征筛选模型的模型参数进行更新，其中，待训练特征筛选模型为基于K个特征筛选子模型进行训练的，K为大于或等于1的整数；

训练模块，还用于当满足模型训练条件时，将更新后的模型参数确定为特征筛选模型的模型参数，以得到特征筛选模型。

获取模块，具体用于获取第一应用程序所对应的核心用户集合，其中，核心用户集合包括至少一个核心用户；

获取至少一个第二应用程序所对应的候选用户集合，其中，候选用户集合包括至少一个候选用户，第一应用程序与至少一个第二应用程序具有关联关系；

获取核心用户集合中每个核心用户的基础画像信息以及历史行为信息，以及候选用户集合中每个候选用户的基础画像信息以及历史行为信息；

根据每个核心用户的基础画像信息以及历史行为信息，生成核心用户特征集合；

根据每个候选用户的基础画像信息以及历史行为信息，生成候选用户特征集合。

训练模块，具体用于基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对第一特征筛选子模型的模型参数进行更新；

基于核心用户特征集合、候选用户特征集合以及第一特征筛选子模型，采用第一损失函数对第二特征筛选子模型的模型参数进行更新；

根据第一特征筛选子模型以及第二特征筛选子模型，更新待训练特征筛选模型的模型参数。

获取模块，具体用于通过特征筛选模型所对应的K个特征筛选子模型，获取初始特征集合中每个初始类型所对应的K个重要度值，其中，K个重要度值中的每个重要度值与特征筛选子模型获具有一一对应的关系；

根据每个初始类型所对应的K个重要度值，生成每个初始类型所对应的全局重要度值；

根据每个初始类型所对应的全局重要度值，从初始特征集合中确定待训练类型集合。

获取模块，具体用于根据每个初始类型所对应的全局重要度值，获取全局重要度值的降序排列结果；

根据全局重要度值的降序排列结果，将排列在前Q个的初始类型确定为待训练类型，直至获取到待训练类型集合；

获取模块，具体用于根据每个初始特征所对应的全局重要度值，获取全局重要度值的升序排列结果；

根据全局重要度值的升序排列结果，将排列在后Q个的初始特征确定为待训练特征，直至获取到待训练类型集合。

生成模块，具体用于获取核心用户特征集合以及候选用户特征集合，其中，核心用户特征集合包括至少一个核心用户的用户特征，候选用户特征集合包括至少一个候选用户的用户特征；

根据核心用户特征集合确定Q个待训练类型所对应的第一用户样本子集合，其中，第一用户样本子集合包括至少一个第一用户样本，每个第一用户样本具有Q个待训练类型对应的特征；

根据核心用户特征集合确定Q个待训练类型所对应的第二用户样本子集合，其中，第二用户样本子集合包括至少一个第二用户样本，每个第二用户样本具有Q个待训练类型对应的特征；

根据第一用户样本子集合以及第二用户样本子集合，生成用户样本集合。

训练模块，具体用于基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数对待训练用户预测模型的模型参数进行更新；

当满足模型训练条件时，将更新后的模型参数确定为用户预测模型的模型参数，以得到用户预测模型。

训练模块，具体用于基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数获取损失总和值，其中，损失总和值包括每个用户样本所对应的损失值；

对损失总和值进行取对数处理，得到对数似然函数；

对对数似然函数进行求导处理，得到参数更新函数；

根据参数更新函数待训练用户预测模型的模型参数进行更新。

在一种可能的设计中，在本申请实施例的另一方面的一种实现方式中，模型训练装置还包括确定模块；

获取模块，还用于根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型之后，获取核心用户目标特征集合，其中，核心用户目标特征集合包括至少一个核心用户的用户特征；

获取模块，还用于基于核心用户目标特征集合，通过用户预测模型获取每个核心所对应的预测概率分值；

确定模块，用于根据每个核心所对应的预测概率分值确定目标概率阈值，其中，目标概率阈值用于预测广告投放的潜在用户。

本申请另一方面提供一种计算机设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述任一方面所述的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种潜在用户的确定方法，首先获取M个种子用户所对应的用户特征，然后基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，再根据每个种子用户所对应的预测概率分值，从M个种子用户中确定待推荐用户集合，最后从待推荐用户集合中确定N个潜在用户。通过上述方式，根据用户预测模型输出每个种子用户的预测概率分值，选择预测概率分值较大的种子用户确定为待推荐用户，以此挖掘出可能对广告感兴趣的用户，再基于具体的广告需求选择排名靠前的N个待推荐用户确定为潜在用户，从而在有限的投放量下筛选出更准确的潜在用户确定为受众群体，由此达到更好的广告投放效果。

附图说明

图1为本申请实施例中潜在用户推荐系统的一个架构示意图；

图2为本申请实施例中潜在用户推荐系统的一个环境示意图；

图3为本申请实施例中潜在用户确定方法的一个实施例示意图；

图4为本申请实施例中基于潜在用户实现广告投放的一个界面示意图；

图5为本申请实施例中模型训练方法的一个实施例示意图；

图6为本申请实施例中基于模型训练以及模型应用的一个实施例示意图；

图7为本申请实施例中基于模型训练以及模型应用的一个流程示意图；

图8A为本申请实施例中生成第一特征筛选子模型的一个示意图；

图8B为本申请实施例中生成第二特征筛选子模型的一个示意图；

图9为本申请实施例中潜在用户确定装置的一个示意图；

图10为本申请实施例中模型训练装置的一个示意图；

图11为本申请实施例中计算机设备的一个结构示意图。

具体实施方式

本申请实施例提供了一种潜在用户的确定方法、模型训练的方法及相关装置，可在有限的投放量下筛选出更准确的潜在用户确定为受众群体，由此达到更好的广告投放效果。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的潜在用户确定方法可用于广告营销领域，具体可应用于广告投放场景，比如，投放某款游戏的广告，或者投放某个电商平台的广告，又或者推广某款应用等。用户在搜索引擎、视频网站以及电视等媒介中看到的广告可能都经过了智能分析和智能筛选。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

应理解，本申请提供的模型训练方法具体涉及到AI技术中的机器学习(MachineLearning，ML)算法，ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。ML是AI的核心，是使计算机具有智能的根本途径，其应用遍及AI的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请提供的技术方案可基于图1所示的架构实现，请参阅图1，图1为本申请实施例中潜在用户推荐系统的一个架构示意图，如图所示，整体结构包括四个主要的部分，分别为数据获取部分、数据存储部分、数据处理部分以及建模与预测部分，下面将对上述四个部分进行具体描述。

1、数据获取部分包括：在日志收集服务器上部署脚本，利用脚本记录用户的行为数据以及基础画像数据，然后日志收集服务器将收集到的行为数据以及基础画像数据发送至基于海杜普分布式文件系统(Hadoop Distributed File System，HDFS)。

2、数据处理部分包括：在日志收集服务器将用户数据(即包括行为数据以及基础画像数据)发送至HDFS之后，由HDFS将用户数据存储于本地。其中，HDFS是一个高度容错性的系统，提供高吞吐量的数据访问，适合应用于大规模的数据集。hive是基于海杜普(Hadoop)的一个数据仓库工具，用于进行数据提取、转化以及加载等操作。

3、数据处理部分包括：数据清洗与特征构建这两个方面，其中，特征构建是指基于用户数据构建核心用户特征以及候选用户特征，数据清洗是指对用户数据进行缺失值填充，异常值过滤以及去重等操作。其中，数据清洗与特征构建是基于计算引擎(ApacheSpark)平台来进行，Apache Spark平台是专为大规模数据处理而设计的快速通用的计算引擎，与Hadoop具有相似的开源集群计算环境，启用了内存分布数据集，是当前大数据处理的主流引擎。

4、建模与预测部分包括：对特征筛选模型进行训练，再根据训练好的特征筛选模型筛选重要程度较高的特征，基于重要程度较高的特征生成用户样本，采用这些用户样本训练得到用户预测模型，在实际应用中，将用户特征输入至用户预测模型即可输出对应的预测概率分值，将预测概率分值较高的前N个用户作为潜在用户，并生成对应的人群包。可以理解的是，上述过程也是在Apache Spark平台进行的，由于Apache Spark平台善于处理大规模数据，显著优化了迭代工作负载，并且提供了一系列算法工具，因此，能更好地适用于大规模数据挖掘与ML任务。预测任务完成之后，结果被保存到HDFS中，业务服务器可以使用hive离线取出人群包。

为了便于理解，请参阅图2，图2为本申请实施例中潜在用户推荐系统的一个环境示意图，如图所示，具体地，日志收集服务器将采集到的用户数据发送至服务器集群，服务器集群包括至少一台服务器，且服务器集群部署有HDFS和Apache Spark平台，HDFS用于存储用户数据，Apache Spark平台用于进行特征提取，并根据提取后的特征训练得到特征筛选模型和用户预测模型。其中，特征筛选模型筛选出用于训练用户预测模型的特征，而在实际预测中，仅使用用户预测模型即可。

当广告主有广告投放的需求时，通过终端设备向服务器集群触发投放请求，服务器集群采用训练好的用户预测模型，对大量种子用户的用户特征进行预测，得到每个种子用户的预测概率分值，从大量种子用户中选择预测概率分值较高的种子用户作为待推荐用户。最后结合广告投放量，从这些待推荐用户中确定潜在用户。将这些潜在用户的信息反馈至终端设备，广告主既可以获取这些潜在用户的信息。

需要说明的是，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。

随着AI技术研究和进步，AI技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，AI技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及AI的ML等技术，结合上述介绍，下面将对本申请中潜在用户的确定方法进行介绍，请参阅图3，本申请实施例中潜在用户的确定方法一个实施例包括：

101、获取M个种子用户所对应的用户特征，并基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，其中，M为大于或等于1的整数；

本实施例中，潜在用户确定装置首先获取至少一个种子用户的用户特征，通常情况下，种子用户的数量较大，例如，M为100000。每个种子用户的用户特征包括Q个类型对应的特征，Q可以设置为50。

具体地，以一个种子用户的用户特征为例，假设该种子用户的用户特征包括10个类型的特征，分别为年龄、性别、学历、省份、城市、职业、游戏A的活跃次数、游戏B的活跃次数、游戏A的付费金额以及游戏B的付费金额。在构造用户特征的时候，可以直接采用数值表示，例如，年龄特征表示为21，性别特征表示为1(例如男性表示为“1”，女性表示为“2”)，游戏A付费金额的特征为85，这些特征所构成的用户特征可以表示为向量形式。此外，也可以采用独热(one-hot)编码的方式表示，例如，性别特征表示为[1,0]，学历特征表示为[0,0,0,0,1,0,0,0,0]，这些特征所构成的用户特征可以表示为矩阵形式。

潜在用户确定装置将M个种子用户的用户特征均输入至用户预测模型中，通过用户预测模型输出每个种子用户的预测概率分值，预测概率分值在0至1的区间内，预测概率分值越接近于0，表示该种子用户属于潜在用户的可能性越小，反正，预测概率分值越接近于1，表示该种子用户属于潜在用户的可能性越大。

需要说明的是，潜在用户确定装置可部署于计算机设备，计算机设备可以是服务器，或者服务器集群，或者终端设备，此处不做限定。

102、根据每个种子用户所对应的预测概率分值，从M个种子用户中确定待推荐用户集合，其中，待推荐用户集合包括至少一个待推荐用户，每个待推荐用户所对应的预测概率分值大于或等于目标概率阈值；

本实施例中，潜在用户确定装置会预先确定一个目标概率阈值，如果预测概率分值大于或等于目标概率阈值，则表示该预测概率分值所对应的种子用户属于待推荐用户。反之，如果预测概率分值小于目标概率阈值，则不再考虑将该预测概率分值所对应的种子用户作为待推荐用户。假设M为100000，目标概率阈值为0.8，其中，存在30000个种子用户的预测概率分值大于或等于0.8，即这30000个种子用户用于构成待推荐用户集合。

103、从待推荐用户集合中确定N个潜在用户，其中，N个潜在用户为待推荐用户集合中预测概率分值前N的待推荐用户，N为大于或等于1，且小于或等于M的整数。

本实施例中，潜在用户确定装置在得到待推荐用户集合之后，还需要考虑实际投放需求，这是因为广告投放往往是由一定预算的，在有限的预算下只能针对一定数量的用户进行广告投放，因此投放人群的选择对广告效果起到了重要的作用。在本申请中，以投放量为N进行说明，假设N设置为10000，待推荐用户集合中包括30000个待推荐用户，首先对这30000个待推荐用户的预测概率分值进行排列，然后选择出预测概率分值最大的前N(如10000)个待推荐用户作为潜在用户，即得到N个潜在用户。挖掘潜在新用户很重要的用途就是广告投放，减少人力、资金和资源的浪费。

为了便于理解，请参阅图4，图4为本申请实施例中基于潜在用户实现广告投放的一个界面示意图，如图所示，具体地，潜在用户确定装置在得到N个潜在用户之后，会生成高潜用户的人群包，并且向广告主反馈该人群包。其中，人群包可包括每个潜在用户的标识信息，例如，手机设备号码或者用户账号等。广告主登陆广告投放系统之后，选择“标签上传”功能，填写游戏名称，如“酷酷小游戏”，填写标签名称，如“酷酷小游戏高潜新进用户”，选择上传对应的人群包，如“酷酷小游戏高潜新用户800W.txt”，选择该人群包的数据类型，如“微博”，选择人群包的失效日期，如“2020-01-29”。上传完成后，广告投放系统识别人群包中的用户标识并进行投放。

上述实施例对潜在用户的确定方法进行介绍，下面将对本申请中提供的模型训练方法进行介绍，请参阅图5，本申请实施例中模型训练的方法一个实施例包括：

201、获取初始特征集合，其中，初始特征集合包括每个用户所对应的P个初始类型的特征，P为大于或等于1的整数；

本实施例中，模型训练装置获取初始特征集合，初始特征集合包括每个用户所对应的P个初始类型的特征，在训练的过程中可采集大量的用户数据，这些用户数据往往具有较多类型的特征，例如所包括的类型有年龄、性别、游戏A的活跃次数以及游戏B的活跃次数等。假设P为500，即每个用户具有500维的特征，这些特征构成一个特征向量，假设有100000个用户，即可以得到100000个特征向量。

需要说明的是，模型训练装置可部署于计算机设备，计算机设备可以是服务器，或者服务器集群，或者终端设备，此处不做限定。

202、基于初始特征集合，通过特征筛选模型获取待训练类型集合，其中，待训练类型集合包括Q个待训练类型，其中，Q个待训练类型属于P个初始类型的部分类型，Q为大于或等于1，且小于或等于P的整数；

本实施例中，考虑到初始特征集合包含了较多类型的特征，因此，还需要采用特征筛选模型对P个初始类型进行筛选，从中选择出Q个初始类型作为待训练类型。例如，P个初始类型包括年龄、性别、游戏A的活跃次数以及游戏B的活跃次数，其中，初始类型“性别”的重要程度较低，因此，不再作为待训练类型，而初始类型“年龄”的重要程度较高，因此，“年龄”作为待训练类型。通常情况下，Q可以设置为50。

203、根据待训练类型集合生成用户样本集合，其中，用户样本集合包括至少一个用户样本，每个用户样本具有Q个待训练类型对应的特征，每个用户样本对应于一个标注标签；

本实施例中，模型训练装置在确定Q个待训练类型之后，基于每个用户选择这Q个待训练类型所对应的特征，比如，以一个待训练的用户为例，假设该用户的用户特征包括的P个初始类型分别为年龄、性别、学历、省份、城市、职业、游戏A的活跃次数、游戏B的活跃次数、游戏A的付费金额以及游戏B的付费金额等。其中，年龄、性别、游戏A的活跃次数和游戏B的活跃次数为待训练类型，因此，每个用户样本包括年龄的特征、性别的特征、游戏A活跃次数的特征以及游戏B活跃次数的特征即可。

对于每个用户样本而言，还具有对应的标注标签，该标注标签表示对用户样本进行标注后的结果，用户样本为正样本的情况下，其对应的标注标签表示为“1”，而用户样本为负样本的情况下，其对应的标注标签表示为“0”。在实际训练中，为了防止过拟合，正样本数量和负样本数量可设置为1比3，且正样本数量可达到30000个。

204、基于用户样本集合，通过待训练用户预测模型获取每个用户样本所对应的预测概率分值；

本实施例中，模型训练装置将每个用户样本输入至待训练用户预测模型，由该待训练用户预测模型输出每个用户样本所对应的预测概率分值，预测概率分值在0至1的区间内，预测概率分值越接近于1，表示该用户样本属于正样本的可能性越大，反之，预测概率分值越接近于0，表示该用户样本属于负样本的可能性越大。

205、根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型。

本实施例中，模型训练装置采用预先确定的损失函数，对每个用户样本的真实值和预测值进行计算，使用梯度下降法更新待训练用户预测模型的模型参数，当满足模型训练条件时，即可获取用户预测模型。其中，每个用户样本的真实值即为该用户样本的标注标签，而每个用户样本的预测值即为该用户样本的预测概率分值。

下面将结合实际训练效果对本申请提供的模型训练方法做进一步介绍，在实验过程中，采用了5万个正样本以及15万个负样本进行训练，其中，80％的用户样本属于训练集，剩余的20％用户样本属于测试集。在训练集上用户预测模型的曲线下面积(Area UnderCurve，AUC)精度达到0.853，在测试集上用户预测模型的AUC精度达到0.852，AUC精度越高，表示用户预测模型打分越能够显著区分正负样本，即对于核心用户的分值排序会越靠前，而训练集合测试集的AUC精度几乎一致，因此，训练好的用户预测模型能够输出更为准确的预测概率分值。在投放游戏广告时，采用上述用户预测模型能够精准地挖掘游戏潜在新用户，并输出人群包，使用人群包中的用户作为游戏广告的受众群体，可以使广告投放成本有效地降低50％以上。

需要说明的是，除了可以采用AUC精度作为衡量用户预测模型性能的指标，在实际训练中，还可以采用准确率(accuracy)、召回率(recall)、精确率(precision)或者F值等指标对用户预测模型的性能做评估，此处不做限定。

本申请实施例中，提供了一种模型训练的方法，首先获取初始特征集合，然后基于初始特征集合，通过特征筛选模型获取待训练类型集合，再根据待训练类型集合生成用户样本集合，基于用户样本集合，通过待训练用户预测模型获取每个用户样本所对应的预测概率分值，最后根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型。通过上述方式，采用新构建的用户样本建立用于挖掘潜在用户的用户预测模型，从而能够筛选出更符合要求的潜在用户确定为广告投放的受众群体，相比于直接根据标签选择受众群体的方式而言，具有更高的投放准确率。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，基于初始特征集合，通过特征筛选模型获取待训练特征集合之前，还可以包括：

获取核心用户特征集合以及候选用户特征集合，其中，核心用户特征集合包括至少一个核心用户的用户特征，候选用户特征集合包括至少一个候选用户的用户特征；

基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对待训练特征筛选模型的模型参数进行更新，其中，待训练特征筛选模型为基于K个特征筛选子模型进行训练的，K为大于或等于1的整数；

当满足模型训练条件时，将更新后的模型参数确定为特征筛选模型的模型参数，以得到特征筛选模型。

本实施例中，介绍了一种训练特征筛选模型的方法，特征筛选模型主要用于从P个初始类型中筛选出适合作为后续训练的Q个待训练类型，从而达到降维的目的。需要说明的是，特征筛选模型可以是梯度提升树(Gradient Boosting Decision Tree，GBDT)模型，或者是极端梯度提升(Extreme Gradient Boosting，XGBoost)模型等，本申请将以GBDT模型为例进行介绍，然而这不应理解为对本申请的限定。

首先获取核心用户特征集合以及候选用户特征集合，核心用户特征集合包括核心用户的用户特征(具体可以表现为特征向量的形式)，“核心用户”作为标签，该标签为正标签，可表示为“1”。而候选用户特征集合包括候选用户的用户特征(具体可以表现为特征向量的形式)，“候选用户”也作为标签，该标签为负标签，可表示为“0”。在实际训练中，为了防止过拟合，核心用户特征集合和候选用户特征集合的数量比例可设置为1比3，且核心用户特征集合可以包括3万个核心用户的特征向量，而候选用户特征集合可以包括15万个候选用户的特征向量。

使用待训练的GBDT模型对核心用户特征集合以及候选用户特征集合进行迭代计算，在迭代的每一步构建要给能够沿着梯度最陡的方向降低损失的学习器来弥补已有模型的不足，即在函数空间中利用梯度下降法进行优化。在GBDT的迭代中，假设前一轮迭代得到的强学习器是f_t-1(x)，第一损失函数是L＝[y,f_t-1(x)]，本轮迭代的目标是找到一个分类回归树(Classification And Regression Tree，CART)模型的弱学习器h_t(x)，让本轮的损失L＝[t,f_t-1(x)+h_t(x)]最小，即本轮迭代找到决策树，要让样本的损失尽量变得更小。因此，GBDT模型是由K棵树迭代进行训练的，即待训练特征筛选模型(如GBDT模型)为基于K个特征筛选子模型(如K棵树)进行训练的。

可以理解的是，第一损失函数可以是平方损失，也可以是绝对损失、Huber损失或者分位数损失，本申请以平方损失为例进行介绍，然而这并应理解为对本申请的限定。

当满足模型训练条件时，将更新后的模型参数确定为特征筛选模型最终的模型参数，从而得到特征筛选模型。模型训练条件通常包括两个条件，条件一为达到预设的迭代次数，比如十万次。条件二为损失值达到收敛的情况。而本实施例中，满足模型训练条件既可以是仅满足条件一，也可以是仅满足条件二，还可以是既满足条件一，又满足条件二。

为了便于理解，请参阅图6以及图7，图6为本申请实施例中基于模型训练以及模型应用的一个实施例示意图，图7为本申请实施例中基于模型训练以及模型应用的一个流程示意图，下面将结合图6和图7进行介绍，如图所示，具体地：

步骤S1中，首先获取核心用户特征集合以及候选用户特征集合，核心用户特征集合中的特征向量均对应“核心用户”的标签，候选用户特征集合中的特征向量均对应“候选用户”的标签，无论是核心用户的特征向量还是候选用户的特征向量，都是通过基础画像信息(例如包括性别、年龄、职业以及学历等)和历史行为信息(总活跃次数、总付费金额、应用A的活跃次数以及应用B的活跃次数等)构建而成的。采用核心用户特征集合以及候选用户特征集合对特征筛选模型进行训练。

步骤S2中，再在后续训练的过程中，利用训练好的特征筛选模型，从初始特征集合中筛选出待训练类型对应的特征(如年龄、学历、省份、总活跃次数、总付费金额以及应用A的活跃次数等)，基于这些筛选后的特征构建用户样本。

步骤S3中，然后使用经过特征筛选后的用户样本训练得到用户预测模型。

步骤S4中，在实际预测中，将M个种子用户所对应的用户特征输入至训练好的用户预测模型之后，由用户预测模型对每个种子用户进行打分，得到每个种子用户的预测概率分值。最后可根据投放需求输出对应的高潜用户人群包，例如投放用户量级为N，选择预测概率分值排名靠前N的用户作为潜在用户，由此得到用于广告投放的高潜用户人群包。

其次，本申请所实施例中，提供了一种训练特征筛选模型的方式，通过上述方式，能够利用大量不同类型的用户特征作为训练对象，再基于这些用户特征训练特征筛选模型，使得特征筛选模型能够对每个类型的特征的重要程度具有判定能力，通过特征筛选模型可以筛选出部分类型的特征，从而降低了用户特征的维度，在保证训练和预测质量的前提下，有效地提升了训练效率，节省了训练资源。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，获取核心用户特征集合以及候选用户特征集合，可以包括：

获取第一应用程序所对应的核心用户集合，其中，核心用户集合包括至少一个核心用户；

本实施例中，介绍了一种获取核心用户特征和候选用户特征的方法，首先需要确定核心用户和候选用户，具体地，核心用户为高活跃度的用户，高活跃度的判定标准可以是每个月活跃天数大于或等于10天，也可以根据实际情况设置判定标准。候选用户为已知用户中排除注册第一应用程序的剩余用户，已知用户来源于某个公司旗下所有应用程序涉及到的用户。例如，公司甲开发了三款游戏，分别为游戏应用A、游戏应用B和游戏应用C，共有300万注册用户。游戏应用A共有100万注册用户，其中，有60万用户属于核心用户，游戏应用B共有50万注册用户，游戏应用C共有150万注册用户，即200万用户属于候选用户。

在这些核心用户和候选用户之后，需要提取每个核心用户和每个候选用户的基础画像信息以及历史行为信息。为了便于理解，请参阅表1，表1为基础画像信息的一个示意。

表1

用户标识

年龄

性别

职业

省份

城市

学历

0(核心用户)

18

男

学生

北京

高中

1(核心用户)

15

男

学生

上海

高中

2(核心用户)

33

女

工程师

广东

深圳

研究生

3(候选用户)

40

女

老师

广东

广州

博士

4(候选用户)

28

男

工程师

北京

本科

5(候选用户)

17

女

学生

四川

成都

高中

6(候选用户)

36

男

会计

湖南

长沙

本科

7(候选用户)

32

男

工程师

广东

深圳

研究生

8(候选用户)

25

女

学生

上海

本科

9(候选用户)

22

男

学生

广东

深圳

本科

基于此，对于非数字的特征进行处理，例如，性别采用“1”或“0”表示，“1”表示男性，“0”表示女性。省份可以采用1至34内的一个整数来代替，每个城市可以采用1至1000内的一个整数来代替。为了便于理解，请参阅表2，表2为基于基础画像信息生成用户特征的一个示意。

表2

用户标识	年龄	性别	职业	省份	城市	学历
							0(核心用户)	18	1	15	1	1	3
1(核心用户)	15	1	15	2	2	3
							2(核心用户)	33	0	3	12	67	5
3(候选用户)	40	0	56	2	18	6
							4(候选用户)	28	1	3	1	1	4
5(候选用户)	17	0	15	25	721	3
							6(候选用户)	36	1	34	28	656	4
7(候选用户)	32	1	3	12	67	5
							8(候选用户)	25	0	15	2	2	4
9(候选用户)	22	1	15	12	67	4

假设历史行为信息均采用数值的方式标识，即不需要进行特征处理，请参阅表3，表2为基于历史行为信息生成用户特征的一个示意。

表3

由表2和表3可知，用户标识为“0”的核心用户所具有的核心用户特征为[18,1,15,1,1,3,695,200,500,150,195,50]，用户标识为“8”的候选用户所具有的候选用户特征为[22,1,15,12,67,4,280,30,140,15,140,15]。根据每个核心用户的基础画像信息以及历史行为信息，生成每个核心用户的用户特征，这些核心用户的用户特征共同组成核心用户特征集合。根据每个候选用户的基础画像信息以及历史行为信息，生成每个候选用户的用户特征，这些候选用户的用户特征共同组成候选用户特征集合。

需要说明的是，基础画像信息所包括的类型仅为一个示意，在实际应用中，还可以提取其他的基础画像信息，例如，生日、星座、血型以及兴趣爱好等。类似地，历史行为信息所包括的类型也为一个示意，在实际应用中，还可以提取其他的历史行为信息，例如，游戏C活跃次数、游戏C付费金额、游戏D活跃次数以及游戏D付费金额等，此处不进行穷举。

再次，本申请所实施例中，提供了一种获取核心用户特征和候选用户特征的方式，通过上述方式，可以有针对性地选择出用于训练的用户特征，从多个关联的应用程序中提取用户的历史行为信息，使得用户特征的关联性更强，此外，对活跃度较高和核心用户和活跃度较低的候选用户均进行数据采集，从而更好地覆盖了样本的类型，提升样本多样性，进而提升模型的鲁棒性。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对待训练特征筛选模型的模型参数进行更新，可以包括：

基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对第一特征筛选子模型的模型参数进行更新；

本实施例中，介绍了一种基于GBDT算法训练特征筛选模型的方式，在训练过程中涉及到三个概念，分别为特征筛选模型、模型参数以及目标函数。其中，特征筛选模型就是所要学习的条件概率分布或者决策函数，它决定了在给定特征向量时，如何预测出目标结果。模型参数就是需要从训练数据中学习到的内容，特征筛选模型是由一个参数向量决定的函数。目标函数通常包括两个部分，一个是损失函数(例如这里的第一损失函数)，另一个为正则项，损失函数用于衡量模型拟合训练数据的好坏程度，正则项用于衡量学习到的模型的复杂度。

基于此，下面将具体介绍如何使用GBDT算法训练特征筛选模型。GBDT算法可以看成是由K棵决策树组成的加法模型，表示为：

其中，

表示x_i输入至特征筛选模型后得到的最终结果。x_i表示第i个用户的特征向量。需要说明的是，此处的用户是核心用户或者候选用户。F表示所有树组成的函数空间。f_k表示第k棵树，即第k个特征筛选子模型。K表示树的总数，即特征筛选模型中包括的特征筛选子模型总个数。由此可见，特征筛选模型类似于一个加法模型。

对于GBDT算法可以用前向分布算法(forward stagewise algorithm)，从前往后每一步只学习一颗树的结构，即每次学习一个特征筛选子模型，再逐步逼近优化第一损失函数，从而简化复杂度，上述学习过程称之为提升方法(Boosting)。为了便于理解，下面向详细说明特征筛选模型的学习过程。

具体学习过程如下：

...

其中，

表示x_i输入至特征筛选模型后，经过t个步骤后得到的结果，也就是说，特征筛选模型对x_i的预测为

表示x_i输入至特征筛选模型后，经过t-1个步骤后得到的结果(例如，

可以是第一特征筛选子模型)。f_t(x_i)表示本轮(即第t轮)要学习的决策树(例如，f_t(x_i)可以是第二特征筛选子模型)。需要说明的是，第二特征筛选子模型是基于上一轮得到的第一特征筛选子模型进行训练的。

基于此，在第t步的目标函数具体为：

其中，Obj^(t)表示第t步的目标函数。l()表示第一损失函数，Ω()表示复杂度，f_i表示第i个步骤所对应的决策树(即特征筛选子模型)。constant表示一个常数。n表示核心用户特征集合以及候选用户特征集合的样本总数。

假设第一损失函数为平方损失，则目标函数表示为：

其中，

为残差(residual)，因此，使用平方损失函数时，GBDT算法在每一步生成决策树时，只需要拟合前面模型的残差，对等式(3)进行泰勒展开，得到：

其中，g_i定义为第一损失函数的一阶导数：

其中，

表示求导。

h_i定义为第一损失函数的二阶导数：

将式子(6)中的一阶导数g_i和式子(7)中的二阶导数h_i代入式子(5)中，即可得到等式(4)，去掉式子(5)中的常量项，可以得到如下结果：

对于单棵决策树(即一个特征筛选子模型)而言，假设其叶子节点个数为T，每个叶子节点对应的参数为ω_j，决策树(即特征筛选子模型)的复杂度定义如下：

其中，Ω(f_t)表示第t步骤下决策树的复杂度。λ表示第一系数，具体为一个常数。γ表示第二系数，具体为一个常数。T表示为决策树中叶子节点的总个数，j表示第j个叶子节点，ω_j表示第j个叶子节点的参数。即决策树的复杂度由生成树的叶子节点数量和叶子节点对应的值向量的L2范数决定。

定义集合I_j＝{i|q(x_i)＝j}为所有被划分到第j个叶子节点的训练样本集合，式子(8)可以根据树的叶子节点重新组织为T个独立的二次函数的和，得到如下结果：

定义

则式子(10)表示为：

令函数Obj^(t)的一阶导数等于0，即可求得第j个叶子节点对应的值为：

此时目标函数的值表示为：

综上，单颗决策树(即一个特征筛选子模型)的学习过程可以大致描述为：

步骤A1：枚举所有可能的树结构q。其中，特征筛选模型K个特征筛选子模型(决策树)，每个特征筛选子模型包括q个可能的结构(树结构)。

步骤A2：采用式子(13)为每个树结构q计算其对应的目标函数的值Obj，Obj越小，说明对应的树结构越好。

步骤A3：根据步骤二计算的的Obj，找到最佳的树结构，用等式(12)为树的每个叶子节点计算预测值ω_j。

然而，可能的树结构数量是无穷的，难以枚举所有可能的树结构。通常情况下，可以采用贪心策略来生成决策树的每个节点，具体流程为：

步骤B1：从深度为0的树开始，对每个叶节点枚举所有的可用特征。

步骤B2：针对每个特征，把属于该节点的训练样本根据该特征值升序排列，通过线性扫描的方式来决定该特征的最佳分裂点，并记录该特征的最大收益，即采用最佳分裂点时的收益。

步骤B3：选择收益最大的特征作为分裂特征，采用该特征的最佳分裂点作为分裂位置，把该节点生长出左右两个新的叶节点，并为每个新节点关联对应的样本集。

步骤B4：回到步骤1，递归执行到满足模型训练条件为止。

基于GBDT算法的学习特征筛选模型的过程为：

步骤C1：根据单棵决策树的训练方法生成一颗新的决策树。

步骤C2：计算第一损失函数在训练集上的一阶导数和二阶导数。

步骤C3：使用公式

对待训练特征筛选模型进行更新，ε表示学习率，学习率可以避免模型过拟合。

步骤C4：如果不满足模型训练条件，则跳转至步骤C1继续执行，如果满足模型训练条件，则保存模型参数并输出特征筛选模型，其中，这里的模型训练条件表示为是否达到最大迭代次数，若是，则满足模型训练条件。

为了便于说明，下面将结合具体实例对基于GBDT算法训练特征筛选模型的过程进行介绍，以核心用户A、核心用户B、候选用户A和候选用户B为例，每个用户的用户特征包括年龄以及付费总金额，其中，核心用户的标签为1，候选用户的标签为0。在训练阶段还需要设置学习率、迭代次数以及回归树深度等参数。以学习率为0.1、迭代次数为2树的深度为3为例进行介绍。请参阅表4，表4为训练数据的一个示意。

表4

用户标识	年龄	付费总金额	标签
				0(样本0)	15	10	0
1(样本1)	25	50	1
				2(样本2)	30	100	1
3(样本3)	40	20	0

由表4可知，核心用户A的用户标识为1，核心用户B的用户标识为2，候选用户A的用户标识为0，候选用户B的用户标识为3。

基于此，首先需要对学习器进行初始化。在第一次迭代中，学习器采用如下公式：

其中，F₀()表示学习器，y_i表示预先标注的标签，c表示标签的均值，N表示样本数量，以表4为例，N＝4，L(y_i,c)表示第一损失函数。假设第一损失函数为平方损失函数，由于平方损失函数是一个凸函数，可以采用如下计算过程直接对其求导：

令导数等于0，则可以得到：

因此，在对学习器进行初始化时，c的取值为所有训练样本标签值的均值。在本示例中，c＝(0+1+1+0)/4＝0.5，此时可以得到初始化后的学习器为F₀(x)＝c＝0.5。

假设迭代次数为2，则进行两轮计算，并相应建立两棵回归树(例如分别为第一特征筛选子模型和第二特征筛选子模型)。在第一轮计算中，首先需要计算负梯度。由于第一损失函数采用平方损失函数，因此，负梯度为残差，残差表示标签与上一轮的得到的学习器(对于第一轮则是初始化得到的学习器)的差值。请参阅表5，表5为第一轮残差计算结果的一个示意。

表5

用户标识	真实值	F<sub>0</sub>(x)	残差
				0(样本0)	0	0.5	-0.5
1(样本1)	1	0.5	0.5
				2(样本2)	1	0.5	0.5
3(样本3)	0	0.5	-0.5

基于此，将残差作为样本的真实值来训练学习器，得到如表6所示的第一轮训练数据。

表6

用户标识	年龄	付费总金额	标签
				0(样本0)	15	10	-0.5
1(样本1)	25	50	0.5
				2(样本2)	30	100	0.5
3(样本3)	40	20	-0.5

接下来，需要寻找回归树的最佳划分点。首先遍历每个特征的可能取值，从年龄特征值为15开始，到付费总金额特征值为20结束。将各个取值作为划分点，可以得到特征值小于划分点的样本以及特征值大于或等于划分点的样本。将小于划分点的样本作为左分支，并且将大于或等于划分点的样本作为右分支，分别计算两个分支的平方损失，即左分支平方损失SE_l和右分支平方损失SE_r，然后对两个平方损失求和可以的平方损失和SE_sum。最小SE_sum所对应的划分点就是回归树的最佳划分点。表7为基于第一轮训练数据得到的第一轮划分情况。

表7

以年龄特征值25为例，将年龄特征值小于25的样本划分到左分支，年龄特征值大于等于25的样本划分到右分支，则左分支包括样本0，右分支包括样本1、样本2和样本3。左分支由于只有一个节点，因此平方损失为零。对于右分支，首先计算三个样本残差的平均数为(0.5+0.5-0.5)/3≈0.17，然后将每个残差减去均值，得到误差＝(0.5-0.17)2+(0.5-0.17)2+(-0.5-0.17)2≈0.67。

在上述划分点中，最小SE_sum为0，对应划分点为付费总金额50。左分支包括样本0和样本3，右分支包括样本1和样本2。根据上述的参数设置，回归树深度为3，而回归树目前的深度为2，因此需要对左分支和右分支进行进一步的划分。采用与上述类似的计算方法，可以得到如表8所示的左分支划分情况，以及如表9所示的右分支划分情况。

表8

表9

由此可见，在左分支仅包括两个样本，并且各个划分点的平方损失和相同，因此，可以选择任意的特征值作为最佳划分点，例如，选择付费总金额特征值10。右分支与左分支类似。在右分支同样仅包括两个样本，并且各个划分点的平方损失和相同，因此可以选择任意的特征值作为最佳划分点，例如选择年龄特征值25。

此时，根据上述第一轮计算结果，可以建立第一轮计算输出的第一棵回归树(即得到第一特征筛选子模型)。请参阅图8A，图8A为本申请实施例中生成第一特征筛选子模型的一个示意图。为了拟合残差，需要对第一棵回归树中的每个叶子节点进行赋值，赋值所采用方法如下：

根据上述划分结果，为了方便表示，规定从左到右依次为第1个、第2个、第3个和第4个叶子结点，其计算值过程如下：

(x₀∈R_1,1),c_1,1＝0-0.5＝-0.5

(x₀∈R_1,2),c_1,2＝1-0.5＝0.5

(x₀∈R_1,3),c_1,3＝1-0.5＝0.5；

(x₀∈R_1,4),c_1,4＝0-0.5＝-0.5

基于上述结果利用学习率更新学习器，更新所采用的公式如下：

至此，第一轮计算结束，开始第二轮计算。

在第二轮计算中，基于上述更新过的学习器公式，可以计算得到各个样本的学习器，并且采与上述相同计算方法得到各个样本的参加，请参阅表10，表10中为第二轮残差计算结果的一个示意。

表10

用户标识	真实值	F1(x)	残差
				0(样本0)	0	0.45	-0.45
1(样本1)	1	0.65	0.45
				2(样本2)	1	0.65	0.45
3(样本3)	0	0.45	-0.45

在第二轮计算中，重复上述第一轮计算过程，得到如表11中所示的第二轮训练数据。

表11

用户标识	年龄	付费总金额	标签
				0(样本0)	15	10	-0.45
1(样本1)	25	50	0.45
				2(样本2)	30	100	0.45
3(样本3)	40	20	-0.45

采用与第一轮相同的划分计算方式，基于第二轮训练数据计算得到如表12所示的第二轮划分情况。

表12

由表12可知，最小平方损失和对应的最佳划分点为付费总金额50，基于该最佳划分点，可以得到左分支和右分支。对左分支和右分支分别进行划分计算，可以得到如表13所示的左分支划分情况，以及如表14所示的右分支划分情况。

表13

表14

根据上述第二轮计算结果，可以建立第二轮计算输出的第二棵回归树(即得到第二特征筛选子模型)。请参阅图8B，图8B为本申请实施例中生成第二特征筛选子模型的一个示意图。由于迭代计算的次数已经满足设置的迭代次数参数，因此计算过程结束。

应理解，在实际计算计算中，当一个分支中所包括的所有标签值都相同时，表示计算结果已经达到拟合要求，则可以不继续进行迭代计算。例如，在上述示例中，在第一轮计算结束的情况为，左分支中的样本0和样本3的标签值一致，并且右分支中的样本1和样本2的标签值也一致，也可以不进行第二轮计算，而仅输出第一棵回归树。

再次，本申请所实施例中，提供了一种基于GBDT算法训练特征筛选模型的方式，通过上述方式，采用GBDT算法进行训练的特征筛选模型具体易于理解，可解释性强，预测速度快的优势，同时，GBDT算法相比于其他的算法需要更少的特征工程，可以不用做特征标准化，并且很好的处理字段缺失的数据，也可以不用关心特征间是否相互依赖等。GBDT算法能够自动组合多个特征，可处理特征间的交互关系。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，基于初始特征集合，通过特征筛选模型获取待训练类型集合，可以包括：

通过特征筛选模型所对应的K个特征筛选子模型，获取初始特征集合中每个初始类型所对应的K个重要度值，其中，K个重要度值中的每个重要度值与特征筛选子模型获具有一一对应的关系；

本实施例中，介绍了一种选择待训练类型集合的方式，对于初始特征集合中的P个初始特征而言，往往会存在较多类型的特征，有些特征对于预测潜在用户的作用比较大，而有些特征对于预测潜在用户的作用比较小，因此，为了提升训练的效率，本申请从P个初始类型中选择出Q个初始类型作为待训练类型，即得到Q个待训练类型。

具体地，首先计算每个初始特征的重要度值，以第j个初始类型(比如初始类型“年龄”)为例，采用如下方式计算第j个初始类型在单棵树(即单个特征筛选子模型)下对应的重要度值：

其中，

表示第j个初始类型在单棵树中的重要度值，L表示为树的叶子节点数量，L-1表示树的非叶子节点数量，t表示第t个叶子节点，v_t表示和第t个叶子节点相关联的特征，

表示第t个叶子节点分裂之后平方损失的减少值。

假设总共K棵树(即存在K个特征筛选子模型)，在得到每棵树的重要度值之后，计算K个重要度值的平均值，即得到全局重要度值。继续以第j个初始类型为例，采用如下方式计算第j个初始类型的全局重要度值：

其中，

表示第j个初始类型的全局重要度值，K表示树的总数(即特征筛选子模型的总数)，T_k表示第k棵树。

P个初始特征对应于P个全局重要度值，根据预先设定好的类型数量Q，从P个初始特征中提取全局重要度值最大的前Q个初始特征，这Q个初始特征即为Q个待训练类型，Q个待训练类型构成待训练类型集合。

进一步地，本申请所实施例中，提供了一种选择待训练类型集合的方式，通过上述方式，利用特征筛选模型对每个初始类型进行分析，从而得到每个初始类型所对应的全局重要度值，基于全局重要度值从筛选出待训练类型集合，能够有效地选择筛选出有用的特征类型，而不再提取非重要类型下用户特征，达到特征维度压缩的目的，在训练用户预测模型时能够节省计算资源，提升训练效率。在实际预测的过程中，能够更高效地捕捉到合理的且有效的信息。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据每个初始类型所对应的全局重要度值，从初始特征集合中确定待训练类型集合，可以包括：

根据每个初始类型所对应的全局重要度值，获取全局重要度值的降序排列结果；

根据每个初始特征所对应的全局重要度值，从初始特征集合中确定待训练特征集合，可以包括：

根据每个初始特征所对应的全局重要度值，获取全局重要度值的升序排列结果；

本实施例中，介绍了一种从P个初始类型中确定Q个待训练类型的方式，在得到P个初始类型所对应的全局重要度值之后，可以采用降序法或升序法，提取待训练类型集合。下面将分别进行介绍。

一、降序法；

假设Q取值为12，P取值为6，为了便于说明，请参阅表15，表15为基于P个初始类型生成降序排列结果的一个示意。

表15

初始类型	全局重要度值
		年龄	0.95
付费总金额性别	0.92
		游戏A的活跃次数	0.90
游戏B的活跃次数	0.89
		游戏B的付费金额	0.88
学历	0.85
		活跃总频次	0.80
职业	0.76
		省份	0.71
游戏A的付费金额	0.62
		城市	0.60
性别	0.55

由表15可见，基于降序排列结果从中选择排列在前Q个的初始类型确定为待训练类型，由此得到待训练类型集合，以表15为例，得到的待训练类型集合包括年龄、付费总金额性别、游戏A的活跃次数、游戏B的活跃次数、游戏B的付费金额以及学历。

二、升序法；

假设Q取值为12，P取值为6，为了便于说明，请参阅表16，表16为基于P个初始类型生成升序排列结果的一个示意。

表16

由表16可见，基于降序排列结果从中选择排列在后Q个的初始类型确定为待训练类型，由此得到待训练类型集合，以表16为例，得到的待训练类型集合包括年龄、付费总金额性别、游戏A的活跃次数、游戏B的活跃次数、游戏B的付费金额以及学历。

需要说明的是，由于实际情况下，初始类型的数量可达到400以上，因此，可以从中取出的待训练类型可以为50。此处仅为一个示意，不应理解为本申请的限定。

更进一步地，本申请所实施例中，提供了一种从P个初始类型中确定Q个待训练类型的方式，通过上述方式，能够自定义用于训练和用于预测的特征类型数量，如果Q值设定较大，虽然会造成训练效率有所降低，但是可能考虑更多维度的特征，由此增强模型的鲁棒性。如果Q值设定较小，虽然会造成模型的鲁棒性有所下降，但是可以提升训练的效率。因此，可以根据实际需求选择合理数量的特征用于训练和预测，从而提升方案的灵活性。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据待训练类型集合生成用户样本集合，可以包括：

本实施例中，介绍了一种生成用户样本集合的方式，在得到Q个待训练类型之后，可以从核心用户特征集合以及候选用户特征集合中分别提取这Q个待训练类型对应的特征。在训练的过程中，需要正样本和负样本，其中，正样本为核心用户的用户样本，而负样本为候选用户的用户样本。

具体地，假设Q个待训练类型分别为年龄、付费总金额、性别、游戏A的活跃次数、城市以及学历。基于此，从核心用户的P个初始类别中提取这Q个待训练类型所对应的特征作为第一用户样本，从候选用户的P个初始类别中提取这Q个待训练类型所对应的特征作为第二用户样本。为了便于理解，请参阅表17，表17为基于Q个待训练类型获取用户样本的一个示意。

表17

用户标识	年龄	付费总金额	性别	游戏A的活跃次数	城市	学历
							0(核心用户)	18	150	1	152	1	3
1(候选用户)	25	180	0	20	2	3

由表17可知，用户标识为“0”的核心用户对应的第一用户样本表示为[18,150,1,152,1,3]，也可以表示为one-hot的形式。用户标识为“1”的候选用户对应的第二用户样本表示为[25,180,0,20,2,3]，也可以表示为one-hot的形式。

其次，本申请所实施例中，提供了一种生成用户样本集合的方式，通过上述方式，在确定待训练类型之后，只需要获取待训练类型所对应的用户特征，以此生成用户样本。在描述用户特征的时候，相较于无差别提取特征而言，有针对性地提取特征能够节省训练的计算量，提升训练效率。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型，可以包括：

基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数对待训练用户预测模型的模型参数进行更新；

本实施例中，介绍了一种用户预测模型的训练方式，在得到用户样本集合之后，可以将该用户样本集合中的一部分用户样本作为训练样本，另一部分用户样本作为测试样本。例如，从用户样本集合中随机抽取80％的用户样本作为训练集，用于训练用户预测模型，剩余的20％的用户样本作为测试集，用于对训练好的用户预测模型进行效果衡量。

具体地，将训练集中的用户样本均输入至待训练用户预测模型，由该待训练用户预测模型输出每个用户样本所对应的预测概率分值，再结合第二损失函数，对用户样本所预测概率分值以及标注标签进行损失计算，然后基于损失值调整待训练用户预测模型的模型参数。若不满足模型训练条件，则继续使用更新后的待训练用户预测模型进行预测，直至满足模型训练条件为止，此时，将更新后的模型参数作为待训练用户预测模型最终的模型参数，即得到用户预测模型。可以理解的是，模型训练条件通常包括两个条件，条件一为达到预设的迭代次数，比如十万次。条件二为损失值达到收敛的情况。而本实施例中，满足模型训练条件既可以是仅满足条件一，也可以是仅满足条件二，还可以是既满足条件一，又满足条件二。

可以理解的是，用户预测模型可以是逻辑回归(Logistic Regression)模型，也可以是其他更复杂的分类模型来获取更高的精度，例如，树模型(XGBoost或GBDT)等，但是树模型可能会损失部分可解释性，因此，本申请以采用LR模型为例进行介绍。

其次，本申请所实施例中，提供了一种用户预测模型的训练方式，通过上述方式，能够训练得到用户预测模型，利用该用户预测模型即可预测潜在用户，从而提升方案的可行性和可操作性。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数对待训练用户预测模型的模型参数进行更新，可以包括：

基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数获取损失总和值，其中，损失总和值包括每个用户样本所对应的损失值；

对损失总和值进行取对数处理，得到对数似然函数；

对对数似然函数进行求导处理，得到参数更新函数；

本实施例中，介绍了一种以LR模型作为用户预测模型进行训练的方式。以广告投放场景为例，由于广告投放往往涉及较大金额，需要模型具有较好的可解释性，因此，选用LR模型作为用户预测模型的，LR是一种分类方法，主要用于二分类问题(即输出只有两种，分别为0或1，分别代表两个类别)，使用了Logistic函数(或称为Sigmoid函数)，Logistic函数形式为：

其中，z表示Sigmoid函数的输入。

具体地，输入的用户样本可以表示为特性向量的形式，例如：x＝[x₁,x₂,x₃,...,x_Q]，x_n表示第Q个特征。模型参数也可以表示为特性向量的形式，例如：θ＝[θ₁,θ₂,θ₃,...,θ_Q]。

基于此，用户预测模型(即LR模型)可以表示为：

其中，g()表示Sigmoid函数。

LR算法是将线性函数的结果映射到了sigmoid函数中，将上述式子(17)进行变换后，可以得到如下结果：

函数h_θ(x)表示结果取1的概率，因此对于输入的用户样本x分类结果为类别1和类别0的概率分别为：

P(y＝1|x；θ)＝h_θ(x)； (19)

P(y＝0|x；θ)＝1-h_θ(x)； (20)

通过梯度下降法学习模型参数。首先构造第二损失函数，其中y表示用户样本所对应的标注标签，第二损失函数表示为：

对于m个用户样本的整体损失表示为：

其中，J(θ)表示损失总和值，x_i表示第i个用户样本，y_i表示第i个用户样本的标注标签。

对损失总和值进行取对数处理，并且去掉负号，得到如下对数似然函数：

模型要求整体损失最小，就是要求使似然函数最大时模型参数θ的值，模型参数θ的更新过程如下，首先，根据梯度的相关理论，知道梯度的负方向就是损失函数下降最快的方向。因此，应该沿着梯度负方向逐渐调整权重分量θ_j，直到得到损失函数最小值，第二损失函数对模型参数求导可表示为：

其中，x_ij表示第i个用户样本的第j个特征。

上式的推导中用到了Sigmoid函数g(z)的性质，得到：

g(z_i)′＝g(z_i)(1-g(z_i))； (24)

由此得到梯度下降法的参数更新函数，根据参数更新函数待训练用户预测模型的模型参数进行更新，参数更新函数表示为：

其中，η表示学习率，这里可以设置为0.01。

关于权重向量的初始化问题。一般用接近于0的随机值初始化θ_j，比如在区间[-0.01,0.01]内均匀选取，这样做的理由是，如果θ_j很大，则加权和可能也很大，根据Sigmoid函数的性质可知，大的加权和会使得g(z_i)的导数接近0，则变化速率变缓使得权重的更新变缓。

在训练过程中，为了进一步防止过拟合，使用L2正则化的方法，添加一个参数的惩罚项λ，防止模型参数过大，加入L2正则化之后的参数更新函数表示为：

假设设置最大迭代次数为10000，若迭代次数达到最大迭代次数，或者，相邻50次迭代损失函数变化不超过0.0001，则表示满足模型训练条件，即得到最终的模型。

再次，本申请所实施例中，提供了一种以LR模型作为用户预测模型进行训练的方式，通过上述方式，以LR模型作为用户预测模型具有较好的可解释性，从特征权重即可看出不同特征对最后结果的影响。此外，LR模型在工程上可以支持并行开发，大幅地加快了开发速度，且LR模型的训练速度较快，分类的时候计算量仅与特征数量相关。LR模型占用内存较小，而且还可以对输出结果进行灵活的调整。

可选地，在上述图5对应的各个实施例的基础上，本申请实施例提供的模型训练的方法一个可选实施例中，根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型之后，还可以包括：

获取核心用户目标特征集合，其中，核心用户目标特征集合包括至少一个核心用户的用户特征；

基于核心用户目标特征集合，通过用户预测模型获取每个核心所对应的预测概率分值；

根据每个核心所对应的预测概率分值确定目标概率阈值，其中，目标概率阈值用于预测广告投放的潜在用户。

本实施例中，介绍了一种确定目标概率阈的方法，在用户预测模型训练完成之后，首先需要计算所有正样本的得分。正样本即为核心用户的用户特征，用户特征是指经过类别筛选后的特征所构成的特征向量或特征矩阵，用户特征作为用户预测模型的输入。而得分表示预测概率分值，预测概率分值为用户预测模型的输出。

为了便于理解，请参阅表18，表18为5个核心用户所对应的预测概率分值一个示意。

表18

用户标识	标签	预测概率分值
			0	核心用户	0.85
68	核心用户	0.90
			96	核心用户	0.95
153	核心用户	0.80
			325	核心用户	0.90

基于表18，得到5个核心用户的预测概率分值的平均值为0.88，即可将目标概率阈值设置为0.88，若小于0.88，则表示该用户属于候选用户。若大于或等于0.88，则表示该用户属于核心用户，即确定为待推荐用户，由此可以挖掘出所有的待推荐用户，可以对这些待推荐用户进行广告触达等营销手段，最小成本获取新的用户。在广告投放场景下，由于经费的限制，往往只需要选择固定量级的用户进行投放触达，因此需要在这些待推荐用户中进行进一步筛选，假设广告投放所需用户量级为N，筛选规则可以为，对所有待推荐用户的预测概率分值进行从高到低排序，取前N位待推荐用户作为潜在用户。

其次，本申请所实施例中，提供了一种确定目标概率阈值的方式，通过上述方式，采集大量核心用户对应的预测概率分值，然后根据这些预测概率分值确定目标概率阈值，相比于直接设置一个固定而言，使用预测概率分值计算得到的目标概率阈值具有更强的适用性，能够更贴近实际预测的情况，增强预测的可靠性和准确性。

下面对本申请中的潜在用户确定装置进行详细描述，请参阅图9，图9为本申请实施例中潜在用户确定装置一个实施例示意图，潜在用户确定装置30包括：

获取模块301，用于获取M个种子用户所对应的用户特征，其中，每个用户特征包括Q个类型对应的特征，其中，M为大于或等于1的整数，Q为大于或等于1的整数；

获取模块301，还用于基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值；

确定模块302，用于根据每个种子用户所对应的预测概率分值，从M个种子用户中确定待推荐用户集合，其中，待推荐用户集合包括至少一个待推荐用户，每个待推荐用户所对应的预测概率分值大于或等于目标概率阈值；

确定模块302，还用于从待推荐用户集合中确定N个潜在用户，其中，N个潜在用户为待推荐用户集合中预测概率分值前N的待推荐用户，N为大于或等于1，且小于或等于M的整数。

下面对本申请中的模型训练装置进行详细描述，请参阅图10，图10为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取M个种子用户所对应的用户特征，并基于M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，其中，M为大于或等于1的整数；

生成模块402，用于根据待训练类型集合生成用户样本集合，其中，用户样本集合包括至少一个用户样本，每个用户样本具有Q个待训练类型对应的特征，每个用户样本对应于一个标注标签；

获取模块401，还用于基基于用户样本集合，通过待训练用户预测模型获取每个用户样本所对应的预测概率分值；

训练模块403，用于根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型，其中，用户预测模型用于执行潜在用户的确定方法。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

获取模块401，还用于基于初始特征集合，通过特征筛选模型获取待训练特征集合之前，获取核心用户特征集合以及候选用户特征集合，其中，核心用户特征集合包括至少一个核心用户的用户特征，候选用户特征集合包括至少一个候选用户的用户特征；

训练模块403，还用于基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对待训练特征筛选模型的模型参数进行更新，其中，待训练特征筛选模型为基于K个特征筛选子模型进行训练的，K为大于或等于1的整数；

训练模块403，还用于当满足模型训练条件时，将更新后的模型参数确定为特征筛选模型的模型参数，以得到特征筛选模型。

获取模块401，具体用于获取第一应用程序所对应的核心用户集合，其中，核心用户集合包括至少一个核心用户；

训练模块403，具体用于基于核心用户特征集合以及候选用户特征集合，采用第一损失函数对第一特征筛选子模型的模型参数进行更新；

获取模块401，具体用于通过特征筛选模型所对应的K个特征筛选子模型，获取初始特征集合中每个初始类型所对应的K个重要度值，其中，K个重要度值中的每个重要度值与特征筛选子模型获具有一一对应的关系；

获取模块401，具体用于根据每个初始类型所对应的全局重要度值，获取全局重要度值的降序排列结果；

获取模块401，具体用于根据每个初始特征所对应的全局重要度值，获取全局重要度值的升序排列结果；

生成模块402，具体用于获取核心用户特征集合以及候选用户特征集合，其中，核心用户特征集合包括至少一个核心用户的用户特征，候选用户特征集合包括至少一个候选用户的用户特征；

训练模块403，具体用于基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数对待训练用户预测模型的模型参数进行更新；

训练模块403，具体用于基于每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，采用第二损失函数获取损失总和值，其中，损失总和值包括每个用户样本所对应的损失值；

对损失总和值进行取对数处理，得到对数似然函数；

对对数似然函数进行求导处理，得到参数更新函数；

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，模型训练装置40还包括确定模块404；

获取模块401，还用于根据每个用户样本所对应的预测概率分值以及每个用户样本所对应的标注标签，对待训练用户预测模型的模型参数进行更新，以得到用户预测模型之后，获取核心用户目标特征集合，其中，核心用户目标特征集合包括至少一个核心用户的用户特征；

获取模块401，还用于基于核心用户目标特征集合，通过用户预测模型获取每个核心所对应的预测概率分值；

确定模块404，用于根据每个核心所对应的预测概率分值确定目标概率阈值，其中，目标概率阈值用于预测广告投放的潜在用户。

本申请提供的潜在用户确定装置以及模型训练装置部署于计算机设备，该计算机设备可以是服务器或者终端设备，下面将以计算机设备为服务器为例进行说明，请参阅图11，图11是本申请实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法中潜在用户确定装置所执行的步骤，或，使得计算机执行如前述各个实施例描述的方法中模型训练装置所执行的步骤

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法中潜在用户确定装置所执行的步骤，或，使得计算机执行如前述各个实施例描述的方法中模型训练装置所执行的步骤

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述确定为分离部件说明的单元可以是或者也可以不是物理上分开的，确定为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并确定为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种潜在用户的确定方法，其特征在于，包括：

获取M个种子用户所对应的用户特征，并基于所述M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，其中，所述M为大于或等于1的整数；

根据所述每个种子用户所对应的预测概率分值，从所述M个种子用户中确定待推荐用户集合，其中，所述待推荐用户集合包括至少一个待推荐用户，每个待推荐用户所对应的预测概率分值大于或等于目标概率阈值；

从所述待推荐用户集合中确定N个潜在用户，其中，所述N个潜在用户为所述待推荐用户集合中预测概率分值前N的待推荐用户，所述N为大于或等于1，且小于或等于所述M的整数。

2.一种模型训练的方法，其特征在于，包括：

获取初始特征集合，其中，所述初始特征集合包括每个用户所对应的P个初始类型的特征，所述P为大于或等于1的整数；

基于所述初始特征集合，通过特征筛选模型获取待训练类型集合，其中，所述待训练类型集合包括Q个待训练类型，其中，所述Q个待训练类型属于所述P个初始类型的部分类型，所述Q为大于或等于1，且小于或等于所述P的整数；

根据所述待训练类型集合生成用户样本集合，其中，所述用户样本集合包括至少一个用户样本，每个用户样本具有所述Q个待训练类型对应的特征，每个用户样本对应于一个标注标签；

基于所述用户样本集合，通过待训练用户预测模型获取所述每个用户样本所对应的预测概率分值；

根据所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，对所述待训练用户预测模型的模型参数进行更新，以得到用户预测模型，其中，所述用户预测模型用于执行如上述权利要求1所述的确定方法。

3.根据权利要求2所述的方法，其特征在于，所述基于所述初始特征集合，通过特征筛选模型获取待训练特征集合之前，所述方法还包括：

获取核心用户特征集合以及候选用户特征集合，其中，所述核心用户特征集合包括至少一个核心用户的用户特征，所述候选用户特征集合包括至少一个候选用户的用户特征；

基于所述核心用户特征集合以及所述候选用户特征集合，采用第一损失函数对待训练特征筛选模型的模型参数进行更新，其中，所述待训练特征筛选模型为基于K个特征筛选子模型进行训练的，所述K为大于或等于1的整数；

当满足模型训练条件时，将更新后的模型参数确定为所述特征筛选模型的模型参数，得到所述特征筛选模型。

4.根据权利要求3所述的方法，其特征在于，所述获取核心用户特征集合以及候选用户特征集合，包括：

获取第一应用程序所对应的核心用户集合，其中，所述核心用户集合包括至少一个核心用户；

获取至少一个第二应用程序所对应的候选用户集合，其中，所述候选用户集合包括至少一个候选用户，所述第一应用程序与所述至少一个第二应用程序具有关联关系；

获取所述核心用户集合中每个核心用户的基础画像信息以及历史行为信息，以及所述候选用户集合中每个候选用户的基础画像信息以及历史行为信息；

根据所述每个核心用户的基础画像信息以及历史行为信息，生成所述核心用户特征集合；

根据所述每个候选用户的基础画像信息以及历史行为信息，生成所述候选用户特征集合。

5.根据权利要求3所述的方法，其特征在于，所述基于所述核心用户特征集合以及候选用户特征集合，采用第一损失函数对待训练特征筛选模型的模型参数进行更新，包括：

基于所述核心用户特征集合以及所述候选用户特征集合，采用所述第一损失函数对第一特征筛选子模型的模型参数进行更新；

基于所述核心用户特征集合、所述候选用户特征集合以及所述第一特征筛选子模型，采用所述第一损失函数对第二特征筛选子模型的模型参数进行更新；

根据所述第一特征筛选子模型以及所述第二特征筛选子模型，更新所述待训练特征筛选模型的模型参数。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述基于所述初始特征集合，通过特征筛选模型获取待训练类型集合，包括：

通过所述特征筛选模型所对应的K个特征筛选子模型，获取所述初始特征集合中每个初始类型所对应的K个重要度值，其中，所述K个重要度值中的每个重要度值与特征筛选子模型获具有一一对应的关系；

根据所述每个初始类型所对应的K个重要度值，生成所述每个初始类型所对应的全局重要度值；

根据所述每个初始类型所对应的全局重要度值，从所述初始特征集合中确定所述待训练类型集合。

7.根据权利要求6所述的方法，其特征在于，所述根据所述每个初始类型所对应的全局重要度值，从所述初始特征集合中确定所述待训练类型集合，包括：

根据所述每个初始类型所对应的全局重要度值，获取全局重要度值的降序排列结果；

根据所述全局重要度值的降序排列结果，将排列在前Q个的初始类型确定为待训练类型，直至获取到所述待训练类型集合；

所述根据所述每个初始特征所对应的全局重要度值，从所述初始特征集合中确定所述待训练特征集合，包括：

根据所述每个初始特征所对应的全局重要度值，获取全局重要度值的升序排列结果；

根据所述全局重要度值的升序排列结果，将排列在后Q个的初始特征确定为待训练特征，直至获取到所述待训练类型集合。

8.根据权利要求2所述的方法，其特征在于，所述根据所述待训练类型集合生成用户样本集合，包括：

根据所述核心用户特征集合确定所述Q个待训练类型所对应的第一用户样本子集合，其中，所述第一用户样本子集合包括至少一个第一用户样本，每个第一用户样本具有所述Q个待训练类型对应的特征；

根据所述核心用户特征集合确定所述Q个待训练类型所对应的第二用户样本子集合，其中，所述第二用户样本子集合包括至少一个第二用户样本，每个第二用户样本具有所述Q个待训练类型对应的特征；

根据所述第一用户样本子集合以及所述第二用户样本子集合，生成所述用户样本集合。

9.根据权利要求2所述的方法，其特征在于，所述根据所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，对所述待训练用户预测模型的模型参数进行更新，以得到用户预测模型，包括：

基于所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，采用第二损失函数对所述待训练用户预测模型的模型参数进行更新；

当满足模型训练条件时，将更新后的模型参数确定为所述用户预测模型的模型参数，得到所述用户预测模型。

10.根据权利要求9所述的方法，其特征在于，所述基于所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，采用第二损失函数对所述待训练用户预测模型的模型参数进行更新，包括：

基于所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，采用所述第二损失函数获取损失总和值，其中，所述损失总和值包括每个用户样本所对应的损失值；

对所述损失总和值进行取对数处理，得到对数似然函数；

对所述对数似然函数进行求导处理，得到参数更新函数；

根据所述参数更新函数所述待训练用户预测模型的模型参数进行更新。

11.根据权利要求2所述的方法，其特征在于，所述根据所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，对所述待训练用户预测模型的模型参数进行更新，以得到用户预测模型之后，所述方法还包括：

获取核心用户目标特征集合，其中，所述核心用户目标特征集合包括至少一个核心用户的用户特征；

基于所述核心用户目标特征集合，通过所述用户预测模型获取每个核心所对应的预测概率分值；

根据所述每个核心所对应的预测概率分值确定目标概率阈值，其中，所述目标概率阈值用于预测广告投放的潜在用户。

12.一种潜在用户确定装置，其特征在于，包括：

获取模块，用于获取M个种子用户所对应的用户特征，并基于所述M个种子用户所对应的用户特征，通过用户预测模型获取每个种子用户所对应的预测概率分值，其中，所述M为大于或等于1的整数；

确定模块，用于根据所述每个种子用户所对应的预测概率分值，从所述M个种子用户中确定待推荐用户集合，其中，所述待推荐用户集合包括至少一个待推荐用户，每个待推荐用户所对应的预测概率分值大于或等于目标概率阈值；

所述确定模块，还用于从所述待推荐用户集合中确定N个潜在用户，其中，所述N个潜在用户为所述待推荐用户集合中预测概率分值前N的待推荐用户，所述N为大于或等于1，且小于或等于所述M的整数。

13.一种模型训练装置，其特征在于，包括：

获取模块，用于获取初始特征集合，其中，所述初始特征集合包括每个用户所对应的P个初始类型的特征，所述P为大于或等于1的整数；

所述获取模块，还用于基于所述初始特征集合，通过特征筛选模型获取待训练类型集合，其中，所述待训练类型集合包括Q个待训练类型，其中，所述Q个待训练类型属于所述P个初始类型的部分类型，所述Q为大于或等于1，且小于或等于所述P的整数；

生成模块，用于根据所述待训练类型集合生成用户样本集合，其中，所述用户样本集合包括至少一个用户样本，每个用户样本具有所述Q个待训练类型对应的特征，每个用户样本对应于一个标注标签；

所述获取模块，还用于基基于所述用户样本集合，通过待训练用户预测模型获取所述每个用户样本所对应的预测概率分值；

训练模块，用于根据所述每个用户样本所对应的预测概率分值以及所述每个用户样本所对应的标注标签，对所述待训练用户预测模型的模型参数进行更新，以得到用户预测模型，其中，所述用户预测模型用于执行如上述权利要求1所述的确定方法。

14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，所述处理器用于根据所述程序代码中的指令执行权利要求1所述的方法，或，执行如权利要求2至11中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1所述的方法，或，执行如权利要求2至11中任一项所述的方法。