CN115700550A

CN115700550A - 标签分类模型训练和对象筛选方法、设备及存储介质

Info

Publication number: CN115700550A
Application number: CN202110856946.8A
Authority: CN
Inventors: 赵猛; 徐振辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2023-02-07

Abstract

本申请实施例提供了一种标签分类模型训练和对象筛选方法、设备及存储介质，涉及人工智能技术领域，在该方法中，基于样本数据集合对待训练的标签分类模型进行迭代训练，输出目标标签分类模型，在一次迭代过程中，基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为正向等级标签和负向等级标签，而不是将样本对象绑定在一个等级标签上，故基于样本对象在正向等级标签下的第一预测标签值，以及在负向等级标签下的第二预测标签值，获得目标损失函数进行调参时，考虑了样本对象在多个等级标签下的偏序关系，使标签分类模型在实际意义中更具备合理性，从而提高基于标签分类模型筛选用户账号定向投放多媒体内容的效果。

Description

标签分类模型训练和对象筛选方法、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种标签分类模型训练和对象筛选方法、设备及存储介质。

背景技术

随着互联网技术的发展，各种应用层出不穷，人们可以获知的多媒体内容也越来越多。为了满足不同目标对象对多媒体内容的需求，同时节约目标对象搜索多媒体内容的时间，需要向各个目标对象定向推送多媒体内容，以达到好的收益效果。

相关技术采用softmax函数和交叉熵损失函数训练模型，来预测目标对象的等级标签，然后基于获得的等级标签定向投放相关内容。然而，上述方法只学习提升目标对象实际等级标签的得分，并同时抑制其他等级的等级标签的得分，忽略了各个等级标签之间存在的偏序关系，从而导致模型的预测准确性较低，进而影响定向投放多媒体内容的效果。

发明内容

本申请实施例提供了一种标签分类模型训练和对象筛选方法、装置、设备及存储介质，用于提高标签分类模型的预测准确性，以及定向投放多媒体内容的效果。

一方面，本申请实施例提供了一种标签分类模型训练方法，该方法包括：

获得样本数据集合，其中，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值；

基于所述样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型，其中，在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，所述各个正向等级标签和所述各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对所述多个预设等级标签进行划分获得的。

一方面，本申请实施例提供了一种对象筛选方法，该方法包括：

获取各个候选对象的特征数据；

分别将所述各个候选对象的特征数据，输入已训练的目标标签分类模型，获得所述各个候选对象各自在多个预设等级标签下的目标标签值，所述已训练的目标标签分类模型是采用上述标签分类模型训练方法获得的；

基于所述各个候选对象各自在多个预设等级标签下的目标标签值，分别确定所述各个候选对象各自对应的深度意向分值；

基于所述各个候选对象各自对应的深度意向分值，从所述各个候选对象中筛选出至少一个目标对象。

一方面，本申请实施例提供了一种标签分类模型训练装置，该装置包括：

第一获取模块，用于获得样本数据集合，其中，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值；

训练模块，用于基于所述样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型，其中，在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，所述各个正向等级标签和所述各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对所述多个预设等级标签进行划分获得的。

可选地，所述训练模块还包括调参模块；

所述调参模块具体用于：

针对所述各个样本数据，分别执行以下步骤：

基于一个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，确定第一损失值；

基于所述一个样本数据中的样本对象分别在对应的各个负向等级标签下的第二预测标签值，确定第二损失值；

基于所述第一损失值和所述第二损失值，确定所述一个样本数据对应的目标损失值；

基于获得的所述各个样本数据分别对应的目标损失值，获得用于调参的目标损失函数。

可选地，每个样本数据还包括样本对象的特征数据；

所述训练模块还包括预测模块；

所述预测模块具体用于：

基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数之前，分别将所述各个样本数据包含的样本对象的特征数据，输入所述待训练的标签分类模型，获得相应的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值。

可选地，所述调参模块还用于：

从一个样本数据对应的各个真实标签值中，确定出大于等于预设阈值的第一类真实标签值，以及小于所述预设阈值的第二类真实标签值；

将所述第一类真实标签值对应的各个预设等级标签，作为所述一个样本数据中的样本对象对应的正向等级标签；

将所述第二类真实标签值对应的各个预设等级标签，作为所述一个样本数据中的样本对象对应的负向等级标签。

可选地，所述训练模块还包括设置模块；

所述设置模块具体用于：

对所述多个预设等级标签分别设置相应的活跃等级；以及，

在每个样本数据对应的各个正向等级标签和各个负向等级标签中，设置所述各个正向等级标签中的最大活跃等级，小于所述各个负向等级标签中的最小活跃等级。

可选地，所述设置模块还用于：

根据所述样本对象在目标应用中的留存时长，以及所述样本对象在所述目标应用中的活跃次数，确定所述样本对象分别在所述多个预设等级标签下的真实标签值。

一方面，本申请实施例提供了一种对象筛选装置，该装置包括：

第二获取模块，用于获取各个候选对象的特征数据；

预测模块，用于分别将所述各个候选对象的特征数据，输入已训练的目标标签分类模型，获得所述各个候选对象各自在多个预设等级标签下的目标标签值，所述已训练的目标标签分类模型是采用上述标签分类模型训练装置获得的；

评估模块，用于基于所述各个候选对象各自在多个预设等级标签下的目标标签值，分别确定所述各个候选对象各自对应的深度意向分值；

筛选模块，用于基于所述各个候选对象各自对应的深度意向分值，从所述各个候选对象中筛选出至少一个目标对象。

可选地，所述评估模块具体用于：

针对所述各个候选对象，分别执行以下步骤：

对一个候选对象分别在多个预设等级标签下的目标标签值进行归一化处理，获得一个候选对象分别在所述多个预设等级标签下的候选概率；

基于获得的各个候选概率，以及所述多个预设等级标签分别对应权重，确定一个候选对象的深度意向分值。

可选地，所述筛选模块具体用于：

按照深度意向分值从大到小的顺序，对所述各个候选对象各自对应的深度意向分值进行排序，获得目标排序结果；

将所述目标排序结果中排在前M位的深度意向分值对应的候选对象，作为目标对象，其中，M大于等于1。

可选地，所述各个候选对象为针对目标应用的候选对象；

所述筛选模块还用于：

所述基于所述各个候选对象各自对应的深度意向分值，从所述各个候选对象中筛选出至少一个目标对象之后，将所述目标应用的相关内容推荐给所述至少一个目标对象。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述标签分类模型训练方法和/或对象筛选方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述标签分类模型训练方法和/或对象筛选方法的步骤。

本申请实施例中，基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为样本对象对应的正向等级标签和负向等级标签，而不是局限于将样本对象绑定在某一个等级标签上，故在训练过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得目标损失函数进行模型参数调整时，全面考虑了样本对象在多个等级标签下的偏序关系，从而使标签分类模型在实际意义中更具备合理性，进而提高标签分类模型的预测效果。在定向投放多媒体内容的场景下，采用上述训练好的目标标签分类模型预测候选对象的目标标签值，可以有效提高标签值预测的准确性，故基于候选对象的目标标签值从各个候选对象中筛选出目标对象，并向筛选出的各个目标对象推送相应的多媒体内容时，可以有效提高定向投放多媒体内容的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种标签分类模型训练方法的流程示意图；

图3为本申请实施例提供的一种小说应用的界面示意图；

图4为本申请实施例提供的一种购物应用的界面示意图；

图5为本申请实施例提供的一种划分正向等级标签和负向等级标签的示意图；

图6为本申请实施例提供的一种标签分类模型训练方法的流程示意图；

图7为本申请实施例提供的一种对象筛选方法的流程示意图；

图8为本申请实施例提供的一种预测目标标签值的方法的流程示意图；

图9为本申请实施例提供的一种广告投放界面的示意图；

图10为本申请实施例提供的一种标签分类模型训练和对象筛选方法的流程示意图；

图11为本申请实施例提供的一种广告投放界面的示意图；

图12为本申请实施例提供的一种标签分类模型训练装置的结构示意图；

图13为本申请实施例提供的一种对象筛选装置的结构示意图；

图14为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。比如，本申请实施例中，采用机器学习技术训练标签分类模型。在获得标签分类模型之后，采用标签分类模型预测每个候选对象分别在各个预设等级标签下的目标标签值。然后基于获得的目标标签值，从多个候选对象中筛选出至少一个目标对象，并向筛选出的目标对象定向投放多媒体内容，其中，多媒体内容可以是广告、视频、文章等。

单标签分类任务：对于一组特征输入，仅对应一个类别标签，通过模型学习该对应关系。

多标签分类任务：对于一组特征输入，对应若干个类别标签，通过模型学习该对应关系。

Softmax函数：一种利用指数方式归一化一组数据的函数映射关系。

圆损失函数(Circle Loss)：一种关于交叉熵损失(Cross-Entropy Loss)和荷叶损失函数(Hinge Loss)的统一视角下的，充分枚举多个类目之间的预测得分偏序关系的新型损失函数，其决策边界被证明为圆形，因此被命名为圆损失函数。

DeepFM模型：结合了广度和深度模型的优点，联合训练因式分解机(Factorization Machine，简称FM)模型和深度神经网络(Deep Neural Networks，简称DNN)模型，同时学习低阶特征组合和高阶特征组合。

下面对本申请实施例的设计思想进行介绍。

在定向推送多媒体内容的场景中，通常采用softmax函数和交叉熵损失函数训练模型，来预测目标对象的等级标签。然后基于获得的等级标签定向投放相关内容。然而，该方法只学习提升目标对象实际等级标签的得分，同时抑制其他等级的等级标签的得分。

举例来说，预先设置4个活跃等级标签，按照活跃等级从低到高排序依次为：活跃等级标签0、活跃等级标签1、活跃等级标签2和活跃等级标签3。设定用户A的实际等级标签为活跃等级标签1。那么，采用softmax函数和交叉熵损失函数训练模型时，模型只学习提升用户A在活跃等级标签1的得分，同时抑制用户A在活跃等级标签0、活跃等级标签2和活跃等级标签3的得分。

采用训练获得的模型，预测候选用户的活跃等级标签时，候选用户会在一个活跃等级标签上获得高分，在其他三个活跃等级标签上均获得低分，然后将获得高分的活跃等级标签作为候选用户的预测等级标签。

然而，在实际意义下，用户在各个等级标签之间是存在偏序关系的，即在进行等级标签预测时，用户账号的实际等级标签以及比实际等级标签的等级低的其他等级标签都应该预测输出高分。比如，设定用户账号A的实际等级标签为活跃等级标签1，在实际意义下，由于活跃等级标签1的活跃等级大于活跃等级标签0的活跃等级，用户账号A在满足高活跃等级的活跃等级标签条件的情况下，自然也是满足低活跃等级的活跃等级标签条件的，即用户账号A在活跃等级标签1和活跃等级标签0都应该获得高分，而不应该仅仅在活跃等级标签1获得高分。

在模型训练过程中，若忽略前文描述的各个等级标签之间的偏序关系，将影响模型预测的合理性，从而导致模型的预测准确性较低，进而影响定向投放多媒体内容的效果。

鉴于此，本申请实施例提供了一种标签分类模型训练方法，在该方法中，先获得样本数据集合，其中，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值。然后基于样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型，其中，在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，各个正向等级标签和各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对多个预设等级标签进行划分获得的。

在一种可能的实施方式中，在获得标签分类模型之后，可以利用标签分类模型筛选出定向投放多媒体内容的目标对象。

具体地，先获取各个候选对象的特征数据，然后分别将各个候选对象的特征数据，输入已训练的目标标签分类模型，获得各个候选对象各自在多个预设等级标签下的目标标签值。然后基于各个候选对象各自在多个预设等级标签下的目标标签值，分别确定各个候选对象各自对应的深度意向分值。再基于各个候选对象各自对应的深度意向分值，从各个候选对象中筛选出至少一个目标对象。之后再向筛选出的各个目标对象推送相应的多媒体内容。

参考图1，其为本申请实施例提供的标签分类模型训练方法以及对象筛选方法所适用的系统架构图，该架构至少包括终端设备101以及服务器102。

终端设备101中可以安装具备标签分类模型训练功能和/或对象筛选功能的目标应用，其中，目标应用可以是客户端应用、网页版应用、小程序应用等。终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

服务器102可以是目标应用的后台服务器，为目标应用提供相应的服务，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101与服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中的标签分类模型训练方法和对象筛选方法可以都由终端设备101执行，也可以是都由服务器102执行，也可以是标签分类模型训练方法由终端设备101执行，对象筛选方法由服务器102执行，还可以是标签分类模型训练方法由服务器102执行，对象筛选方法由终端设备101执行。下面对其中两种实施方式进行说明。

实施方式一，标签分类模型训练方法和对象筛选方法均由终端设备101执行。

在标签分类模型训练阶段：用户在终端设备101上提交样本数据集合，其中，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值。终端设备101基于样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型，其中，在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数；各个正向等级标签和各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对多个预设等级标签进行划分获得的。在获得目标标签分类模型之后，将目标标签分类模型保存在终端设备101中。

在对象筛选阶段：用户在终端设备101上提交各个候选对象的特征数据，终端设备101分别将各个候选对象的特征数据，输入已训练的目标标签分类模型，获得各个候选对象各自在多个预设等级标签下的目标标签值。然后基于各个候选对象各自在多个预设等级标签下的目标标签值，分别确定各个候选对象各自对应的深度意向分值。再基于各个候选对象各自对应的深度意向分值，从各个候选对象中筛选出至少一个目标对象。之后再向至少一个目标对象推荐多媒体内容。

实施方式二，标签分类模型训练方法和对象筛选方法均由服务器102执行。

在标签分类模型训练阶段：用户在终端设备101上提交样本数据集合，其中，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值。终端设备101将样本数据集合发送给服务器102。服务器102基于样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型，其中，在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，各个正向等级标签和各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对多个预设等级标签进行划分获得的。在获得目标标签分类模型之后，将目标标签分类模型保存在服务器102中。

在对象筛选阶段：用户在终端设备101上提交各个候选对象的特征数据，终端设备101将各个候选对象的特征数据发送给服务器102。服务器102分别将各个候选对象的特征数据，输入已训练的目标标签分类模型，获得各个候选对象各自在多个预设等级标签下的目标标签值。然后基于各个候选对象各自在多个预设等级标签下的目标标签值，分别确定各个候选对象各自对应的深度意向分值。再基于各个候选对象各自对应的深度意向分值，从各个候选对象中筛选出至少一个目标对象。服务器102再向至少一个目标对象推荐多媒体内容。

基于图1所示的系统架构图，本申请实施例提供了一种标签分类模型训练方法的流程，如图2所示，该方法的流程可以由图1所示的终端设备101或服务器102执行，包括以下步骤：

步骤S201，获得样本数据集合。

具体，样本数据集合中包括多个样本数据，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值，其中，样本对象可以是用户账号、团队账号、设备标识等。

对多个预设等级标签分别设置相应的等级，其中，预设等级标签对应的等级可以是活跃等级、重要等级、效率等级等。样本对象在预设等级标签下的真实标签值表示样本对象与预设等级标签的匹配程度。样本对象与预设等级标签的匹配程度越高，样本对象在预设等级标签下的真实标签值越大；样本对象与预设等级标签的匹配程度越低，样本对象在预设等级标签下的真实标签值越小。

在一种可能的实施方式中，预设等级标签为针对目标应用的活跃等级标签，每个活跃等级标签对应一个活跃等级。根据样本对象在目标应用中的留存时长，以及样本对象在目标应用中的活跃次数，确定样本对象分别在多个预设等级标签下的真实标签值。

具体地，目标应用可以是即时通信应用、小说应用、视频应用、直播应用、购物应用等。样本对象在目标应用中的留存时长，指样本对象在激活目标应用之后，使用目标应用的时长，比如一天、一星期、一个月、一年等。样本对象在目标应用中的活跃次数包括单位时间内的平均活跃次数、总活跃次数等，单位时间可以是1天、3天、7天等。一次活跃可以是启动目标应用、在目标应用中进行一次操作等。样本对象在目标应用中的留存时长越长，以及样本对象在目标应用中的活跃次数越大，样本对象对应的实际等级标签的活跃等级越高。

举例来说，设定目标应用为小说应用Y，用户启动小说应用Y时，小说应用Y显示主界面，如图3所示。用户启动小说应用Y或者用户点击主界面中的科幻小说W都表示用户账号在小说应用Y中的一次活跃。若用户账号在一周前下载的小说应用Y，则可以确定用户账号在小说应用Y中的留存时长为一周。

举例来说，设定目标应用为购物应用T，用户启动购物应用T时，购物应用T显示主界面，如图4所示。用户启动购物应用T或者用户点击主界面中的短袖购买链接都表示用户账号在购物应用T中的一次活跃。若用户账号在一个月前下载的购物应用T，则可以确定用户账号在购物应用T中的留存时长为一个月。

步骤S202，基于样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型。

具体地，在每次迭代过程中，从样本数据集合中选取一部分样本数据进行迭代训练，每次迭代过程中选取的样本数据可以是完全不同的，也可以存在部分相同的样本数据。另外，在每次迭代过程中，也可以采用样本数据集合中的所有样本数据进行训练。

在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，其中，各个正向等级标签和各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对多个预设等级标签进行划分获得的。

具体地，针对每个样本数据中的样本对象，基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为正向等级标签和负向等级标签，其中，各个正向等级标签中的最大活跃等级，小于各个负向等级标签中的最小活跃等级。

举例来说，如图5所示，设定多个预设等级标签包括：活跃等级标签0(活跃等级0)、活跃等级标签1(活跃等级1)、活跃等级标签2(活跃等级2)、活跃等级标签3(活跃等级3)和活跃等级标签4(活跃等级4)。

基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为正向等级标签和负向等级标签，其中，正向等级标签包括活跃等级标签0、活跃等级标签1和活跃等级标签2，负向等级标签包括活跃等级标签3和活跃等级标签4，各个正向等级标签中的最大活跃等级为：活跃等级2，各个负向等级标签中的最大活跃等级为：活跃等级3。

由于在将多个预设等级标签划分为正向等级标签和负向等级标签时，设置各个正向等级标签中的最大活跃等级，小于各个负向等级标签中的最小活跃等级，故在训练标签分类模型时，样本对象在实际等级标签以及比实际等级标签的等级低的其他等级标签都可以获得高分，从而提高模型预测的合理性和准确性。

通过待训练的标签分类模型，预测各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数。然后采用目标损失函数对待训练的标签分类模型进行参数调整。训练标签分类模型的结束条件可以是迭代训练次数达到预设次数，也可以是用于调参的目标损失函数满足预设条件。

本申请实施例中，基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为样本对象对应的正向等级标签和负向等级标签，而不是局限于将样本对象绑定在某一个等级标签上，故在训练过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数时，全面考虑了样本对象在多个等级标签下的偏序关系，从而使标签分类模型在实际意义中更具备合理性，进而提高标签分类模型的预测效果。

可选地，在上述步骤S201中，在构造样本数据集合时，从目标应用侧获取的样本数据往往是比较稀疏的，若仅基于这些样本数据训练标签分类模型难以达到好的预测效果。鉴于此，本申请实施中，从目标应用侧获取样本数据作为正样本数据，然后从推荐日志系统中采集样本数据作为负样本数据，基于获得的正样本数据和负样本数据构建样本数据集合。

具体地，从目标应用侧获取的样本数据为在目标应用中的留存时长较长，以及在目标应用中的活跃次较多的样本对象的数据，这部分样本对象为目标应用的深度转化用户账号。负样本数据为从推荐日志系统中采样的曝光/点击/激活的非深度转化用户账号的数据。可以从不同目标应用侧获取样本数据，分别训练不同目标应用对应的目标标签分类模型。

在构造样本对象在多个预设等级标签下的真实标签值时，先设置N+1个预设等级标签，分别为等级标签0至等级标签N，每个预设等级标签对应的一个活跃等级，分别为活跃等级0至活跃等级N，N为大于1的整数。

将活跃等级为0的预设等级标签作为负样本数据对应的实际等级标签，从其他活跃等级对应的各个预设等级标签中确定每个正样本数据对应的实际等级标签。

针对每个正样本数据中的样本对象，将样本对象对应的实际等级标签的真实标签值设置为1，将比实际等级标签的活跃等级低的其他预设等级标签的真实标签值也设置为1。将比实际等级标签的活跃等级高的其他预设等级标签的真实标签值设置为0。

针对每个负样本数据中的样本对象，将样本对象对应的实际等级标签(活跃等级为0的预设等级标签)的真实标签值设置为1，将活跃等级1至活跃等级N分别对应的预设等级标签的真实标签值设置为0。

本申请实施例中，将从目标应用侧获取的样本数据作为正样本数据，从推荐日志系统中采集样本数据作为负样本数据，实现了对样本数据的扩充。同时，在构建样本对象在多个预设等级标签下的真实标签值时，将本对象对应的实际等级标签以及比实际等级标签的活跃等级低的其他预设等级标签的真实标签值都填充高分值，故模型训练时可以学习各个预设等级标签之间的偏序关系，从而有效提高标签分类模型的准确性和合理性。

可选地，在上述步骤S202中，每个样本数据中的样本对象对应的各个正向等级标签和各个负向等级标签，是采用以下方式获得的：

从一个样本数据对应的各个真实标签值中，确定出大于等于预设阈值的第一类真实标签值，以及小于预设阈值的第二类真实标签值。然后将第一类真实标签值对应的各个预设等级标签，作为一个样本数据中的样本对象对应的正向等级标签。将第二类真实标签值对应的各个预设等级标签，作为一个样本数据中的样本对象对应的负向等级标签。

具体地，预设阈值为训练标签分类模型时创建的锚点，该锚点用于防止学习时出现过大偏移。样本对象对应的各个正向等级标签的真实标签值均大于等于预设阈值，样本对象对应的各个负向等级标签的真实标签值均小于预设阈值。

举例来说，在构建等级标签时，设定多个预设等级标签包括：活跃等级标签0(活跃等级0)、活跃等级标签1(活跃等级1)、活跃等级标签2(活跃等级2)、活跃等级标签3(活跃等级3)和活跃等级标签4(活跃等级4)。

样本对象对应的实际等级标签为活跃等级标签2，则将活跃等级标签2的真实标签值设置为1，同时将活跃等级标签0和活跃等级标签1对应的真实标签值都设置为1。将活跃等级标签3和活跃等级标签4对应的真实标签值都设置为0。

在进行模型训练时，设定预设阈值为1，由于活跃等级标签0、活跃等级标签1和活跃等级标签2分别对应的真实标签值均大于等于1，则将活跃等级标签0、活跃等级标签1和活跃等级标签2作为样本对象的正向等级标签，将活跃等级标签3和活跃等级标签4作为样本对象的负向等级标签。

本申请实施例中，在构造样本数据的等级标签时，将样本对象对应的多个预设等级标签，划分为真实标签值大于等预设阈值的正向等级标签和真实标签值小于预设阈值的负向等级标签，使得标签分类模型在训练过程中学习各个预设等级标签之间的偏序关系，防止学习过程中出现过大偏移，从而提高标签分类模型的预测效果。

可选地，在上述步骤S202中，每个样本数据还包括样本对象的特征数据，其中，样本对象的特征数据包括年龄、性别、城市、职业、教育程度、历史行为数据等。

分别将各个样本数据包含的样本对象的特征数据，输入待训练的标签分类模型，获得相应的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值。

具体地，待训练的标签分类模型可以是任意深度学习模型。待训练的标签分类模型对样本对象的特征数据进行特征提取，获得样本对象的特征向量。然后基于样本对象的特征向量，预测样本对象分别在各个正向等级标签下的第一预测标签值，以及分别在各个负向等级标签下的第二预测标签值。

举例来说，如图6所示，样本数据包括样本用户账号的特征数据和样本用户账号分别在5个预设等级标签下的真实标签值，其中，特征数据包括年龄、性别、城市、教育程度、历史行为数据。5个预设等级标签分别为活跃等级标签0(活跃等级0)、活跃等级标签1(活跃等级1)、活跃等级标签2(活跃等级2)、活跃等级标签3(活跃等级3)和活跃等级标签4(活跃等级4)。样本用户账号在活跃等级标签0、活跃等级标签1、活跃等级标签2下的真实标签值均为1。样本用户账号在活跃等级标签3和活跃等级标签4下的真实标签值均为0。

将样本用户账号的特征数据输入待训练的标签分类模型(DeepFM模型)，DeepFM模型对样本用户账号的特征数据进行特征提取，获得样本用户账号的特征向量。然后基于样本用户账号的特征向量，预测样本用户账号分别在各个预设等级标签下的预测标签值。

由于样本用户账号分别在活跃等级标签0、活跃等级标签1、活跃等级标签2下的真实标签值均大于等于预设阈值1，则将活跃等级标签0、活跃等级标签1、活跃等级标签2确定为样本用户账号对应的正向等级标签。将样本用户账号分别在活跃等级标签0、活跃等级标签1、活跃等级标签2下的预测标签值，作为样本用户账号分别在各个正向等级标签下的第一预测标签值。

由于样本用户账号分别在活跃等级标签3和活跃等级标签4下的真实标签值均小于预设阈值1，则将活跃等级标签3和活跃等级标签4确定为样本用户账号对应的负向等级标签。将样本用户账号分别在活跃等级标签3和活跃等级标签4下的预测标签值，作为样本用户账号分别在各个正向等级标签下的第二预测标签值。

基于样本用户账号分别在活跃等级标签0、活跃等级标签1和活跃等级标签2下的第一预测标签值，以及样本用户账号分别在活跃等级标签3和活跃等级标签4下的第二预测标签值，确定目标损失函数。然后采用目标损失函数对DeepFM模型进行参数调整，并进行下一次迭代训练，直到目标损失函满足预设条件为止，输出已训练的目标标签分类模型。

在一种可能的实施方式中，训练标签分类模型时使用的目标损失函数为圆损失函数。具体地，在每次迭代训练过程中，采用以下方式确定用于调参的目标损失函数：

针对各个样本数据，分别执行以下步骤：

基于一个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，确定第一损失值。然后基于一个样本数据中的样本对象分别在对应的各个负向等级标签下的第二预测标签值，确定第二损失值。根据第一损失值和第二损失值，确定一个样本数据对应的目标损失值。基于获得的各个样本数据分别对应的目标损失值，获得用于调参的目标损失函数。

具体实施中，根据第一损失值和第二损失值，确定一个样本数据对应的目标损失值，满足以下公式(1)：

其中，L_k表示样本数据k对应的目标损失值，Ω_pos表示正向等级标签集合，Ω_neg表示负向等级标签集合，s_j表示样本对象S在负向等级标签j下的第一损失值，s_i表示样本对象S在负向等级标签i下的第二损失值。

对获得的各个样本数据分别对应的目标损失值求和，获得用于调参的目标损失函数，然后采用目标损失函数以及优化器(Optimizer)，对待训练的标签分类模型进行参数优化。

本申请实施例中，采用圆损失函数对标签分类模型进行参数调整，充分考虑了各个等级标签之间的偏序关系，使得在模型学习时利用更多的标签现实意义，从而使标签分类模型更加合理和准确。

基于图1所示的系统架构图，本申请实施例提供了一种对象筛选方法的流程，如图7所示，该方法的流程可以由图1所示的终端设备101或服务器102执行，包括以下步骤：

步骤S701，获取各个候选对象的特征数据。

具体地，各个候选对象可以是针对目标应用的候选对象。针对不同的目标应用，可以采用上述标签分类模型训练方法的流程，训练不同的目标标签分类模型，然后采用对应的目标标签分类模型为目标应用筛选目标对象。

候选对象的特征数据包括年龄、性别、城市、职业、教育程度、历史行为数据等。

步骤S702，分别将各个候选对象的特征数据，输入已训练的目标标签分类模型，获得各个候选对象各自在多个预设等级标签下的目标标签值。

具体地，已训练的目标标签分类模型的训练过程在前文已有介绍，此处不再赘述。针对每个候选对象，将该候选对象的特征数据，输入已训练的目标标签分类模型。目标标签分类模型对候选对象的特征数据进行特征提取，获得候选对象的特征向量，然后基于候选对象的特征向量，预测候选对象在多个预设等级标签下的目标标签值。

举例来说，如图8所示，设定多个预设等级标签包括：活跃等级标签0(活跃等级0)、活跃等级标签1(活跃等级1)、活跃等级标签2(活跃等级2)、活跃等级标签3(活跃等级3)和活跃等级标签4(活跃等级4)。

候选用户的特征数据包括：25岁、女、上海、本科、历史行为数据。将候选用户账号的特征数据输入已训练的目标标签分类模型(DeepFM模型)，DeepFM模型对候选用户账号的特征数据进行特征提取，获得候选用户账号的特征向量。然后基于候选用户账号的特征向量，预测候选用户账号分别在上述5个预设等级标签下的目标标签值，分别为：活跃等级标签0(目标标签值＝1)、活跃等级标签1(目标标签值＝1)、活跃等级标签2(目标标签值＝1)、活跃等级标签3(目标标签值＝-1)和活跃等级标签4(目标标签值＝-1)。

步骤S703，基于各个候选对象各自在多个预设等级标签下的目标标签值，分别确定各个候选对象各自对应的深度意向分值。

具体地，深度意向分值表示候选对象与后续定向投放的多媒体内容的匹配程度，其中，定向投放的多媒体内容可以是目标应用的推广广告、商品的推广广告，也可以是视频、文章、音频等。深度意向分值越高，说明候选对象与后续定向投放的多媒体内容的匹配程度越高，筛选出深度意向分值高的候选对象来定向投放多媒体内容，可以有效提高投放效果。

在一种可能的实施方式中，针对各个候选对象，分别执行以下步骤：

对一个候选对象分别在多个预设等级标签下的目标标签值进行归一化处理，获得一个候选对象分别在多个预设等级标签下的候选概率，然后基于获得的各个候选概率，以及多个预设等级标签分别对应权重，确定一个候选对象的深度意向分值。

具体地，可以采用Sigmoid函数对候选对象分别在多个预设等级标签下的目标标签值进行归一化处理，获得候选对象分别在多个预设等级标签下的候选概率。多个预设等级标签分别对应权重可以是预先设定的，每个权重表示预设等级标签对深度意向分值的影响程度。多个预设等级标签分别对应权重可以根据实际情况进行调整。深度意向分值的计算公式具体如以下公式(2)所示：

其中，X表示深度意向分值，s_i表示候选对象S在预设等级标签i下的目标标签值，a_i表示预设等级标签i对应的权重。

举例来说，设定目标标签分类模型输出的候选用户账号分别在5个预设等级标签下的目标标签值分别为：活跃等级标签0(目标标签值＝1)、活跃等级标签1(目标标签值＝1)、活跃等级标签2(目标标签值＝1)、活跃等级标签3(目标标签值＝-1)和活跃等级标签4(目标标签值＝-1)。

对上述各个目标标签值进行归一化处理后，获得候选对象分别在多个预设等级标签下的候选概率分别为：活跃等级标签0(候选概率＝0.76)、活跃等级标签1(候选概率＝0.76)、活跃等级标签2(候选概率＝0.76)、活跃等级标签3(0.27)和活跃等级标签4(0.27)。

设定活跃等级标签0对应权重为0，跃等级标签1对应权重为1，跃等级标签2对应权重为2，跃等级标签3对应权重为3，跃等级标签4对应权重为4。采用上述公式(2)计算获得候选用户账号的深度意向分值＝4.17分。

需要说明的是，本申请实施例中确定候选对象的深度意向分值的实施方式并不仅限于上述一种实施方式，还可以直接根据候选对象分别在多个预设等级标签下的目标标签值，以及多个预设等级标签分别对应权重，确定候选对象的深度意向分值，对此，本申请不做具体限定。

步骤S704，基于各个候选对象各自对应的深度意向分值，从各个候选对象中筛选出至少一个目标对象。

具体地，在筛选候选对象时，本申请实施例至少提供以下两种实施方式：

在一种可能的实施方式中，按照深度意向分值从大到小的顺序，对各个候选对象各自对应的深度意向分值进行排序，获得目标排序结果。将目标排序结果中排在前M位的深度意向分值对应的候选对象，作为目标对象，其中，M大于等于1。

举例来说，设定M＝3，候选用户账号A的深度意向分值为4.5分，候选用户账号B的深度意向分值为4分，设定候选用户账号C的深度意向分值为3分，候选用户账号D的深度意向分值为3.7分，候选用户账号F的深度意向分值为6分。

按照深度意向分值从大到小的顺序，对各个候选对象各自对应的深度意向分值进行排序，获得的目标排序结果为：候选用户账号F、候选用户账号A、候选用户账号B、候选用户账号D和候选用户账号C。将候选用户账号F、候选用户账号A作为目标用户账号。

在一种可能的实施方式中，将各个候选对象中，深度意向分值大于等于预设分值的候选对象，作为目标对象，其中，M大于等于1。

举例来说，设定预设分值＝4分，候选用户账号A的深度意向分值为4.5分，候选用户账号B的深度意向分值为4分，设定候选用户账号C的深度意向分值为3分，候选用户账号D的深度意向分值为3.7分，候选用户账号F的深度意向分值为6分。

由于候选用户账号A、候选用户账号B、候选用户账号C以及候选用户账号F的深度意向分值均大于等于预设分值，则将候选用户账号A、候选用户账号B、候选用户账号C以及候选用户账号F作为目标用户账号。

可选地，从各个候选对象中筛选出至少一个目标对象之后，向至少一个目标对象推送相应的多媒体内容。当各个候选对象为针对目标应用的候选对象时，从各个候选对象中筛选出至少一个目标对象后，将目标应用的相关内容推荐给至少一个目标对象。

举例来说，设定目标应用为小说应用Y，各个候选用户账号为在即时通信应用中注册的用户账号。从各个候选用户账号中筛选出候选用户账号A作为目标用户账号，并向候选用户账号A定向投放小说应用Y的推广广告。候选用户账号A在即时通信应用中登录后，即时通信应用加载并展示小说应用Y的推广广告，具体如图9所示。在即时通信应用的朋友圈界面中展示小说应用Y的推广广告。用户可以点击“了解更多”按钮来下载或启动小说应用Y。

本申请实施例中，在训练标签分类模型的过程中，将样本对象对应的多个预设等级标签划分为正向等级标签和负向等级标签，然后基于在正向等级标签下和在负向等级标签下的预测标签值确定用于调参的目标损失函数，使得模型在训练过程中学习各个等级标签之间的偏序关系，从而提高模型预测的合理性和准确性，进而提高用户筛选的准确性，以及定向投放多媒体内容的效果。

为了更好地解释本申请实施例，下面以定向投放广告场景为例，介绍本申请实施例提供的一种标签分类模型训练方法和对象筛选方法，该方法由服务器执行，如图10所示，包括以下步骤：

步骤一、构造样本数据集合。

从小说应用Y对应的广告主侧，获取正样本数据，其中，正样本数据为在小说应用Y中的留存时长较长，以及在小说应用Y中的活跃次较多的样本用户账号的数据，这部分样本用户账号为小说应用Y的深度转化用户账号。负样本数据为从推荐日志系统中采样的曝光/点击/激活的非深度转化用户账号的数据。基于获得的正样本数据和负样本数据，构建样本数据集合。

步骤二、构造样本等级标签。

设置5个预设等级标签，分别为活跃等级标签0、活跃等级标签1、活跃等级标签2、活跃等级标签3和活跃等级标签4。每个预设等级标签对应的一个活跃等级，分别为活跃等级0、活跃等级1、活跃等级2、活跃等级3和活跃等级4。将活跃等级标签0作为负样本数据对应的实际等级标签，从其他活跃等级对应的各个预设等级标签中确定每个正样本数据对应的实际等级标签。

针对每个正样本数据中的样本用户账号，将样本用户账号对应的实际等级标签的真实标签值设置为1，将比实际等级标签的活跃等级低的其他预设等级标签的真实标签值也设置为1。将比实际等级标签的活跃等级高的其他预设等级标签的真实标签值设置为0。

针对每个负样本数据中的样本用户账号，将样本用户账号对应的实际等级标签(预设等级标签0)的真实标签值设置为1，将其他预设等级标签(活跃等级标签1、活跃等级标签2、活跃等级标签3和活跃等级标签4)的真实标签值设置为0。

每个样本数据还包括样本用户账号的特征数据，其中，样本对象的特征数据包括年龄、性别、城市、教育程度、历史行为数据。

步骤三、模型学习。

采用上述获得的样本数据集合对待训练的标签分类模型进行迭代训练，直到用于调参的目标损失函数满足预设条件，输出已训练的目标标签分类模型。

在一次迭代过程中，包括以下步骤：

从样本数据集合中随机抽取k个样本数据，k大于等于1。针对每个样本数据，将样本用户账号的特征数据输入待训练的标签分类模型，获得样本用户账号分别在各个预设等级标签下的预测标签值。

设定样本用户账号分别在活跃等级标签0、活跃等级标签1、活跃等级标签2下的真实标签值均大于等于预设阈值1，则将活跃等级标签0、活跃等级标签1、活跃等级标签2确定为样本用户账号对应的正向等级标签。将样本用户账号分别在活跃等级标签0、活跃等级标签1、活跃等级标签2下的预测标签值，作为样本用户账号分别在各个正向等级标签下的第一预测标签值。

设定样本用户账号分别在活跃等级标签3和活跃等级标签4下的真实标签值均小于预设阈值1，则将活跃等级标签3和活跃等级标签4确定为样本用户账号对应的负向等级标签。将样本用户账号分别在活跃等级标签3和活跃等级标签4下的预测标签值，作为样本用户账号分别在各个正向等级标签下的第二预测标签值。

将样本用户账号分别在活跃等级标签0、活跃等级标签1和活跃等级标签2下的第一预测标签值，以及样本用户账号分别在活跃等级标签3和活跃等级标签4下的第二预测标签值代入上述公式(1)，获得样本数据对应的目标损失值。

对k个样本数据对应的目标损失值求和，获得用于调参的目标损失函数。采用目标损失函数对待训练的标签分类模型进行参数调整。

步骤四、预测阶段。

针对多个候选用户账号中的每个候选用户账号，将候选用户账号的特征数据，输入已训练的目标标签分类模型，获得候选用户账号在5个预设等级标签下的目标标签值。将候选用户账号在5个预设等级标签下的目标标签值代入上述公式(2)，获得候选用户账号的深度意向分值。

按照深度意向分值从大到小的顺序，对各个候选用户账号各自对应的深度意向分值进行排序，获得目标排序结果。将目标排序结果中排在前M位的深度意向分值对应的候选用户账号，作为目标用户账号，其中，M大于等于1。

各个目标用户账号为目标应用的深度意向账号，可以将各个目标用户账号作为投放目标，向各个目标用户账号定向投放目标应用的推广广告。设定目标用户账号为视频应用账号，则用户采用目标用户账号登录视频应用后，视频应用可以在视频应用主界面展示小说应用Y的推广广告，具体如图11所示，视频应用主界面展示推荐的视频信息1101，同时展示小说应用Y的推广广告1102。

本申请实施例中，基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为样本对象对应的正向等级标签和负向等级标签，而不是局限于将样本对象绑定在某一个等级标签上，故在训练过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数时，全面考虑了样本对象在多个等级标签下的偏序关系，从而使标签分类模型在实际意义中更具备合理性，进而提高标签分类模型的预测效果。在定向投放广告的场景下，采用训练好的目标标签分类模型预测候选对象的目标标签值，可以有效提高标签值预测的准确性，故基于候选对象的目标标签值确定候选对象的深度意向分值，并基于深度意向分值从各个候选对象中筛选出至少一个目标对象，再向筛选出的各个目标对象推送相应的广告时，可以有效提高定向投放广告的效果。

为了验证本申请实施例提供的标签分类模型训练方法以及对象筛选方法在定向投放广告场景下的效果，本申请发明人结合小说应用Y进行了效果测试，测试结果如以下表1所示：

表1.

其中，次留表示留存时长为1天，2留表示留存时长为2天，3留表示留存时长为3天，7留表示留存时长为7天。次留比例表示测试周期内在小说应用Y中的留存时长为1天的目标用户账号数量与激活小说应用Y的目标用户账号数量的比值。2留比例表示测试周期内在小说应用Y中的留存时长为2天的目标用户账号数量与激活小说应用Y的目标用户账号数量的比值。3留比例和7留比例代表的意义与次留比例和2留比例类似，此处不再赘述。

测试前表示使用现有技术中的方案筛选出目标用户账号后，向各个目标用户账号定向投放小说应用Y的广告后的测试结果。测试后表示采用本申请实施例中的技术方案筛选出目标用户账号后，向各个目标用户账号定向投放小说应用Y的广告后的测试结果。

通过比对可知，采用本申请实施例中的技术方案筛选目标用户账号并定向投放广告之后，各个目标用户账号在小说应用Y中的次留比例、2留比例、3留比例和7留比例都有所增加，同时，各个目标用户账号在小说应用Y中3天平均活跃次数和7天平均活跃次数也都有所增加。由此可见，本申请实施例中提供的技术方案可以有效筛选出小说应用Y的深度意向用户账号，从而提高广告投放效果。

基于相同的技术构思，本申请实施例提供了一种标签分类模型训练装置的结构示意图，如图12所示，该装置1200包括：

第一获取模块1201，用于获得样本数据集合，其中，每个样本数据至少包含样本对象分别在多个预设等级标签下的真实标签值；

训练模块1202，用于基于所述样本数据集合，对待训练的标签分类模型进行迭代训练，输出已训练的目标标签分类模型，其中，在一次迭代过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，所述各个正向等级标签和所述各个负向等级标签，是基于相应的样本对象分别在多个预设等级标签下的真实标签值，对所述多个预设等级标签进行划分获得的。

可选地，所述训练模块1202还包括调参模块1203；

所述调参模块1203具体用于：

针对所述各个样本数据，分别执行以下步骤：

可选地，每个样本数据还包括样本对象的特征数据；

所述训练模块1202还包括预测模块1204；

所述预测模块1204具体用于：

可选地，所述调参模块1203还用于：

可选地，所述训练模块1202还包括设置模块1205；

所述设置模块1205具体用于：

对所述多个预设等级标签分别设置相应的活跃等级；以及，

可选地，所述设置模块1205还用于：

基于相同的技术构思，本申请实施例提供了一种对象筛选装置的结构示意图，如图13所示，该装置1300包括：

第二获取模块1301，用于获取各个候选对象的特征数据；

预测模块1302，用于分别将所述各个候选对象的特征数据，输入已训练的目标标签分类模型，获得所述各个候选对象各自在多个预设等级标签下的目标标签值，所述已训练的目标标签分类模型是采用上述标签分类模型训练装置获得的；

评估模块1303，用于基于所述各个候选对象各自在多个预设等级标签下的目标标签值，分别确定所述各个候选对象各自对应的深度意向分值；

筛选模块1304，用于基于所述各个候选对象各自对应的深度意向分值，从所述各个候选对象中筛选出至少一个目标对象。

可选地，所述评估模块1303具体用于：

针对所述各个候选对象，分别执行以下步骤：

可选地，所述筛选模块1304具体用于：

可选地，所述各个候选对象为针对目标应用的候选对象；

所述筛选模块1304还用于：

本申请实施例中，基于样本对象分别在多个预设等级标签下的真实标签值，将多个预设等级标签划分为样本对象对应的正向等级标签和负向等级标签，而不是局限于将样本对象绑定在某一个等级标签上，故在训练过程中，基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数时，全面考虑了样本对象在多个等级标签下的偏序关系，从而使标签分类模型在实际意义中更具备合理性，进而提高标签分类模型的预测效果。在定向投放多媒体内容的场景下，采用上述训练好的目标标签分类模型预测候选对象的目标标签值，可以有效提高标签值预测的准确性，故基于候选对象的目标标签值从各个候选对象中筛选出目标对象，并向筛选出的各个目标对象推送相应的多媒体内容时，可以有效提高定向投放多媒体内容的效果。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图14所示，包括至少一个处理器1401，以及与至少一个处理器连接的存储器1402，本申请实施例中不限定处理器1401与存储器1402之间的具体连接介质，图14中处理器1401和存储器1402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1402存储有可被至少一个处理器1401执行的指令，至少一个处理器1401通过执行存储器1402存储的指令，可以执行上述标签分类模型训练方法和/或对象筛选方法的步骤。

其中，处理器1401是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1402内的指令以及调用存储在存储器1402内的数据，从而训练标签分类模型和/或进行对象筛选。可选的，处理器1401可包括一个或多个处理单元，处理器1401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1401中。在一些实施例中，处理器1401和存储器1402可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1401可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1402作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1402可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器1402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1402还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述标签分类模型训练方法和/或对象筛选方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种标签分类模型训练方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数，包括：

针对所述各个样本数据，分别执行以下步骤：

3.如权利要求1所述的方法，其特征在于，每个样本数据还包括样本对象的特征数据；

所述基于各个样本数据中的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值，获得用于调参的目标损失函数之前，还包括：

分别将所述各个样本数据包含的样本对象的特征数据，输入所述待训练的标签分类模型，获得相应的样本对象分别在对应的各个正向等级标签下的第一预测标签值，以及分别在对应的各个负向等级标签下的第二预测标签值。

4.如权利要求1所述的方法，其特征在于，每个样本数据中的样本对象对应的各个正向等级标签和各个负向等级标签，是采用以下方式获得的：

5.如权利要求1至4任一所述的方法，其特征在于，进一步包括：

对所述多个预设等级标签分别设置相应的活跃等级；以及，

6.如权利要求5所述的方法，其特征在于，所述获得样本数据集合之前，还包括：

7.一种对象筛选方法，其特征在于，包括：

获取各个候选对象的特征数据；

分别将所述各个候选对象的特征数据，输入已训练的目标标签分类模型，获得所述各个候选对象各自在多个预设等级标签下的目标标签值，所述已训练的目标标签分类模型是采用权利要求1至6任一所述的方法获得的；

8.如权利要求7所述的方法，其特征在于，所述基于所述各个候选对象各自在多个预设等级标签下的目标标签值，分别确定所述各个候选对象各自对应的深度意向分值，包括：

针对所述各个候选对象，分别执行以下步骤：

9.如权利要求7所述的方法，其特征在于，所述基于所述各个候选对象各自对应的深度意向分值，从所述各个候选对象中筛选出至少一个目标对象，包括：

10.如权利要求7至9任一所述的方法，其特征在于，所述各个候选对象为针对目标应用的候选对象；

所述基于所述各个候选对象各自对应的深度意向分值，从所述各个候选对象中筛选出至少一个目标对象之后，还包括：

将所述目标应用的相关内容推荐给所述至少一个目标对象。

11.一种标签分类模型训练装置，其特征在于，包括：

12.一种对象筛选装置，其特征在于，包括：

第二获取模块，用于获取各个候选对象的特征数据；

预测模块，用于分别将所述各个候选对象的特征数据，输入已训练的目标标签分类模型，获得所述各个候选对象各自在多个预设等级标签下的目标标签值，所述已训练的目标标签分类模型是采用权利要求11所述的装置获得的；

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～10任一权利要求所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～10任一所述方法的步骤。