CN113420165B

CN113420165B - 二分类模型的训练、多媒体数据的分类方法及装置

Info

Publication number: CN113420165B
Application number: CN202110652676.9A
Authority: CN
Inventors: 杨佳敏; 高梓尧
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2024-03-05
Anticipated expiration: 2041-06-11
Also published as: CN113420165A

Abstract

本公开公开了一种二分类模型的训练、多媒体数据的分类方法及装置。该方法在获取业务样本数据集后，获得的业务样本数据集中各样本数据的出现概率，获取业务样本数据集对应的概率分布和所述概率分布的分布特征，并选择概率分布的分布特征对应的待学习的后验分布函数；基于预设的采样算法和待学习参数，对概率分布中的样本数据进行采样，获取待学习参数的目标参数值和携带目标参数值的后验分布函数，以获取满足后验分布函数的目标阈值；采用目标阈值对各样本数据进行正负样本数据划分；并基于划分后的正样本数据、负样本数据和各样本数据对应的业务对象的特征信息，获取基于该业务数据的二分类模型；该方法提高了二分类模型的分类准确性。

Description

二分类模型的训练、多媒体数据的分类方法及装置

技术领域

本公开涉及互联网技术领域，尤其涉及一种二分类模型的训练、多媒体数据的分类方法及装置。

背景技术

在互联网领域的业务场景中，经常遇到对视频播放时长、用户在线时长、日活跃用户数量(Daily Active User，DAU)等业务指标进行建模排序的问题，这些指标通常为连续变量。比如，通过视频播放时长的业务指标，将用户划分为高活用户和低活用户时，需要对视频播放时长设定合适的阈值，基于该阈值确定正样本标签、负样本标签和各账户的行为数据训练二分类模型，以对各用户对应的视频播放时长进行二分类得到用户的活跃度。

目前关于连续变量进行二分类的分类方法主要有以下几种方法：

方法1，基于业务理解，人为设定阈值，进行二分类；

方法2，基于样本数据的统计量(如平均值、中位数等)，直接设定阈值进行二分类；

方法3，对连续变量的变量值进行回归分析，根据回归所得预测值进行排序，以实现分类；

然而，方法1中人为设定阈值仅依靠使用者对业务的理解，主观性较强，导致分类的准确性不高；方法2中根据样本数据的统计量设定阈值，容易受到样本数据中异常值的影响，导致分类的准确性不高；方法3中当连续变量的变量值的波动比较大时，回归拟合的效果一般，且回归预测效果不能衡量样本最终排序的准确性。

也就是说，采用上述分类方法的二分类模型的分类准确性不高。

发明内容

本公开实施例提供一种二分类模型的训练、多媒体数据的分类方法及装置，解决了现有技术存在的上述问题，以提高二分类模型的分类准确性。

本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种二分类模型的训练方法，包括：

获取业务样本数据集；所述业务样本数据集中各样本数据为连续变量的业务数据；

根据获得的所述业务样本数据集中各样本数据的出现概率，获取所述业务样本数据集对应的概率分布和所述概率分布的分布特征，并基于预设的分布特征与相应后验分布函数的映射关系，选择所述概率分布的分布特征对应的待学习的后验分布函数；所述出现概率为相应样本数据在所述业务样本数据集中出现的概率；所述待学习的后验分布函数包括参数值未知的待学习参数，所述待学习参数服从预设先验分布；

基于预设的采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数值和携带所述目标参数值的后验分布函数；

根据所述后验分布函数对应的后验分布中的样本数据，确定目标阈值，所述目标阈值用于将所述各样本数据划分为正样本数据和负样本数据；

基于划分后的正样本数据、负样本数据和所述各样本数据对应的业务对象的特征信息，对初始二分类模型进行训练，得到基于所述业务数据的二分类模型。

一种可能的实施方式中，基于预设的采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数值和携带所述目标参数值的后验分布函数，包括：

采用预设的马尔可夫链蒙特卡罗MCMC采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数分布；

将所述目标参数分布中参数值的平均值确定为所述待学习参数的目标参数值，并获取携带所述目标参数值的后验分布函数。

一种可能的实施方式中，采用预设的MCMC采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数分布，包括：

从所述待学习参数对应的预设先验分布中选择参数值，并将所述参数值作为所述待学习参数的当前参数值；

采用预设的MCMC采样算法，对所述概率分布中的样本数据进行采样，得到当前样本数据；

将所述当前参数值赋值给所述待学习的后验分布函数的待学习参数，并基于赋值后的待学习的后验分布函数，计算得到所述当前样本数据的概率；

检测得到的概率与所述概率分布中相应样本数据的概率是否满足预设评估条件：

得到的概率与所述概率分布中相应样本数据的概率满足预设评估条件时，将所述当前参数值作为所述待学习参数的一个参数值；

得到的概率与所述概率分布中相应样本数据的概率间不满足预设评估条件时，拒绝将所述当前参数值作为所述待学习参数的一个参数值；

从所述待学习参数对应的预设先验分布中选择新的参数值，返回执行将所述参数值作为所述待学习参数的当前参数值的步骤，直至达到预设执行次数，得到所述概率分布对应的待学习参数的多个参数分布；

将得到的多个参数分布中满足预设平稳分布条件的参数分布确定为所述概率分布对应的待学习参数的目标参数分布。

一种可能的实施方式中，所述后验分布函数为偏态分布概率密度函数，所述偏态分布概率密度函数包括三个待学习参数。

一种可能的实施方式中，根据所述后验分布函数对应的后验分布中的样本数据，确定目标阈值，包括：

将所述后验分布函数对应的后验分布中的样本数据的中位数或均值确定为所述目标阈值。

一种可能的实施方式中，所述连续变量为多媒体播放时长、账户在线时长、每日活跃账户数量、多媒体曝光时长和多媒体以不同推荐方式的单次曝光时长的差异值中的一种。

根据本公开实施例的第二方面，提供一种多媒体数据的分类方法，包括：

接收目标账户发送的多媒体数据展示请求，所述多媒体数据展示请求包括账户标识；

获取所述账户标识对应的历史访问的多媒体数据，以及所述多媒体数据的特征信息；

将所述多媒体数据的特征信息输入采用上述第一方面中任一项的方法步骤训练的二分类模型，得到所述多媒体数据对应的目标连续变量的业务数据的出现概率；

将满足预设概率条件的出现概率对应的多媒体数据确定为待展示多媒体数据，并将所述待展示多媒体数据发送至所述目标账户。

根据本公开实施例的第三方面，提供一种二分类模型的训练装置，包括：

获取单元，被配置为执行获取业务样本数据集；所述业务样本数据集中各样本数据为连续变量的业务数据；

以及，根据获得的所述业务样本数据集中各样本数据的出现概率，获取所述业务样本数据集对应的概率分布和所述概率分布的分布特征；所述出现概率为相应样本数据在所述业务样本数据集中出现的概率；

选择单元，被配置为执行基于预设的分布特征与相应后验分布函数的映射关系，选择所述概率分布的分布特征对应的待学习的后验分布函数；所述待学习的后验分布函数包括参数值未知的待学习参数，所述待学习参数服从预设先验分布；

所述获取单元，还被配置为执行基于预设的采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数值和携带所述目标参数值的后验分布函数；

确定单元，被配置为执行根据所述后验分布函数对应的后验分布中的样本数据，确定目标阈值，所述目标阈值用于将所述各样本数据划分为正样本数据和负样本数据；

训练单元，被配置为执行基于划分后的正样本数据、负样本数据和所述各样本数据对应的业务对象的特征信息，对初始二分类模型进行训练，得到基于所述业务数据的二分类模型。

一种可能的实施方式中，所述获取单元，具体被配置为执行采用预设的马尔可夫链蒙特卡罗MCMC采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数分布；

以及，将所述目标参数分布中参数值的平均值确定为所述待学习参数的目标参数值，并获取携带所述目标参数值的后验分布函数。

一种可能的实施方式中，所述获取单元，还具体被配置为执行：

一种可能的实施方式中，所述确定单元，具体配置为执行将所述后验分布函数对应的后验分布中的样本数据的中位数或均值确定为所述目标阈值。

根据本公开实施例的第四方面，提供一种多媒体数据的分类装置，包括：接收单元和发送单元；

所述接收单元，被配置为执行接收目标账户发送的多媒体数据展示请求，所述多媒体数据展示请求包括账户标识；

所述获取单元，还被配置为执行获取所述账户标识对应的历史访问的多媒体数据，以及所述多媒体数据的特征信息；

以及，将所述多媒体数据的特征信息输入上述第一方面任一项的方法步骤训练的二分类模型，得到所述多媒体数据对应的目标连续变量的业务数据的出现概率；将满足预设概率条件的出现概率对应的多媒体数据确定为待展示多媒体数据；

所述发送单元，被配置为执行将所述待展示多媒体数据发送至所述目标账户。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令以实现本公开实施例第一方面公开的二分类模型的训练方法中任一所述的方法步骤或实现本公开实施例第二方面公开的多媒体数据的分类方法中任一所述的方法步骤。

根据本公开实施例的第六方面，提供一种存储介质，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例第一方面公开的二分类模型的训练方法中任一所述的方法步骤或实现本公开实施例第二方面公开的多媒体数据的分类方法中任一所述的方法步骤。

根据本公开实施例的第七方面，提供一种计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行实现本公开实施例第一方面公开的二分类模型的训练方法中任一所述的方法步骤或实现本公开实施例第二方面公开的多媒体数据的分类方法中任一所述的方法步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供的二分类模型的训练、多媒体数据的分类方法中二分类模型的训练方法在获取业务样本数据集；业务样本数据集中各样本数据为连续变量的业务数据；根据获得的业务样本数据集中各样本数据的出现概率，获取业务样本数据集对应的概率分布和概率分布的分布特征，并基于预设的分布特征与相应后验分布函数的映射关系，选择概率分布的分布特征对应的待学习的后验分布函数；出现概率为相应样本数据在业务样本数据集中出现的概率；待学习的后验分布函数包括参数值未知的待学习参数，且待学习参数服从预设先验分布；基于预设的采样算法和待学习参数，对概率分布中的样本数据进行采样处理，得到待学习参数的目标参数值和携带目标参数值的后验分布函数；根据后验分布函数对应的后验分布中的样本数据，确定目标阈值，以用于将所述各样本数据划分为正样本数据和负样本数据；基于划分后的正样本数据、负样本数据和各样本数据对应的业务对象的特征信息，对初始二分类模型进行训练，得到基于业务数据的二分类模型。可见，该方法根据采样所得样本后验分布及其分布特征来选择阈值，一方面可以减少原始数据中异常数据对二分类模型的影响；另一方面利用参数分布进行阈值的设定可以降低基于主观设定阈值的随机风险，从而提高了二分类模型的分类准确性，以及提高了对多媒体数据分类的准确性，提高了用户的消费体验。

附图说明

图1是根据一示例性实施例示出的一种二分类模型的训练方法的示意流程图。

图2是根据一示例性实施例示出的一种业务样本数据集对应的概率分布示意图。

图3是根据一示例性实施例示出的一种不同的偏态分布的示意图。

图4是根据一示例性实施例示出的一种不同参数对应的参数分布的示意图。

图5是根据一示例性实施例示出的一种业务样本数据集对应概率分布与相应后验分布的示意图。

图6是根据一示例性实施例示出的一种概率分布的示意图。

图7A是根据一示例性实施例示出的一种二分类模型对应的ROC曲线的示意图。

图7B是根据一示例性实施例示出的一种二分类模型对应的PR曲线的示意图。

图8根据一示例性实施例示出的一种多媒体数据的分类方法的流程示意图。

图9是根据一示例性实施例示出的一种视频推荐方式的示意图。

图10是根据一示例性实施例示出的一种二分类模型的训练装置的结构示意图。

图11是根据一示例性实施例示出的一种多媒体数据的分类装置的结构示意图。

图12是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了方便理解，下面对本公开实施例中涉及的名词进行解释：

马尔可夫链蒙特卡罗(Markov Chain Monte Carlo，MCMC)，是一种基于当前值重复绘制某一分布参数随机值的方法。每个值的样本都是随机的，但是值的选择受限于当前状态和假定的参数先验分布。MCMC在这个过程中逐渐收敛到真实分布。MCMC方法在机器学习、深度学习以及自然语言处理等领域有广泛的应用，是很多复杂算法求解的基础。

马尔可夫链的平稳分布，如果n时刻的概率分布w能使马尔可夫链在n时刻以后各个时刻的分布相等，即w＝wP，其中P为该马尔可夫链的转移概率矩阵，则称概率分布w为该马尔可夫链的平稳分布。

偏态分布，是指频数分布不对称，集中位置偏向一侧。若集中位置偏向数值小的一侧，称为正偏态分布；集中位置偏向数值大的一侧，称为负偏态分布。

以下结合说明书附图对本公开的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

图1根据一示例性实施例示出的一种二分类模型的训练方法的流程示意图，如图1所示，该方法可以包括以下步骤：

步骤S110，获取业务样本数据集。

用户通过智能终端使用业务应用，如多媒体应用的过程中，会形成各业务数据，且业务数据为连续变量的业务数据，连续变量可以包括账户每日在线时长、账户使用时长、每日活跃账户数、多媒体播放时长、多媒体曝光时长和多媒体以不同推荐方式的单次曝光时长的差异值等。其中，该业务数据可以包括该应用业务涉及的多媒体数据和账户数据。

具体实施时，从应用业务的数据库中提取预设时间段内目标连续变量的各样本数据，构成业务样本数据集，如各多媒体播放时长的业务样本数据集。

步骤S120，基于业务样本数据集中各样本数据，确定该指标数据集对应的待学习的后验分布函数。

具体实施时，计算业务样本数据集中各样本数据在业务样本数据集出现的概率，即出现概率；并根据各样本数据的出现概率，获取该业务样本数据集对应的概率分布，同时获取该概率分布的分布特征；

具体的，可以依据该业务样本数据集中各样本数据的出现概率，绘制出相应的业务样本数据集对应的概率分布，从而观察出该概率分布的分布特征，如若概率分布为正态分布，则相应的分布特征可以包括呈钟型，两头低，中间高，关于x＝μ对称，其中μ为正态分布的期望值等。

之后，基于预设的分布特征与相应后验分布函数的映射关系，选择概率分布的分布特征对应的待学习的后验分布函数；

其中，分布特征与相应后验分布函数的映射关系包括已知的各概率分布的分布特征与相应后验分布函数的对应关系，如呈钟型，两头低，中间高，关于x＝μ对称的分布特征与正态分布的概率密度函数相对应。

该待学习的后验分布函数包括参数值未知的待学习参数，待学习参数服从预设先验分布。

在实际应用时，待学习参数的预设先验分布可结合具体业务问题选择合适的参数先验分布。例如，预设先验分布可以是均值为0，方差为2的正态分布。

在一个例子中，观察如图2所示的业务样本数据集中各样本数据的概率形成的概率分布，若根据业务需要，为了捕捉概率分布中峰值右侧的偏离点，即大指标数据的情况，可以选择偏态分布作为该业务样本数据集的后验分布。

故，可以将偏态分布对应的偏态分布概率密度函数，确定为满足业务样本数据集概率分布的待学习的后验分布函数；其中，该偏态分布概率密度函数中参数值未知的待学习参数包括μ、α和τ三个参数。

其中，偏态分布概率密度函数可以表示为：

式中，Φ表示正态分布的累积分布函数，φ表示正态分布的概率密度函数。

需要说明的是，为了满足实际的业务需求，参数μ、α和τ可以服从相同的预设先验分布，也可以服从不同的预设先验分布，本公开实施例在此不做限定。例如，参数μ、α和τ可以均服从均值为0，方差为1的正态分布。

在一个例子中，针对携带是三个待学习参数的偏态分布概率密度函数，基于不同的参数值可得到不同的偏态分布，如图3所示：

若μ＝1、τ＝1、α＝-6时，偏态分布概率密度函数对应的偏态分布属于负偏态分布，如曲线1；

若μ＝1、τ＝1、α＝0时，偏态分布概率密度函数对应的偏态分布属于正态分布，如曲线2；

若μ＝1、τ＝1、α＝6时，偏态分布概率密度函数对应的偏态分布属于负态分布，如曲线3。

步骤S130，基于预设的采样算法和待学习参数，对概率分布中的各样本数据进行采样运算，获取待学习参数的目标参数值和携带目标参数值的后验分布函数。

采用预设的MCMC采样算法和待学习参数，对概率分布中的样本数据进行采样处理，得到该概率分布对应的待学习参数的目标参数分布。

具体实施中，采用预设的MCMC采样算法进行采样处理的步骤可以包括：

步骤A1，从待学习参数对应的预设先验分布中选择参数值，并将该参数值作为当前参数值；

具体实施中，若待学习参数包括多个参数，则需要分别从相应参数的预设先验分布中采集相应参数的参数值，作为相应参数的当前参数值。

其中，从预设先验分布中选择参数值的方式可以是随机选择的方式，也可以是预先配置的选择方式，如参数值依次选择的方式，具体方式可根据实际需求进行选择，本公开实施例在此不做限定。

步骤A2，采用预设的MCMC采样算法，对概率分布中的样本数据进行采样，得到当前样本数据；

步骤A3，将当前参数值赋值给待学习的后验分布函数的待学习参数，并基于赋值后的待学习的后验分布函数，计算得到当前样本数据的概率；

例如，以待学习的后验分布函数为偏态分布概率密度函数，选择的当前参数值分别为：μ＝1、τ＝1、α＝6，当前样本数据为x1为例，将当前参数值依次赋值给偏态分布概率密度函数的μ、τ和α，由此得到赋值后的待学习的后验分布函数可以表示为：

f(x1|1,1,6)＝2Φ(6(x1-1))φ(x1,1,1)。

步骤A4，检测得到的概率与概率分布中相应样本数据的概率是否满足预设评估条件，若是，则执行步骤A5；若否，则执行步骤A6；

其中，预设评估条件可以是指MCMC采样算法中的接受率，由于MCMC采样算法中接受率的获取属于现有技术，故本公开实施例在此不做赘述。

步骤A5，将当前参数值作为待学习参数的一个参数值。

步骤A6，拒绝将当前参数值作为待学习参数的一个参数值；

步骤A7，从待学习参数对应的预设先验分布中选择新的参数值，并返回执行步骤A1，直至达到预设执行次数，即重复执行预设执行次数的步骤A1-步骤A4，得到该概率分布对应的待学习参数的多个参数分布。

对于该概率分布，基于上述MCMC采样算法可以得到待学习参数的多个参数分布。若待学习参数包括多个参数，则当前参数分布包括每个参数的参数分布。例如，偏态分布概率密度函数中包括参数μ、α和τ，基于上述MCMC采样算法可以得到参数μ、α和τ各自的参数分布，如图4所示。

步骤A8，将得到的多个参数分布中满足预设平稳分布条件的参数分布确定为该概率分布对应的待学习参数的目标参数分布。

其中，预设平稳分布条件是指马尔可夫链的平稳分布条件，由于马尔可夫链的平稳分布条件属于现有技术，故本公开实施例在此不做赘述。

例如，若待学习参数包括多个参数，则需要在每个参数各自的多个参数分布中选择满足预设平稳分布条件的参数分布，作为相应参数的当前参数分布。

可见，MCMC采样算法将待学习参数的参数分布从预设先验分布修正为平稳的当前参数分布，实现了对待学习参数的参数值的修正。

进一步的，为了提高后验分布函数的准确性，可以将当前参数值分布中的参数值的平均值确定为待学习参数的目标参数值。

结合图4得到的满足预设平稳分布条件的参数μ、α和τ的当前参数分布，分别可以采用μ、α和τ这三个参数的参数值的平均值来获取修正的参数值，即目标参数值，经实验，图4中各参数的平均值可以依次为：μ＝-6.5、α＝4.25和τ＝0.034。

之后，将得到的待学习参数的目标参数值赋值给待学习的后验分布函数，以获取携带目标参数值的后验分布函数。

例如，如图5中多个柱形图形成的分布为业务样本数据集中的各样本数据的概率分布，曲线为携带目标参数值的后验分布函数的后验分布。

步骤S140，根据后验分布函数对应的后验分布中的样本数据，确定目标阈值。

为了减少业务样本数据集的各样本数据中异常数据的影响，具体实施中，可以基于后验分布函数对应的后验分布中的样本数据的分布特征来确定用于分类的目标阈值，具体的：

获取满足后验分布函数的后验分布，以及该后验分布中的样本数据；

计算后验分布中的样本数据的中位数或均值，并将计算得到的中位数或均值确定为目标阈值。

该目标阈值用于将各样本数据划分为正样本数据和负样本数据，如将各样本数据中大于目标阈值的样本数据确定为正样本数据，将各样本数据中不大于目标阈值的样本数据确定为负样本数据。若图5所示的后验分布中各样本数据的中位数为13s，即可以将13s确定为划分各样本数据的目标阈值。

其中，如图6所示，对于函数y＝f(x)，在区间[a，b]上的均值可以表示为：

由于后验分布中的样本数据为连续变量的业务数据，故该均值计算过程可以参照上式得到，具体计算过程本公开实施例在此不做赘述。

结合图6，若该后验分布数据的某一样本数据对应的左边后验分布曲线围成的面积和该样本数据对应的右边后验分布曲线围成的面积相等，则将该样本数据确定为该的后验分布数据的中位数。

可见，本公开上述实施例利用后验分布函数对应的后验分布中样本数据的分布特征来确定阈值的方式，与相关技术中人为设定阈值的方式相比，确定的阈值更加合理，且降低了异常数据对正常数据的影响。

在一种具体的实施方式中，目标阈值的设定可直接基于PyMC实现，可操作性强，便于业务落地。其中，PyMC是一个实现贝叶斯统计模型和马尔科夫链蒙塔卡洛采样工具拟合算法的Python库。PyMC的灵活性及可扩展性使得它能够适用于解决各种问题。

步骤S150，基于划分后的正样本数据、负样本数据和各样本数据对应的业务对象的特征信息，对初始二分类模型进行训练，得到基于业务数据的二分类模型。

采用目标阈值对业务样本数据集中各样本数据进行正负样本数据的划分。

将划分后的正样本数据和负样本数据作为样本标签，将各样本数据对应的各业务对象的特征信息为训练样本，对初始二分类模型进行训练，得到基于该业务数据的二分类模型。

其中，业务对象的特征信息包括多媒体数据或账户的画像特征和相应消费数据特征。

账户的画像特征可以包括是否新用户、性别、年龄、常驻社区类型、常驻城市等级等；

多媒体数据的画像特征可以包括多媒体时长、多媒体类型、多媒体来源、多媒体内容质量等。

账户的消费数据特征可以包括有效播放时长、有效播放效率等；

多媒体数据的消费数据特征可以包括多媒体数据的播放时长、多媒体数据的消费峰值和终值、历史累计点赞量、播放量等。

在一个例子中，若各样本数据为播放时长的业务数据，那么将大于目标阈值的播放时长划分为正样本数据，将小于目标阈值的播放时长划分为负样本数据。

将各多媒体数据的画像特征和相应消费数据特征作为训练样本，将各多媒体数据对应的播放时长所属的样本属性，即正样本数据或负样本数据作为样本标签，对初始二分类模型进行训练，得到基于播放时长的二分类模型。

如图7A和图7B所示，二分类模型的模型效果可以通过受试者工作特征曲线(receiver operating characteristic curve，ROC)和PR曲线来描述。

ROC曲线是在以假阳率(False positive rate，FPR)为横轴，真阳率(Truepositive rate，TPR)为纵轴所组成的坐标图中的曲线；其中，FPR表示所有负例中有多少被预测为正例；TPR表示有多少真正的正例被预测出来。AUC(Area under Curve)是指ROC曲线下的面积，介于0.1和1之间，作为数值可以直观的评价分类模型的好坏，值越大越好，意味着本公开的分类模型在假阳率很低的同时获得了很高的真阳率。

PR曲线是在以精确率precision为横坐标轴，以召回率recall为纵坐标轴组成的坐标图中的曲线。基于该PR曲线，可以根据PR曲线下方的面积大小对分类模型的分类性能进行评价，或者，采用平衡点的F1值对分类模型的分类性能进行评价。其中，平衡点(BreakEven Point，BEP)是P＝R时的取值，如果这个值较大，则说明分类性能较好。

经多次业务试验得到本公开的分类模型的AUC为0.78，分类准确性高于现有通过原始数据的中位数设定阈值进行二分类，其中，相比于直接用原始数据的中位数作为分类阈值的分类方式，本公开确定的阈值与该分类阈值大0.02。

由于一条PR曲线要对应一个阈值。通过选择合适的阈值，可得到与样本标签显著正相关或负相关的各业务对象的特征信息，可分析出不同特征对标签的影响方向。

在本公开实施例中，作为另一种可能的实施方式，对于上述训练得到的二分类模型，可以应用在对DAU、播放时长、账户在线时长等业务数据进行排序的问题。比如，可以应用二分类模型对多媒体数据的播放时长设定目标阈值，来划分高活账户和低活账户，对多媒体播放次数设定目标阈值，来判别潜在高热视频等，直接与业务结合进行产品及策略优化，满足不同业务需求，以实现对多媒体数据的分类，提高用户的消费体验。

图8根据一示例性实施例示出的一种多媒体数据的分类方法的流程示意图，如图8所示，该方法可以包括以下步骤：

步骤S810：接收目标账户发送的多媒体数据展示请求。

多媒体数据展示请求可以包括账户标识。

步骤S820：获取账户标识对应的历史访问的多媒体数据，以及多媒体数据的特征信息。

在预设的推荐系统中，获取该账户标识对应的历史访问的多媒体数据，以及相应多媒体数据的特征信息；

多媒体数据的特征信息可以包括多媒体数据的画像特征，如多媒体时长、多媒体类型等，以及相应消费数据特征，如多媒体数据的播放时长、播放量等。

步骤S830：将多媒体数据的特征信息输入采用二分类模型的训练方法训练的二分类模型，得到多媒体数据对应的目标连续变量的业务数据的出现概率。

步骤S840：将满足预设概率条件的出现概率对应的多媒体数据确定为待展示多媒体数据。

满足预设概率条件可以为出现概率大于预设概率阈值的条件。

步骤S850：将待展示多媒体数据发送至目标账户。

在一个例子中，以目标业务指标为多媒体数据以不同推荐方式下产生的单次曝光时长的差异值，如一个多媒体数据以大卡视频与以小卡视频的展示方式产生的单次曝光时长的差异值为例，基于账户发送的多媒体数据展示请求，筛选出优质的大卡视频和优质的小卡视频，向账户进行推荐并展示，提升用户体验。

如图9所示，视频可以以大卡视频的推荐方式和小卡视频的推荐方式向用户进推荐，当前推荐页面每隔八个视频会推出一个自动播放的大卡视频，当前推荐页面中单列的大屏推荐位置处的视频称为大卡视频，如视频1；双列的小屏推荐位置处的视频称为小卡视频，如视频2、视频3、视频4和视频5。

其中，大卡视频可以以少量的曝光获得了较高的时长收益，因此充分利用好大屏推荐位置，即大卡位置，选择优质的视频放在大屏推荐位置有利于提升用户的体验，吸引用户注意力，促进推荐页面的消费时长的增长，因此希望通过上述二分类模型可以筛选出优质的大卡视频，提升用户的体验。

具体实施中，根据接收的目标账户发送的视频展示请求，在推荐系统中查找该目标账户历史访问的视频，并获取相应视频的画像特征和消费数据特征。

将视频的画像特征和消费数据特征输入基于单次曝光时长的差异值的二分类模型，得到每个视频对应的差异值概率；由于差异值越大，时长收益越高，故将得到的差异值概率从大到小排序，将最大差异值概率对应的视频确定为大卡视频。

本公开实施例提供的二分类模型的训练、多媒体数据的分类方法中二分类模型的训练方法在获取业务样本数据集；业务样本数据集中各样本数据为连续变量的业务数据；根据获得的业务样本数据集中各样本数据的出现概率，获取业务样本数据集对应的概率分布和概率分布的分布特征，并基于预设的分布特征与相应后验分布函数的映射关系，选择概率分布的分布特征对应的待学习的后验分布函数；出现概率为相应样本数据在业务样本数据集中出现的概率；待学习的后验分布函数包括参数值未知的待学习参数，待学习参数服从预设先验分布；基于预设的采样算法和待学习参数，对概率分布中的样本数据进行采样处理，得到待学习参数的目标参数值和携带目标参数值的后验分布函数；根据后验分布函数对应的后验分布中的样本数据，确定目标阈值，目标阈值用于将所述各样本数据划分为正样本数据和负样本数据；基于划分后的正样本数据、负样本数据和各样本数据对应的业务对象的特征信息，对初始二分类模型进行训练，得到基于业务数据的二分类模型。

可见，该方法根据采样所得样本后验分布及其分布特征来选择阈值，一方面可以减少原始数据中异常数据对二分类模型的影响；另一方面利用参数分布进行阈值的设定可以降低基于主观设定阈值的随机风险，从而提高了二分类模型的分类准确性，以及提高了对多媒体数据分类的准确性，提高了用户的消费体验。

图10是根据一示例性实施例示出的一种二分类模型的训练装置的结构示意图。参照图10，该装置包括获取单元1010，选择单元1020、确定单元1030和训练单元1040。

该获取单元1010，被配置为执行获取业务样本数据集；所述业务样本数据集中各样本数据为连续变量的业务数据；

该选择单元1020，被配置为执行基于预设的分布特征与相应后验分布函数的映射关系，选择所述概率分布的分布特征对应的待学习的后验分布函数；所述待学习的后验分布函数包括参数值未知的待学习参数，所述待学习参数服从预设先验分布；

该获取单元1010，还被配置为执行基于预设的采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数值和携带所述目标参数值的后验分布函数；

该确定单元1030，被配置为执行根据所述后验分布函数对应的后验分布中的样本数据，确定目标阈值，所述目标阈值用于将所述各样本数据划分为正样本数据和负样本数据；

该训练单元1040，被配置为执行基于划分后的正样本数据、负样本数据和所述各样本数据对应的业务对象的特征信息，对初始二分类模型进行训练，得到基于所述业务数据的二分类模型。

一种可能的实施方式中，获取单元1010，具体被配置为执行采用预设的马尔可夫链蒙特卡罗MCMC采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数分布；

一种可能的实施方式中，获取单元1010，还具体被配置为执行：

一种可能的实施方式中，该确定单元1030，具体配置为执行将所述后验分布函数对应的后验分布中的样本数据的中位数或均值确定为所述目标阈值。

本发明上述实施例提供的二分类模型的训练装置的各功能单元的功能，可以通过上述二分类模型的训练方法中的各方法步骤来实现，因此，本公开实施例提供的二分类模型的训练装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

图11是根据一示例性实施例示出的一种多媒体数据的分类装置的结构示意图。参照图11，该装置包括接收单元1110、获取单元1120和发送单元1130。

该接收单元1110，被配置为执行接收目标账户发送的多媒体数据展示请求，所述多媒体数据展示请求包括账户标识；

该获取单元1120，还被配置为执行获取所述账户标识对应的历史访问的多媒体数据，以及所述多媒体数据的特征信息；

该发送单元1130，被配置为执行将所述待展示多媒体数据发送至所述目标账户。

本发明上述实施例提供的多媒体数据的分类装置的各功能单元的功能，可以通过上述多媒体数据的分类方法中的各方法步骤来实现，因此，本公开实施例提供的多媒体数据的分类装置中的各个单元的具体工作过程和有益效果，在此不复赘述。

下面参照图12来描述根据本公开的这种实施方式的电子设备130。图12显示的电子设备130仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器131执行时实现如本公开提供的二分类模型的训练方法和多媒体数据的分类方法的任一方法。

在示例性实施例中，本公开提供的一种二分类模型的训练方法和多媒体数据的分类方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的二分类模型的训练方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开的实施方式的用于二分类模型的训练方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在电子设备上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中，远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备，或者，可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器，使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开进行各种改动和变型而不脱离本公开的精神和范围。这样，倘若本公开的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种二分类模型的训练方法，其特征在于，所述方法包括：

获取业务样本数据集；所述业务样本数据集中各样本数据为连续变量的业务数据，所述业务数据包括多媒体数据和账户数据；

2.如权利要求1所述的方法，其特征在于，基于预设的采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数值和携带所述目标参数值的后验分布函数，包括：

3.如权利要求2所述的方法，其特征在于，采用预设的MCMC采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数分布，包括：

4.如权利要求1所述的方法，其特征在于，所述后验分布函数为偏态分布概率密度函数，所述偏态分布概率密度函数包括三个待学习参数。

5.如权利要求1所述的方法，其特征在于，根据所述后验分布函数对应的后验分布中的样本数据，确定目标阈值，包括：

6.如权利要求1所述的方法，其特征在于，所述连续变量为多媒体播放时长、账户在线时长、每日活跃账户数量、多媒体曝光时长和多媒体以不同推荐方式的单次曝光时长的差异值中的一种。

7.一种多媒体数据的分类方法，其特征在于，所述方法包括：

将所述多媒体数据的特征信息输入采用权利要求1-6任一项的方法训练的二分类模型，得到所述多媒体数据对应的目标连续变量的业务数据的出现概率；

8.一种二分类模型的训练装置，其特征在于，所述装置包括：

获取单元，被配置为执行获取业务样本数据集；所述业务样本数据集中各样本数据为连续变量的业务数据，所述业务数据包括多媒体数据和账户数据；

9.如权利要求8所述的装置，其特征在于，所述获取单元，具体被配置为执行采用预设的马尔可夫链蒙特卡罗MCMC采样算法和所述待学习参数，对所述概率分布中的样本数据进行采样处理，得到所述待学习参数的目标参数分布；

10.如权利要求9所述的装置，其特征在于，所述获取单元，还具体被配置为执行：

11.如权利要求8所述的装置，其特征在于，所述后验分布函数为偏态分布概率密度函数，所述偏态分布概率密度函数包括三个待学习参数。

12.如权利要求8所述的装置，其特征在于，所述确定单元，具体配置为执行将所述后验分布函数对应的后验分布中的样本数据的中位数或均值确定为所述目标阈值。

13.如权利要求8所述的装置，其特征在于，所述连续变量为多媒体播放时长、账户在线时长、每日活跃账户数量、多媒体曝光时长和多媒体以不同推荐方式的单次曝光时长的差异值中的一种。

14.一种多媒体数据的分类装置，其特征在于，所述装置包括：接收单元和发送单元；

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的方法。