CN111538852A

CN111538852A - 多媒体资源处理方法、装置、存储介质及设备

Info

Publication number: CN111538852A
Application number: CN202010328520.0A
Authority: CN
Inventors: 申世伟
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-14
Anticipated expiration: 2040-04-23
Also published as: CN111538852B

Abstract

本公开关于一种多媒体资源处理方法、装置、存储介质及设备，属于计算机视觉领域，包括：获取待处理的多媒体资源，调用多个多媒体资源分类模型对该多媒体资源进行类别预测，多个多媒体资源分类模型包括M个第一多媒体资源分类模型和第二多媒体资源分类模型；第一多媒体资源分类模型是根据第一多媒体资源样本集训练得到的，第二多媒体资源分类模型是根据第二多媒体资源样本集训练得到的，第二多媒体资源样本集中的样本多媒体资源满足：N个第一多媒体资源分类模型在对同一个样本多媒体资源进行类别预测时预测结果不一致；根据M+1个多媒体资源分类模型的预测结果和各自对应的分类阈值，确定该多媒体资源的类别。本公开能够提升类别预测的准确率。

Description

多媒体资源处理方法、装置、存储介质及设备

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种多媒体资源处理方法、装置、存储介质及设备。

背景技术

随着物质文明的快速发展，人们的生活水平得到大幅提升，这使得大众对精神文明的追求日益提高，随之市面上涌现出了众多的多媒体资源分享平台。其中，前述的多媒体资源包括但不限于视频和图片。以多媒体资源为短视频为例，则多媒体资源分享平台为短视频分享平台。

以短视频分享平台为例，虽然短视频分享平台每天会接收到海量用户上传的短视频，但是短视频分享平台不能是诸如虚假广告、涉及色情或暴恐等违法违规内容的温床。为了净化网络环境，很有必要通过多媒体资源处理来进行网络资源监管，进而抑制违法违规内容在短视频分享平台上曝光。其中，准确率是验证多媒体资源处理方式是否有效的重要指标，为此，如何处理多媒体资源便成为了本领域技术人员亟待解决的一个技术问题。

发明内容

本公开提供一种多媒体资源处理方法、装置、存储介质及设备，能够提升最终的融合效果。比如。在召回率一定的情况下，能够显著提升类别预测的准确率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体资源处理方法，包括：

获取待处理的多媒体资源，调用多个多媒体资源分类模型对所述多媒体资源进行类别预测，所述多个多媒体资源分类模型包括M个第一多媒体资源分类模型和第二多媒体资源分类模型，M为正整数；

其中，所述M个第一多媒体资源分类模型选自于N个第一多媒体资源分类模型，所述N个第一多媒体资源分类模型是根据第一多媒体资源样本集训练得到的，所述第二多媒体资源分类模型是根据第二多媒体资源样本集训练得到的，所述第二多媒体资源样本集为所述第一多媒体资源样本集的子集，所述第二多媒体资源样本集中的样本多媒体资源满足：所述N个第一多媒体资源分类模型在对同一个样本多媒体资源进行类别预测时，输出的预测结果不一致；

根据M+1个多媒体资源分类模型输出的预测结果和所述M+1个多媒体资源分类模型各自对应的分类阈值，确定所述多媒体资源归属的类别。

在一种可能的实现方式中，所述调用多个多媒体资源分类模型对所述多媒体资源进行类别预测之前，还包括：

获取所述第一多媒体资源样本集以及所述第一多媒体资源样本集中每个样本多媒体资源的类别标签；

根据所述第一多媒体资源样本集和所述第一多媒体资源样本集对应的类别标签，训练N个第一多媒体资源分类模型；

其中，所述N个第一多媒体资源分类模型中每个多媒体资源分类模型的参数配置不同，N为正整数且N≥M，所述参数配置包括以下至少一项：网络架构、迭代训练使用的优化器以及迭代训练次数。

对于所述第一多媒体资源样本集中的每个样本多媒体资源，分别调用所述N个第一多媒体资源分类模型对所述样本多媒体资源进行类别预测，得到N个预测结果，所述预测结果包括预测概率和预测标签，其中，所述预测标签为最大的预测概率对应的标签；

若所述N个预测结果中超过目标比例的预测标签一致，且所述目标比例的预测标签对应的预测概率不小于目标阈值，则确定所述N个第一多媒体资源分类模型在所述样本多媒体资源上输出的预测结果一致；

在所述第一多媒体资源样本集中确定所述N个第一多媒体资源分类模型输出的预测结果不一致的样本多媒体资源，形成所述第二多媒体资源样本集，根据所述第二多媒体资源样本集和所述第二多媒体资源样本集对应的类别标签，训练所述第二多媒体资源分类模型。

在一种可能的实现方式中，所述调用多个多媒体资源分类模型对所述多媒体资源进行类别预测，包括：

在所述N个第一多媒体资源分类模型中随机选择M个第一多媒体资源分类模型，调用所述M个第一多媒体资源分类模型和所述第二多媒体资源分类模型，对所述多媒体资源进行类别预测，N>M；或，

调用所述N个第一多媒体资源分类模型和所述第二多媒体资源分类模型，对所述多媒体资源进行类别预测，N＝M。

获取当前多媒体资源处理的目标召回率；

根据召回率与阈值组合的映射关系，确定与所述目标召回率匹配的所述多个多媒体资源分类模型使用的目标阈值组合；

其中，所述目标阈值组合包括所述多个多媒体资源分类模型各自对应的分类阈值，且所述目标阈值组合是在所述目标召回率下获得的具有最大准确率的阈值组合。

在一种可能的实现方式中，所述预测结果包括预测概率和预测标签，其中，所述预测标签为最大的预测概率对应的标签；

所述根据M+1个多媒体资源分类模型输出的预测结果和所述M+1个多媒体资源分类模型各自对应的分类阈值，确定所述多媒体资源归属的类别，包括：

若所述M+1个多媒体资源分类模型中至少一个模型输出的预测概率不小于对应的分类阈值，则将所述至少一个模型输出的预测标签确定为所述多媒体资源归属的类别。

根据本公开实施例的第二方面，提供一种多媒体资源处理装置，包括：

多媒体资源获取模块，被配置为获取待处理的多媒体资源；

多媒体资源处理模块，被配置为调用多个多媒体资源分类模型对所述多媒体资源进行类别预测，所述多个多媒体资源分类模型包括M个第一多媒体资源分类模型和第二多媒体资源分类模型，M为正整数；

其中，所述M个第一多媒体资源分类模型是根据第一多媒体资源样本集训练得到的，所述第二多媒体资源分类模型是根据第二多媒体资源样本集训练得到的，所述第二多媒体资源样本集为所述第一多媒体资源样本集的子集，所述第二多媒体资源样本集中的样本多媒体资源满足：所述M个第一多媒体资源分类模型在对同一个样本多媒体资源进行类别预测时，输出的预测结果不一致；

所述多媒体资源处理模块，还被配置为根据M+1个多媒体资源分类模型输出的预测结果和所述M+1个多媒体资源分类模型各自对应的分类阈值，确定所述多媒体资源归属的类别。

在一种可能的实现方式中，所述装置还包括：

第一多媒体资源分类模型训练模块，被配置为获取所述第一多媒体资源样本集以及所述第一多媒体资源样本集中每个样本多媒体资源的类别标签；根据所述第一多媒体资源样本集和所述第一多媒体资源样本集对应的类别标签，训练N个第一多媒体资源分类模型；

在一种可能的实现方式中，所述装置还包括：

第二多媒体资源分类模型训练模块，被配置为对于所述第一多媒体资源样本集中的每个样本多媒体资源，分别调用所述N个第一多媒体资源分类模型对所述样本多媒体资源进行类别预测，得到N个预测结果，所述预测结果包括预测概率和预测标签，其中，所述预测标签为最大的预测概率对应的标签；若所述N个预测结果中超过目标比例的预测标签一致，且所述目标比例的预测标签对应的预测概率不小于目标阈值，则确定所述N个第一多媒体资源分类模型在所述样本多媒体资源上输出的预测结果一致；在所述第一多媒体资源样本集中确定所述N个第一多媒体资源分类模型输出的预测结果不一致的样本多媒体资源，形成所述第二多媒体资源样本集，根据所述第二多媒体资源样本集和所述第二多媒体资源样本集对应的类别标签，训练所述第二多媒体资源分类模型。

在一种可能的实现方式中，所述多媒体资源处理模块，还被配置为在所述N个第一多媒体资源分类模型中随机选择M个第一多媒体资源分类模型，调用所述M个第一多媒体资源分类模型和所述第二多媒体资源分类模型，对所述多媒体资源进行类别预测，N>M；或，调用所述N个第一多媒体资源分类模型和所述第二多媒体资源分类模型，对所述多媒体资源进行类别预测，N＝M。

在一种可能的实现方式中，所述装置还包括：

确定模块，被配置为获取当前多媒体资源处理的目标召回率；根据召回率与阈值组合的映射关系，确定与所述目标召回率匹配的所述多个多媒体资源分类模型使用的目标阈值组合；

所述多媒体资源处理模块，还被配置为若所述M+1个多媒体资源分类模型中至少一个模型输出的预测概率不小于对应的分类阈值，则将所述至少一个模型输出的预测标签确定为所述多媒体资源归属的类别。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的多媒体资源处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的多媒体资源处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面所述的多媒体资源处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在获取到待处理的多媒体资源后，本公开实施会调用多个多媒体资源分类模型对该多媒体资源进行类别预测，其中，该多个多媒体资源分类模型中包括M个第一多媒体资源分类模型和第二多媒体资源分类模型；之后，根据M+1个多媒体资源分类模型输出的预测结果和M+1个多媒体资源分类模型各自对应的分类阈值，确定该多媒体资源归属的类别。

其中，M个第一多媒体资源分类模型选自于N个第一多媒体资源分类模型，而N个第一多媒体资源分类模型是根据第一多媒体资源样本集训练得到的，第二多媒体资源分类模型是根据第二多媒体资源样本集训练得到的，第二多媒体资源样本集为第一多媒体资源样本集的子集，第二多媒体资源样本集中的样本多媒体资源满足：N个第一多媒体资源分类模型在对同一个样本多媒体资源进行类别预测时，输出的预测结果不一致。即，本公开实施例实现了基于集成的差异化模型处理多媒体资源。在模型训练阶段能够产生两个或者多个差异性大的模型，并将产生的两个或多个差异化模型进行集成，进而基于集成的差异化模型来处理多媒体资源。

详细来说，在第一训练阶段使用第一多媒体资源样本集生成N个第一多媒体资源分类模型，之后利用N个第一多媒体资源分类模型分别对第一多媒体资源样本集中的各个样本多媒体资源进行类别预测，并收集第一多媒体资源样本集中N个第一多媒体资源分类模型输出的预测结果不一致的样本多媒体资源，形成第二多媒体资源样本集，并在第二训练阶段基于第二多媒体资源样本集重新生成一个第二多媒体资源分类模型。

该种模型训练方式能够增大模型与模型之间差异化，即确保了N个第一多媒体资源分类模型与第二多媒体资源分类模型之间的差异性，进而基于从N个第一多媒体资源分类模型选择的M个第一多媒体资源分类模型和第二多媒体资源分类模型对待处理的多媒体资源进行预测，能够提升最终的融合效果。比如。在召回率一定的情况下，能够显著提升类别预测的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多媒体资源处理方法涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种多媒体资源处理方法的流程图。

图3是根据一示例性实施例示出的一种多媒体资源处理方法的流程图。

图4是根据一示例性实施例示出的一种多媒体资源处理装置的框图。

图5是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

在对本公开实施例进行详细地解释说明之前，先对本公开实施例涉及到的一些名词进行介绍。

集成学习(ensemble learning)：通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统。

其中，在机器学习的有监督学习算法中，目标是学习出一个稳定的且在各个方面表现较好的模型，但实际情况往往不这么理想，有时只能得到多个有偏好的模型(弱监督模型，在某些方面表现的比较好)。而集成学习就是组合这里的多个弱监督模型以期望得到一个更好更全面的强监督模型，即集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，那么其他的弱分类器也可以将错误纠正回来。

需要说明的是，针对集成学习理论，个体学习器的准确性越高,同时差异性越大,则最终的集成效果越好。其中，差异性大的多个多媒体资源分类模型更具备模型集成的基础，更能显著提升模型集成后的预测效果。

多媒体资源：在本公开实施例中，多媒体资源包括但不限于视频、图片、文字等。

其中，针对多媒体资源进行处理包括但不限于对多媒体资源进行分类。比如，针对多媒体资源分享平台，可以将多媒体资源分类为正常的多媒体资源，和涉及诸如虚假广告、色情或暴恐等违法违规内容的敏感多媒体资源，本公开实施例对此不进行具体限定。

下面对本公开实施例提供的一种多媒体资源处理方法涉及的实施环境进行介绍。

参见图1，该实施环境包括：第一电子设备101和第二电子设备102。

示例性地，第一电子设备101可以为用户使用的终端，该终端的类型包括但不限于：移动式终端和固定式终端。作为一个示例，移动式终端包括但不限于：智能手机、平板电脑、笔记本电脑、电子阅读器、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器等；固定式终端包括但不限于台式电脑，本公开实施例对此不进行具体限定。

示例性地，第二电子设备102可以为多媒体资源分享平台，比如短视频分享平台。其中，电子设备102除了可以为第一电子设备101提供后台服务之外，还可以对用户通过第一电子设备101上传的多媒体资源进行处理，即第二电子设备102用于执行本公开实施例提供的多媒体资源处理方法。其中，电子设备102既可以是一个独立的服务器，也可以是由多个服务器组成的服务器集群，本公开实施例对此同样不进行具体限定。

基于以上的实施环境，本公开实施例提出了一种基于集成的差异化模型的多媒体资源处理方法。即，本公开实施例提出了一种可以增大模型与模型之间差异化的方案，用来产生两个或者多个差异性大的模型并将产生的两个或多个差异化模型进行集成，进而基于集成的差异化模型来进行多媒体资源处理，进而实现提升最终的融合效果的目的。其中，提升模型最终的预测效果可以是：在召回率一定的情况下，提升准确率。

基于以上描述可知，本公开实施例的核心思想是：首先用多个多媒体资源分类模型去拟合整体数据的分布，然后将大多数模型预测不准的数据单独生成一个分布，该分布区别于整体数据的分布，在该分布上重新生成模型进行拟合。其中，重新生成的模型相当于一个更专业的分类器，专门去处理之前的多个多媒体资源分类模型预测不准的数据，因此前后两个阶段生成的模型具备差异性，即前面阶段生成的多个多媒体资源分类模型与后面阶段生成的模型之间具备较大的差异性，可以用来模型集成，并基于集成的差异化模型来进行多媒体资源处理，以达到显著提升最终的融合效果的目的。

需要说明的是，本公开实施例提供的多媒体资源处理方案可应用在多媒体资源分类这一任务场景下，比如视频分类或图像分类；除此之外，还可应用在其他任务场景下，比如计算机视觉领域的目标检测或语义分割或实例分割等，本公开实施例对此不进行具体限定。针对不同的任务场景，集成模型的训练阶段+使用阶段方法类似，仅是在模型训练时针对不同的任务场景模型的优化目标不同，而具体的模型训练过程+模型集成过程均同理，下述实施例仅是以多媒体资源分类为例进行举例说明。

下面通过以下实施方式对本公开实施例提供的多媒体资源处理方法进行详细说明。

图2是根据一示例性实施例示出的一种多媒体资源处理方法的流程图，如图2所示，该多媒体资源处理方法用于图1所示的第二电子设备中，包括以下步骤。

在步骤201中，获取待处理的多媒体资源。

在步骤202中，调用多个多媒体资源分类模型对待处理的多媒体资源进行类别预测，多个多媒体资源分类模型包括M个第一多媒体资源分类模型和第二多媒体资源分类模型，M为正整数；其中，M个第一多媒体资源分类模型选自于N个第一多媒体资源分类模型，N个第一多媒体资源分类模型是根据第一多媒体资源样本集训练得到的，第二多媒体资源分类模型是根据第二多媒体资源样本集训练得到的，第二多媒体资源样本集为第一多媒体资源样本集的子集，第二多媒体资源样本集中的样本多媒体资源满足：N个第一多媒体资源分类模型在对同一个样本多媒体资源进行类别预测时，输出的预测结果不一致。

在步骤203中，根据M+1个多媒体资源分类模型输出的预测结果和M+1个多媒体资源分类模型各自对应的分类阈值，确定待处理的多媒体资源归属的类别。

本公开实施例提供的方法，在获取到待处理的多媒体资源后，本公开实施会调用多个多媒体资源分类模型对该多媒体资源进行类别预测，其中，该多个多媒体资源分类模型中包括M个第一多媒体资源分类模型和第二多媒体资源分类模型；之后，根据M+1个多媒体资源分类模型输出的预测结果和M+1个多媒体资源分类模型各自对应的分类阈值，确定该多媒体资源归属的类别。

在训练N个第一多媒体资源分类模型时，本公开实施例会设置每个多媒体资源分类模型的参数配置不同，该种模型训练方式能够增大第一训练阶段得到的N个第一多媒体资源分类模型之间的差异性，进而确保了最终的融合效果。

本公开实施例利用N个第一多媒体资源分类模型对第一多媒体资源样本集进行类别预测，并收集第一多媒体资源样本集中N个第一多媒体资源分类模型输出的预测结果不一致的样本多媒体资源，进而形成第二多媒体资源样本集。在第二训练阶段，基于第二多媒体资源样本集重新生成一个第二多媒体资源分类模型。

即，在本公开实施例中训练阶段分为两部分：第一部分生成N个模型，进而利用这N个模型产生在这N个模型上具备不一致性的数据，而第二部分则是基于这些不一致的数据重新训练一个模型。也即，首先用多个模型去拟合整体数据的分布，然后将大多数模型搞不定的数据单独生成一个分布，该分布区别于整体数据的分布，在该分布上重新生成模型去拟合。该种模型训练方式能够增大模型与模型之间差异化，即确保了N个第一多媒体资源分类模型与第二多媒体资源分类模型之间的差异性。

在应用阶段，可以选择部分或全部的第一多媒体资源分类模型来配合第二多媒体资源分类模型对待处理的多媒体资源进行类别预测，具备了选择多样性。

获取当前多媒体资源处理的目标召回率；

本公开实施例能够在目标召回率下获得上述多个多媒体资源分类模型使用的具有最大准确率的阈值组合，该种自动确定多模型的分类阈值的模型集成方式能够提升类别预测的准确度，进而确保了最终的融合效果。

该种类别预测方式有效地提升了类别预测的准确性。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图3是根据一示例性实施例示出的一种多媒体资源处理方法的流程图，如图3所示，该多媒体资源处理方法用于图1所示的第二电子设备中，包括以下步骤。

训练阶段

在步骤301中，获取第一多媒体资源样本集以及第一多媒体资源样本集中每个样本多媒体资源的类别标签。

在本公开实施例中，首先准备第一训练阶段训练模型所使用的样本多媒体资源以及这些样本多媒体资源对应的类别标签(label)。示例性地，第一训练阶段所使用的样本多媒体资源可来源于网络上公开的任意一个通用数据集，或者，相关人员自行从网络上收集的数据形成数据集，本公开实施例对此不进行具体限定。另外，为了便于区分，第一训练阶段所使用的样本多媒体资源在本公开实施例中还被称之为第一多媒体资源样本集。

需要说明的是，根据任务场景的不同以及业务需要的不同，在对第一多媒体资源样本集中的每个样本多媒体资源进行标注时，标注的类别标签也可能存在不同。以当前任务场景为图像分类，且用于区分正常图像和敏感图像为例，则每个样本的类别标签可以为0或1，其中，0可以指代正常图像，1可以指代敏感图像，本公开实施例对此不进行具体限定。

在步骤302中，根据第一多媒体资源样本集和第一多媒体资源样本集对应的类别标签，训练N个第一多媒体资源分类模型。

需要说明的是，为了同第二训练阶段得到的模型进行区分，本公开实施例将第一训练阶段得到的模型称之为第一多媒体资源分类模型，将第二训练阶段得到的模型称之为第二多媒体资源分类模型。

在本公开实施例中，为了增大第一训练阶段得到的N个第一多媒体资源分类模型之间的差异性，会设置N个第一多媒体资源分类模型中每个多媒体资源分类模型的参数配置不同，其中，N的取值为正整数，且N的取值通常不小于2。

在一种可能的实现方式中，参数配置包括以下至少一项：网络架构、迭代训练使用的优化器以及迭代训练次数。示例性地，N个模型中每个多媒体资源分类模型的网络架构、迭代训练使用的优化器以及迭代训练次数可以均不同，进而增大模型与模型之间的差异性。

举例来说，以第一训练阶段生成2个第一多媒体资源分类模型(分别为模型1和模型2)为例，则模型1可以使用网络结构xception，模型2可以使用网络结构inception-v3或resnet50等；而在基于不同的网络架构和相同的训练样本分别进行模型训练时，模型1使用的优化器可以为梯度下降法，模型2使用的优化器可以为动量优化法；针对迭代训练次数，模型1的迭代训练次数可以为10000次，模型2的迭代训练次数可以为20000次，直到两个模型分别完成预先设置的迭代训练次数，分别训练好的模型1和模型2。

示例性地，梯度下降法可以为标准梯度下降法、批量梯度下降法或随机梯度下降法；动量优化法可以为标准动量优化方法Momentum或NAG(Nesterov acceleratedgradient，牛顿加速梯度)动量优化方法。

在步骤303中，对于第一多媒体资源样本集中的每个样本多媒体资源，分别调用N个第一多媒体资源分类模型对该样本多媒体资源进行类别预测，得到N个预测结果。

在完成第一训练阶段的模型训练得到N个第一多媒体资源分类模型后，本公开实施例会接着利用这N个第一多媒体资源分类模型分别对第一多媒体资源样本集进行预测。即，针对第一多媒体资源样本集中的每个样本多媒体资源，会分别调用N个第一多媒体资源分类模型对该样本多媒体资源进行类别预测，也即对于第一多媒体资源样本集中的每个样本多媒体资源，会得到N个第一多媒体资源分类模型输出的N个预测结果。

示例性地，每个预测结果中均包括预测概率和预测标签，其中，预测标签为最大的预测概率对应的标签。

在步骤304中，针对每个样本多媒体资源，若该样本多媒体资源的N个预测结果中超过目标比例的预测标签一致，且目标比例的预测标签对应的预测概率不小于目标阈值，则确定N个第一多媒体资源分类模型在该样本多媒体资源上输出的预测结果一致。

在一种可能的实现方式中，目标比例的取值可以为2/3，目标阈值的取值可以为0.8，本公开实施例对目标比例和目标阈值的大小不进行具体限定。

以目标比例为2/3以及目标阈值为0.8为例，本公开实施例会将这N个第一多媒体资源分类模型输出的预测结果进行如下整合：在单个样本多媒体资源上，判断N个第一多媒体资源分类模型输出的预测标签是否有超过2/3N个是一致的，且一致的这些预测标签对应的预测概率是否不小于0.8；如果是，则确定该N个第一多媒体资源分类模型在该样本多媒体资源上具备一致性。否则，确定该N个第一多媒体资源分类模型在该样本多媒体资源上不具备一致性。

在步骤305中，在第一多媒体资源样本集中确定N个第一多媒体资源分类模型输出的预测结果不一致的样本多媒体资源，形成第二多媒体资源样本集。

本步骤即是收集步骤304中确定出来的不具备一致性的样本多媒体资源，进而形成一个新的数据集，即第二多媒体资源样本集。其中，第二多媒体资源样本集用于第二训练阶段的模型训练。

换一种表达方式，第二多媒体资源样本集为第一多媒体资源样本集的子集，第二多媒体资源样本集中的样本多媒体资源满足：N个第一多媒体资源分类模型在对同一个样本多媒体资源进行类别预测时，输出的预测结果不一致。

在步骤306中，根据第二多媒体资源样本集和第二多媒体资源样本集对应的类别标签，训练第二多媒体资源分类模型。

针对该步骤，即是步骤304中确定出来的不具备一致性的数据重新训练一个模型。其中，在第二训练阶段可以使用与第一训练阶段具有相同或不同参数配置的模型，本公开实施例对此不进行具体限定。比如，针对网络结构，还可以使用xception或者inception-v3的网络结构，本公开实施例对此不进行具体限定。需要说明的是，为了增大模型与模型之间的差异性，在第二训练阶段可以使用与第一训练阶段具有完全不同参数配置的模型，本公开实施例对此同样不进行具体限定。

基于以上描述可知，训练阶段分为两部分：第一训练阶段生成N个第一多媒体资源分类模型，可以用来产生在N个第一多媒体资源分类模型上具备不一致性的数据。第二训练阶段即是基于不具备不一致性的数据重新训练一个模型，进而得到N+1个模型。也即是，首先用N个第一多媒体资源分类模型去拟合整体数据的分布，然后将大多数模型预测不准的数据单独生成一个分布，该分布区别于整体数据的分布，在该分布上重新生成模型进行拟合。其中，重新生成的第二多媒体资源分类模型相当于一个更专业的分类器，专门去处理之前的N个第一多媒体资源分类模型预测不准的数据，因此前后两个阶段生成的模型具备差异性，即前面阶段生成的N个第一多媒体资源分类模型与后面阶段生成的第二多媒体资源分类模型之间具备较大的差异性，可以用来模型集成，并基于集成的差异化模型来进行多媒体资源处理，以达到显著提升最终的融合效果的目的，详情请参见下述步骤。

应用阶段

在应用阶段，可以在第一训练阶段产生的N个第一多媒体资源分类模型中选择M第一多媒体资源分类模型来配合第二训练阶段产生的第二多媒体资源分类模型进行使用，步骤如下。

在步骤307中，获取待处理的多媒体资源，调用多个多媒体资源分类模型对待处理的多媒体资源进行类别预测，其中，多个多媒体资源分类模型包括M个第一多媒体资源分类模型和第二多媒体资源分类模型，M为正整数，且N≥M。

示例性地，多媒体资源既可为图像也可以为视频，以图像分类的任务场景为例，则待处理的多媒体资源即为待处理图像。在一种可能的实现方式中，调用多个多媒体资源分类模型对待处理的多媒体资源进行类别预测，包括但不限于下述两种方式：

3071、在N个第一多媒体资源分类模型中随机选择M个第一多媒体资源分类模型，调用M个第一多媒体资源分类模型和第二多媒体资源分类模型，对待处理的多媒体资源进行类别预测，N>M。

针对第一种方式，是在N个第一多媒体资源分类模型中选择M个第一多媒体资源分类模型，其中，N>M。比如在N个第一多媒体资源分类模型中随机选择1个第一多媒体资源分类模型。

3072、调用N个第一多媒体资源分类模型和第二多媒体资源分类模型，对待处理的多媒体资源进行类别预测，N＝M。

针对第二种方式，是将N个第一多媒体资源分类模型全部用于对待处理的多媒体资源进行类别预测。

在步骤308中，根据M+1个多媒体资源分类模型输出的预测结果和M+1个多媒体资源分类模型各自对应的分类阈值，确定待处理的多媒体资源归属的类别。

在一种可能的实现方式中，根据M+1个多媒体资源分类模型输出的预测结果和M+1个多媒体资源分类模型各自对应的分类阈值，确定待处理的多媒体资源归属的类别，包括但不限于：若M+1个多媒体资源分类模型中至少一个模型输出的预测概率不小于对应的分类阈值，则将至少一个模型输出的预测标签确定为待处理的多媒体资源归属的类别。需要说明的是，如果存在两个或两个以上模型输出的预测概率不小于对应的分类阈值的情况，则可以将输出最大预测概率的模型输出的预测标签确定为待处理的多媒体资源归属的类别。

举例来说，以当前任务场景为图像分类，且用于区分正常图像和敏感图像为例，则若M+1个多媒体资源分类模型中有一个模型输出的预测概率为0.9，大于该模型对应的分类阈值0.8，即该模型输出的预测标签为敏感图像，则确定该待处理的多媒体资源为敏感图像。

在一种可能的实现方式中，M+1个多媒体资源分类模型各自对应的分类阈值可以通过如下方式确定：

3081、获取当前多媒体资源处理的目标召回率。

目标召回率的大小可以根据当前业务需求来设置，本公开实施例对此不作具体限定。

其中，召回率是针对源样本而言的，它表示的是样本中的正例样本有多少比例被预测正确。精确率是针对预测结果而言的，它表示的是预测为正的样本中有多少是真正的正例样本。

3082、根据预先设置的召回率与阈值组合的映射关系，确定与该目标召回率匹配的多个多媒体资源分类模型使用的目标阈值组合；其中，目标阈值组合包括多个多媒体资源分类模型各自对应的分类阈值.

另外，目标阈值组合是在该目标召回率下获得的具有最大准确率的阈值组合。即使用具有该阈值组合的多个多媒体资源分类模型处理多媒体资源得到的准确率最高，也即使用采用该阈值组合的多个多媒体资源分类模型处理多媒体资源，可以提高对多媒体资源类别预测的准确率。

作为一个示例，召回率与阈值组合的映射关系可以通过如下方式设置：获得第三数据集；在预设区间内，按照预设遍历规律获得多个类模型的所有阈值组合；利用每个阈值组合更新多个多媒体资源分类模型，并利用更新后的多个多媒体资源分类模型对第三数据集进行类别预测，得到每个阈值组合对应的召回率和准确率；记录并保存每个召回率下的最高准确率及其对应的阈值组合。

示例性地，按照预设遍历规律获得多个多媒体资源分类模型的所有阈值组合可以为：针对每个多媒体资源分类模型，按顺序依次增加一个预设阈值变化量，预设区间为[0,1]，该阈值变化量可以为x，x∈[0，1]。例如，对于X个分类模型，第i个模型的分类阈值记为ti，假设阈值变化量x为0.1，则tn为0，0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9，1中的任一个，t(n-1)为0，0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9，1中的任一个，以此类推，每个多媒体资源分类模型的阈值遍历所有的取值，可以得到这X个模型的所有阈值组合。

之后，可以根据每个召回率下的最高准确率生成变化曲线，例如，以召回率为横轴，以准确率为纵轴，根据每个召回率及其对应的最高准确率确定多个点，将这些点连接起来，生成变化曲线，以方便根据该业务曲线和召回率确定对应的准确率。

本公开实施例提供的方法至少具有以下有益效果：

图4是根据一示例性实施例示出的一种多媒体资源处理装置的框图。参照图4，该装置包括多媒体资源获取模块401和多媒体资源处理模块402。

多媒体资源获取模块401，被配置为获取待处理的多媒体资源；

多媒体资源处理模块402，被配置为调用多个多媒体资源分类模型对所述多媒体资源进行类别预测，所述多个多媒体资源分类模型包括M个第一多媒体资源分类模型和第二多媒体资源分类模型，M为正整数；

多媒体资源处理模块402，还被配置为根据M+1个多媒体资源分类模型输出的预测结果和所述M+1个多媒体资源分类模型各自对应的分类阈值，确定所述多媒体资源归属的类别。

本公开实施例提供的装置，在获取到待处理的多媒体资源后，会调用多个多媒体资源分类模型对该多媒体资源进行类别预测，其中，该多个多媒体资源分类模型中包括M个第一多媒体资源分类模型和第二多媒体资源分类模型；之后，根据M+1个多媒体资源分类模型输出的预测结果和M+1个多媒体资源分类模型各自对应的分类阈值，确定该多媒体资源归属的类别。

在一种可能的实现方式中，该装置还包括：

在一种可能的实现方式中，多媒体资源处理模块，还被配置为在所述N个第一多媒体资源分类模型中随机选择M个第一多媒体资源分类模型，调用所述M个第一多媒体资源分类模型和所述第二多媒体资源分类模型，对所述多媒体资源进行类别预测，N>M；或，调用所述N个第一多媒体资源分类模型和所述第二多媒体资源分类模型，对所述多媒体资源进行类别预测，N＝M。

在一种可能的实现方式中，该装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5示出了本公开一个示例性实施例提供的一种电子设备500的结构框图。该电子设备可以为图1中示出的第二电子设备。

通常，设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本公开中方法实施例提供的直播中的电子资源发放方法。

在一些实施例中，设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：显示屏505和电源509。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

显示屏504用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏504是触摸显示屏时，显示屏504还具有采集在显示屏504的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏504还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏504可以为一个，设置设备500的前面板；显示屏504可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

电源505用于为设备500中的各个组件进行供电。电源505可以是交流电、直流电、一次性电池或可充电电池。当电源505包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图5中示出的结构并不构成对设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由设备500的处理器执行以完成上述多媒体资源处理方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，所述计算机程序产品中的指令由电子设备500的处理器执行时，使得电子设备5000能够执行如上述方法实施例中的多媒体资源处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体资源处理方法，其特征在于，包括：

2.根据权利要求1所述的多媒体资源处理方法，其特征在于，所述调用多个多媒体资源分类模型对所述多媒体资源进行类别预测之前，还包括：

3.根据权利要求2所述的多媒体资源处理方法，其特征在于，所述调用多个多媒体资源分类模型对所述多媒体资源进行类别预测之前，还包括：

4.根据权利要求2所述的多媒体资源处理方法，其特征在于，所述调用多个多媒体资源分类模型对所述多媒体资源进行类别预测，包括：

5.根据权利要求1所述的多媒体资源处理方法，其特征在于，所述调用多个多媒体资源分类模型对所述多媒体资源进行类别预测之前，还包括：

获取当前多媒体资源处理的目标召回率；

6.根据权利要求1至5中任一项所述的多媒体资源处理方法，其特征在于，所述预测结果包括预测概率和预测标签，其中，所述预测标签为最大的预测概率对应的标签；

7.一种多媒体资源处理装置，其特征在于，包括：

多媒体资源获取模块，被配置为获取待处理的多媒体资源；

8.根据权利要求7所述的多媒体资源处理装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的多媒体资源处理方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的多媒体资源处理方法。