CN112183946A

CN112183946A - 多媒体内容评估方法、装置及其训练方法

Info

Publication number: CN112183946A
Application number: CN202010926567.7A
Authority: CN
Inventors: 关文婕; 吴斌; 雷兆恒
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-05

Abstract

本申请公开一种多媒体内容评估模型的训练方法，评估模型包括评估网络模块和后处理单元，评估网络模块包括分类网络子模块和后续的降维子模块，所述训练方法包括：训练评估网络模块；将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将评估网络模块输出输入后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数。本申请还提供一种多媒体内容的评估方法以及评估装置、电子设备。本申请的方案能有效降低训练数据获取难度，更好地驱动对多媒体内容特征的学习，从而提高多媒体内容评估的自动化程度、效率、准确度。

Description

多媒体内容评估方法、装置及其训练方法

技术领域

本申请涉及多媒体内容处理的技术领域，具体地涉及一种多媒体内容的评估方法和装置。本申请还涉及一种多媒体内容评估模型的训练方法。另外，本申请还涉及相关的电子设备。

背景技术

当前，包括用户生成内容(UGC)在内的多媒体内容、例如音乐、短视频或视频大量生成并广泛传播。

然而，大量多媒体内容、尤其是用户生成内容良莠不齐，这阻碍了更好、更快地挖掘优质内容。

例如，针对多媒体内容、如短视频审核而言，目前短视频平台每日发布的作品数量已达到10万级。若采用纯人力审核，不仅时间长且人力成本高。针对于用户发布的大量的作品，只能挖掘极小部分的优质内容。

针对多媒体内容、如短视频推荐而言，上述问题同样限制了向用户推荐优秀内容的可能性。例如，短视频平台、音乐平台或其他多媒体平台可能会采取基于用户兴趣的大数据算法，来向用户推荐其感兴趣的内容。但是，缺乏给缺少行为数据的新用户推荐优质内容的有效手段。基于兴趣的推荐也有可能造成某些新产生的优质内容未能有效推送给平台用户。这对多媒体平台延长用户留存和拉新拉活造成了负面影响。

因此，希望提供一种多媒体内容处理、评估的方案以及相关的多媒体内容评估模型训练方法，这能够利用更容易获取的数据，更好地驱动对多媒体内容特征的学习，从而提供不涉及人工设计的自动化的、高效、准确的多媒体内容的评估。

本背景技术描述的内容仅为了便于了解本领域的相关技术，不视作对现有技术的承认。

发明内容

因此，本发明实施例意图提供一种多媒体内容评估方法和装置、多媒体内容评估模型的训练方法以及相关的电子设备。这些方案能有效降低训练数据获取难度，更好地驱动对多媒体内容特征的学习，从而提高多媒体内容评估的自动化程度、效率、准确度。

在本发明实施例中，提供一种多媒体内容评估模型的训练方法，所述多媒体内容评估模型包括评估网络模块和后处理单元，所述评估网络模块包括分类网络子模块和后续的降维子模块，所述方法包括：

训练评估网络模块，包括：

将具有各自标准评估等级的多个训练数据输入所述评估网络模块，其中所述标准评估等级为按照标准排序的N个预定评估等级之一，N≥2，

由所述分类网络子模块的输出获得分类结果，

由所述后续的降维子模块的输出获得排序结果，

基于分类损失函数，确定所述分类结果与标准评估等级之间的第一差异，

基于排序损失函数，确定所述排序结果与标准评估等级对应的标准排序之间的第二差异，

基于所述第二差异，迭代更新所述降维子模块的参数，

基于所述第一差异，迭代更新所述分类网络子模块的参数，

达到预定的迭代终止条件时，完成所述评估网络模块的训练；

将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将所述评估网络模块输出输入所述后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数。

在本发明实施例中，提供一种多媒体内容的评估方法。在本发明实施例中，所述评估方法由根据本发明任一实施例的训练方法训练的多媒体内容评估模型实施。

在本发明实施例中，所述评估方法包括：

利用训练好的评估网络模块接收多媒体内容作为输入，获得评估网络模块输出作为中间值；

利用后处理单元对所述中间值进行后处理，获得位于预定的连续评分范围内的最终评估值。

在本发明实施例中，提供一种多媒体内容评估装置，包括：

训练好的评估网络模块，包括分类网络子模块和后续的降维子模块，所述评估网络模型配置成接收多媒体内容作为输入，获得评估网络模块输出作为中间值；

后处理单元，配置成对所述中间值进行后处理，获得位于预定的连续评分范围内的最终评估值；

其中，所述评估网络模块配置成，在被训练时：

接收具有各自标准评估等级的多个训练数据作为输入，其中所述标准评估等级为按照标准排序的N个预定评估等级之一，N≥2，

由所述分类网络子模块的输出获得分类结果，

由所述后续的降维子模块的输出获得排序结果，

基于所述第二差异，迭代更新所述降维子模块的参数，

基于所述第一差异，迭代更新所述分类网络子模块的参数，

达到预定的迭代终止条件时，完成所述评估网络模块的训练。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的多媒体内容的评估方法。

本发明实施例提出一种基于多任务损失的多媒体内容(如短视频作品封面)评估方案及相关的训练方案，在大幅降低数据获取难度和提高获取的数据的客观度的基础上，能有效的提升评估性能。进一步地，本发明实施例的评估方案可以采用质量等级作为训练标签，在评估阶段针对输入的多媒体内容(如短视频作品封面)，避免了人为因素影响，而以高效的方式自动输出符合客观性质的质量分数。另外，本发明实施例的训练方案在使用基于图像分类方法学习图像特征的同时，引入质量等级先后顺序的监督信息，构造多任务损失函数，能更好的驱动图像特征的学习，获得更多的语义信息，从而达到提升短视频作品封面评估任务性能的目的。

特别地，作为解释而非限制地，本发明实施例的一些方案还可以具有以下的部分或全部技术效果：

1、本发明实施例相比于本发明人知悉的一种可能的采用基于回归的机器学习方法的评估和训练方案具有改善的技术效果。在这种可能的基于回归的机器学习方法中，训练数据例如为具有人工评分(0-10)的作品封面图；在训练阶段采用回归模型拟合训练数据；在评估/验证阶段对给定的作品封面图，模型输出相应的质量分数；该方法思想简单直接；但是，数据获取难度大，且数据标签的主观影响因素大；而且，图片数据属于高维数据，采用神经网络提取特征并配合回归损失函数进行学习情况下，在工程实践、例如参数调节方面难度很大。

相比之下，本发明实施例的方案可以使用简单获得的客观训练数据，而且评估模型的训练和参数固定更为简单，因此能大幅节省计算量，而且本发明实施例的方案通过引入质量等级先后顺序的监督信息，构造多任务损失函数，能驱动更好地学习多媒体内容、如图像特征、语义信息，实现高效且符合技术规律的自动化评估。

2、本发明实施例相比于另一种可能的使用基于分类的机器学习方法的评估和训练方案具有改善的技术效果。这种可能的基于分类的机器学习方法例如把作品评估任务看作是图像分类任务，对给定的封面图片进行等级分类；并且基于分类等级的置信度，再根据人工设计的打分算法得到最终的质量分数；该方法替代降低了训练数据的获取难度；但该方法把作品评估任务简单看作是分类任务，而后介入人工设计打分算法进行打分，评估结果主观影响因素很大。

相比之下，本发明实施例的方案在采用能简单获得或确定的客观训练数据和评估模型的情况下，通过引入质量等级先后顺序的监督信息，构造多任务损失函数，能驱动更好地学习多媒体内容、如图像特征、语义信息，实现的高效且符合技术规律的自动化评估。

本发明实施例的其他可选特征和技术效果一部分在下文描述，一部分可通过阅读本文而明白。

附图说明

以下，结合附图来详细说明本发明的实施例，所示出的元件不受附图所显示的比例限制，附图中相同或相似的附图标记表示相同或类似的元件，其中：

图1示出了根据本发明实施例的训练方法的第一示例性流程图；

图2示出了根据本发明实施例的训练方法的第二示例性流程图；

图3示出了根据本发明实施例的训练方法的第三示例性流程图；

图4示出了根据本发明实施例的评估方法的示例性流程图；

图5示出了实施根据本发明实例的训练方法的第一示意图；

图6示出了实施根据本发明实例的训练方法的第二示意图；

图7A至图7D示出了实施根据本发明实例的训练方法的第三示意图

图8示出了实施根据本发明实例的评估方法的示意图；

图9示出了根据本发明实施例的多媒体内容评估模型的训练系统的结构示意图；

图10示出了根据本发明实施例的多媒体内容评估装置的结构示意图；

图11示出了能实施根据本发明实施例的方法的电子设备的示例性结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合具体实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。

在本发明实施例中，“网络”具有机器学习领域中的常规含义，例如神经网络(NN)、深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)、其他的机器学习或深度学习网络或它们的组合或修改。

在本发明实施例中，“模型”具有机器学习领域中的常规含义，例如模型可以是机器学习或深度学习模型，例如为包括上述网络或者由上述网络构成的机器学习或深度学习模型。

在本发明实施例中，“损失函数”和“损失值”具有机器学习领域中的常规含义。

本发明实施例提供一种多媒体内容评估模型的训练方法和系统以及相关的评估方法或装置/模型、电子设备和存储介质。所述方法、系统、装置/模型可以借助于一个或多个计算机实施。在一些实施例中，所述系统、装置/模型可以由软件、硬件或软硬件结合实现。在一些实施例中，该电子设备或计算机可以由本文所记载的计算机或其他可实现相应功能的电子设备实现。

如图1所示，在一个示例性实施例中，提供一种多媒体内容评估模型的训练方法。

在本发明实施例中，所述多媒体内容包括图像、视频和/或音频，这包括图像、视频和/或音频的部分和/或组合。由此，在本发明实施例中，多媒体内容的评估可以为评估多媒体内容的本身也可以评估多媒体内容的部分区域或部分帧，这落入本发明实施例范围内。

例如，在一些实施例中，多媒体内容的评估可以为对短视频的封面进行评估；也可以为对短视频的特定帧或所有帧进行评估。在一些实施例中，多媒体内容的评估可以为对音频、如音乐进行评估；也可以为对音频片段、如音乐片段，如副歌部分进行评估。

如图1所示，本发明实施例的多媒体内容评估模型的训练方法，包括：

S101：训练评估网络模块。

在一些实施例中，提供用于训练的评估训练集，所述评估训练集包括具有各自标准评估等级作为训练标签的多个训练数据。

在一些实施例中，所述多个训练数据可以直接用于训练。

在一些实施例中，使用所述多个训练数据进行训练之前，也可以对所述多个训练数据进行预处理。

例如，在一些实施例中，所述多个训练数据为带有质量等级标签的音频或音频片段；所述预处理可以包括对所述音频或音频片段进行变换处理、如短时傅里叶变换以生成频谱图，用于对网络评估模块进行训练。在一些实施例中，相应的评估方案也可以包括预处理。

在一些实施例中，还可以包括其他的预处理，例如但不限于，音频或视频的降采样处理、图像或视频的降分辨率处理。

在本发明实施例中，所述训练数据可以以带训练标签的图片数据形式或经处理成图片数据形式用于训练，如输入到评估网络模块中。

在一些实施例中，所述多个训练数据为具有各自标准评估等级作为训练标签的多个训练数据，所述评估等级为按照规定排序的N个预定评估等级之一，N大于等于2。在一些实施例中，N大于等于3。例如，预定评估等级为3个。尽管在本文的多个实例以3个预定评估等级为例进行描述，但这些实例可以应用于N(N≥2)个预定评估等级的场合。

在本发明的实施例中，预定评估等级为多媒体内容的高质量等级、中质量等级和低质量等级。在本发明的多个实施例和实例中，以多媒体内容的质量等级来进行描述，但可以想到在其他实施例中，预定评估等级可以是其他类型的评估等级，例如基于特定用户的兴趣等级。

如图5所示，在一些具体的实施例中，多个训练数据510为具有质量等级作为训练标签的多个训练数据。在图5所示的实施例中，训练数据为短视频作品的封面图片。

在一些实施例中，从构图、清晰度、设计感三个方面来考量多媒体内容、如短视频作品的封面图片的质量等级。在一些实施例中，在构图方面，可考量是否符合中心、对称等构图方式，主体突出性和可观赏性；在清晰度方面，可考量画面清晰度，模糊、失焦、过曝、噪点等影响观感的因素。

在本发明的实施例中，所述多个训练数据中的训练标签可以由多种方法获得，包括但不限于，人工标注、机器标注或两者的结合。在本发明的实施例中，所述多个训练数据的训练标签的获取并不是关键的，但是本发明实施例的方案可以促成使用更容易获取的、具有更高客观度的训练数据。

在一些实施例中，参考图2和图5，所述评估网络模块包括分类网络子模块520和后续的降维子模块530。由此，训练数据、如短视频作品的封面图片可以作为评估网络模块、具体为分类网络子模块520的输入；而分类网络子模块520的输出则可以作为后续的降维子模块530的输入；相应地，可以得到降维子模块530的输出540，也即是评估网络模块的输出540。

在一些实施例中，所述分类网络子模块520可以称为“骨干网络”，可以包括任何可以实现本发明实施例所述的分类功能的神经网络结构，包括但不限于DNN、CNN、RNN、其他的机器学习或深度学习网络。在一些实施例中，分类网络子模块520尤其是可以包括各种图像分类网络或其改型，例如但不限于AlexNet、VGG、GooLeNet、Inception v1-v4、NasNet、ResNet。

在本发明的一个具体实施例中，所述分类网络子模块520可以采用ResNet、如50层的ResNet(ResNet 50)的改造网络。例如，可以去掉ResNet50最后一层的全连接层(FC)，并加上一层或多层的全连接层、激活层和/或可选的防过拟合层。可选地，所述激活层可以选择ReLU层、Softmax层、Sigmoid层或其他激活层。可选地，防过拟合层可以包括Dropout层。

在一些实施例中，全连接层例如包括有批归一化层。

在一些实施例中，dropout层的比例可设置为0.5。

在一些实施例中，ResNet的构造可以参考He K,Zhang X,Ren S,et al.Deepresidual learning for image recognition[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:770-778，其全部内容通过援引加入本文

在一些实施例中，Dropout层的设置可以参考US9406017B2，其全部内容通过援引加入本文。

在另一些实施例中，所述分类网络子模块520采用其他的可迭代更新参数的特征提取网络。

在一些实施例中，所述分类网络子模块520可以对训练数据(多媒体内容、如图像)进行特征提取。

在一些实施例中，所述降维子模块530可基于多种降维方法实施，优选地，所述降维子模块可以基于线性判别分析(LDA)实施。例如，降维子模块530可以包括LDA子模块和可选的变换模块。在一些实施例中，可以采用其他降维方法，包括但不限于其他线性降维方法，如主成分分析(PCA)、独立成分分析(ICA)、局部保留投影(LPP)、线性因子分析(LFA)等。

在本发明的实施例中，使用训练数据对评估网络模块进行训练可以采用任何机器学习的训练方法。

在一个优选实施例中，可以使用梯度下降方法。可利用前向传播算法(FP)和反向传播算法(BP)，利用损失函数来对评估网络模块进行迭代训练。

结合参考图2和图5，在一些实施例中，所述训练评估网络模块，可以包括下述步骤：

S201：将具有各自标准评估等级的多个训练数据510输入评估网络模块，其中所述标准评估等级为按照标准排序的N个预定评估等级之一，N≥2；

在一些实施例中，在将训练数据输入评估网络模块以进行训练之前，可以包括参数初始化，例如随机初始化评估网络模块的参数。

S202：由分类网络子模块520的输出获得分类结果；

S203：由后续的降维子模块530的输出获得排序结果；

在本发明的实施例中，评估网络模块是层状构造的，由此评估网络模块部分或全部层可以配置成，上一层的输出可以作为下一层的输入和/或上一子网络或子模块的输出可以作为下一子网络或子模块的输入。在一些实施例中，例如，分类网络子模块的输出可以作为降维子模块的输入。但在一些实施例中，可以对上述层结构的输入输出进行适当改造或在评估网络模块中引入其他的连接关系，仍落入本发明的范围内。例如，可以引入向前通道(如ResNet中的哪些)或直通通道。例如，分类网络子模块的临近最后层的层的输出可以作为降维子模块的输入。

S204：基于分类损失函数550，确定所述分类结果与标准评估等级之间的第一差异；

在一些实施例中，所述分类损失函数可以选自交叉熵损失函数、负对数似然损失函数和指数损失函数中任一种。

在一个具体实施例中，所述分类损失函数为交叉熵损失函数。

在一些实施例中，所述分类网络子模块的输出为对应于所述N个(如3个)预定评估等级的概率或置信度(例如归一化为0-1的置信度)。

相应地，训练标签可以以对应的形式表征，如对应于高质量等级的训练标签为[1,0,0]。

由此，可以利用损失函数，确定所述输出和标准评估等级、即训练标签之间的差异。

S205：基于排序损失函数560，确定所述排序结果与标准评估等级对应的标准排序之间的第二差异；

在一些实施例中，所述排序损失函数选自均方误差损失函数、平均绝对值误差损失函数和编辑距离误差损失函数中任一种。

在一个具体实施例中，所述排序损失函数为均方误差损失函数。

在一些实施例中，降维子模块的输出能直接或间接(如经处理)表征预测的排序。由此，降维子模块的输出与训练数据的训练标签的真实排序之间的差异比较可以利用经处理的能表征预测排序和真实排序的数据、如自然数或向量来比较。

S206：基于所述第二差异，迭代更新所述降维子模块的参数；

S207：基于所述第一差异，迭代更新所述分类网络子模块的参数；

S208：达到预定的迭代终止条件时，完成所述评估网络模块的训练。

在本发明实施例中，可以设置预定的迭代终止条件。例如，迭代终止条件包括预设的批次(batches)或遍历次数(epochs)、达到预设的最小损失值和/或其他终止或中断条件，如观察到波动变化时。但可以想到其他的迭代终止条件，这不构成对发明的限制。

在本发明实施例中，通过构造多任务损失，一方面能大幅降低数据获取难度和提高获取的数据的客观度，而且不仅能有效的提升评估性能和精度，而且通过引入标签排序的监督信息来驱动多媒体内容的特征学习，获得更多的语义信息，避免了人为因素影响，以高效的方式自动输出符合客观性质的质量分数。

在本发明的实施例中，所述基于所述第一差异，迭代更新所述分类网络子模块的参数，不排除还可以基于其他变量的可能性。因此，在本发明的实施例中，所述基于所述第一差异，包括仅基于第一差异，也包括基于第一差异和一个或多个其他变量。

进一步地，在一些实施例中，所述步骤S207可以包括：

a)基于所述第一差异和所述第二差异，迭代更新所述分类网络子模块的参数。

在这些优选的实施例中，利用排序损失函数560确定的误差来迭代更新降维子模块，而同时联合利用排序损失函数560确定的误差和分类损失函数550确定的误差来更新分类网络子模块是特别有利的。在分类网络的学习中，不仅利用了基于等级的图像分类标签学习图像特征，还引入标签排序的监督信息来驱动分类学习，能在分类学习获得更多的语义信息，驱动多媒体内容的评估模型更高效、更准确的评估。

在一些优选实施例中，所述基于所述第一差异和第二差异是指，基于两个损失函数的误差均值来迭代更新分类网络子模块。

在一些优选的实施例中，所述训练和/或评估是多通道的。例如，通过分批输入训练数据来进行训练，每批包括多个训练数据。

在进一步的具体实施例中，所述训练评估网络模块，包括：

S301：将多个训练数据分批输入所述评估网络模块；

在一些实施例中，例如每批为128个训练数据。

S302：针对同批次的训练数据，由分类网络子模块的批量输出获得分类结果；

在一些实施例中，例如可以利用多通道的FP算法并行获得同批次训练数据的分类子网络的输出。

S303：针对同批次的训练数据，由后续的降维子模块的批量输出确定所述N个预定评估等级各自的输出均值，以所述N个预定评估等级各自的输出均值排序作为所述排序结果；

在一些实施例中，降维子模块、如线性判别分析子模块的输入可以为分类网络子模块的输出或中间输出，如最后一层的前一层的输出，这落入本发明的范围内。

S304：基于所述分类损失函数，确定所述同批次的训练数据的分类结果与所述同批次的训练数据的标准评估等级之间的第一差异；

在一些实施例中，所述分类损失函数为交叉熵损失函数。

在一个具体实施例中，所述分类损失函数为：

其中，公式1的x为分类网络子模块的输出，class为真实的评估等级、如质量等级标签。

S305：基于所述排序损失函数，确定所述同批次的训练数据的排序结果与所述同批次的训练数据的标准评估等级对应的标准排序之间的差异为第二差异；

在本发明的一个实施例中，所述输出均值排序可以如此地确定：

b)在同批次中，针对属于同一预定评估等级(如高质量等级)的所有值求均值；

c)按照均值的大小来作为评估等级的“预测”(分数)排序。

由此，可以相应地确定S305所述的差异：

d)对比“预测”排序和真实排序。

在一些优选实施例中，“预测”(分数)排序可以仅体现排序。

例如，在一些实施例中，高中低的均值分别为(0.5,0.6,0.2),即中质量等级的均值最高，那么由此确定的“预测”排序为(1,2,0)，而高中低真实顺序等级为(2,1,0)。

但在另一些实施例中，“预测”(分数)排序还可同时体现均值和分数，这落入发明范围内。

在一个实施例中，所述排序损失函数为均方误差损失函数。

在一个具体实施例中，排序损失函数为：

其中，公式2的x为输入的各个等级顺序，x∈R^3×1，y为真实等级顺序(例如：高>中>低，对应真实标记y＝(2,1,0))。

S306：基于所述第二差异，迭代更新所述降维子模块的参数；

S307：基于所述第一差异和第二差异，迭代更新所述分类网络子模块的参数。

在一些具体实施例中，在训练网络时，采用批量梯度下降的方法。还例如可以利用多通道的反向传播算法，基于排序损失函数确定的第二差异来迭代更新降维子模块；而基于分类损失函数确定的第一差异和排序损失函数确定的第二差异来迭代更新分类子模块。

在一些实例中，学习率设置为0.01，动量参数设置为0.09，学习率衰减值为0.1。在一个具体实施例中，根据数据集大小，迭代70次遍历，且当观察到损失值不再下降，处于波动变化的情况时，提前停止迭代训练。

S102：将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将所述评估网络模块输出输入所述后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数。

在一些实施例中，所确定的后处理参数是简单地确定例如归一化参数。

但在一些优选的实施例中，所述确定后处理参数可以包括利用训练好的评估网络模块来进行分类、估计、拟合等处理方法来进行确定。

参考图3和图6，所述将多个图片数据输入训练好的评估网络模块从而得到对应的评估网络模块输出，将所述评估网络模块输出进行变换处理，确定后处理参数，包括以下方法步骤：

f1)将多个图片数据输入所述训练好的评估网络模块，获得对应所述多个图片数据的多个评估网络模块输出；

在一些实施例中，所述图片数据是用于后处理的图片数据，也可称为后处理训练数据。

在一些优选实施例中，与上述用于训练评估网络模块的训练数据相同地，所述图片数据也具有标准评估等级作为训练标签。

更优选地，所述图片数据来自上述评估训练集或评估训练集包含所述图片数据或者评估训练集的训练数据与所述图片数据有重合，或者相反。

在另一些实施例中，所述图片数据可以不带标准评估等级作为训练标签，而例如可以借助评估网络模块中的分类子模块确定各评估等级的聚类。

在一些实施例中，图片数据是由多媒体内容变换得到的。在一些实施例中，图片数据是通过对多媒体内容进行预处理得到的。

作为示例而非限制性地，所述多媒体内容为具有标准评估等级作为训练标签的音频或音频片段，所述变换或预处理可以包括对所述音频或音频片段进行变换处理、如短时傅里叶变换以生成频谱图。

作为示例而非限制性地，所述多媒体内容为具有标准评估等级作为训练标签的视频或视频片段、如短视频，所述变换或预处理可以包括从所述视频或视频片段中提取一个或多个图片帧。

作为示例而非限制性地，所述多媒体内容为具有标准评估等级作为训练标签的视频或视频片段、如短视频，所述图片数据是所述视频或视频片段、如短视频的代表性图片帧，例如短视频作品的封面图片。

由此，在一些实施例中，这些多媒体内容或数据可以以图片数据的形式或经处理成图片数据的形式输入训练好的网络模块中。

f2)利用所述多个评估网络模块输出，估计对应于N个评估等级的N个初始概率密度函数，确定所述N个初始概率密度函数的参数；

在一些实施例中，可以利用极大似然法或其他估计方法估计各评估等级、如各质量等级的初始概率密度函数。尽管不受理论之约束，可以考虑各训练数据是独立的，因此对于同一评估等级的输出值可以符合高斯分布；但可以想到采用其他的分布。

在一些实施例中，所述N个初始概率密度函数的参数为其均值和方差(μ0,σ0)、(μ1,σ1)、(μ2,σ2)。

f3)基于预定的概率密度函数重叠度，平移所述N个初始概率密度函数，获得N个平移后的概率密度函数，确定所述N个平移概率密度函数的参数。

在一些实施例中，所述N个平移概率密度函数的参数为其均值和方差(μ0’,σ0’)、(μ1’,σ1’)、(μ2’,σ2’)。

参考图6，在一个实施例中，例如当多个图片数据610输入包括分类网络子模块620和降维子模块630后，可得到对应所述多个训练数据的多个输出640。所述多个输出可以进行本发明实施例所述的后处理640。所述后处理例如包括，基于其评估等级(如训练标签或者由评估网络模块中间值获得)估计对应N个(3个)评估等级、如质量等级(低、中、高)的初始概率密度函数，并确认其参数，如均值和方差。由此，可以基于预定的重叠度，并且在以最大值为基准后，对所述初始概率密度函数进行平移，以获得N个(3个)平移概率密度函数。在一些实施例中，基于预定重叠度的前提下，可以采用其他的平移手段，例如基于某概率函数的均值(如中等级的均值)为基准或以最小值为基准。一些实施例中，不同分布的重叠度可以是相同或不同的，这落入本发明范围内。

在所示的实施例中，针对各分布取0.3％(99.7％和0.3％，3倍方差范围)重叠。如图7A-7D所示，当以最大值(高质量等级最大值)为基准固定后，中和低质量等级对应的初始概率密度函数以3倍方差为重叠度平移。

如图7A-7B所示，中质量等级对应的初始概率密度函数向右平移靠近高质量等级对应的初始概率密度函数，实现3倍方差的重叠度，得到对应高和中质量等级的平移概率密度函数。如图7C-7D所示，中质量等级对应的初始概率密度函数向左平移远离高质量等级对应的初始概率密度函数，实现3倍方差的重叠度，得到对应高和中质量等级的平移概率密度函数。

类似地，如图7A-7B所示，低质量等级对应的初始概率密度函数向右平移靠近中质量等级对应的平移概率密度函数，实现3倍方差的重叠度，得到对应低质量等级的平移概率密度函数。如图7C-7D所示，低质量等级对应的初始概率密度函数向左平移远离中质量等级对应的平移概率密度函数，实现3倍方差的重叠度，得到对应低质量等级的平移概率密度函数。

在进一步的具体实施例中，所述后处理还可以包括：

f4)基于所述N个平移概率密度函数的参数，确定最大值和最小值。

由此，在所示的实施例中，借助平移后的N个平移概率密度函数，能由原最大值max和最小值min确定新的最大值max和最小值min’。

这令人惊奇地发现，在这些实施例中，即使仅使用具有等级标签的训练数据，也能获得高效、准确的评估模型，尤其对于人工难以分辨的介于不同等级之间的多媒体内容仍然具有明显且准确的区分度。

在进一步的具体实施例中，所述后处理还可以包括：

f5)基于所述最大值和最小值，确定用于归一化至预定的连续评分范围的归一化参数。

在一些实施例中，所述连续评分范围为[0-10]。由此，在一些实施例中，可以根据所述平移后的最大值和最小值来设置归一化参数使得连续评分范围为[0-10]。

进一步地，在本发明实施例中，可以相应地提供一种多媒体内容的评估方法。在本发明实施例中，所述评估方法可以由根据本发明任一实施例的训练方法训练的多媒体内容评估模型实施。

在本发明实施例中，还可以提供一种多媒体内容的评估方法。在一些实施例中，该评估方法也可以作为验证方法。

在本发明实施例中，如图4和图8所示，多媒体内容的评估方法包括：

S401：利用训练好的评估网络模块接收多媒体内容810作为输入，获得评估网络模块输出作为中间值840；

在一些实施例中，多媒体内容或数据可以以图片数据的形式或经处理成图片数据的形式输入经训练的网络模块中，例如可以类似于训练方法实施例所述的那样。

在一些实施例中，如图8所示，所述评估网络模块包括分类网络子模块820和后续的降维子模块830。

在一些实施例中，所述评估网络模块配置成使用任一本发明实施例所述的训练方法进行训练，例如上文所述的那些，在此不赘述。

S402：利用后处理单元对所述中间值进行后处理850，获得位于预定的连续评分范围内的最终评估值860。

在一些实施例中，所述最终评估值860例如是位于前述连续评分范围、如[0-10]的值。

在一些实施例中，所述对所述中间值进行后处理，包括：

g)利用本发明实施例的训练方法所确定的后处理参数，对所述中间值进行后处理。

在一些实施例中，所述后处理参数可以是利用前述训练方法、用训练好的评估网络模块所确定的那些。

在一些实施例中，所述后处理参数可以包括：对应于N个预定评估等级的N个初始概率密度函数的参数，如均值和方差；对应于N个预定评估等级的N个平移概率密度函数的参数，如均值和方差；以及可选的归一化参数。

结合前述实施例，所述N个初始概率密度函数的参数可以由多个图片数据输入所述训练好的评估网络模块所确定；

结合前述实施例，所述N个平移概率密度函数的参数由预定的概率密度函数重叠度确定。

在一些实施例中，平移前后的最大值和最小值也可以由初始概率密度函数和平移概率密度函数确定。

在一些实施例中，利用本发明实施例的训练方法所确定的后处理参数，对所述中间值进行后处理，包括：

g1)基于所述N个初始概率密度函数的参数，确定所述中间值在N个预定评估等级下的N个概率值；

g2)确定所述N个概率值中的最大概率值所对应的评估等级，确定最大概率值对应的平移概率密度函数；

g3)基于所述N个平移概率密度函数的参数，确定在所述最大概率值对应的平移概率密度函数中所述最大概率值所对应的分值。

g4)可选地，利用归一化参数对所述分值进行归一化处理，获得所述位于预定的连续评分范围内的最终评估值。

在一些实施例中，所述多媒体内容包括图像、视频和/或音频。

在进一步的实施例中，还可以提供包括所述评估方法的方法。

例如，在一些实施例中，提供一种处理多媒体内容、如短视频的方法，包括：响应于由本发明实施例的评估方法所获得的评估结果，将具有特定评估值的多媒体内容、如短视频进行特定操作，例如降低或提高推送权重、屏蔽多媒体内容等。

例如，在一些实施例中，提供一种推送多媒体内容的方法，包括：响应于由本发明实施例的评估方法所获得的评估结果，向特定或全部用户推送具有特定评估值的多媒体内容。

在一些实施例中，提供一种多媒体内容评估模型的训练系统，包括：评估网络训练单元，配置成训练评估网络模块；后处理配置单元，配置成将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将所述评估网络模块输出输入所述后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数；所述评估网络训练单元包括：输入单元，配置成将具有各自标准评估等级的多个训练数据输入所述评估网络模块，其中所述标准评估等级为按照标准排序的N个预定评估等级之一，N≥2；第一获取单元，配置成由所述分类网络子模块的输出获得分类结果；第二获取单元，配置成由所述后续的降维子模块的输出获得排序结果；第一确定单元，配置成基于分类损失函数确定所述分类结果与标准评估等级之间的第一差异；第二确定单元，配置成基于排序损失函数确定所述排序结果与标准评估等级对应的标准排序之间的第二差异；第一迭代单元，配置成基于所述第二差异迭代更新所述降维子模块的参数；第二迭代单元，配置成基于所述第一差异迭代更新所述分类网络子模块的参数；迭代终止单元，配置成达到预定的迭代终止条件时，完成所述评估网络模块的训练。

在本发明实施例中，如图9所示，示出一种多媒体内容评估模型的训练系统900，其包括：评估网络训练单元910和后处理配置单元920。

所述评估网络训练单元910配置成训练评估网络模块。

所述后处理配置单元920配置成将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将所述评估网络模块输出输入所述后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数。

在一些实施例中，所述评估网络训练单元910包括输入单元911，配置成将具有各自标准评估等级的多个训练数据输入所述评估网络模块。其中所述标准评估等级为按照标准排序的N个预定评估等级之一，N≥2。

在一些实施例中，所述评估网络训练单元910包括第一获取单元912，配置成由所述分类网络子模块的输出获得分类结果。

在一些实施例中，所述评估网络训练单元910包括第二获取单元913，配置成由所述后续的降维子模块的输出获得排序结果。

在一些实施例中，所述评估网络训练单元910包括第一确定单元914，配置成基于分类损失函数确定所述分类结果与标准评估等级之间的第一差异。

在一些实施例中，所述评估网络训练单元910包括第二确定单元915，配置成基于排序损失函数确定所述排序结果与标准评估等级对应的标准排序之间的第二差异。

在一些实施例中，所述评估网络训练单元910包括第一迭代单元916，配置成基于所述第二差异迭代更新所述降维子模块的参数。

在一些实施例中，所述评估网络训练单元910包括第二迭代单元917，配置成基于所述第一差异迭代更新所述分类网络子模块的参数。

在一些实施例中，所述评估网络训练单元910包括迭代终止单元918，配置成达到预定的迭代终止条件时，完成所述评估网络模块的训练。

在一些优选实施例中，所述第二迭代单元917配置成基于所述第一差异和第二差异迭代更新所述分类网络子模块的参数。

在一些实施例中，所述训练系统可以结合任一实施例的训练方法的特征，反之亦然，在此不赘述。

在一些实施例中，所述训练系统可以部分或全部地由各种机器学习平台/框架提供或实现。类似地，在一些实施例中，训练方法可以部分或全部地由各种机器学习平台实现。

在一些实施例中，所述机器学习平台/框架包括但不限于PyTorch、TensorFlow、Caffe、Keras、Amazon Machine Learning、Azure Machine Learning Studio等。

在本发明实施例中，如图10所示，示出一种多媒体内容评估装置，其包括训练好的评估网络模块1010和后处理单元1020。

所述训练好的评估网络模块1010包括分类网络子模块和后续的降维子模块。所述评估网络模型1010配置成接收多媒体内容作为输入，获得评估网络模块输出作为中间值；

后处理单元1020配置成对所述中间值进行后处理，获得位于预定的连续评分范围内的最终评估值。

在一些实施例中，所述多媒体内容评估装置可以结合任一实施例的训练方法和系统以及评估方法的特征，反之亦然，在此不赘述。

在本发明实施例中，提供一种电子设备，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行任一本发明实施例的多媒体内容评估模型的训练方法。

图11示出了一种可以实施本发明实施例的方法或实现本发明实施例的电子设备1100的示意图，在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中，可以利用单个或多个电子设备实施。在一些实施例中，可以利用云端或分布式的电子设备实施。

如图11所示，电子设备1100包括中央处理器(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序和/或数据或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序和/或数据而执行各种适当的操作和处理。CPU 1101可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，CPU 1101可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 1103中，还存储有电子设备1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

上述处理器与存储器共同用于执行存储在存储器中的程序，所述程序被计算机执行时能够实现上述各实施例描述的多媒体内容评估模型的训练方法、评估方法的步骤或功能。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。图11中仅示意性示出部分组件，并不意味着计算机系统1100只包括图11所示组件。

上述实施例阐明的系统、装置、模块或单元，可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合。

在优选的实施例中，所述训练系统和方法可以至少部分或全部在云端的机器学习平台或者部分或全部地在自搭建的机器学习系统、如GPU阵列中实施或实现。

在优选的实施例中，所述评估装置和方法可以在服务器、例如云端或分布式服务器中实施或实现。在优选实施例中，还可以借助服务器，基于评估结果向中断推送或发送数据或内容。

尽管未示出，在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的多媒体内容评估模型的训练方法。

尽管未示出，在本发明实施例中，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序配置成被运行时执行任一本发明实施例的多媒体内容的评估方法。

在本发明的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

在本发明的实施例的方法、程序、系统、装置等，可以在单个或多个连网的计算机中执行或实现，也可以在分布式计算环境中实践。在本说明书实施例中，在这些分布式计算环境中，可以由通过通信网络而被连接的远程处理设备来执行任务。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本领域技术人员可想到，上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现，可以用软件、硬件和软/硬件结合的方式实现。

除非明确指出，根据本发明实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本文中，针对本发明的多个实施例进行了描述，但为简明起见，各实施例的描述并不是详尽的，各个实施例之间相同或相似的特征或部分可能会被省略。在本文中，“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本发明的至少一个实施例或示例中，而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

已参考上述实施例具体示出并描述了本发明的示例性系统及方法，其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本发明的精神及范围。

Claims

1.一种多媒体内容评估模型的训练方法，其特征在于，所述多媒体内容评估模型包括评估网络模块和后处理单元，所述评估网络模块包括分类网络子模块和后续的降维子模块，所述训练方法包括：

训练评估网络模块，包括：

由所述分类网络子模块的输出获得分类结果，

由所述后续的降维子模块的输出获得排序结果，

基于所述第二差异，迭代更新所述降维子模块的参数，

基于所述第一差异，迭代更新所述分类网络子模块的参数，

2.根据权利要求1所述的训练方法，其特征在于，所述基于所述第一差异，迭代更新所述分类网络子模块的参数，包括：

基于所述第一差异和第二差异，迭代更新所述分类网络子模块的参数。

3.根据权利要求2所述的训练方法，其特征在于，所述训练评估网络模块，包括：

将所述多个训练数据分批输入所述评估网络模块；

针对同批次的训练数据，由所述分类网络子模块的批量输出获得所述分类结果；

针对所述同批次的训练数据，由所述后续的降维子模块的批量输出确定所述N个预定评估等级各自的输出均值，以所述N个预定评估等级各自的输出均值排序作为所述排序结果；

基于所述分类损失函数，确定所述同批次的训练数据的分类结果与所述同批次的训练数据的标准评估等级之间的第一差异；

基于所述排序损失函数，确定所述同批次的训练数据的排序结果与所述同批次的训练数据的标准评估等级对应的标准排序之间的差异为第二差异；

基于所述第二差异，迭代更新所述降维子模块的参数；

基于所述第一差异和第二差异，迭代更新所述分类网络子模块的参数，

4.根据权利要求1至3中任一项所述的训练方法，其特征在于，所述分类损失函数选自交叉熵损失函数、负对数似然损失函数和指数损失函数中任一种；和/或

所述排序损失函数选自均方误差损失函数、平均绝对值误差损失函数和编辑距离误差损失函数中任一种。

5.根据权利要求1至3中任一项所述的训练方法，其特征在于，所述将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将所述评估网络模块输出输入所述后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数，包括：

将多个图片数据输入所述训练好的评估网络模块，获得对应所述多个图片数据的多个评估网络模块输出；

利用所述多个评估网络模块输出，估计对应于所述N个预定评估等级的N个初始概率密度函数，确定所述N个初始概率密度函数的参数；

基于预定的概率密度函数重叠度，平移所述N个初始概率密度函数，获得N个平移后的概率密度函数，确定所述N个平移概率密度函数的参数。

6.根据权利要求5所述的训练方法，其特征在于，所述将多个图片数据输入训练好的评估网络模块获得评估网络模块输出，并将所述评估网络模块输出输入所述后处理单元进行处理，以确定用于将评估网络模块输出变换为最终评估值的后处理参数，还包括：

基于所述N个平移概率密度函数的参数，确定最大值和最小值；

基于所述最大值和最小值，确定用于归一化至预定的连续评分范围的归一化参数。

7.根据权利要求1至3中任一项所述的训练方法，其特征在于，所述预定评估等级为3个，包括多媒体内容的高质量等级、中质量等级和低质量等级。

8.一种多媒体内容的评估方法，其特征在于，所述评估方法由根据权利要求1至7中任一项所述的训练方法训练的多媒体内容评估模型实施，所述评估方法包括：

9.一种多媒体内容评估装置，其特征在于，包括：

其中，所述评估网络模块配置成，在被训练时：

由所述分类网络子模块的输出获得分类结果，

由所述后续的降维子模块的输出获得排序结果，

基于所述第二差异，迭代更新所述降维子模块的参数，

基于所述第一差异，迭代更新所述分类网络子模块的参数，

10.一种电子设备，其特征在于，包括：处理器和存储有计算机程序的存储器，所述处理器被配置为在运行计算机程序时执行权利要求8所述的多媒体内容的评估方法。