CN112669270A

CN112669270A - 视频质量的预测方法、装置及服务器

Info

Publication number: CN112669270A
Application number: CN202011522537.6A
Authority: CN
Inventors: 鲁方波; 汪贤; 樊鸿飞; 蔡媛
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-04-16

Abstract

本发明提供了一种视频质量的预测方法、装置及服务器，涉及神经网络技术领域，包括：获取待预测视频数据；通过特征提取网络对待预测视频数据进行特征提取，得到待预测视频数据的多层视频特征；基于各层视频特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。本发明可以有效提高视频质量预测结果的准确程度。

Description

视频质量的预测方法、装置及服务器

技术领域

本发明涉及神经网络技术领域，尤其是涉及一种视频质量的预测方法、装置及服务器。

背景技术

随着多媒体技术的发展，网络数据(比如图片、视频、文字等)呈现爆炸式增长。其中，视频作为信息传播的主要载体，在视频采集、编码、传输等环节通常面临着很多质量损失，然而低质量视频会严重降低人眼视觉观感，因此，如何有效预测视频质量具有非常重要的意义。目前，相关技术中提出基于人工方式或深度学习方式提取视频的特征对视频质量进行预测，对于基于深度学习方式提取视频的特征对视频质量进行预测这一方式，通常仅对最后一层特征图求取全局平均池化特征，并基于全局平均池化特征得到视频的质量预测结果，但是由于最后一层特征图不足以表征视频质量特征，因此将导致视频的质量预测结果存在准确度较差的问题。

发明内容

有鉴于此，本发明的目的在于提供一种视频质量的预测方法、装置及服务器，可以有效提高视频质量预测结果的准确程度。

第一方面，本发明实施例提供了一种视频质量的预测方法，包括：获取待预测视频数据；通过特征提取网络对所述待预测视频数据进行特征提取，得到所述待预测视频数据的多层视频特征；其中，各层所述视频特征分别用于表征所述待预测视频数据的低层特征或高层特征；基于各层所述视频特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果。

在一种实施方式中，所述特征提取网络包括多个卷积层；所述通过特征提取网络对所述待预测视频数据进行特征提取，得到所述待预测视频数据的多层视频特征的步骤，包括：将所述待预测视频数据输入至所述特征提取网络，将所述特征提取网络中各个指定卷积层基于所述待预测视频数据输出的特征，作为所述待预测视频数据的多层视频特征。

在一种实施方式中，所述基于各层所述视频特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果的步骤，包括：通过金字塔池化网络对各层所述视频特征分别进行池化处理，得到各层所述视频特征分别对应的多个金字塔池化特征；通过视频质量评价网络基于各个所述金字塔池化特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果。

在一种实施方式中，所述金字塔池化网络包括均值池化子网络、最大值池化子网络和标准差池化子网络；所述金字塔池化特征包括均值池化特征、最大值池化特征和标准差池化特征；所述通过金字塔池化网络对各层所述视频特征分别进行池化处理，得到各层所述视频特征分别对应的多个金字塔池化特征的步骤，包括：通过所述均值池化子网络对各层所述视频特分别进行均值池化处理，得到各层所述视频特征分别对应的多个均值池化特征；以及，通过所述最大值池化子网络对各层所述视频特征分别进行最大值池化处理，得到各层所述视频特征分别对应的多个最大值池化特征；以及，通过所述标准差池化子网络对各层所述视频特征分别进行标准差池化处理，得到各层所述视频特征分别对应的多个标准差池化特征。

在一种实施方式中，所述视频质量评价网络包括前馈质量评价网络，所述前馈质量评价网络包括多个全连接组和一个第一全连接层，每个所述全连接组均包括相连的第二全连接层、激活层、归一化层和Dropout层；所述通过视频质量评价网络基于各个所述金字塔池化特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果的步骤，包括：将各个金字塔池化特征进行平均处理，得到平均处理后的金字塔池化特征；将所述平均处理后的金字塔池化特征输入至所述前馈质量评价网络，以使所述前馈质量评价网络基于所述平均处理后的金字塔池化特征输出所述待预测视频数据的视频质量结果。

在一种实施方式中，所述视频质量评价网络包括长短期记忆质量评价网络，所述长短期记忆质量评价网络包括多个长短期记忆子网络和一个第三全连接层；所述通过视频质量评价网络基于各个所述金字塔池化特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果的步骤，包括：将各个所述金字塔池化特征输入至所述长短期记忆质量评价网络，以使所述长短期记忆质量评价网络基于各个所述金字塔池化特征输出所述待预测视频数据的视频质量结果。

在一种实施方式中，所述视频质量评价网络的训练步骤，包括：获取训练视频数据；通过特征提取网络对所述训练视频数据进行特征提取，得到所述训练视频数据的多层视频特征信息；通过所述金字塔池化网络对各层所述视频特征信息分别进行池化处理，得到各层所述视频特征信息分别对应的多个池化特征信息；获取各个所述池化特征信息的主观质量打分；基于各个所述池化特征信息和各个所述池化特征信息对应的主观质量打分对视频质量评价网络进行训练。

第二方面，本发明实施例还提供一种视频质量的预测装置，包括：数据获取模块，用于获取待预测视频数据；特征提取模块，用于通过特征提取网络对所述待预测视频数据进行特征提取，得到所述待预测视频数据的多层视频特征；其中，各层所述视频特征分别用于表征所述待预测视频数据的低层特征或高层特征；质量预测模块，用于基于各层所述视频特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果。

第三方面，本发明实施例还提供一种服务器，包括处理器和存储器；所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法。

第四方面，本发明实施例还提供一种计算机存储介质，用于储存为第一方面提供的任一项所述方法所用的计算机软件指令。

本发明实施例提供的一种视频质量的预测方法、装置及服务器，包括：首先获取待预测视频数据，然后通过特征提取网络对待预测视频数据进行特征提取，得到待预测视频数据的多层视频特征，再基于各层视频特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果，其中，各层视频特征分别用于表征待预测视频数据的低层特征或高层特征。上述方法通过特征提取网络提取得到待预测视频数据的多层视频特征，再基于各层视频特征预测得到待预测视频数据的视频质量结果，相较于现有技术中仅基于最后一层特征图对视频质量进行预测的方式，本发明实施例在多层视频特征的基础上预测视频质量，可以充分利用待预测视频数据的低层特征和高层特征，从而可以预测得到更高准确度的视频质量结果。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频质量的预测方法的流程示意图；

图2为本发明实施例提供的一种特征提取网络和金字塔池化网络的连接示意图；

图3为本发明实施例提供的一种金字塔池化网络的结构示意图；

图4为本发明实施例提供的一种前馈质量评价网络的结构示意图；

图5为本发明实施例提供的一种长短期记忆质量评价网络的结构示意图；

图6为本发明实施例提供的一种视频质量的预测装置的结构示意图；

图7为本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，现有的无参考视频质量评估方式主要分为两类：一类是传统方法，诸如NIQE(Natural image quality evaluator，图像质量评价)算法或BRIQUE算法等，该类方法主要是基于人工提取的特征或对数据进行建模处理，从而得到相应的质量评估模型；另一类是基于深度学习的方法，深度学习方法不需要人工提取特征，只需要构建一个大规模数据集及对应主观评分标注即可，然后基于神经网络提取的特征输入到质量评价网络中得到质量分数。但是，现有基于深度学习的质量评估方法多是基于对最后一层特征图求取全局平均池化特征，但是仅通过某一层特征图不足以表征视频质量特性，因此现有的视频质量评估方法评估得到的质量结果存在准确性较差的问题。基于此，本发明实施提供了一种视频质量的预测方法、装置及服务器，可以有效提高视频质量预测结果的准确程度。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频质量的预测方法进行详细介绍，参见图1所示的一种视频质量的预测方法的流程示意图，该方法主要包括以下步骤S102至步骤S106：

步骤S102，获取待预测视频数据。在一种实施方式中，可以通过具有拍摄功能的电子设备采集视频数据，诸如通过摄像机或智能手机等进行拍摄得到视频数据，也可以直接接收人为上传或网络下载的视频数据，例如，向用户提供上传通道，用户可自行选择并上传需要预测视频质量的视频数据。

步骤S104，通过特征提取网络对待预测视频数据进行特征提取，得到待预测视频数据的多层视频特征。其中，各层视频特征分别用于表征待预测视频数据的低层特征或高层特征，低层特征可以代表待预测视频数据中较低层次的特征，诸如边缘特征和细节纹理特征等，高层特征可以代表抽象的语义特征，特征提取网络可以采用CNN(ConvolutionalNeural Network，卷积神经网络)，例如，ResNet50(Residual Neural Network 50，残差网络)或VGG19(Visual Geometry Group 19，计算机视觉组合)等CNN网络，特征提取网络可以包括多个卷积层，可选的，可将指定卷积层输出的特征作为视频特征，如果指定卷积层的数量为多个，则将得到待预测视频数据的多层视频特征。

步骤S106，基于各层视频特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。其中，视频质量结果可以用于表征待预测视频数据的质量高低。在一种实施方式中，可以对各层视频特征分别进行金字塔池化处理，得到各层视频特征分别对应的金字塔池化特征，从而及与各个金字塔池化特征对待预测视频数据的视频质量进行预测，得到视频质量结果。

本发明实施例提供的视频质量的预测方法，通过特征提取网络提取得到待预测视频数据的多层视频特征，再基于各层视频特征预测得到待预测视频数据的视频质量结果，相较于现有技术中仅基于最后一层特征图对视频质量进行预测的方式，本发明实施例在多层视频特征的基础上预测视频质量，可以充分利用待预测视频数据的低层特征和高层特征，从而可以预测得到更高准确度的视频质量结果。

在一种实施方式中，特征提取网络包括多个卷积层。考虑到待预测视频数据的低层特征和高层特征均对视频质量的预测结果产生结果，因此本发明实施例提供了一种通过特征提取网络对待预测视频数据进行特征提取，得到待预测视频数据的多层视频特征的实施方式，可以将待预测视频数据输入至特征提取网络，将特征提取网络中各个指定卷积层基于待预测视频数据输出的特征，作为待预测视频数据的多层视频特征，由于该多层视频特征可以包括低层特征和高层特征，而低层特征通常代表视频中较低层次的特征信息，如边缘信息或细节纹理信息等，高层特征通常代表的是视频帧数据抽象的语义特征，待预测视频数据的主观质量好坏除了与视频内容及视频场景相关，也与上述低层特征和高层特征相关，因此本发明实施例基于多层视频特征得到的视频质量结果具有较高的准确度。以特征提取网络采用CNN网络为例，将视频帧数据(也即，上述待预测视频数据)输入至预训练的CNN网络中得到多层初级特征(也即，上述视频特征)，由于CNN网络的前两层卷积层提取得到的初级特征一般较为基础，另外Resnet50等网络的最后一层为分类层，因此实际使用时可以将除CNN网络中前两层卷积层和最后一层分类层以外的卷积层输出的特征作为待预测视频数据的多层视频特征。

本发明实施例提供了一种基于各层视频特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果的实施方式，参见如下步骤1至步骤2：

步骤1，通过金字塔池化网络对各层视频特征分别进行池化处理，得到各层视频特征分别对应的多个金字塔池化特征。其中，金字塔池化网络的输入为各层视频特征，金字塔池化网络的输出为金字塔池化特征。为便于理解，本发明实施例示例性提供了一种通过金字塔池化网络得到金字塔池化特征的实施方式，现以特征提取网络提取到待预测视频数据的5层视频特征为例进行说明，参见图2所示的一种特征提取网络和金字塔池化网络的连接示意图，特征提取网络包括1个卷积层conv和5个卷积层(Layer1至Layer5)，Layer1、Layer2、Layer3、Layer4、Layer5分别与一个金字塔池化网络PyPooling连接，各个金字塔池化网络输出的金字塔池化特征也可称之为MLMS Features(multi layer multi spatialpyramid polling，多尺度金字塔池化特征)。

在一种实施方式中，本发明实施例进一步提供了一种金字塔池化网络，参见图3所示的一种金字塔池化网络的结构示意图，金字塔池化网络包括均值池化子网络(Meanpooling)、最大值池化子网络(Max pooling)和标准差池化子网络(Std pooling)，且均值池化子网络、最大值池化子网络和标准差池化子网络均包括多种参数的池化层，以均值池化子网络为例，可以包括4*4pooling，2*2pooling，1*1pooling三种参数的池化层。在实际应用中，对于每层视频特征，分别通过上述均值池化子网络、最大值池化子网络和标准差池化子网络对该层视频特征进行特征提取，得到3*(4*4+2*2+1*1)＝3*21维的金字塔池化特征，如果特征提取网络提取到的视频特征的数目为m，则通过上述方法提取后可以得到m*(3*21)个金字塔池化特征。另外，均值池化子网络、最大值池化子网络和标准差池化子网络的输入均为上述各层视频特征，均值池化子网络的输出为均值池化特征，最大值池化子网络的输出为最大值池化特征，标准差池化子网路的输出为标准差池化特征，也即上述金字塔池化特征包括均值池化特征、最大值池化特征和标准差池化特征。

在图3的基础上，本发明实施例提供了一种上述步骤1的具体实施方式，参加如下(1)至(3)：

(1)通过均值池化子网络对各层视频特分别进行均值池化处理，得到各层视频特征分别对应的多个均值池化特征；(2)通过最大值池化子网络对各层视频特征分别进行最大值池化处理，得到各层视频特征分别对应的多个、最大值池化特征；(3)通过标准差池化子网络对各层视频特征分别进行标准差池化处理，得到各层视频特征分别对应的多个标准差池化特征。本发明实施例对各个子网络对视频特进行池化处理的顺序不进行限定，具体可基于实际需求进行设置。

步骤2，通过视频质量评价网络基于各个金字塔池化特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。其中，视频质量评价网络的输入为金字塔池化特征，视频质量评价网络的输出为视频质量结果。在一种可选的实施方式中，视频质量评价网络可以采用前馈质量评价网络(VQA-FF，Visual Question Answer-Feed Forward)或长短期记忆质量评价网络(VQA-LSTM，Visual Question Answer-Long Short TermMemory)，其中，前馈质量评价网络不考虑时序信息的神经网络，可应用于视频内容切换较少或视频帧质量波动较小的场景，长短期记忆质量评价网络则是考虑时序信息的神经网络，将金字塔池化特征按照特征输入形式输入至前馈质量评价网络或长短期记忆质量评价网络中即可得到视频质量结果，其中，特征输入形式可以为不考虑时序信息的输入形式(诸如，将金字塔池化特征的均值输入至前馈质量评价网络)或考虑时序信息的输入形式(诸如，将金字塔池化特征按照时序输入至长短期记忆质量评价网络)，本发明实施例示例性提供了以下两种确定待预测视频数据的视频质量结果的方式：

方式一：通过前馈质量评价网络基于各个金字塔池化特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。为便于理解，参见图4的一种前馈质量评价网络的结构示意图，前馈质量评价网络包括多个全连接组(FC Block)和一个第一全连接层(FC，fully connected)，每个全连接组均包括相连的第二全连接层(FC)、激活层(ReLU，Rectifiedlinearunit)、归一化层(Batch Norm)和Dropout层。基于图4所示的前馈质量评价网络，本发明实施例在确定待预测视频数据的视频质量结果时，可以将各个金字塔池化特征进行平均处理，得到平均处理后的金字塔池化特征(Avg Features)，然后将平均处理后的金字塔池化特征输入至前馈质量评价网络，以使前馈质量评价网络基于平均处理后的金字塔池化特征输出待预测视频数据的视频质量结果。在实际应用中，首先将待预测视频数据所有金字塔池化特征进行平均，假设每个金字塔池化特征为1*c的特征向量，则100个金字塔池化特征平均之后也得到1*c的特征向量，将该平均之后的特征向量输入到多个全连接组及一个第一全连接层中，即可预测得到视频无参考质量分数(也即，上述视频质量结果)。

方式二，通过长短期记忆质量评价网络基于各个金字塔池化特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。为便于理解，参见图5的一种长短期记忆质量评价网络的结构示意图，长短期记忆质量评价网络包括多个长短期记忆(LSTM)子网络和一个第三全连接(FC)层，基于图5所示的长短期记忆质量评价网络，本发明实施例在确定待预测视频数据的视频质量结果时，可以将各个金字塔池化特征输入至长短期记忆质量评价网络，以使长短期记忆质量评价网络基于各个金字塔池化特征输出待预测视频数据的视频质量结果。在实际应用中，将所有金字塔池化特征输入到多个长短期记忆子网络及一个第三全连接层中，从而可以预测得到视频无参考质量分数，其中，长短期记忆子网络包括但不限于GRU(Gated Recurrent Unit)算法。

在实际应用中，可选择上述方式一或方式二任意一种方式预测视频质量结果，也可结合上述方式一和方式二对视频质量结果进行预测，诸如，将利用方式一所提供的方式确定的视频质量结果和利用方式二所提供的方式确定的视频质量结果进行加权平均，从而通过加权平均结果表征待预测视频数据最终的视频质量结果。

为使视频质量评价网络输出准确度较高的视频质量结果，需要对视频质量评价网络进行训练，本发明实施例提供了一种训练视频质量评价网络的实施方式，参加如下步骤a至步骤e：

步骤a，获取训练视频数据。

步骤b，通过特征提取网络对训练视频数据进行特征提取，得到训练视频数据的多层视频特征信息。在一种实施方式中，可将特征提取网络中指定卷积层输出的特征作为训练视频数据的多层视频特征信息。

步骤c，通过金字塔池化网络对各层视频特征信息分别进行池化处理，得到各层视频特征信息分别对应的多个池化特征信息。在一种实施方式中，每层视频特征信息均可以输入到金字塔池化网络进行池化处理，具体前参见前述(1)至(3)，本发明实施例在此不再赘述。

步骤d，获取各个池化特征信息的主观质量打分。其中，池化特征信息可以通过特征图的形式体现，并由用户对池化特征信息的质量高低进行打分，即可得到各个池化特征信息对应的主观质量打分。

步骤e，基于各个池化特征信息和各个池化特征信息对应的主观质量打分对视频质量评价网络进行训练。在一种实施方式中，主观质量打分可以理解为池化特征信息的标签，将池化特征信息输入至视频质量评价网络，由视频质量评价网络输出预测打分，从而可以基于主观质量打分和预测打分计算损失值，从而基于损失值对视频质量评价网络的参数进行更新，直至视频质量评价网络满足一定迭代条件即可得到最终的视频质量评价网络。

综上所述，本发明实施例首先将训练视频数据输入到预训练的CNN网络中并提取多层初级特征，并进一步提取各层初级特征的金字塔池化特征，然后按照特征输入形式将各个金字塔池化特征输入到视频质量评价网络(VQA-FF网络或VQA-LSTM网络)中，以主观质量打分作为视频质量评价网络的优化目标并进行网络训练，当视频质量评价网络训练满足一定迭代条件即可得到最终训练好的模型。从而对于任意待预测视频数据，提取金字塔池化特征并输入到VQA-FF网络或VQA-LSTM网络中即可预测得到待预测视频数据的无参考质量分数。本发明实施例将不同层的初级特征融合起来能够对质量评价有更好的特征表征，从而可以显著提升视频质量评价网络的泛化性，使视频质量评价网络对不同待预测视频数据进行质量预测时均具有较佳的性能，而且相较于现有技术中的SOTA(state of the art)方法或SROCC(Spearman rank-order correlation coefficient)方法，视频质量结果的准确度可以提高2-5个百分点。

对于前述实施例提供的视频质量的预测方法，本发明实施例提供了一种视频质量的预测装置，参见图6所示的一种视频质量的预测装置的结构示意图，该装置主要包括以下部分：

数据获取模块602，用于获取待预测视频数据。

特征提取模块604，用于通过特征提取网络对待预测视频数据进行特征提取，得到待预测视频数据的多层视频特征。

质量预测模块606，用于基于各层视频特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。

本发明实施例提供的上述视频质量的预测装置，通过特征提取网络提取得到待预测视频数据的多层视频特征，再基于各层视频特征预测得到待预测视频数据的视频质量结果，相较于现有技术中仅基于最后一层特征图对视频质量进行预测的方式，本发明实施例在多层视频特征的基础上预测视频质量，可以充分利用待预测视频数据的低层特征和高层特征，从而可以预测得到更高准确度的视频质量结果。

在一种实施方式中，特征提取网络包括多个卷积层；特征提取模块604还用于：将待预测视频数据输入至特征提取网络，将特征提取网络中各个指定卷积层基于待预测视频数据输出的特征，作为待预测视频数据的多层视频特征。

在一种实施方式中，质量预测模块606还用于：通过金字塔池化网络对各层视频特征分别进行池化处理，得到各层视频特征分别对应的多个金字塔池化特征；通过视频质量评价网络基于各个金字塔池化特征对待预测视频数据进行质量预测，得到待预测视频数据的视频质量结果。

在一种实施方式中，金字塔池化网络包括均值池化子网络、最大值池化子网络和标准差池化子网络；所述金字塔池化特征包括均值池化特征、最大值池化特征和标准差池化特征；质量预测模块606还用于：通过均值池化子网络对各层视频特分别进行均值池化处理，得到各层视频特征分别对应的多个均值池化特征；以及，通过最大值池化子网络对各层视频特征分别进行最大值池化处理，得到各层视频特征分别对应的多个最大值池化特征；以及，通过标准差池化子网络对各层视频特征分别进行标准差池化处理，得到各层视频特征分别对应的多个标准差池化特征。

在一种实施方式中，视频质量评价网络包括前馈质量评价网络，前馈质量评价网络包括多个全连接组和一个第一全连接层，每个全连接组均包括相连的第二全连接层、激活层、归一化层和Dropout层；质量预测模块606还用于：将各个金字塔池化特征进行平均处理，得到平均处理后的金字塔池化特征；将平均处理后的金字塔池化特征输入至前馈质量评价网络，以使前馈质量评价网络基于平均处理后的金字塔池化特征输出待预测视频数据的视频质量结果。

在一种实施方式中，视频质量评价网络包括长短期记忆质量评价网络，长短期记忆质量评价网络包括多个长短期记忆子网络和一个第三全连接层；质量预测模块606还用于：将各个金字塔池化特征输入至长短期记忆质量评价网络，以使长短期记忆质量评价网络基于各个金字塔池化特征输出待预测视频数据的视频质量结果。

在一种实施方式中，上述装置还包括训练模块，用于：获取训练视频数据；通过特征提取网络对训练视频数据进行特征提取，得到训练视频数据的多层视频特征信息；通过金字塔池化网络对各层视频特征信息分别进行池化处理，得到各层视频特征信息分别对应的多个池化特征信息；获取各个池化特征信息的主观质量打分；基于各个池化特征信息和各个池化特征信息对应的主观质量打分对视频质量评价网络进行训练。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供了一种服务器，具体的，该服务器包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图7为本发明实施例提供的一种服务器的结构示意图，该服务器100包括：处理器70，存储器71，总线72和通信接口73，所述处理器70、通信接口73和存储器71通过总线72连接；处理器70用于执行存储器71中存储的可执行模块，例如计算机程序。

其中，存储器71可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线72可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器71用于存储程序，所述处理器70在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器70中，或者由处理器70实现。

处理器70可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器70中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器70可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器71，处理器70读取存储器71中的信息，结合其硬件完成上述方法的步骤。

本发明实施例所提供的可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见前述方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种视频质量的预测方法，其特征在于，包括：

获取待预测视频数据；

通过特征提取网络对所述待预测视频数据进行特征提取，得到所述待预测视频数据的多层视频特征；其中，各层所述视频特征分别用于表征所述待预测视频数据的低层特征或高层特征；

基于各层所述视频特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果。

2.根据权利要求1所述的方法，其特征在于，所述特征提取网络包括多个卷积层；

所述通过特征提取网络对所述待预测视频数据进行特征提取，得到所述待预测视频数据的多层视频特征的步骤，包括：

将所述待预测视频数据输入至所述特征提取网络，将所述特征提取网络中各个指定卷积层基于所述待预测视频数据输出的特征，作为所述待预测视频数据的多层视频特征。

3.根据权利要求2所述的方法，其特征在于，所述基于各层所述视频特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果的步骤，包括：

通过金字塔池化网络对各层所述视频特征分别进行池化处理，得到各层所述视频特征分别对应的多个金字塔池化特征；

通过视频质量评价网络基于各个所述金字塔池化特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果。

4.根据权利要求3所述的方法，其特征在于，所述金字塔池化网络包括均值池化子网络、最大值池化子网络和标准差池化子网络；所述金字塔池化特征包括均值池化特征、最大值池化特征和标准差池化特征；

所述通过金字塔池化网络对各层所述视频特征分别进行池化处理，得到各层所述视频特征分别对应的多个金字塔池化特征的步骤，包括：

通过所述均值池化子网络对各层所述视频特分别进行均值池化处理，得到各层所述视频特征分别对应的多个均值池化特征；

以及，通过所述最大值池化子网络对各层所述视频特征分别进行最大值池化处理，得到各层所述视频特征分别对应的多个最大值池化特征；

以及，通过所述标准差池化子网络对各层所述视频特征分别进行标准差池化处理，得到各层所述视频特征分别对应的多个标准差池化特征。

5.根据权利要求3所述的方法，其特征在于，所述视频质量评价网络包括前馈质量评价网络，所述前馈质量评价网络包括多个全连接组和一个第一全连接层，每个所述全连接组均包括相连的第二全连接层、激活层、归一化层和Dropout层；

所述通过视频质量评价网络基于各个所述金字塔池化特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果的步骤，包括：

将各个金字塔池化特征进行平均处理，得到平均处理后的金字塔池化特征；

将所述平均处理后的金字塔池化特征输入至所述前馈质量评价网络，以使所述前馈质量评价网络基于所述平均处理后的金字塔池化特征输出所述待预测视频数据的视频质量结果。

6.根据权利要求3所述的方法，其特征在于，所述视频质量评价网络包括长短期记忆质量评价网络，所述长短期记忆质量评价网络包括多个长短期记忆子网络和一个第三全连接层；

将各个所述金字塔池化特征输入至所述长短期记忆质量评价网络，以使所述长短期记忆质量评价网络基于各个所述金字塔池化特征输出所述待预测视频数据的视频质量结果。

7.根据权利要求3所述的方法，其特征在于，所述视频质量评价网络的训练步骤，包括：

获取训练视频数据；

通过特征提取网络对所述训练视频数据进行特征提取，得到所述训练视频数据的多层视频特征信息；

通过所述金字塔池化网络对各层所述视频特征信息分别进行池化处理，得到各层所述视频特征信息分别对应的多个池化特征信息；

获取各个所述池化特征信息的主观质量打分；

基于各个所述池化特征信息和各个所述池化特征信息对应的主观质量打分对视频质量评价网络进行训练。

8.一种视频质量的预测装置，其特征在于，包括：

数据获取模块，用于获取待预测视频数据；

特征提取模块，用于通过特征提取网络对所述待预测视频数据进行特征提取，得到所述待预测视频数据的多层视频特征；其中，各层所述视频特征分别用于表征所述待预测视频数据的低层特征或高层特征；

质量预测模块，用于基于各层所述视频特征对所述待预测视频数据进行质量预测，得到所述待预测视频数据的视频质量结果。

9.一种服务器，其特征在于，包括处理器和存储器；

所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至7任一项所述的方法。

10.一种计算机存储介质，其特征在于，用于储存为权利要求1至7任一项所述方法所用的计算机软件指令。