CN117495854B

CN117495854B - 视频数据处理方法、设备及存储介质

Info

Publication number: CN117495854B
Application number: CN202311852268.3A
Authority: CN
Inventors: 吴伟; 胡术明; 李凯; 陈颖
Original assignee: Taobao China Software Co Ltd
Current assignee: Taobao China Software Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-05-03
Anticipated expiration: 2043-12-28
Also published as: CN117495854A

Abstract

本申请实施例提供一种视频数据处理方法、设备及存储介质。在本申请实施例中，不再针对视频数据的原始分辨率进行特征提取，而是针对原始视频内容进行上采样，从而在高分辨尺度下提取图像特征，保留原始视频数据中的细节内容，从而能够将各种分辨率的视频数据转换至同一分辨率尺度下实现跨分辨率的视频质量评估，区分不同分辨率的视频数据的质量数据，不再局限于单一分辨率的视频质量评估；针对原始视频数据进行下采样，在低分辨率尺度下提取运动特征，更关注运动信息，屏蔽其他细节信息的干扰；在不同时间尺度上将图像特征和运动特征进行时空特征融合，基于融合后的多尺度特征进行视频质量的评估，提高视频质量评估的准确性。

Description

视频数据处理方法、设备及存储介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频数据处理方法、设备及存储介质。

背景技术

视频流量在整个互联网中的流量占比逐年增长，为降低视频存储成本和数据传输通道的负载，视频压缩标准及算法在不断积极开发和改进，视频质量的评估在其中也起着至关重要的作用。目前，存在的视频质量评估方法包括主观质量评估方法和无参考视频质量评估方法。

主观质量评估方法依赖观众对视频内容的主观感受和评价，相对而言，无参考视频质量评估方式通过提取视频的特征，如图像清晰度等来判断视频的质量，不再依赖观众的主观感受和评价，更加客观和准确。

然而，现有无参考视频质量评估方法通常是针对特定视频的，不具有普适性，亟需提供一种具有普适性的无参考视频质量评估解决方案。

发明内容

本申请的多个方面提供一种视频数据处理方法、设备及存储介质，用以提高视频质量评估的准确率。

本申请实施例提供一种视频数据处理方法，包括：获取具有原始分辨率的原始视频数据，所述原始视频数据包括多个原始视频帧；对所述多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧；对所述多个第一目标视频帧进行特征提取，以得到所述多个第一目标视频帧的图像特征；对所述多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，所述第二目标分辨率小于所述第一目标分辨率；将所述多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到所述多个视频片段的运动特征；根据所述多个第一目标视频帧的图像特征和所述多个视频片段的运动特征进行时空特征的融合，以得到所述原始视频数据对应的目标时空融合特征；根据所述目标时空融合特征，生成所述原始视频数据的质量数据。

本申请实施例还提供一种视频数据处理装置，包括：获取模块、第一特征提取模块、第二特征提取模块、特征融合模块和生成模块；所述获取模块，用于获取具有原始分辨率的原始视频数据，所述原始视频数据包括多个原始视频帧；所述第一特征提取模块，用于对所述多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，对所述多个第一目标视频帧进行特征提取，以得到所述多个第一目标视频帧的图像特征；所述第二特征提取模块，用于对所述多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，所述第二目标分辨率小于所述第一目标分辨率；将所述多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到所述多个视频片段的运动特征；所述特征融合模块，用于根据所述多个第一目标视频帧的图像特征和所述多个视频片段的运动特征进行时空特征的融合，以得到所述原始视频数据对应的目标时空融合特征；所述生成模块，用于根据所述目标时空融合特征，生成所述原始视频数据的质量数据。

本申请实施例还提供一种电子设备，包括：存储器和处理器；存储器，用于存储计算机程序；处理器，与存储器耦合，用于执行计算机程序，以实现本申请实施例提供的视频数据处理方法中的各步骤。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序被处理器执行时，致使处理器实现本申请实施例提供的视频数据处理方法中的各步骤。

在本申请实施例中，提供一种跨分辨率的视频质量评估方法，不再针对原始分辨率进行特征提取，针对原始视频内容进行上采样，从而在高分辨尺度下提取图像特征，保留原始视频数据中的细节内容，从而能够将各种分辨率的视频数据转换至同一分辨率尺度下实现跨分辨率的视频质量评估，区分不同分辨率的视频数据的质量数据，不再局限于单一分辨率的视频质量评估；针对原始视频数据进行下采样，在低分辨率尺度下提取运动特征，更关注运动信息，屏蔽其他细节信息的干扰；在不同时间尺度上将图像特征和运动特征进行时空特征融合，基于融合后的多尺度特征进行视频质量的评估，不再依靠单一特征，有效和综合利用多尺度特征，适应不同时间尺度的视频质量变化，从而在跨分辨率场景下对视频质量进行更全面和更准确的评估。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一示例性实施例提供的一种视频数据处理方法的流程示意图；

图2a为本申请一示例性实施例提供的视频数据处理的架构图；

图2b为本申请另一示例性实施例提供的视频数据处理的架构图；

图2c为本申请一示例性实施例提供的第一特征提取网络的局部结构示意图；

图3为本申请一示例性实施例提供的视频数据处理装置的结构示意图；

图4为本申请一示例性实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。另外，本申请涉及的各种模型（包括但不限于语言模型或大模型）是符合相关法律法规和标准规定的。

目前，无参考视频质量评估方法通常考虑单一分辨率的情况，无法充分捕捉到不同分辨率下视频质量的变化。在跨分辨率场景下，采用一些无参考视频质量评估方法也存在一些问题。例如，在原始视频数据处于原始分辨率的情况下，针对原始视频数据进行特征提取，基于特征提取的内容进行视频质量评估。然而，针对不同分辨率的原始视频数据，同一区域的内容可能发生变化，导致进行特征提取时卷积运算区域的内容不一致，从而导致在跨分辨率场景下视频质量评估结果的不准确。又例如，将原始视频数据下采样到小分辨率，然后针对小分辨率的视频数据进行特征提取。然而，针对原始视频数据进行下采样处理会丢失原始视频数据中的细节内容，从而导致跨分辨率场景下的视频质量评估结果不准确。因此，目前的方法尚未充分考虑和解决跨分辨率场景下视频质量评估的挑战。

针对上述问题，在本申请实施例中，提供一种跨分辨率的视频质量评估方法，不再针对原始分辨率进行特征提取，针对原始视频内容进行上采样，从而在高分辨尺度下提取图像特征，保留原始视频数据中的细节内容，从而能够将各种分辨率的视频数据转换至同一分辨率尺度下实现跨分辨率的视频质量评估，区分不同分辨率的视频数据的质量数据，不再局限于单一分辨率的视频质量评估；针对原始视频数据进行下采样，在低分辨率尺度下提取运动特征，更关注运动信息，屏蔽其他细节信息的干扰；在不同时间尺度上将图像特征和运动特征进行时空特征融合，基于融合后的多尺度特征进行视频质量的评估，不再依靠单一特征，有效和综合利用多尺度特征，适应不同时间尺度的视频质量变化，从而在跨分辨率场景下，对视频质量进行更全面和更准确的评估。

进一步，视频质量评估结果可以为不同应用场景提供指导。例如，在视频播放场景，针对同一视频数据，原始视频数据的分辨率为1080p（1080p对应1920×1080像素）的情况下，原始视频数据的质量评估结果为质量数据A1，原始视频数据的分辨率为720p（720p对应1280×720像素）的情况下，原始视频数据的质量评估结果为质量数据A2，若质量数据A1与质量数据A2之间的差异小于设定的差异阈值，例如，差异阈值为1%、3%或5%等，表示原始视频数据在1080p和720p的分辨率下，视频质量相差不大，则在向用户终端传输该原始视频数据时，可以传输数据量较小的视频数据，如分辨率为720p的原始视频数据，以节省带宽资源，提升视频传输的性价比。又例如，在短视频应用场景，一方面针对用户上传的视频内容进行视频质量评估，在评估的质量数据低于设定参数阈值的情况下，提醒用户重新上传质量更好的视频内容；另一方面，针对视频质量数据低于设定参数阈值的视频内容，减少或不执行向其它用户的推流操作，提升其它用户的观看体验。分辨率中的p表示视频像素的总行数，例如1080P则表示视频总共有1080行像素数，720p表示视频总共有720行像素数。

以下结合附图，对本申请实施例提供的一种解决方案进行详细说明。

图1为本申请示例性实施例提供的一种视频数据处理方法的流程示意图。如图1所示，该方法包括：

101、获取具有原始分辨率的原始视频数据，原始视频数据包括多个原始视频帧；

102、对多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧；

103、对多个第一目标视频帧进行特征提取，以得到多个第一目标视频帧的图像特征；

104、对多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，第二目标分辨率小于第一目标分辨率；

105、将多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到多个视频片段的运动特征；

106、根据多个第一目标视频帧的图像特征和多个视频片段的运动特征进行时空特征的融合，以得到原始视频数据对应的目标时空融合特征；

107、根据目标时空融合特征，生成原始视频数据的质量数据。

在本实施例中，原始视频数据具有原始分辨率，原始分辨率可以包含但不限于：360p（480×360）、480p（640×480）、720p（1280×720）、1080p（1920×1080）、2K（2560×1440）、4K（3840×2160）或8K（7680×4320）等。

在本实施例中，图2a提供一种视频数据处理的架构图，该视频数据处理架构包括：第一特征提取网络、第二特征提取网络、时空特征融合模块以及视频质量评估模块。其中，也可以将该视频数据处理框架称为跨分辨率的视频评估模型。下面进行详细介绍。

1）第一特征提取网络主要用于对原始视频数据包括的多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，对该多个第一目标视频帧进行特征提取，以得到多个第一目标视频帧的图像特征。其中，第一特征提取网络通过上采样处理，可以将原始视频帧上采样到其所支持的分辨率进行处理，因此可以对具有不同原始分辨率的视频进行图像特征提取，故可以将其称为跨分辨率的第一特征提取网络。其中，图像特征可以实现为语义特征，例如，多个第一目标视频帧的图像特征可以包含但不限于：第一目标视频帧中的颜色、纹理以及形状等特征，以及第一目标视频帧中包含物体的大小和位置等特征。其中，上采样具体是指针对多个原始视频帧中的像素点进行上采样，得到更高分辨率的视频帧的过程。在本实施例中，不再针对原始视频数据的原始分辨率进行特征提取，而是在高分辨尺度下提取图像特征，可以保留原始视频数据中的细节内容，从而能够将各种分辨率的视频数据转换至同一分辨率尺度下实现跨分辨率的视频质量评估，不再局限于单一分辨率的视频质量评估。其中，第一特征提取网络可以是任何能够对视频帧执行上采样操作，并针对多个第一目标视频帧执行图像特征处理的神经网络模型等。例如，第一特征提取网络可以包含但不限于：AlexNet、ConvNext、高效神经网络（EfficientNet）模型或ResNet等。AlexNet是一种卷积神经网络，包括卷积层、池化层和全连接层等。ConvNext是一种预训练模型，基于数据集进行预训练，使用迁移学习技术，在多个下游任务上实现了较优的性能，例如特征提取等。EfficientNet是一种结合了深度、宽度和分辨率的神经网络结构，该网络在训练中具有高精度、低复杂度和快速收敛速度等特性。

2）第二特征提取网络主要用于对多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，第二目标分辨率小于第一目标分辨率，将该多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到多个视频片段的运动特征。其中，下采样是对多个原始视频帧中包含的像素点进行下采样，得到分辨率较低的视频帧的过程。其中，在低分辨率尺度下提取运动特征，更关注运动信息，屏蔽其他细节信息的干扰，可以提高后续质量评估的准确性。在本实施例中，第二特征提取网络通过对原始视频帧进行下采样，可以将原视频帧采样到其所支持的分辨率进行运动特征的提取，能够支持各种具有原始分辨率的视频，因此可以将其称为跨分辨率的第二特征提取网络。其中，多个视频片段的运动特征可以包含但不限于：速度、加速度、位移、时间和空间位置等。每个视频片段的长度并不限定，例如，可以是0.5秒、1秒或2秒等。其中，第二特征提取网络可以是任何能够执行下采样操作，并且针对切分得到的多个视频片段进行运动特征提取的神经网络模型。例如，第二特征提取网络可以包含但不限于：ResNet3D或Swin3D等。其中，Swin3D是一种视频运动特征识别模型，引入分层特征图（hierarchical feature maps）和转移窗口注意力（Shifted Window Attention）的概念提取运动特征。ResNet3D模型是一种基于三维卷积的深度学习模型，可以用于处理三维数据，如视频、三维图像等，与传统的二维卷积模型相比，ResNet3D模型可以更好地处理三维数据，并具有更强的特征提取能力。

3）时空特征融合模块一方面从时域和空域两个维度进行时空特征融合，时域特征是指特征随时间的变化情况，空域特征是指特征在空间位置上的变化情况；另一方面在时空特征融合的基础之上，从不同时间尺度上进行长短时空特征融合，例如，“短”时间尺度对应于原始视频帧维度，“长”时间尺度对应视频片段维度。具体地，时空特征融合模块根据多个第一目标视频帧的图像特征和多个视频片段的运动特征进行长短时空特征的融合，以得到原始视频数据对应的目标时空融合特征。

4）视频质量评估模块主要用于根据原始视频数据对应的目标时空融合特征，生成原始视频数据的质量数据。在本申请实施例中，质量数据是指视频质量评估模块输出的能够表征原始视频数据的质量的融合特征值，并不限定该质量数据的取值大小和数量。

其中，可以通过斯皮尔曼秩相关系数（Spearman Rank-Order CorrelationCoefficient，SROCC）来评估本申请实施例给出的原始视频数据的质量数据的准确度，为便于描述和区分，将采用本申请实施例提供的视频数据处理方法得到的原始视频数据对应的质量数据称为预测质量数据，将通过用户该原始视频数据进行主观打分得到的原始视频数据的质量数据称为主观质量数据，SROCC表示本申请实施例给出的原始视频的预测质量数据与用户对该原始视频数据进行主观打分得到的主观质量数据之间的相关性，相关性越高，说明本申请实施例给出的质量数据越接近主观质量数据，准确率越高。

在本申请实施例中，提供一种跨分辨率的视频质量评估方法，不再针对原始分辨率进行特征提取，针对原始视频内容进行上采样，从而在高分辨尺度下提取图像特征，保留原始视频数据中的细节内容，从而能够将各种分辨率的视频数据转换至同一分辨率尺度下实现跨分辨率的视频质量评估，区分不同分辨率的视频数据的质量数据，不再局限于单一分辨率的视频质量评估；针对原始视频数据进行下采样，在低分辨率尺度下提取运动特征，更关注运动信息，屏蔽其他细节信息的干扰；在不同时间尺度上将图像特征和运动特征进行时空特征融合，基于融合后的多尺度特征进行视频质量的评估，不再依靠单一特征，有效和综合利用多尺度特征，适应不同时间尺度的视频质量变化，从而在跨分辨率场景下，对视频质量进行更全面和更准确的评估。

在一可选实施例中，在图2a的基础上，本申请实施例还提供另一种视频数据处理的架构图，如图2b所示，该视频数据处理架构还包括：第三特征提取网络，另外，将时空特征融合模块拆分为：短时时空特征融合模块和长时时空特征融合模块。

1）第三特征提取网络用于对多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到多个第三目标视频帧的失真特征。其中，关于上采样的详细介绍可参见前述，在此不再赘述。其中，第三特征提取网络通过上采样处理，可以将原始视频帧上采样到其所支持的分辨率进行处理，因此可以对具有不同原始分辨率的视频进行失真特征提取，故可以将其称为跨分辨率的特征提取网络。需要说明的是，第三特征提取网络对多个原始视频帧进行上采样得到的视频帧具有第三目标分辨率，第三目标分辨率与第一目标分辨率可以相同，也可以不相同。优选地，第三目标分辨率与第一目标分辨率相同。例如，第一和第二目标分辨率均为2k（对应宽度方向上具有1440个像素），但并不限于此。多个第三目标视频帧的失真特征可以包含但不限于：块效应、锐度、过曝、欠曝、彩度和噪声等。其中，块效应也称为对比度，指图像明暗区域的分布情况；锐度指图像的清晰度，包括线条的明朗程度和色彩的鲜艳程度；过曝指图像曝光过度，画面白色区域过多，细节丢失；欠曝指图像曝光不足，画面暗部区域过多，细节不清晰；彩度指图像颜色的饱满程度；噪声是指对图像中像素值产生干扰的信息。在本实施例中，通过上采样原始视频数据转换至在高分辨率尺度，在高分辨率尺度下保留失真细节，有利于失真特征的提取，提高视频质量评估的准确性；失真特征反映了原始视频数据中可能存在的失真情况，通过对失真特征的提取和分析，将失真特征作为视频质量相关特征的补充，可以更全面地了解和评估原始视频数据的失真程度，更准确地评估视频的质量，并为后续的视频质量改进提供有力的依据。

2）短时时空特征融合模块主要用于根据多个第一目标视频帧的图像特征和多个第三目标视频帧的失真特征进行短时时空特征融合，以得到原始视频数据对应的短时时空融合特征。其中，图像特征会对失真特征的质量评估效果起到引导作用，失真特征可以作为图像特征的补充，可以将图像特征和失真特征进行时空特征融合，提高视频质量评估的稳定性，并考虑时域上的记忆效应，在不同时间尺度上进一步进行时域上的融合，提高视频质量评估的准确性。

3）长时时空特征融合模块主要用于根据原始视频数据对应的短时时空融合特征和多个视频片段的运动特征进行长时时空特征融合，以得到原始视频数据对应的目标时空融合特征。

在一可选实施例中，在将原始视频数据输入第一特征提取网络和第三特征提取网络之前，还包括视频时域预处理。视频时域预处理主要用于对原始视频数据进行抽样，以得到包含多个原始视频帧的原始视频数据，降低原始视频数据包含的视频帧的数量，降低后续处理复杂度，节约计算资源。例如，原始视频数据的视频时长为T（单位可以是秒），帧率为F，多个原始视频帧的数量为：FrameNum=round（T）*E。其中，FrameNum表示多个原始视频帧的数量，round（T）表示对视频时长T执行四舍五入操作，从每秒视频数据中抽取E帧（如，E=16），从原始视频数据中均匀抽样FrameNum个原始视频帧，其中，F，E为正整数，且F≥E，*表示乘法运算。

其中，图2a和图2b所示的实施例主要包括两个方面，一方面是特征提取，另一方面是特征融合。下面从上述两方面对图2a和图2b所示的架构图进行详细说明。

特征提取

在一可选实施例中，在图2a和图2b所示实施例中，并不限定第一特征提取网络执行上采样和图像特征提取的实施方式。本申请实施例给出第一特征提取网络的一种具体实现结构，包括：上采样模块、图像特征提取层、池化层和拼接层。

相应地，第一特征提取网络进行图像特征提取的一种实施方式包括：将多个原始视频帧输入第一特征提取网络中的上采样模块进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，第一目标分辨率大于原始分辨率，例如，第一目标分辨率为2K，原始分辨率为360p。将多个第一目标视频帧输入第一特征提取网络中的图像特征提取层进行多尺度图像特征的提取，得到多个第一目标视频帧各自的多尺度图像特征图，也即得到每个第一目标视频帧的多尺度图像特征图。其中，多尺度图像特征图是语义信息在不同层级的体现，随着网络层级的增高，特征图中图像的含义越抽象，多尺度图像特征图的数量为多个，例如，2个、4个或7个等，对此不做限定。对多个第一目标视频帧各自的多尺度图像特征图进行平均池化和拼接，以得到多个第一目标视频帧各自的语义特征向量。其中，可以针对每个第一目标视频帧的多尺度图像特征图进行平均池化，并对平均池化后的特征向量进行拼接，得到每个第一目标视频帧的图像特征向量，从而更全面地捕捉原始视频数据中的图像信息，提高图像特征对视频质量的表征能力。其中，可以采用全局平均池化（GlobalAverage Pooling，GAP）进行平均池化。拼接（CAT）的方式也不限定，例如，可以按照设定方向进行拼接，如，把两个平均池化后的向量竖着连起来，也可以将两个平均池化后的向量横着连起来，对此做限定。

可选地，图像特征提取层采用深度残差网络，将多个第一目标视频帧分别输入深度残差网络进行多尺度图像特征的提取，并获取深度残差网络中最后多个卷积模块输出的特征图，作为多个第一目标视频帧各自的多尺度图像特征图。例如，深度残差网络可以是ResNet-50模型，ResNet-50的内部结构由多个残差块（BasicBlock或Bottleneck）组成。每个残差块包含若干个卷积层，用于提取图像特征。

图2c示例性提供一种第一特征提取网络的局部结构示意图，在图2c中重点示出用于输出图像特征图的多个卷积模块为例，并且以多个卷积模块是4个卷积模块为例进行图示，但并不限于此。其中，在图2c中，4个卷积模块分别为卷积模块1、卷积模块2、卷积模块3和卷积模块4。

在一可选实施例中，在图2b所示实施例中，并不限定第三特征提取网络执行上采样和失真特征提取的实施方式。下面给出一种第三特征提取网络的实现结构，包括：上采样模块和失真特征提取模块。

相应地，第三特征提取网络执行失真特征提取的一种实施方式包括：将多个原始视频帧分别输入第三特征提取网络中的上采样模块进行上采样，得到具有第三目标分辨率的多个第三目标视频帧，第三目标分辨率大于原始分辨率，第三目标分辨率可以与第二目标分辨率相同，或者第三目标分辨率可以与第二目标分辨率不相同。其中，第三特征提取网络执行上采样操作的实施方式，可参见第一特征提取网络执行上采样操作的实施方式，在此不再赘述。将多个第三目标视频帧输入第三特征提取网络中的失真特征提取层进行多维失真特征的提取，得到多个第三目标视频帧各自的失真特征向量。

第三特征提取网络采用失真特征提取模块提取失真特征的实施方式并不限定，根据失真特征的不同，提取失真特征的方式也有所不同。下面进行举例说明。

1）块效应：由于块效应是图像压缩算法在编码过程中对第三目标视频帧进行分块导致的。为了提取块效应特征，可以使用图像处理技术，如傅里叶变换或小波变换，来分析第三目标视频帧的频率成分。若第三目标视频帧存在块效应，则在频率域中会表现出明显的块状结构。

2）锐度：第三目标视频帧的锐度表示图像边缘的清晰程度。为了提取锐度特征，可以使用图像处理技术，如卷积神经网络或边缘检测算法，来检测第三目标视频帧中的边缘信息。通过对边缘信息的分析和处理，可以提取出第三目标视频帧的锐度特征。

3）过曝和欠曝：过曝是指第三目标视频帧中的高光部分过于明亮，细节丢失；欠曝是指第三目标视频帧中的暗部过于暗淡，细节不清晰。为了提取过曝和欠曝特征，可以使用直方图统计方法来分析第三目标视频帧的亮度分布。若第三目标视频帧存在过曝或欠曝，则在直方图上会表现出明显的峰值或谷值。

4）彩度：彩度表示颜色的饱满程度。为了提取彩度特征，可以使用颜色空间转换方法，如HSV色彩空间或Lab色彩空间，将第三目标视频帧的颜色信息转化为饱和度分量。通过对饱和度分量的分析和处理，可以提取出第三目标视频帧的彩度特征。

5）噪声：噪声是第三目标视频帧中不需要的像素值，噪声可能是传感器噪声、传输错误、量化误差等原因引起的。为了提取噪声特征，可以使用一些图像处理算法，如中值滤波或均值滤波等，来平滑图像并去除噪声。通过对去噪前后的第三目标视频帧进行比较和分析，可以提取出第三目标视频帧中的噪声特征。

需要说明的是，具体的失真特征提取方法可能因应用场景和失真类型的不同而有所差异。在实际操作中，需要根据具体情况选择合适的方法来提取失真特征。

在一可选实施例中，在图2a和图2b所示实施例中，并不限定第二特征提取网络执行下采样和运动特征提取的实施方式。下面给出第二特征提取网络的一种实现结构，包括：下采样模块和运动特征提取网络。

其中，第二特征提取网络提取运动特征的一种实施方式包括：将多个原始视频帧输入第二特征提取网络中的下采样模块进行下采样，得到具有第二目标分辨率的多个第二目标视频帧，第二目标分辨率小于原始分辨率，例如，原始分辨率为360p，第二目标分辨率为720p的三分之一（对应宽度方向上具有224个像素）。对多个第二目标视频帧进行切分，得到多个视频片段，视频片段的时长大于视频帧的时长。例如，每秒中包含的视频帧（如，64帧）分割为4个长度为16帧的视频片段。每个视频片段具有一定时长，例如1s、0.5s等，具体可根据应用场景而定。将多个视频片段输入第二特征提取网络中的运动特征提取层进行运动特征的提取，以得到多个视频片段的运动特征图。其中，运动特征提取网络可以是ResNet3D-18。ResNet3D-18是一种三维（3D）卷积神经网络，由3D卷积层、池化层、全连接层和残差模块组成，具有较强的特征提取能力和较低的计算复杂度，其中，残差模块是通过跳跃连接（skip connection）构建的，传统的卷积神经网络通过堆叠多层卷积层来提取特征，但随着网络层数的增加，梯度逐渐变小，导致网络训练困难，而ResNet3D-18通过跳跃连接的残差模块将前一层的输出添加到后面的层中，可以有效地提取运动特征。

在此说明，无论是上采样还是下采样，优选地，在采样前后视频帧保持长宽比不变。

特征融合

在一可选实施例中，图2b中短时时空特征融合模块执行短时时空特征融合的实施方式，如下：根据多个第一目标视频帧的图像特征，生成初始时域图像特征序列和初始空域图像特征序列；例如，可以每隔设定帧数（如，2帧、3帧或4帧等），计算第一目标视频帧的图像特征的差值的绝对值，得到初始时域图像特征；相应地，可以将每隔设定帧数（如，2帧、3帧或4帧等）的第一目标视频帧的图像特征直接作为初始空域图像特征。根据多个第三目标视频帧的失真特征，生成初始时域失真特征序列和初始空域失真特征序列；例如，可以每隔设定帧数（如，2帧、3帧或4帧等），计算第三目标视频帧的失真特征的差值的绝对值，得到初始时域失真特征；相应地，可以将每隔设定帧数（如，2帧、3帧或4帧等）的第三目标视频帧的失真特征直接作为初始空域失真特征。对初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列。其中，降维和空间映射的方式并不限定，例如，可以采用全连接层或池化层进行降维和空间映射，进一步，在采用全连接层进行降维和空间映射时，全连接层的层数也不限定，例如，可以是2层全连接层、3层全连接层或者5层全连接层等。对目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列中的对应特征进行拼接，得到原始视频数据对应的短时时空融合特征序列。例如，原始视频数据包括T（秒），从每秒中抽取16个原始视频帧，可以生成四类特征，分别为：8个初始时域图像特征、8个初始空域图像特征、8个初始时域失真特征和8个初始空域图像特征；对上述特征执行降维和空间映射后，特征的维度降低数量不变，即得到四类特征：8个目标时域图像特征、8个目标空域图像特征、8个目标时域失真特征和8个目标空域图像特征；将四类特征进行拼接，可以得到8个短时时空融合特征，这8个短时时空融合特征构成原始视频数据对应的短时时空融合特征序列。

可选地，根据多个第一目标视频帧的图像特征，生成初始时域图像特征序列和初始空域图像特征序列的实施方式，包括：获取相邻第一目标视频帧的图像特征的差值的绝对值分别作为初始时域图像特征，以得到初始时域图像特征序列；以及获取多个第一目标视频帧中奇数帧或偶数帧的图像特征分别作为初始空域图像特征，以得到初始空域图像特征序列。例如，针对多个第一目标视频帧实现为16个第一目标视频帧，分别用B1，B2，B3，…，B15，B16表示；可以分别计算B1和B2，B3和B4，…，B15和B16之间的图像特征的差值的绝对值，得到8个初始时域图像特征；将奇数帧B1，B3，B5，…，B15或偶数帧B2，B4，B6，…，B16的图像特征分别作为初始空域图像特征，即可以得到8个初始空域图像特征。其中，每个初始时域图像特征是多维的，具体维度数量的多少与第一特征提取网络输出的图像特征的维度数量相关，例如，图像特征的维度数量为3840维，初始时域图像特征也可以是3840维。同理，初始空域图像特征的维度数量也与图像特征的维度数量相关，例如，初始空域图像特征也可以是3840维。

相应地，根据多个第三目标视频帧的失真特征，生成初始时域失真特征序列和初始空域失真特征序列，如下：获取相邻第三目标视频帧的失真特征的差值的绝对值分别作为初始时域失真特征，以得到初始时域失真特征序列；以及获取多个第三目标视频帧中奇数帧或偶数帧的失真特征分别作为初始空域失真特征，以得到初始空域失真特征序列。例如，例如，针对多个第三目标视频帧实现为16个第三目标视频帧，分别用C1，C2，C3，…，C15，C16表示；可以分别计算C1和C2，C3和C4，…，C15和C16之间的失真特征的差值的绝对值，得到8个初始时域失真特征；将奇数帧C1，C3，C5，…，C15和偶数帧C2，C4，C6，…，C16的失真特征分别作为初始空域失真特征，即可以得到8个初始空域失真特征。其中，初始时域失真特征的维度数量与失真特征的维度数量相关，失真特征的维度数量可以是5或6，例如，失真特征包括：块效应、锐度、过曝、欠曝和彩度，失真特征为5维，初始时域失真特征也可以是5维；若失真特征包括：块效应、锐度、过曝、欠曝、彩度和噪声，失真特征为6维，初始时域失真特征也可以为5维。同理，初始空域失真特征的维度数量与失真特征的维度数量也相关，例如，初始空域失真特征可以是5维或6维。

可选地，对初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列的实施方式，如下：利用第一设定数量（如，3层）的全连接层对初始时域图像特征序列中的各个初始时域图像特征分别进行降维和空间映射，以得到目标时域图像特征序列；利用第二设定数量（如，3层）的全连接层对初始空域图像特征序列中的各个初始空域图像特征分别进行降维和空间映射，以得到目标空域图像特征序列；其中，由于时域图像特征对视频质量评估的贡献更大一些，因此，降维后的时域图像特征的维度可以大于空域图像特征的维度，保留更多维度的时域图像特征，提高视频质量评估的准确性。例如，将各个初始时域图像特征从3840维降维并空间映射到64维，将各个初始空域图像特征从3840维降维并空间映射到6维。利用第三设定数量（如，2层）的全连接层对初始时域失真特征序列中的各个初始时域失真特征分别进行降维和空间映射，以得到目标时域失真特征序列；例如，将各个初始时域失真特征从5维降维并空间映射到4维。利用第四设定数量（如，1层）的全连接层对初始空域失真特征序列中的各个初始空域失真特征分别进行空间映射，以得到目标空域失真特征序列。例如，将各个初始空域失真特征从5维映射到5维。其中，第一设定数量、第二设定数量、第三设定数量以及第四设定数量可以相同，也可以不相同。第一设定数量、第二设定数量、第三设定数量以及第四设定数量均为正整数。

可选地，根据原始视频数据对应的短时时空融合特征和多个视频片段的运动特征进行长时时空特征融合，以得到原始视频数据对应的目标时空融合特征的实施方式，如下：利用N*1时间维度的1维卷积核，对短时时空融合特征序列中的每N个短时时空融合特征进行聚合，以得到多个聚合特征； N是视频片段对应时长中包含的短时时空融合特征的数量，N为正整数，*表示乘法运算；例如，视频片段为1秒，1秒的视频片段中包含8个短时时空融合特征，则N=8，可以采用8*1时间维度的1维卷积核，对8个短时时空融合特征进行聚合，得到该1秒的视频片段对应的聚合特征，在原始视频数据为T秒的情况下，该原始视频数据对应有T个聚合特征。利用第五设定数量（如，3层）的全连接层对多个视频片段的运动特征进行特征降维和空间映射，以得到多个降维运动特征。第五设定数量为正整数。例如，将每个视频片段的运动特征的维度表示为M×N×C，M和N分别表示特征图的长和宽，C表示通道数，在对运动特征进行降维和空间映射过程中，保留通道数，并将通道数由512降为64，得到一维向量，即降维运动特征。将多个聚合特征与多个降维运动特征进行拼接，以得到多个目标时空融合特征。具体是指将每个聚合特征与每个降维运动特征进行拼接，得到一个目标时空融合特征。

进一步可选地，根据目标时空融合特征，生成原始视频数据的质量数据的实施方式，可以是利用第六设定数量（如，3层）的全连接层对多个目标时空融合特征进行特征降维和空间映射，以得到多个特征值，第六设定数量为正整数；根据多个特征值，生成原始视频数据的质量数据。例如，对多个特征值进行加权平均，得到原始视频数据的质量数据。

在本申请实施例中，提供一种针对跨分辨率场景的无参考视频质量评估算法，可以准确评估不同分辨率的视频数据在电子设备上显示（如，全屏显示）时的质量数据。主要涉及如下改进和有益效果。

（1）第一特征提取网络，通过上采样，在高分辨率尺度下提取图像特征，保留原始视频数据中的语义细节，并考虑到多个尺度的图像特征，如，时域和空域，从局部细节到全局语义综合表征与视频质量数据相关的特征；

（2）第三特征提取网络，通过上采样在高分辨率尺度下提取失真特征，保留失真特征的细节，失真特征包含块效应、锐度、过曝、欠曝、彩度和噪声等6个维度的特征，将失真特征作为图像特征的补充，增强视频质量评估的稳定性；

（3）第二特征提取网络，采用下采样，在低分辨率尺度下提取运动特征，关注运动信息，摒弃其它细节信息干扰；

（4）基于不同时间尺度的长短时空特征融合，从而适应不同时间尺度的视频质量变化，提高视频质量评估的准确性和稳定性。

（1）、（2）、（3）不仅提取了与视频质量密切相关的特征，还将不同分辨率的视频数据放在同一个分辨率尺度下，以便于有效区分不同分辨率的视频质量（如，画质），（4）进一步融合视频质量相关的时空特征，增强视频质量评估的准确性和可靠性。

为了验证本申请技术方案给出的视频质量数据在准确性上是否有提升，将本申请实施例提供的模型与传统无参考视频质量评价模型，例如多维度质量评估（Multi-Dimensional Quality Assessment，MD-VQA）模型进行了比对测试，测试采用了一定数量的视频，例如110个视频，这些视频的分辨率覆盖360P到2K。

其中，预先通过一定数量的测试用户对这些视频在终端设备上的播放过程进行了主观质量打分，并按照ITU-T P.910对这些主观质量打分进行了标注处理，得到每条视频的平均意见得分（Mean Opinion Score，MOS）。然后，利用本申请实施例提供的模型对这些视频进行了质量打分，得到测试质量分；另外，利用传统无参考视频质量评价模型对这些视频进行了质量打分，得到参考质量分。接着，计算测试质量得分与MOS分的相关度以得到本申请实施例提供的模型的SROCC，以及计算参考质量分与MOS分的相关度以得到传统无参考视频质量评价模型的SROCC。如下表所示：

由上表可知，本申请实施例提供的跨分辨率模型的SROCC=0.8，其明显优于参考模型，能够比较准确预测分辨率带来质量的影响。

关于本申请实施例提供的图1所示方法中各步骤的详细实施方式以及有益效果已经在前述实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤103的执行主体可以为设备；又比如，步骤101和102的执行主体可以为设备，步骤103的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图3为本申请示例性实施例提供的一种视频数据处理装置的结构示意图，如图3所示，该装置包括：获取模块31、第一特征提取模块32、第二特征提取模块33、特征融合模块34和生成模块35。

获取模块31，用于获取具有原始分辨率的原始视频数据，原始视频数据包括多个原始视频帧；

第一特征提取模块32，用于对多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，对所述多个第一目标视频帧进行特征提取，以得到所述多个第一目标视频帧的图像特征；

第二特征提取模块33，用于对多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，所述第二目标分辨率小于所述第一目标分辨率；将多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到多个视频片段的运动特征；

特征融合模块34，用于根据多个第一目标视频帧的图像特征和多个视频片段的运动特征进行时空特征的融合，以得到原始视频数据对应的目标时空融合特征；

生成模块35，用于根据目标时空融合特征，生成原始视频数据的质量数据。

在一可选实施例中，该装置还包括：第三特征提取模块。第三特征提取模块，用于对多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到多个第三目标视频帧的失真特征；特征融合模块，还用于根据多个第一目标视频帧的图像特征和多个第三目标视频帧的失真特征进行短时时空特征融合，以得到原始视频数据对应的短时时空融合特征；根据原始视频数据对应的短时时空融合特征和多个视频片段的运动特征进行长时时空特征融合，以得到原始视频数据对应的目标时空融合特征。

在一可选实施例中，第一特征提取模块具体用于：将多个原始视频帧输入第一特征提取网络中的上采样模块进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，第一目标分辨率大于原始分辨率；将多个第一目标视频帧输入第一特征提取网络中的图像特征提取层进行多尺度图像特征的提取，得到多个第一目标视频帧各自的多尺度图像特征图；对多个第一目标视频帧各自的多尺度图像特征图进行平均池化和拼接，以得到多个第一目标视频帧各自的图像特征向量。

可选地，图像特征提取层采用深度残差网络，则图像特征提取模块具体用于：将多个第一目标视频帧分别输入深度残差网络进行多尺度图像特征的提取，并获取深度残差网络中最后多个卷积模块输出的特征图，作为多个第一目标视频帧各自的多尺度图像特征图。

在一可选实施例中，第二特征提取模块具体用于：将多个原始视频帧输入第二特征提取网络中的下采样模块进行下采样，得到具有第二目标分辨率的多个第二目标视频帧；对多个第二目标视频帧进行切分，得到多个视频片段，视频片段的时长大于视频帧的时长；将多个视频片段输入第二特征提取网络中的运动特征提取层进行运动特征的提取，以得到多个视频片段的运动特征图。

在一可选实施例中，第三特征提取模块具体用于：将多个原始视频帧分别输入第三特征提取模块中的上采样模块进行上采样，得到具有第三目标分辨率的多个第三目标视频帧，第三目标分辨率大于原始分辨率；将多个第三目标视频帧输入第三特征提取模块中的失真特征提取层进行多维失真特征的提取，得到多个第三目标视频帧各自的失真特征向量。

在一可选实施例中，特征融合模块具体用于：根据多个第一目标视频帧的图像特征，生成初始时域图像特征序列和初始空域图像特征序列；根据多个第三目标视频帧的失真特征，生成初始时域失真特征序列和初始空域失真特征序列；对初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列；对目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列中的对应特征进行拼接，得到原始视频数据对应的短时时空融合特征序列。

可选地，特征融合模块具体用于：获取相邻第一目标视频帧的图像特征的差值的绝对值分别作为初始时域图像特征，以得到初始时域图像特征序列；以及获取多个第一目标视频帧中奇数帧或偶数帧的图像特征分别作为初始空域图像特征，以得到初始空域图像特征序列；获取相邻第三目标视频帧的失真特征的差值的绝对值分别作为初始时域失真特征，以得到初始时域失真特征序列；以及获取多个第三目标视频帧中奇数帧或偶数帧的失真特征分别作为初始空域失真特征，以得到初始空域失真特征序列。

可选地，特征融合模块具体用于：利用3层全连接层对初始时域图像特征序列中的各个初始时域图像特征分别进行降维和空间映射，以得到目标时域图像特征序列；利用3层全连接层对初始空域图像特征序列中的各个初始空域图像特征分别进行降维和空间映射，以得到目标空域图像特征序列；利用2层全连接层对初始时域失真特征序列中的各个初始时域失真特征分别进行降维和空间映射，以得到目标时域失真特征序列；利用1层全连接层对初始空域失真特征序列中的各个初始空域失真特征分别进行空间映射，以得到目标空域失真特征序列。

可选地，特征融合模块具体用于：利用N*1时间维度的1维卷积核，对短时时空融合特征序列中的每N个短时时空融合特征进行聚合，以得到多个聚合特征； N是视频片段对应时长中包含的短时时空融合特征的数量，*表示乘法运算；利用3层全连接层对多个视频片段的运动特征进行特征降维和空间映射，以得到多个降维运动特征；将多个聚合特征与多个降维运动特征进行拼接，以得到多个目标时空融合特征。

进一步可选地，生成模块具体用于：利用3层全连接层对多个目标时空融合特征进行降维和空间映射，以得到多个特征值；根据多个特征值，生成原始视频数据的质量数据。

关于本申请实施例提供的图3所示装置中各步骤的详细实施方式以及有益效果已经在前述实施例中进行了详细描述，此处将不做详细阐述说明。

图4为本申请示例性实施例提供的一种电子设备的结构示意图，如图4所示，该设备包括：存储器44和处理器45。

存储器44，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令等。

处理器45，与存储器44耦合，用于执行存储器44中的计算机程序，以用于：获取具有原始分辨率的原始视频数据，原始视频数据包括多个原始视频帧；对多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧；对多个第一目标视频帧进行特征提取，以得到多个第一目标视频帧的图像特征；对多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，所述第二目标分辨率小于所述第一目标分辨率；将多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到多个视频片段的运动特征；根据多个第一目标视频帧的图像特征和多个视频片段的运动特征进行时空特征的融合，以得到原始视频数据对应的目标时空融合特征；根据目标时空融合特征，生成原始视频数据的质量数据。

在一可选实施例中，处理器45还用于：对多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到多个第三目标视频帧的失真特征；相应地，处理器45在根据多个第一目标视频帧的图像特征和多个视频片段的运动特征进行时空特征的融合，以得到原始视频数据对应的目标时空融合特征时，具体用于：根据多个第一目标视频帧的图像特征和多个第三目标视频帧的失真特征进行短时时空特征融合，以得到原始视频数据对应的短时时空融合特征；根据原始视频数据对应的短时时空融合特征和多个视频片段的运动特征进行长时时空特征融合，以得到原始视频数据对应的目标时空融合特征。

在一可选实施例中，处理器45在利用第一特征提取网络对多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，时，具体用于：将多个原始视频帧输入第一特征提取网络中的上采样模块进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，第一目标分辨率大于原始分辨率；处理器45在对多个第一目标视频帧进行特征提取，以得到多个第一目标视频帧的图像特征时，具体用于：将多个第一目标视频帧输入第一特征提取网络中的图像特征提取层进行多尺度图像特征的提取，得到多个第一目标视频帧各自的多尺度图像特征图；对多个第一目标视频帧各自的多尺度图像特征图进行平均池化和拼接，以得到多个第一目标视频帧各自的图像特征向量。

可选地，图像特征提取层采用深度残差网络，则处理器45在将多个第一目标视频帧输入第一特征提取网络中的图像特征提取层进行多尺度图像特征的提取，得到多个第一目标视频帧各自的多尺度图像特征图时，具体用于：将多个第一目标视频帧分别输入深度残差网络进行多尺度图像特征的提取，并获取深度残差网络中最后多个卷积模块输出的特征图，作为多个第一目标视频帧各自的多尺度图像特征图。

在一可选实施例中，处理器45在利用第二特征提取网络对多个原始视频帧进行下采样，并将下采样得到的多个第二目标视频帧切分为多个视频片段后进行运动特征提取，以得到具有第二目标分辨率的多个第二目标视频帧，以得到多个视频片段的运动特征时，具体用于：将多个原始视频帧输入第二特征提取网络中的下采样模块进行下采样，得到具有第二目标分辨率的多个第二目标视频帧；处理器45在将多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到多个视频片段的运动特征时，具体用于：对多个第二目标视频帧进行切分，得到多个视频片段，视频片段的时长大于视频帧的时长；将多个视频片段输入第二特征提取网络中的运动特征提取层进行运动特征的提取，以得到多个视频片段的运动特征图。

在一可选实施例中，处理器45在对多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到多个第三目标视频帧的失真特征时，具体用于：将多个原始视频帧分别输入第三特征提取网络中的上采样模块进行上采样，得到具有第三目标分辨率的多个第三目标视频帧，第三目标分辨率大于原始分辨率；将多个第三目标视频帧输入第三特征提取网络中的失真特征提取层进行多维失真特征的提取，得到多个第三目标视频帧各自的失真特征向量。

可选地，处理器45在根据多个第一目标视频帧的图像特征和多个第三目标视频帧的失真特征进行短时时空特征融合，以得到原始视频数据对应的短时时空融合特征时，具体用于：根据多个第一目标视频帧的图像特征，生成初始时域图像特征序列和初始空域图像特征序列；根据多个第三目标视频帧的失真特征，生成初始时域失真特征序列和初始空域失真特征序列；对初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列；对目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列中的对应特征进行拼接，得到原始视频数据对应的短时时空融合特征序列。

进一步可选地，处理器45在根据多个第一目标视频帧的图像特征，生成初始时域图像特征序列和初始空域图像特征序列时，具体用于：获取相邻第一目标视频帧的图像特征的差值的绝对值分别作为初始时域图像特征，以得到初始时域图像特征序列；以及获取多个第一目标视频帧中奇数帧或偶数帧的图像特征分别作为初始空域图像特征，以得到初始空域图像特征序列；相应地，处理器45在根据多个第三目标视频帧的失真特征，生成初始时域失真特征序列和初始空域失真特征序列时，具体用于：获取相邻第三目标视频帧的失真特征的差值的绝对值分别作为初始时域失真特征，以得到初始时域失真特征序列；以及获取多个第三目标视频帧中奇数帧或偶数帧的失真特征分别作为初始空域失真特征，以得到初始空域失真特征序列。

可选地，处理器45在对初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列时，具体用于：利用3层全连接层对初始时域图像特征序列中的各个初始时域图像特征分别进行降维和空间映射，以得到目标时域图像特征序列；利用3层全连接层对初始空域图像特征序列中的各个初始空域图像特征分别进行降维和空间映射，以得到目标空域图像特征序列；利用2层全连接层对初始时域失真特征序列中的各个初始时域失真特征分别进行降维和空间映射，以得到目标时域失真特征序列；利用1层全连接层对初始空域失真特征序列中的各个初始空域失真特征分别进行空间映射，以得到目标空域失真特征序列。

可选地，处理器45在根据原始视频数据对应的短时时空融合特征和多个视频片段的运动特征进行长时时空特征融合，以得到原始视频数据对应的目标时空融合特征时，具体用于：利用N*1时间维度的1维卷积核，对短时时空融合特征序列中的每N个短时时空融合特征进行聚合，以得到多个聚合特征； N是视频片段对应时长中包含的短时时空融合特征的数量，*表示乘法运算；利用3层全连接层对多个视频片段的运动特征进行特征降维和空间映射，以得到多个降维运动特征；将多个聚合特征与多个降维运动特征进行拼接，以得到多个目标时空融合特征。

进一步可选地，处理器45在根据目标时空融合特征，生成原始视频数据的质量数据时，具体用于：利用3层全连接层对多个目标时空融合特征进行降维和空间映射，以得到多个特征值；根据多个特征值，生成原始视频数据的质量数据。

关于本申请实施例提供的图4所示设备中各步骤的详细实施方式以及有益效果已经在前述实施例中进行了详细描述，此处将不做详细阐述说明。

进一步，如图4所示，该电子设备还包括：通信组件46、显示器47、电源组件48、音频组件49等其它组件。图4中仅示意性给出部分组件，并不意味着电子设备只包括图4所示组件。另外，图4中虚线框内的组件为可选组件，而非必选组件，具体可视电子设备的产品形态而定。本实施例的电子设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的电子设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图4中虚线框内的组件；若本实施例的电子设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图4中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述图1所示方法实施例中可由电子设备执行的各步骤。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random-Access Memory，SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read Only Memory，EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM），可编程只读存储器（Programmable Read-Only Memory，PROM），只读存储器（Read-Only Memory，ROM），磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（Near Field Communication，NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（Radio Frequency Identification，RFID）技术，红外数据协会（InfraredData Association，IrDA）技术，超宽带（Ultra Wide Band，UWB）技术，蓝牙（BlueTooth，BT）技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器（Liquid Crystal Display，LCD）和触摸面板（TouchPanel，TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（Microphone，MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器、只读光盘（Compact Disc Read-Only Memory，CD-ROM）、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器（Central ProcessingUnit，CPU）、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器（RandomAccess Memory，RAM）和/或非易失性内存等形式，如只读存储器（ROM）或闪存（flash RAM）。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（Phase-change Random AccessMemory，PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（Digital Video Disc，DVD）或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体（transitory media），如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频数据处理方法，其特征在于，包括：

获取具有不同原始分辨率的原始视频数据，所述原始视频数据包括多个原始视频帧；

针对每种原始分辨率，对所述多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧；

对所述多个第一目标视频帧进行特征提取，以得到所述多个第一目标视频帧的图像特征；

对所述多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到所述多个第三目标视频帧的失真特征；

对所述多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，所述第二目标分辨率小于所述第一目标分辨率；

将所述多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到所述多个视频片段的运动特征；

获取相邻第一目标视频帧的图像特征的差值的绝对值分别作为初始时域图像特征，以得到初始时域图像特征序列；以及获取所述多个第一目标视频帧中奇数帧或偶数帧的图像特征分别作为初始空域图像特征，以得到初始空域图像特征序列；

获取相邻第三目标视频帧的失真特征的差值的绝对值分别作为初始时域失真特征，以得到初始时域失真特征序列；以及获取所述多个第三目标视频帧中奇数帧或偶数帧的失真特征分别作为初始空域失真特征，以得到初始空域失真特征序列；

对所述初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行特征拼接处理，以得到原始视频数据对应的短时时空融合特征序列；

根据所述原始视频数据对应的短时时空融合特征和所述多个视频片段的运动特征进行长时时空特征融合，以得到所述原始视频数据对应的目标时空融合特征；

根据所述目标时空融合特征，生成每种原始分辨率的所述原始视频数据的质量数据，以区分不同原始分辨率的原始视频数据的质量数据。

2.根据权利要求1所述的方法，其特征在于，对所述多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，包括：

将所述多个原始视频帧输入第一特征提取网络中的上采样模块进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧，所述第一目标分辨率大于所述原始分辨率；

对所述多个第一目标视频帧进行特征提取，以得到所述多个第一目标视频帧的图像特征，包括：

将所述多个第一目标视频帧输入所述第一特征提取网络中的图像特征提取层进行多尺度图像特征的提取，得到所述多个第一目标视频帧各自的多尺度图像特征图；

对所述多个第一目标视频帧各自的多尺度图像特征图进行平均池化和拼接，以得到所述多个第一目标视频帧各自的图像特征向量。

3.根据权利要求2所述的方法，其特征在于，所述图像特征提取模块采用深度残差网络，则将所述多个第一目标视频帧输入所述第一特征提取网络中的图像特征提取层进行多尺度图像特征的提取，得到所述多个第一目标视频帧各自的多尺度图像特征图，包括：

将所述多个第一目标视频帧分别输入所述深度残差网络进行多尺度图像特征的提取，并获取所述深度残差网络中最后多个卷积模块输出的特征图，作为所述多个第一目标视频帧各自的多尺度图像特征图。

4.根据权利要求1的方法，其特征在于，对所述多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，包括：

将所述多个原始视频帧输入第二特征提取网络中的下采样模块进行下采样，得到具有第二目标分辨率的多个第二目标视频帧；

将所述多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到所述多个视频片段的运动特征，包括：

对所述多个第二目标视频帧进行切分，得到多个视频片段，所述视频片段的时长大于所述视频帧的时长；

将所述多个视频片段输入所述第二特征提取网络中的运动特征提取层进行运动特征的提取，以得到所述多个视频片段的运动特征图。

5.根据权利要求1所述的方法，其特征在于，对所述多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到所述多个第三目标视频帧的失真特征，包括：

将所述多个原始视频帧分别输入第三特征提取网络中的上采样模块进行上采样，得到具有第三目标分辨率的多个第三目标视频帧，所述第三目标分辨率大于所述原始分辨率；

将所述多个第三目标视频帧输入所述第三特征提取网络中的失真特征提取层进行多维失真特征的提取，得到所述多个第三目标视频帧各自的失真特征向量。

6.根据权利要求5所述的方法，其特征在于，对所述初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行特征拼接处理，以得到原始视频数据对应的短时时空融合特征序列，包括：

对所述初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列；

对所述目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列中的对应特征进行拼接，得到原始视频数据对应的短时时空融合特征序列。

7.根据权利要求6所述的方法，其特征在于，对所述初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行降维和空间映射，得到目标时域图像特征序列、目标空域图像特征序列、目标时域失真特征序列和目标空域失真特征序列，包括：

利用3层全连接层对所述初始时域图像特征序列中的各个初始时域图像特征分别进行降维和空间映射，以得到目标时域图像特征序列；

利用3层全连接层对所述初始空域图像特征序列中的各个初始空域图像特征分别进行降维和空间映射，以得到目标空域图像特征序列；

利用2层全连接层对所述初始时域失真特征序列中的各个初始时域失真特征分别进行降维和空间映射，以得到目标时域失真特征序列；

利用1层全连接层对所述初始空域失真特征序列中的各个初始空域失真特征分别进行空间映射，以得到目标空域失真特征序列。

8.根据权利要求6所述的方法，其特征在于，根据所述原始视频数据对应的短时时空融合特征和所述多个视频片段的运动特征进行长时时空特征融合，以得到所述原始视频数据对应的目标时空融合特征，包括：

利用N*1时间维度的1维卷积核，对所述短时时空融合特征序列中的每N个短时时空融合特征进行聚合，以得到多个聚合特征； N是所述视频片段对应时长中包含的短时时空融合特征的数量；

利用3层全连接层对所述多个视频片段的运动特征进行特征降维和空间映射，以得到多个降维运动特征；

将所述多个聚合特征与所述多个降维运动特征进行拼接，以得到多个所述目标时空融合特征。

9.根据权利要求8所述的方法，其特征在于，根据所述目标时空融合特征，生成所述原始视频数据的质量数据，包括：

利用3层全连接层对所述多个目标时空融合特征进行降维和空间映射，以得到多个特征值；

根据所述多个特征值，生成所述原始视频数据的质量数据。

10.一种视频数据处理装置，其特征在于，包括：获取模块、第一特征提取模块、第二特征提取模块、第三特征提取模块、特征融合模块和生成模块；

所述获取模块，用于获取具有不同原始分辨率的原始视频数据，所述原始视频数据包括多个原始视频帧；

所述第一特征提取模块，用于针对每种原始分辨率，对所述多个原始视频帧进行上采样，以得到具有第一目标分辨率的多个第一目标视频帧；对所述多个第一目标视频帧进行特征提取，以得到所述多个第一目标视频帧的图像特征；

所述第三特征提取模块，用于对所述多个原始视频帧进行上采样，并对上采样得到的多个第三目标视频帧进行失真特征提取，以得到所述多个第三目标视频帧的失真特征；

所述第二特征提取模块，用于对所述多个原始视频帧进行下采样，以得到具有第二目标分辨率的多个第二目标视频帧，所述第二目标分辨率小于所述第一目标分辨率；将所述多个第二目标视频帧切分为多个视频片段后进行特征提取，以得到所述多个视频片段的运动特征；

所述特征融合模块，用于获取相邻第一目标视频帧的图像特征的差值的绝对值分别作为初始时域图像特征，以得到初始时域图像特征序列；以及获取所述多个第一目标视频帧中奇数帧或偶数帧的图像特征分别作为初始空域图像特征，以得到初始空域图像特征序列；获取相邻第三目标视频帧的失真特征的差值的绝对值分别作为初始时域失真特征，以得到初始时域失真特征序列；以及获取所述多个第三目标视频帧中奇数帧或偶数帧的失真特征分别作为初始空域失真特征，以得到初始空域失真特征序列；对所述初始时域图像特征序列、初始空域图像特征序列、初始时域失真特征序列和初始空域失真特征序列进行特征拼接处理，以得到原始视频数据对应的短时时空融合特征序列；根据所述原始视频数据对应的短时时空融合特征和所述多个视频片段的运动特征进行长时时空特征融合，以得到所述原始视频数据对应的目标时空融合特征；

所述生成模块，用于根据所述目标时空融合特征，生成每种原始分辨率的所述原始视频数据的质量数据，区分不同原始分辨率的原始视频数据的质量数据。

11.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，与所述存储器耦合，用于执行所述计算机程序，以实现权利要求1-9中任一项所述方法中的步骤。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-9中任一项所述方法中的步骤。