CN115174919B

CN115174919B - 一种视频处理方法、装置、设备及介质

Info

Publication number: CN115174919B
Application number: CN202211075770.3A
Authority: CN
Inventors: 曹洪彬; 陈思佳; 黄永铖; 曹健; 杨小祥; 宋美佳; 张佳
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-11-22
Anticipated expiration: 2042-09-05
Also published as: CN115174919A

Abstract

本申请实施例提供了一种视频处理方法、装置、设备及介质，其中的方法包括：获取待处理的失真视频；获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息；基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值；根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果。采用本申请实施例不仅能够提升失真视频的画质损失的预测速率，而且还能确保失真视频的画质损失的预测准确性。

Description

一种视频处理方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，具体涉及图像处理领域，尤其涉及一种视频处理方法、装置、设备及介质。

背景技术

视频凭借其具有直观、生动形象、便捷等优势受到大众的广泛追捧。

视频传输过程场景下，需要对原始视频进行视频编码以得到失真视频；例如，在视频发送端可对原始视频进行压缩编码得到压缩编码后的码流，再传输压缩编码后的码流；在视频接收端可对接收到压缩编码码流进行解码处理，得到失真视频。

经实践发现，失真视频相比于原始视频会存在一定的画质损失（或称为失真），而如何准确地度量失真视频的画质损失，对提高失真视频的画质质量具有重要意义。

发明内容

本申请实施例提供一种视频处理方法、装置、设备及介质，不仅能够提升失真视频的画质损失的预测速率，而且还能确保失真视频的画质损失的预测准确性。

一方面，本申请实施例提供了一种视频处理方法，该方法包括：

获取待处理的失真视频，失真视频是对原始视频进行编码得到的；

获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息；第一全参考指标值的计算复杂度属于第一维度，且第一全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；

基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值；预测全参考指标值的计算复杂度属于第二维度，且预测全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；第一维度的计算复杂度低于第二维度的计算复杂度；

根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果，质量评测结果用于指示失真视频相较于原始视频的质量损失信息。

另一方面，本申请实施例提供了一种视频处理装置，该装置包括：

获取单元，用于获取待处理的失真视频，失真视频是对原始视频进行编码得到的；

获取单元，还用于获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息；第一全参考指标值的计算复杂度属于第一维度，且第一全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；

处理单元，用于基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值；预测全参考指标值的计算复杂度属于第二维度，且预测全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；第一维度的计算复杂度低于第二维度的计算复杂度；

处理单元，还用于根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果，质量评测结果用于指示失真视频相较于原始视频的质量损失信息。

在一种实现方式中，失真视频中包括N帧连续的视频帧，N为大于1的整数；将第k时刻从失真视频中采样到的视频帧表示为第i帧视频帧，k大于零，i为整数且i≤N；处理单元，还用于：

获取失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值，j、q均为整数且j、q≤N；

采用第j帧视频帧的第二全参考指标值和第q帧视频帧的第二全参考指标值，校准第i帧视频帧的预测全参考指标值，得到第i帧视频帧的真实全参考指标值；

处理单元用于根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果时，具体用于：

根据失真视频中各帧视频帧的真实全参考指标值，确定失真视频的质量评测结果。

在一种实现方式中，处理单元用于获取失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值时，具体用于：

按照第二全参考指标的采样周期T，对失真视频进行采样，得到M帧视频帧，T大于零，M为整数且M≤N；

基于第二全参考指标对M帧视频帧进行质量检测处理，得到M帧视频帧中每帧视频帧的第二全参考指标值；其中，第二全参考指标值的计算复杂度属于第二维度，第二全参考指标值用于度量：失真视频中的视频帧相较于原始视频中的视频帧的失真程度；

从M帧视频帧中每帧视频帧的第二全参考指标值中，筛选出第k-p时刻采样得到的第j帧视频帧的第二全参考指标值，以及第k-p+T时刻采样得到的第q帧视频帧的第二全参考指标值，p=k%T。

在一种实现方式中，处理单元用于采用第j帧视频帧的第二全参考指标值和第q帧视频帧的第二全参考指标值，校准第i帧视频帧的预测全参考指标值，得到第i帧视频帧的真实全参考指标值时，具体用于：

获取第j帧视频帧的预测全参考指标值，以及，第q帧视频帧的预测全参考指标值；

基于第j帧视频帧的预测全参考指标值和第二全参考指标值之间的线性关系，以及第q帧视频帧的预测全参考指标值和第二全参考指标值之间的线性关系，得到线性拟合函数的线性拟合因子；

基于第i帧视频帧的预测全参考指标值，和线性拟合函数的线性拟合因子，生成第i帧视频帧的真实全参考指标值。

在一种实现方式中，线性拟合函数VMAFFinal表示为：

VMAFFinal_k=max(min(r·VMAFPredict_k+t,100),0)

其中，VMAFFinal_k表示第i帧视频帧的真实参考指标值；VMAFPredict_k表示第i帧视频帧的预测全参考指标值；r、t表示线性拟合函数VMAFFinal的线性拟合因子；min()表示取最小值函数；max()表示取最大值函数。

若p小于等于T/2，则获取第j帧视频帧的预测全参考指标值，并根据第j帧视频帧的预测全参考指标值和第二全参考指标值，确定第j帧视频帧的校准偏移；

将第j帧视频帧的校准偏移以及第i帧视频帧的预测全参考指标值，作为紧邻偏移函数的输入信息，并将偏移输出结果作为第i帧视频帧的真实全参考指标值；

或者，若p大于T/2，则获取第q帧视频帧的预测全参考指标值，并根据第q帧视频帧的预测全参考指标值和第二全参考指标值，确定第q帧视频帧的校准偏移；

将第q帧视频帧的校准偏移以及第i帧视频帧的预测全参考指标值，作为紧邻偏移函数的输入信息，并将偏移输出结果作为第i帧视频帧的真实全参考指标值。

在一种实现方式中，紧邻偏移函数VMAFFinal表示为：

其中，VMAFFinal_k表示第i帧视频帧的真实参考指标值；VMAF_k-p表示第j帧视频帧的第二全参考指标值，VMAFPredict_k-p表示第j帧视频帧的预测参考指标值；VMAF_k-p+T表示第q帧视频帧的第二全参考指标值，VMAFPredict_k-p+T表示第q帧视频帧的预测参考指标值。

在一种实现方式中，处理单元用于根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果时，具体用于：

对失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成失真视频的目标全参考指标值；

基于失真视频的目标全参考指标值，生成失真视频的质量评测结果；

其中，质量损失信息中包括失真视频的目标全参考指标值。

在一种实现方式中，处理单元用于对失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成失真视频的目标全参考指标值时，具体用于：

对失真视频中各帧视频帧的预测全参考指标值进行均值运算，并将均值运算结果作为失真视频的目标全参考指标值；

或者，从失真视频中各帧视频帧的预测全参考指标值中，确定出数值最小的预测全参考指标值；并将数值最小的预测全参考指标值作为失真视频的目标全参考指标值。

在一种实现方式中，第一全参考指标包括以下至少一种：峰值信噪比及结构相似性；

编码过程信息包括以下至少一个：视频帧平均编码块信息，视频帧失真信息，视频帧尺寸信息，视频帧平均运动矢量信息，视频帧帧内预测块信息以及视频帧帧间预测块信息。

在一种实现方式中，处理单元用于基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值时，具体用于：

获取训练好的目标预测模型；

调用目标预测模型，并基于失真视频中各帧视频帧的第一全参考指标值和编码过程信息，对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值。

在一种实现方式中，训练好的目标预测模型是对初始预测模型进行训练得到的，初始预测模型包括多个参数；训练得到目标预测模型的过程包括：

获取样本集，样本集中包括至少一帧样本视频帧的第一全参考指标值、编码过程信息及真实全参考指标值；

调用初始预测模型，并基于样本视频帧的第一全参考指标值和编码过程信息，对样本视频帧进行质量预测处理，得到样本视频帧的预测全参考指标值；

按照减小样本视频帧的预测全参考指标值和真实全参考指标值之间的差异的方向，更新初始预测模型的参数；

从样本集中重新选取样本视频帧，对更新后的初始预测模型进行迭代训练，直至初始预测模型趋于稳定为止，得到训练好的目标预测模型。

另一方面，本申请实施例提供了一种终端，该终端包括：

处理器，用于加载并执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述视频处理方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述视频处理方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，计算机指令被处理器执行时实现上述的视频处理方法。

本申请实施例中，在获取到待处理的失真视频后，可采用计算复杂度属于第一维度的第一全参考指标，预测得到失真视频中每帧视频帧的第一全参考指标值；然后，基于失真视频中各帧视频帧的第一全参考指标值和编码过程信息，对各帧视频帧进行质量预测处理，得到每帧视频帧的预测全参考指标值，预测全参考指标值的计算复杂度属于第二维度，且第二维度的计算复杂度高于第一维度的计算复杂度，这样预测全参考指标值相对于第一全参考指标值而言，对失真视频的画质损失预测的准确度更高；从而基于较高准确度的各帧视频帧的预测全参考指标值可得到失真视频的较高准确性的质量评测结果。综上可知，本申请实施例支持通过失真视频中各帧视频帧编码过程中的编码过程信息，并辅助计算复杂度低的第一全参考指标，来快速计算得到失真视频中各帧视频帧的计算复杂度较高的预测全参考指标值，既确保失真视频中各帧视频帧的画质损失的计算速率，也保证画质损失的预测准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种视频传输过程的示意图；

图2a是本申请一个示例性实施例提供的一种视频处理应用场景的示意图；

图2b是本申请一个示例性实施例提供的另一种视频处理应用场景的示意图；

图3是本申请一个示例性实施例提供的一种视频处理方法的流程示意图；

图4是本申请一个示例性实施例提供的一种与时序无关的视频帧率下采样的采样方式的示意图；

图5a是本申请一个示例性实施例提供的一种确定失真视频的目标全参考指标值的示意图；

图5b是本申请一个示例性实施例提供的另一种确定失真视频的目标全参考指标值的示意图；

图6是本申请一个示例性实施例提供的另一种视频处理方法的流程示意图；

图7是本申请一个示例性实施例提供的一种与时序有关的视频帧率下采样的采样方式的示意图；

图8是本申请一个示例性实施例提供的一种线性拟合校准的示意图；

图9是本申请一个示例性实施例提供的一种紧邻偏移校准的示意图；

图10是本申请一个示例性实施例提供的又一种视频处理方法的流程示意图；

图11是本申请一个示例性实施例提供的一种输出质量评测结果的示意图；

图12是本申请一个示例性实施例提供的一种输出画质损失信息的示意图；

图13是本申请一个示例性实施例提供的一种视频处理装置的结构示意图；

图14是本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，提出一种视频处理方案；所谓视频是由至少两帧视频帧（或称为图像帧）按序连接组成的，也就是说，视频帧是视频的最小或最基本单位；当播放视频时，是按照多帧视频帧的播放顺序连续的输出多帧视频帧，当连续的视频帧变化每秒超过24帧以上时，根据人眼视觉暂留原理，使人眼获得各帧视频帧平滑连续的视觉效果。其中，人眼视觉暂留是指：物体在快速运动时，如视频的多帧视频帧被以每秒超过24帧以上的速度进行播放时，在人眼所看到的影像（如一帧视频帧所包含的场景）消失后，人眼仍能继续保留其影像0.1-0.4秒左右的视频帧所包含的内容。

随着网络的发达和普及，视频凭借其直观、互动性、信息量丰富等优势，在互联网中广泛产生和传播；例如，在云游戏场景中可对游戏操纵过程进行录制，得到游戏视频，再如，对象可以从视频平台中浏览、下载或转发其他对象在该视频平台上传的视频；等等。在实际对视频进行传播之前，为减小传输数据量提升传输速率等，往往会对视频进行视频编码处理，得到编码处理后数据量较小的视频。本申请实施例将编码处理之前的视频称为原始视频（或称为源视频），将编码处理之后的视频称为失真视频，具体是将编码处理后的视频进行解码得到的待播放的视频称为失真视频；如图1所示，视频发送端先对原始视频进行视频编码处理（如视频压缩处理）得到编码后的码流，然后将编码后的码流传输至视频接收端，由视频接收端对编码后的码流进行解码处理，得到解码处理后的失真视频。

经实践发现，经过视频编码处理后的失真视频相比于原始视频，存在一定的画质损失。画质损失可以称为画质失真，具体是指失真视频的画面质量相比于原始视频的画面质量存在损失，更为具体是指失真视频中的目标视频帧（如任一帧或多帧），相比于原始视频中目标视频帧对应的视频帧之间的画面质量存在损失；由前述描述可知，失真视频是对原始视频进行视频编码得到的，具体是对原始视频中的每帧视频帧进行视频编码得到的，那么确定原始视频中被编码的视频帧，与失真视频中编码得到的视频帧之间存在对应关系。

在实际应用中，可以采用视频质量指标来评价视频画面的质量，视频质量指标包括但不限于：清晰度、锐度、镜头畸变、分辨率、色域范围、色彩纯度或色彩平衡等。举例来说，假设视频质量指标为清晰度，当检测到对原始视频进行视频编码处理得到的失真视频的清晰度，低于原始视频的清晰度时，可以确定失真视频的画面质量与原始视频的画面质量之间存在画质损失，具体是存在清晰度损失，即视频接收端接收并播放失真视频时，视频的清晰度比视频发送端播放原始视频时，视频的清晰度低。因此，较为准确地度量失真视频相比于原始视频的画质损失，能够为改善失真视频的视频质量提供较好地指导意见，从而提升失真视频的视频质量。

目前，支持采用全参考指标（或简称为评价指标）针对失真视频进行全参考评估或评测，以实现度量失真视频的画质损失；所谓全参考评估是指基于原始视频和失真视频的画质评估，即通过对比原始视频中各帧视频帧和失真视频中各帧视频帧的信息量或特征相似性等，给出失真视频的画质损失度量。其中，从计算复杂度的维度，可以将全参考指标分为第一维度指标和第二维度指标；第一维度指标的计算复杂度属于第一维度，具体采用第一维度指标对视频帧进行画质损失评估时计算指标值的计算复杂度，属于第一维度；第二维度指标的计算复杂度属于第二维度，具体采用第二维度指标对视频帧进行画质损失评估时计算指标值的计算复杂度，属于第二维度；第一维度的计算复杂度低于第二维度的计算复杂度，计算复杂度越大，则计算得到指标值所耗费的资源越多，如耗费时间越长。第一维度指标和第二维度指标均用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；具体是度量：失真视频中各帧视频帧的画面质量相较于原始视频中各帧视频帧的画面质量的失真程度。第一维度指标的计算复杂度低于第二维度指标的计算复杂度；也就是说，采用第一维度指标确定失真视频的第一指标值的计算复杂度，要小于采用第二维度指标确定失真视频的第二指标值的计算复杂度。

第一维度指标可包括但不限于：峰值信噪比（Peak Signal to Noise Ratio，PSNR）以及结构相似性（Structural Similarity，SSIM）。其中，峰值信噪比是峰值信号的能量和噪声的平均能量之比，本质上是比较原始视频中的视频帧与失真视频中的相应视频帧之间的图像像素值差异；峰值信噪比的单位为分贝dB，峰值信噪比的指标值越大，表示失真越小，反之，指标值越小，表示失真越大。结构相似性是一种用于衡量两帧视频帧（即原始视频中的视频帧和失真视频帧中的对应视频帧）相似度的指标；支持从亮度、对比度、结构等方面，度量原始视频中的视频帧和失真视频中的相应视频帧的图像相似性。结构相似性的指标值的取值范围为[0,1]，取值越大，表示视频帧的失真越小，反之，取值越大，表示视频帧的失真越大。第二维度指标可包括但不限于：视频质量多方法评价融合（VisualMultimethod Assessment Fusion，VMAF）；视频质量多方法评价融合是一种主观视频质量评价体系，能够对视频进行更符合人眼视觉的质量评分，其计算复杂度是峰值信噪比PSNR或结构相似性SSIM的计算复杂度的200-500倍。需要说明的是，本申请实施例对第一维度指标的具体类型和第二维度指标的具体类型不作限定，上面只是给出的几种示例性的全参考指标。

不同计算复杂度的指标具有各自的优势和劣势。例如，第一维度指标对视频帧率要求不高，在一次视频质量评估中能够实现对失真视频中的每一帧视频帧均进行计算，得到每一帧的峰值信噪比的指标值，确保视频帧的质量检测的计算效率；但其只能对视频帧进行客观评价，而不结合人类主观因素对视频进行质量评价，使得画质评估结果无法与人类视觉达到大致一致的效果，降低画质评估的准确性。其中，人眼对空间频率较低（平坦区域）的敏感度比空间频率较高（纹理区域）的敏感度要高，人眼对亮度的敏感度比色度的敏感度要高，而且人眼对一个区域的感知结果会受到其周围邻近区域的影响人类观看视频时的视觉效果。再如，第二维度指标能够结合人类直观评价因素，对视频帧进行质量评价，得到的评价结果与人类视觉能够达到大致一致的效果，确保视频帧的质量评价的准确性，但其计算复杂度高，对视频帧率要求也较高，导致在一次评估过程中只能对失真视频中的部分视频帧进行评价，如果要对失真视频中的每帧视频帧进行计算的话，需要不断修改视频帧率，进行多次评估，从而计算速度慢，计算效率低。

考虑到现有主流全参考指标不能达到计算效率和画质评估准确性之间的平衡，本申请实施例提出一种基于低计算复杂度的第一维度指标和编码过程信息，预测视频帧的高计算复杂度的预测全参考指标值的视频处理方案，该方案通过对原始视频编码过程中的编码过程信息，并辅助第一维度指标（即低计算复杂度的全参考指标），实现快速计算得到失真视频的高计算复杂度的全参考指标的指标值。其中，该视频处理方案的大致原理可包括：在获取到待处理的失真视频后，首先，采用属于第一维度指标的第一全参考指标（如峰值信噪比和结构相似性），预测得到失真视频中每帧视频帧的第一全参考指标值；然后，基于失真视频中各帧视频帧的第一全参考指标值和编码过程信息，对各帧视频帧进行质量预测处理，得到每帧视频帧的计算复杂度较高的预测全参考指标值；最后，基于较高准确度的各帧视频帧的预测全参考指标值可得到失真视频的较高准确性的质量评测结果。

上述方案中，支持基于低计算复杂度的第一全参考指标计算得到失真视频中各帧视频帧的第一全参考指标值，并参考视频帧的编码过程信息得到每帧视频帧的预测全参考指标值；由于预测全参考指标值的计算复杂度高于第一全参考指标值的计算复杂度，这样预测全参考指标值相对于第一全参考指标值而言，对失真视频的画质损失预测的准确度更高；从而基于较高准确度的各帧视频帧的预测全参考指标值可得到失真视频的较高准确性的质量评测结果。换句话说，本申请实施例支持通过失真视频中各帧视频帧编码过程中的编码过程信息，并辅助计算复杂度低的第一全参考指标，来快速计算得到失真视频中各帧视频帧的计算复杂度较高的预测全参考指标值，既确保失真视频中各帧视频帧的画质损失的计算速率，也保证画质损失的预测准确性。

本申请实施例提供的视频处理方案可以由计算机设备来执行；其中，计算机设备中部署有具有实现本申请实施例提供的视频处理方案的功能的视频质量评价工具（或插件、应用等），这样可具体由该视频质量评价工具来执行视频处理方案。根据实际应用中需要使用全参考指标获得失真视频的画质损失的应用场景不同，计算机设备的种类并不相同。下面对不同应用场景下，计算机设备的可能种类进行介绍，其中：

1）应用场景为实时通讯场景，所谓实时通讯场景是指利用硬件设备（如个人电脑或智能手机等），进行实施信息收发的通讯场景。在实际应用中，实时通讯场景是较为丰富的，下面以实时通讯场景包括直播场景和云游戏场景为例，对实时通讯场景下，计算机设备的类型进行介绍，其中：

①如图2a所示，实时通讯场景为直播场景，此时失真视频为直播视频。其中，直播过程中的直播视频的传输流程可包括：主播持有的终端设备201录制并生成原始的直播视频，并由终端设备201对原始的直播视频进行编码得到失真视频后，将失真视频传输至服务器，再由服务器转发（或编码后转发）编码后的直播视频至各个观众所持有的终端设备，以便于观众通过各自持有的终端设备进行直播视频的播放。由上述描述的直播视频的传输流程可知，在直播场景中是由主播使用的终端设备201来录制并产生原始视频，并对原始视频进行编码以得到失真数据，即终端设备201能够同时拿到原始视频和失真视频；因此，在直播场景中用于度量失真视频的画质损失的计算机设备，可是指主播所持有的终端设备201。

其中，终端设备可包括但不限于：智能手机（如Android手机、iOS手机等）、平板电脑、个人电脑、便携式个人计算机、移动互联网设备（MobileInternetDevices，简称MID）、智能电视、车载设备、头戴设备等可以进行触屏的智能设备，本申请实施例并不对终端设备的类型进行限定，在此说明。

②如图2b所示，实时通讯场景为云游戏场景，此时失真视频为云游戏视频。其中，云游戏（Cloud Gaming）又可称为游戏点播（Gaming on Demand），是一种以云计算技术为基础的在线游戏技术。云游戏技术使图形处理与数据运算能力相对有限的轻端设备（ThinClient）能运行高品质游戏。在云游戏场景下，游戏并不在游戏玩家使用的终端中运行，而是在云端服务器202中运行；云端服务器202将游戏场景渲染为视频音频流（即原始的云游戏视频），并将原始的云游戏视频进行编码后，并通过通信网络将编码后的云游戏视频流传输给游戏玩家的终端。游戏玩家的终端无需拥有强大的图形处理与数据运算能力，仅仅需要拥有基本的流媒体播放能力，与获取游戏玩家输入的指令并将游戏玩家输入的指令发送给云端服务器202的能力即可。由上述描述的云游戏视频的传输流程可知，在云游戏场景中是由云端服务器202来渲染得到原始的云游戏视频，并对原始云游戏视频进行编码转发的；因此，在云游戏场景中用于度量失真视频的画质损失的计算机设备，可是指主播所持有的云端服务器202。

其中，云端服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及云端服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

2）应用场景为离线场景，所谓离线场景是指无需利用互联网，就可以实现对视频处理的应用场景。此场景下，在对象具有对失真视频进行画质评估的需求时，就可以使用计算机设备针对失真视频进行画质损失评估；此时计算机设备可以是服务器或终端设备，其中，服务器或终端设备的种类可参见前述相关描述，在此不作赘述。

例如：对象A持有部署有视频质量评价工具的计算机设备，那么当对象B具有对失真视频的画质损失进行评估的需求时，对象B可以将失真视频和相应的原始视频发送至对象A，以便于对象A使用计算机设备，基于原始视频和失真视频进行比对，以得到失真视频的画质损失度量。再如：对象A持有部署有视频质量评价工具的计算机设备，当采用该计算机设备播放任一应用中的视频时，可以调用视频质量评价工具对正在播放的视频（即编码后的失真视频）进行画质损失评估。

可以理解的是，上述只是对本申请实施例提供的视频处理方案的几种示例性应用场景进行介绍；在实际应用中，视频处理方案的应用场景还可以发生变化，进而计算机设备的种类可以发生适应性改变，在此说明。另外，本申请实施例运用到具体产品或技术中时，如获取待处理的失真视频时，此时需要获得失真视频的持有者的许可或者同意；且相关数据的收集、使用和处理需要遵守相关法律法规和标准，如视频的类型需要遵循相关法律法规和标准。

基于上述描述的视频处理方案，本申请实施例提出更为详细的视频处理方法，下面将结合附图对本申请实施例提出的视频处理方法进行详细介绍。

图3示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图；该视频处理方法可以由计算机设备来执行，该视频处理方法可包括但不限于步骤S301-S304：

S301：获取待处理的失真视频。

失真视频是对原始视频进行编码处理得到的；具体是对原始视频中的各帧视频帧进行编码处理，得到编码处理后的码流，通过对编码处理后的码流进行解码处理可得到待处理的失真视频。具体实现中，在具有对失真视频进行画质损失评估的需求时，可以通过计算机设备获取待处理的失真视频，具体是调用计算机设备中部署的视频质量评价工具接收待处理的失真视频，以便于视频质量评价工具对接收到的视频质量评价工具执行后续处理。

由前述对本申请实施例涉及的应用场景的相关介绍可知，本申请实施例提供的视频处理方案可应用于实时通讯场景，如实时通讯场景为直播场景；在直播场景中，计算机设备（如主播持有的终端设备）在录制直播视频时就可以对已录制部分视频进行编码处理以得到失真视频，如果具有对失真视频进行画质损失评估的需求，则可以实时录制直播视频和对已录制的直播视频进行编码得到部分失真视频，以实现实时获取待处理的失真视频。或者，本申请实施例提供的视频处理方案可应用于离线场景，如计算机设备在历史时间内接收到待处理的失真视频，则具有对该待处理的失真视频进行画质损失评估的需求时，可从计算机设备的存储空间中获取到该待处理的失真视频；其中，历史时间可是指距离当前时间之前的目标时长段内的任一时刻，当前时间是指产生评估失真视频的画质损失的需求的时刻。

可以理解的是，不同应用场景中待处理的失真视频的获取方式可以发生改变，在此不对每种应用场景下待处理的失真视频的获取过程进行穷举说明。

S302：获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息。

下面分别对失真视频帧中各帧视频帧的第一全参考指标值的获取过程，以及，失真视频帧中各帧视频帧的编码过程信息的获取过程，进行介绍，其中：

（1）视频帧的第一全参考指标值是基于第一全参考指标对视频帧进行质量评测得到的。

其中，第一全参考指标属于第一维度指标，第一维度指标的计算复杂度属于第一维度，第一全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度，如按照视频播放顺序，失真视频中的第L帧视频帧的画面质量相较于原始视频中第L帧视频帧的画面质量的失真程度，L为大于等于零的整数。正如前述所描述的，第一维度指标可包括峰值信噪比和结构相似性等指标，那么第一全参考指标可以是指：峰值信噪比，或者，结构相似性，或者，峰值信噪比和结构相似性这两种评价指标。在后续实施例中以第一全参考指标包括峰值信噪比和结构相似性这两种评价指标为例进行介绍，特在此说明。

以在60fps的实时通讯场景（如云游戏场景）为例，对获取失真视频中每帧视频帧的第一全参考指标值的实施过程进行介绍。其中，fps是frames per second的缩写，可以理解为画面每秒传输帧数，通俗来讲就是指每秒播放的动画或视频的画面数；60fps是指每秒传输的视频帧的数量为60帧，也就是说，每秒可以播放60帧视频帧。

正如前述所描述，第一全参考指标（如峰值信噪比和结构相关性）的计算复杂度低，这使得第一全参考指标能够达到较大的视频采样帧率（或称为计算帧率），如在失真视频的视频帧率为60fps时，第一全参考指标的视频采样帧率可以设置为60fps，即每秒可以采样到失真视频中连续的60帧视频帧，而失真视频的视频帧率也为60fps，即失真视频每秒传输60帧视频帧，这样失真视频中的每一帧视频帧均可以被采样到；也就是说，基于第一全参考指标对每一帧视频帧均进行质量评测，相比于需要多次采集视频帧才能对失真视频中的每帧视频帧均采集完成而言，在一定程度上提高失真视频的画质损失的计算速度和效率。

其中，第一全参考指标可包括峰值信噪比和结构相关性，这两种评价指标的采样过程均与失真视频中各帧的时序无关，即对失真视频进行采样时可以不考虑失真视频中各个视频帧之间的播放先后顺序。这种与失真视频中各帧视频帧的时序无关的视频帧率下采样的采样方式的示意图可参见图4，如图4所示，假设待采样的失真视频的视频帧率为60fps（即每秒传输60帧视频帧），且视频采样帧率为0.5fps（即每秒采样0.5帧视频帧）；此实现方式下，失真视频中每隔120帧视频帧，可采集到一帧视频帧，即失真视频中的第120帧视频帧、第240帧视频帧、第360帧视频帧、...，可以被采样得到，进而可计算被采样的各帧视频帧的第一全参考指标值。也就是说，对于时序无关的评价指标（如第一全参考指标）来说，在视频帧率下采用时只需要将被采样的单帧视频帧纳入评估即可。

在本申请实施例中，为了得到失真视频中的每一帧视频帧的第一全参考指标值，可以将第一全参考指标的视频采样帧率设置为失真视频的视频帧率，如失真视频的视频帧率为60fps，则将第一全参考指标的视频采样帧率也设置为60fps，以达到失真视频中的每一帧视频帧均能够被采样的目的。应当理解的是，本申请实施例对第一全参考指标的视频采样帧率的具体取值不作限定，如第一全参考指标的视频采样帧率也可以设置为大于60fps，只要能确保失真视频中的每一帧视频帧均能够被采样即可，在此说明。

通过上述所描述的相关内容，采样得到失真视频中的每一帧视频帧以及原始视频中的每一帧视频帧后，可以基于第一全参考指标的计算公式，并基于采样得到的失真视频中的每一帧视频帧以及原始视频中的每一帧视频帧，计算得到失真视频中各帧视频帧的第一全参考指标值。

下面给出第一全参考指标分别为峰值信噪比和结构相似性时，对应的计算公式。其中，第一全参考指标为峰值信噪比，视频帧的峰值信噪比是原始视频中视频帧与失真视频中对应的视频帧之间的均方误差相对于(2²-1)²的对数值的10倍，视频帧的峰值信噪比的计算公式如下：

(1)

其中，PSNR表示视频帧的峰值信噪比的指标值（即第一全参考指标值）；n表示每个采样值的比特数，可取值为8比特（bit），即n=8；MSE表示原始视频中的视频帧与失真视频中相应视频帧之间的均方误差；log₁₀()表示对数函数。

第一全参考指标为结构相似性时，视频帧的结构相似性的计算公式如下：

(2)

其中，x，y为两幅图像，如x为原始视频中的视频帧，y为失真视频中相应的视频帧，或者，x为失真视频中的视频帧，y为原始视频中相应的视频帧；SSIM(x,y)表示两帧视频帧的结构相似性的指标值（即第一全参考指标至）；μ_x是x视频帧的平均值，σ_x是x视频帧的标准差；μ_y是y视频帧的平均值，σ_y是y视频帧的标准差；σ_xy是x视频帧和y视频帧的协方差；C₁和C₂为常数。

综上可知，通过上述描述的相关内容以及给出的第一全参考指标的计算公式，可以获取到失真视频中的每一帧视频帧的第一全参考指标值。

（2）视频帧的编码过程信息可以从编码器中获取到。具体是采用编码器对原始视频中的各帧视频帧进行编码时，可以产生得到各帧视频帧对应的编码过程信息，这样可以从编码器中获取到视频帧的编码过程信息。

其中，视频帧的编码过程信息可包括但不限于：视频帧平均编码块信息、视频帧失真信息，视频帧尺寸信息，视频帧平均运动矢量信息，视频帧帧内预测块信息以及视频帧帧间预测块信息等等。视频帧平均编码块信息可包括编码帧平均编码块qp，qp参数可用于量化模块，能够引起视频失真，以及决定着残差数据的大小，即很大程度影响最终编码后码流的大小。视频帧的平均编码块qp值的确定过程可包括：对视频帧进行编码时，将视频帧划分为多个宏块，每个宏块编码后都有一个qp值，且每个宏块的qp值不一定相等，这样对视频帧的多个宏块的qp值进行平均，可得到视频帧的平均编码块qp。视频帧失真信息可包括编码帧satd，是将残差经哈德曼变换的系数绝对值总和，可以将其看作简单的时频变换，其值在一定程度上可以反映生成码流的大小。视频帧尺寸信息可包括编码帧大小（packet size），可是指视频帧的分辨率。视频帧平均运动矢量信息包括：编码帧平均x/y方向运动矢量（avgmvx/mvy）。视频帧帧内预测块信息可包括编码帧帧内预测块数量（intrablocks）。视频帧帧间预测块信息可包括编码帧帧间预测块数量（inter blocks）。

需要说明的是，上述只是本申请实施例给出的几种示例性的视频帧的编码过程信息的类型，本申请实施例对获取到的视频帧的编码过程信息的具体类型不作限定；在实际应用中获取到的视频帧的编码过程信息的种类可以发生变化。

S303：基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值。

预测全参考指标值的计算复杂度属于第二维度，即预测全参考指标的计算复杂度高，在一定程度上提升计算画质损失的准确度，且预测全参考指标值可用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度。

具体实现中，可以获取用于确定视频帧的预测全参考指标值的，训练好的目标预测模型，然后，调用该目标预测模型，并基于失真视频中各帧视频帧的第一全参考指标值和编码过程信息，对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值。例如，失真视频中包括目标视频帧，该目标视频帧为失真视频所包含的多帧视频帧中的任一帧，那么可以将该目标视频帧的第一全参考指标值和编码过程信息，作为目标预测模型的输入信息，并将该目标预测模型的输出信息作为该目标视频帧的预测全参考指标值。考虑到目标预测模型是基于视频帧的真实全参考指标值（如采用高计算复杂度的评价指标计算得到的）训练得到的，因而采用目标预测模型预测视频帧的画质损失时，得到的视频帧的预测全参考指标值的准确度高。

其中，训练好的目标预测模型可表示为如下形式：

(3)

其中，VMAFPredict_k表示第k时刻采样到的视频帧的预测全参考指标值，k大于零。β₀、β₁、β₂、β₃、β₄、β₅、β₆、β₇、β₈、β₉表示公式（3）的参数；PSNR_k表示第k时刻采样到的视频帧的峰值信噪比的指标值。SSIM_k表示第k时刻采样到的视频帧的结构相似性的指标值。qp_k表示第k时刻采样到的视频帧的编码过程信息“编码帧平均编码块qp”；satd_k表示第k时刻采样到的视频帧的编码过程信息“编码帧satd”；mvx_k和mvy_k表示第k时刻采样到的视频帧的编码过程信息“编码帧平均x/y方向运动矢量（avgmvx/mvy）”；intra_k和inter_k表示第k时刻采样到的视频帧的编码过程信息“编码帧帧内预测块和帧间预测块数量（intrablocks/interblocks）”；packets_k表示第k时刻采样到的视频帧的编码过程信息“编码帧大小（packetsize）”。sigmoid()表示激活函数，考虑到该激活函数的取值范围为[0,1]，为便于后续对预测全参考指标值的校准，如采用VMAF分数校准预测全参考指标值，且VMAF分数的取值为[1,100]，取值越大，表示画质损失越小，因此可以为该激活函数的结果乘以100，以使得预测得到的视频帧的预测全参考指标的取值范围为[1,100]，便于后续校准预测全参考指标值。

由上述给出的计算视频帧的预测全参考指标值的计算公式可知，本申请实施例可以参照视频帧的第一全参考指标和编码过程信息，计算得到计算复杂度高的预测全参考指标值，不仅确保在一次质量评估中可以对失真视频中的每一帧均进行画质损失评估，还可以确定计算得到的指标值的准确性。

需要说明的是，本申请实施例的主要思想是基于低计算复杂度的评价指标和编码过程信息，预测高计算复杂度的评价指标；因此，对于视频帧的预测全参考指标的计算方式并不局限于公式（3）。例如，根据参考的第一全参考指标的类型不同（如第一全参考指标为峰值信噪比或结构相似性中的任一种或多种），或者，选取的视频帧的编码过程信息的不同，或者，选取的激活函数不同，上述计算视频帧的预测全参考指标值的计算公式的表现形式可以发生变化，且各个参数的权重值也会发生变化。再如，目标预测模型还可以是机器学习中的网络模型的形式。本申请实施例对计算视频帧的预测全参考指标的具体实施方式不作限定。

S304：根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果。

在基于前述步骤S301-S304得到失真视频中，各帧视频帧的预测全参考指标值后，还支持对失真视频中各帧视频帧的预测全参考指标值进行处理，以得到整个失真视频的质量评测结果，该质量评测结果可用于指示失真视频相较于原始视频的质量损失信息。

具体地，可先对失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成整个失真视频的目标全参考指标值；目标全参考指标值越大，表示失真视频相较于原始视频的画质损失越小，从而失真视频的画面质量越好；反之，目标全参考指标值越小，表示失真视频相较于原始视频的画质损失越大，从而失真视频的画面质量越差。然后，基于失真视频的目标全参考指标值，生成失真视频的质量评测结果。其中，质量损失信息中可以包括失真视频的目标全参考指标值，但该质量损失信息的表现形式为评语形式，如质量损失信息为“失真视频的目标全参考指标值为90，画质损失较小”）；或者，质量损失信息可是指失真视频的目标全参考指标值，该目标全参考指标值是根据失真视频中各帧视频帧的预测全参考指标值生成的；这样失真视频的质量评测结果中通过包含的目标全参考指标值来指示，失真视频的画面质量相较于原始视频的画面质量的损失量较小或较大等。

上述实现过程中，对失真视频中各帧视频帧进行的目标处理可包括但不限于：平均运算处理或最小值处理；其中：

在一种实现方式中，目标处理包括平均运算处理。具体实现中，在获取到失真视频中各帧视频帧的预测全参考指标值后，可对失真视频中各帧视频帧的预测全参考指标值进行均值运算，得到均值运算结果；并将均值运算结果作为失真视频的目标全参考指标值。也就是说，将基于失真视频中各帧视频帧的预测全参考指标值，计算得到的平均预测全参考指标值作为整个失真视频的目标全参考指标值。

其中，均值运算可是指：对失真视频中各帧视频帧的预测全参考指标值求和，然后将和除以视频帧的总数得到平均值，该平均值为均值运算结果。举例来说，如图5a所示，假设失真视频中包括的视频帧分别为：视频帧1、视频帧2、视频帧3、视频帧4以及视频帧5，且视频帧1的预测全参考指标值为72、视频帧2的预测全参考指标值为63、视频帧3的预测全参考指标值为80、视频帧4的预测全参考指标值为82以及视频帧5的预测全参考指标值为80，视频帧的预测全参考指标值越大，表示该视频帧的画质损失越少。那么对视频帧1-视频帧5的预测全参考指标值进行求和，得到数值377；再对数值377除以视频帧的总数量5，得到平均值（即均值运算结果）为75.4。

通过这种平均预测全参考指标值作为失真视频的目标全参考指标值的方式，能够在一定程度通过平均预测全参考指标值反映整个失真视频的画质损失。

其他实现方式中，目标处理包括最小值处理。具体实现中，在获取到失真视频中各帧视频帧的预测全参考指标值后，可从失真视频中各帧视频帧的预测全参考指标值中，确定出数值最小的预测全参考指标值；并将数值最小的预测全参考指标值作为失真视频的目标全参考指标值。也就是说，将失真视频的各帧视频中，预测全参考指标值的数值最小的预测全参考指标值，确定为整个失真视频的目标全参考指标值。

如图5b所示，假设失真视频中包括的视频帧分别为：视频帧1、视频帧2、视频帧3、视频帧4以及视频帧5，且视频帧1的预测全参考指标值为72、视频帧2的预测全参考指标值为63、视频帧3的预测全参考指标值为80、视频帧4的预测全参考指标值为82以及视频帧5的预测全参考指标值为80，视频帧的预测全参考指标值越大，表示该视频帧的画质损失越少。那么比较视频帧1-视频帧5的预测全参考指标值的数值大小，可知视频帧2的预测全参考指标值63是最小的，则将视频帧2的预测全参考指标值63作为整个失真视频的目标全参考指标值。

不难理解的是，如果失真视频的各帧视频帧中的数值最小的预测全参考指标值，都满足对象对画质损失的需求，那么可以确定失真中各帧视频帧的画质损失均是满足需求的；在一些对视频画质要求较高的场景中，采样最小值处理方式，有利于对象更好地对失真视频的画质损失进行评估。

图6示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图；该视频处理方法可以由计算机设备来执行，该视频处理方法可包括但不限于步骤S601-S605：

S601：获取待处理的失真视频。

S602：获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息。

S603：基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值。

需要说明的是，步骤S601-S603所示的具体实施过程，可参见前述图3所示实施例中步骤S301-S303所示的具体实施过程的相关描述，在此不作赘述。

S604：对失真视频中各帧视频帧的预测全参考指标值进行校准，得到各帧视频帧的真实全参考指标值。

由图3所示的实施例的相关描述可知，本申请实施例支持参考低计算复杂度的第一全参考指标以及编码过程信息，预测得到视频帧的高计算复杂度的预测全参考指标值，相比于传统高计算复杂度的评价指标（如VMAF而言）对于视频采用帧率的限制而言，在一定程度上可以提升对失真视频中各帧视频帧的计算速度和效率。但不难理解的是，通过目标预测模型预测得到的视频帧的预测全参考指标值，与采用传统高计算复杂度的评价指标（如VMAF指标）计算得到的真实全参考指标值之间仍然有一定差距，因此，为进一步提升视频帧的预测全参考指标值的准确度，本申请实施例在获取到失真视频中各帧视频帧的预测全参考指标值后，还支持采用第二全参考指标值对预测得到的预测全参考指标值进行校准，以得到待预测的视频帧的真实全参考指标值；其中，第二全参考指标值是基于高计算复杂度的第二全参考指标，对视频帧进行画质损失计算确定的；第二全参考指标值的计算复杂度属于第二维度，如第二全参考指标为VMAF指标，第二全参考指标值用于度量：失真视频中的视频帧相较于原始视频中的视频帧的失真程度。

为便于阐述对失真视频中各帧视频帧的预测全参考指标值的校准过程，下面以对失真视频中第i帧视频帧的预测全参考指标值进行校准为例，对校准预测全参考指标值的具体实施过程进行介绍。其中，假设失真视频中包括N帧连续的视频帧，N为大于1的整数，而第i帧视频帧是第k时刻从失真视频中进行视频采样得到的，即将第k时刻从失真视频中采样到的视频帧表示为第i帧视频帧，i为整数且i≤N。该校准过程可包括但不限于步骤s11-s12，其中：

s11：获取失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值，j、q均为整数且j、q≤N。其中，第二全参考指标值是基于第二全参考指标对视频帧进行画质损失评估得到的，如第二全参考指标值为VMAF分数，即采用VMAF指标对视频帧的画质损失评估得到视频帧的VMAF分数。

具体地，可基于第二全参考指标对失真视频进行画质损失评估，得到失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值。下面以第二全参考指标为VMAF指标，且采样周期为T，T大于零，即每间隔T时间，可从失真视频中采样得到一帧视频帧，为例，对获取失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值的具体实施过程进行介绍，其中：

首先，可按照第二全参考指标的采样周期T，对失真视频进行采样，得到M帧视频帧，M为整数且M≤N。正如前述所描述的，由于VMAF指标受到计算复杂度高的限制，只能以低计算帧率进行计算，这使得并不能对失真视频中的每一帧视频帧进行采样计算。例如，对于1080p，60fps的视频流（如失真视频），VMAF指标在单线程下计算帧率只能达到0.25fps-0.5fps；当VMAF指标的计算帧率取值为0.5fps时，表示每隔2秒采样一帧视频帧，且视频流的视频帧率为60fps，即每秒传输60帧视频帧，那么可以确定VMAF指标的采样周期T=120帧，即每隔120帧可采样一帧视频帧计算其VMAF分数；因此，当失真视频中视频帧的总数为1000帧时，可以确定采样得到的视频帧的总数M=8，分别为第120帧视频帧、第240帧视频帧、第360帧视频帧、第480帧视频帧、第600帧视频帧、第720帧视频帧、第840帧视频帧以及第960帧视频帧。

然后，基于第二全参考指标对M帧视频帧进行质量检测处理，得到M帧视频帧中每帧视频帧的第二全参考指标值。需要注意的是，在评估M帧视频帧中每帧视频帧的画质损失时，还需参考每帧视频帧的前后相邻两帧视频帧的图像内容。理由如下：由于VMAF指标的采样过程均与失真视频中各帧的时序有关，即对失真视频进行采样时需要考虑失真视频中各个视频帧之间的播放先后顺序，因此，在视频帧率下采样时，需将被采样的视频帧的相邻前后两帧视频帧纳入评估。这种与失真视频中各帧视频帧的时序有关的视频帧率下采样的采样方式的示意图可参见图7，如图7所示，假设待采样的失真视频的视频帧率为60fps（即每秒传输60帧视频帧），且视频采样帧率为0.5fps（即每秒采样0.5帧视频帧）；此实现方式下，失真视频中每隔120帧视频帧，可采集到一帧视频帧，即失真视频中的第120帧视频帧、第240帧视频帧、第360帧视频帧、...，可以被采样得到；相比于与时序无关的评价指标的采样方式（如图4所示）而言，在评估采样得到的每一帧视频帧（如120帧）时，还需参考第119帧视频帧和第121帧视频帧的图像内容。

最后，从M帧视频帧中每帧视频帧的第二全参考指标值中，筛选出第k-p时刻采样得到的第j帧视频帧的第二全参考指标值，以及第k-p+T时刻采样得到的第q帧视频帧的第二全参考指标值，p=k%T。也就是说，待评估的第i帧视频帧是第k时刻采集到的，因此对于第k时刻，设置p=k%T，如k=122，T=120时，p=122%120=2，那么可以确定：基于VMAF指标在第k-p时刻采样的第j帧视频帧，以及在第k-p+T时刻采样的第q帧视频帧，为第k时刻附近具有真实VMAF分数（即第二全参考指标值）的时刻；由于在第k-p时刻采样的第j帧视频帧的真实VMAF分数，以及在第k-p+T时刻采样的第q帧视频帧的真实VMAF分数，已经通过上述步骤评估得到了，那么可以直接获取第j帧视频帧的第二全参考指标值和第q帧视频帧的第二全参考指标值。

s12：采用第j帧视频帧的第二全参考指标值和第q帧视频帧的第二全参考指标值，校准第i帧视频帧的预测全参考指标值，得到第i帧视频帧的真实全参考指标值。

本申请实施例支持采用校准算法来校准视频帧的预测全参考指标值，得到视频帧的真实全参考指标值，该真实全参考指标值的与采用VMAF指标评估得到的指标值更为接近，从而确保视频帧的真实全参考指标值的准确度。其中，校准算法包括但不限于线性拟合算法（或称为线性拟合方式）或紧邻偏移算法（或称为紧邻偏移方式）；下面分别对两种校准方式的校准过程进行详细介绍，其中：

（1）校准算法包括线性拟合算法。其中，采用线性拟合算法校准视频帧的预测全参考指标值的实施过程可包括：首先，获取第j帧视频帧的预测全参考指标值和第q帧视频帧的预测全参考指标值；其中，第j帧视频帧和第q帧视频帧的预测全参考指标值的具体获取过程，可参见前述生成第i帧视频帧的预测全参考指标值的相关描述，如第j帧视频帧的预测全参考指标值是基于第j帧视频帧的第一全参考指标值和编码过程信息确定的。然后，基于第j帧视频帧的预测全参考指标值和第j帧视频帧的第二全参考指标值（如真实VMAF分数）之间的线性关系，以及，第q帧视频帧的预测全参考指标值和第q帧视频帧的第二全参考指标值（如真实VMAF分数）之间的线性关系，确定出线性拟合函数的线性拟合因子的取值。最后，可基于第i帧视频帧的预测全参考指标值，和线性拟合函数的线性拟合因子，生成第i帧视频帧的真实全参考指标值。

其中，线性拟合函数VMAFFinal可表示为如下公式：

VMAFFinal_k=max(min(r·VMAFPredict_k+t,100),0) (4)

VMAFFinalk表示第i帧视频帧的真实参考指标值；VMAFPredictk表示第i帧视频帧的预测全参考指标值；r、t表示线性拟合函数VMAFFinal的线性拟合因子；min()表示取最小值函数；max()表示取最大值函数。

进一步的，线性拟合函数VMAFFinalk的线性拟合因子r和t的取值可以通过以下线性方程组求得：

(5)

即：

(6)

VMAFk-P表示第j帧视频帧的第二全参考指标值（如真实VMAF分数）；VMAFPredictk-p表示第j帧视频帧的预测全参考指标值。VMAFk-p+T表示第q帧视频帧的第二全参考指标值；VMAFPredictk-p+T表示第q帧视频帧的预测全参考指标值。

一种示例性的采用线性拟合方式，校准第i帧视频帧的预测全参考指标值的示意图可参见图8。假设i=122，且VMAF指标的视频采用帧率为0.5fps，且失真视频的视频帧率为60fps，则第122帧视频帧附近具有真实VMAF分数的视频帧为第120帧视频帧和第240帧视频帧。那么可以计算第120帧视频帧的预测全参考指标值和第240帧视频帧的预测全参考指标值，并根据第120帧视频帧的预测全参考指标值和第120帧视频帧的第二全参考指标值（如真实VMAF分数）之间的线性关系，以及，第240帧视频帧的预测全参考指标值和第240帧视频帧的第二全参考指标值之间的线性关系，确定出线性拟合函数的线性拟合因子r和t的取值。然后，将线性拟合因子r和t的取值和第122帧视频帧的预测全参考指标值带入线性拟合函数，并将输出结果作为第122帧视频帧的真实全参考指标值。

进一步的，假设在线性拟合函数中带入线性拟合因子和第122帧视频帧的预测全参考指标值后，得到r·VMAFPredictk+t =92，则按照公式（4）确定第122帧视频帧的真实全参考指标值为92。假设在线性拟合函数中带入线性拟合因子和第122帧视频帧的预测全参考指标值后，得到r·VMAFPredictk+t =130，则按照公式（4）确定第122帧视频帧的真实全参考指标值为100。

（2）校准算法包括紧邻偏移算法。其中，采用紧邻偏移算法校准视频帧的预测全参考指标值的实施过程可包括：首先，若p小于等于T/2，表示待校准的第i帧视频帧与第j帧视频帧之间的距离，相比于第i帧视频帧与第q帧视频帧之间的距离更近，则可以获取与第i帧视频帧距离最近的视频帧“第j帧视频帧”的预测全参考指标值，并根据第j帧视频帧的预测全参考指标值和第二全参考指标值，确定第j帧视频帧的偏移，并将该偏移作为校准偏移。然后，将第j帧视频帧的校准偏移以及第i帧视频帧的预测全参考指标值，作为紧邻偏移函数的输入信息；并将偏移输出结果作为第i帧视频帧的真实全参考指标值，具体是将第j帧视频帧的校准偏移作为第i帧视频帧的偏移，那么在已知第i帧视频帧的偏移和预测全参考指标值，且真实全参考指标值与预测全参考指标值之间的差值为偏移的情况下，可以求出第i帧视频帧的真实全参考指标值。

同理，若p大于T/2，表示待校准的第i帧视频帧与第q帧视频帧之间的距离，相比于第i帧视频帧与第j帧视频帧之间的距离更近，则可以获取与第i帧视频帧距离最近的视频帧“第q帧视频帧”的预测全参考指标值，并根据第q帧视频帧的预测全参考指标值和第二全参考指标值，确定第q帧视频帧的偏移，并将该偏移作为校准偏移。然后，将第q帧视频帧的校准偏移以及第i帧视频帧的预测全参考指标值，作为紧邻偏移函数的输入信息；并将偏移输出结果作为第i帧视频帧的真实全参考指标值，具体是将第q帧视频帧的校准偏移作为第i帧视频帧的偏移，那么在已知第i帧视频帧的偏移和预测全参考指标值，且真实全参考指标值与预测全参考指标值之间的差值为偏移的情况下，可以求出第i帧视频帧的真实全参考指标值。

其中，紧邻偏移函数VMAFFinal可表示为如下公式：

(7)

VMAFFinalk表示第i帧视频帧的真实参考指标值；VMAFk-p表示第j帧视频帧的第二全参考指标值，VMAFPredictk-p表示第j帧视频帧的预测参考指标值；VMAFk-p+T表示第q帧视频帧的第二全参考指标值，VMAFPredictk-p+T表示第q帧视频帧的预测参考指标值。

一种示例性的采用紧邻偏移方式，校准第i帧视频帧的预测全参考指标值的示意图可参见图9。假设i=122，且VMAF指标的视频采用帧率为0.5fps，且失真视频的视频帧率为60fps，则第122帧视频帧附近具有真实VMAF分数的视频帧为第120帧视频帧和第240帧视频帧。考虑到第120帧视频帧与第122帧视频帧之间的距离，相比于第120帧视频帧与第122帧视频帧之间的距离更近，则可以获取第120帧视频帧的预测全参考指标值，并根据第120帧视频帧的预测全参考指标值和第二全参考指标值（如真实VMAF分数），得到两者之间的偏移。然后，将该偏移作为校准偏移，即作为第120帧视频帧的预测全参考指标值和真实全参考指标值之间的偏移。最后，将该校准偏移和第120帧视频帧的预测全参考指标值作为紧邻偏移函数的输入信息，并将偏移输出结果作为第122帧视频帧的真实全参考指标值。

S605：根据失真视频中各帧视频帧的真实全参考指标值，确定失真视频的质量评测结果。

具体地，在得到失真视频中各帧视频帧的真实全参考指标值后，可以基于各帧视频帧的真实全参考指标值，计算得到整个失真视频的目标全参考指标值。需要说明的是，基于各帧视频帧的真实全参考指标值计算失真视频的目标全参考指标值的具体实施过程，与图3所示实施例中描述的，基于各帧视频帧的预测全参考指标值计算失真视频的目标全参考指标值的具体实施过程是类似的；如可对各帧视频帧的真实全参考指标值进行均值运算或最小值选取运算，以确定失真视频的质量评测结果，在此不作赘述。

图10示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图；该视频处理方法可以由计算机设备来执行，该视频处理方法可包括但不限于步骤S1001-S1006：

S1001：获取样本集，并采用样本集对初始预测模型进行训练，得到训练好的目标预测模型。

样本集中可包括至少一帧样本视频帧的第一全参考指标值、编码过程信息及真实全参考指标值。其中：

①至少一帧样本视频帧可以属于不同或相同失真视频中的视频帧，如至少一帧样本视频帧包括第一样本视频帧、第二样本视频帧和第三样本视频帧，其中第一样本视频帧和第三样本视频帧可以属于同一失真视频A，第二样本视频帧可以属于失真视频B，失真视频A和失真视频B为不同失真视频。

②样本集中的任一样本视频帧的第一全参考指标值可采用第一全参考指标对该任一样本视频帧进行评测得到的，具体评测过程可参见前述描述采用第一全参考指标对失真视频中的视频帧进行评测的相关描述，如基于峰值信噪比计算失真视频中的视频帧的第一全参考指标值，在此不作赘述。

③任一样本视频帧的编码过程信息，是对该样本视频帧的原始视频帧进行编码过程中得到的，编码过程信息的具体类型可参见前述相关描述，在此不作赘述。

④任一样本视频帧的真实全参考指标值是采用第二全参考指标对该任一样本视频帧进行评测得到的。例如，第二全参考指标为VMAF指标，那么基于VMAF指标对该任一样本视频帧进行评测可得到该任一样本视频帧的真实VMAF分数，该真实VMAF分数作为训练时的真实全参考指标值。这种采用高计算复杂度的真实VMAF分数来训练初始预测模型的方式，使得训练好的目标预测模型对视频帧预测出来的预测全参考指标值，能够与采用高计算复杂度的VMAF指标计算出来的真实全参考指标值更为接近，从而提升对视频帧进行预测得到的预测全参考指标值的准确性。

具体实现中，在具有对未训练的初始预测模型进行训练的需求时，可以获取预先制作好的样本集。然后，调用初始预测模型，并基于样本视频帧的第一全参考指标值和编码过程信息，对该样本视频帧进行质量预测处理，得到该样本视频帧的预测全参考指标值。由前述描述可知，预测模型可以表现为公式（3），该公式（3）中包括参数β0、β1、β2、β3、β4、β5、β6、β7、β8及β9，且每个参数具有初始值，该初始值可以根据经验预先设置的，那么可以将样本视频帧的第一全参考指标值和编码过程信息作为初始预测模型的输入信息，从而得到该样本视频帧的预测全参考指标值。

继而，基于该样本视频帧的预测全参考指标值和真实全参考指标之间的差异，并按照减小该样本视频帧的预测全参考指标值和真实全参考指标之间的差异的方向，更新初始预测模型的参数，具体是调整初始预测模型所包含的全部或部分参数的权重值，使得基于参数调整后的初始预测模型，再次预测得到的预测全参考指标值与真实全参考指标值之间的差异更小。然后，从样本集中重新选取新的样本视频帧，执行上述过程，以实现对更新后的初始预测模型进行迭代训练，直至初始预测模型趋于稳定为止，将最后一次迭代训练得到的初始预测模型，作为训练好的目标预测模型。其中，初始预测模型趋于稳定可简单理解为，采用初始预测模型对连续至少两帧样本视频帧预测得到的预测全参考指标值与相应真实全参考指标值之间的差异均小于预设值，或者，连续至少两帧视频帧的差异之间相差趋于0，等；本申请实施例对初始预测模型趋于稳定的具体情况不作限定，在此说明。

S1002：获取待处理的失真视频。

S1003：获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息。

S1004：调用训练好的目标预测模型，并基于第一全参考指标值和编码过程信息，对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值。

需要说明的是，步骤S1002-S1004所示的具体实施过程，可参见前述图3所示实施例中步骤S301-S303所示的具体实施过程的相关描述，或者可参见图6所示实施例中步骤S601-S603所示的具体实施过程的相关描述，在此不作赘述。

S1005：对失真视频中各帧视频帧的预测全参考指标值进行校准，得到各帧视频帧的真实全参考指标值。

S1006：根据失真视频中各帧视频帧的真实全参考指标值，确定失真视频的质量评测结果。

需要说明的是，步骤S1005-S1006所示的具体实施过程，可参见前述图6所示实施例中步骤S604-S605所示的具体实施过程的相关描述，在此不作赘述。

另外，本申请实施例还支持输出失真视频的质量评测结果。具体地，如果计算机设备包含显示屏幕，则在确定得到失真视频的质量评测结果后，可在显示屏幕中输出质量评测结果；通过该质量评测结果直观地告知目标对象（如具有对失真视频进行画质损失评估需求的任一对象），失真视频的画质损失情况。或者，如果计算机设备是不包含显示屏幕的设备（如服务器），那么还可以将失真视频的质量评测结果发送至目标对象持有的终端设备，以便于通过该终端设备输出失真视频的质量评测结果。一种示例性的在显示屏幕中输出失真视频的质量评测结果的示意图可参见图11，本申请实施例对显示屏幕中所包含的质量评测结果的样式不作限定。

另外，在目标对象对失真视频的画质损失具有画质损失要求的情况下，如目标对象希望失真视频的画质损失小于质量评测指标阈值，本申请实施例还支持将失真视频的质量评测结果与质量评测指标阈值进行比较，具体是采用质量评测结果所包含的失真视频的目标全参考指标值与质量评测指标阈值进行比较，并根据比较结果判断失真视频的画质损失是否满足画质损失要求。

具体实现中，首先，可获取质量评测指标阈值，并对质量评测指标阈值与目标全参考指标值进行比较，得到比较结果。其中，质量评测指标阈值是根据业务需求预先设定的；该质量评测质量阈值的取值越大，表示目标对象对失真视频的画质损失要求越高，即要求失真视频的画质损失越小越好，反之，质量评测质量阈值的取值越小，表示目标对象对失真视频的画质要求越低，即失真视频的画质损失较大时也能满足对象对失真视频的画质需求。进一步的，质量评测指标阈值可以是由目标对象，在确定出失真视频的目标全参考指标值之前的任一时间节点输入的；也可以是初始设置在计算机设备中；本申请实施例对质量评测指标阈值的获取方式不作限定。

如图12所示，假设质量评测指标阈值为83，计算得到的失真视频的目标全参考指标值为80，则将质量评测指标阈值83与失真视频的目标全参考指标值80进行比较，得到比较结果指示目标参考指标值小于质量评测指标阈值。反之，如果计算得到的失真视频的目标全参考指标值为89，则将质量评测指标阈值83与失真视频的目标全参考指标值89进行比较，得到比较结果指示目标参考指标值大于质量评测指标阈值。

然后，根据比较结果生成失真视频的画质损失信息。具体地，若比较结果指示目标全参考指标值小于或等于质量评测指标阈值，画质损失信息表示失真视频相较于原始视频的画质损失满足目标对象对失真视频的画质损失要求；若比较结果指示目标全参考指标值大于质量评测指标阈值，画质损失信息表示失真视频相较于原始视频的画质损失不满足目标对象对失真视频的画质损失要求。

与前述描述的类似的，本申请实施例还支持输出失真视频的画质损失信息，如图12所示；以便于目标对象能直观地感知到失真视频的画质损失是否满足损失要求，提升目标对象的体验感。

本申请实施例中，支持采用高计算复杂度的真实VMAF分数，来训练初始预测模型，使得训练好的目标预测模型对视频帧预测出来的预测全参考指标值，能够与采用高计算复杂度的VMAF指标计算出来的真实全参考指标值更为接近，从而提升对视频帧进行预测得到的预测全参考指标值的准确性。在实际应用中，基于计算准确度高的目标预测模型对失真视频中的视频帧进行画质损失评测，不仅实现快速计算得到失真视频中各帧视频帧的预测全参考指标值，而且能够确保各帧视频帧的画质损失的预测准确性。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

请参见图13，图13是本申请实施例提供的一种视频处理装置的结构示意图，该视频处理装置可以设置于本申请实施例提供的计算机设备中；在一些实施例中，该视频处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），该视频处理装置可以用于执行图3、图6或图10所示的方法实施例中的相应步骤。请参见图13，该视频处理装置可以包括如下单元：

获取单元1301，用于获取待处理的失真视频，失真视频是对原始视频进行编码得到的；

获取单元1301，还用于获取失真视频中各帧视频帧的第一全参考指标值和编码过程信息；第一全参考指标值的计算复杂度属于第一维度，且第一全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；

处理单元1302，用于基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值；预测全参考指标值的计算复杂度属于第二维度，且预测全参考指标值用于度量：失真视频中各帧视频帧相较于原始视频中各帧视频帧的失真程度；第一维度的计算复杂度低于第二维度的计算复杂度；

处理单元1302，还用于根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果，质量评测结果用于指示失真视频相较于原始视频的质量损失信息。

在一种实现方式中，失真视频中包括N帧连续的视频帧，N为大于1的整数；将第k时刻从失真视频中采样到的视频帧表示为第i帧视频帧，k大于零，i为整数且i≤N；处理单元1302，还用于：

处理单元1302用于根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果时，具体用于：

在一种实现方式中，处理单元1302用于获取失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值时，具体用于：

在一种实现方式中，处理单元1302用于采用第j帧视频帧的第二全参考指标值和第q帧视频帧的第二全参考指标值，校准第i帧视频帧的预测全参考指标值，得到第i帧视频帧的真实全参考指标值时，具体用于：

在一种实现方式中，线性拟合函数VMAFFinal表示为：

VMAFFinal_k=max(min(r·VMAFPredict_k+t,100),0)

其中，VMAFFinalk表示第i帧视频帧的真实参考指标值；VMAFPredictk表示第i帧视频帧的预测全参考指标值；r、t表示线性拟合函数VMAFFinal的线性拟合因子；min()表示取最小值函数；max()表示取最大值函数。

在一种实现方式中，紧邻偏移函数VMAFFinal表示为：

在一种实现方式中，处理单元1302用于根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果时，具体用于：

其中，质量损失信息中包括失真视频的目标全参考指标值。

在一种实现方式中，处理单元1302用于对失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成失真视频的目标全参考指标值时，具体用于：

获取训练好的目标预测模型；

根据本申请的一个实施例，图13所示的视频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该视频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3、图6及图10所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图13中所示的视频处理装置，以及来实现本申请实施例的视频处理方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

图14示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图14，该计算机设备包括处理器1401、通信接口1402以及计算机可读存储介质1403。其中，处理器1401、通信接口1402以及计算机可读存储介质1403可通过总线或者其它方式连接。其中，通信接口1402用于接收和发送数据。计算机可读存储介质1403可以存储在计算机设备的存储器中，计算机可读存储介质1403用于存储计算机程序，计算机程序包括程序指令，处理器1401用于执行计算机可读存储介质1403存储的程序指令。处理器1401（或称CPU（Central Processing Unit，中央处理器））是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质（Memory），计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序（包括程序代码）。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该计算机可读存储介质中存储有一条或多条指令；由处理器1401加载并执行计算机可读存储介质中存放的一条或多条指令，以实现上述视频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条指令由处理器1401加载并执行如下步骤：

在一种实现方式中，失真视频中包括N帧连续的视频帧，N为大于1的整数；将第k时刻从失真视频中采样到的视频帧表示为第i帧视频帧，k大于零，i为整数且i≤N；计算机可读存储介质中的一条或多条指令由处理器1401加载并还执行如下步骤：

计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行获取失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行采用第j帧视频帧的第二全参考指标值和第q帧视频帧的第二全参考指标值，校准第i帧视频帧的预测全参考指标值，得到第i帧视频帧的真实全参考指标值时，具体执行如下步骤：

在一种实现方式中，线性拟合函数VMAFFinal表示为：

VMAFFinal_k=max(min(r·VMAFPredict_k+t,100),0)

在一种实现方式中，紧邻偏移函数VMAFFinal表示为：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行根据失真视频中各帧视频帧的预测全参考指标值，确定失真视频的质量评测结果时，具体执行如下步骤：

其中，质量损失信息中包括失真视频的目标全参考指标值。

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行对失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成失真视频的目标全参考指标值时，具体执行如下步骤：

在一种实现方式中，计算机可读存储介质中的一条或多条指令由处理器1401加载并在执行基于第一全参考指标值和编码过程信息对失真视频中各帧视频帧进行质量预测处理，得到失真视频中各帧视频帧的预测全参考指标值时，具体执行如下步骤：

获取训练好的目标预测模型；

从样本集中重新选取样本视频帧，对更新后的初始预测模型进行迭代训练，

直至初始预测模型趋于稳定为止，得到训练好的目标预测模型。

本申请实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频处理方法。

本领域普通技术对象可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如，同轴电缆、光纤、数字线（DSL））或无线（例如，红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质（例如，固态硬盘(Solid State Disk，SSD)）等。

以上描述内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术对象在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理的失真视频，所述失真视频是对原始视频进行编解码得到的；

获取所述失真视频中各帧视频帧的第一全参考指标值和编码过程信息；所述第一全参考指标值的计算复杂度属于第一维度，且所述第一全参考指标值用于度量：所述失真视频中各帧视频帧相较于所述原始视频中各帧视频帧的失真程度；

基于所述第一全参考指标值和所述编码过程信息对所述失真视频中各帧视频帧进行质量预测处理，得到所述失真视频中各帧视频帧的预测全参考指标值；所述预测全参考指标值的计算复杂度属于第二维度，且所述预测全参考指标值用于度量：所述失真视频中各帧视频帧相较于所述原始视频中各帧视频帧的失真程度；所述第一维度的计算复杂度低于所述第二维度的计算复杂度；

根据所述失真视频中各帧视频帧的预测全参考指标值，确定所述失真视频的质量评测结果，所述质量评测结果用于指示所述失真视频相较于所述原始视频的质量损失信息。

2.如权利要求1所述的方法，其特征在于，所述失真视频中包括N帧连续的视频帧，N为大于1的整数；将第k时刻从所述失真视频中采样到的视频帧表示为第i帧视频帧，k大于零，i为整数且i≤N；所述方法还包括：

获取所述失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值，j、q均为整数且j、q≤N；

采用所述第j帧视频帧的第二全参考指标值和所述第q帧视频帧的第二全参考指标值，校准所述第i帧视频帧的预测全参考指标值，得到所述第i帧视频帧的真实全参考指标值；

所述根据所述失真视频中各帧视频帧的预测全参考指标值，确定所述失真视频的质量评测结果，包括：

根据所述失真视频中各帧视频帧的真实全参考指标值，确定所述失真视频的质量评测结果。

3.如权利要求2所述的方法，其特征在于，所述获取所述失真视频中的第j帧视频帧的第二全参考指标值，以及第q帧视频帧的第二全参考指标值，包括：

按照第二全参考指标的采样周期T，对所述失真视频进行采样，得到M帧视频帧，T大于零，M为整数且M≤N；

基于所述第二全参考指标对所述M帧视频帧进行质量检测处理，得到所述M帧视频帧中每帧视频帧的第二全参考指标值；其中，所述第二全参考指标值的计算复杂度属于所述第二维度，所述第二全参考指标值用于度量：所述失真视频中的视频帧相较于所述原始视频中的视频帧的失真程度；

从所述M帧视频帧中每帧视频帧的第二全参考指标值中，筛选出第k-p时刻采样得到的第j帧视频帧的第二全参考指标值，以及第k-p+T时刻采样得到的第q帧视频帧的第二全参考指标值，p=k%T。

4.如权利要求2所述的方法，其特征在于，所述采用所述第j帧视频帧的第二全参考指标值和所述第q帧视频帧的第二全参考指标值，校准所述第i帧视频帧的预测全参考指标值，得到所述第i帧视频帧的真实全参考指标值，包括：

获取所述第j帧视频帧的预测全参考指标值，以及，所述第q帧视频帧的预测全参考指标值；

基于所述第j帧视频帧的预测全参考指标值和第二全参考指标值之间的线性关系，以及所述第q帧视频帧的预测全参考指标值和第二全参考指标值之间的线性关系，得到线性拟合函数的线性拟合因子；

基于所述第i帧视频帧的预测全参考指标值，和所述线性拟合函数的线性拟合因子，生成所述第i帧视频帧的真实全参考指标值。

5.如权利要求4所述的方法，其特征在于，线性拟合函数VMAFFinal表示为：

VMAFFinal_k=max(min(r·VMAFPredict_k+t,100),0)

6.如权利要求2所述的方法，其特征在于，所述采用所述第j帧视频帧的第二全参考指标值和所述第q帧视频帧的第二全参考指标值，校准所述第i帧视频帧的预测全参考指标值，得到所述第i帧视频帧的真实全参考指标值，包括：

若p小于等于T/2，则获取第j帧视频帧的预测全参考指标值，并根据所述第j帧视频帧的预测全参考指标值和第二全参考指标值，确定所述第j帧视频帧的校准偏移；

将所述第j帧视频帧的校准偏移以及所述第i帧视频帧的预测全参考指标值，作为紧邻偏移函数的输入信息，并将偏移输出结果作为所述第i帧视频帧的真实全参考指标值；

或者，若p大于T/2，则获取第q帧视频帧的预测全参考指标值，并根据所述第q帧视频帧的预测全参考指标值和第二全参考指标值，确定所述第q帧视频帧的校准偏移；

将所述第q帧视频帧的校准偏移以及所述第i帧视频帧的预测全参考指标值，作为紧邻偏移函数的输入信息，并将偏移输出结果作为所述第i帧视频帧的真实全参考指标值。

7.如权利要求6所述的方法，其特征在于，紧邻偏移函数VMAFFinal表示为：

8.如权利要求1所述的方法，其特征在于，所述根据所述失真视频中各帧视频帧的预测全参考指标值，确定所述失真视频的质量评测结果，包括：

对所述失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成所述失真视频的目标全参考指标值；

基于所述失真视频的目标全参考指标值，生成所述失真视频的质量评测结果；

其中，所述质量损失信息中包括所述失真视频的目标全参考指标值。

9.如权利要求8所述的方法，其特征在于，所述对所述失真视频中各帧视频帧的预测全参考指标值进行目标处理，生成所述失真视频的目标全参考指标值，包括：

对所述失真视频中各帧视频帧的预测全参考指标值进行均值运算，并将均值运算结果作为所述失真视频的目标全参考指标值；

或者，从所述失真视频中各帧视频帧的预测全参考指标值中，确定出数值最小的预测全参考指标值；并将所述数值最小的预测全参考指标值作为所述失真视频的目标全参考指标值。

10.如权利要求1所述的方法，其特征在于，所述第一全参考指标包括以下至少一种：峰值信噪比及结构相似性；

11.如权利要求1所述的方法，其特征在于，所述基于所述第一全参考指标值和所述编码过程信息对所述失真视频中各帧视频帧进行质量预测处理，得到所述失真视频中各帧视频帧的预测全参考指标值，包括：

获取训练好的目标预测模型；

调用所述目标预测模型，并基于所述失真视频中各帧视频帧的所述第一全参考指标值和所述编码过程信息，对所述失真视频中各帧视频帧进行质量预测处理，得到所述失真视频中各帧视频帧的预测全参考指标值。

12.如权利要求11所述的方法，其特征在于，所述训练好的目标预测模型是对初始预测模型进行训练得到的，所述初始预测模型包括多个参数；训练得到所述目标预测模型的过程包括：

获取样本集，所述样本集中包括至少一帧样本视频帧的第一全参考指标值、编码过程信息及真实全参考指标值；

调用所述初始预测模型，并基于样本视频帧的第一全参考指标值和编码过程信息，对所述样本视频帧进行质量预测处理，得到所述样本视频帧的预测全参考指标值；

按照减小所述样本视频帧的预测全参考指标值和所述真实全参考指标值之间的差异的方向，更新所述初始预测模型的参数；

从所述样本集中重新选取样本视频帧，对更新后的初始预测模型进行迭代训练，直至所述初始预测模型趋于稳定为止，得到训练好的目标预测模型。

13.一种视频处理装置，其特征在于，包括：

获取单元，用于获取待处理的失真视频，所述失真视频是对原始视频进行编解码得到的；

所述获取单元，还用于获取所述失真视频中各帧视频帧的第一全参考指标值和编码过程信息；所述第一全参考指标值的计算复杂度属于第一维度，且所述第一全参考指标值用于度量：所述失真视频中各帧视频帧相较于所述原始视频中各帧视频帧的失真程度；

处理单元，用于基于所述第一全参考指标值和所述编码过程信息对所述失真视频中各帧视频帧进行质量预测处理，得到所述失真视频中各帧视频帧的预测全参考指标值；所述预测全参考指标值的计算复杂度属于第二维度，且所述预测全参考指标值用于度量：所述失真视频中各帧视频帧相较于所述原始视频中各帧视频帧的失真程度；所述第一维度的计算复杂度低于所述第二维度的计算复杂度；

所述处理单元，还用于根据所述失真视频中各帧视频帧的预测全参考指标值，确定所述失真视频的质量评测结果，所述质量评测结果用于指示所述失真视频相较于所述原始视频的质量损失信息。

14.一种计算机设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-12任一项所述的视频处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机应用程序，所述计算机应用程序被执行时，实现如权利要求1-12任一项所述的视频处理方法。