CN110751649B

CN110751649B - 视频质量评估方法、装置、电子设备及存储介质

Info

Publication number: CN110751649B
Application number: CN201911039045.9A
Authority: CN
Inventors: 王海强; 陈俊铭; 许牧楠; 陈文俊; 吴祖榕; 刘杉; 李革
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2021-11-02
Anticipated expiration: 2039-10-29
Also published as: CN110751649A

Abstract

本申请实施例提供了一种视频质量评估方法、装置、电子设备及存储介质，涉及信息处理技术领域。该方法包括：首先获取待处理视频和待处理视频对应的参考视频；然后基于待处理视频和参考视频，确定残差视频；基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。本申请技术方案通过残差视频和待处理视频的时空特征进行质量评估，残差视频反映了待处理视频与其参考视频之间的差别，即失真程度，待处理视频的时空特征同时考虑了时间和空间两个维度，特征信息更加全面，提高了质量评估的准确性，实现了对视频质量更加客观的评估。

Description

视频质量评估方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种视频质量评估方法、装置、电子设备及存储介质。

背景技术

随着多媒体信息技术和网络通信技术的发展，在线观看视频已经深入到人们的日常生活当中。然而，与图片、音频、文字相比，视频具有更大的数据量，不对源视频进行压缩根本无法满足视频数据的存储和传输要求。由于在采集、压缩、存储、传输过程中的一些无法避免的客观因素，用户终端上播放的视频存在着不同程度的失真，这些失真都会影响用户的观感体验。因此，需要对视频质量进行有效评估，以实现对编码传输策略的指导，从而改进视频处理等技术中存在的缺陷。

在目前公开的以深度学习方式进行视频质量评估的方法中，大多数以二维卷积神经网络作为主体结构，提取视频帧的空间特征，基于空间特征进行视频质量评估，然而二维神经网络缺少时序关系的学习，忽略了视频中固有的前后帧运动信息，从而导致视频质量评估结果的准确性不高，无法实现对视频编码传输进行有效指导。

发明内容

本申请提供了一种视频质量评估方法、装置及电子设备，可以解决现有技术中存在的问题。

本申请实施例提供的具体技术方案如下：

一方面，本申请实施例提供了一种视频质量评估方法，该方法包括：

获取待处理视频和待处理视频对应的参考视频；

基于待处理视频和参考视频，确定残差视频；

基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；

基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。

在一种可能的实现方式中，基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征，包括：

提取每一待处理视频帧的第一空间特征，以及残差视频中每一残差帧的第二空间特征；

对于每一待处理视频帧，基于待处理视频帧的第一空间特征，以及待处理视频帧所对应的残差帧的第二空间特征，得到待处理视频帧对应的第三空间特征；

基于各待处理视频帧所对应的第三空间特征，提取每一待处理视频帧对应的时空特征。

在一种可能的实现方式中，基于待处理视频帧的第一空间特征，以及待处理视频帧所对应的残差帧的第二空间特征，得到待处理视频帧对应的第三空间特征，包括：

将待处理视频帧的第一空间特征和待处理视频帧所对应的残差帧的第二空间特征在通道维度上进行拼接，得到待处理视频帧对应的第三空间特征。

在一种可能的实现方式中，基于各待处理视频帧所对应的第三空间特征，提取每一待处理视频帧对应的时空特征，包括：

对于每一待处理视频帧，基于待处理视频帧的第三空间特征、以及至少一个时间上与待处理视频帧关联的关联视频帧的第三空间特征，提取待处理视频帧对应的时空特征。

在一种可能的实现方式中，通过视频质量评估模型确定所述待处理视频的质量评估结果。

在一种可能的实现方式中，视频质量评估模型是通过以下方式训练得到的：

获取各训练样本，各训练样本包括样本视频，以及样本视频所对应的样本残差视频，每个样本视频标注有样本标签，样本标签表征了样本视频的标注质量；

基于各训练样本对初始神经网络模型进行训练，直至初始神经网络模型对应的损失函数收敛，将训练结束时的神经网络模型作为视频质量评估模型，损失函数的值表征了各样本视频所对应的标注质量和视频质量评估模型输出的预测视频质量的差异；

其中，初始神经网络模型包括依次连接的初始空间特征提取层、初始时空特征提取层和初始质量预测层。

在一种可能的实现方式中，初始空间特征提取层包括二维卷积神经网络模型；初始时空特征提取层包括三维卷积神经网络模型或者2.5维卷积神经网络模型；初始质量预测层包括全局池化层和全连接层。

提取每一待处理视频帧的第一初始时空特征，以及残差视频中每一残差帧的第二初始时空特征；

对于每一待处理视频帧，基于待处理视频帧的第一初始时空特征和待处理视频帧所对应的残差帧的第二初始时空特征，得到待处理视频帧对应的时空特征。

在一种可能的实现方式中，基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果，包括：

对于待处理视频中的每一待处理视频帧，将待处理视频帧对应的时空特征，与待处理视频帧对应的残差帧融合，得到待处理视频帧的融合特征；

基于各待处理视频帧的融合特征，得到待处理视频的质量评估结果。

在一种可能的实现方式中，将待处理视频帧对应的时空特征，与待处理视频帧对应的残差帧融合，得到待处理视频帧的融合特征，包括：

将待处理视频帧对应的时空特征作为权重，与待处理视频帧对应的残差帧进行加权计算，得到待处理视频帧的融合特征。

另一方面，本发明实施例提供了一种视频质量评估装置，该装置包括：

视频获取模块，用于获取待处理视频和待处理视频对应的参考视频；

残差视频确定模块，用于基于待处理视频和参考视频，确定残差视频；

时空特征确定模块，用于基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；

评估结果确定模块，用于基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。

本发明实施例还提供了一种电子设备，该电子设备包括一个或多个处理器；存储器；一个或多个计算机程序，其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序被配置用于执行如本申请的第一方面所示的方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在处理器上运行时，使得处理器可以执行如本申请的第一方面所示的方法。

本申请提供的技术方案带来的有益效果是：

本申请提供了一种视频质量评估方法、装置及电子设备，首先获取待处理视频和待处理视频对应的参考视频；然后基于待处理视频和参考视频，确定残差视频；基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。本申请技术方案通过残差视频和待处理视频的时空特征进行质量评估，残差视频反映了待处理视频与其参考视频之间的差别，即失真程度，待处理视频的时空特征同时考虑了时间和空间两个维度，特征信息更加全面，提高了质量评估的准确性，实现了对视频质量更加客观的评估。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种视频质量评估方法的流程示意图；

图2为本申请实施例提供的一种视频质量评估模型的结构示意图；

图3为本申请实施例提供的一种视频质量评估模型中各模块的具体结构示意图；

图4为本申请实施例提供的视频质量评估装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本申请技术方案的执行主体为计算机设备，包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中，用户设备包括但不限于电脑、智能手机、PAD等；网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种视频质量评估方法，如图1所示，该方法包括：

步骤S101，获取待处理视频和待处理视频对应的参考视频；

其中，待处理视频即待评估视频，可以包括源视频经过采集、存储、传输过程而导致不同程度失真的失真视频。例如，源视频在传输过程中需要进行压缩，源视频经压缩后会引入压缩失真、经不稳定的网络传输后会引入丢包失真，导致视频画面损伤，出现模糊、块效应、卡顿、花屏等现象。从人眼感受来说，即画面质量不清晰，播放不流畅。参考视频为失真视频对应的源视频，源视频与失真视频相比清晰度较高，一般为无损伤视频。

可以理解的是，待处理视频和与其对应的参考视频中的视频帧的数量相同，且两个视频中的各视频帧是一一对应的。

步骤S102，基于待处理视频和参考视频，确定残差视频；

具体的，待处理视频包括多个待处理视频帧，参考视频中包括多个参考视频帧，残差视频的残差帧是由相对应的待处理视频帧和参考视频帧计算得到的，残差帧代表了其所对应的待处理视频帧和参考视频帧之间所存在的差别，反映了所对应的待处理视频帧相对于参考视频帧的失真程度。

可选的，残差帧中每一像素点的像素值可以根据公式(1)计算得到：

其中，e表示残差帧中的一个像素点的像素值(通常会称为像素残差值)；f_d表示残差帧所对应的待处理视频帧中相对应的像素点的像素值；f_r表示残差帧所对应的参考视频帧中相对应的像素点的像素值。也就是说，可以根据相对应的一对待处理视频帧和参考视频帧中相对应位置的像素点的像素值，计算得到残差帧中相同位置的像素点的像素值。

步骤S103，基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；

具体的，基于待处理视频中的各个待处理视频帧和残差视频中对应的各个残差帧，来确定每一待处理视频帧所对应的时空特征，由于残差视频能够表征待处理视频和参考视频之间的差异，因此在提取待处理视频帧的时空特征时，不直接从待处理视频帧中提取时空特征，而是将残差帧考虑进去，更加能够刻画出待处理视频帧和参考视频帧之间的差异，便于后续进行视频质量评估。

在本申请的可选实施例中，确定待处理视频帧的时空特征之前，可以将待处理视频帧和残差帧进行灰度处理，转换成灰度图像。后续基于待处理视频和残差视频所进行的处理，均可以是基于各视频所对应的灰度图像进行处理。

以待处理视频帧为例，其所对应的灰度图像中各像素点的灰度值可以根据公式(2)计算得到：

Gray＝R*0.299+G*0.587+B*0.114 (2)

其中，Gray表示灰度图像中一个像素点的灰度值，R、G、B分别表示待处理视频帧中同一位置的像素点的红、绿、蓝三个通道的色彩值。

需要说明的是，本申请技术方案中，将各个待处理视频帧和残差帧进行灰度转换，还可以通过其他方法实现，例如，平均值法等，本申请实施例对此不做限定。通过上述任一种方法求得Gray后，将原来的RGB(R,G,B)三通道转换为单通道，得到灰度图像。

将各待处理视频帧和残差帧进行灰度转换之后，可以通过以下实现方式确定每一待处理视频帧所对应的时空特征。

在本申请的可选实施例中，基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征，包括：

其中，基于待处理视频帧的第一空间特征，以及待处理视频帧所对应的残差帧的第二空间特征，得到待处理视频帧对应的第三空间特征的具体处理方式，可以根据实际需求配置，如，可以采用将待处理视频帧的第一空间特征，以及待处理视频帧所对应的残差帧的第二空间特征进行融合或者拼接的方式，得到待处理视频帧对应的第三空间特征，其中，融合的具体处理方式本申请也不作限定。

本申请实施例中，通过对待处理视频帧和残差帧分别对应的空间特征确定每一待处理视频帧的时空特征，通过时空特征体现出各视频帧的图像随着时间的变化信息，从而使得对待处理视频的质量评估考虑的因素更加全面，提高质量评估的准确性。

在本申请的可选实施例中，基于待处理视频帧的第一空间特征，以及待处理视频帧所对应的残差帧的第二空间特征，得到待处理视频帧对应的第三空间特征，包括：

在实际应用中，将待处理视频帧的第一空间特征和残差帧的第二空间特征在通道维度上进行拼接，拼接后得到待处理视频帧对应的第三空间特征，第三空间特征的维度为第一空间特征的维度和第二空间特征的维度之和。

将待处理视频帧所对应的第三空间特征中加入时序关系，得到时空特征，具体可以通过以下方式来实现。

在本申请的可选实施例中，基于各待处理视频帧所对应的第三空间特征，提取每一待处理视频帧对应的时空特征，包括：

其中，关联视频帧可以包括与当前待处理视频帧相关联的预设数量个待处理视频帧，预设数量可以是2帧、3帧、5帧等，可以根据具体需要进行设置，此处不做限定。例如，提取当前待处理视频帧的第三空间特征、当前待处理视频帧的前一帧的第三空间特征、当前待处理视频帧的后一帧的第三空间特征，基于这三帧的第三空间特征，提取当前待处理视频帧对应的时空特征，而对于首帧和最后一帧而言，由于不存在对应的前一帧或后一帧，可以配置相对应的处理方式，如，将第二帧、第三帧作为首帧的关联视频帧；将倒数第二帧、倒数第三帧作为最后一阵的关联视频帧。

需要说明的是，当前待处理视频帧和关联视频帧可以是时间上连续的视频帧，也可以是不连续的视频帧，可以根据具体需要进行设定。

在本申请实施例中，基于待处理视频帧的关联视频帧，提取待处理视频帧对应的时空特征，能够通过与待处理视频帧时间上相关的视频帧的图像变化信息，来表征待处理视频帧的空间特征在时间上的变化。

另外，对于待处理视频帧的时空特征，也可以通过以下方式来提取。

在实际应用中，也可以直接提取每一待处理视频帧的第一初始时空特征，以及每一残差帧的第二初始时空特征，之后再进行融合，得到待处理视频帧的时空特征。直接提取时空特征，避免了对空间特征单独进行学习，简化了学习过程。

步骤S104，基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。

其中，每一待处理视频帧所对应的时空特征能够从时间和空间两个维度反应待处理视频的特征，残差视频表征待处理视频和参考视频的差异，通过待处理视频的时空特征和残差视频来确定质量评估结果，得到的评估结果更加全面，评估的准确性更高。

其中，质量评估结果表征待处理视频的质量，质量评估结果具体可以是质量分数值、质量分数区间或者质量等级等，也就是说，所得到的质量评估结果可以是一个具体的质量分数值，也可以是一个质量分数区间，还可以是一个质量等级。例如，可以将质量分数分为多个分数区间，例如，质量分数范围为[0,100]，该分数范围可以划分为4个分数区间，如[0,60)、[60,70)、[70,80)、以及[80,100]，则基于每一待处理视频帧所对应的时空特征和残差视频，可以通过视频质量评估模型确定出待处理视频的视频质量属于各区间的概率，概率最大的分数区间即为待处理视频的视频质量所属的分数区间。

基于时空特征和残差视频，确定待处理视频的质量评估结果，具体可以通过以下方式来实现。

在本申请的可选实施例中，基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果，包括：

在实际应用中，可以将每一待处理视频帧对应的残差帧进行降采样处理，得到尺寸和维度与待处理视频帧相对应的残差帧，将每一待处理视频帧的时空特征与对应的残差帧进行融合，并将融合结果调整到预设区间，得到待处理视频的质量评估结果。

在本申请实施例中，残差帧反映了待处理视频帧与其参考视频帧之间的差别，即失真程度，因此，引入残差帧信息对视频质量进行评估，使质量评估结果更加准确。

在本申请的可选实施例中，将待处理视频帧对应的时空特征，与待处理视频帧对应的残差帧融合，得到待处理视频帧的融合特征，包括：

在本申请实施例中，每一待处理视频帧在视频中的重要程度不同，所以每一待处理视频帧的失真程度(也就是残差帧)对视频质量的影响也不同。待处理视频帧所对应的时空特征，是用每一待处理视频帧的信息和残差帧的信息，来确定每一残差帧的重要程度，也就是每一待处理视频帧的失真程度对整个视频的质量影响程度，可以作为权重来反应各残差帧对视频质量的影响。

在本申请的可选实施例中，通过视频质量评估模型确定待处理视频的质量评估结果。

其中，视频质量评估模型可以包括：

空间特征提取层，用于提取第一空间特征，以及第二空间特征，以及基于第一空间特征和第二空间特征，得到待处理视频帧对应的第三空间特征；

时空特征提取层，用于基于各待处理视频帧所对应的第三空间特征，提取每一待处理视频帧对应的时空特征；

质量预测层，用于基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。

在本申请实施例中，视频质量评估模型可以通过二维、三维、2.5维神经网络模型来实现。神经网络模型是利用大量样本数据训练得到的，根据神经网络模型的到质量评估结果更加准确，可离线评价视频的画质质量，闭环指导产品编码传输策略，改善现有视频处理等技术中存在的缺陷，进而提升用户体验。

在本申请的可选实施例中，所述视频质量评估模型是通过以下方式训练得到的：

获取各训练样本，各所述训练样本包括样本视频，以及所述样本视频所对应的样本残差视频，每个所述样本视频标注有样本标签，所述样本标签表征了所述样本视频的标注质量；

基于各所述训练样本对初始神经网络模型进行训练，直至所述初始神经网络模型对应的损失函数收敛，将训练结束时的神经网络模型作为视频质量评估模型，所述损失函数的值表征了各所述样本视频所对应的标注质量和视频质量评估模型输出的预测视频质量的差异；

其中，所述初始神经网络模型包括依次连接的初始空间特征提取层、初始时空特征提取层和初始质量预测层。

在本申请实施例中，以质量评估结果为质量分数为例，选取的损失函数可以为均方差函数，如公式(3)所示。

L＝λ₁||f(s₁)-S||²+λ₂L₂ (3)

其中，L表示损失函数；f(s₁)表示视频质量评估模型输出的质量评估结果即预测分数，具体的，f(s₁)中的f可以表示质量预测模块，s₁表示该质量预测模块的输入，该输入具体可以是待处理视频帧的时空特征和残差帧进行融合后的结果，如加权平均后得到的结果；S表示待处理视频的平均主观分数(mean opinion score，MOS),也就是样本标签的标注值即标注的质量分数；λ₁、λ₂表示权重，为常数，如可以分别设置为1000和0.01，可根据场景不同进行设置，L₂表示模型参数的正则项，用来控制网络大小，避免过拟合。

在本申请实施例中，在对模型进行训练时，迭代次数可以为250次。训练过程中样本的批处理数量(batch size)可以设置为1，即每次只训练一个样本，可以采用随机梯度下降法，优化器可以设置为Adam，学习速率可以设置为0.0001。

在对视频质量评估模型进行训练时，可以对初始空间特征提取层、初始时空特征提取层和初始质量预测层同时进行训练，有效地降低了网络的复杂度，避免过拟合问题，通过三维卷积神经网络来进行时空特征学习，有效的提高了性能。

在本申请的可选实施例中，初始空间特征提取层包括二维卷积神经网络模型；初始时空特征提取层包括三维卷积神经网络模型或者2.5维卷积神经网络模型；初始质量预测层包括全局池化层和全连接层。

具体的，初始空间特征提取层可以由二维的卷积神经网络实现待处理视频帧和失真帧的空间特征的提取以及合并，得到待处理视频帧对应的第三空间特征，初始时空特征提取层可以由三维的卷积神经网络或者2.5维(2.5D)卷积神经网络模型实现每一待处理视频帧对应的时空特征的提取，各层中的特征提取层(即卷积层)的层数可以根据实际需求配置，也就是说卷积层的层数本申请实施例中不做限定。可以理解的是，二维卷积神经网络模型的卷积核是二维的，三维卷积神经网络的卷积核是三维的。

作为一可选方案，在实际应用中，初始空间特征提取层可以由两层二维的卷积神经网络模型实现，卷积核大小可以为3×3，步长可以为2，填充可以为1；初始时空特征提取层可以由四层三维的卷积神经网络模型实现，第一层和第二层的卷积核大小可以为3×3×3，第三层的卷积核大小可以为3×3×3，第四层的卷积核大小可以为3×3×3，所有层的步长可以均为1，所有层的填充可以均为1；初始质量预测层可以包括一个全局池化层和两个全连接层，最终输出质量评估结果。

另外，初始空间特征提取层也可以由三维的卷积神经网络模型来构成；初始时空特征提取层也可以由2.5维卷积和残差学习的神经网络模型来构成，跟三维卷积神经网络模型相比，减少了模型内存以及训练时长。其中，对于网络层具体的深度和相关参数，可根据实际应用场景和模型内存限制等具体要求进行设置。

本申请实施例采用性能指标对质量评估结果进行评价，其中，性能指标可以包括皮尔斯相关系数(PLCC)、斯皮尔曼相关系数(SROCC)，通过性能指标来反映预测成绩与实际成绩的相关性。SROCC和PLCC值在0-1的范围之内，值越接近1，说明性能指标越好。

本申请实施例在两个公开数据集，美国德州大学Austin分校LIVE实验室视频质量评价数据库和日本静冈大学的CSIQ实验室的视频质量评价数据库上进行测试。LIVE数据集含有160个视频，其中包括10个原始参考视频(即参考视频)和每个原始视频对应的15个失真视频(即待处理视频)，包含H.264压缩等多种失真类型。CSIQ数据集含有216个视频，其中包括12个原始参考视频和每个原始视频对应的16个失真视频。包含MJPEG压缩，白噪声等多种失真类型。在这两个数据库上的测试结果如表1所示：

表1

从表1中可以看出，本申请实施例的PLCC和SROCC均接近于1，通过本发明的预测结果能与人眼主观感受接近一致，有一个比较好的预测效果。

为了更好的说明本申请实施例所提供的视频质量评估方法，下面结合一个具体的示例对该方法进行更具体的说明。

图2中示出了本示例中所提供的一种视频质量评估模型的结构示意图，如图中所示，该评估模型包括依次级联的空间特征提取层(图2中所示的空间特征提取模块)、时空特征提取层(图2中所示的时空特征融合模块)和质量预测层(图2中所示的预测模块)，基于该模型对待处理视频进行质量评估的流程主要可以包括：

在获取到待处理视频和残差视频之后，将待处理视频帧(图2中的失真帧)和参考视频帧(图2中的失真帧)输入视频质量评估模型，首先根据待处理视频帧和参考视频帧计算残差视频的残差帧，将待处理视频帧和残差帧输入空间特征提取模块，分别得到待处理视频帧和残差帧对应的空间特征，将待处理视频帧和残差帧对应的空间特征进行合并后，输入时空特征融合模块，输出待处理视频帧的时空特征，再输入预测模块，预测待处理视频的质量评估信息。

作为一可选方案，图3中示出了一种视频质量评估模型中各模块的具体结构示意图，如图中所示，空间特征提取模块包括依次级联的两层卷积层和空间特征合并层即Concatenation层(为了便于理解，将空间特征提取模块在图3中显示为两个分支，一个分支提取残差帧的空间特征，另一个分支提取失真帧的空间特征，但实际应用也可以只有一个分支，由一个分支分别提取残差帧和失真帧的空间特征后进行合并)，时空特征提取层(即图3中所示的时空特征融合模块)包括依次级联的四层卷积层；质量预测层(即图3中的预测模块)包括依次级联的一个全局池化层和两个全连接层。

其中，图3中所示的各数值参数均表示模型中各卷积层的卷积处理参数，Conv2D表示二维卷积处理参数，Conv3D则表示三维卷积处理参数，以Conv2D(16,3,2,1)为例，其表示二维卷积神经网络模型中的卷积层的卷积处理参数，16表示特征维度即通道数，3表示卷积核大小即3*3，2表示步长，1表示填充；Conv3D(64,3,1,1)则表示三维卷积神经网络模型中卷积层的卷积处理参数，64表示特征维度，3表示卷积核大小即3*3*3，1表示步长，1表示填充。

在基于图3中所示的结构进行待处理视频的质量评估时，将待处理视频帧(图3中的失真帧)和残差帧输入视频质量评估模型(图3中的空间特征提取模块、时空特征融合模块和预测模块)，时空特征提取层(图3中的时空特征融合模块)利用两层二维卷积神经网络模型分别提取待处理视频帧和残差帧的空间特征并进行合并，将合并后的特征输入时空特征融合模块，时空特征融合模块利用四层三维的卷积神经网络模型提取待处理视频帧的时空特征，再输入预测模块，将待处理视频帧的时空特征和对应的残差帧加权计算，之后基于加权计算后的结果，通过全局池化层和两个全连接层，输出质量评估结果(图3中的质量分数)。

作为一个示例，假设待处理视频和对应的参考视频均包括64帧图像，每帧图像的大小为112*112，即图像的宽和高均为112像素，基于图3中所示的视频质量评估模型进行待处理视频的质量评估时，具体的处理流程主要可以包括：

a.对待处理视频和参考视频中的各帧分别进行灰度转换，得到转换后的待处理视频帧和参考视频帧；

b.基于相对应的各对待处理视频帧和参考视频帧，得到各残差帧；

当前，在实际应用中，步骤a和步骤b，也可以是首先基于灰度转换前的待处理视频和参考视频，得到残差视频，之后再对待处理视频和残差视频进行灰度转换处理。

c.将经过步骤a和步骤b处理得到的待处理视频和残差视频输入至视频质量评估模型，则此时输入至模型中的待处理视频和残差视频的输入参数均为64*112*112*1，其中，64表示图像帧数，112*112即为每帧图像(图3中所示的残差帧和失真帧)的图像大小，1表示每帧图像的通道数即维度(由于是灰度图像，所以通道数为1)，残差视频和待处理视频(即输入至模型后，模型对图像的处理流程具体如下：

对于待处理视频，其输入参数为64*112*112*1，在经过图3中所示的空间特征提取模块的第一层卷积层后，该卷积层的输入特征图的参数为64*56*56*16，该特征图经过空间特征提取模块的第二层卷积层之后，输出的特征图的参数为64*28*28*16(即第一空间特征)，同样的，对于残差视频，其输入参数为64*112*112*1，在经过图3中所示的空间特征提取模块的的两层卷积层后，输出的特征图的参数为64*28*28*16(即第二空间特征)，之后，将每帧待处理视频帧第一空间特征和对应的残差帧的第二空间特征经过Concatenation层合并后，得到各待处理视频帧对应的第三空间特征，此时该空间特征的参数即为64*28*28*32，即Concatenation层输出的特征图的参数为64*28*28*32。

之后，空间特征提取模块输出的特征图(64*28*28*32)输入至时空特征融合模块，图3中所示的该模块包括四层卷积层，当前卷积层的输出即为下一卷积层的输入，由于卷积步长为1，则经过各卷积层处理后输出的特征图的参数则分别为64*28*28*64、64*28*28*64、64*28*28*32、64*28*28*1。之后，将时空特征融合模块输出的特征图(64*28*28*1)与残差视频进行融合，具体的，将时空特征融合模块输出的64帧图像所对应的特征图中每一帧的特征图作为权重图，分别与对应的残差帧进行加权计算，得到各待处理视频帧所对应的融合特征，由于各残差帧的图像大小为112*112，该大小与特征图的大小不一致，则在进行加权计算前，需要对各残差帧分别进行下采样处理，将各残差帧的图像大小转化为28*28，将转化后的各残差帧与各自对应的特征图融合，得到融合特征图，该融合特征图随后经过质量预测模块的一层全局池化层和两层全连接层处理后，即可以得到待处理视频的质量分数。

本申请实施例提供的视频质量评估方法，首先获取待处理视频和待处理视频对应的参考视频；然后基于待处理视频和参考视频，确定残差视频；基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。本申请技术方案通过残差视频和待处理视频的时空特征进行质量评估，残差视频反映了待处理视频与其参考视频之间的差别，即失真程度，待处理视频的时空特征同时考虑了时间和空间两个维度，特征信息更加全面，提高了质量评估的准确性，实现了对视频质量更加客观的评估。

基于与图1中所示方法相同的原理，本公开的实施例中还提供了一种视频质量评估装置40，如图4所示，该视频质量评估装置40包括：

视频获取模块41，用于获取待处理视频和待处理视频对应的参考视频；

残差视频确定模块42，用于基于待处理视频和参考视频，确定残差视频；

时空特征确定模块43，用于基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；

评估结果确定模块44，用于基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果

在一种可能的实现方式中，时空特征确定模块43用于：

空间特征提取单元，用于提取每一待处理视频帧的第一空间特征，以及残差视频中每一残差帧的第二空间特征；

空间特征确定单元，用于对于每一待处理视频帧，基于待处理视频帧的第一空间特征，以及待处理视频帧所对应的残差帧的第二空间特征，得到待处理视频帧对应的第三空间特征；

时空特征提取单元，用于基于各待处理视频帧所对应的第三空间特征，提取每一待处理视频帧对应的时空特征。

在一种可能的实现方式中，空间特征确定单元用于：

在一种可能的实现方式中，时空特征确定模块43用于：

在一种可能的实现方式中，时空特征确定模块43包括特征提取单元和特征融合单元；

时空特征提取单元，用于提取每一待处理视频帧的第一初始时空特征，以及残差视频中每一残差帧的第二初始时空特征；

时空特征融合单元，用于对于每一待处理视频帧，基于待处理视频帧的第一初始时空特征和待处理视频帧所对应的残差帧的第二初始时空特征，得到待处理视频帧对应的时空特征。

在一种可能的实现方式中，评估结果确定模块44包括融合特征确定单元和质量评估单元；

融合特征确定单元，用于对于待处理视频中的每一待处理视频帧，将待处理视频帧对应的时空特征，以及与待处理视频帧对应的残差帧融合，得到待处理视频帧的融合特征；

质量评估单元，用于基于各待处理视频帧的融合特征，得到待处理视频的质量评估结果。

在一种可能的实现方式中，融合特征确定单元具体用于：

将残差帧对应的待处理视频帧所对应的时空特征作为残差帧的权重，对待处理视频帧对应的残差帧进行加权计算，得到残差帧的融合特征。

本公开实施例的视频质量评估装置可执行本公开的实施例所提供的视频质量评估方法，其实现原理相类似，本公开实施例中的视频质量评估装置中的各模块所执行的动作是与本公开各实施例中的视频质量评估方法中的步骤相对应的，对于视频质量评估装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频质量评估方法中的描述，此处不再赘述。

本申请实施例提供的视频质量评估装置，首先获取待处理视频和待处理视频对应的参考视频；然后基于待处理视频和参考视频，确定残差视频；基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。本申请技术方案通过残差视频和待处理视频的时空特征进行质量评估，残差视频反映了待处理视频与其参考视频之间的差别，即失真程度，待处理视频的时空特征同时考虑了时间和空间两个维度，特征信息更加全面，提高了质量评估的准确性，实现了对视频质量更加客观的评估。

上述实施例从虚拟模块的角度介绍了视频质量评估装置，下述从实体模块的角度介绍一种电子设备，具体如下所示：

本申请实施例提供了一种电子设备，如图5所示，图5所示的电子设备9000包括：处理器9001和存储器9003。其中，处理器9001和存储器9003相连，如通过总线9002相连。可选地，电子设备9000还可以包括收发器9004。需要说明的是，实际应用中收发器9004不限于一个，该电子设备9000的结构并不构成对本申请实施例的限定。

处理器9001可以是CPU，通用处理器，GPU，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器9001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线9002可包括一通路，在上述组件之间传送信息。总线9002可以是PCI总线或EISA总线等。总线9002可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器9003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器9003用于存储执行本申请方案的应用程序代码，并由处理器9001来控制执行。处理器9001用于执行存储器9003中存储的应用程序代码，以实现前述任一方法实施例所示的内容。

本申请实施例提供了一种电子设备，本申请实施例中的电子设备包括：一个或多个处理器；存储器；一个或多个计算机程序，其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序被处理器执行时，首先获取待处理视频和待处理视频对应的参考视频；然后基于待处理视频和参考视频，确定残差视频；基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。本申请技术方案通过残差视频和待处理视频的时空特征进行质量评估，残差视频反映了待处理视频与其参考视频之间的差别，即失真程度，待处理视频的时空特征同时考虑了时间和空间两个维度，特征信息更加全面，提高了质量评估的准确性，实现了对视频质量更加客观的评估。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当计算机程序在处理器上运行时，使得处理器可以执行前述方法实施例中相应内容。与现有技术相比，在本申请技术方案中，首先获取待处理视频和待处理视频对应的参考视频；然后基于待处理视频和参考视频，确定残差视频；基于待处理视频和残差视频，确定待处理视频中每一待处理视频帧所对应的时空特征；基于每一待处理视频帧所对应的时空特征和残差视频，确定待处理视频的质量评估结果。本申请技术方案通过残差视频和待处理视频的时空特征进行质量评估，残差视频反映了待处理视频与其参考视频之间的差别，即失真程度，待处理视频的时空特征同时考虑了时间和空间两个维度，特征信息更加全面，提高了质量评估的准确性，实现了对视频质量更加客观的评估。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频质量评估方法，其特征在于，所述方法包括：

获取待处理视频和所述待处理视频对应的参考视频；

基于所述待处理视频和所述参考视频，确定残差视频；

基于所述待处理视频和所述残差视频，确定所述待处理视频中每一待处理视频帧所对应的时空特征；

基于每一所述待处理视频帧所对应的时空特征和所述残差视频，确定所述待处理视频的质量评估结果；

所述基于所述待处理视频和所述残差视频，确定所述待处理视频中每一待处理视频帧所对应的时空特征，包括：

提取每一所述待处理视频帧的第一空间特征，以及所述残差视频中每一残差帧的第二空间特征，对于每一所述待处理视频帧，基于所述待处理视频帧的第一空间特征，以及所述待处理视频帧所对应的残差帧的第二空间特征，得到所述待处理视频帧对应的第三空间特征，基于各所述待处理视频帧所对应的第三空间特征，提取每一所述待处理视频帧对应的时空特征。

2.根据权利要求1所述的方法，其特征在于，所述基于所述待处理视频帧的第一空间特征，以及所述待处理视频帧所对应的残差帧的第二空间特征，得到所述待处理视频帧对应的第三空间特征，包括：

将所述待处理视频帧的第一空间特征和所述待处理视频帧所对应的残差帧的第二空间特征在通道维度上进行拼接，得到所述待处理视频帧对应的第三空间特征。

3.根据权利要求1所述的方法，其特征在于，所述基于各所述待处理视频帧所对应的第三空间特征，提取每一所述待处理视频帧对应的时空特征，包括：

对于每一所述待处理视频帧，基于所述待处理视频帧的第三空间特征、以及至少一个时间上与所述待处理视频帧关联的关联视频帧的第三空间特征，提取所述待处理视频帧对应的时空特征。

4.根据权利要求1至3中任一项所述的方法，其特征在于，通过视频质量评估模型确定所述待处理视频的质量评估结果。

5.根据权利要求4所述的方法，其特征在于，所述视频质量评估模型是通过以下方式训练得到的：

6.根据权利要求5所述的方法，其特征在于，所述初始空间特征提取层包括二维卷积神经网络模型；所述初始时空特征提取层包括三维卷积神经网络模型或者2.5维卷积神经网络模型；所述初始质量预测层包括依次连接的全局池化层和全连接层。

7.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于每一所述待处理视频帧所对应的时空特征和所述残差视频，确定所述待处理视频的质量评估结果，包括：

对于所述待处理视频中的每一待处理视频帧，将所述待处理视频帧对应的时空特征，与所述待处理视频帧对应的残差帧融合，得到所述待处理视频帧的融合特征；

基于各所述待处理视频帧的融合特征，得到所述待处理视频的质量评估结果。

8.根据权利要求7所述的方法，其特征在于，所述将所述待处理视频帧对应的时空特征，与所述待处理视频帧对应的残差帧融合，得到所述待处理视频帧的融合特征，包括：

将所述待处理视频帧对应的时空特征作为权重，与所述待处理视频帧对应的残差帧进行加权计算，得到所述待处理视频帧的融合特征。

9.一种视频质量评估装置，其特征在于，所述装置包括：

视频获取模块，用于获取待处理视频和所述待处理视频对应的参考视频；

残差视频确定模块，用于基于所述待处理视频和所述参考视频，确定残差视频；

时空特征确定模块，用于基于所述待处理视频和所述残差视频，确定所述待处理视频中每一待处理视频帧所对应的时空特征；

评估结果确定模块，用于基于每一所述待处理视频帧所对应的时空特征和所述残差视频，确定所述待处理视频的质量评估结果；

所述时空特征确定模块在基于所述待处理视频和所述残差视频，确定所述待处理视频中每一待处理视频帧所对应的时空特征时，具体用于：

提取每一所述待处理视频帧的第一空间特征，以及所述残差视频中每一残差帧的第二空间特征；对于每一所述待处理视频帧，基于所述待处理视频帧的第一空间特征，以及所述待处理视频帧所对应的残差帧的第二空间特征，得到所述待处理视频帧对应的第三空间特征；基于各所述待处理视频帧所对应的第三空间特征，提取每一所述待处理视频帧对应的时空特征。

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；

其中，一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个计算机程序被配置用于执行根据权利要求1～8任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在处理器上运行时，使得所述处理器可以执行权利要求1～8任一项所述的方法。