CN113810683B

CN113810683B - 一种客观评估水下视频质量的无参考评价方法

Info

Publication number: CN113810683B
Application number: CN202111000302.5A
Authority: CN
Inventors: 胡凯; 翁成航; 张彦雯; 李姚根
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-07-18
Anticipated expiration: 2041-08-27
Also published as: CN113810683A

Abstract

本发明涉及一种客观评估水下视频质量的无参考评价方法，属于视频分析技术领域。该方法包括如下步骤：第一步，将水下视频分解成帧，使用一组图像质量评价指标获得视频帧的退化特征，包括UCIQE、边缘图像块对比度指数和NIQE；第二步，使用预训练的ResNet50深度神经网络结合特征注意力机制提取视频帧的语义特征向量，降维后得到视频帧的语义质量分数；第三步，将各指标分数进行归一化处理，与语义质量分数融合，得到每一帧最终的质量特征；第四步，使用门循环单元网络捕获视频帧之间的时序信息并进行特征融合，得到最终的视频质量分数。本发明解决了通用视频质量评价指标不能准确评估水下视频质量这一问题。

Description

一种客观评估水下视频质量的无参考评价方法

技术领域

本发明涉及一种客观评估水下视频质量的无参考评价方法，属于视频分析技术领域。

背景技术

视频图像的质量评价指标准可以分为主观评价方法和客观评价方法。主观评价由观察者对视频或图像给出主观评分，符合人眼视觉特性，但工作量大、实时性差、无法自动化实现，在水下视频图像的质量评分上并不适用。客观评价方法是利用计算机算法进行打分，可以进行实时在线测评，根据评价时是否需要参考图像又可以分为全参考、半参考(部分参考)和无参考三类评价方法。视频质量指标，尤其是实用性更强的客观评价指标，在视频技术研究中处于关键地位。有效且准确的视频质量评价指标能直接衡量视频质量，也引导着高质量视频的获取，还是验证水下视频增强与复原算法性能的重要手段。

水下视频在水域尤其是海洋的探索开发中，有不可替代的作用。不同于通常大气环境下的视频，水下视频由于特殊的光学环境导致的色偏、模糊、光照不均、对比度低以及成像设备在水中晃动导致的失焦等问题，存在明显的质量退化。通用的自然视频评价指标并不能准确的衡量水下视频质量。因此，需要建立针对水下视频的质量评价指标。因为水下视频通常缺少高质量参考视频，所以需要采用无参考的方法进行水下视频质量评价。

而目前，我们没有针对水下视频质量评价的无参考评价指标。

发明内容

针对通用视频质量评价指标不能准确评估水下视频质量这一问题，本发明提出了一种客观评估水下视频质量的无参考评价方法。利用深度神经网络提取出视频帧的语义特征，结合水下彩色图像质量评价指标、图像模糊程度指标和自然图像质量评估指标。使用门循环单元网络融合视频帧之间的时序信息和多特征信息。

本发明为解决其技术问题采用如下技术方案：

一种客观评估水下视频质量的无参考评价方法，包括如下步骤：

第一步，将水下视频分解成帧，使用一组图像质量评价指标获得视频帧的退化特征，包括UCIQE、边缘图像块对比度指数和NIQE；

第二步，使用预训练的ResNet50深度神经网络结合特征注意力机制提取视频帧的语义特征向量，降维后得到视频帧的语义质量分数；

第三步，将各指标分数进行归一化处理，与语义质量分数融合，得到每一帧最终的质量特征；

第四步，使用门循环单元网络捕获视频帧之间的时序信息并进行特征融合，得到最终的视频质量分数。

第一步中使用UCIQE提取视频帧的色彩特征，该指标以色度、饱和度和对比度为测量分量，通过线性的方式将测量分量线性组合，量化了水下图像的色彩和对比度；

使用边缘图像块的对比度指数值和来表示水下彩色图像的模糊程度，提取出视频帧模糊程度特征；

使用NIQE衡量水下图像的雾化程度，测试图像的NIQE指标表示为从测试图像中提取的自然场景统计特征的多元高斯模型与从自然图像语料中提取的质量感知特征的多元高斯模型之间的距离。

第二步中所述特征注意力机制模块结合了通道注意力和空间注意力，对于输入的特征图F∈R^C*H*W，注意力机制的处理过程表示为

其中：F是输入的特征图，F′是经过通道注意力机制处理后的特征图；M_c(F)∈R^C*1*1代表的是1维通道注意力图，F″是经过空间注意力机制处理后的特征图；M_s(F′)∈R^1*H*W代表的是空间注意力图，代表逐元素相乘操作。

第四步中使用多层门控递归单元网络捕获视频帧之间的时间序列信息，所述多层门控递归单元包括重置门和更新门，最终输出状态计算下式所示：

其中：h_t是t时刻GRU单元的输出，z_t是控制更新门的门控，代表逐元素相乘，h_t-1是t-1时刻GRU单元的输出，/>是候选隐藏状态。

本发明的有益效果如下：

本发明提出了一种有效的水下视频质量评估方法。针对水下图像中的散射、模糊、雾化现象，融合了水下彩色图像质量评价指标、图像模糊程度指标、自然图像质量评估指标和高阶语义特征来进行测量评估，融合后的特征能更好的体现出水下图像退化过程并带有图像语义信息。此外，使用的门控递归单元网络能够有效的保留视频的时序信息。

附图说明

图1为模型整体框架图。

图2为特征提取流程图。

图3为特征提取中的特征注意力模块结构图。

图4为GRU单元结构图。

图5为时序注意力机制模块结构图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

我们将水下视频分解成帧，并按帧处理，每一帧即为一张水下图像。首先，针对水下视频特有的色偏、模糊、雾化等质量退化因素，我们使用一组图像质量评价指标获得视频帧的退化特征。使用水下彩色质量评价指标(UCIQE)提取视频帧的色彩特征，该指标以色度、饱和度和对比度为测量分量，通过线性的方式将测量分量线性组合，有效地量化了水下图像的色彩和对比度；使用边缘图像块的对比度指数值和来表示水下彩色图像的模糊程度，提取出视频帧模糊程度特征；使用自然图像质量指标(NIQE)衡量水下图像的雾化程度，测试图像的NIQE指标表示为从测试图像中提取的自然场景统计特征(NSS)的多元高斯模型(MVG)与从自然图像语料中提取的质量感知特征的多元高斯模型之间的距离。其次，人类对视觉图像/视频质量的判断受到内容的影响，针对视频内容的感知问题，我们使用预训练的ResNet50深度神经网络结合特征注意力机制提取视频帧的语义特征向量，降维后得到视频帧的语义质量分数。然后，将各指标分数进行归一化处理，与语义质量分数进行拼接，得到每一帧的特征向量。最后，使用门循环单元网络捕获视频帧之间的时序信息并进行特征融合，加上时序注意力机制，得到最终的视频质量分数。

本发明主要采用如下模块：

模块1：退化特征提取模块

模块2：语义特征提取模块

模块3：时序信息与特征融合模块

模块1：退化特征提取模块。水下视频的主要退化现象包括色偏、模糊和雾化，因此我们提取出这三种退化对应的分数作为视频退化特征。

使用视频帧色彩分数S_col表示色偏。水下彩色质量评价指标(UCIQE)是一种使用广泛的水下图像质量指标。以色度、饱和度和对比度为测量分量，通过线性的方式将测量分量线性组合，有效的量化了水下图像的色彩、模糊程度和对比度。计算视频帧的UCIQE得到色彩特征分数S_col。

使用视频帧模糊分数S_blu表示模糊程度。由于水介质的散射，特别是前向散射的影响，使水下图像严重失真，出现模糊。我们利用边缘图像块的对比度指数值和来表示水下彩色图像的模糊。通过计算视频帧像素的均方根对比度Blu(V)。来表示模糊分数S_blu。

使用视频帧雾化分数S_fog表示雾化程度。我们计算水下视频帧的自然图像质量指标(NIQE)值来表示雾化程度。NIQE指标通过计算待测图像与自然图像的统计规律的偏差来衡量图像质量，基于一系列从的图像质量特征“质量感知”特征，并将其用于拟合一个多元高斯模型(MVG)中。质量感知特征源于一系列正常的自然图像。将给定的测试图像的NIQE指标表示为从测试图像中提取的图像统计模型特征的拟合的MVG模型与从自然图像语料中提取的质量感知特征的MVG模型之间的距离。通过NIQE值得到视频帧的雾化特征分数S_fog。

模块2：语义特征提取模块。众多的实验已证明，人类对视觉图像质量的判断受到图像内容的影响。因此，提取到准确的图像内容信息对于质量评价指标的建立十分重要。我们使用预先训练的ResNet50网络和注意力机制模块来提取视频帧内容感知的语义特征。ResNet网络采用恒等映射将前一层的输出直接传递到后面层，这种残差跳跃的结构解决了深层次的网络退化问题，可以搭建更深的网络提高特征提取能力。使用ResNet50网络模型提取语义特征，并在ImageNet数据集上进行预训练。特征注意力机制模块结合了通道注意力和空间注意力。对于输入的特征图F∈R^C*H*W，注意力机制的处理过程表示为

其中：F是输入的特征图，F′是经过通道注意力机制处理后的特征图。M_c(F)∈R^C*1*1代表的是1维通道注意力图，F″是经过空间注意力机制处理后的特征图。M_s(F′)∈R^1*H*W代表的是空间注意力图，代表逐元素相乘操作。

模块3：时序信息与特征融合模块。使用多层门控递归单元(GRU)网络捕获视频帧之间的时间序列信息，并进行多特征的融合。GRU能够保留长时间的特征信息，同时避免网络训练过程中出现的梯度消失的问题，是长短期记忆网络(LSTM)的变体，具有更简单的结构，并且更易于计算。GRU单元主要包括重置门和更新门，最终输出状态计算如式(2)所示：

h_t是t时刻GRU单元的输出，z_t是控制更新门的门控，代表逐元素相乘，h_t-1是t-1时刻GRU单元的输出，/>是候选隐藏状态。

在多层GRU结构中，不同的GRU层进行空间连接，数据由上层输出到下一层的神经元。同一GRU层具有时间依赖性，GRU层之前的输出将循环进入该层作为输入。每个GRU层包含大量的神经元，以捕获传感器数据的长期依赖关系。特征经过多层的GRU的融合，将最后一层GRU各单元的输出作为时序注意力机制的输入，利用时序注意力机制调整GRU的输出，之后使用全连接层进行降维处理，得到取值范围在[0，1]之间的视频质量分数数值。

下面用具体实施例进一步解释本发明内容。

步骤1：选取了一段5秒的水下视频，将其分解为120帧，每一帧大小为224*224。每一帧记为V_k，k∈[1，120]。整个流程如图1所示。首先进行特征提取，特征提取的流程图如图2所示，流程为步骤2至步骤5。

步骤2：计算V_k帧的色彩分数S_col。根据UCIQE指标公式，计算出色彩得分，计算过程如式(4)所示：

S_col＝0.4680×σ_c+0.2745×con_l+0.2576×μ_s (4)

其中，σ_c是色度的标准方差，con_l是亮度的对比度，μ_s是饱和度的平均值。

步骤3：计算V_k帧的模糊分数S_blu。利用边缘图像块的对比度指数值和来表示水下彩色图像的模糊。寻找边缘块的方法是判断边缘像素的数量是否大于一个块中像素总数的0.2％。我们将视频帧分成64*64的块。然后使用sobel算子判断某一块是否为边缘块。边缘块的寻找方法是判断块中的边缘像素的数量是否大于块中像素总数的0.2％。模糊指数为所有边缘块均方根对比度值之和，均方根对比度指数计算公式如(5)所示：

其中，H*W视频帧的尺寸，T边缘块的个数，V_(i，j)是视频帧V中处于(i，j)位置处的像素值，是所有像素的平均强度，H为高度，M为宽度，Blu()表示均方根。视频帧的模糊特征分数S_blu＝Blu(V)。

步骤4：计算V_k帧的雾化分数S_fog。将给定的测试图像的NIQE指标表示为从测试图像中提取的图像统计模型特征的拟合的MVG模型与从自然图像语料中提取的质量感知特征的MVG模型之间的距离。NIQE计算公式如(6)所示：

其中，v₁，A₁表示从自然图像中提取的MVG模型的均值向量和协方差矩阵。v₂，A₂表示待测帧的MVG模型的均值向量和协方差矩阵。再进行归一化处理，得到视频帧的雾化分数

步骤5：计算V_k帧的语义分数S_con。使用预先训练的ResNet50网络来提取视频帧内容感知的语义特征向量，并在ResNet50网络中加入了注意力机制模块。使用sigmoid激活函数，将输出的值映射至0-1之间。多个全连接将其维度降至1*1，得到最终的语义分数S_con。

步骤5.1：使用ResNet50网络模型提取特征，并在ImageNet上进行预训练。使用了ResNet50网络的前四个模块。以第一个卷积模块为例，输入为3*224*224的彩色视频帧。首先经过一个7*7*64的卷积，卷积核大小为7*7，数量为64，输出为64*112*112的特征图。然后是一个最大池化层。之后通过第一个卷积块，由3个小的卷积块构成，每一个小的卷积块包含三个卷积层，分别为1*1*64，3*3*64，1*1*256，输出为256*56*56的特征图。第二个卷积块是4层的[1*1*128，3*3*128，1*1*512]卷积，输出的大小为512*28*28。第三个卷积块是6层的[1*1*256，3*3*256，1*1*1024]卷积，输出的大小为512*28*28。第四个卷积块是3层的[1*1*512，3*3*512，1*1*2048]卷积，输出的大小为512*28*28。

步骤5.2：特征注意力机制模块。图3所示为注意力机制模块的结构，该模块结合了通道注意力和空间注意力。将ResNet50网络第一个卷积块的输出当作特征注意力机制的输入的特征图。首先经过通道注意力机制处理，通道注意力关注什么样的特征是有意义的，使用平均池化和最大池化来聚合特征映射的空间信息，生成两个不同的空间上下文描述符F^c _avg和F^c _max。将两个描述符送到一个由多层感知机(MLP)和一个隐藏层组成的共享网络，生成通道注意力图M_c∈R^c*1*1。

整个过程的计算公式可以表示为

M_c(F)＝σ(W₁(W₀(F^c _avg))+W₁(W₀(F^c _max))) (7)

式中σ()是sigmoid激活函数。W₀是池化操作的权重，W₁是多层感知机的权重，共享输入和Relu激活函数。将通道注意力图M_c和输入的特征F进行逐元素相乘即可得到新的特征F′。

在通道注意力模块后，使用空间注意力机制来关注哪些特征是有意的。首先使用平均池化和最大池化操作聚合功能映射的通道信息，生产两个二维映射F^s _avg∈R^1*H*W和F^s _max∈R^1*H*W。然后通过一个标准的卷积层进行混合，卷积核大小为7*7。产生空间注意力图的计算过程表示为：

M_s(F′)＝σ(f^7*7(F^s _avg，F^s _max)) (8)

其中：f^7*7是大小为7*7的卷积操作。将M_s与空间注意力机制的输入F′进行逐元素相乘，即得到整个注意力机制的最终输出F″。

步骤6：特征融合。图4所示为GRU单元的结构图，使用GRU模块进行多特征与时序信息的融合。首先将第V_k帧提取出的色彩分数S_col、模糊分数S_blu、雾化分数S_fog、语义分数S_con拼接成一个4*1的特征向量w_k，w_k＝[S_col，S_blu，S_fog，S_con]^T。在本实例中，视频被分为120帧，即经过退化特征和语义特征提取后，输出了一个120*4*1的张量。因此该视频对应的融合层具有120个GRU单元。第一层GRU用来捕获时序信息，GRU单元的结构主要包括重置门和更新门。

重置门决定上一单元记忆信息的保留。该门的计算公式如(9)所示：

r_t＝σ(W_r[h_t-1，w_k]) (9)

更新门的计算公式如式(10)：

z_t＝σ(W_z[h_t-1，w_k]) (10)

其中，h_t-1为t-1时刻GRU单元的输出，w_k为当前单元输入。W_r，W_z分别为重置门和更新门的权重，通过网络训练获得。σ()代表sigmoid激活函数，经过sigmoid激活函数，输出的值在0-1之间。

重置门中元素值接近0，那么意味着重置对应隐藏状态元素为0，即丢弃上一时间步的隐藏状态。如果元素值接近1，那么表示保留上一时间步的隐藏状态。然后，将按元素乘法的结果与当前时间步的输入连结，再通过含激活函数tanh的全连接层计算出候选隐藏状态其所有元素的值域为[-1，1]。候选值的计算公式如(11)所示：

其中tanh()表示正切函数，r_t控制重置门，W_c为候选值权重，通过训练得到。w_k为当前单元输入，代表逐元素相乘。

GRU模块的最终输出状态计算公式如前面的式(3)计算。我们将4*1的特征向量输入到GRU单元中。序列长度为120、GRU单元的隐藏层神经元数量设置为32。经过多层映射变换为长度为32的特征向量。式(3)所需的r_t，z_t，是由输入w_k经过线性映射得到的。计算方法如式(8)-(10)。z_t是控制更新门的门控，/>代表逐元素相乘，/>是候选隐藏状态。

步骤7：时序注意力机制。对多层GRU输出的引入注意力机制，以强化关键帧对整个视频质量的影响。如图5所示，以最后一层GRU的各隐藏层状态作为输入，得到最终时刻的隐藏层状态值。首先计算评分函数score，计算公式如式(12)所示：

h_z是最后一个GRU单元的输出，h_i是历史时刻的GRU单元输出。然后计算注意力权重α_z，i，计算如式(13)所示：

式中：T_x为GRU单元个数，h_k为第k时刻GRU单元的输出，k∈(1，T_x)，α_z，i是第i个输出的注意力权重。

中间向量c_z的计算如式(14)所示：

经过注意力机制得到的最终状态值如式(15)所示。

c_z是中间向量，h_z是最后一个GRU单元的输出，也是时序注意力机制的输入。W_z是中间向量的权重矩阵，需要进行训练。

步骤8：质量分数。最后一层GRU的最后一个单元输出的状态即视频质量特征向量经过多层GRU和时序注意力机制进行融合得到的。将其记为w_out。因为GRU单元的隐藏层神经元数量设置为32，所以w_out长度为32。采用全连接层进行降维处理，计算公式如式(16)所示：

w’_out＝W_fc*w_out+b_fc (16)

W_fc是线性映射权重系数，b_fc是偏置系数。全连接层的输出大小设定为1*1，即可将特征降维成一个范围在[0，1]之间的数值，代表整个视频的质量分数。模型的整体框架如图5所示。

Claims

1.一种客观评估水下视频质量的无参考评价方法，其特征在于，包括如下步骤：

其中，使用UCIQE指标以色度、饱和度和对比度为测量分量，通过线性的方式将测量分量线性组合，量化了水下图像的色彩和对比度；

使用NIQE衡量水下图像的雾化程度，测试图像的NIQE指标表示为从测试图像中提取的自然场景统计特征的多元高斯模型与从自然图像语料中提取的质量感知特征的多元高斯模型之间的距离；

第二步，使用预训练的ResNet50深度神经网络结合特征注意力机制提取视频帧的语义特征向量，降维后得到视频帧的语义质量分数，具体操作如下：

步骤2-1，使用ResNet50网络模型的前四个模块提取特征，并在ImageNet上进行预训练，得到特征图；

步骤2-2，特征注意力机制模块结合了通道注意力和空间注意力，将ResNet50网络第一个卷积块的输出当作特征注意力机制的输入的特征图，经过通道注意力机制处理，使用平均池化和最大池化来聚合特征映射的空间信息，生成两个不同的空间上下文描述符F^c _avg和F^c _max，将两个描述符送到一个由多层感知机(MLP)和一个隐藏层组成的共享网络，生成通道注意力图M_c∈R^c*1*1；

步骤2-2中，所述特征注意力机制模块结合了通道注意力和空间注意力，对于输入的特征图F∈R^C*H*W，注意力机制的处理过程表示为：

其中，F是输入的特征图，F′是经过通道注意力机制处理后的特征图；M_c(F)∈R^C*1*1代表的是1维通道注意力图，F″是经过空间注意力机制处理后的特征图；M_s(F′)∈R^1*H*W代表的是空间注意力图，代表逐元素相乘操作；

M_c(F)的计算过程如下：

M_c(F)＝σ(W₁(W₀(F^c _avg))+W₁(W₀(F^c _max)))

其中，σ()是sigmoid激活函数；W₀是池化操作的权重，W₁是多层感知机的权重，共享输入和Relu激活函数；将通道注意力图M_c和输入的特征F进行逐元素相乘即可得到新的特征F′；

其中，M_s(F′)的计算过程如下：

M_s(F′)＝σ(f^7*7(F^s _avg，F^s _max))

其中，f^7*7是大小为7*7的卷积操作；将M_s与空间注意力机制的输入F′进行逐元素相乘，即得到整个注意力机制的最终输出F″；

2.根据权利要求1所述的一种客观评估水下视频质量的无参考评价方法，其特征在于，第四步中，使用多层门控递归单元网络捕获视频帧之间的时间序列信息，所述多层门控递归单元包括重置门和更新门，最终输出状态计算下式所示:

其中：h_t是t时刻GRU单元的输出，z_t是控制更新门的门控，代表逐元素相乘，h_t-1是t-1时刻GRU单元的输出，/>是候选隐藏状态；

z_t的计算过程如下：

z_t＝σ(W_z[h_t-1，w_k])

其中，h_t-1为t-1时刻GRU单元的输出，w_k为当前单元输入，W_r,W_z分别为重置门和更新门的权重；σ()代表sigmoid激活函数；

的计算过程如下：

其中，tanh()表示正切函数，r_t控制重置门，W_c为候选值权重；w_k为当前单元输入，代表逐元素相乘。