CN113554599B

CN113554599B - 一种基于人类视觉效应的视频质量评价方法

Info

Publication number: CN113554599B
Application number: CN202110718776.7A
Authority: CN
Inventors: 周晓飞; 郭祺华; 费晓波; 张继勇; 孙垚棋; 颜成钢
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-08-18
Anticipated expiration: 2041-06-28
Also published as: CN113554599A

Abstract

本发明公开了一种基于人类视觉效应的视频质量评价方法。本发本发明方法包括内容特征提取网络、上下文注意机制网络和时间记忆效应网络。模型的输入是当前帧图像。首先，深度特征提取网络提取内容感知特征，注意力模块采用循环神经网络强化学习内容感知特征，再将注意力感知转移。然后，将内容感知特征与注意力感知转移相结合得到当前帧的质量得分，通过时间记忆效应模型对帧质量得分进行全局平均池化，得到视频的总体质量。本发明方法提供的网络模型可以充分有效地利用模仿人类视觉行为来实现对视频的质量评价。

Description

一种基于人类视觉效应的视频质量评价方法

技术领域

本发明属于计算机视觉领域，具体涉及一种人类视觉效应的视频质量评价方法。

背景技术

伴随着智能手机、平板电脑和个人电脑等各种多媒体终端设备的快速发展和普及，视频资源的数量呈现出爆炸式增长的趋势。但是，受限于视频采集与传输过程中的一些客观因素，最终呈现在用户面前的视频往往都伴随着不同程度的失真，视频质量评价在很多视频处理应用中都起着非常重要的作用，诸如视频画质增强、视频压缩与重建、视频水印添加等。因此，近年来，视频质量评价这个方向吸引越来越多的研究者投身其中。

现有的视频质量评价方法大致可以划分为两类：主观评价和客观评价。主观评价是由观测者根据测评规范进行人工评分，并且需要通过大量观测者的评分来计算平均主观得分(MOS)。除此之外，对于不同的测评者，其测试结果可能偏差较大。因此，主观评价通常需要对测评者进行特定的训练。可见主观评价方法难度较大，不适合大规模应用。综上所述，主观视频评价不仅费时费力，且很难统一标准在线使用。因此，构建一种自动的视频质量客观评价模型就变得非常必要。

客观评价方法是基于自动测量标准和指标的，可提供与主观质量评价近似的结果。根据使用原始无损视频信息的程度，视频质量评价方法可以大致划分为三类：全参考、半参考和无参考评价方法。主流的全参考评价方法有PSNR、MSE、DeepVQA等，主流的半参考评价方法有CALLET、PSRN-B等。

几十年来，视频质量评价已经得到了充分的研究。近年来，伴随着机器学习技术的发展，利用先进的机器学习算法构建了一些显著性模型，例如采用提取视频的时域和空域特征以获得视频质量分数等。最近，随着深度卷积神经网络的蓬勃应用，已经将其引入到视频质量评价中，例如采用经过预训练的CNN模型ResNet-50、VGG-16、Inception-V3。此外，广泛使用的注意力机制也被许多视频质量评价模型所采用，进一步提高了视频质量评价模型的性能。值得注意的是，相比于全参考型算法，无参考型算法的评估效果较差。由于视频数据集的样本数量不足，内容不够丰富，所以它的普及化能力需要加强研究，且其在自然失真视频数据集上的评估效果不佳，其研究还待加强。无参考模型想要在实际应用情况上达到高效的评估能力还需要进一步探究。

发明内容

针对现有技术存在的不足，本发明提供了一种基于人类视觉效应的视频质量评价方法。

本发明方法包括以下步骤：

步骤(1).内容感知特征的提取，具体方法如下：

1-1.构建深度特征提取网络，所述的深度特征提取网络基于ResNet50模型构建，所述的ResNet50模型由49个卷积层和1个全连接层组成，卷积核以及步幅大小均由PyTorch中的nn.AdaptiveAvgPool2d自适应设置，所述的nn.AdaptiveAvgPool2d的输出设置为1×1。

1-2.对深度特征提取网络进行训练，所述的深度特征提取网络在ImageNet可视化数据集上进行训练，使其对形变特征敏感，进而实现对图像内容的感知功能.此过程的初始学习率为0.00001，数据迭代次数设置为2000且训练批次大小为16。

1-3.预设视频具有T帧，预训练的深度特征提取网络的输入为当前帧I_t(t＝1，2，…，T)，所述的预训练深度特征提取网络输出是当前帧I_t对应的深度语义特征图M_t：

M_t＝CNN(I_t) (1)

1-4.分别对特征图M_t进行空间全局平均池化(GP_mean)和全局标准差池化(GP_std)，所述的空间全局平均池化提取特征向量f_t ^mean：

f_t ^mean＝GP_mean(M_t) (2)

所述的空间全局标准差池化提取特征向量f_t ^std：

f_t ^sta＝GP_std(M_t) (3)

最后将f_t ^mean和f_t ^std concat起来作为内容感知特征f_t：

其中，是串联运算符，f_t的长度是2C，维数是4096。

1-5.将图像的内容感知特征f_t输入全连接(FC)层，将所述的f_t维数从4096缩减为128，降维后得到的特征x_t(t＝1，2，…，T)：

x_t＝W_fx f_t+b_fx (5)

其中，W_fx表示缩小比例，b_fx表示偏差项。

步骤(2).上下文注意机制建模，具体方法如下：

2-1.取降维后的特征x_t与前面n_fps帧的特征信息X_p，以及后面n_fps帧的特征信息X_a；

其中n_fps表示每秒传输帧数。据此得到一个包含上下文内容特征的新矩阵

2-2.将输入到全连接层中，将所述的/>进行上下文内容特征信息融合，得到结合上下文信息的内容特征x_t*(t＝1，2，...，T)：

其中，W_fx ^*表示缩小比例，b_fx ^*表示偏差项。

2-3.新建一个GRU网络充当一个神经元注意机制，设置单层GRU网络的隐含尺寸为32，卷积核为3×3×32。GRU网络的隐含状态初始值设为h₀ ^*，根据当前时刻的内容特征x_t ^*和之前时刻的GRU隐含状态h_t-1 ^*计算当前时刻的GRU网络隐含状态：

h_t ^*＝GRU(x_t ^*，h_t-1 ^*) (9)

此外，用卷积去映射隐含状态h_t ^*得到一个重要性矩阵，再使用sigmoid函数将重要性矩阵的各个元素值归一化到[0，1]，得到注意力映射a_t：

其中，σ()表示sigmoid函数，w^a表示卷积核。

步骤(3).长期依赖关系建模，具体方法如下：

3-1.为了建立集成了上下文信息的内容感知特征与帧级质量的长期依赖关系，将降维后的特征x_tx_t作为GRU网络的输入；将单层GRU网络的隐含尺寸设为32，卷积核为3×3×32。GRU网络的隐含状态初始值设为h₀，根据当前时刻的x_t和之前时刻的GRU隐含状态h_t-1计算当前时刻的GRU网络隐含状态h_t：

h_t＝GRU(x_t，h_t-1) (11)

3-2.将注意力模块进行感知转移：

g_t＝a_t⊙h_t (12)

其中，g_t表示感知转移。

3-3.通过增加一个FC层预测每一帧的质量得分q_t：

q_t＝w_hqg_t+b_hq (13)

其中，w_hq表示权重，b_hq表示偏差。

步骤(4).视频质量预测，具体方法如下：

4-1.为了模拟人类对低质量事件的不耐受性，将第t帧的记忆质量元素I_t定义为前几帧的最低质量分数：

l_t＝q_t，for t＝1

其中，V_prev＝{max(1，t-τ)，...，t-2，t-1}是所考虑帧的索引集，τ是与时间持续时间相关的超参数。

4-2.考虑到受试者对质量下降反应剧烈，但对质量改善反应迟钝的事实，对第t帧构造了当前质量元素m_t，并对接下来几帧进行加权得分，将较大的权重分配给质量较差的帧。具体地说通过一个可微的SoftMin函数(负线性函数和SoftMax函数的组合)确定权重w_t ^k。

其中，V_next＝{t，t+1，…，min(t+τ，T)}表示相关帧的索引集，w_t ^k是定义的权重参数。

4-3.将当前质量元素和记忆质量元素线性组合来近似得到主观的帧质量分数q_t′。最后，通过近似分数的时间全局平均池化(GAP)计算总体视频质量Q：

q_t′＝γl_t+(1-γ)m_t (17)

其中，γ是一个超参数，用于平衡记忆质量元素和当前质量元素对近似分数的影响。

本发明有益效果如下：

本发明方法主要优势在于三个方面：内容感知模块和深度神经网络中的上下文注意模块，以及在综合评分中加入时间记忆效应模块。特征提取网络的浅层特征中包含着丰富的内容信息，为了获得人类对每一帧图像内容信息的偏好，本发明方法通过KoNViD-1k、CVD2014和LIVE-Qualcomm视频数据集训练卷积神经网络使其具有内容感知功能。本发明方法将注意力模块应用到图像经过深度内容感知提取到的深度特征，此处上下文注意模块中的GRU相当于权重过滤器用以选择每个深度特征图中最显著的区域或最具代表性的区域。本发明方法提供的网络模型可以有效地利用当前帧和前后帧的分数权重不同来实现对视频综合质量评价。

附图说明

图1为本发明方法的总程序框图。

图2为本发明方法中内容感知模型程序框图。

图3为本发明方法的上下文注意模型程序框图。

图4为本发明方法的长期依赖关系程序框图。

图5为本发明方法的时间记忆效应池化策略程序框图。

具体实施方式

下面结合附图对本发明作进一步说明。

本发明方法包括内容特征提取网络、上下文注意机制网络和时间记忆效应网络。模型的输入是当前帧图像。首先，深度特征提取网络提取内容感知特征，注意力模块采用循环神经网络强化学习内容感知特征，再将注意力感知转移。然后，将内容感知特征与注意力感知转移相结合得到当前帧的质量得分，通过时间记忆效应模型对帧质量得分进行全局平均池化，得到视频的总体质量。本发明方法提供的网络模型可以充分有效地利用模仿人类视觉行为来实现对视频的质量评价。

如图1所示，本发明方法具体如下所示。

步骤(1).内容感知特征的提取，具体方法如下：

首先构建内容感知特征提取网络，所述的深度特征提取网络基于ResNet50模型构建，所述的ResNet50模型由49个卷积层和1个全连接层组成，卷积核以及步幅大小均由Pytorch中的nn.AdaptiveAvgPool2d自适应设置，所述的nn.AdaptiveAvgPool2d的输出设置为1×1。然后对深度特征提取网络进行训练，所述的深度特征提取网络在ImageNet可视化数据集上进行训练，使其对形变特征敏感，进而实现对图像内容的感知功能。此过程的初始学习率为0.00001，数据迭代次数设置为2000且训练批次大小为16。预训练的深度特征提取网络的输入为当前帧I_t(t＝1，2，…，T)，并从所述的预训练深度特征提取网络输出为对应当前帧F_t的深度语义特征图：M_t＝CNN(I_t)。

分别对特征图M_t进行空间全局平均池化(GP_mean)和全局标准差池化(GP_std)，得到f_t ^mean和f_t ^std，最后通过f_t ^mean和f_t ^std串联计算得到内容感知特征：得到的上下文特征信息加权平均由于过于庞大，在此也需要一个全连接层对特征信息进行降维，得到降维后的内容感知特征x_t。

内容感知模块示意图见图2。

步骤(2).上下文注意机制的建模，具体方法如下：

提取图像内容特征后，为了增强上下文信息，我们取当前时刻x_t与前一秒的帧数的特征信息以及后一秒的帧数的特征信息其中n_fps表示一秒的帧数。据此得到一个包含上下文内容特征的新矩阵/>并将其通过全连接层进行上下文内容特征信息融合得到x_t ^*＝/>

我们新建一个GRU网络充当一个神经元注意机制，并将缩小后的特征信息输入GRU。在此，设置单层GRU网络的隐含尺寸为32，卷积核为3×3×32。GRU网络的隐含状态初始值设为h₀ ^*，根据当前时刻的x_t ^*和之前时刻的GRU隐含状态h_t-1 ^*计算当前时刻的GRU网络隐含状态h_t ^*＝GRU(x_t ^*，h_t-1 ^*)。

此外，我们用卷积去映射注意力特征h_t ^*得到一个重要性矩阵，再使用sigmoid函数将重要性矩阵的各个元素值归一化到[0，1]，得到注意力映射其中，w^a表示一个1×1的卷积核，σ表示sigmoid函数。

上下文注意模块示意图见图3。

步骤(3).长期依赖关系的建立，具体方法如下：

在此我们新建一个GRU网络建立集成上下文信息的内容特征信息与帧级质量的长期依赖关系，将经过缩小的x_t作为GRU网络的输入。在此，我们将单层GRU网络的隐含尺寸设为32，卷积核为3×3×32。GRU网络的隐含状态初始值设为h₀，根据当前时刻的x_t和之前时刻的GRU隐含状态h_t-1计算当前时刻的GRU网络隐含状态h_t＝GRU(x_t，h_t-1)。完成内容感知的特征融合后，将注意力模块进行感知转移：g_t＝a_t⊙h_t，再通过一个全连接层即可预测一帧的质量得分q_t＝W_hqg_t+b_hq，其中W_hq表示权重，b_hq表示偏差。

功能集成模块示意图见图4。

步骤(4).时间记忆效应全局池化策略的实现，具体方法如下：

为了模拟人类视觉对质量较差的帧印象更深，我们对第t帧构造第t帧的质量元素并对接下来几帧进行加权得分，将较大的权重分配给质量较差的帧。我们通过可微的SoftMin函数(负线性函数和SoftMax函数的组合)确定权重k∈V_next.其中，V_next＝{t，t+1，…，min(t+τ，T)}表示相关帧的索引集。

我们将当前质量元素和内存质量元素线性组合来近似得到主观帧的质量得分q_t′＝γl_t+(1-γ)m_t，其中，γ是一个超参数，用于平衡内存质量元素和当前质量元素对近似分数的影响。最后，通过近似分数的时间全局平均池化(GAP)计算总体视频质量

时间记忆效应全局策略示意图见图5。

Claims

1.一种基于人类视觉效应的视频质量评价方法，其特征在于包括如下步骤：

步骤(1).通过构建的深度特征提取网络对内容感知特征的提取；

步骤(2).上下文注意机制建模；

步骤(3).长期依赖关系建模；

步骤(4).视频质量预测；

步骤(1)具体实现如下：

1-1.构建深度特征提取网络，所述的深度特征提取网络基于ResNet50模型构建，所述的ResNet50模型由49个卷积层和1个全连接层组成，卷积核以及步幅大小均由PyTorch中的nn.AdaptiveAvgPool2d自适应设置，所述的nn.AdaptiveAvgPool2d的输出设置为1×1；

1-2.对深度特征提取网络进行训练，所述的深度特征提取网络在ImageNet可视化数据集上进行训练，使其对形变特征敏感，进而实现对图像内容的感知功能；此过程的初始学习率为0.00001，数据迭代次数设置为2000且训练批次大小为16；

1-3.预设视频具有T帧，预训练的深度特征提取网络的输入为当前帧I_t，t＝1，2，…，T，所述的预训练深度特征提取网络输出是当前帧I_t对应的深度语义特征图M_t：

M_t＝CNN(I_t) (1)

1-4.分别对特征图M_t进行空间全局平均池化GP_mean和空间全局标准差池化GP_std，所述的空间全局平均池化提取特征向量f_t ^mean：

f_t ^mean＝GP_mean(M_t) (2)

所述的空间全局标准差池化提取特征向量f_t ^std：

f_t ^std＝GP_std(M_t) (3)

最后将f_t ^mean和f_t ^std concat起来作为内容感知特征f_t：

其中，是串联运算符，f_t的长度是2C，维数是4096；

1-5.将图像的内容感知特征f_t输入全连接层，将所述的f_t维数从4096缩减为128，降维后得到的特征x_t：

x_t＝W_fxf_t+b_fx (5)

其中，W_fx表示缩小比例，b_fx表示偏差项；

步骤(2)具体实现如下：

其中n_fps表示每秒传输帧数；据此得到一个包含上下文内容特征的新矩阵

2-2.将输入到全连接层中，将所述的/>进行上下文内容特征信息融合，得到结合上下文信息的内容特征x_t ^*(t＝1，2，...，T)：

其中，W_fx ^*表示缩小比例，b_fx ^*表示偏差项；

2-3.新建一个GRU网络充当一个神经元注意机制，设置单层GRU网络的隐含尺寸为32，卷积核为3×3×32；GRU网络的隐含状态初始值设为h₀ ^*，根据当前时刻的内容特征x_t ^*和之前时刻的GRU隐含状态h_t-1 ^*计算当前时刻的GRU网络隐含状态：

h_t ^*＝GRU(x_t ^*，h_t-1 ^*) (9)

其中，σ()表示sigmoid函数，w^a表示卷积核；

步骤(3)具体实现如下：

3-1.为了建立集成上下文信息的内容感知特征与帧级质量的长期依赖关系，将降维后的特征x_t作为GRU网络的输入；将单层GRU网络的隐含尺寸设为32，卷积核为3×3×32；GRU网络的隐含状态初始值设为h₀，根据当前时刻的x_t和之前时刻的GRU隐含状态h_t-1计算当前时刻的GRU网络隐含状态h_t：

h_t＝GRU(x_t，h_t-1) (11)

3-2.将注意力模块进行感知转移：

g_t＝a_t⊙h_t (12)

其中，g_t表示感知转移；

3-3.通过增加一个FC层预测每一帧的质量得分q_t：

q_t＝w_hqg_t+b_hq (13)

其中，w_hq表示权重，b_hq表示偏差；

步骤(4)具体实现如下：

l_t＝q_t，for t＝1

其中，V_prev＝{max(1，t-τ)，...，t-2，t-1}是所考虑帧的索引集，τ是与时间持续时间相关的超参数；

4-2.考虑到受试者对质量下降反应剧烈，但对质量改善反应迟钝的事实，对第t帧构造了当前质量元素m_t，并对接下来几帧进行加权得分，将超过设定阈值的权重分配给质量低于指定阈值的帧；具体地说通过一个可微的SoftMin函数确定权重W_t ^k；

其中，V_next＝{t，t+1，…，min(t+τ，T)}表示相关帧的索引集，w_t ^k是定义的权重参数；

4-3.将当前质量元素和记忆质量元素线性组合来得到主观的帧质量分数q_t′；最后，通过近似分数的时间全局平均池化GAP计算总体视频质量Q：

q_t′＝γl_t+(1-γ)m_t (17)