CN113724182A

CN113724182A - 基于扩张卷积与注意力机制的无参考视频质量评价方法

Info

Publication number: CN113724182A
Application number: CN202010438728.8A
Authority: CN
Inventors: 陈德海; 危建华
Original assignee: Wuxi Cansonic Medical Science & Technology Co ltd
Current assignee: Wuxi Cansonic Medical Science & Technology Co ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2021-11-30

Abstract

本发明提供基于扩张卷积与注意力机制的无参考视频质量评价方法，以下步骤：步骤S1：把失真视频转为帧图像，并将少于500帧的视频扩充至500帧；步骤S2：帧图像不重叠分割成a×a像素的帧图像块，将500帧图像同位置图像块拼接成a×500a像素大小的失真视频块；步骤S3：搭建加入扩张卷积层与注意力机制层的网络模型并进行训练，网络的输入为失真视频块，输出为该视频块对应视频的质量分数；步骤S4：将训练好的模型保存，输入为失真视频视频块，输出为该视频块质量分数。本发明无需手工提取特征，采用扩张卷积提升所得特征图分辨率，结合注意力机制突出重要特征，方法简单且预测分数准确。

Description

基于扩张卷积与注意力机制的无参考视频质量评价方法

技术领域

本发明主要涉及图像处理领域，尤其涉及基于扩张卷积与注意力机制结合的无参考视频质量评价方法。

背景技术

在压缩、传输、存储等过程中，视频不可避免的会产生一些失真。视频在压缩过程中产生的压缩失真，传输过程中产生的丢包失真等都会对最终用户的观看体验产生影响，因此设计一个准确且有效的视频质量评价方法显得尤为重要。

视频质量评价方法通常分为主观质量评价和客观质量评价。主观视频质量评价由人为观测视频主观给出质量分数，费时费力。该方法费时费力，因此研究人员通常采用客观视频质量评价。通常情况下，失真视频所对应的参考视频难以获取，增加了视频质量评价的难度。大多数方法是利用卷积神经网络和循环神经网络提取失真视频的空域和时域特征进行无参考视频质量评价方法研究。然而传统的卷积网络通常通过连续的池化操作或其他的下采样层来整合多尺度的上下文信息，这种方式会损失分辨率。

发明内容

针对现有技术的上述缺陷，本发明提供一种基于扩张卷积与注意力机制的无参考视频质量评价方法，包括以下步骤：

步骤S1：把失真视频转为帧图像，并将少于500帧的视频扩充至500帧；

步骤S2：帧图像不重叠分割成48×48像素的帧图像块，将500帧图像同位置图像块拼接成48×24000像素大小的失真视频块；

步骤S3：搭建加入扩张卷积层与注意力机制层的网络模型并进行训练，网络的输入为失真视频块，输出为该视频块对应视频的质量分数；

网络模型包括三个标准卷积层、15个扩张卷积层、2个池化层、1个注意力层与一个全连接层。

标准卷积层采用3×3大小的卷积核；

扩张卷积层按层数顺序扩张率分别为2、4、8、2、4、2、4、2、4、8、16、 16、8、4、2；

池化层采用最大池化；

注意力层参数设置为512个；

全连接层单元个数设置为1。

模型参数初始化设置如下：

损失函数为均方误差(mse),如公式(1)所示；

扩张卷积层采用激活函数为修正线性单元(Relu)，如公式(2)所示；

全连接层后使用sigmoid函数作为激活函数，如公式(3)所示；

注意力模型注意力计算公式如式(4)、式(5)、式(6)所示。

式(1)中，MSE为均方误差损失值，n表示样本的个数，y_i表示失真视频的客观预测得分，

表示失真视频的主观评价分数。

式(2)中，x代表神经元的输入。

式(3)中，x代表神经元的输入。

m_i＝tanh(w_ih_i+b) (4)

式(4)、(5)、(6)中，w_i为第i个特征向量的权重，b为偏置参数，m_i为第i个特征向量的状态向量h_i所决定的能量值，a_i为注意力权重矩阵，L为从扩张卷积层中输出的每个序列的特征数。

表1网络详细参数

步骤S4：将训练好的模型保存。输入为失真视频视频块，输出为该视频块质量分数。

本发明无需手工提取特征，采用扩张卷积提升所得特征图分辨率，结合注意力机制突出重要特征，方法简单且预测分数准确。

附图说明

图1为本发明的流程图；

图2为本发明的网络结构图。

具体实施方式

下面结合附图和实施例进一步对本发明加以说明。

如图1-2所示：一种基于扩张卷积与注意力机制的无参考视频质量评价方法，关键步骤如下：

网络模型包括三个标准卷积层、15个扩张卷积层、2个池化层、1个注意力层与一个全连接层。标准卷积层采用3×3大小的卷积核，扩张卷积层按顺序扩张率分别为2、4、8、2、4、2、4、2、4、8、16、16、8、4、2。池化层采用最大池化，注意力层参数设置为512个，全连接层单元个数设置为1。模型参数初始化设置如下：损失函数为均方误差(mse),如公式(1)所示。扩张卷积层采用激活函数为修正线性单元(Relu)，如公式(2)所示，全连接层后使用sigmoid函数作为激活函数，如公式(3)所示。注意力模型注意力计算公式如式(4)、式(5)、式(6)所示。

表示失真视频的主观评价分数。

式(2)中，x代表神经元的输入。

式(3)中，x代表神经元的输入。

m_i＝tanh(w_ih_i+b) (4)

表1网络详细参数

步骤S4：将训练好的模型保存，输入为失真视频视频块，输出为该视频块质量分数。

为验证本发明方法的优越性，本方法在LIVE视频数据库、IVP、CSIQ三个视频数据库上进行了实验。LIVE视频数据库共有150个失真视频、IVP视频数据库共有128个失真视频、CSIQ共有216个失真视频。在各个视频库上分别进行实验，最终实验结果显示在表2中。从表中可以看出，本发明提出的方法在三个视频数据库上质量预测效果非常好。

表2在LIVE、IVP、CSIQ数据库中SROCC和PLCC相关性

模型	数据库	SROCC	PLCC
				本方法	LIVE	0.8961	0.9420
本方法	IVP	0.8677	0.8748
				本方法	CSIQ	0.8933	0.9266

Claims

1.基于扩张卷积与注意力机制的无参考视频质量评价方法，其特征在于，包括以下步骤：

步骤S2：帧图像不重叠分割成a×a像素的帧图像块，将500帧图像同位置图像块拼接成a×500a像素大小的失真视频块；

2.根据权利要求1中所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法，其特征在于：在所述步骤S3中，网络模型包括三个标准卷积层、15个扩张卷积层、2个池化层、1个注意力层与一个全连接层。

3.根据权利要求1中所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法，其特征在于：在所述步骤S3中，标准卷积层采用3×3大小的卷积核，扩张卷积层按顺序扩张率分别为2、4、8、2、4、2、4、2、4、8、16、16、8、4、2，池化层采用最大池化，注意力层参数设置为512个，全连接层单元个数设置为1。

4.根据权利要求1中所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法，其特征在于：在所述步骤S3中，模型参数初始化设置为损失函数为均方误差mse,扩张卷积层采用的激活函数为修正线性单元Relu，全连接层使用sigmoid函数作为激活函数。

5.根据权利要求1所述基于扩张卷积与注意力机制结合的无参考视频质量评价方法，其特征在于：在所述步骤S4中，视频的预测质量分数为该视频对应的所有的视频块质量分数的均值。

6.根据权利要求1所述的基于扩张卷积与注意力机制结合的无参考视频质量评价方法，其特征在于：所述步骤S1中像素块像素大小为48*48。

7.根据权利要求1所述的基于扩张卷积与注意力机制结合的无参考视频质量评价方法，其特征在于：所述步骤S1中拼接后的失真视频块像素大小为48*24000。