CN108235003B

CN108235003B - 基于3d卷积神经网络的立体视频质量评价方法

Info

Publication number: CN108235003B
Application number: CN201810225859.0A
Authority: CN
Inventors: 杨嘉琛; 肖帅
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-03-19
Filing date: 2018-03-19
Publication date: 2020-03-06
Anticipated expiration: 2038-03-19
Also published as: CN108235003A

Abstract

本发明涉及一种基于3D卷积神经网络的立体视频质量评价方法，步骤如下：数据预处理；训练3D卷积神经网络；质量分数融合：将整个测试视频随机分为两部分，一部分用于3D CNN模型的训练，另一部分用于模型的测试；在3D CNN模型的训练过程之后，从测试立体视频中获得每个输入视频块的预测分数，为获得视频整体评价得分，采用考虑全局时间信息的质量分数融合策略：首先，利用平均池化将空间维度上的立方体级别分数进行整合；为模拟全局时间信息，定义基于运动强度计算每个片段的权重，然后计算立体视频每段时间维上运动强度占总运动强度的权重，最后，将视频级预测分数汇总为每段时间维上质量分数的加权和，得到立体视频的融合质量分数。

Description

基于3D卷积神经网络的立体视频质量评价方法

技术领域

本发明属视频处理领域，涉及立体视频质量评价方法。

背景技术

如今，各个领域如娱乐和教育都存在着大量的立体视频。视觉质量是立体视频的一个基本而复杂的特征，它与用户的体验质量高度相关；在立体视频的连续制作阶段包括处理，压缩，传输和显示等，视觉质量可能会受到不同程度的损害。因此，立体视频质量评价(Stereoscopic Video Quality Assessment,SVQA)的研究在立体视频系统的发展中起着重要的作用。为了达到更高的效率和可行性，非主观和自动客观立体视频质量评价方法是非常需要的。主观评价方法不仅费时费力，且易受多种因素的干扰，评价结果相对不稳定。比较主观评价，客观评价使用软件评价立体视频的质量，不需参与者和大量的主观试验，操作简单，且与主观评价高度相关。

根据可用的原始视频信息的数量，立体视频质量评价方法主要分为三种：全参考(Full Reference,FR)，简化参考(Reduced Reference,RR)和无参考(noreference,NR)。无参考方法可以在没有任何参考内容的情况下评估测试的立体视频的质量，而全参考方法和RR方法需要原始视频或其部分信息。然而，参考视频在大多数实际应用中不可用，只有无参考方法才有可能满足实际需求。

发明内容

本发明的目的在于建立一个充分考虑相邻视频帧运动信息的立体视频质量评价方法。本发明提出的立体视频质量评价方法，提出基于深度学习卷积神经网络(Convolutional Neural Networks，CNN)的立体视频质量评估指标，构建一个3D CNN架构来学习无参考立体视频质量评价任务的时空特征，对与立体视频质量有关的信息进行整合，进而可以做出更加全面、准确的客观评价。技术方案如下：

一种基于3D卷积神经网络的立体视频质量评价方法，步骤如下：

第一步.数据预处理

(1)差值视频：对于立体视频的左视频和右视频做差值，计算差值视频，得出卷积网络的原始视频；

(2)数据集增强：将原始视频在空间和时间维度上分割，导出多个低分辨率的短视频立方体；标记这些立方体，获得有效的训练数据；

第二步.训练3D卷积神经网络

(1)3D卷积：通过将三维卷积核与由多个相邻帧组成的立方块进行卷积来完成3D卷积，确保时间信息在整个网络中得到提取和保存，在卷积完成之后，执行加性偏差项和非线性激励函数以获得特征图；

(2)3D池化：池化层基于局部相关性原理对从卷积层传输的特征映射进行二次采样，池化操作输出特征图的某个位置处的相邻单元的汇总统计量；

(3)3D CNN架构：构建六层的3D CNN架构来自动有效地捕获本地立体视频质量评价任务的时空特征，架构包括两个3D卷积层，两个3D汇集层和两个完全连接层；在输入视频通过卷积层之后，3D最大池化层对3D特征图进行二次采样，再使用随机梯度下降(Stochastic gradient descent，SGD)优化器对视频块进行训练，输出每个视频块的预测分数；

第三步.质量分数融合

将整个测试视频随机分为两部分，一部分用于3D CNN模型的训练，另一部分用于模型的测试；在3D CNN模型的训练过程之后，从测试立体视频中获得每个输入视频块的预测分数，为获得视频整体评价得分，采用考虑全局时间信息的质量分数融合策略：首先，利用平均池化将空间维度上的立方体级别分数进行整合；为模拟全局时间信息，定义基于运动强度计算每个片段的权重，然后计算立体视频每段时间维上运动强度占总运动强度的权重，最后，将视频级预测分数汇总为每段时间维上质量分数的加权和，得到立体视频的融合质量分数。

本发明采用基于运动强度的时间维度分数融合方法，而不是采用包含全局时间信息的简单平均融合，并且模拟运动强度对立体视频质量的影响。

本发明提出的基于3D CNN的端到端无参考立体视频质量评价方法，不仅可以有效地建立局部时空信息，而且可以有效地建立三维差分视频块作为输入的全局时间信息。在两个具有挑战性的立体视频数据库上的大量实验已经表明，我们提出的方法与人类感知高度相关，并且明显优于现有算法。另外，在没有复杂的预处理和GPU加速的情况下，与先前的方法相比，我们提出的方法在计算上是更高效的。

附图说明

图1 3D卷积流程图

图2 3D CNN机构的SVQA框架

具体实施方式

一.数据预处理

(1)差值视频：

计算立体视频位置(x,y,z)处的左视图和右视图的差值视频，计算公式如下：

D_L(x,y,z)＝|V_L(x,y,z)-V_R(x,y,z)| (1)

其中V_L和V_R分别表示为立体视频位置(x,y,z)处的左视图和右视图，D_L表示差值视频。

(2)数据集增强：

我们用32的步幅滑动一个32×32的盒子，以空间维度裁剪整个视频，并在时间维度上选择步幅为8的帧，通过将原始视频在空间和时间维度上分割，导出许多低分辨率的短视频立方体。每个立方视频的大小设置为10×32×32,即10帧，每帧分辨率为32×32。在本方案中，在10个连续帧的相同位置处裁剪32×32个矩形框，产生具有视觉感知信息的立方体。然后，标记这些立方体，获得有效的训练数据。因此，我们获得每个视频的立方视频集如下：

P_cubic＝[SP⁽¹⁾,SP⁽²⁾,SP⁽³⁾,SP⁽⁴⁾] (2)

其中C是一个10×32×32立方体贴片，SP⁽ⁱ⁾表示时间维度上的第i个节段。最终，在NAMA3DS1-COSPAD1数据库的基础上构建了一个由204000个视频立方体组成的训练集，这个数据库是原始数据库的2040倍。

二.3D卷积神经网络

(1)3D卷积：CNN中卷积层所采用的卷积是输入数据与多个核函数间产生特征映射的一种特殊的线性运算。在此基础上，通过将3D卷积核与由多个相邻帧组成的立方块进行卷积来完成3D卷积，确保时间信息在整个网络中得到提取和保存。计算公式如下：

其中k表示连接到当前卷积核的(l-1)层中的特征映射的索引,

表示第(l-1)层中的第k个3D特征映射，

是第i个3D卷积核层在

上卷积。在卷积完成之后，执行加性偏差项和非线性激励函数以获得最终特征图。第l层中的第i个特征图给出计算公式为:

其中

是加性偏差项，f(*)是非线性激励函数。

(2)3D池化：池化层基于局部相关性原理对从卷积层传输的特征映射进行二次采样。池化操作输出特征图的某个位置处的相邻单元的汇总统计量，减少数据量的同时保留有价值的信息。本发明应用3D池化来保持立体视频的空间和时间维度上的不变性。3D池化操作表示为：

(3)3D CNN架构：构建共六层的3D CNN架构来自动有效地捕获本地立体视频质量评价任务的时空特征，包括两个3D卷积层C1，C2，两个3D汇集层S1，S2和两个完全连接层FC1，FC2。经过数据预处理后，考虑将多个10×32×32(时间维度3和空间维度7×7)立方体视频块作为3D CNN模型的输入。第一3D卷积层卷积将输入数据与2×3×3的内核，而第二三维卷积层具有过滤器以2×3×3随着C1和C2的层的核尺寸，多个3D特征地图分层产生代表立体视频。每次卷积之后，3D最大池化层对3D特征图进行二次采样，同时降低了特征地图在空间和时间维度上的分辨率。具体来说，两个3D池化层的内核大小是3×3×3和2×8×8。最后，所提出的网络以两个完全连接的层结束：FC1包含512个神经元以将3D特征图平坦化为512-D特征向量，并且FC2仅包含1个神经元以预测对应于输入立方体视频的质量的立方体级分数.

使用SGD优化器对小视频模型进行训练，小视频模型大小为128，应用牛顿动量0.9。学习率初始化为0.001。最终的网络共有215361个参数，并且该模型中的所有可训练参数都被随机初始化，并由在线误差反向传播算法进行训练。整流器线性单元用于非线性C和FC层的激励函数。

在完全连接的层中使用丢失策略，将输入单位降低0.5，并且采用由原始成本函数和正则化项组成的目标函数如下：

f(x_i)表示预测分数，y_i表示实际质量分数，λ是正则化参数，此外，在每个卷积和之后激励之间使用批量归一化来加速网络训练。

三.质量分数融合

采用考虑全局时间信息的质量分数融合策略。首先，利用平均池化来将空间维度上的立方体级别分数进行整合。由此，每个视频获得分数集合{S₁，S₂，S₃，S₄}，并且S_i表示每个立体视频中的第i个分段的质量。为了模拟全局时间信息，我们基于运动强度计算每个片段的权重。为了提高效率，一个简单的获取运动强度的方法被定义为：

假设表示立体视频的第i段在时间维上的运动强度，则第i段的相应权重表示为：

其中i＝4。最后，将视频级预测分数汇总如下：

其中S_i是空间维度上立方体贴片平均的第i段的质量得分。本发明采用基于运动强度的时间维度分数融合方法，而不是采用包含全局时间信息的简单平均融合，并且模拟运动强度对立体视频质量的影响，最终得到质量评价结果。

Claims

1.一种基于3D卷积神经网络的立体视频质量评价方法，步骤如下：

第一步.数据预处理

（1）差值视频：对于立体视频的左视频和右视频做差值，计算差值视频，得出卷积网络的原始视频；

（2）数据集增强：将原始视频在空间和时间维度上分割，导出多个低分辨率的短视频立方体；标记这些立方体，获得有效的训练数据；

第二步.训练3D卷积神经网络

（1）3D卷积：通过将三维卷积核与由多个相邻帧组成的立方块进行卷积来完成3D卷积，确保时间信息在整个网络中得到提取和保存，在卷积完成之后，执行加性偏差项和非线性激励函数以获得特征图；

（2）3D池化：池化层基于局部相关性原理对从卷积层传输的特征映射进行二次采样，池化操作输出特征图的某个位置处的相邻单元的汇总统计量；

（3）3D 卷积神经网络架构：构建六层的3D 卷积神经网络架构来自动有效地捕获本地立体视频质量评价任务的时空特征，架构包括两个3D卷积层，两个3D汇集层和两个完全连接层；在输入视频通过卷积层之后，3D最大池化层对3D特征图进行二次采样，再使用随机梯度下降（Stochastic gradient descent，SGD）优化器对视频块进行训练，输出每个视频块的预测分数；

第三步.质量分数融合

将整个测试视频随机分为两部分，一部分用于3D 卷积神经网络模型的训练，另一部分用于模型的测试；在3D 卷积神经网络模型的训练过程之后，从测试立体视频中获得每个输入视频块的预测分数，为获得视频整体评价得分，采用考虑全局时间信息的质量分数融合策略：首先，利用平均池化将空间维度上的立方体级别分数进行整合；为模拟全局时间信息，定义基于运动强度计算每个片段的权重，然后计算立体视频每段时间维上运动强度占总运动强度的权重，最后，将视频级预测分数汇总为每段时间维上质量分数的加权和，得到立体视频的融合质量分数。