CN111008938B

CN111008938B - 一种基于内容和连续性引导的实时多帧比特增强方法

Info

Publication number: CN111008938B
Application number: CN201911168264.7A
Authority: CN
Inventors: 苏育挺; 王蒙蒙; 刘婧
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-11-25
Filing date: 2019-11-25
Publication date: 2023-04-14
Anticipated expiration: 2039-11-25
Also published as: CN111008938A

Abstract

本发明公开了一种基于内容和连续性引导的实时多帧比特增强方法，包括：对高比特图像量化到低比特图像，将低比特图像低位补零得到零填充的高比特图像作为网络的训练集；去除SS‑VBDE网络中的运动补偿模块和时序对称的子网络，将卷积层和反卷积层在空间上满足对称位置的特征图连接起来，实现空间对称的跳跃连接；将训练集的低比特图像低位补零得到零填充的高比特图像作为网络输入，并将改进的网络生成多帧图像序列和真实图像序列之间的图像内容损失和帧间连续性损失进行组合作为损失函数，通过Adam优化器训练改进的网络模型参数；测试集的低比特图像低位补零得到零填充高比特图像，将高比特图像序列输入到加载网络模型参数后的改进的SS‑VBDE网络，输出处理之后的高比特图像序列。

Description

一种基于内容和连续性引导的实时多帧比特增强方法

技术领域

本发明涉及神经网络领域，尤其涉及一种基于内容和连续性引导的实时多帧比特增强方法。

背景技术

随着网络信息传输能力的飞速提升，人们对多媒体资源的质量和感知要求也日益提升。用户对视频和图像等资源的期望已不仅仅局限于传输内容准确性的保证，而是开始追求画面视觉效果。与此同时，比特深度增强(bit-depth enhancement，BDE)技术以及高动态范围(high dynamic range，HDR)的多媒体资源和显示设备也开始受到越来越多的研究者关注。通常情况下，画面像素变化的动态范围越大，能够提供的亮度和细节信息就越多，其明暗和色彩表现也更生动，能够给用户带来更好的视觉体验，目前在市场和科研应用中，HDR显示设备不断涌现。

图像比特增强技术(Bit-depth Enhancement)是一种克服图像成像硬件固有的限制、提高图像质量的技术，即借助算法从一幅低比特图像中重构高比特图像。利用图像比特增强技术，不仅可以使画面呈现更良好的视觉效果，并且有助于进一步的图像处理研究应用。但是对于视频处理算法来说，相邻帧的应用往往能够为中间帧的修复提供额外有效的信息。因此，将基于图像的算法直接应用于视频时，前后的连续帧之间重要的时序信息、运动信息以及有效细节信息将会被忽略。

此外，使用基于独立图像的方法时，帧间连续性也不能被保障。比如帧画面中的某些区域由于量化产生的颜色跃变，在连续帧之间很有可能出现不一致的表现。视频比特增强技术充分利用帧间信息，采用多帧输入的方式，去重建多帧的高比特图像。

发明内容

本发明提供了一种基于内容和连续性引导的实时多帧比特增强方法，本发明通过将连续的低比特图像序列输入到卷积神经网络结构中，直接输出多帧重建的高比特图像，本发明将编码器和解码器在空间上对称的特征图进行连接，有助于加快网络的收敛速度、以及解决梯度弥散的问题，详见下文描述：

一种基于内容和连续性引导的实时多帧比特增强方法，所述方法包括：

对高比特无损画质的Sintel数据库中的高比特图像量化到低比特图像，将低比特图像低位补零得到零填充的高比特图像作为网络的训练集；

将改进的SS-VBDE网络作为主干网络，即去除SS-VBDE网络中的运动补偿模块和时序对称的子网络，将卷积层和反卷积层在空间上满足对称位置的特征图连接起来，实现空间对称的跳跃连接；

将训练集的低比特图像低位补零得到零填充的高比特图像作为网络输入，并将改进的网络生成多帧图像序列和真实图像序列之间的图像内容损失和帧间连续性损失进行组合作为损失函数，通过Adam优化器训练改进的网络模型参数；

测试集的低比特图像低位补零得到零填充高比特图像，将高比特图像序列输入到加载网络模型参数后的改进的SS-VBDE网络，输出处理之后的高比特图像序列。

其中，所述将卷积层和反卷积层在空间上满足对称位置的特征图连接起来具体为：

解码器各层特征与按照空间结构对称的编码器特征进行加和，表示为：

X_ab＝X_a+X_b

其中，X_b为解码器某一层的输出特征图，X_a为与解码器在空间上对称的编码器对应层的输出特征图，X_ab为解码器下一层的输入特征图。

进一步地，所述帧间连续性损失由格拉姆矩阵计算。

其中，所述帧间连续性损失由格拉姆矩阵计算具体为：

网络输出高比特深度视频帧H(·)的格拉姆矩阵G_H以及真实的高比特深度视频帧GT(·)的格拉姆矩阵G_T，通过计算两个矩阵之间的均方误差来表示帧间连续性损失。

所述方法还包括：内容损失的计算，即输出帧与真实值之间的均方误差。

所述方法还包括：计算网络的整体损失：

Loss_total＝α*l_content+β*l_continuity

α和β分别为内容损失和连续性损失的权重系数，l_content是网络的内容损失，l_continuity为网络的连续性损失；h,w,c,T分别表示输出图像的高度、宽度、通道数、序列长度；H表示输出的高比特图像序列，GT为真实高比特图像序列；G_H为输出高比特图像序列的格拉姆矩阵表示，G_gt为真实高比特图像的格拉姆矩阵表示。

本发明提供的技术方案的有益效果是：

1、本发明以改进的SS-VBDE(时空对称视频比特增强算法，spatiotemporalsymmetric convolutional neural network for video bit-depth enhancement)网络为主干网络，利用连续的多帧低比特图像输入到网络中得到连续多帧的高比特图像；

2、本发明通过空间对称跳跃连接将编码器和解码器的特征图进行融合，加快网络的收敛速度以及防止梯度弥散；将输出多帧与真实值之间的内容损失和帧间连续性损失做为损失函数，指导网络进行端到端的训练。

附图说明

图1为一种基于内容和连续性引导的实时多帧比特增强方法的流程图；

图2为主干网络的空间对称结构示意图；

图3为内容损失和帧间连续性损失的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

此外，近年来卷积神经网络(convolutional neural networks，CNN)开始被越来越广泛地应用在计算机视觉研究工作中，在分类、检测、增强图像和视频处理的任务上都显示出了优越的性能和巨大的潜能，并且在各个领域都积累了一定的研究基础。

大量的实验证明，卷积神经网络具有高效的特征提取能力和较强的自主学习能力，并且具有很好的鲁棒性和普适性。此外，在图形处理器(graphics processing unit，GPU)的加速下，通过并行运算可以大大加速卷积网络训练与测试进程，使其在处理较大的数据集时也能够保持较快的运行速度。

实施例1

本发明实施例提出了一种用于视频比特增强的基于内容和连续性引导的实时卷积神经网络，并通过图像内容和帧间连续性损失函数优化网络模型，该方法包括以下步骤：

101：对高比特无损画质的Sintel数据库中的视频序列进行预处理，即将高比特图像量化到低比特图像，将低比特图像低位补零得到零填充的高比特图像作为网络的训练集；

其中，Sintel数据库来源于一个无损画质的动画短片，为本领域技术人员所公知。

随机选取Sintel数据库中的1000份图像序列，每份包含五张图片，作为训练集，Sintel数据库中除训练集以外的50组序列作为测试集。

102：以改进的SS-VBDE网络作为主干网络，即去除了原有网络中的运动补偿模块和时序对称的子网络，由卷积层和反卷积层两部分组成；

其中，在保证网络中层与层之间最大程度的信息传输前提下，将卷积层和反卷积层在空间上满足对称位置的特征图连接起来，实现了空间对称的跳跃连接，解决了卷积神经网络中梯度弥散的问题，同时引入跳跃连接限定了网络优化的动态范围，加速训练阶段网络的收敛速度。

103：在训练阶段，将训练集的低比特图像低位补零得到零填充的高比特图像作为网络输入，并将改进的网络生成多帧图像序列和真实图像序列之间的图像内容损失和帧间连续性损失进行组合作为损失函数，通过Adam优化器训练改进的网络模型参数；

104：在测试阶段，测试集的低比特图像低位补零得到零填充高比特图像，将高比特图像序列输入到加载网络模型参数后的改进的SS-VBDE网络，进而输出处理之后的高比特图像序列。

通过用相关客观评价标准计算生成的高比特图像序列和真实的高比特图像序列之间的相似性来验证本方法的有效性。

综上所述，本发明实施例通过步骤101至步骤104设计了一种基于内容和连续性引导的实时多帧比特增强方法，低比特图像序列反量化得到零填充高比特图像序列，将其作为输入图像序列通过网络生成高比特图像序列。本发明从视频连续性和实时性要求下设计网络和损失函数，使用内容和帧间连续性损失作为损失函数训练网络参数，保证了重建的高比特图像序列满足视频序列的连续性以及很好的主观视觉质量。

实施例2

下面对实施例1中的方案进行进一步地介绍，详见下文描述：

201：由于Sintel数据库完全是由计算机软件生成的动画图像视频，图像序列没有噪声影响，所以Sintel数据库中的图像序列往往具有更加平滑的颜色渐变结构，图像序列中的边缘和纹理也更加清晰。

这种接近理想的结构能帮助神经网络学习平滑区域和边缘结构的特征，对图像序列中的颜色渐变结构和轮廓重建有很大帮助，因此本方法提出的深度神经网络以Sintel动画图像进行训练。由除训练集以外的50组Sintel数据库图像序列作为测试集来验证本发明的效果。

视频比特增强方面需要充分考虑到连续图像之间的相关性和算法处理的实时性，如何充分利用帧间信息以及同时满足高质量图像序列重建、实时性是视频比特增强的关键任务。基于时空对称卷积神经网络的视频比特深度增强模型(SS-VBDE)在主观和客观结果上实现了较好的性能，但是在算法运行时长方面，基于传统非深度学习方法的自适应运动补偿模块占用了太多运行时间，使得视频处理的实时性要求不能达到。运动补偿提取的帧间信息，对于当前帧细节的恢复虽然起到了帮助作用，并带来1dB左右的峰值信噪比的提升。但是，运动补偿模块对于算法的时延也是相当严重的。而且SS-VBDE网络的编码器由并行的五条卷积支路组成，而且五条支路的空间对称跳跃连接需要处理的特征图数目相对较多，网络的参数量以及运算复杂度都比较高，适当减少编码器的卷积支路对网络满足实时性任务有一定的帮助。

此外，需要解决的另一个主要问题便是如何在满足实时性的前提下，保障模型生成视频帧的质量与帧间连续性。论文(generating time-lapse videos using multi-stage dynamic generative adversarial networks，MDGAN)中提出了一种连续帧生成的网络结构，并应用了格拉姆矩阵计算对抗排名损失(ranking loss)，表示生成帧之间的相关性。

基于以上分析，本发明首先去除了非深度学习的运动补偿模块，接着去除了时序对称的子网络，而仅仅保留了主网络的空间对称结构。另外，为保障生成视频帧之间的连续性，实现多帧到多帧转换的比特深度增强网络，引入了格拉姆矩阵表示相邻帧之间的连续性和相关性，使用输出连续帧与真实的连续帧的格拉姆矩阵之间的欧氏距离表示帧间连续性损失。通过内容损失以及帧间连续性损失引导网络训练，实现实时的端到端的多帧比特深度增强网络。

202：在时空对称卷积神经网络的视频比特深度增强模型，网络输入的多帧先分别进行卷积操作提取特征，再进行特征融合的操作方法，会给模型性能带来一定程度的提升。但同时也引入了较高的模型复杂度和较长的计算时间。

因此，为了减轻模型复杂度，实现实时多帧增强处理，本发明采用网络输入多帧首先进行融合，再输入到比特深度增强卷积神经网络，输出多帧的形式。如图2所示，五个连续的低比特视频帧，L(t-2),L(t-1),L(t),L(t+1),L(t+2)，经过低位补零之后作为模型输入，经过通道重叠，输入到空间对称的比特深度增强网络中。

由以往的视频处理算法可知，通常情况下，相邻的视频帧对于当前帧的生成具有帮助作用。考虑到这一因素，为了避免首尾视频帧在比特深度增强的过程中缺乏前后相邻帧的信息补偿，网络的输出仅为高比特深度的连续三帧，H(t-1),H(t),H(t+1)。此外，网络保留了对称的卷积与反卷积结构和跳跃连接，以及ReLU激活函数。

反卷积又称转置卷积，其主要的操作其实还是卷积运算。但与普通卷积的不同之处是，反卷积在卷积运算之前，会对特征进行插值补零和padding补零，以满足卷积之后输出的特征维度符合期望输出的维度。所以反卷积并不是绝对的卷积的逆过程，而是将特征恢复到卷积运算之前的大小。卷积网络某层的特征经过反卷积重建出来的图像也不一定就跟原来的图像类似，而是可以看做特征可视化的结果，反映出当前卷积层提取的特征。通常情况下，反卷积不仅能够起到上采样的作用，而且对于画面细节信息的重建也很有帮助。因此在一些注重画面细节的超分辨率、去模糊等增强任务，以及变分自编码器、生成式对抗网络(generative adversarial networks，GAN)等生成模型中，反卷积操作也常常被使用。

因此，网络保留了空间对称的卷积-反卷积结构。其中每个卷积层和反卷积层后仍采用ReLU激活函数。此外，跳跃连接的保留不仅有效地促进了网络中不同层次的特征的融合，利用不同级别特征的互补性，可以提高网络的鲁棒性；对于梯度弥散效应的缓解也有很大帮助。解码器各层特征与按照空间结构对称的编码器特征进行加和，用公式表示如下：

X_ab＝X_a+X_b

因此，如图2所示，在内容和连续性引导的多帧比特深度增强网络中，保留了由编码器中卷积层、到解码器中对称位置的反卷积层之间的跳跃连接。除此之外，最外层的跳跃连接使得网络学习的是高比特深度视频帧GT(t-1),GT(t),GT(t+1)与低比特深度视频帧L(t-1),L(t),L(t+1)之间的残差Res(t-1),Re s(t),Re s(t+1)。

相比于直接重建H(t-1),H(t),H(t+1)，残差缩小了网络输出的变化范围，使得网络更容易训练和优化，从而有利于网络性能的提升。

203：格拉姆矩阵也可以很好地表示连续帧的不同时序和通道之间的相关性，本发明使用格拉姆矩阵计算输出图像序列与真实序列之间的帧间连续性损失。

如图3所示，对于输出维度h·w·c·T(h,w,c,T分别表示输出视频帧的高度，宽度，通道数以及帧序列长度)的高比特深度视频帧，模型将每一个二维的h·w的单通道图像拉伸成一维的hw的特征向量，然后把cT个由单通道图像展开的特征向量在另一个维度进行堆叠。这样就将网络输出的连续帧H(·)拉伸成了二维的特征矩阵F_H。格拉姆矩阵G_H实际上就是这个二维特征矩阵F_H与其转置的乘积，对应计算过程可以表示为：

G_H＝F_H×F_H ^T

计算出网络输出高比特深度视频帧H(·)的格拉姆矩阵G_H以及真实的高比特深度视频帧GT(·)的格拉姆矩阵G_T后，模型通过计算两个矩阵之间的均方误差(mean squareerror，MSE)来表示帧间连续性损失，即：

除了l_continuity表示的帧间连续性损失之外，内容损失l_content也是网络损失的重要组分。内容损失的计算为输出帧与真实值之间的均方误差(MSE)，计算过程可以表示如下：

之所以选择均方误差作为内容损失，一个原因是因为其表达式简单，计算方便；其次，均方误差与欧氏距离存在线性关系，那么通过计算两个样本之间的空间距离，可以很好地衡量二者的相似性；另外，均方误差在不同的表示域变换后特征性质不变。

由此，网络的整体损失l_total为：

Loss_total＝α*l_content+β*l_continuity

模型通过Adam优化器(Adaptive Moment Estimation Optimizer)内容损失和帧间连续性损失函数进行训练，优化公式如下所示：

其中，t-1时刻和第t时刻网络参数分别为θ_t-1和θ_t，α为步长(默认值为0.001)，ε为趋于零的小数(默认值为10^-8)，用于数值稳定防止分母为零。

为m_t的偏差修正值，

为v_t的偏差修正值。β₁和β₂为矩估计的指数衰减速率，取值在0到1之间，默认值分别为0.9和0.999，而m_t和v_t分别表示梯度的一阶矩求得的指数移动均值和梯度的二阶矩求得的平方梯度。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行效果评估，详见下文描述：

301：数据组成

训练集由Sintel数据库中随机抽取1000份图像序列，每份五张图片构成。

测试集由Sintel除训练集外随机抽取50份图像序列构成。

302：评估准则

本发明主要采用两种评价指标对重建的高比特图像序列质量进行评估：

PSNR(峰值信噪比，Peak Signal to Noise Ratio)是使用较为普遍和广泛的一种图像客观评价指标，是基于对应像素点间的误差以及整图的空间距离，是一种误差敏感的图像质量评价指标。两个图像之间的PSNR值越大，则越相似。

SSIM(结构相似性指数，Structural Similarity Index)是一种衡量两幅图像结构相似性的指标。其基于全参考的方式，可以比较两张图片的视觉相似性。在图像以及视频处理任务中，常常使用SSIM衡量输出图像与真实值之间的结构相似程度，从而对图像的主观质量进行评价。SSIM指标分别从亮度(l)方面、对比度(c)方面、以及结构(s)方面度量图像相似性，更符合人眼的视觉特性，能够体现图像的主观效果。SSIM取值范围是一个0到1之间的数，越大表示重建图像质量越好。

303：对比算法

实验中将本发明与七种方法进行比较，其中6种为图像比特增强方法，1种为视频比特增强方法。同时对算法的运行时长也进行了对比。

6种图像比特增强方法包括：1)CRR(基于洪范算法的轮廓区域重建算法，ContourRegion Reconstruction)；2)CA(内容自适应图像比特深度增强算法,Content AdaptiveImage Bit-Depth Expansion)；3)MRC(基于最小风险分类算法Minimum Risk basedClassification，MRC)；4)ACDC(最大后验估计交流信号算法,Maximum a PosterioriEstimation of AC Signal)；5)BE-CNN(基于端到端卷积神经网络的图像比特深度增强算法,Bit-Depth Enhancement via Convolutional Neural Network)；6)IPAD(自适应去量化的强度势场，Adaptive dequantization intensity field)。

1种视频比特增强方法：SS-VBDE(基于时空对称卷积神经网络的视频比特深度增强,Spatiotemporal symmetric convolutional neural network for video bit-depthenhancement)。

各个算法在Sintel测试集上PSNR和SSIM指标的平均值如表1所示。从表1数据可以看出，虽然本发明提出的内容和连续性引导的多帧比特深度增强网络(content-continuity-guided multi-frame bit-depth enhancement model，MFBDE)删去了运动补偿模块以及编码器部分的对称子网络，并且实现的是较难的多帧生成的任务，但是由于连续性损失的引入，并没有减弱模型性能，而是相比基于时空对称卷积神经网络的比特深度增强网络，性能略有提升。

表2显示了不同算法在Sintel测试集(分辨率为436×1024)上恢复一张高比特帧所用的平均时长(不计模型载入以及图片读取保存时间)。本发明提出的模型整体运行时长仅为SS-VBDE的0.14％能够实现非常快的运行速度，达到视频处理的实时性要求。

表1

表2

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于内容和连续性引导的实时多帧比特增强方法，其特征在于，所述方法包括：

测试集的低比特图像低位补零得到零填充高比特图像，将高比特图像序列输入到加载网络模型参数后的改进的SS-VBDE网络，输出处理之后的高比特图像序列；

其中，所述帧间连续性损失由格拉姆矩阵计算；

所述方法还包括：计算网络的整体损失：

Loss_total＝α*l_content+β*l_continuity

2.根据权利要求1所述的一种基于内容和连续性引导的实时多帧比特增强方法，其特征在于，所述将卷积层和反卷积层在空间上满足对称位置的特征图连接起来具体为：

X_ab＝X_a+X_b

3.根据权利要求1所述的一种基于内容和连续性引导的实时多帧比特增强方法，其特征在于，所述帧间连续性损失由格拉姆矩阵计算具体为：

4.根据权利要求1所述的一种基于内容和连续性引导的实时多帧比特增强方法，其特征在于，所述方法还包括：内容损失的计算，即输出帧与真实值之间的均方误差。