CN113066022A

CN113066022A - 一种基于高效时空信息融合的视频比特增强方法

Info

Publication number: CN113066022A
Application number: CN202110286246.XA
Authority: CN
Inventors: 于洁潇; 杨紫雯; 刘婧; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-07-02
Anticipated expiration: 2041-03-17
Also published as: CN113066022B

Abstract

本发明公开了一种基于高效时空信息融合的视频比特增强方法，包括：构建基于高效时空信息融合的视频比特深度增强网络；在训练阶段，将训练集的低比特视频序列通过零填充增强到高比特视频序列，将粗糙的高比特深度视频序列输入深度增强网络，输出为重建后的高比特深度中间帧，训练期间采用均方误差损失函数，并采用Adam优化器训练网络；在测试阶段，将粗糙的高比特深度视频序列送入加载好训练后的模型参数的网络中，采用客观图像质量评价对重建的高比特深度中间帧的质量进行评估。本发明可以得到较高质量的输入视频序列的高比特深度中间帧。

Description

一种基于高效时空信息融合的视频比特增强方法

技术领域

本发明涉及视频比特增强领域，尤其涉及一种基于高效时空信息融合的视频比特增强方法。

背景技术

在这个全球信息数字化的时代，图片和视频作为一种数据承载方式其数据量在呈指数级增长。图像和视频相较于文字可以传递更多的信息。在对图像和视频探索的过程中，人们一直致力于研究如何提高图像和视频的质量以提高人类的视觉感官体验。传统的摄录设备和显示器大多是标准动态范围(Standard Dynamic Range，SDR，又被称作低动态范围)，每个通道的像素点只采用8比特的位深来表示，因此只能展示256种不同的灰度级，这远远低于人眼所能看到的自然界实际的色彩范围。低动态范围的图像和视频并不能展现出自然界的真实色彩，使图像与人眼所看到的实际景色有差别。为了追求更高的多媒体质量和更好的视觉体验，人们提出了高动态范围(High-Dynamic Range，HDR)这一技术。高动态范围采用了更多的比特位数(通常为10位或者12位)来表示一个像素，可以展现出更丰富的色彩，更多的细节以及更细腻的颜色过渡。因此，高动态范围所展现的图像和视频更加接近人眼所观察到的自然世界，对人类的视觉感官体验有着极大的促进作用。

目前，随着技术的发展，市场上出现了越来越多的HDR显示器，HDR显示器也受到了人们的青睐。当低比特深度的图像和视频经过简单的转换显示在HDR这种高比特显示器上显示时，会出现伪轮廓以及色彩失真等对人类视觉不友好的现象。因此，对低比特的图像和视频进行比特深度增强重建为高比特深度图像和视频对提高人类视觉体验具有非常重要的价值和意义。

早期的比特深度增强方法都是基于手工设计的滤波器，不仅耗时，而且对伪轮廓和色彩失真等现象的消除效果也不好。近年来，深度学习在计算机视觉领域取得了较传统算法优秀的效果，表现出了强大的学习能力和对任务的自适应能力。基于深度学习的比特增强方法也同样取得了较好的性能，比如基于卷积神经网络的图像比特深度增强算法(Bit-Depth Enhancement via Convolutional Neural Network,BE-CNN)^[1]和通过级联DNN所有层次特征图的比特深度增强算法(BE-CALF:Bit-depth Enhancement byConcatenating All Level Features of DNN)^[2]等。总的来说，现有的比特深度增强方法大都是针对图像进行比特增强，很少有针对视频的比特深度增强方法。图像比特深度增强方法是通过探索图像自身的空间信息完成对高比特深度图像的重建，而视频是由一系列连续的视频帧组成的，邻近视频帧之间大都拥有相似的场景和内容。如果将图像比特增强方法应用于视频，不仅不能充分利用邻近帧的冗余信息帮助当前帧的重建，还会产生帧间闪烁等现象。

因此，视频比特深度增强方法旨在利用邻近帧的信息去帮助当前帧的重建，产生更高质量的高比特深度视频序列。

发明内容

本发明提供了一种基于高效时空信息融合的视频比特增强方法，本发明构造了时空信息融合模块，并在时空信息融合模块中引入了时间注意力机制来挖掘输入视频序列中有用的时空信息。通过将多个时空信息融合模块串联堆叠，可以逐层递进地对时序信息进行挖掘和融合。本发明可以得到较高质量的输入视频序列的高比特深度中间帧，详见下文描述：

一种基于高效时空信息融合的视频比特增强方法，所述方法包括：

构建基于高效时空信息融合的视频比特深度增强网络；

在训练阶段，将训练集的低比特视频序列通过零填充增强到高比特视频序列，将粗糙的高比特深度视频序列输入深度增强网络，输出为重建后的高比特深度中间帧，训练期间采用均方误差损失函数，并采用Adam优化器训练网络；

在测试阶段，将粗糙的高比特深度视频序列送入加载好训练后的模型参数的网络中，采用客观图像质量评价对重建的高比特深度中间帧的质量进行评估。

其中，所述视频比特深度增强网络包括：

第一部分隐式对齐模块；

第二部分包含特征提取部分和高效时空信息融合组，高效时空信息融合组由串联的时空信息融合模块构成；

第三部分是重建输入视频序列的高比特深度中间帧模块。

进一步地，所述特征提取部分包含若干个个支路，对应着相应个数的输入视频帧，每个支路包含一个卷积单元，该部分接收隐式对齐模块输出的隐式对齐后的视频帧，将每帧视频帧送入相应的支路进行空间特征提取，得到特征图，将特征图组输入时空信息融合模块中。

其中，所述时空信息融合模块中，特征图组经过两层卷积单元，提取空间特征，表示为：

f²＝C²(C¹(f⁰))

其中，C¹，C²分别表示第一层卷积单元和第二层卷积单元，f²表示f⁰经过第一层卷积单元和第二层卷积单元后所得到的特征图集，f²再经一层卷积单元，将通道数降为1，得到特征图集合F，将集合F中的特征图在通道方向级联，在通道方向上进行softmax操作；

用公式表达为：

F＝C³(f²)

其中，C³为第三层卷积单元，F_T(i,j)表示F_T中位于(i,j)位置的像素点，M_T(i,j)表示第T帧位于(i,j)位置的时间注意力权重，将f²集合中的特征图与对应的时间注意力图按元素相乘，得到特征图集合f³；

用公式表示为：

其中，⊙表示按元素相乘，

为第T帧包含时间注意力的特征图，将f²中的特征图在通道方向上进行级联，通过一个卷积单元进行时空信息融合，得到特征图f_fused,将f_fused与特征图集合f³中的特征图进行相加，得到特征图集合f⁴，将特征图集合f⁴经过一层卷积单元，得到特征图集合f⁵，用公式表示为：

f⁵＝C⁴(f⁴)。

本发明提供的技术方案的有益效果是：

1、本发明通过串联一系列时空信息融合模块来高效地融合输入视频序列的时空信息，从而得到主观质量和客观质量较好的高比特深度中间帧；

2、本发明在时空信息融合模块中引入了时间注意力机制，时间注意力机制使时空信息融合模块在时间方向上捕获关联度较高的信息。

附图说明

图1为一种基于高效时空信息融合的视频比特增强方法的流程图；

图2为网络总体框架；

图3为时空信息融合模块的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提出了一种基于高效时空信息融合的视频比特增强方法，参见图1，该方法包括以下步骤：

101：构建训练数据集，对从高比特深度无损视频数据库Sintel中选择的N组视频序列进行预处理，即将高比特深度视频序列量化到低比特深度序列；

102：构建基于高效时空信息融合的视频比特深度增强网络；

参见图2，基于高效时空信息融合的视频比特深度增强网络包含三个部分。第一部分是隐式对齐模块。该模块采用的是非局部神经网络(non-local neural network)^[3]，通过计算输入视频序列帧间和帧内的相关性，对输入视频序列进行隐式地对齐，有利于网络对于高比特深度视频中间帧的重建。第二个部分是高效时空信息融合组。该部分是网络的主体结构，该结构由一层卷积层和串联的时空信息融合模块构成。串联的时空信息融合模块可以逐层递进地从视频序列中挖掘对高比特深度中间帧重建有用的补充信息。第三部分是重建输入视频序列的高比特深度中间帧模块，对输入视频序列的中间帧进行重建。

103：在训练阶段，将训练集的低比特视频序列通过零填充算法增强到高比特视频序列，由于采用零填充算法得到的高比特深度图像具有严重的伪轮廓和色彩失真等现象，因此将零填充算法得到的高比特深度图像称为粗糙的高比特深度图像。将粗糙的高比特深度视频序列输入基于高效时空信息融合的视频比特深度增强网络，网络的输出为重建后的高比特深度中间帧。训练期间采用均方误差损失(Mean Square Error,MSE)作为真实的高比特深度中间帧和重建的高比特深度中间帧的损失函数，并采用Adam优化器^[4]训练网络。

104：在测试阶段，将测试集的低比特深度视频序列采用零填充算法得到粗糙的高比特深度视频序列，将粗糙的高比特深度视频序列送入加载好训练后的模型参数的网络中，得到重建的高比特深度中间帧，然后采用客观图像质量评价方法对重建的高比特深度中间帧的质量进行评估。

综上所述，本发明实施例通过步骤101至步骤104设计了一种基于高效时空信息融合的视频比特增强方法。该方法以零填充的低比特视频序列为网络输入，采用非局部神经网络对输入的视频序列计算帧内与帧间的相关性进行隐式的对齐，之后隐式对齐后的视频序列经过一系列时空信息融合模块后网络可以学习并从输入的视频序列组中捕获对高比特深度中间帧重建有用的信息，保证了高比特深度中间帧的重建质量。

实施例2

下面对实施例1中的方案进行进一步地介绍，详见下文描述：

201：Sintel数据库^[5]是一部动画短片，有8比特深度和16比特深度无损视频两种版本。Sintel包含了两万多帧图像，每帧图像的分辨率为436×1024。从16比特版本的Sintel数据库中随机选取1000组视频序列，每组视频序列包含5帧视频帧。将每组16比特的高比特深度视频序列量化到4比特的低比特深度视频序列，然后对4比特深度视频序列应用零填充算法得到粗糙的高比特视频序列作为网络的输入。

202：基于高效时空信息融合的视频比特深度增强网络包含三个部分。

第一个部分是隐式对齐模块，该模块采用的是非局部神经网络(non-localneural network)，该网络是一个可以随插即用的用于捕获长距离依赖的残差模块。视频比特增强旨在利用一组视频序列来辅助视频序列中间帧的重建。中间帧的邻近几帧图像与中间帧大都有着相似的场景和内容，因此可以在中间帧的重建过程中提供细节和补充信息。但是邻近帧与中间帧之间存在着运动，在一些运动的场景中还存在着较大的运动，这些与中间帧差别较大的运动对中间帧的重建非但不能提供补充信息，甚至可能对中间帧重建造成影响。因此，筛选对视频序列中间帧重建的有用信息，压制对视频序列中间帧重建无用的信息对视频比特深度增强有着重要的意义。

通常人们采用对齐方法使邻近帧对齐到中间帧以此辅助网络获取更多对中间帧重建的有用信息。而非局部神经网络可以通过计算帧间与帧内的相关性得到每个像素点对所有像素点的综合响应，相关性高的像素点之间会有较大的权值，相关性低的像素点之间的权值较小，以此捕获对中间帧重建的有用信息。与原始的非局部神经网络不同的是，基于高效时空信息融合的视频比特深度增强网络将视频序列在通道方向级联起来然后送入非局部神经网络中，在通道方向隐式地计算帧间的相关性，减小了网络的复杂度和计算量。

基于高效时空信息融合的视频比特深度增强网络的第二部分为本发明提出的主体部分。该部分包含两个结构，分别为：特征提取部分，参见图3，由一系列本发明所提出的时空信息融合模块串联而成的高效时空信息融合组。为方便描述，将一个3*3的卷积层和一个紧跟着的PReLU激活函数称作一个卷积单元。

特征提取部分包含5个支路，对应着5帧输入视频帧，每个支路包含一个卷积单元。该部分接收隐式对齐模块输出的5帧隐式对齐后的视频帧，然后把每帧视频帧送入相应的支路进行空间特征提取，得到5个特征图，令f⁰为得到的特征图集合，则

然后将这5个特征图送入时空信息融合模块中。

考虑到网络的复杂度，本发明中高效时空信息融合组包含：两个时空信息融合模块。参见图3，该时空信息融合模块中，特征图组f⁰经过两层卷积单元，提取空间特征，可用公式表示为：

f²＝C²(C¹(f⁰)) (1)

其中，C¹，C²分别表示第一层卷积单元和第二层卷积单元，f²表示f⁰经过第一层卷积单元和第二层卷积单元后所得到的特征图集

为中间帧的特征图，f²再经过一层卷积单元，将通道数降为1，得到特征图集合F＝{F_t-2,F_t-1,F_t,F_t+1,F_t+2,}，F_t为通道数为1的中间帧的特征图。然后将集合F中的特征图在通道方向级联，并在通道方向上进行softmax操作。

用公式表达为：

F＝C³(f²) (2)

其中，C³为第三层卷积单元，F_T(i,j)表示F_T中位于(i,j)位置的像素点，M_T(i,j)表示第T帧位于(i,j)位置的时间注意力权重。将f²集合中的特征图与对应的时间注意力图按元素相乘，得到特征图集合f³。

用公式表示为：

其中，⊙表示按元素相乘，

为第T帧包含时间注意力的特征图。同时，将f²中的特征图在通道方向上进行级联，然后通过一个卷积单元进行时空信息融合，得到特征图f_fused,将f_fused与特征图集合f³中的特征图进行相加，得到特征图集合f⁴。将特征图集合f⁴经过一层卷积单元，得到特征图集合f⁵，用公式表示为：

f⁵＝C⁴(f⁴) (5)

基于高效时空信息融合的视频比特深度增强网络的第三部分为重建输入视频序列的中间帧模块。重建中间帧部分依次包含一个通道方向级联操作，两个串联的卷积单元和残差连接操作。重建中间帧部分接收高效时空信息融合组输出的5个特征图，将5个特征图在通道方向级联起来后送入两个串联的卷积单元，之后将结果与粗糙的高比特深度视频中间帧进行残差连接得到重建的高比特深度中间帧。

203：测试集所用的数据库是16比特深度的Sintel数据库和16比特深度的Tearsof steel(TOS)^[5]数据库。从Sintel数据库中随机选择50组与训练集不重复的视频序列，从TOS数据库中选择30组不重复的视频序列。将16比特的视频序列量化到4比特作为测试集。

实施例3

下面结合具体的实验数据对实施例1和2中的方案进行效果评估，详见下文描述：

301：数据组成；

测试集包含从Sintel数据库中随机抽取的50组与训练集不重复的视频序列和从TOS数据库中随机抽取的30组视频序列。

302：评估准则；

本发明主要采用两种评价指标对重建的高比特深度视频序列的中间帧进行质量评估：

峰值信噪比(Peak Signal to Noise Ratio，PSNR)是一个用于衡量图像失真或噪声水平的客观评价标准。峰值信噪比的值越高，表示重建图像的质量越好，失真越小，越接近于原始无损的16比特深度的图像。

结构相似性指数(Structural Similarity Index，SSIM)^[6]是一种从亮度，对比度和结构三个方面对两幅图像进行相似度评估的一种客观评价指标。结构相似性指数旨在从符合人类视觉系统的角度对图片进行评估。结构相似性指数评价指标的范围为0到1，值越高，重建图像的质量在人眼角度越接近于真实图像。

303：对比算法

实验中将本发明与10种比特深度增强方法进行比较，其中包含9种图像比特深度增强方法，1种视频比特深度增强方法。

9种图像比特深度增强方法包括：1)零填充算法(Zero Padding,ZP)；2)理想增益乘积算法(Multiplication by an Ideal Gain,MIG)；3)位复制算法(Bit Replication,BR)^[7]；4)基于最小风险分类算法(Minimum Risk based Classification,MRC)^[8]；5)轮廓区域重建算法(Contour Region Reconstruction,CRR)^[9]；6)内容自适应图像比特深度增强算法(Content Adaptive Image Bit-Depth Expansion,CA)^[10]；7)最大后验估计交流信号算法(Maximum a Posteriori Estimationof AC Signal,ACDC)^[11]；8)利用亮度势能进行自适应地反量化算法(Intensity Potential for Adaptive Dequantization,IPAD)^[12]；9)基于卷积神经网络的图像比特深度增强算法(Bit-Depth Enhancement viaConvolutional Neural Network,BE-CNN)^[1]。

视频比特增强方法是基于时空对称卷积神经网络的视频比特深度增强算法(Spatiotemporal Symmetric Convolutional Neural Network for Video Bit-DepthEnhancement,VBDE)^[13]。

表1列出了本方法与其他十种对比方法在Sintel测试集和TOS测试集上的测试结果。可以看出，本方法的性能明显高于其他图像比特深度增强方法。相比于视频比特增强方法VBDE，本方法在Sintel测试集上的PSNR性能达到了41.5175，SSIM达到了0.9637，分别比VBDE方法高了3.198和0.0205。Sintel数据集是电脑制作的动画短片，而TOS数据集是含有真实人物和场景的科幻短片，二者差距较大，且TOS数据集的内容比Sintel数据集更复杂多变。而本方法在TOS测试集也取得了较好的性能，PSNR性能达到了39.3594，比VBDE高了0.5034，SSIM指标达到了0.9554，比VBDE高了0.0088。该测试对比结果充分证明了本方法在视频比特深度增强应用上的有效性。

表1

参考文献

[1]Liu J,Sun W,Liu Y.Bit-depth enhancement via convolutional neuralnetwork[C]//International Forum on Digital TV and Wireless MultimediaCommunications.Springer,Singapore,2017:255-264.

[2]Liu J,Sun W,Su Y,et al.BE-CALF:bit-depth enhancement byconcatenating all level features of DNN[J].IEEE Transactions on ImageProcessing,2019,28(10):4926-4940.

[3]Wang X,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proceedings ofthe IEEE conference on computer vision and patternrecognition.2018:7794-7803.

[4]Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXivpreprint arXiv:1412.6980,2014.[12]ZEILER M D,KRISHNAN D,TAYLOR G W,etal.Deconvolutional networks；proceedings of the Computer Vision and PatternRecognition,F,2010[C].

[5]Foundation X.Xiph.Org,https://www.xiph.org/,2016.

[6]Wang Z,Bovik A C,Sheikh H R,et al.Image quality assessment:fromerror visibility to structural similarity[J].IEEE transactions on imageprocessing,2004,13(4):600-612.

[7]Ulichney R A,CheungS.Pixel bit-depthincrease by bitreplication[C]//Color Imaging:Device-Independent Color,Color Hardcopy,and Graphic ArtsIII.International Society for Optics and Photonics,1998,3300:232-241.

[8]Mittal G,Jakhetiya V,Jaiswal S P,et al.Bit-depth expansion usingminimum risk based classification[C]//2012Visual Communications and ImageProcessing.IEEE,2012:1-5.

[9]Cheng C H,Au O C,Liu C H,et al.Bit-depth expansion by contourregion reconstruction[C]//2009IEEE International Symposium onCircuits andSystems.IEEE,2009:944-947.

[10]Wan P,Au O C,Tang K,et al.From 2d extrapolation to 1dinterpolation:Content adaptive image bit-depth expansion[C]//2012IEEEInternational Conference on Multimedia and Expo.IEEE,2012:170-175.

[11]Wan P,Cheung G,Florencio D,et al.Image bit-depth enhancement viamaximum a posteriori estimation ofAC signal[J].IEEE Transactions on ImageProcessing,2016,25(6):2896-2909.

[12]Liu J,Zhai G,Liu A,et al.IPAD:Intensity potential for adaptivede-quantization[J].IEEE Transactions on Image Processing,2018,27(10):4860-4872.

[13]Liu J,Liu P,Su Y,etal.Spatiotemporalsymmetric convolutionalneural network for video bit-depth enhancement[J].IEEE Transactions onMultimedia,2019,21(9):2397-2406.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于高效时空信息融合的视频比特增强方法，其特征在于，所述方法包括：

构建基于高效时空信息融合的视频比特深度增强网络；

2.根据权利要求1所述的一种基于高效时空信息融合的视频比特增强方法，其特征在于，所述视频比特深度增强网络包括：

第一部分隐式对齐模块；

第三部分是重建输入视频序列的高比特深度中间帧模块。

3.根据权利要求2所述的一种基于高效时空信息融合的视频比特增强方法，其特征在于，所述特征提取部分包含若干个个支路，对应着相应个数的输入视频帧，每个支路包含一个卷积单元，该部分接收隐式对齐模块输出的隐式对齐后的视频帧，将每帧视频帧送入相应的支路进行空间特征提取，得到特征图，将特征图组输入时空信息融合模块中。

4.根据权利要求2所述的一种基于高效时空信息融合的视频比特增强方法，其特征在于，所述时空信息融合模块中，特征图组经过两层卷积单元，提取空间特征，表示为：

f²＝C²(C¹(f⁰))

用公式表达为：

F＝C³(f²)

其中，C³为第三层卷积单元，F_T(i，j)表示F_T中位于(i，j)位置的像素点，M_T(i，j)表示第T帧位于(i，j)位置的时间注意力权重，将f²集合中的特征图与对应的时间注意力图按元素相乘，得到特征图集合f³；

用公式表示为：

其中，⊙表示按元素相乘，

为第T帧包含时间注意力的特征图，将f²中的特征图在通道方向上进行级联，通过一个卷积单元进行时空信息融合，得到特征图f_fused，将f_fused与特征图集合f³中的特征图进行相加，得到特征图集合f⁴，将特征图集合f⁴经过一层卷积单元，得到特征图集合f⁵，用公式表示为：

f⁵＝C⁴(f⁴)。