CN111199521A

CN111199521A - 嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法

Info

Publication number: CN111199521A
Application number: CN201911262011.6A
Authority: CN
Inventors: 杨帆; 肖亮
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-26
Anticipated expiration: 2039-12-10
Also published as: CN111199521B

Abstract

本发明公开了一种嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法，该方法通过三维卷积深度网络，学习窗口内视频帧的时空特征，并将编码器‑解码器卷积网络学习出的初始去模糊图像进行傅立叶变换，采用傅立叶聚合模块，进一步学习图像的傅立叶特征，通过三维卷积神经网络与傅立叶聚合模块的合成网络，训练深度网络，最终根据训练好的深度网络，生成去模糊视频。本发明依据三维卷积深度网络学习视频中的时空特征，避免了视频去模糊中复杂的配准过程，且无需运动矢量估计，并在网络中嵌入傅立叶聚合模块显著提升了去模糊效果，大幅降低了视频去模糊的处理时间，可广泛应用于手机拍摄、无人机拍摄、车载导航等多种类型的视频去模糊。

Description

嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法

技术领域

本发明涉及视频去运动模糊技术，特别是一种嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法。

背景技术

随着信息技术的快速发展，图像与视频渐渐成为了人们生活中信息传递的主要方式之一，许多领域都需要使用图像与视频，如道路监控视频有助于保证城市交通安全、遥感视频有助于监测环境变化、医学视频有助于分析判断病情等。然而，相机抖动、成像系统退化以及目标和背景之间的相对运动往往会造成视频图像模糊。视频模糊容易妨碍人们对这些视频的后续高层模式识别，例如目标跟踪、识别和模式分析等。

目前，已经有许多针对视频去模糊的方法，如公开号为CN110111282A的专利公开了一种基于运动矢量和卷积神经网络的视频去模糊方法，该方法将每一个视频帧分块处理，并通过基于运动矢量的目标函数在当前帧的相邻帧中寻找最优图像块，将模糊图像块与清晰图像块作为卷积神经网络的输入，训练得到去模糊的图像块，并替换原模糊图像块。公开号为CN104867111A的专利公开了一种基于分块模糊核集的非均匀视频盲去模糊方法，该方法根据视频帧图像梯度检测模糊帧与清晰帧，计算清晰帧与模糊帧之间的单应性变换，通过分块单应性变换的离散采样逼近模糊运动，最终利用反卷积计算清晰图像块，替换原模糊图像块，得到去模糊视频。

然而，基于运动矢量和卷积神经网络的视频去模糊方法对视频图像依旧采用二维卷积来构建网络，丢失了许多视频中的时域信息。基于分块模糊核集的非均匀视频盲去模糊方法中，分块计算单应性变换和运动矢量估计十分耗时，降低了视频去模糊的处理效率。

发明内容

本发明的目的在于提供一种嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法。

实现本发明目的的技术解决方案为：一种嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法，包括以下步骤：

步骤1、窗口化视频帧：假设观测到含有模糊的视频序列为:{I_t|t∈[1,N]}，其中N表示视频序列的帧数，对该视频序列采用窗口化处理，窗口大小设置为s，s∈[7,11]；

步骤2、预处理窗口帧：将窗口中的所有视频帧按照高度H，宽度W的大小随机裁剪，构成结构为H×W×C×N形式的数据，其中，C表示图像的信道数，N表示窗口长度，将第三维与第四维交换，形成H×W×N×C形式的数据；

步骤3、构造编码器-解码器模块：采用编码器-解码器形式的架构搭建卷积神经网络，第1层与第2层为三维卷积特征学习层，采用5×5×5三维卷积核学习图像的时空特征信息，第3层至第19层为全连接层，采用3×3×1三维卷积核学习特征参数，并在编码器-解码器网络中对应的卷积层增加连接，并初步输出去模糊的图像{O_t|t∈[1,P]}；

步骤4、相邻帧傅立叶变换：将编码器-解码器模块输出的P幅图像{O₁,O₂,O₃,…,O_P}采用傅立叶变换，得到P幅图像对应的傅立叶图像

其形式为H×W×3P，其中3P代表P帧图像RGB三通道对应的3P幅傅立叶图像，其中P≥3；

步骤5、构建傅立叶聚合模块：网络20层至23层采用全连接形式构建傅立叶聚合模块，将步骤4中N幅傅立叶图像采用5×5的二维卷积核学习图像的傅立叶聚合参数，将卷积的步长设为1，即特征映射过程中不采用下采样方式；

步骤6、逆傅立叶变换：将步骤5中傅立叶聚合模块输出的第i帧傅立叶图像

采用逆傅立叶变换，重新生成时空域图像作为网络的输出图像{O_t|t∈[1,P]}，P为相邻视频序列的帧数；

步骤7、训练三维深度卷积网络：网络采用步骤6中输出图像与真实锐像之间的均方误差作为损失函数，并选择自适应矩估计方法作为网络的优化器，不断更新网络参数，直到误差收敛；

步骤8、生成去模糊视频：训练结束后，利用训练得到的参数对不同模糊的视频数据进行去模糊处理，最终生成去模糊视频。

进一步的，步骤3构造编码器-解码器模块中，三维卷积层由卷积层、批标准化层和激活层构成；第j层三维卷积层有n_j-1个输入特征块，每块大小为w_j-1×w_j-1×d_j-1，该层有n_j个大小为a_j×a_j×m_j的滤波器组，并假定三个维度的步长为(s₁,s₁,s₂)，可输出n_j个大小为w_j×w_j×d_j的特征块，其中，空间宽度

时间深度

则第j层第i个包含批标准化和激活函数的输出为

其中

表示第j层来自第(j-1)层的第k个输入特征，

为第j层特征块V_j的标准化输出，E(·)为期望函数，Var(·)为方差函数，H_ij和b_ij分别表示第j层第i个滤波器组的参数和偏置；将标准化激活后的三维卷积变换表示为

为第j层第i个特征图(x,y,z)处的值，(a_j,a_j,m_j)为第j层三维卷积核大小。

进一步的，步骤3构造编码器-解码器模块中，网络的具体配置如下表所示：

其中，输入层到第19层之间的连接仅仅使用了输入的中心帧。

进一步的，步骤5中构建傅里叶聚合模块时，采用如下公式进行多帧图像聚合：

其中，P为输入傅里叶图像个数，{M|M∈[1，5]}为傅里叶聚合模块的网络层数，w_j(ζ)表示该模块第j层的网络参数，

为第i帧图像的傅里叶系数，则

为聚合后的第i帧的傅里叶系数。

进一步的，步骤5中构建傅立叶聚合模块时，采用4层全连接形式的网络结构，具体配置如下表所示：

其中，每层的步长为1，即特征映射过程中不采用下采样方式。

进一步的，步骤7采用均方误差作为损失函数，其形式为：

其中，v与f分别表示视频号与帧号，p和q分别训练集中视频的数量以及每一个视频中的帧数。

与现有技术相比，本发明的显著优点为：本发明提出了一种嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法，该方法利用三维卷积核构建编码器-解码器网络，充分利用了视频中的时空信息，并在网络输出后添加傅立叶聚合模块，将傅立叶聚合权重转化为网络参数，相较于传统去模糊算法，避免了视频配准预处理和运动矢量估计，大大降低了视频去模糊的处理时间；实验结果显示，本发明在降低了视频去模糊处理时间的同时，仍然具有良好的去模糊效果。

下面结合附图对本发明作进一步描述。

附图说明

图1是本发明嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法流程图。

图2是编码器-解码器模块的网络结构图。

图3是编码器-解码器模块联合傅立叶聚合模块的网络结构图。

图4是本发明与其他视频去模糊方法的定量对比结果图。

图5是本发明与其他图像去模糊与视频去模糊方法的定性对比结果图。

具体实施方式

本发明针对各种相机拍摄的视频，实现去除视频中的模糊效果，通过三维卷积核学习视频中的时空特征，并嵌入傅立叶聚合模块进一步去除视频模糊，提出了嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法。结合图1，详细说明本发明的实施过程，步骤如下：

步骤1，窗口化视频帧：假设观测到含有模糊的视频序列为:{I_t|t∈[1,N]}，其中N表示视频序列的帧数，对该视频序列采用窗口化处理，窗口大小设置为s，s∈[7,11]。

步骤2，预处理窗口帧：将窗口中的所有视频帧按照高度H，宽度W的大小随机裁剪，构成结构为H×W×C×N形式的数据，其中，C表示图像的信道数，N表示窗口长度，将第三维与第四维交换，形成H×W×N×C形式的数据。

步骤3，构造编码器-解码器模块：采用编码器-解码器形式的架构搭建卷积神经网络，第1层与第2层为三维卷积特征学习层，采用5×5×5三维卷积核学习图像的时空特征信息，由于时间维度的减少，第3层至第19层为全连接层，采用3×3×1三维卷积核学习特征参数，并在编码器-解码器网络中对应的卷积层增加连接，以保证网络学习的参数主要是对应层之间的残差，加快网络的收敛，并初步输出去模糊的图像{O_t|t∈[1,P]}。图2显示了编码器-解码器模块的网络结构图了，19层网络中，L1与L2为学习层，L3-L19为全连接层，每层包含一个三维卷积，一个批标准化以及修正线性激活函数。

步骤3.1，构造编码器-解码器模块中，三维卷积层由卷积层、批标准化层和激活层构成。如第j层三维卷积层有n_j-1个输入特征块，每块大小为w_j-1×w_j-1×d_j-1，该层有n_j个大小为a_j×a_j×m_j的滤波器组，并假定三个维度的步长为(s₁,s₁,s₂)，可输出n_j个大小为w_j×w_j×d_j的特征块，其中，空间宽度

时间深度

则第j层第i个包含批标准化和激活函数的输出为

其中

表示第j层来自第(j-1)层的第k个输入特征，

为第j层特征块V_j的标准化输出，E(·)为期望函数，Var(·)为方差函数，H_ij和b_ij分别表示第j层第i个滤波器组的参数和偏置。更一般的，可以将标准化激活后的三维卷积变换表示为

步骤3.2，构造编码器-解码器模块中，网络的具体细节如下表所示：

步骤4，相邻帧傅立叶变换：将编码器-解码器模块输出的P幅图像{O₁,O₂,O₃,…,O_P}采用傅立叶变换，得到P幅图像对应的傅立叶图像

其形式为H×W×3P，其中3P代表P帧图像RGB三通道对应的3P幅傅立叶图像，其中P≥3。

步骤5，构建傅立叶聚合模块：将网络20层至23层采用全连接形式构建傅立叶聚合模块，将步骤4中5幅傅立叶图像采用5×5的二维卷积核学习图像的傅立叶聚合参数，为了保存傅立叶图像的细节信息，将卷积的步长设为1，即特征映射过程中不采用下采样方式，图3显示了L20-L23为傅立叶聚合模块，每层包含一个二维卷积，一个批标准化以及修正线性激活函数。

步骤5.1，构建傅立叶聚合模块时，采用4层全连接形式的网络结构，其设置细节如下表所示：

步骤5.2，构建傅里叶聚合模块时，采用如下公式进行多帧图像聚合：

为第i帧图像的傅里叶系数，则

为聚合后的第i帧的傅里叶系数。

步骤6，逆傅立叶变换：将步骤5中傅立叶聚合模块输出的第i帧傅立叶图像

采用逆傅立叶变换，重新生成时空域图像作为网络的输出图像{O_t|t∈[1,P]}，P为相邻视频序列的帧数。

步骤7，训练三维深度卷积网络：网络采用步骤6中输出图像t_i(x)与真实锐像

之间的均方误差作为损失函数，并选择自适应矩估计方法作为网络的优化器，不断更新网络参数，直到误差收敛。

网络采用均方误差作为损失函数，其形式为：

步骤8：生成去模糊视频：训练结束后，利用训练得到的参数对不同模糊的视频数据进行去模糊处理，最终生成去模糊视频。

本发明的效果可通过以下仿真实验进一步说明：

(1)仿真条件

仿真实验采用十组含有卷帘伪影的抖动视频数据，本仿真实验均在Windows 10操作系统下采用python 3.7完成。处理器为i7 7700CPU(3.6GHz)，显卡为RTX2080,内存为16GB。仿真实验中各个参数的初始化值为：网络输入的批大小设置为64，迭代次数为100000，每500次迭代更新一次参数，前20000次迭代中，学习率设置为0.001，以后每10000次迭代学习率缩减为当前学习率的一半，直到学习率达到10^-5停止。第2、5、8层网络的步长设置为2，第11、14、17层网络的步长设为1/2，其他层步长设置为1,窗口长度为2s+1，且s＝4。

数据集采用Su.等人提供的公开数据集VideoDeblurring dataset，数据集包含模糊帧及其对应的真实锐像，采样设备包括iPhone 6s，GoPro Hero 4，Nexue 5x等。每一个视频持续时间3-5s，包含100帧，且每帧的分辨率为1280×720P。该数据集包含两个子集：定性数据集与定量数据集，定量数据集共有71个视频，一共含有6708对模糊帧与真实锐像，定性数据集仅有22个视频，每个视频帧数超过100，且没有模糊帧对应的真实锐像。因此本方法仅利用部分定量数据集(71个视频中的61个)训练网络，剩余10个定量视频与定性数据集用来实验分析。

本发明方法的性能通过网络输出图像与真实锐像之间的峰值信噪比衡量。

(2)仿真内容

本发明采用真实模糊视频数据检验算法的去模糊性能，测试视频为含有模糊视频。为测试本发明算法的性能，将提出的视频去模糊方法与目前国际上主流的视频去模糊与单幅图像去模糊方法对比。视频去模糊方法包括：Kim&Lee方法[T.H.Kim andK.M.Lee.Generalized video deblurring for dynamic scenes.In Proc.IEEEConf.Compt.Vis.Pattern Recognit.(CVPR),2015.2,4]，二维卷积神经网络方法[S.Su,M.Delbracio,J.Wang,G.Sapiro,W.Heidrich,and O.Wang,“Deep video deblurring forhand-held cameras,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jul.2017,pp.2015–2024.]与傅立叶聚合方法[M.Delbracio and G.Sapiro,“Burstdeblurring:Removing camera shake through Fourier burstaccumulation,”inProc.IEEE Conf.Comput.Vis.PatternRecognit.(CVPR),Jun.2015,pp.2385,2393.]，单幅图像去模糊方法包括：PhotoShop去模糊方法，DMCNN方法[S.Nah,T.H.Kim,and K.M.Lee,“Deep multi-scale convolutional neural network for dynamic scene deblurring,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jul.2017,pp.257–265.]，SRN方法[X.Tao,H.Gao,X.Shen,J.Wang and J.Jia,"Scale-Recurrent Network for DeepImage Deblurring,",ICCV,2018,pp.8174-8182.]。

(3)仿真实验结果分析

图4是本方法与其他视频去模糊方法的定量对比结果图，图5是本方法与其他图像去模糊与视频去模糊方法的定性对比结果图，表1是本方法与其他视频去模糊方法的峰值信噪比(PSNR)对比结果。

表1本发明与其他视频去模糊方法的峰值信噪比对比结果

为了验证本方法提出的联合三维卷与傅立叶聚合的网络无须计算繁琐、代价昂贵的配准预处理，将输入图像分别采用单应性矩阵配准、光流配准与无配准的方式，图4中采用定量对比的策略对去模糊结果进行可视化分析，从左至右依次是：输入输出帧、原始帧、PS去模糊、傅立叶聚合方法、二维卷积网络方法、本方法(单帧)、本方法(单应性)，本方法(光流)、本方法(无配准)以及真实锐像。可以看出本方法即使在无配准的情况下，也具有良好的去模糊效果，表1显示了多种视频去模糊方法得到的结果图与真实锐像之间的峰值信噪比(PSNR)，每帧图像的最好结果加粗显示。结果显示本发明方法在第1、3、7个测试视频上有最好的效果，并且平均PSNR最高，表明本发明方法在无配准的情况下依旧达到了极好的去模糊效果，避免了视频去模糊过程中繁琐的配准过程，大大提高了视频去模糊的处理效率。

图5显示了本方法与某些单幅图像去模糊与视频图像去模糊的定性对比，从左至右、第一层为输入帧、原始帧、PS去模糊、DMCNN多尺度方法、SRN循环网络方法、本方法(单帧)、本方法(单应性)，本方法(光流)、本方法(无配准)；第二层为输入帧、Kim&Lee方法、傅立叶聚合方法、二维卷积网络方法、本方法(单帧)、本方法(单应性)，本方法(光流)、本方法(无配准)。图5中显示了每种方法去模糊中的细节图，主观分析来看，本方法在无配准的情况下，也具有良好的去模糊效果。表2显示了多种视频去模糊方法处理100帧视频的平均时间，可以看出本方法在具有良好去模糊效果下，也具有较快的处理时间。

表2本发明与其他视频去模糊方法的处理时间对比结果

方法	处理时间(秒)
		Kim&Lee的方法	～60k(cpu)
傅立叶聚合方法	～1.5k(cpu)
		本方法(光流)	～470(gpu)
本方法(单应性)	～160(gpu)
		本方法(无配准)	～15(gpu)

本发明通过三维卷积深度网络，学习窗口内视频帧的时空特征，并将编码器-解码器卷积网络学习出的初始去模糊图像进行傅立叶变换，采用傅立叶聚合模块，进一步学习图像的傅立叶特征，通过三维卷积神经网络与傅立叶聚合模块的合成网络，训练深度网络，最终根据训练好的深度网络，生成去模糊视频。与传统方法相比，本方法依据三维卷积深度网络学习视频中的时空特征，避免了视频去模糊中复杂的配准过程，且无需运动矢量估计，并在网络中嵌入傅立叶聚合模块显著提升了去模糊效果，大幅降低了视频去模糊的处理时间，可广泛应用于手机拍摄、无人机拍摄、车载导航等多种类型的视频去模糊。

Claims

1.一种嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的嵌入傅立叶聚合的视频去模糊三维卷积深度网络方法，其特征在于：步骤3构造编码器-解码器模块中，三维卷积层由卷积层、批标准化层和激活层构成；第j层三维卷积层有n_j-1个输入特征块，每块大小为w_j-1×w_j-1×d_j-1，该层有n_j个大小为a_j×a_j×m_j的滤波器组，并假定三个维度的步长为(s₁,s₁,s₂)，可输出n_j个大小为w_j×w_j×d_j的特征块，其中，空间宽度