CN114463218B

CN114463218B - 一种基于事件数据驱动的视频去模糊方法

Info

Publication number: CN114463218B
Application number: CN202210124768.4A
Authority: CN
Inventors: 查正军; 傅雪阳; 曹成志; 时格格; 黄宇坤
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2023-10-24
Anticipated expiration: 2042-02-10
Also published as: CN114463218A

Abstract

本发明公开了一种基于事件数据驱动的视频去模糊方法，其步骤包括：1获取视频数据和对应的事件序列，并对事件序列进行分割；2构建编码网络对图像数据进行特征提取；3通过时间记忆模块计算相邻事件序列的关联性，提取时间特征；4通过空间融合模块将事件特征和图像特征进行空间尺度的融合；5构建解码网络生成去模糊之后的视频帧。本发明能够充分利用事件数据提供的时空先验信息，用于驱动视频去模糊，从而有效提升去模糊效果。

Description

一种基于事件数据驱动的视频去模糊方法

技术领域

本发明涉及视频去模糊领域，具体说的是一种基于事件数据驱动的视频去模糊方法。

背景技术

视频作为计算机视觉通信中的一个重要数据源，由于物体的运动而不可避免地存在模糊，从而影响主观感受质量以及更深层次的应用。由于在模糊过程中运动信息的显著损失，从运动模糊图像中恢复清晰的视频序列并不可行。最近，一种称为事件摄影机的新传感器被推荐用于记录和捕捉微秒级的场景强度变化，对事件摄像机来说，快速运动可以作为高时间速率的事件被捕获，从而为探索视频去模糊的解决方案提供了新的机会。传统相机的拍摄过程需要一个曝光时间，这个帧率极大地限制了事件捕获的延迟，如果物体存在高速运动，就会产生模糊；并且过曝现象也很常见，在光线极差或者亮度极高时，相机获取的信息有限，丢失了应有的细节。

由于卷积神经网络(CNNs)的成功，基于事件驱动的去模糊技术已被广泛开发并取得了相对较好的性能。然而，这些方法仍有一些局限性。一方面，现有的视频去模糊网络直接利用事件作为额外先验，而不考虑不同事件之间的相关性。这些网络通过将强度变化压缩为一个时间步长来实现一个独立的特征映射，因此时间信息将丢失，并且无法充分利用事件的高时间分辨率。另一方面，大部分网络只是将模糊帧和事件的特征图连接起来作为卷积神经网络的输入，忽略了丰富的亮度变化信息以及事件和视频帧之间的空间一致性。此外，现有的视频去模糊网络通常基于视频中连续模糊帧的假设，并设计基于卷积神经网络和基于循环神经网络的架构，其中编码器-解码器体系结构是作为基本主干的最流行的选择。然而，一个常见的事实是，模糊并不是连续出现在视频中，即模糊中的某些帧视频非常清晰。这些锐利的帧实际上可以被用来帮助恢复模糊的帧，但在现有的视频去模糊方法中，它们被难以区分地处理，也会导致锐利的纹理丢失。事件驱动的恢复优化方法在很大程度上依赖于事件的使用，其中设计了各种架构。在这些方法中，用于利用事件的模块不容易与现有的图像和视频去模糊方法合作，从而限制了视频去模糊和事件驱动去模糊的原则框架的发展，这些问题限制了基于事件的视频去模糊原理研究的进一步发展。

发明内容

本发明为了克服现有方法的不足之处，提供一种基于事件数据驱动的视频去模糊方法，以期能在不同情景的视频去模糊任务中达到更好的去模糊性能，从而有效提升去模糊效果。

本发明为解决上述技术问题，采用如下技术方案：

本发明为一种基于事件数据驱动的视频去模糊方法的特点是按如下步骤进行：

步骤1获取训练视频数据和对应的事件序列，并对事件序列进行分割：

步骤1.1获取训练视频数据集：

获取真实的模糊视频图像集，记为X＝{x₁,x₂,…,x_i,…,x_N}，其中，x_i表示第i张模糊图像，i＝1,2,…,N，N为模糊图像的帧数量；

获取真实的清晰视频图像集，记为Y＝{y₁,y₂,…,y_i,…,y_N}，其中，y_i表示第i张清晰图像，i＝1,2,...,N，N为正常图像的总数；

令I＝{X,Y}表示训练图像数据集；

步骤1.2对事件序列进行分割：

获取真实的模糊图像集X的真实事件序列；

将真实的模糊视频图像集X输入事件仿真器中并生成合成的事件序列；

根据真实的模糊视频图像集X中所包含的帧数量N，将真实事件序列和合成的事件序列分别划分成相同数量N的分段序列，记为E＝{e₁,...,e_i,...,e_N},e_i表示第i张模糊图像x_i所对应的真实和合成的事件序列，i＝1,2,...,N，N为事件序列的总数；

步骤2构建视频去模糊神经网络，包括：编码网络、时间记忆模块、空间融合模块、解码网络；

步骤2.1、所述编码网络由M个残差模块和M个下采样层交替排列组成，其中，残差模块具有m个卷积层及其对应的跳线连接，卷积核大小为均为ks，步长均为s，各卷积层之间依次连接有LeakRelu层和批归一化层；

所述第i张模糊图像x_i经过所述编码网络的处理后，生成M个不同尺度的图像特征其中，u_im表示第i张模糊图像x_i在第m个尺度的图像特征；

步骤2.2、所述时间记忆模块包括一个公用的卷积层、两个专用的卷积层、记忆单元；

第i-1个事件序列e_i-1和第i+1个事件序列e_i+1输入公用的卷积层中进行处理，得到两者的公共特征，再分别经过两个专用的卷积层的处理，相应得到第i-1个事件序列e_i-1的键和值以及第i+1个事件序列e_i+1的键和值；

所述记忆单元将第i-1个事件序列e_i-1的键和值以及第i+1个事件序列e_i+1的键和值进行拼接后，再分别输入两个卷积核为1×1的卷积层中，输出两个卷积结果后再通过乘积运算得到第i个事件序列e_i与相邻事件序列e_i-1和e_i+1的关联特征图；最后将所述关联特征图与第i个事件序列e_i相加后，得到第i个事件特征图C_i；

步骤2.3、所述空间融合模块包括M+1个下采样层、M个上采样层、一个卷积核为1×1的卷积层和融合单元；

所述M个不同尺度的图像特征输入所述空间融合模块中，并分别通过M个下采样层的处理，从而将M个不同尺度的图像特征调整为相同比例的图像特征，再经过一个卷积核为1×1的卷积层后获得第i个特征图F_i；

所述第i个事件特征图C_i通过第M+1个下采样层的处理后，得到下采样后的第i个事件特征图C_i′；

所述融合单元利用式(1)对所述下采样后的第i个事件特征图C_i′和第i个特征图F_i进行处理，从而得到第i个融合特征图Feat_i中第p个像素点的特征进而得到第i个融合特征图Feat_i：

式(1)中，p、q是位置索引，表示第i个事件特征图C_i′在p位置处的特征值，F_i ^q表示第i个特征图F_i在q位置处的特征值，S为特征图的像素点总数；g(·)表示卷积操作；f(·,·)表示乘积函数，并有：

式(2)中，θ(·)和均表示卷积操作；

所述第i个融合特征图Feat_i分别经过M个上采样层的处理后，获得M个不同尺度的映射特征其中，v_im表示第i张模糊图像x_i在第m个尺度的图像特征；

步骤2.4、所述解码网络由M个残差模块和M个上采样层交替排列组成，其中，残差模块具有m个卷积层及其对应的跳线连接，卷积核大小为均为ks，步长均为s，各卷积层之间依次连接有LeakRelu层和批归一化层；

所述M个不同尺度的映射特征经过所述解码网络的上采样层处理，获得M个尺度一致的特征图并进行拼接之后，再经过一个卷积操作，从而生成清晰图像/>

步骤3、利用式(3)构建反向传播的损失函数L：

式(3)中，K为生成清晰图像的像素点数，/>为第i个模糊图像经过神经网络生成的去模糊图像的第k个像素点，/>为清晰视频图像集中第i个图像切片对应的第k个像素点；

步骤4、基于真实的模糊图像集X及其分段序列E对视频去模糊神经网络进行训练，并计算损失函数L，同时使用自适应矩估计优化方法以学习率lr_s来更新静态检测网络权值，当训练迭代次数达到设定的次数或损失误差达小于所设定的阈值时，训练停止，从而得到最优的去模糊模型；以所述最优的去模糊网络对模糊视频图像进行处理，并获得对应的清晰图像。

与现有技术相比，本发明的有益效果在于：

1、本发明利用事件数据驱动视频去模糊任务，在参数量少的情况下，能够实现很好的端到端的去模糊效果，并且相比现有的分割方法，减少了参数的数量，在不同数据集上具有更好的鲁棒性。实验结果表明，本发明提出的方法在GoPro数据集和HQF数据集上优于最先进的方法。

2、本发明通过注意力机制来感知相邻事件序列之间的时间关联性。为了利用事件提供的高时间分辨率信息，时间记忆模块用于计算不同事件的长期相关性，以恢复时间事件相关性，最终的去模糊网络基于这两个块构建，并以端到端的方式进行训练；查询与键之间的相似性被用来测量与当前事件的时间非局部对应关系，这将生成相应的值以感知时间变化；通过乘积运算获得T时刻事件和相邻事件序列的关联矩阵，并用于融合事件特征，通过这种方式记录不同事件之间的时间关系，更加充分地利用连续事件序列对图像去模糊的先验信息。

3、本发明使用非局部空间融合操作将图像特征和事件特征融合。借助事件数据提供的亮度先验信息，计算图像信息和事件信息的非局部特征，以确定每个帧和事件之间的空间一致性。通过对空间及通道全局关系的建模，深层次挖掘输入特征的全局信息，从而提升了图像的去模糊性能，增加了模型的可解释性。

附图说明

图1为发明方法流程图；

图2为本发明的基于事件数据驱动的视频去模糊方法结构图；

图3为本发明中时间记忆模块的结构图；

图4为本发明中空间融合模块的结构图。

具体实施方式

本实施例中，一种基于事件数据驱动的视频去模糊方法，具体流程参见图1，是综合考虑时间数据与视频序列的特征，并通过非局部的方式对两种数据进行融合，以达到去模糊效果，整个方法的算法结构图参见图2。具体的说，该方法是按照如下步骤进行：

步骤1.1获取训练视频数据集：

获取真实的模糊视频图像集，记为X＝{x₁,x₂,...,x_i,...,x_N}，其中，x_i表示第i张模糊图像，i＝1,2,...,N，N为模糊图像的帧数量；

获取真实的清晰视频图像集，记为Y＝{y₁,y₂,...,y_i,...,y_N}，其中，y_i表示第i张清晰图像，i＝1,2,...,N，N为正常图像的总数；

令I＝{X,Y}表示训练图像数据集；

步骤1.2对事件序列进行分割：

获取真实的模糊图像集X的真实事件序列；

本实施例中，采用GoPro数据集训练和评估模型，包括30个不同场景的视频序列，选取其中25个场景用于训练模型，其余的用于评估模型；

步骤2.1、编码网络由M个残差模块和M个下采样层交替排列组成，其中，残差模块具有m个卷积层及其对应的跳线连接，卷积核大小为均为d×d，步长均为s，各卷积层之间依次连接有LeakRelu层和批归一化层；

第i张模糊图像x_i经过编码网络的处理后，生成M个不同尺度的图像特征其中，u_im表示第i张模糊图像x_i在第m个尺度的图像特征；

本实施例中，如图2所示，M取3，卷积核大小为3×3，步长为1，每层卷积核数分别为64、128、256；卷积层之间通过跳连结构实现不同层之间的空间信息共享，使得高层输出图像带有低级的细节特征，充分提取特征图的空间尺度特征，提升去模糊的质量；

步骤2.2、时间记忆模块包括一个公用的卷积层、两个专用的卷积层、记忆单元，所述时间记忆模块的具体结构如图3所示；

第i-1个事件序列e_i-1(前邻近事件序列)和第i+1个事件序列e_i+1(后邻近事件序列)输入公用的卷积层中进行处理，得到两者的公共特征，再分别经过两个专用的卷积层的处理，相应得到第i-1个事件序列e_i-1的键和值以及第i+1个事件序列e_i+1的键和值；

记忆单元将第i-1个事件序列e_i-1的键和值以及第i+1个事件序列e_i+1的键和值进行拼接后，再分别输入两个卷积核为1×1的卷积层中，输出两个卷积结果后再通过乘积运算得到第i个事件序列e_i与相邻事件序列e_i-1和e_i+1的关联特征图；最后将关联特征图与第i个事件序列e_i相加后，得到第i个事件特征图C_i；

步骤2.3、空间融合模块包括M+1个下采样层、M个上采样层、一个卷积核为1×1的卷积层和融合单元；本实施例中，M取3，并提供更多尺度的输入视角来感知输入图像的整体结构，所述空间融合模块的具体结构如图4所示；

M个不同尺度的图像特征输入空间融合模块中，并分别通过M个下采样层的处理，从而将M个不同尺度的图像特征调整为相同比例的图像特征，再经过一个卷积核为1×1的卷积层后获得第i个特征图F_i；

第i个事件特征图C_i通过第M+1个下采样层的处理后，得到下采样后的第i个事件特征图C_i′；

融合单元利用式(1)对下采样后的第i个事件特征图C_i′和第i个特征图F_i进行处理，得到第p个像素点的特征从而得到第i个融合特征图Feat_i：

式(1)中，p、q是位置索引，表示第i个事件特征图C_i′在p位置处的特征值，F_i ^q表示第i个特征图F_i在q位置处的特征值，其中S为特征图的像素点总数；g(·)表示卷积操作；f(·,·)表示乘积函数，并有：

式(2)中，θ(·)和均表示卷积操作；

第i个融合特征图Feat_i分别经过M个上采样层的处理后，获得M个不同尺度的映射特征其中，v_im表示第i张模糊图像x_i在第m个尺度的图像特征；

步骤2.4、解码网络由M个残差模块和M个上采样层交替排列组成，其中，残差模块具有m个卷积层及其对应的跳线连接，卷积核大小为均为d×d，步长均为s，各卷积层之间依次连接有LeakRelu层和批归一化层；本实施例中，M取3，卷积核大小为3×3，步长为1，每层卷积核数分别为256、128、64；

M个不同尺度的映射特征经过解码网络的处理后，每一个映射特征均会经过一个上采样层，获得M个尺度一致的特征图，拼接之后，再经过一个卷积操作获得生成的清晰图像/>

步骤3、利用式(3)构建反向传播的损失函数L，在二范数空间中最小化生成结果与真实

前景标注图像之间的损失，在低频信息段提高生成结果的质量：

式(3)中，K为图像的像素点数，为第i个模糊图像经过神经网络生成的去模糊图像的第k个像素点，/>为清晰视频图像集中第i个图像切片对应的第k个像素点；

步骤4、基于真实的模糊图像集X及其分段序列E对视频去模糊神经网络进行训练，并计算损失函数L，并使用自适应矩估计优化方法以学习率lr_s来更新静态检测网络权值，本实例中学习率lr_s取5e-5，当训练迭代次数达到设定的次数或损失误差达小于所设定的阈值时，训练停止，从而得到最优的去模糊模型；以最优的去模糊网络对模糊视频图像进行处理，并获得对应的清晰图像。

实施例

为了验证本发明方法中的有效性，本实施例中选用了常用的GoPro数据集和HQF数据集用于训练和测试。

该方法是基于GoPro数据集进行训练的，该数据集由合成事件、2103对模糊帧和清晰的真实背景帧组成。为了获得事件数据，使用V2E生成相应的事件序列，同时考虑到高斯分布N(0.18,0.03)中像素级的不同合同阈值。对于真实世界事件的评估，使用HQF数据集，包括真实世界捕获的真实事件数据，DAVIS240C是一种基于动态事件的视觉传感器，用于报告亮度变化。模糊帧是使用与GoPro数据集相同的策略生成的。在GoPro测试数据集上进行测试时，帧对的数量是1111。

本发明中采用结构相似度(PSNR)和峰值信噪比(SSIM)作为评价指标。

本实施例中选用五种方法和本发明方法进行效果对比，所选方法分别是LEDVI,eSL-Net,CSD,STFAN,RED-Net,STRA为发明方法。

根据实验结果可得出结果如表1和表2所示：

表1本发明方法与选用的五种对比方法在HQF数据集上进行去模糊的实验结果

	LEDVI	eSL-Net	CSD	STFAN	RED-Net	STRA
							PSNR	22.22	25.42	24.71	24.17	25.72	27.54
SSIM	0.687	0.754	0.724	0.711	0.763	0.834

表2本发明方法与选用的五种对比方法在GoPro数据集上进行去模糊的实验结果

	LEDVI	eSL-Net	CSD	STFAN	RED-Net	STRA
							PSNR	22.86	22.59	27.54	28.07	28.98	29.73
SSIM	0.733	0.750	0.834	0.836	0.849	0.927

实验结果显示在两种不同的数据集上，本发明方法与其它五种方法相比效果都要更好,从而证明了本发明提出方法的可行性。实验表明本发明提出方法能有效利用单帧图像的空间特性及帧之事件序列间的时间连续特性，完成模糊视频的去模糊任务。

Claims

1.一种基于事件数据驱动的视频去模糊方法，其特征是按如下步骤进行：

步骤1.1获取训练视频数据集：

令I＝{X,Y}表示训练图像数据集；

步骤1.2对事件序列进行分割：

获取真实的模糊图像集X的真实事件序列；

所述第i个事件特征图C_i通过第M+1个下采样层的处理后，得到下采样后的第i个事件特征图C′_i；

所述融合单元利用式(1)对所述下采样后的第i个事件特征图C′_i和第i个特征图F_i进行处理，从而得到第i个融合特征图Feat_i中第p个像素点的特征进而得到第i个融合特征图Feat_i：

式(1)中，p、q是位置索引，表示第i个事件特征图C′_i在p位置处的特征值，F_i ^q表示第i个特征图F_i在q位置处的特征值，S为特征图的像素点总数；g(·)表示卷积操作；f(·,·)表示乘积函数，并有：

式(2)中，θ(·)和均表示卷积操作；

步骤3、利用式(3)构建反向传播的损失函数L：

步骤4、基于真实的模糊图像集X及其分段序列E对视频去模糊神经网络进行训练，并计算损失函数L，同时使用自适应矩估计优化方法以学习率lr_s来更新静态检测网络权值，当训练迭代次数达到设定的次数或损失误差达小于所设定的阈值时，训练停止，从而得到最优的去模糊模型；以所述最优的去模糊模型对模糊视频图像进行处理，并获得对应的清晰图像。