CN116596794A

CN116596794A - 一种基于事件相机的联合去运动模糊和视频插帧方法

Info

Publication number: CN116596794A
Application number: CN202310607521.2A
Authority: CN
Inventors: 张越一; 熊志伟; 翁文明
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-15

Abstract

本发明公开了一种基于事件相机的联合去运动模糊和视频插帧方法，包括：1、基于事件相机的低帧率模糊视频数据的采集和预处理，2、构建盲曝光限制下的联合去运动模糊和视频插帧网络，包括：特征提取模块、事件指导的曝光先验估计模块、时间‑曝光的联合控制模块以及清晰视频帧重建模块，3、采用分阶段的训练策略优化网络。本发明能利用事件相机去记录场景的运动，有效地克服曝光歧义性，获得精准的曝光估计，从而解决盲曝光限制，并且利用开发的深度学习算法有效融合视频帧数据和事件数据，从而能够有效的去除运动模糊以及实现视频插帧，达到最优的量化和视觉效果。

Description

一种基于事件相机的联合去运动模糊和视频插帧方法

技术领域

本发明属于计算机视觉领域，具体的说是一种基于事件相机的联合去运动模糊和视频插帧方法。

背景技术

最近这些年，计算机视觉研究人员在模糊视频插帧领域做了大量工作。模糊视频插帧算法的发展目前依然是初步阶段。其中，串联多任务的方案是最为简单的尝试。它通过将视频去运动模糊算法以及视频插帧算法这两种任务进行串联，从而达到同时去运动模糊以及提高帧率的目的。相比于这种串联多任务的方案，一体恢复方案是更加高效的选择，因为它不会引入串联多任务所带来的累计误差。虽然现有的模糊视频插帧方案取得了一定的效果，但是这些都基于一定的曝光假设，比方假设曝光时间是固定的，并且等于帧率的倒数。这种非盲曝光的假设是有违实际的视频拍摄情况的。在真实的拍摄场景中，复杂的运动以及光线条件常常会导致曝光时间是变化并且是未知的，这样的一种可变且未知的曝光也被称作盲曝光限制。盲曝光设定给现有的基于非盲曝光条件的模糊视频插帧算法带来了非常大的挑战，会带来严重的性能下降，甚至是引入额外的干扰噪声。

解决盲曝光限制下的模糊视频插帧问题的关键是能够获得准确的曝光估计。但是仅仅通过模糊视频很难得到准确的曝光时间估计，因为对于一个模糊视频来说，视频帧的模糊程度由两个因素来决定，第一是运动速度，第二是曝光时间。这便是曝光歧义性。也就是说在短曝光下高速运动产生的模糊很有可能和长曝光下慢运动产生的模糊一样。曝光歧义性的存在使得现有方法产生严重的视觉模糊以及细节丢失。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于事件相机的联合去运动模糊和视频插帧方法，以期有效地克服事件相机所记录场景运动的曝光歧义性，获得精准的曝光估计，以解决盲曝光限制，并通过融合视频帧数据和事件数据，有效的去除运动模糊并实现视频插帧，从而达到最优的量化和视觉效果。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于事件相机的联合去运动模糊和视频插帧方法的特点在于，包括如下步骤：

步骤一、基于事件相机的低帧率模糊视频数据的采集和预处理：

利用事件相机拍摄动态场景后得到连续的清晰视频帧及其异步事件流信号，令其中一个清晰视频帧记为I_gt，令清晰视频帧I对应的异步事件流信号记为其中，e_k表示第k个事件，且e_k＝p_kδ(t-t_k，x-x_k，y-y_k)，p_k代表第k个事件e_k的极性，p_k∈{-1，1}；t_k代表第k个事件e_k的发生时刻；x_k和y_k分别表示第k个事件e_k发生的空间坐标；N表示事件的总数；(t，x，y)表示时空投影坐标；δ为示性函数；

将连续的清晰视频帧取均值后作为清晰视频帧I_gt对应的帧模糊视频帧B；并利用拉普拉斯变换函数Laplace()将模糊视频帧B转换成模糊程度量BL；

步骤二、利用式(1)将异步事件流信号转换成事件帧V∈R^2×H×W：

V＝∑_k＝1δ(x-x_k，y-y_k，p-p_k) (1)

式(1)中，H，W分别表示事件帧V的高和宽；

步骤三、构建盲曝光限制下的联合去运动模糊和视频插帧网络，包括：特征提取模块、事件指导的曝光先验估计模块、时间-曝光的联合控制模块以及清晰视频帧重建模块；

步骤3.1、所述特征提取模块利用一层卷积层分别对所述事件帧V和模糊视频帧B进行处理，相应得到事件特征和模糊视频帧特征/>

步骤3.2、所述事件指导的曝光先验估计模块对所述事件帧V进行处理，得到预测的曝光先验EP；

步骤3.3、所述时间-曝光的联合控制模块对曝光先验EP进行处理，得到联合控制特征Feat_control；

步骤3.4、所述清晰视频帧重建模块对联合控制特征Feat_control进行处理，得到初始清晰帧I_init和最终清晰帧I_final；

步骤四、采用分阶段的训练策略优化网络：

步骤4.1、利用式(10)构建第一阶段的事件指导的曝光先验估计模块的损失函数

式(10)中，EP_gt是真实的曝光先验；表示均方差损失函数；

步骤4.2、利用式(11)构建第二阶段的剩余模块的损失函数

式(11)中，表示网络损失函数，并有：

式(12)中，表示复合损失函数，并有：

式(13)中，表示拉普拉斯损失函数，/>表示汉明损失函数，并有：

式(14)和式(15)中，I表示I_init或I_final，S表示层数，L^s()表示第s级的拉普拉斯金字塔，Dis()表示汉明距离，Cen()表示census变换；

步骤4.3、使用梯度下降法对于所述联合去运动模糊和视频插帧网络进行分阶段训练，在第一阶段利用式(10)优化事件指导的曝光先验估计模块，在二阶段利用式(11)优化剩余模块并微调网络参数，从而得到训练后的联合去运动模糊和视频插帧网络，用于实现对任一低帧率模糊视频帧的去模糊化和插帧处理。

本发明所述的基于事件相机的联合去运动模糊和视频插帧方法的特点也在于，所述事件指导的曝光先验估计模块包含两个结构相同但参数不共享的特征提取网络以及一个特征聚合网络Φ_aggre；

所述特征提取网络由一层卷积层与LeakyReLU激活函数构成；

所述特征聚合网络Φ_aggre由两层卷积层组成，第一层的卷积的激活函数是LeakyReLU，第二层卷积没有激活函数；

步骤3.2.1、所述事件帧V输入特征提取网络中进行处理，并输出事件特征Feat_e；

所述帧模糊视频帧B和模糊程度量BL在通道维度进行堆叠后输入特征提取网络中进行处理，并输出模糊视频特征Feat_bf；

步骤3.2.2、所述特征聚合网络Φ_aggre利用式(5)得到聚合特征Feat_aggre：

Feat_aggre＝Φ_aggre([Feat_e×Sigmoid(GN(Feat_e)×GN(Feat_bf))，Feat_bf]) (5)

式(5)中，Sigmoid()表示sigmoid激活函数，GN()表示group norm归一化处理；

所述特征聚合网络Φ_aggre利用式(6)得到预测的曝光先验EP：

EP＝AP(Feat_aggre) (6)

式(6)中，EP的取值范围为0到1，AP表示平均池化。

所述时间-曝光的联合控制模块包括n个级联的子模块，每个子模块由两个特征传递卷积层两个控制卷积层/>以及一个融合卷积层Φ_fuse组成；

其中，第i子模块利用式(7)得到第i个中间控制特征Feat_i，从而由第n个级联的子模块输出联合控制特征Feat_control；

式(7)中，Feat_i-1表示第i-1个子模块输出的中间控制特征；当i＝1时，令 i∈[1，N]。

所述清晰视频帧重建模块由初始清晰帧预测子模块和最终清晰帧恢复子模块Φ_detail；

步骤3.4.1、所述初始清晰帧预测子模块由卷积模块、核预测模块KPN、连接模块和图像重建模块Φ_recons构成；

所述卷积模块对联合控制特征Feat_control进行卷积处理，得到卷积特征Feat′_control；

所述核预测模块KPN利用式(9)得到初始卷积特征

式(9)中，Conv()表示卷积层与LeakyReLU激活函数的处理，*表示卷积；

所述连接模块利用式(10)得到初始清晰帧特征

所述图像重建模块Φ_recons由一层卷积层，一层PixelShuffle层以及LeakyReLU激活函数组成，并对进行处理后，得到初始清晰帧I_init；

步骤3.4.2、所述最终清晰帧恢复子模块Φ_detail将I_init与B拼接后，得到最终清晰帧I_final。

本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行任一所述联合去运动模糊和视频插帧方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行任一所述联合去运动模糊和视频插帧方法的步骤。

与现有技术相比，本发明的有益效果在于：

1、本发明提出事件指导的曝光先验估计模块，是利用高时间分辨率的事件相机去得到运动先验，将异步事件流、模糊视频帧以及模糊程度量作为输入，使用卷积神经网络搭建模块主体，并且使用组归一化技术消除视频与事件流两种模态之间的偏差，从而获得了精准的曝光先验的估计。该模块充分利用事件相机高时间分辨率的优点，从而提供精细的运动捕捉能力，使得盲曝光问题变得可解，克服了现有去运动模糊和视频插帧技术受限于盲曝光的难点，从而带来了最优的去运动模糊和视频插帧效果。

2、本发明提出了时间-曝光的联合控制模块，该模块将插帧时间、曝光先验以及事件帧特征作为输入，使用卷积神经网络搭建模块主体。该模块将插帧时间和曝光先验作为两个控制因子，设计了双路控制路径来调控事件帧特征，从而使得两个控制因子能够高效协同配合，克服了单路径控制带来的数据偏差。此外该模块将整个控制过程展开，使用了迭代优化的策略递进式地控制事件帧特征，从而使得整个控制过程更加准确，易于神经网络优化。

附图说明

图1为本发明实施的基于事件相机的联合去运动模糊和视频插帧的网络结构图；

图2为本发明实施事件指导的曝光先验估计模块的流程图；

图3为本发明实施时间-曝光联合控制模块的流程图。

具体实施方式

本实施例中，一种基于事件相机的联合去运动模糊和视频插帧方法，首先通过事件指导的曝光估计模块得到曝光先验，从而充分利用事件相机的高时间分辨率的优点，将盲曝光问题转化为非盲曝光问题，消除了盲曝光问题带来的干扰。然后通过时间-曝光联合控制模块将时间和曝光两个因子注入到网络的处理过程中，同时引入双路迭代策略来实现稳定的控制，具体的流程参见图1。该方法按如下步骤进行：

本实例中，采用RealSharD-DAVIS数据集进行训练和评估模型，为了模拟盲曝光设定，记快门周期为T，记曝光模式为m-n，其中m表示曝光时间，n表示数据读出时间，且m+n＝T。在模拟模糊视频的过程中，曝光时间内的清晰帧取平均后生成了模糊视频帧。在实验中，为了模拟不同的曝光情况，T被设定为16和12。当T＝16时，曝光时间m设定为9到15。当T＝12时，曝光时间m设定为7到11。

V＝∑_k＝1δ(x-x_k，y-y_k，p-p_k) (1)

式(1)中，H，W分别表示事件帧V的高和宽；

步骤3.1、特征提取模块利用一层卷积层分别对事件帧V和模糊视频帧B进行处理，相应得到事件特征和模糊视频帧特征/>

步骤3.2、如图2所示，事件指导的曝光先验估计模块包含两个结构相同但参数不共享的特征提取网络以及一个特征聚合网络Φ_aggre；

特征提取网络由一层卷积层与LeakyReLU激活函数构成；

特征聚合网络Φ_aggre由两层卷积层组成，第一层的卷积的激活函数是LeakyReLU，第二层卷积没有激活函数；

步骤3.2.1、事件帧V输入特征提取网络和进行处理，并输出事件特征Feat_e；

帧模糊视频帧B和模糊程度量BL在通道维度进行堆叠后输入特征提取网络中进行处理，并输出模糊视频特征Feat_bf；

步骤3.2.2、特征聚合网络Φ_aggre利用式(5)得到聚合特征Feat_aggre：

Feat_aggre＝Φ_aggre([Feat_e×Sigmoid(GN(Feat_e)×GN(Feat_bf))，Feat_bf]) (5)

特征聚合网络Φ_aggre利用式(6)得到预测的曝光先验EP：

EP＝AP(Feat_aggre) (6)

式(6)中，EP的取值范围为0到1，AP表示平均池化；

步骤3.3、如图3所示，时间-曝光的联合控制模块包括n个级联的子模块，每个子模块由两个特征传递卷积层两个控制卷积层/>以及一个融合卷积层Φ_fuse组成；

式(7)中，Feat_i-1表示第i-1个子模块输出的中间控制特征；当i＝1时，令 i∈[1，N]；

步骤3.4、清晰视频帧重建模块由初始清晰帧预测子模块和最终清晰帧恢复子模块Φ_detail；

步骤3.4.1、初始清晰帧预测子模块由核预测模块KPN、卷积模块、连接模块和图像重建模块Φ_recons构成；

卷积模块对联合控制特征Feat_control进行卷积处理，得到卷积特征Feat′_control；

核预测模块KPN利用式(9)得到初始卷积特征

本实施例中，核预测模块KPN所预测的卷积核的大小为5×5。

连接模块利用式(10)得到初始清晰帧特征

图像重建模块Φ_recons由一层卷积层，一层PixelShuffle层以及LeakyReLU激活函数组成，并对进行处理后，得到初始清晰帧I_init；

步骤3.4.2、最终清晰帧恢复子模块Φ_detail将I_init与B拼接后，得到最终清晰帧I_final；

步骤四、采用分阶段的训练策略优化网络：

式(10)中，EP_gt是真实的曝光先验；表示均方差损失函数；

步骤4.2、利用式(11)构建第二阶段的剩余模块的损失函数

式(11)中，表示网络损失函数，并有：

在本实施例中，在10K次迭代之前权重λ＝1，μ＝0.1，之后权重设为λ＝0.1，μ＝1。

式(12)中，表示复合损失函数，I_gt表示真实清晰帧，并有：

在本实施例中，S设为5.

步骤4.3、采用分阶段的训练策略并使用梯度下降法对于联合去运动模糊和视频插帧网络进行训练，并计算损失函数：

第一阶段利用公式(10)优化事件指导的曝光先验估计模块；

第二阶段利用公式(11)优化剩余模块；

最后再利用公式(11)微调整个网络。

在本实施例中，第一阶段和第二阶段，采用学习率0.0001；最后微调阶段采用学习率0.00001。

本实施例中，一种电子设备，包括存储器以及处理器，该存储器用于存储支持处理器执行上述方法的程序，该处理器被配置为用于执行该存储器中存储的程序。

本实施例中，一种计算机可读存储介质，是在计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

实验例：

为验证本发明方法的有效性，本实施例选用了常用的RealSharp-DAVIS数据集用于训练和测试。该方法基于RealSharp-DAVIS数据集进行训练。RealSharp-DAVIS数据集分为训练集和测试集。整个数据集共包含59个不同的场景，使用了DAVIS-color-346事件相机拍摄，分辨率为346×260。训练过程中曝光时间设定为9到15，快门周期为16，然后进行泛化测试，测试过程中曝光时间设定为7到11，快门周期为12。

本实例中，选用四种通用方法EVDI、LEDVDI、UTI、BIN作为比较，选用PSNR作为评价指标，如表1所示：

实验结果表明在基于事件相机的联合去运动模糊和视频插帧任务中，本发明方法优于先前的最佳恢复模型，从而验证了本发明方法能够有效解决盲曝光限制下的视频恢复任务。并且本发明方法能够在推理时间上明显优于其他方法，验证了本发明方法的高效性。

Claims

1.一种基于事件相机的联合去运动模糊和视频插帧方法，其特征在于，包括如下步骤：

利用事件相机拍摄动态场景后得到连续的清晰视频帧及其异步事件流信号，令其中一个清晰视频帧记为I_gt，令清晰视频帧I对应的异步事件流信号记为其中，e_k表示第k个事件，且e_k＝p_kδ(t-t_k,x-x_k,y-y_k)，p_k代表第k个事件e_k的极性，p_k∈{-1,1}；t_k代表第k个事件e_k的发生时刻；x_k和y_k分别表示第k个事件e_k发生的空间坐标；N表示事件的总数；(t,x,y)表示时空投影坐标；δ为示性函数；

V＝∑_k＝1δ(x-x_k,y-y_k,p-p_k) (1)

式(1)中，H,W分别表示事件帧V的高和宽；

步骤四、采用分阶段的训练策略优化网络：

式(10)中，EP_gt是真实的曝光先验；表示均方差损失函数；

步骤4.2、利用式(11)构建第二阶段的剩余模块的损失函数

式(11)中，表示网络损失函数，并有：

式(12)中，表示复合损失函数，并有：

2.根据权利要求1所述的基于事件相机的联合去运动模糊和视频插帧方法，其特征在于，所述事件指导的曝光先验估计模块包含两个结构相同但参数不共享的特征提取网络以及一个特征聚合网络Φ_aggre；

所述特征提取网络由一层卷积层与LeakyReLU激活函数构成；

Feat_aggre＝Φ_aggre([Feat_e×Siamoid(GN(Feat_e)×GN(Feat_bf)),Feat_bf]) (5)

式(5)中，Sigmoid()表示sigmoid激活函数，GN()表示groupnorm归一化处理；

所述特征聚合网络Φ_aggre利用式(6)得到预测的曝光先验EP：

EP＝AP(Feat_aggre) (6)

式(6)中，EP的取值范围为0到1，AP表示平均池化。

3.根据权利要求2所述的基于事件相机的联合去运动模糊和视频插帧方法，其特征在于，所述时间-曝光的联合控制模块包括n个级联的子模块，每个子模块由两个特征传递卷积层两个控制卷积层/>以及一个融合卷积层Φ_fuse组成；

式(7)中，Feat_i-1表示第i-1个子模块输出的中间控制特征；当i＝1时，令

4.根据权利要求3所述的基于事件相机的联合去运动模糊和视频插帧方法，其特征在于，

所述卷积模块对联合控制特征Feat_control进行卷积处理，得到卷积特征Feat'_control；

所述核预测模块KPN利用式(9)得到初始卷积特征

所述连接模块利用式(10)得到初始清晰帧特征

5.一种电子设备，包括存储器以及处理器，其特征在于，所述存储器用于存储支持处理器执行权利要求1-4中任一所述联合去运动模糊和视频插帧方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

6.一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1-4中任一所述联合去运动模糊和视频插帧方法的步骤。