CN115063312B

CN115063312B - 基于事件相机辅助的卷帘门效应矫正方法及装置

Info

Publication number: CN115063312B
Application number: CN202210668560.9A
Authority: CN
Inventors: 施柏鑫; 段沛奇; 周鑫渝; 马逸
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2023-03-10
Anticipated expiration: 2042-06-14
Also published as: CN115063312A

Abstract

本发明公开了一种基于事件相机辅助的卷帘门效应矫正方法及装置。搭建了事件相机加卷帘快门传统相机的混合相机系统，对同一场景同时进行拍摄得到匹配的卷帘快门图像和事件信号。设计了一个神经网络模型，仅利用一张卷帘快门图像和对应的事件信号，实现卷帘快门矫正并会恢复出高帧率的全局快门图像序列。网络模型包含两个模块分支，从事件信号中提取出运动信息和场景亮度变化信息，分别用于解决卷帘快门效应中的扭曲和遮挡问题。两个模块中间结果通过一个特殊设计的融合优化网络融合在一起得到最后的矫正结果。相比于现有卷帘门矫正方法，本发明的方法矫正结果大幅提升，解决高速运动下运动估计不准的问题，对场景和运动不加限制，应用场景更广。

Description

基于事件相机辅助的卷帘门效应矫正方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于事件相机辅助的卷帘门效应矫正方法及装置。

背景技术

随着计算机技术发展，计算机算力逐渐加强，机器学习、深度学习技术快速进步，计算机视觉相关技术逐渐应用到各个场景，例如手机相机的人脸检测、修图美图、夜间拍照等功能，无人驾驶中的行人检测、道路识别，移动支付与车站身份检测的人脸识别，或是机器人的同步定位与建图任务等。

随着大数据、智能化时代的来临，越来越多的应用场景需要计算视觉技术的支持，海量的视频、图像数据亟待处理，更凸显底层视觉任务的重要意义。由此，底层图像处理技术的不可替代性及其对于更高语义层次任务的重要意义，受到社会广泛关注。去卷帘门扭曲，作为计算摄像学的基础任务，其发展对于其他计算机视觉技术来说极其重要。

互补金属氧化物半导体(Complementary Metal Oxide Semiconductor，CMOS)图像传感器具有低功耗、低成本等优势，已成为手机、数码相机以及工业相机上的主流选择。CMOS图像传感器存在两种快门模式，分别是全局快门(Global Shutter，GS)和卷帘快门(Rolling Shutter，RS)。全局快门传感器所有像素同时曝光，而卷帘快门传感器逐行曝光、逐行扫描读出，从上到下每行曝光时间之间存在一个固定的延迟。CMOS图像传感器通常采用卷帘快门的模式，当相机和拍摄场景之间发生运动时会产生卷帘效应(RS effect)，造成图像上扭曲和遮挡等问题。卷帘门效用不仅会降低拍照体验，也极大地影响了下游高层视觉任务上的表现，限制了CMOS相机在很多领域上的应用。因此，卷帘门矫正算法的研究引起越来越多的关注。

卷帘快门效应产生的图像扭曲和遮挡等问题破坏图像中的几何结构，给卷帘快门矫正带来极大的困难。现有的基于图像的卷帘快门矫正算法可以分为单图和多图两类。其中，经典多图卷帘快门矫正算法对相机运动做一定限制并建模，利用连续几帧RS图像估计相机运动参数，然后矫正卷帘门效用。对于单图卷帘快门矫正算法，由于单张RS图像提供的信息十分有限，需要引入很强先验的假设(例如场景的几何结构)来帮助求解，这限制了单图卷帘快门矫正方法的适用场景。

随着深度学习的发展，神经网络也被应用到卷帘快门矫正任务上，并展现出性能上的优势。这些方法利用神经网络替换经典方法中参数优化方法，学习得到运动参数，或者直接端到端得到矫正后的图像。但是，由于连续多帧RS图像无法提供帧之间的运动信息，当高速运动和场景复杂的情况下，这些方法难以取得理想的矫正效果，也没有办法消除由于卷帘快门带来的遮挡问题，应用场景受到限制。

发明内容

本发明针对在高速运动下卷帘门效应中的扭曲和遮挡问题，提出一种基于事件相机辅助的卷帘门效应矫正方法及装置。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明提供的一种基于事件相机辅助的卷帘门效应矫正方法，包括以下步骤：

S1、搭建由卷帘快门相机和事件相机组成的混合相机系统，利用搭建的混合相机系统同时拍摄事件信号和RS图像序列，截取出每张RS图像拍摄时间内的事件信号，并同时从中分出RS图像每个像素实际曝光时间内的事件信号，将离散的事件信号转换成体素网格的表达方式；

S2、将RS图像I^RS、对应的事件信号以及GS图像对应的目标时刻t_s输入训练好的神经网络，神经网络首先将RS图像和对应曝光时间内的事件信号输入去模糊模块得到RS清晰图像，随后将去模糊后的图像和事件信号输入RS2GS光流估计模块和合成模块得到两个中间图像

和

最后在融合优化模块将上述两个分支的结果

和

融合在一起，得到最终恢复的GS图像

S3、调整目标时刻t_s，得到连续的GS视频序列。

进一步地，步骤S1中事件信号e_k＝(x_k，y_k，t_k，p_k)按照如下方式转换为

体素网格表示方式：

其中，x_k，y_k，t_k，p_k分别表示事件信号触发的空间坐标、时间戳以及事件极性，

是标准化后的时间戳，T为拍摄总时间，C是通道数，t_n是为离散采样时间通道，E为体素网格表示方式，E(x，y，t_n)表示空间坐标(x，y)时间通道t_n出体素网格对应的值。

进一步地，步骤S2中去模糊网络采用U-Net的结构，其中RS模糊图像和事件信号采用两个独立的编码器网络，提取两个模态信号的特征，然后将特征层合并输入到解码器网络中，得到去模糊结果。

进一步地，步骤S2中的RS2GS光流估计模块，先将时间信号输入GS2GS光流网络，估计出时间0到T时刻的各像素运动速度向量V_t＝0，V_t＝T；然后分别通过前后两个时刻的运动速度向量，标记得到RS图像上每个像素的运动速度

通过如下公式将RS图像I^RS变换成对应的GS矫正图像

其中，p＝(x，y)为像素空间位置，

为RS图像上各行到目标时刻t_s的时间差，T为RS图像拍摄总时间，RS图像空间分辨率为H×W，

表示RS图像上第y行对应的时间戳；

然后将上述初步估计得到的GS矫正图像和对应的光流输入到RS2GS光流网络进一步优化得到最后的RS2GS光流结果，在RS图像上进行图像扭转得到光流估计模块分支的结果

进一步地，步骤S2中的合成模块，首先建立RS图像I^RS(x，y)和其对应GS图像

之间的联系如下：

其中，累加操作表示RS图像上每个像素实际曝光时间戳

到目标时刻t_s这一时间段内的事件信号累加，c表示事件信号中存在的噪声；

其次，事件信号经过编码器提取出特征后被输入到双向卷积长短时记忆(ConvLSTM)网络中，利用前和后向编码器网络提取出事件信号中的时序信息，得到目标时刻t_s对应的事件特征

然后采用一个空间注意力模块，利用每行曝光时间到目标时刻的时间差对事件特征

进行空间重赋值得到事件特征

其中编码了RS图像各行对应时间戳到目标时刻区间内的事件信号；随后

和RS图像被输入到残差估计网络中得到RS图像和GS图像的残差，得到合成模块分支的结果

进一步地，步骤S2中的融合优化模块采用带注意力机制的U-Net，以RS2GS光流估计模块和合成模块得到两个中间图像

和

作为输入，输出掩码m和残差优化图像

最终结果

通过如下公式得到：

进一步地，步骤S2采用合成数据集对神经网络进行训练，合成数据集获取方法如下：

a)利用高速相机拍摄1280×720空间分辨率、5700fps的高质量GS视频；

b)利用获取的高速GS视频合成RS模糊图像，从RS模糊图像每行曝光开始和结束之间的GS图像中取出对应行，取平均后复制到RS模糊图像中；

c)利用拍摄的高速GS视频生成对应的事件信号，利用事件信号模拟器在默认参数设置下生成对应的事件信号。

进一步地，步骤S2整个神经网络采用分模块训练的方式，首先训练去模糊模块，预训练好后固定参数，然后分别训练合成模块和RS2GS光流估计模块，固定两个分支的参数最后训练融合优化模块。

另一方面，本发明还提供了一种基于事件相机辅助的卷帘门效应矫正装置，包括由卷帘快门相机和事件相机组成的混合相机系统，以实现上述任一项的方法，混合相机系统中帘快门相机和事件相机采用相同的定焦镜头并通过分光镜连接，分光镜将入射光平分为两束出射光，同步进入两台相机传感器。

与现有技术相比，本发明的有益效果为：

1、本发明提出的基于事件相机辅助的卷帘门效应矫正方法和装置，搭建了事件相机加卷帘快门传统相机的混合相机系统，对同一场景同时进行拍摄得到匹配的卷帘快门图像和事件信号，设计了一个神经网络模型，仅利用一张RS图像和对应地事件信号，实现卷帘快门矫正并会恢复出高帧率的全局快门图像序列，矫正结果大大超越现有的卷帘门矫正方法。

2、本发明提出的基于事件相机辅助的卷帘门效应矫正方法和装置，网络模型包含两个模块分支，从事件信号中提取出运动信息和场景亮度变化信息，分别用于解决卷帘快门效应中的扭曲和遮挡问题。两个模块中间结果通过一个特殊设计的融合优化网络融合在一起得到最后的矫正结果。相比于现有卷帘门矫正方法，本发明提出的方法矫正结果大幅提升，解决现有方法运动估计不准、遮挡区域恢复困难等问题，对场景和运动不加限制，应用场景更广。

3、本发明提出的基于事件相机辅助的卷帘门效应矫正方法和装置，充分利用事件信号高帧率特性，生成高帧率的GS图像，不存在固有瑕疵，连贯性更好；此外本发明在卷帘门矫正前增加了一个去模糊模块，解决RS扭曲图中普遍存在的运动模糊问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于事件相机辅助的卷帘门效应矫正方法流程图。

图2为本发明实施例提供的基于事件相机辅助的卷帘门效应矫正装置。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了一种基于事件相机辅助的卷帘门效应矫正方法，以卷帘快门(rolling shutter，RS)图像、对应事件信号和目标时刻t_s作为输入，输出对应的恢复全局快门(global shutter，GS)图像，通过改变目标时刻可以生成连续的GS视频序列。本发明实施例还提供了一种基于事件相机辅助的卷帘门效应矫正装置，包括由卷帘快门相机1和事件相机2组成混合相机系统，其中卷帘快门相机1和事件相机2采用相同的定焦镜头3并通过分光4镜连接，分光镜4将入射光平分为两束出射光，同步进入两台相机传感器，如图2所示。该系统还包括去模糊模块、RS2GS光流(RS-to-GS flow，RS图像到对应GS图像的矫正光流)估计模块、合成模块和融合优化模块，以实现本发明的方法。总的技术方案如图1所示。每个模块都有相应设计的神经网络来实现不同的功能。

(1)去模糊模块：

RS相机在拍摄运动场景时会同时产生卷帘门效应和运动模糊等问题，为了处理运动模糊，提高矫正后结果的质量，本发明在卷帘门矫正前先对图像进行去模糊。

去模糊模块以RS模糊图像和其每行曝光时间内的事件信号作为输入，预测出每行曝光中心对应的RS清晰图像，在这样的输入下本发明的去模糊模块与GS图像的去模糊任务类似。去模糊网络采用U-Net的结构，其中RS模糊图像和事件信号采用两个独立的编码器网络，然后将特征层合并输入到解码器网络，得到去模糊结果。

(2)RS2GS光流估计模块：

利用事件信号高时间分辨率的特性，从中提取出更准确的场景运动信息。先将时间信号输入如图1中的RS2GS光流网络，估计出时间0到T时刻的各像素运动速度向量V_t＝0，V_t＝T。然后分别通过前后两个时刻的运动速度向量，得到RS图像上每个像素的运动速度

通过如下公式可将RS图像变换成对应的GS图像：

其中p＝(x，y)为像素空间位置，

为RS图像上各行到目标时刻t_s的时间差。然后这两张初步估计GS矫正图像和对应的光流输入到图1中的RS2GS光流网络进一步优化得到最后的RS2GS光流结果，然后利用估计得到的光流在RS图像上进行图像扭转(warp，利用各像素的位移向量对图像做变换)得到光流估计分支的结果

(3)合成模块：事件信号中记录着各像素位置上光强的变化，因此我们可以从事件信号生成原理角度建立如下RS图像和其对应GS图像之间的联系：

其中累加操作表示RS图像上每个像素实际曝光时间到目标时刻这一时间段内的事件信号累加。基于此联系，合成模块从事件信号中提取出该残差，解决卷帘门效应带来的遮挡等问题。

事件信号经过编码器提取出特征后被输入到双向ConvLSTM网络(ConvolutionalLong Short Term Memory，卷积长短时记忆网络)中，提取出其中时序信息得到

表示经过卷积长短时记忆网络得到目标时刻t_s对应的事件特征。

为了使网络正确提出RS每行到目标时刻的强度变化信息，本发明采用一个利用每行曝光时间到目标时刻的时间差的注意力模块，作用在

上得到编码RS图像和对应GS图像之间关系的

表示经过空间注意力模块重赋值得到的事件特征。

随后

(4)融合优化模块：本发明提出一个融合模块来将上述两个分支的结果融合在一起，得到最终结果

融合网络采用带注意力机制的U-Net结果，以两张中间结果作为输入，输出掩码m和残差优化图像

最终结果通过如下公式得到：

本发明采用合成数据对神经网络进行训练，具体训练过程如下：

(1)获取合成数据集

a)利用高速相机(如Phantom VEO 640，F/1.8 85mm lens)拍摄1280×720空间分辨率、5700fps的高质量GS视频。

b)利用获取的高速GS视频合成RS模糊图像。合成RS图像以两行为单位，行间延迟约为

从每行曝光开始和结束之间的GS图像取出对应行，取平均后复制到RS模糊图像中，实验中设置曝光事件为

c)利用拍摄的高速GS视频生成对应的事件信号。利用事件信号模拟器V2E(Videoto Event)在默认参数设置下手生成对应的事件信号。

(2)神经网络的实现细节

a)事件信息预处理：事件信号是离散、稀疏的，为了和神经网络适配，需要将事件信号转换成类似于张量(tensor)这种的表示形式，在这里我们体素网格(voxel grid)表示形式。对于每个事件信号e_k＝(x_k，y_k，t_k，p_k)，如下分布到最近的两层voxel中：

其中

是标准化后的时间戳，C是通道数，在本发明实施例中取16。

b)本发明中子网络的骨干网络为U-Net，同时针对网络功能做了一些改动。U-Net中包含4个下采样块和4个上采样块，下采样层利用核大小为2×2，步长为2的卷积核实现，上采样层通过反卷积实现。在本发明中，去模糊网络中事件信号和RS图像输入到两个独立的编码器模块中，提取两个模态的特征，拼接起来输入到解码器网络当中，解码器可采用反卷积网络或卷积+上采样的结构，合成网络也采用类似设计。融合优化网络上采样块中带有注意力机制层，作用在编码器中通过跨越连接(Skip-connection)传递的特征。U-Net是一种带有跨越连接结构的“U”型结构编码器-解码器。编码器-解码器(Encoder-Decoder)，是一种先下卷积再上卷积的深度卷积网络结构。

c)去模糊模块为可选模块，若图片不存在运动模糊现象，不经过去模糊网络可减少计算资源使用，同时清晰的RS图像经过去模糊模块也不会损失图像质量。

(3)神经网络训练

a)整个网络采用分模块训练的方式，训练效果好于端到端训练。首先训练去模糊模块，在本发明的设置中去模糊模块实现和训练和其他基于事件信号的去模糊网络类似，预训练好后固定参数。然后分别训练合成模块和RS2GS光流估计模块，固定两个分支的参数最后训练融合优化模块。

b)利用t_s对应的真值GS图像

来训练网络，网络采用Charbonnier loss(L1损失函数的可微变体)，perceptual loss(感知损失)和total variation(TV)loss(总变差损失)综合训练。

Charbonnier loss损失函数可以表示成：

在本发明实施例中采用∈＝10^-5,α＝0.5。

Perceptual loss损失函数可以表示成：

其中，φ表示预训练的VGG-19网络conv3_3卷积层对应的特征提取器。

Perceptual loss损失函数避免生成模糊的GS图像，保留结果中的图像细节。

Total variation(TV)损失函数可以表示成：

其中，F为光流估计模块估计得到的光流，Total variation(TV)损失函数作用在RS2GS光流估计模块，提升光流的平滑性。

总的损失函数可以表示成：

L＝λ₁L_c+λ₂L_p+λ₃L_tv

超参数{λ₁，λ₂，λ₃}在训练RS2GS光流估计模块时设置成{10，0.1，0.5}，训练其他模块时设置成{10，0.1，0}。

c)数据增强：训练时事件信号先通过预处理得到体素网格表达形式，随后对RS图像和体素网格进行随机裁切，在同一随机空间位置裁切出256×256的块，并对其随机旋转和水平翻转。

d)代码依赖Pytorch框架实现，使用Adam优化器来优化神经网络，初始学习率为10^-3，每10个训练周期衰减为原来的1/10，batch size设置为8，每个模块训练30个周期。

基于上述方法和装置，本发明实施例提出了一种基于事件相机辅助的卷帘门效应矫正方法的实例，具体步骤如下：

a)搭建混合相机系统。如图2所示，混合相机系统包括卷帘快门相机1和事件相机2，其中卷帘快门相机1和事件相机2采用相同的定焦镜头3并通过分光4镜连接，分光镜4将入射光平分为两束出射光，同步进入两台相机传感器。在本实施例中，混合相机系统包含一个卷帘快门的普通RGB相机(LUCID TRI054S IMX490，空间分辨率2880×1860，事件分辨率20fps)和一台事件相机(PROPHESEE GEN4.0，空间分辨率1280×720，时间精度约1微秒)，通过分光镜(Thorlabs CCM1-BS013)连接。利用棋盘格板对两个相机进行空间对齐，利用外部的信号触发装置来实现两个相机时间上的同步。

b)事件信号预处理：截取出每张RS图像拍摄时间内的时间信号，并从中分出RS图像每个像素实际曝光时间内的事件信号，用于作为去模糊模块的输入。随后，将离散的事件信号转换成voxel grid的表达方式。

c)将卷帘快门相机拍摄的RS图像和对应的事件信号输入训练好的神经网络，并设置恢复GS图像的目标时刻t_s。信号具体的传输过程为：首先，将RS图像和对应曝光时间内的事件信号输入去模糊网络得到RS清晰图像，随后将去模糊后的结果和事件信号输入两个分支网络得到两个中间结果，最后在融合优化网络总融合得到最终结果。

d)调整目标时刻t_s，得到连续的GS视频序列。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特殊进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。