CN117097876B

CN117097876B - 基于神经网络的事件相机图像重建方法

Info

Publication number: CN117097876B
Application number: CN202310829455.3A
Authority: CN
Inventors: 杨敬钰; 高广涵; 岳焕景; 李坤
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2024-03-08
Anticipated expiration: 2043-07-07
Also published as: CN117097876A

Abstract

本发明公开了一种基于神经网络的事件相机图像重建方法，属于数字图像处理领域。本发明基于神经网络，利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络，通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像。本发明通过构建仿真的事件重建数据集，减少了不同真实数据集之间的分布差异导致的算法泛化能力差，对不同场景的事件数据都能实现较好的重建效果。同时通过图像金字塔进行空间信息的补充，通过ConvLSTM进行时间信息的累计，最后利用金字塔的重建特性，实现了事件数据的灰度重建。

Description

基于神经网络的事件相机图像重建方法

技术领域

本发明属于数字图像处理领域，具体讲，涉及基于深度学习和计算机视觉的事件相机视频重建方法。

背景技术

事件相机是一种新型的视觉传感器，也被称为动态视觉传感器或DAVIS(Dynamicand Active-Pixel Vision Sensor)。它受到生物视觉系统的启发，从“仅感知运动物体”出发，通过异步、独立的成像范式实现了高时间分辨率、高动态范围、低功耗等特点，解决了普通相机空间冗余、动态模糊等问题，在高速运动估计、高动态范围建图、特征检测与跟踪等领域应用广泛并表现良好。

不同于传统相机通过曝光使感光元件积累光子的成像方式，事件相机的每个像素都对应一个独立的光电传感模块，当该像素的亮度变化超过设定的阈值，就会输出一个差分脉冲信号(又称事件数据)。事件数据被编码为四元向量(x_i,y_i,t_i,p_i)的格式，其中(x_i,y_i)表示像素坐标，t_i表示触发时间，p_i表示亮度变化极性。由于所有像素独立工作，所以事件相机的数据输出是时间异步、空间稀疏的，这样的成像范式减少了大量冗余数据并消除了传统相机成像时间单位的概念。但其非欧几里得式的数据结构使得现有图像重建算法难以对事件数据进行重建，因此设计新的针对事件数据的时空特性的算法是必要的。

目前事件数据的主流处理方式主要分为两种：event-by-event的方法和group-of-events的方法。前者为逐个事件的处理方法，常用于事件降噪、提取特征和图像重建的滤波器中，通过差分计算的方式完成系统状态的更新。基于group-of-events的处理方法为了解决单个事件携带数据少的问题，对固定事件窗口中的事件数据进行累计处理，具体表征方式包括事件帧，体栅格和3D点集。

近年来深度学习在图像处理领域大放异彩，基于深度学习框架的事件相机图像重建工作相比于传统方法也取得了性能突破，但在纹理和对比度等重建细节上仍存在性能缺失。为了解决该问题，本发明提出一种基于神经网络的事件相机图像重建方法。

发明内容

本发明的目的在于提出一种基于神经网络的事件相机图像重建方法以解决现有技术重建细节较差的问题。

为了实现上述目的，本发明采用了如下技术方案：

一种基于神经网络的事件相机图像重建方法，所述方法基于神经网络，利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络，通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像，具体包括以下步骤：

S1、仿真数据集构建：采用ESIM仿真器，结合渲染引擎和时间模拟器动态自适应地采集事件数据，生成仿真数据集，并将数据集划分为训练集和测试集；

S2、事件数据预处理：综合考虑算法执行速度和算法重建结果，采取group-of-events的方法将S1中的事件数据表示为事件帧；

S3、数据增广：利用旋转、随机裁剪的方式对S1中所得的仿真数据集进行数据增广；对S2中所得的事件帧添加高斯噪声和热点噪声；

S4、图像重建网络设计：基于S3中所得数据，将其作为训练集来设计事件相机图像重建网络，具体包括如下内容：

①图像金字塔设计：将经过预处理的事件帧输入图像金字塔进行特征提取；所述图像金字塔由三个子特征提取模块组成，每个子特征提取模块由两个卷积层、两个BatchNormalization层和两个激活函数组成；

②特征金字塔设计：与图像金字塔相对应，对特征金字塔进行设计，所述特征金字塔设计为三层，每一层包括一个ConvLSTM层、一个Spade标准化层和一个残差组合；

③多尺寸迭代更新重建：将特征金字塔每一层对应设计一组重建模块，将重建特征解码为重建结果；所述特征金字塔的前两层的重建模块由两个卷积层、一个BatchNormalization层、一个Sigmod激活函数组成；所述特征金字塔的第三层的重建模块采用多尺度迭代重建模块进行迭代更新；

④重建结果输出：利用pixel shuffle对第二层和第三层的重建结果进行上采样融合，得到最终的重建结果，具体公式表示为：

其中，I^t表示t时刻重建的灰度图像；Up表示pixel shuffle上采样方式；

⑤损失函数设计：基于L1损失函数、感知损失函数和时间一致性损失函数，将上述三个损失函数的加权和作为最终损失对图像重建网络进行监督；

S5、搭建、训练模型：基于S4中所设计的图像重建网络来搭建模型，然后在pytorch框架下，采用Adam优化器对所得模型进行训练，得到最终模型；

S6、输出结果：将测试集中的图像输入至S5中所得的最终模型中，得到相应的重建图像输出结果。

优选地，所述S2具体包括如下内容：将事件间隔ΔT＝t_k-t₀内的事件点通过线性插值的方法编码为事件帧，每个事件点的极性p_i被映射到距离其最近的两个通道，公式表示如下：

其中，E_k表示ΔT间隔内事件点的编码结果；p_i表示事件点极性；B表示体素网格通道数；t_i表示事件点的时间戳。

优选地，所述图像金字塔的三个子特征提取模块分别在不同尺寸提取输入事件帧的特征F₁、F₂、F₃，相比于原尺寸归一化尺寸为1，1/2，1/4，分别包括边缘、结构和语义信息，用于特征金字塔的特征信息补充，具体公式如下：

F_sub1＝ReLU_1.2(BN_1.2(ReLU_1.1(BN_1.1(Conv_1.1(E_k))))

F_sub2＝ReLU_2.2(BN_2.2(ReLU_2.1(BN_2.1(Conv_2.1(F_sub1))))

F_sub3＝ReLU_3.2(BN_3.2(ReLU_3.1(BN_3.1(Conv_3.1(F_sub2))))

其中，F_subn表示图像金字塔第n层的输出特征；Conv表示卷积层；BN表示BatchNormalization层。

优选地，所述特征金字塔设计具体包括如下内容：

1)接受上一层图像金字塔的输出重建特征作为特征金字塔当前层在时刻t的主要特征输入利用ConvLSTM层和Spade标准化层对输入主特征进行编码，公式如下：

其中，表示t时刻ConvLSTM层的输出；I^t表示t时刻第k层的重建结果；Spade标准化层利用上一时刻的重建结果对当前时刻进行条件标准化，公式表示为：

其中，表示上一时刻的重建结果；γ_c,y,x，β_c,y,x表示网络学习的参数；μ_c和σ_c分别代表输入的均值和标准差；

2)通过残差模块融合相对应尺度的子特征F_sub达到信息补充的作用；经过步骤1)，特征金字塔不同的层得到的与相应的子特征F_sub具有相同的尺寸，通过残差块对二者进行特征融合，得到重建特征/>k表示特征金字塔第k层的输出重建特征。

优选地，所述特征金字塔前两层的重建模块的重建过程由公式表示为：

其中，表示t时刻第k层的重建结果；σ表示Sigmod激活函数；BN表示BatchNormalization层；Conv_i表示卷积层；

所述特征金字塔第三层的重建模块利用基于卷积的门控循环单元GRU进行多尺度迭代更新；

所述方案③具体包括如下内容：

将特征金字塔输出的三个尺度重建特征依次输入GRU并获得对应的更新方向三个更新方向共同维护更新变量/>并经过Sigmod函数得到第三层的重建结果，公式表示为：

其中，Gru表示门控循环单元；σ为Sigmod函数；表示第三层最终的重建结果。

优选地，方案⑤中所述损失函数的具体公式表示为：

其中，表示L1损失函数；ζ_lpips表示感知损失函数，采用预训练VGG19网络的前5个隐藏层进行计算；ζ_TC表示时间一致性损失函数；ζ_total表示总损失函数；/>表示groundtruth；I_t表示网络重建结果。

与现有技术相比，本发明提供了基于神经网络的事件相机图像重建方法，具备以下有益效果：

(1)本发明通过构建仿真的事件重建数据集，减少了不同真实数据集之间的分布差异导致的算法泛化能力差，对不同场景的事件数据都能实现较好的重建效果。

(2)基于仿真数据集，本发明提出了一种通过利用事件数据时空信息进行重建的方法，该方法通过图像金字塔进行空间信息的补充，通过ConvLSTM进行时间信息的累计，最后利用金字塔的重建特性，实现了事件数据的灰度重建。

(3)本发明所提出的重建方法复杂度低，在保持较高的重建速度下，仍取得很高的重建质量。

附图说明

图1为本发明提出的基于神经网络的事件相机图像重建方法的总体流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1：

请参阅图1，本发明提出一种基于神经网络的事件相机图像重建方法，本方法基于神经网络，利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络，通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像，具体包括以下步骤：

S1、仿真数据集构建：考虑到真实数据集采集难度高，本发明采用ESIM仿真器，结合渲染引擎和时间模拟器动态自适应地采集事件数据，生成仿真数据集，并将数据集划分为训练集和测试集；根据对真实数据集的估计，将模拟器的事件触发阈值设置为0.2～0.5以最大程度地逼近真实数据集；

具体包括如下内容：将事件间隔ΔT＝t_k-t₀内的事件点通过线性插值的方法编码为事件帧，每个事件点的极性p_i被映射到距离其最近的两个通道，公式表示如下：

其中，E_k表示ΔT间隔内事件点的编码结果；p_i表示事件点极性；B表示体素网格通道数，本发明采用B＝5；t_i表示事件点的时间戳；

S3、数据增广：为了减少仿真数据集和真实数据集之间的分布差异，利用旋转、随机裁剪的方式对S1中所得的仿真数据集进行数据增广，在不改变相应监督数据的前提下，扩大训练数据集的规模，提高模型的重建泛化能力；同时对S2中所得的事件帧添加高斯噪声和热点噪声；

①图像金字塔设计：将经过预处理的事件帧输入图像金字塔进行特征提取；图像金字塔由三个子特征提取模块组成，每个子特征提取模块由两个卷积层、两个BatchNormalization层和两个激活函数组成；

图像金字塔的三个子特征提取模块分别在不同尺寸提取输入事件帧的特征F₁、F₂、F₃，相比于原尺寸归一化尺寸为1，1/2，1/4，分别包括边缘、结构和语义信息，用于特征金字塔的特征信息补充，具体公式如下：

F_sub1＝ReLU_1.2(BN_1.2(ReLU_1.1(BN_1.1(Conv_1.1(E_k))))

F_sub2＝ReLU_2.2(BN_2.2(ReLU_2.1(BN_2.1(Conv_2.1(F_sub1))))

F_sub3＝ReLU_3.2(BN_3.2(ReLU_3.1(BN_3.1(Conv_3.1(F_sub2))))

其中，F_subn表示图像金字塔第n层的输出特征；Conv表示卷积层；BN表示BatchNormalization层；

②特征金字塔设计：与图像金字塔相对应，对特征金字塔进行设计，特征金字塔设计为三层，每一层包括一个ConvLSTM层、一个Spade标准化层和一个残差组合；

特征金字塔设计具体包括如下内容：

其中，表示t时刻ConvLSTM层的输出；I^t表示t时刻第k层的重建结果；Spade标准化层利用上一时刻的重建结果对当前时刻进行条件标准化，减少了闪烁和平坦区域的变化，同时提高了图像质量，公式表示为：

2)通过残差模块融合相对应尺度的子特征F_sub达到信息补充的作用；经过步骤1)，特征金字塔不同的层得到的与相应的子特征F_sub具有相同的尺寸，通过残差块对二者进行特征融合，得到重建特征/>k表示特征金字塔第k层的输出重建特征；

③多尺寸迭代更新重建：将特征金字塔每一层对应设计一组重建模块，将重建特征解码为重建结果；特征金字塔的前两层的重建模块由两个卷积层、一个BatchNormalization层、一个Sigmod激活函数组成；为了更好的融合空间信息和语义信息，特征金字塔的第三层的重建模块采用多尺度迭代重建模块进行迭代更新；

特征金字塔前两层的重建模块的重建过程由公式表示为：

特征金字塔第三层的重建模块利用基于卷积的门控循环单元GRU进行多尺度迭代更新；

方案③具体包括如下内容：

其中，Gru表示门控循环单元；σ为Sigmod函数；表示第三层最终的重建结果；

方案⑤中损失函数的具体公式表示为：

其中，表示L1损失函数；ζ_lpips表示感知损失函数，采用预训练VGG19网络的前5个隐藏层进行计算；ζ_TC表示时间一致性损失函数；ζ_total表示总损失函数；/>表示groundtruth；I_t表示网络重建结果；

S5、搭建、训练模型：基于S4中所设计的图像重建网络来搭建模型，然后在pytorch框架下，采用Adam优化器对所得模型进行训练，得到最终模型；训练时，其参数细节为β₁＝0.9，β₂＝0.999，学习率初始值设置为0.0001，并在300个训练周期中以余弦退火的形式进行学习率衰减；

实施例2：

基于实施例一但有所不同：

本发明选取2个在HQF数据集和IJRR数据集上的测试的最先进对比方法，包括：ET-NET，E2VID。其中ET-NET发表于2021年的ICCV，其利用transformer对事件数据进行建模，在2021年取得了最好的测试结果。而E2VID发表于2021年的TIP期刊，其充分考虑LSTM的编解码特性，并且通过SPADE规范化模块提高了图像的早期重建效果，在早期的测试帧中取得了良好的测试结果。本文章测试了包括本章方法在内的三种方法在两个测试集上的所有测试指标，具体结果请参阅表1。

表1

如表1所示，表中展示了在SSIM指标和LPIPS指标上的定量对比结果，其中SSIM为结构相似度，其分别从亮度、对比度和物体结构三个方面衡量重建图像和参考图像的相似度，计算方式为，和分别代表平均值和方差，SSIM的指标数值越大越好。LPIPS是在高维空间中衡量两幅图之间相似性的方法，其计算过程为将重建图像和对应参考图像输入VGG-19网络，选取网络的中间层计算L1损失，LPIPS的评估指标数值越小越好。表中用加粗表示最优的结果，用下划线表示次优的结果。通过对比表中数据，本章方法在所有指标上都展示了优越性。在HQF数据集上，本方法在SSIM和LPIPS指标上超出次优0.003和0.034，在IJRR数据集上，本方法在SSIM和LPIPS指标上超出次优0.028和0.036。这些结果均证明了本发明提出的迭代重建模块和多特征主干结构的有效性，一方面两个特征主干一定程度上减轻了事件数据和重建灰度图之间的模态鸿沟，使得网络可以在统一的中间特征空间学习重建特征，从而得到真实的重建结果。另一方面，迭代更新的GRU模块能够融合不同层次的语义和边缘信息，并且迭代地对重建结果进行优化与修正，因此本发明提出的方法会有更好的重建效果。

以上，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于神经网络的事件相机图像重建方法，其特征在于，所述方法基于神经网络，利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络，通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像，具体包括以下步骤：

②特征金字塔设计：与图像金字塔相对应，对特征金字塔进行设计，所述特征金字塔设计为三层，每一层包括一个ConvLSTM层、一个Spade标准化层和一个残差组合；

其中，I ^t表示t时刻重建的灰度图像；Up表示pixel shuffle上采样方式；

2.根据权利要求1所述的基于神经网络的事件相机图像重建方法，其特征在于，所述S2具体包括如下内容：将事件间隔 ∆T=t _k-t ₀内的事件点通过线性插值的方法编码为事件帧，每个事件点的极性p _i被映射到距离其最近的两个通道，公式表示如下：

其中，E _k表示∆T间隔内事件点的编码结果；p _i表示事件点极性；B表示体素网格通道数；t _i表示事件点的时间戳。

3.根据权利要求1所述的基于神经网络的事件相机图像重建方法，其特征在于，所述图像金字塔的三个子特征提取模块分别在不同尺寸提取输入事件帧的特征F ₁、F ₂、F ₃，相比于原尺寸归一化尺寸为1，1/2，1/4，分别包括边缘、结构和语义信息，用于特征金字塔的特征信息补充，具体公式如下：

F _sub1=ReLU _1.2(BN _1.2(ReLU _1.1(BN _1.1(Conv _1.1(E _k))))

F _sub2=ReLU _2.2(BN _2.2(ReLU _2.1(BN _2.1(Conv _2.1(F _sub1))))

F _sub3=ReLU _3.2(BN _3.2(ReLU _3.1(BN _3.1(Conv _3.1(F _sub2))))

其中，F _subn表示图像金字塔第n层的输出特征；Conv表示卷积层；BN表示BatchNormalization层。

4.根据权利要求1所述的基于神经网络的事件相机图像重建方法，其特征在于，所述特征金字塔设计具体包括如下内容：

1）接受上一层图像金字塔的输出重建特征作为特征金字塔当前层在时刻t的主要特征输入，利用ConvLSTM层和Spade标准化层对输入主特征进行编码，公式如下：

其中，表示t时刻ConvLSTM层的输出；I ^t表示t时刻第k层的重建结果；Spade标准化层利用上一时刻的重建结果对当前时刻进行条件标准化，公式表示为：

其中，表示上一时刻的重建结果；γ _c,y,x，β _c,y,x表示网络学习的参数；μ _c和σ _c分别代表输入的均值和标准差；

2）通过残差模块融合相对应尺度的子特征F _sub达到信息补充的作用；经过步骤1），特征金字塔不同的层得到的与相应的子特征F _sub具有相同的尺寸，通过残差块对二者进行特征融合，得到重建特征/>，k表示特征金字塔第k层的输出重建特征。

5.根据权利要求1所述的基于神经网络的事件相机图像重建方法，其特征在于，所述特征金字塔前两层的重建模块的重建过程由公式表示为：

其中，表示t时刻第k层的重建结果；σ表示Sigmod激活函数；BN表示BatchNormalization层；Conv _i表示卷积层；

方案③中所述多尺寸迭代更新重建具体包括如下内容：

将特征金字塔输出的三个尺度重建特征依次输入GRU并获得对应的更新方向，三个更新方向共同维护更新变量/>，并经过Sigmod函数得到第三层的重建结果，公式表示为：

其中，Gru表示门控循环单元；σ为Sigmod函数；表示第三层最终的重建结果。

6.根据权利要求1所述的基于神经网络的事件相机图像重建方法，其特征在于，方案⑤中所述损失函数的具体公式表示为：

其中，表示L1损失函数；/>表示感知损失函数，采用预训练VGG19网络的前5个隐藏层进行计算；/>表示时间一致性损失函数；/>表示总损失函数；/>表示groundtruth；/>表示网络重建结果。