CN117097876B - 基于神经网络的事件相机图像重建方法 - Google Patents
基于神经网络的事件相机图像重建方法 Download PDFInfo
- Publication number
- CN117097876B CN117097876B CN202310829455.3A CN202310829455A CN117097876B CN 117097876 B CN117097876 B CN 117097876B CN 202310829455 A CN202310829455 A CN 202310829455A CN 117097876 B CN117097876 B CN 117097876B
- Authority
- CN
- China
- Prior art keywords
- reconstruction
- layer
- pyramid
- representing
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 45
- 238000010606 normalization Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004088 simulation Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 101100311330 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uap56 gene Proteins 0.000 claims description 6
- 238000013434 data augmentation Methods 0.000 claims description 6
- 101150018444 sub2 gene Proteins 0.000 claims description 6
- 230000001502 supplementing effect Effects 0.000 claims description 6
- 230000008447 perception Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000009877 rendering Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000005251 gamma ray Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/122—Improving the 3D impression of stereoscopic images by modifying image signal contents, e.g. by filtering or adding monoscopic depth cues
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/275—Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0085—Motion estimation from stereoscopic image signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于神经网络的事件相机图像重建方法,属于数字图像处理领域。本发明基于神经网络,利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络,通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像。本发明通过构建仿真的事件重建数据集,减少了不同真实数据集之间的分布差异导致的算法泛化能力差,对不同场景的事件数据都能实现较好的重建效果。同时通过图像金字塔进行空间信息的补充,通过ConvLSTM进行时间信息的累计,最后利用金字塔的重建特性,实现了事件数据的灰度重建。
Description
技术领域
本发明属于数字图像处理领域,具体讲,涉及基于深度学习和计算机视觉的事件相机视频重建方法。
背景技术
事件相机是一种新型的视觉传感器,也被称为动态视觉传感器或DAVIS(Dynamicand Active-Pixel Vision Sensor)。它受到生物视觉系统的启发,从“仅感知运动物体”出发,通过异步、独立的成像范式实现了高时间分辨率、高动态范围、低功耗等特点,解决了普通相机空间冗余、动态模糊等问题,在高速运动估计、高动态范围建图、特征检测与跟踪等领域应用广泛并表现良好。
不同于传统相机通过曝光使感光元件积累光子的成像方式,事件相机的每个像素都对应一个独立的光电传感模块,当该像素的亮度变化超过设定的阈值,就会输出一个差分脉冲信号(又称事件数据)。事件数据被编码为四元向量(xi,yi,ti,pi)的格式,其中(xi,yi)表示像素坐标,ti表示触发时间,pi表示亮度变化极性。由于所有像素独立工作,所以事件相机的数据输出是时间异步、空间稀疏的,这样的成像范式减少了大量冗余数据并消除了传统相机成像时间单位的概念。但其非欧几里得式的数据结构使得现有图像重建算法难以对事件数据进行重建,因此设计新的针对事件数据的时空特性的算法是必要的。
目前事件数据的主流处理方式主要分为两种:event-by-event的方法和group-of-events的方法。前者为逐个事件的处理方法,常用于事件降噪、提取特征和图像重建的滤波器中,通过差分计算的方式完成系统状态的更新。基于group-of-events的处理方法为了解决单个事件携带数据少的问题,对固定事件窗口中的事件数据进行累计处理,具体表征方式包括事件帧,体栅格和3D点集。
近年来深度学习在图像处理领域大放异彩,基于深度学习框架的事件相机图像重建工作相比于传统方法也取得了性能突破,但在纹理和对比度等重建细节上仍存在性能缺失。为了解决该问题,本发明提出一种基于神经网络的事件相机图像重建方法。
发明内容
本发明的目的在于提出一种基于神经网络的事件相机图像重建方法以解决现有技术重建细节较差的问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于神经网络的事件相机图像重建方法,所述方法基于神经网络,利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络,通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像,具体包括以下步骤:
S1、仿真数据集构建:采用ESIM仿真器,结合渲染引擎和时间模拟器动态自适应地采集事件数据,生成仿真数据集,并将数据集划分为训练集和测试集;
S2、事件数据预处理:综合考虑算法执行速度和算法重建结果,采取group-of-events的方法将S1中的事件数据表示为事件帧;
S3、数据增广:利用旋转、随机裁剪的方式对S1中所得的仿真数据集进行数据增广;对S2中所得的事件帧添加高斯噪声和热点噪声;
S4、图像重建网络设计:基于S3中所得数据,将其作为训练集来设计事件相机图像重建网络,具体包括如下内容:
①图像金字塔设计:将经过预处理的事件帧输入图像金字塔进行特征提取;所述图像金字塔由三个子特征提取模块组成,每个子特征提取模块由两个卷积层、两个BatchNormalization层和两个激活函数组成;
②特征金字塔设计:与图像金字塔相对应,对特征金字塔进行设计,所述特征金字塔设计为三层,每一层包括一个ConvLSTM层、一个Spade标准化层和一个残差组合;
③多尺寸迭代更新重建:将特征金字塔每一层对应设计一组重建模块,将重建特征解码为重建结果;所述特征金字塔的前两层的重建模块由两个卷积层、一个BatchNormalization层、一个Sigmod激活函数组成;所述特征金字塔的第三层的重建模块采用多尺度迭代重建模块进行迭代更新;
④重建结果输出:利用pixel shuffle对第二层和第三层的重建结果进行上采样融合,得到最终的重建结果,具体公式表示为:
其中,It表示t时刻重建的灰度图像;Up表示pixel shuffle上采样方式;
⑤损失函数设计:基于L1损失函数、感知损失函数和时间一致性损失函数,将上述三个损失函数的加权和作为最终损失对图像重建网络进行监督;
S5、搭建、训练模型:基于S4中所设计的图像重建网络来搭建模型,然后在pytorch框架下,采用Adam优化器对所得模型进行训练,得到最终模型;
S6、输出结果:将测试集中的图像输入至S5中所得的最终模型中,得到相应的重建图像输出结果。
优选地,所述S2具体包括如下内容:将事件间隔ΔT=tk-t0内的事件点通过线性插值的方法编码为事件帧,每个事件点的极性pi被映射到距离其最近的两个通道,公式表示如下:
其中,Ek表示ΔT间隔内事件点的编码结果;pi表示事件点极性;B表示体素网格通道数;ti表示事件点的时间戳。
优选地,所述图像金字塔的三个子特征提取模块分别在不同尺寸提取输入事件帧的特征F1、F2、F3,相比于原尺寸归一化尺寸为1,1/2,1/4,分别包括边缘、结构和语义信息,用于特征金字塔的特征信息补充,具体公式如下:
Fsub1=ReLU1.2(BN1.2(ReLU1.1(BN1.1(Conv1.1(Ek))))
Fsub2=ReLU2.2(BN2.2(ReLU2.1(BN2.1(Conv2.1(Fsub1))))
Fsub3=ReLU3.2(BN3.2(ReLU3.1(BN3.1(Conv3.1(Fsub2))))
其中,Fsubn表示图像金字塔第n层的输出特征;Conv表示卷积层;BN表示BatchNormalization层。
优选地,所述特征金字塔设计具体包括如下内容:
1)接受上一层图像金字塔的输出重建特征作为特征金字塔当前层在时刻t的主要特征输入利用ConvLSTM层和Spade标准化层对输入主特征进行编码,公式如下:
其中,表示t时刻ConvLSTM层的输出;It表示t时刻第k层的重建结果;Spade标准化层利用上一时刻的重建结果对当前时刻进行条件标准化,公式表示为:
其中,表示上一时刻的重建结果;γc,y,x,βc,y,x表示网络学习的参数;μc和σc分别代表输入的均值和标准差;
2)通过残差模块融合相对应尺度的子特征Fsub达到信息补充的作用;经过步骤1),特征金字塔不同的层得到的与相应的子特征Fsub具有相同的尺寸,通过残差块对二者进行特征融合,得到重建特征/>k表示特征金字塔第k层的输出重建特征。
优选地,所述特征金字塔前两层的重建模块的重建过程由公式表示为:
其中,表示t时刻第k层的重建结果;σ表示Sigmod激活函数;BN表示BatchNormalization层;Convi表示卷积层;
所述特征金字塔第三层的重建模块利用基于卷积的门控循环单元GRU进行多尺度迭代更新;
所述方案③具体包括如下内容:
将特征金字塔输出的三个尺度重建特征依次输入GRU并获得对应的更新方向三个更新方向共同维护更新变量/>并经过Sigmod函数得到第三层的重建结果,公式表示为:
其中,Gru表示门控循环单元;σ为Sigmod函数;表示第三层最终的重建结果。
优选地,方案⑤中所述损失函数的具体公式表示为:
其中,表示L1损失函数;ζlpips表示感知损失函数,采用预训练VGG19网络的前5个隐藏层进行计算;ζTC表示时间一致性损失函数;ζtotal表示总损失函数;/>表示groundtruth;It表示网络重建结果。
与现有技术相比,本发明提供了基于神经网络的事件相机图像重建方法,具备以下有益效果:
(1)本发明通过构建仿真的事件重建数据集,减少了不同真实数据集之间的分布差异导致的算法泛化能力差,对不同场景的事件数据都能实现较好的重建效果。
(2)基于仿真数据集,本发明提出了一种通过利用事件数据时空信息进行重建的方法,该方法通过图像金字塔进行空间信息的补充,通过ConvLSTM进行时间信息的累计,最后利用金字塔的重建特性,实现了事件数据的灰度重建。
(3)本发明所提出的重建方法复杂度低,在保持较高的重建速度下,仍取得很高的重建质量。
附图说明
图1为本发明提出的基于神经网络的事件相机图像重建方法的总体流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例1:
请参阅图1,本发明提出一种基于神经网络的事件相机图像重建方法,本方法基于神经网络,利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络,通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像,具体包括以下步骤:
S1、仿真数据集构建:考虑到真实数据集采集难度高,本发明采用ESIM仿真器,结合渲染引擎和时间模拟器动态自适应地采集事件数据,生成仿真数据集,并将数据集划分为训练集和测试集;根据对真实数据集的估计,将模拟器的事件触发阈值设置为0.2~0.5以最大程度地逼近真实数据集;
S2、事件数据预处理:综合考虑算法执行速度和算法重建结果,采取group-of-events的方法将S1中的事件数据表示为事件帧;
具体包括如下内容:将事件间隔ΔT=tk-t0内的事件点通过线性插值的方法编码为事件帧,每个事件点的极性pi被映射到距离其最近的两个通道,公式表示如下:
其中,Ek表示ΔT间隔内事件点的编码结果;pi表示事件点极性;B表示体素网格通道数,本发明采用B=5;ti表示事件点的时间戳;
S3、数据增广:为了减少仿真数据集和真实数据集之间的分布差异,利用旋转、随机裁剪的方式对S1中所得的仿真数据集进行数据增广,在不改变相应监督数据的前提下,扩大训练数据集的规模,提高模型的重建泛化能力;同时对S2中所得的事件帧添加高斯噪声和热点噪声;
S4、图像重建网络设计:基于S3中所得数据,将其作为训练集来设计事件相机图像重建网络,具体包括如下内容:
①图像金字塔设计:将经过预处理的事件帧输入图像金字塔进行特征提取;图像金字塔由三个子特征提取模块组成,每个子特征提取模块由两个卷积层、两个BatchNormalization层和两个激活函数组成;
图像金字塔的三个子特征提取模块分别在不同尺寸提取输入事件帧的特征F1、F2、F3,相比于原尺寸归一化尺寸为1,1/2,1/4,分别包括边缘、结构和语义信息,用于特征金字塔的特征信息补充,具体公式如下:
Fsub1=ReLU1.2(BN1.2(ReLU1.1(BN1.1(Conv1.1(Ek))))
Fsub2=ReLU2.2(BN2.2(ReLU2.1(BN2.1(Conv2.1(Fsub1))))
Fsub3=ReLU3.2(BN3.2(ReLU3.1(BN3.1(Conv3.1(Fsub2))))
其中,Fsubn表示图像金字塔第n层的输出特征;Conv表示卷积层;BN表示BatchNormalization层;
②特征金字塔设计:与图像金字塔相对应,对特征金字塔进行设计,特征金字塔设计为三层,每一层包括一个ConvLSTM层、一个Spade标准化层和一个残差组合;
特征金字塔设计具体包括如下内容:
1)接受上一层图像金字塔的输出重建特征作为特征金字塔当前层在时刻t的主要特征输入利用ConvLSTM层和Spade标准化层对输入主特征进行编码,公式如下:
其中,表示t时刻ConvLSTM层的输出;It表示t时刻第k层的重建结果;Spade标准化层利用上一时刻的重建结果对当前时刻进行条件标准化,减少了闪烁和平坦区域的变化,同时提高了图像质量,公式表示为:
其中,表示上一时刻的重建结果;γc,y,x,βc,y,x表示网络学习的参数;μc和σc分别代表输入的均值和标准差;
2)通过残差模块融合相对应尺度的子特征Fsub达到信息补充的作用;经过步骤1),特征金字塔不同的层得到的与相应的子特征Fsub具有相同的尺寸,通过残差块对二者进行特征融合,得到重建特征/>k表示特征金字塔第k层的输出重建特征;
③多尺寸迭代更新重建:将特征金字塔每一层对应设计一组重建模块,将重建特征解码为重建结果;特征金字塔的前两层的重建模块由两个卷积层、一个BatchNormalization层、一个Sigmod激活函数组成;为了更好的融合空间信息和语义信息,特征金字塔的第三层的重建模块采用多尺度迭代重建模块进行迭代更新;
特征金字塔前两层的重建模块的重建过程由公式表示为:
其中,表示t时刻第k层的重建结果;σ表示Sigmod激活函数;BN表示BatchNormalization层;Convi表示卷积层;
特征金字塔第三层的重建模块利用基于卷积的门控循环单元GRU进行多尺度迭代更新;
方案③具体包括如下内容:
将特征金字塔输出的三个尺度重建特征依次输入GRU并获得对应的更新方向三个更新方向共同维护更新变量/>并经过Sigmod函数得到第三层的重建结果,公式表示为:
其中,Gru表示门控循环单元;σ为Sigmod函数;表示第三层最终的重建结果;
④重建结果输出:利用pixel shuffle对第二层和第三层的重建结果进行上采样融合,得到最终的重建结果,具体公式表示为:
其中,It表示t时刻重建的灰度图像;Up表示pixel shuffle上采样方式;
⑤损失函数设计:基于L1损失函数、感知损失函数和时间一致性损失函数,将上述三个损失函数的加权和作为最终损失对图像重建网络进行监督;
方案⑤中损失函数的具体公式表示为:
其中,表示L1损失函数;ζlpips表示感知损失函数,采用预训练VGG19网络的前5个隐藏层进行计算;ζTC表示时间一致性损失函数;ζtotal表示总损失函数;/>表示groundtruth;It表示网络重建结果;
S5、搭建、训练模型:基于S4中所设计的图像重建网络来搭建模型,然后在pytorch框架下,采用Adam优化器对所得模型进行训练,得到最终模型;训练时,其参数细节为β1=0.9,β2=0.999,学习率初始值设置为0.0001,并在300个训练周期中以余弦退火的形式进行学习率衰减;
S6、输出结果:将测试集中的图像输入至S5中所得的最终模型中,得到相应的重建图像输出结果。
实施例2:
基于实施例一但有所不同:
本发明选取2个在HQF数据集和IJRR数据集上的测试的最先进对比方法,包括:ET-NET,E2VID。其中ET-NET发表于2021年的ICCV,其利用transformer对事件数据进行建模,在2021年取得了最好的测试结果。而E2VID发表于2021年的TIP期刊,其充分考虑LSTM的编解码特性,并且通过SPADE规范化模块提高了图像的早期重建效果,在早期的测试帧中取得了良好的测试结果。本文章测试了包括本章方法在内的三种方法在两个测试集上的所有测试指标,具体结果请参阅表1。
表1
如表1所示,表中展示了在SSIM指标和LPIPS指标上的定量对比结果,其中SSIM为结构相似度,其分别从亮度、对比度和物体结构三个方面衡量重建图像和参考图像的相似度,计算方式为,和分别代表平均值和方差,SSIM的指标数值越大越好。LPIPS是在高维空间中衡量两幅图之间相似性的方法,其计算过程为将重建图像和对应参考图像输入VGG-19网络,选取网络的中间层计算L1损失,LPIPS的评估指标数值越小越好。表中用加粗表示最优的结果,用下划线表示次优的结果。通过对比表中数据,本章方法在所有指标上都展示了优越性。在HQF数据集上,本方法在SSIM和LPIPS指标上超出次优0.003和0.034,在IJRR数据集上,本方法在SSIM和LPIPS指标上超出次优0.028和0.036。这些结果均证明了本发明提出的迭代重建模块和多特征主干结构的有效性,一方面两个特征主干一定程度上减轻了事件数据和重建灰度图之间的模态鸿沟,使得网络可以在统一的中间特征空间学习重建特征,从而得到真实的重建结果。另一方面,迭代更新的GRU模块能够融合不同层次的语义和边缘信息,并且迭代地对重建结果进行优化与修正,因此本发明提出的方法会有更好的重建效果。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于神经网络的事件相机图像重建方法,其特征在于,所述方法基于神经网络,利用图像金字塔、特征金字塔、ConvGRU、条件标准化和2D卷积模块构造一个类金字塔的多层重建网络,通过融合不同层、不同尺度的重建结果生成最后的灰度重建图像,具体包括以下步骤:
S1、仿真数据集构建:采用ESIM仿真器,结合渲染引擎和时间模拟器动态自适应地采集事件数据,生成仿真数据集,并将数据集划分为训练集和测试集;
S2、事件数据预处理:综合考虑算法执行速度和算法重建结果,采取group-of-events的方法将S1中的事件数据表示为事件帧;
S3、数据增广:利用旋转、随机裁剪的方式对S1中所得的仿真数据集进行数据增广;对S2中所得的事件帧添加高斯噪声和热点噪声;
S4、图像重建网络设计:基于S3中所得数据,将其作为训练集来设计事件相机图像重建网络,具体包括如下内容:
①图像金字塔设计:将经过预处理的事件帧输入图像金字塔进行特征提取;所述图像金字塔由三个子特征提取模块组成,每个子特征提取模块由两个卷积层、两个BatchNormalization层和两个激活函数组成;
②特征金字塔设计:与图像金字塔相对应,对特征金字塔进行设计,所述特征金字塔设计为三层,每一层包括一个ConvLSTM层、一个Spade标准化层和一个残差组合;
③多尺寸迭代更新重建:将特征金字塔每一层对应设计一组重建模块,将重建特征解码为重建结果;所述特征金字塔的前两层的重建模块由两个卷积层、一个BatchNormalization层、一个Sigmod激活函数组成;所述特征金字塔的第三层的重建模块采用多尺度迭代重建模块进行迭代更新;
④重建结果输出:利用pixel shuffle对第二层和第三层的重建结果进行上采样融合,得到最终的重建结果,具体公式表示为:
其中,I t表示t时刻重建的灰度图像;Up表示pixel shuffle上采样方式;
⑤损失函数设计:基于L1损失函数、感知损失函数和时间一致性损失函数,将上述三个损失函数的加权和作为最终损失对图像重建网络进行监督;
S5、搭建、训练模型:基于S4中所设计的图像重建网络来搭建模型,然后在pytorch框架下,采用Adam优化器对所得模型进行训练,得到最终模型;
S6、输出结果:将测试集中的图像输入至S5中所得的最终模型中,得到相应的重建图像输出结果。
2.根据权利要求1所述的基于神经网络的事件相机图像重建方法,其特征在于,所述S2具体包括如下内容:将事件间隔 ∆T=t k-t 0内的事件点通过线性插值的方法编码为事件帧,每个事件点的极性p i被映射到距离其最近的两个通道,公式表示如下:
其中,E k表示∆T间隔内事件点的编码结果;p i表示事件点极性;B表示体素网格通道数;t i表示事件点的时间戳。
3.根据权利要求1所述的基于神经网络的事件相机图像重建方法,其特征在于,所述图像金字塔的三个子特征提取模块分别在不同尺寸提取输入事件帧的特征F 1、F 2、F 3,相比于原尺寸归一化尺寸为1,1/2,1/4,分别包括边缘、结构和语义信息,用于特征金字塔的特征信息补充,具体公式如下:
F sub1=ReLU 1.2(BN 1.2(ReLU 1.1(BN 1.1(Conv 1.1(E k))))
F sub2=ReLU 2.2(BN 2.2(ReLU 2.1(BN 2.1(Conv 2.1(F sub1))))
F sub3=ReLU 3.2(BN 3.2(ReLU 3.1(BN 3.1(Conv 3.1(F sub2))))
其中,F subn表示图像金字塔第n层的输出特征;Conv表示卷积层;BN表示BatchNormalization层。
4.根据权利要求1所述的基于神经网络的事件相机图像重建方法,其特征在于,所述特征金字塔设计具体包括如下内容:
1)接受上一层图像金字塔的输出重建特征作为特征金字塔当前层在时刻t的主要特征输入,利用ConvLSTM层和Spade标准化层对输入主特征进行编码,公式如下:
其中,表示t时刻ConvLSTM层的输出;I t表示t时刻第k层的重建结果;Spade标准化层利用上一时刻的重建结果对当前时刻进行条件标准化,公式表示为:
其中,表示上一时刻的重建结果;γ c,y,x,β c,y,x表示网络学习的参数;μ c和σ c分别代表输入的均值和标准差;
2)通过残差模块融合相对应尺度的子特征F sub达到信息补充的作用;经过步骤1),特征金字塔不同的层得到的与相应的子特征F sub具有相同的尺寸,通过残差块对二者进行特征融合,得到重建特征/>,k表示特征金字塔第k层的输出重建特征。
5.根据权利要求1所述的基于神经网络的事件相机图像重建方法,其特征在于,所述特征金字塔前两层的重建模块的重建过程由公式表示为:
其中,表示t时刻第k层的重建结果;σ表示Sigmod激活函数;BN表示BatchNormalization层;Conv i表示卷积层;
所述特征金字塔第三层的重建模块利用基于卷积的门控循环单元GRU进行多尺度迭代更新;
方案③中所述多尺寸迭代更新重建具体包括如下内容:
将特征金字塔输出的三个尺度重建特征依次输入GRU并获得对应的更新方向,三个更新方向共同维护更新变量/>,并经过Sigmod函数得到第三层的重建结果,公式表示为:
其中,Gru表示门控循环单元;σ为Sigmod函数;表示第三层最终的重建结果。
6.根据权利要求1所述的基于神经网络的事件相机图像重建方法,其特征在于,方案⑤中所述损失函数的具体公式表示为:
其中,表示L1损失函数;/>表示感知损失函数,采用预训练VGG19网络的前5个隐藏层进行计算;/>表示时间一致性损失函数;/>表示总损失函数;/>表示groundtruth;/>表示网络重建结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310829455.3A CN117097876B (zh) | 2023-07-07 | 2023-07-07 | 基于神经网络的事件相机图像重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310829455.3A CN117097876B (zh) | 2023-07-07 | 2023-07-07 | 基于神经网络的事件相机图像重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117097876A CN117097876A (zh) | 2023-11-21 |
CN117097876B true CN117097876B (zh) | 2024-03-08 |
Family
ID=88776141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310829455.3A Active CN117097876B (zh) | 2023-07-07 | 2023-07-07 | 基于神经网络的事件相机图像重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117097876B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112987026A (zh) * | 2021-03-05 | 2021-06-18 | 武汉大学 | 一种基于混合神经网络的事件场合成孔径成像算法 |
WO2022057837A1 (zh) * | 2020-09-16 | 2022-03-24 | 广州虎牙科技有限公司 | 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质 |
WO2022120901A1 (zh) * | 2020-12-09 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 基于特征金字塔的图像检测模型的训练方法、介质和设备 |
CN115484410A (zh) * | 2022-09-15 | 2022-12-16 | 天津大学 | 基于深度学习的事件相机视频重建方法 |
CN115761472A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180197317A1 (en) * | 2017-01-06 | 2018-07-12 | General Electric Company | Deep learning based acceleration for iterative tomographic reconstruction |
RU2698402C1 (ru) * | 2018-08-30 | 2019-08-26 | Самсунг Электроникс Ко., Лтд. | Способ обучения сверточной нейронной сети для восстановления изображения и система для формирования карты глубины изображения (варианты) |
US11288818B2 (en) * | 2019-02-19 | 2022-03-29 | The Trustees Of The University Of Pennsylvania | Methods, systems, and computer readable media for estimation of optical flow, depth, and egomotion using neural network trained using event-based learning |
-
2023
- 2023-07-07 CN CN202310829455.3A patent/CN117097876B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022057837A1 (zh) * | 2020-09-16 | 2022-03-24 | 广州虎牙科技有限公司 | 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质 |
WO2022120901A1 (zh) * | 2020-12-09 | 2022-06-16 | 中国科学院深圳先进技术研究院 | 基于特征金字塔的图像检测模型的训练方法、介质和设备 |
CN112987026A (zh) * | 2021-03-05 | 2021-06-18 | 武汉大学 | 一种基于混合神经网络的事件场合成孔径成像算法 |
CN115484410A (zh) * | 2022-09-15 | 2022-12-16 | 天津大学 | 基于深度学习的事件相机视频重建方法 |
CN115761472A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 一种基于融合事件和rgb数据的水下暗光场景重建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117097876A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114092330B (zh) | 一种轻量化多尺度的红外图像超分辨率重建方法 | |
CN110490919A (zh) | 一种基于深度神经网络的单目视觉的深度估计方法 | |
CN113177882B (zh) | 一种基于扩散模型的单帧图像超分辨处理方法 | |
CN106339996B (zh) | 一种基于超拉普拉斯先验的图像盲去模糊方法 | |
CN109214989A (zh) | 基于多方向特征预测先验的单幅图像超分辨率重建方法 | |
Li et al. | Underwater image high definition display using the multilayer perceptron and color feature-based SRCNN | |
CN115484410B (zh) | 基于深度学习的事件相机视频重建方法 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN111798370A (zh) | 基于流形约束的事件相机图像重建方法及系统 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN114170088A (zh) | 一种基于图结构数据的关系型强化学习系统及方法 | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
CN115035171A (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN116152591A (zh) | 模型训练方法、红外小目标检测方法、装置及电子设备 | |
CN115546442A (zh) | 基于感知一致损失的多视图立体匹配重建方法及系统 | |
CN116402679A (zh) | 一种轻量级红外超分辨率自适应重建方法 | |
Jiang et al. | Event-based low-illumination image enhancement | |
Chaman et al. | Truly shift-equivariant convolutional neural networks with adaptive polyphase upsampling | |
CN117197627B (zh) | 一种基于高阶退化模型的多模态图像融合方法 | |
CN111401209B (zh) | 一种基于深度学习的动作识别方法 | |
CN117097876B (zh) | 基于神经网络的事件相机图像重建方法 | |
CN116612009A (zh) | 一种多尺度连接生成对抗网络医学图像超分辨率重建方法 | |
CN112215140A (zh) | 一种基于时空对抗的3维信号处理方法 | |
CN116958192A (zh) | 一种基于扩散模型的事件相机图像重建方法 | |
CN116091337B (zh) | 一种基于事件信号神经编码方式的图像增强方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |