CN113837938B

CN113837938B - 基于动态视觉传感器重建潜在图像的超分辨率方法

Info

Publication number: CN113837938B
Application number: CN202110859525.0A
Authority: CN
Inventors: 施柏鑫; 韩金; 杨溢鑫; 周矗; 许超
Original assignee: Peking University; Huawei Technologies Co Ltd
Current assignee: Peking University; Huawei Technologies Co Ltd
Priority date: 2021-07-28
Filing date: 2021-07-28
Publication date: 2022-09-09
Anticipated expiration: 2041-07-28
Also published as: CN113837938A

Abstract

基于动态视觉传感器重建潜在图像的超分辨率方法，涉及事件相机应用技术领域，解决现有技术的重建结中存在灰度图的边缘细节不够锐利，同一像素值灰度不够稳定，以及容易损失动态范围等问题，本发明通过神经网络结构实现，包括潜在灰度图重建和多图像融合两个步骤实现，通过神经网络架构重建高质量的高分辨率灰度图，同时考虑事件信号和灰度图信号，以灰度图为基础重建一系列潜在灰度图，融合出的高分辨率灰度图的像素值稳定且连续。重建多张潜在灰度帧，采用多图超分辨率的方法实现APS灰度图的超分辨率，使得超分辨率重建的质量大大超越之前相关方法的重建效果。本发明使用深度学习的方法，提高了图像超分辨率的质量。

Description

基于动态视觉传感器重建潜在图像的超分辨率方法

技术领域

本发明涉及事件相机应用技术领域，具体涉及一种基于动态视觉传感器重建潜在图像的超分辨率方法。

背景技术

基于事件相机(Event Camera)的图像超分辨率技术(Super-resolution,SR)能够提升事件相机拍摄的灰度图的分辨率，从而得到细节更加丰富的高分辨率灰度图。高分辨率灰度图不仅可以得到更好的可视化效果，而且架起了事件相机与高层视觉任务之间的桥梁，有助于提升高层视觉任务准确率。本专利提出的事件信号引导的灰度图高分辨率技术，首先把输入的事件信号重建出多张潜在灰度图，将事件信息转换为灰度信息，再融合多张灰度图实现超分辨率。

事件相机是受生物启发的传感器，其工作原理与传统相机完全不同。它们不是以固定的速率捕获图像，而是异步测量每个像素的亮度变化。事件相机输出一系列的事件流，对发生亮度变化的时间戳，像素点坐标和正负极性进行编码。与传统相机相比，事件相机具有出色的特性：很高的动态范围(最高140dB)，较高的时间分辨率(微秒级响应)，低功耗，并且不会产生运动模糊。因此，在对传统相机来说具有的挑战性应用场景(例如高速和极端光照场景)中，事件相机能够展现出巨大的潜力。越来越多基于图像的计算机视觉任务，从低层视觉如目标检测和跟踪、光流等，到高层视觉如识别、分割等，也慢慢应用到基于事件相机的视觉任务。在自动驾驶、无人机视觉导航、工业检测及视频监控等机器视觉领域，事件相机的引入起到了重要的作用。此外，基于事件相机视觉采样、处理及应用是神经形态工程的重要分支，为计算神经科学的脑启发视觉模型提供了验证，也是探索计算智能的有效途径之一。

事件相机往往受限于传感器制造工艺以及数据传输压力等问题，其空间分辨率较低。与传统百万级像素的传统相机拍摄到的照片相比，事件相机输出的事件信号往往只有十万级的空间分辨率，这大大限制了事件相机在低层和高层计算机视觉任务上的潜力发挥。然而，事件信号包含可用于重建高质量灰度图像的视觉信息，其包含的图像边缘强度变化的亚像素信息，该信息有助于重建高分辨率的灰度图像。先前的重建方法只能实现受事件传感器空间分辨率限制的低分辨率灰度重建。但是，具有更高质量(更多结构细节，更高动态范围，更少模糊伪像)的高分辨率灰度图像会极大地有助于许多其他基于事件的视觉任务。因此，针对事件信号引导的灰度图像超分辨率(SR)以及质量提升具有实际意义和一定的可行性。

现有的基于事件相机的超分辨率技术可以分为3个分支：

1、首先将事件流信号转换为同分辨率的灰度图像，再使用基于灰度图的超分辨率技术对灰度图进行超分，得到高分辨率的灰度图。

2、直接从事件流信号重建得到高分辨率的灰度图。

3、输入事件相机拍摄的低质量灰度图和事件流信号，利用事件信号的补充信息对低质量灰度图同步进行去模糊、去噪以及超分。

这三种现有技术都可以得到高分辨率的灰度图，但是重建结果会有灰度图的边缘细节不够锐利，同一像素值灰度不够稳定，以及容易损失动态范围等问题。

现有技术1：2019年IEEE计处机视觉与模式识别会议记录中涉及的Events-to-Video:Bringing Modern Computer Vision to Event Cameras和Feedback Network forImage Super-Resolution(现有技术1是结合了这两篇文章的方法)

主要方法：该技术使用深度学习技术学习了如何从事件流中重建自然视频(Events to video,E2VID)，即学习了事件流与图像流之间的映射。该技术提出了一种基于递归神经网络的架构，可从事件流中重建视频流。得到的灰度图视频流再应用基于灰度图的超分辨率神经网络(Super-resolution feedback network，SRFBN)进行超分，得到高分辨率的灰度图。

实现过程：

1、对输入的事件流数据进行编码得到事件帧，输入到递归神经网络E2VID重建得到灰度图视频流：

首先将一个个事件数据

组成的事件流堆叠成时空体素网格E_k送入循环神经网络，重建出灰度图

同时循环神经网络的输入好包括之前重建的三个灰度图

2、重建得到的低分辨率灰度图视频流

输入到SRFBN神经网络得到高分辨率的灰度图视频流：

SRFBN包括3×3的卷积层(3×3Conv)、反馈模块(FB)、反卷积层(DeConv)，计算得到的残差与上采样得到的低分辨率

相加即得到高分辨率灰度图。

现有技术2：2020年IEEE计算机视觉与模式识别会议记录Learning to SuperResolve Intensity Images from Events

主要方法：该技术提出了一个端到端神经网络框架从事件流生成超分辨率图像。具体来说，先将事件流的每个部分基于事件的数量进行堆叠以作为事件表示，每个表示之间的空间位移关系可以基于其光流来确定，再将表示通过一个循环神经网络不断迭代输出每个表示的高分辨率灰度图，最后将一系列高分辨率的灰度图进行融合得到最后的结果。

实现过程：

1、将事件流数据基于数量进行堆叠得到事件流的表示SBN_n。

2、相邻事件流表示之间的空间位移信息通过光流计算网络FNet得到，该光流可以将相邻事件流通过EFR模块对齐。对齐后的事件流表示经过SRNet模块重建得到相应的高分辨率灰度图。

3、将一系列高分辨率灰度图通过Mix模块融合，灰度图之间互相补充细节信息得到最终的高分辨率灰度图结果。

现有技术3：2020年欧洲计算机视觉会议记录中的Event Enhanced High-QualityImage Recovery。

主要方法：该技术应用了深度学习的方法，将事件相机拍摄到的低质量灰度图和事件信号同时输入到卷积神经网络，基于稀疏学习的方法，使事件信号和低质量灰度图可以同时优化。该技术提出了一个事件增强的稀疏学习网络(eSL-Net)来实现灰度图的去模糊(Deblurring)、去噪(Denoising)以及超分辨率(Super resolution)。

实现过程：

1、将事件信号(Events)和低质量灰度图(APS Frame)利用卷积层编码成稀疏编码。APS为跃像素传感器。

2、使用迭代收缩阈值算法不断优化稀疏编码。

3、获得稀疏编码的最佳解后，乘以高质量灰度图像的字典后即可得到高分辨率灰度图结果。

现有技术的缺点：

1、现有技术1需要分为两个独立的步骤，分别单独训练两个神经网络，训练成本较高。且最终结果非常依赖第一步从事件信号到灰度图的转换，重建结果质量存在灰度信息不准确、结构细节不丰富等问题。

2、现有技术2直接采用事件信号重建高分辨率的灰度图，没有低质量灰度图的输入作为辅助，事件信号只记录场景边缘的强度变化信息，因此重建出来的像素灰度值是不稳定的，且重建的灰度图视频会在同一像素点会出现多帧不连续的情况。

3、现有技术3同时实现灰度图像的去模糊，去噪和超分辨率，将多个任务糅合在一起可能无法产生在图像超分辨率得到高质量的结果，因为不同的图像退化问题是由各种不同原因导致的，仅使用一个神经网络很难同时解决多个问题。

发明内容

本发明为解决现有技术的重建结中存在灰度图的边缘细节不够锐利，同一像素值灰度不够稳定，以及容易损失动态范围等问题，提供一种基于动态视觉传感器重建潜在图像的超分辨率方法。

基于动态视觉传感器重建潜在图像的超分辨率方法，该方法通过由潜在帧重构网络模块和多图像融合网络模块构成的神经网络实现；该方法由以下步骤实现：

步骤一、潜在灰度图重建，获得重建的潜在帧图像

具体过程为：

步骤1.1、采用时空体素网格Voxel grid作为事件信号的表示

将

和APS灰度图像I^t同时输入潜在帧重建网络模块；

步骤1.2、所述潜在帧重建网络模块分别对APS灰度图像I^t和事件时空体素网格单独编码，在每一层特征图进行融合，将融合后的特征图再进行解码，计算得到灰度残差

将所述灰度残差乘以APS灰度图I^t，再用Sigmoid函数进行激活，获得重建的潜在帧图像

所述重建的潜在帧图像

用下式表示为：

步骤二、多图像融合，采用多图像融合网络模块融合步骤一获得的重建的潜在帧图像

实现超分辨率；具体过程为：

对所述重建的潜在帧图像

进行可变形的卷积层完成潜在帧之间的对齐，将对齐的多个帧

输入融合层，然后按通道拼接后重建高分辨率图像。

本发明的有益效果：

1、本发明提出的方法使用一套完整的神经网络架构重建高质量的高分辨率灰度图，同时考虑事件信号和灰度图信号，以灰度图为基础重建一系列潜在灰度图，融合出的高分辨率灰度图的像素值稳定且连续。

2、本发明方法中针对超分辨率单独设计了实现流程和神经网络模块，利用多图超分辨率的机制，重建得到高分辨率灰度图。

3、本发明通过重建多张潜在灰度帧，用多图超分的方法实现APS灰度图的超分辨率，使得超分辨率重建的质量大大超越之前相关方法的重建效果。

4、使用深度学习的方法，充分利用了DAVIS事件相机事件信号和灰度图信号二者的优势，为二者单独设计网络模块以相互补充缺失的信息，有效搭建了二者的信息域差别的桥梁，提高了图像超分辨率的质量。

5、本发明的网络部署简单，可以快速应用到真实事件相机拍摄的数据上。

附图说明

图1为本发明所述的基于动态视觉传感器重建潜在图像的超分辨率方法的原理图。

具体实施方式

具体实施方式一、结合图1说明本实施方式，基于动态视觉传感器重建潜在图像的超分辨率方法，主要由潜在灰度图重建和多图融合2个步骤构成，每个步骤具体通过设计模块的子神经网络来实现：所述子神经网络分别为潜在帧重构网络模块(潜在帧重建网络LFR-Net)和多图像融合网络模块(多图像融合网络MIF-Net)构成的神经网络。

步骤一、潜在灰度图重建：由于事件流的空间域稀疏，需要将事件信号

转换为灰度空间域。首先将APS灰度帧I^t前后一小段时间(0.03s)的事件流信号堆叠成可卷积的类似帧的信号。但是，简单地堆叠一系列事件形成的张量并不是一个对事件信号合理的表示。无论事件流是基于时间的堆叠(SBT)还是基于数量的堆叠(SBN)，都忽略了重要的时间戳信息，并且当存在相同数量的正负信号时，极性可能会抵消。为了保留时间信息并将其编码为事件张量，本实施方式中选择使用时空体素网格(Voxel grid)作为事件信号的表示

事件信号可以用于估计灰度残差，事件信号和APS灰度图同时输入潜在帧重建网络(LFR-Net，公式中表示为LFR)，其网络结构采用U-Net为基本骨架，是一种Encoder-Decoder的网络架构。在编码器部分，分别对APS灰度图和事件时空体素网格单独编码，在每一层特征图进行融合，将融合过后的特征图再进行解码，计算得到灰度残差

估计出的灰度残差乘以APS灰度图，再用Sigmoid函数进行激活即可重建得到潜在帧

步骤二、多图像融合：在APS灰度图和事件数据中编码的灰度信息将转换为潜在帧的像素灰度值。给定一系列由LFR-Net重建得到的潜在灰度帧

可以将超分辨率问题视为一个MISR过程。因此，本实施方式中提出了多图像融合网络(MIF-Net，公式中表示为MIF)来融合一系列潜在帧实现超分辨率。因为潜在帧之间存在一些不对齐的问题，需要首先使用可变形的卷积层来完成潜在帧之间的对齐。

通过可变形卷积提取多个金字塔等级中不同帧的特征图，并计算它们之间的偏移量以进行对齐。可变形的卷积层可以轻松地嵌入到神经网络中，可以经过端到端的训练且无需任何其他监督信息。然后，将对齐过的多个帧

输入融合层，然后按通道拼接它们并重建高分辨率图像。

本实施方式中，为了得到更精细的重建结果，在此步骤中使用递归卷积模块FB。递归结构保留一个隐藏状态，该状态在每次迭代中都由输入特征图进行调制，以重建更精细的图像。使用具有密集连接的反馈模块，该模块将前一次迭代的重构细节保留在隐藏状态下，并在下一次迭代中与输入的特征图融合。反馈模块输出超分结果与低分辨率APS灰度图双线性插值上采样

之间的残差。最终的超分辨灰度图像S^t是残差与内插增强APS帧之和。

本实施方式中还通过对一系列潜在灰度帧的超分可以支持HFR视频的生成。潜在灰度帧的数量取决于事件容器的数量。通过将2连续APS灰度帧之间的事件划分为8个事件块，可以从30FPS的视频中重建240FPS的HFR视频。视频的帧率可以与事件信号的时间分辨率一样高。通过将目标潜在帧移到一系列潜在帧的中心位置，其他潜在帧通过可变形卷积滤波器对齐到目标帧以实现各潜在帧的超分辨率。

本实施方式中，还包括采用合成数据对神经网络进行训练，所述合成数据的获取过程如下：

由于没有由低分辨率(LR)事件数据和对应的高分辨率(HR)灰度图像组成的公共大规模数据集，并且DAVIS传感器拍摄到的APS灰度图和事件数据的空间分辨率都是很低的。如果我们使用真实事件传感器来拍摄数据集，则无法获得HR的灰度图像来作为真值(GT)。因此，使用合成数据集来训练我们的神经网络。我们选择事件模拟器V2E来生成任意空间分辨率的事件数据。V2E使用精确的DVS模型从任何真实的或合成的基于帧的常规视频生成事件数据流，我们选取高帧率(240FPS)且高分辨率(1280×720)的视频作为输入源。这样一来，高分辨率灰度图像便可得到。为了模拟真实相机拍摄的APS灰度图，将视频的帧大小下采样为128×128，以生成LR事件流。然后，通过将LR的APS灰度图乘以一个随机曝光时间，来模拟拍摄到的低动态范围(LDR)图像，然后将几个连续帧平均化来模拟运动模糊现象。相应的HR灰度图像会根据训练超分因子(2×或4×超分)简单地采样缩放为256×256或512×512。240FPS的源视频被视为30FPS的APS灰度帧的视频。而其他帧则被视为需要重建得到的潜在帧。

本实施方式中，所述神经网络中的LFR-Net和MIF-Net；所述LFR-Net由两个图像编码器和一个解码器组成；两个图像编码器分别为事件Voxel grid编码器和APS灰度图编码器；用于根据二者提供的信息估计灰度残差，以重建潜在灰度图像。即：分别将APS灰度图和事件信号表示

输入到相应的编码器中，两个编码器均为卷积神经网络层。将输入张量放入特征卷积层，提取得到高维特征表示张量，每一次卷积计算如下：

其中，

为窗口大小为w的卷积核,d为输出张量的通道数目，

表示卷积操作，x为输入张量或上层特征卷积层的输出，b为偏置项，IN(·)为批标准化操作，对已有的张量进行规范化，f为带泄漏线性整流函数(Leaky Rectified Linear Unit，LeakyReLU)，y是通道数为d的张量，即特征卷积层提取得到的特征。二者的特征图在每一层先按通道方向拼接，再由1×1卷积核进行融合。LFR-Net的解码器对融合在一起的特征图以及上一网络层的特征图使用反卷积操作，将特征图大小不断扩大，通道数不断减小，直至变为128×128×1大小的灰度残差，灰度残差与输入的APS灰度图相乘后由Sigmoid函数激活，作为输出的潜在灰度图。选取不同时长的事件流数据可以重建出多张的潜在灰度图。给定多张潜在灰度图，输入到MIF-Net，利用可变性卷积层算出潜在灰度帧与中间帧之间的偏移量，根据偏移量将潜在灰度帧向中间帧进行对齐。对齐后的一系列潜在灰度帧输入到递归卷积模块和亚像素重排列层，得到高分辨率灰度图。

本实施方式中，对于LFR-Net，首先计算网络输出的每张潜在灰度帧与其真值之间的平均绝度误差

和感知损失

之和

作为损失函数，其中两损失的权重为α₁＝100.0,α₂＝3.0，再由反向传播算法不断更新LFR-Net的各网络层权重。对于MIF-Net，之间的平均平方误差

和感知损失

之和

作为损失函数，其中两损失的权重为β₁＝200.0,β₂＝2.0，再由反向传播算法不断更新MIF-Net的各网络层权重。

本实施方式所述的超分辨率方法中，将深度卷积网络模型结构替换，换为其他的类似结构，例如将解码器模块的反卷积网络换为卷积+上采样的结构，或通过其他手段(如非深度学习方法)重建潜在帧等。将DAVIS相机换成其他类似的事件相机，或其他可以同时获得类似事件信息和灰度信息的的特殊设备。