CN112529944B

CN112529944B - 一种基于事件相机的端到端无监督光流估计方法

Info

Publication number: CN112529944B
Application number: CN202011408555.1A
Authority: CN
Inventors: 刘代坤; 孙长银; 陆科林; 徐乐玏
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-05
Filing date: 2020-12-05
Publication date: 2022-11-18
Anticipated expiration: 2040-12-05
Also published as: CN112529944A

Abstract

本发明提供了一种基于事件相机的端到端的无监督光流估计方法，涉及计算机视觉的光流估计领域,针对事件相机数据用于光流估计缺乏真实光流值，以及事件数据需要预先手工制作事件表示的缺点，提出一种基于事件相机的端到端的无监督光流估计方法。利用事件相机输出的事件流，首先对原始数据进行预处理，将四维转换为三维，然后将每个样本分为多个子序列，每个子序列用ConvLSTM单独处理，全部处理完以后按通道拼接形成最终送入光流预测网络中的三维数据。采用类似于编码/解码器的光流预测网络，利用事件相机固定频率输出的事件流数据的前后两个灰度帧设计光度误差损失，加上平滑度损失，共同作为无监督损失，促使网络最终估计出光流量。

Description

一种基于事件相机的端到端无监督光流估计方法

技术领域

本发明涉及一种估计方法，具体涉及一种基于事件相机的端到端无监督光流估计方法，属于计算机视觉技术领域。

背景技术

事件相机(Event Camera)是一种新型传感器，与常规的相机相比，它不是以固定的频率捕获图像，而是根据像素点亮度的变化异步地生成事件，输出事件流。事件流对亮度变化的时间戳、位置和变化的极性进行编码，即e＝{x,y,t,p}，其中(x，y)表示坐标点，t表示产生事件的时间戳，p表示极性，取值±1，“+”表示亮度增加，“-”表示亮度降低，同时还以固定的频率输出灰度图像，如图1所示。事件相机相比传统相机具有很好的性能：高时间分辨率(微秒级)，低延迟，低功耗以及高动态范围，它可以捕获非常快的运动，而不会出现传统相机中的运动模糊问题。基于事件相机的这些优点，可以将其应用到计算机视觉的一些任务中，例如运动目标检测、目标运动估计等，从而解决传统相机不能解决的问题。

光流估计作为计算机视觉中的一个活跃的话题，是运动对象分割、位姿估计和动作识别等的基础任务。基于传统相机的光流估计方法，是在图像对中相应像素的亮度不变性假设下而提出的，常用方法有基于梯度的方法，基于匹配的方法和基于相位的方法，近年来基于神经网络的方法也不断涌现。但是传统相机用于光流估计，存在长久以来的孔径问题，以及图像的畸变和非刚体的运动带来的低鲁棒性问题，然而这些局限性在事件相机中似乎是可以改善的。基于事件相机的光流估计方法，分为事件数据表示和光流估计两个部分。对于事件数据的表示，有手工制作的事件表示和极少数的基于学习的事件表示两类，手工制作的事件表示方法有将事件数据转换为事件帧或2D直方图，时间表面(TS)以及体素网格等，基于学习的方法即从原始四维数据中学习出能提升任务性能的表示方法。对于光流估计部分，同传统相机一样，有传统的方法，随着深度学习的广泛应用，基于学习的方法近期也被应用到基于事件的光流估计中。尽管针对这两个部分，已经提出了诸多算法，但是仍然存在很多局限性：1.原始事件数据不适于常规的CNNs网络输入，需要对其进行预处理，转换为常规网络能够读取的形式，这种表示方法大多数是手工制作的，灵活性差并且耗费精力，不能针对特定的任务得到适合的表示方法；2.大量的原始事件数据缺乏光流真实值，无法完成有监督的光流估计网络训练；因此，迫切的需要一种新的方案解决上述技术问题。

发明内容

本发明针对上述基于事件相机的光流估计方法存在的事件数据表示耗费精力和数据缺乏光流真实值的问题，提出一种能够从原始输入数据种学习到有效的事件表示用于光流估计的端到端的无监督方法。该方案使用事件相机DAVIS输出的事件数据，先对事件数据进行预处理，包括坐标的标准化和时间的归一化，再将单个样本序列分为B个连续地子序列，每个序列用ConvLSTM单元单独处理，将B个子序列的输出结果通道连接在一起，得到一个3D的事件表示。这个事件表示最终作为光流预测网络的输入，网络将光度误差损失应用到当前事件样本数据前一帧和后一帧灰度图像上，以及平滑度损失，作为无监督损失，预测出光流。

为了实现上述目的，本发明的技术方案如下，一种基于事件相机的端到端无监督光流估计方法，所述方法包括以下步骤：

步骤1，获取事件相机光流估计数据集MVSEC，数据来源于公开数据集“Multivehicle Stereo Event Camera Dataset”(中文名为“多视点立体事件摄像机数据集”，该数据集由左右两个DAVIS获取，其中包括事件数据、灰度帧、IMU数据和雷达点云数据)，从数据集主页下载ROS bag原始数据集包，从中获取事件流数据以及灰度帧数据，单个事件包含坐标(x，y)，时间戳t_e以及事件极性p，灰度图含时间戳t_i以及图像的高H_i和宽W_i；

步骤2：先对数据集进行预处理：滤除第一帧灰度图之前的数据，将I_ti至I_ti+6之间的事件数据作为一个样本，这里的t_i是指灰度帧对应的时间，而获取的样本事件的时间戳换算为正常的以秒计的时间，为了增强数据，第二个样本则取为I_t+1至I_t+7，以此类推；

步骤3，预处理之后的事件数据仍有(x，y，t，p)四个维度，将其转换为神经网络容易处理的三维数据。将(x，y)作为二维平面上的坐标，时间t则作为通道，并且舍弃极性信息，即将样本大小为He×We×Te×2，最终表示为He×We×Te，每个像素点的值为t，没有事件产生的像素点值为0；

步骤4：再对时间进行归一化，对像素点(x_k，y_k)每个通道上的值进行归一化操作，即

t_k’＝round(255*(t_k-t_min))/Δt)

其中Δt＝t_max-t_min。通过归一化操作，将四维原始数据转换为神经网络易于处理的三维数据，由于像素点取值为关于时间的值，所以类似于时间表面(TS)。将此三维数据送入到包含卷积长短时记忆单元以及光流预测网络的端到端网络中；

步骤5，对于ConvLSTM单元，将上述单个样本的三维数据按时间划分为B个子序列{B1,B2,B3,…}，子序列维度为He×We×(Te/B)，每个子序列用卷积长短时记忆单元(ConvLSTM)单独处理。将每个子序列中的各个不同的时间节点作为一个ConvLSTM读入数据的时间点，读入的数据维度则为He×We×1×tmax，tmax为该序列所对应的像素点的最大时间长度，即tmax＝max(length(P_i))，i＝0，1，2，…，He*We；

步骤6：在每个子序列参与卷积之前对ConvLSTM进行初始化，处理完以后的维度为H×W×C，B个子序列同时处理完以后，再用ConvLSTM单元对这些子序列结果进行处理，最终得到维度为H×W×C的事件表示(即，原始数据的特征图)。此外，为了保持网络的效率，在ConvLSTM初始的输入门(inputgate)、遗忘门(forget gate)和输出门(output gate)之前加入一个额外的瓶颈门(bottleneck gate)，以减少内部的特征图的通道；

步骤7，对于光流估计网络，采用类似于编码器-解码器网络的结构，输入事件数据通过四个卷积层，输出通道每次都加倍，产生的激活信号经过2个残差模块，然后经过四个上采样卷积层，在其中使用最近邻重采样对激活值进行上采样，然后进行卷积，以获得最终的光流估计值。在每个上采样卷积层上，还有来自对应的跨步卷积层以及另一个卷积层的跳过连接，以产生一个中间的较低分辨率的光流估计，该估计与上采样卷积的激活相联系。然后，通过对灰度图像进行下采样，将平滑度损失和光度误差损失应用于每个中间以及最后的光流估计输出。tanh函数用作所有光流估计的激活函数。

作为本发明的一种改进，所述事件相机数据集指由DAVIS采集的“多车辆立体事件摄像机数据集”即“Multi Vehicle Stereo Event Camera Dataset”，事件相机数据集中包括灰度帧、事件流、IMU数据和雷达数据；DAVIS指动态和主动式像素传感器。

作为本发明的一种改进，步骤5中的B可以改变大小，训练并测试不同B值的模型，以找到最佳值。

作为本发明的一种改进，步骤6的卷积长短时单元中，在ConvLSTM初始的输入门、遗忘门和输出门之前加入一个额外的瓶颈门，以减少内部的特征图的通道。

作为本发明的一种改进，步骤6中的通道C为1，类似于CNNs的输入为灰度图。此外，还可将C设置为3，通过ConvLSTM得到H×W×1的事件表示，作为三通道表示的其中一个通道，另外两个通道分别对正负事件数进行计数，这样就不会舍弃极性信息。

相对于现有技术，本发明具有如下优点，本发明针对传统相机用于光流预测存在的孔径问题，鲁棒性差的缺陷，以及事件相机用于光流估计面临的缺乏光流真实值和手工制作事件表示的局限，提出了基于事件相机的端到端的无监督光流估计方法。所提出的端到端网络主要包括三个模块：数据预处理模块，ConvLSTM事件表示模块，以及光流估计模块，并且事件相机DAVIS同时产生的灰度图像帧仅用于设计基于亮度一致性假设的光度误差损失。本发明能够处理不同于传统相机图像的事件数据，并在不损失时间信息的前提下，保留了事件序列的时间和空间稀疏性，从中学习出事件表示，该事件表示同时对时间和空间进行了编码，最大程度上利用了时序信息以及空间信息，最终提升光流估计网络性能，可以在产生事件的区域预测出正确的光流。

附图说明

图1是事件相机的输出数据可视化；

图2为本发明实施例的整体流程图；

图3为本发明实施例中所用的光流估计网络；

图4为本发明整体流程图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：参见图1，一种基于事件相机的端到端无监督光流估计方法，如图2所示，包括以下步骤：

步骤1，获取事件相机光流估计数据集MVSEC，从数据集主页下载ROS bag原始数据集包，从中获取事件流数据以及灰度帧数据。单个事件包含坐标(x，y)，时间戳t_e以及事件极性p，灰度图含时间戳t_i以及图像的高H_i和宽W_i。事件相机输出数据可视化如图1所示。

步骤2，先对数据集进行预处理：滤除第一帧灰度图之前的数据，将I_ti至I_ti+6之间的事件数据作为一个样本，这里的t_i是指灰度帧对应的时间，而获取的样本事件的时间戳换算为正常的以秒计的时间，为了增强数据，第二个样本则取为I_t+1至I_t+7，以此类推。

步骤3，预处理之后的事件数据仍有(x，y，t，p)四个维度，将其转换为神经网络容易处理的三维数据。

将(x，y)作为二维平面上的坐标，时间t则作为通道，并且舍弃极性信息，即将样本大小为He×We×Te×2，最终表示为He×We×Te，每个像素点的值为t，没有事件产生的像素点值为0。

步骤4,再对时间进行归一化，对像素点(x_k，y_k)每个通道上的值进行归一化操作，计算公式如下：

t_k’＝round(255*(t_k-t_min))/Δt)

其中Δt＝t_max-t_min。通过归一化操作，将四维原始数据转换为神经网络易于处理的三维数据，由于像素点取值为关于时间的值，所以类似于时间表面(TS)。

步骤5，将上述单个样本的三维数据按时间划分为B个子序列{B1,B2,B3,…}，子序列维度为He×We×(Te/B)，每个子序列用卷积长短时记忆单元(ConvLSTM)单独处理。将每个子序列中的各个不同的时间节点作为一个ConvLSTM读入数据的时间点，读入的数据维度则为He×We×1×tmax，tmax为该序列所对应的像素点的最大时间长度，即tmax＝max(length(P_i))，i＝0，1，2，…，He*We。

步骤6，上述格式的样本数据送入ConvLSTM单元，每个子序列用卷积长短时记忆单元(ConvLSTM)单独处理，在每个子序列参与卷积之前对ConvLSTM进行初始化，处理完以后的维度为H×W×C，B个子序列同时处理完以后，再用ConvLSTM单元对这些子序列结果进行处理，最终得到维度为H×W×C的事件表示(即，原始数据的特征图)。

此外，为了保持网络的效率，在ConvLSTM初始的输入门、遗忘门和输出门之前加入一个额外的瓶颈门，以减少内部的特征图的通道。

步骤7，将维度为H×W×C的事件表示输入到光流预测网络中。

光流估计网络如图3所示，类似于编码器-解码器网络的结构。输入事件数据通过四个卷积层，每层输出通道加倍，产生的激活信号经过2个残差模块，然后经过四个上采样卷积层，最终获得光流估计值。在每个上采样卷积层上，还有来自对应的跨步卷积层以及另一个卷积层的跳过连接，以产生一个中间的较低分辨率的光流估计，该估计与上采样卷积的激活相联系。tanh函数用作所有光流估计的激活函数。

然后，通过对灰度图像进行下采样，将平滑度损失和光度误差损失应用于每个中间以及最后的光流估计输出。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于事件相机的端到端无监督光流估计方法，其特征在于，所述方法包括以下步骤：

步骤1，获取事件相机光流估计数据集MVSEC，从数据集主页下载ROS bag原始数据集包，从中获取事件流数据以及灰度帧数据，单个事件包含坐标(x，y)，时间戳t_e以及事件极性p，灰度图含时间戳t_i以及图像的高H_i和宽W_i；

步骤2，数据集预处理：滤除第一帧灰度图之前的数据，将I_ti至I_ti+6之间的事件数据作为一个样本，这里的t_i是指灰度帧对应的时间，而获取的样本事件的时间戳换算为正常的以秒计的时间，为了增强数据，第二个样本则取为I_t+1至I_t+7，以此类推；

步骤3，将(x，y)作为二维平面上的坐标，时间t则作为通道，并且舍弃极性信息，即将样本大小为He×We×Te×2，最终表示为He×We×Te，每个像素点的值为t，没有事件产生的像素点值为0；

步骤4，对时间进行归一化，对像素点(x_k，y_k)每个通道上的值进行归一化操作，计算公式如下：

t_k’＝round(255*(t_k-t_min))/Δt)；

其中Δt＝t_max-t_min，归一化操作将四维原始数据转换为神经网络易于处理的三维数据；

步骤5，将上述单个样本的三维数据按时间划分为B个子序列{B1,B2,B3,…}，子序列维度为He×We×(Te/B),将每个子序列中的各个不同的时间节点作为一个ConvLSTM读入数据的时间点，读入的数据维度则为He×We×1×tmax，tmax为该序列所对应的像素点的最大时间长度，即tmax＝max(length(P_i))，i＝0，1，2，…，He*We；

步骤6，上述格式的样本数据送入ConvLSTM单元，每个子序列用卷积长短时记忆单元(ConvLSTM)单独处理，在每个子序列参与卷积之前对ConvLSTM进行初始化，处理完以后的维度为H×W×C，B个子序列同时处理完以后，再用ConvLSTM单元对这些子序列结果进行处理，最终得到维度为H×W×C的事件表示(即，原始数据的特征图)；

步骤7，将维度为H×W×C的事件表示输入到光流预测网络中，将平滑度损失和光度误差损失应用于每个中间以及最后的光流估计输出，最终得到从事件流中预测的光流量。

2.根据权利要求1所述的基于事件相机的端到端无监督光流估计方法，其特征在于，所述事件相机数据集指由DAVIS采集的“多车辆立体事件摄像机数据集”即“Multi VehicleStereo Event Camera Dataset”，事件相机数据集中包括灰度帧、事件流、IMU数据和雷达数据；DAVIS指动态和主动式像素传感器。

3.根据权利要求2所述的基于事件相机的端到端无监督光流估计方法，其特征在于，步骤5中的B可以改变大小，训练并测试不同B值的模型，以找到最佳B值。

4.根据权利要求3所述的基于事件相机的端到端无监督光流估计方法，其特征在于，步骤6的卷积长短时单元中，在ConvLSTM初始的输入门、遗忘门和输出门之前加入一个额外的瓶颈门，以减少内部的特征图的通道。

5.根据权利要求3或4所述的基于事件相机的端到端无监督光流估计方法，其特征在于，步骤6中的通道C为1，类似于CNNs的输入为灰度图。此外，还可以将C设置为3，通过ConvLSTM得到H×W×1的事件表示，作为三通道表示的其中一个通道，另外两个通道分别对正负事件数进行计数，这样就不会舍弃极性信息。

6.根据权利要求3或4所述的基于事件相机的端到端无监督光流估计方法，其特征在于，所述步骤1中，该数据集由左右两个DAVIS获取，其中包括事件数据、灰度帧、IMU数据和雷达点云数据。

7.根据权利要求3或4所述的基于事件相机的端到端无监督光流估计方法，其特征在于，所述步骤7中，对于光流估计网络，采用类似于编码器-解码器网络的结构，输入事件数据通过四个卷积层，输出通道每次都加倍，产生的激活信号经过2个残差模块，然后经过四个上采样卷积层，在其中使用最近邻重采样对激活值进行上采样，然后进行卷积，以获得最终的光流估计值，在每个上采样卷积层上，还有来自对应的跨步卷积层以及另一个卷积层的跳过连接，以产生一个中间的较低分辨率的光流估计，该估计与上采样卷积的激活相联系，然后，通过对灰度图像进行下采样，将平滑度损失和光度误差损失应用于每个中间以及最后的光流估计输出，tanh函数用作所有光流估计的激活函数。