CN109697726B

CN109697726B - 一种基于事件相机的端对端目标运动估计方法

Info

Publication number: CN109697726B
Application number: CN201910018068.5A
Authority: CN
Inventors: 王菡子; 陈昊升; 吴强强
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-09-18
Anticipated expiration: 2039-01-09
Also published as: CN109697726A

Abstract

一种基于事件相机的端对端目标运动估计方法，涉及计算机视觉的目标运动估计。针对传统相机对目标快速运动和环境光照变化不鲁棒的缺点，提出一种基于事件相机的端对端目标帧间运动估计深度人工神经网络。由于事件相机仅产生异步的视觉事件，而所提出的深度网络需要同步的图像帧用于输入，还提出一种异步视觉事件集到同步图像帧表示的转换。该视觉事件帧能够清晰地展现所对应运动的模式，便于所提出的深度网络对这些模式的提取和识别。所提出的深度网络包含三个主要部分：开始的卷积模块用于提取视觉事件帧上的运动特征、中间的长短时记忆模块用于加速训练与压缩特征和最后的全连接层部分用于实时地预测5自由度的目标二维帧间运动。

Description

一种基于事件相机的端对端目标运动估计方法

技术领域

本发明涉及计算机视觉的目标运动估计，尤其是涉及一种基于事件相机的端对端目标运动估计方法。

背景技术

目标运动估计是计算机视觉领域的重要研究方向之一，它在自动驾驶、智能监控、虚拟、增强现实、异常行为检测、人机交互等领域有着重要的作用。目标运动估计所要解决的基本问题是在一个图像序列或一个图像对中选择感兴趣的目标(可以是其中包含的某个物体或者是整张图像)，通过计算机视觉算法求解出目标在帧间的运动模型参数。所得到的运动模型可以进而估计目标运动轨迹或目标在下一帧的位置等目标有关的时空信息。目标运动估计目前仍然是一个颇具挑战性的问题，相关算法的性能容易受到：难以提取目标的运动特征、摄像机的快速运动、目标的非刚体变化、复杂的光照变化和目标与场景间的遮挡等现实中无法避免的不可控因素的影响。

事件相机(Event Camera)是受生物视网膜运行机制启发发明，最近三年间在学术和工业界都得到广泛关注和快速发展的新型视觉传感器，它具有：(1)异步性：每个像素点可以单独被触发，不需要像传统相机一样同步曝光获取图像帧，取而代之的是事件相机仅在运动发生的像素上产生像素值指数级别变亮(On)和变暗(Off)的两种事件用于记载相关的运动信息。这种机制与生物的视网膜类似，所以事件相机也被称为硅视网膜。(2)非常低的响应延迟：事件相机具有非常低的响应延迟，它可以达到微秒(10^-6s)级别的时间精度，所以对于事件相机来说，它几乎不可能产生普通相机在高速移动过程中所产生的运动模糊问题。(3)高动态响应范围(HDR)：事件相机可以达到1000lux的动态范围，能够准确反映运动在高、低光照场景下造成的像素灰度值变化，基本不会受到场景的明暗条件影响。这些独特、优秀的特性可以有效地弥补基于传统RGB相机的目标运动估计算法在目标快速运动和低光照环境条件下的不足。

基于事件相机的目标运动估计或目标追踪在计算机视觉研究领域虽然得到快速发展和广泛关注，但是由于相关研究的难度，到目前为止有价值的相关研究成果为数不多。这些研究成果基本来自国外的相关研究，国内暂时没有相关的研究出现。这些基于事件相机的目标运动估计或目标追踪的相关研究可以大致分为基于聚类算法的方法和不基于聚类算法的方法两类：第一种类型的研究包括：Litzenberger等人受均值漂移(Meanshift)启发所提出的目标运动估计方法。Piatkowska等人基于高斯混合模型(Gaussian MixtureModel)提出的带遮挡的多目标运动估计、追踪方法。Camunas-Mesa等人针对运动估计中的遮挡问题，使用两个事件相机组成立体视觉系统，并提出相应的运动估计方法。Glover等人基于霍夫变换(Hough Transform)构建簇心，并使用粒子滤波(Particle Filter)追踪簇心，进而估计目标运动的方法。第二种类型的研究包括：Liu等人在普通图像帧上构建特征，并使用事件相机数据进行跟踪，进而结合两种传感器数据进行运动估计的方法。Mitrokhin等人提出一种运动补偿(Motion Compensation)的思想，将场景运动不一致的部分的视觉事件分割出来用于目标检测和运动估计、追踪的方法。此外，Maqueda等人首先将深度人工神经网络引入基于事件相机的运动估计中，并用于端到端地回归、预测自动驾驶时方向盘的运动角度的研究。这些前驱研究都实验验证了事件相机在目标运动估计方面的优异性，同时也对更有效的基于事件相机的运动估计提出了期望。

发明内容

本发明的目的在于针对传统相机对目标快速运动和环境光照变化不鲁棒的缺点，提供一种基于事件相机的端对端目标运动估计方法。

本发明包括以下步骤：

1)给定事件相机拍摄的图像帧间由于目标运动所产生的异步视觉事件的集合，并按照事件类型将异步视觉事件分为开事件集合和闭事件集合两部分；所述事件相机(EventCamera)是模仿人类视网膜运作机制的新型视觉传感器，使用的事件相机为DAVIS240c，所述DAVIS240c可以高速、异步地捕捉场景中存在的视觉事件，所述视觉事件属于开(On)事件或闭(Off)事件的其中一种，所述开事件表示对应的像素坐标的像素值相较于前一时间点发生指数程度的增长(变亮)；所述闭事件则与开事件相反，表示指数程度的下降(变暗)；像素灰度变化一般由物体运动造成，所以视觉事件可以较为精确地反映物体的运动信息，每个由事件相机捕捉、记录的视觉事件可以表示为如下所示的四元组形式：

其中，(u_k,v_k)表示该视觉事件发生在图像平面上的二维坐标，p_k表示该视觉事件e_k为开事件还是闭事件(对应设置为0或1)，t_k表示视觉事件发生时微秒级别的时间戳；因为物体运动可能同时产生开事件(像素值低于背景部分)和闭事件(像素值高于背景部分)，且其互相之间不存在联系，所以将视觉事件根据开、闭属性分开，使其并行地进入之后的步骤中；

2)对步骤1)中的开事件和闭事件集合分别按6.66ms的时间窗口进行分段，形成若干子异步视觉事件集合；因为事件相机是以异步的形式记录视觉事件，即每个像素可以被相应的像素值指数级别变化单独触发，没有传统相机每隔固定时间间隔所有像素同步触发形成同步图像帧的概念；若单独研究每个视觉事件没有意义，则浪费计算资源，所以需要将视觉事件集合中每隔一段采样时间间隔内所记录的视觉事件聚合起来，形成子异步视觉事件集合的形式进入后续的步骤，这里所用到的采样时间间隔设置为T；

3)对步骤2)中的每一个子异步视觉事件集合，将其内部的异步视觉事件根据其时空属性投影到一个与事件相机相同尺寸的图像平面上，形成其对应的同步视觉事件帧表示；具体过程如下：假设当前子异步视觉事件集合所对应的采样阶段的开始时刻为t_k，所以对应的采样时间间隔为t_k到t_k+T；首先，初始化一个要投影到的图像平面，该图像平面的尺寸与事件相机分辨率相同；接着，将图像平面的每个坐标的像素值都初始化为0，在投影过程中，当前采样阶段t_k+i-1时刻所对应的第i个视觉事件e_k+i-1将会被投影在对应二维图像平面的(u_k+i-1,v_k+i-1)坐标上；然后，图像(u_k+i-1,v_k+i-1)坐标位置的像素值按照如下所示计算并赋值为g_i：

g_i＝round(255*(t_k+i-1-t_k))/T)

通过将时间间隔t_k到t_k+T内所有视觉事件投影到该事件平面，最终生成的图像帧

即为t_k到t_k+T时刻子异步视觉事件集合所对应的同步视觉事件帧表示；

在这个过程中开事件和闭事件将会被分别投影到图像的两个通道中，所以对应生成的视觉事件帧

将会包含两个通道，分别对应开事件和闭事件。在视觉事件帧生成过程中，较大的运动量将会被反映为较长的相应方向的运动轨迹，便于后续基于深度人工神经网络的运动特征提取和运动参数估计；

4)将步骤3)中的视觉事件帧输入包含卷积、长短时记忆和全连接模块的目标运动估计深度人工神经网络中，训练该深度网络学习回归的视觉事件帧中蕴含的5自由度二维目标相似变换运动模型参数，具体过程如下：对于任意目标o，其在第i和i+1图像帧之间的二维图像面上运动可以表示为如下的二维相似变换

其中，d_x和d_y表示目标前后两帧间在图像平面的水平和竖直方向的位移量，θ表示目标前后两帧间的二维旋转角度，s_x和s_y表示目标前后两帧间在图像平面的水平和竖直方向的缩放量；所以目标在图像帧间的运动

是包含5个运动参数(两维平移、一维旋转及两维缩放)的5自由度的二维相似变换；

对于已经生成的视觉事件帧和上述5个要估计的运动参数，使用一个深度人工神经网络提取视觉事件帧中所包含的运动特征和回归、估计对应目标运动的5个运动参数；这个深度网络从前到后包含一个卷积模块、一个长短时记忆模块(LSTM)和一个全连接模块，其中卷积模块用于提取视觉事件帧中所包含的运动特征，模块内包含三层卷积核为3、步长为1的卷积层和一层卷积核为1、步长为1的卷积层，所对应的卷积核个数分别为32、64、128和32，每个卷积层后面附加有一个批标准化(Batch Normalization)层，最后一层还附加有一个随机丢弃(Drop Out)层防止过拟合；长短时记忆模块接受卷积模块的输出作为输入，用于压缩所提取特征，同时也用于加速训练该深度网络；模块内包含三层每层1568通道的长短时记忆(LSTM)层，全连接模块接受长短时记忆模块的输出作为输入，用于直接回归出所估计的5个运动参数；模块包含一层1568通道的全连接(Fully Connected)层用于接收长短时记忆模块的输入；剩下的部分分为5个分支用于分别独立地回归所估计的5个运动参数；每个分支都包含一个512通道的和一个128通道的全连接层；全连接模块最终的输出是所估计的5个运动参数e₁到e₅；因为目标在实际图像面上的运动与图像的分辨率成比例，所以这些估计的运动参数实际为归一化后的运动参数，表示对应运动的相对强度；这5个运动参数e₁到e₅需要乘以根据事件相机分辨率而调节的各运动分量的尺度参数p₁到p₅完成对d_x到s_y的绝对运动的估计，如下所示：

其中，(d_x,d_y,θ,s_x,s_y)为最终深度网络的输出结果；

在这个深度网络的训练过程中，所用到的训练数据为标记后的事件相机数据集(Event Camera Dataset)；所用到的损失是5个运动参数的平均MSE损失，优化器为ADAM优化器，学习率为α，衰减率为β，衰减步数为ε，每次输入批量(Batch Size)为

5)将测试目标前一帧与当前帧之间的视觉事件帧输入步骤4)中训练好的深度网络，得到对应的5自由度帧间运动参数；具体过程如下：通过步骤3)构建当前帧c与前一帧c-1之间关于目标o的视觉事件帧

将

输入步骤4)中训练好的深度网络，进而得到目标在两帧间的(d_x,d_y,θ,s_x,s_y)5个运动参数；

6)把步骤5)中的5自由度平面运动施加给前一帧的目标坐标得到其在当前帧的目标坐标，实现目标运动估计；具体过程如下：将目标在前一帧的坐标(x,y)乘以相应的由步骤5)得到的(d_x,d_y,θ,s_x,s_y)所构造的变换矩阵，变换到下一帧目标的对应坐标(x′,y′)，如下所示：

其中，

表示原地(In-place)变换，指经过该变换后，目标要保持前后目标中心对齐；经过运动变换后生成的新的坐标即为目标o在当前帧c的位置，实现从前一帧目标位置到当前帧同一目标的新位置之间的目标运动估计；目标运动估计的质量可以按照如下所示的AOR和AR指标进行度量：

其中，AOR用于测试运动参数的精度，

表示第i个物体的第j次测试所生成的目标包围盒(Bounding Box)，是所有属于该目标的坐标经过运动变换后，再聚合而成的外接矩形框，

是

对应的真实值，连加符号内的部分为

和

的IoU(Intersection-over-Union)值，AR用于测试运动参数的精度，failure_i,j表示当前物体运动是否估计失败，若

和

的IoU低于μ，则将会被认为第i个物体的第j次运动估计失败，且failure_i,j为0，反之failure_i,j为1；经过测试，与当前主流的目标运动估计方法相比，本方法的目标运动估计的性能有所提升，尤其是对快速运动和低光照的运动样本具有较好的运动估计效果。

在步骤2)中，所述采样时间间隔设置为T＝6.66ms。

在步骤4)中，所述尺度参数p₁到p₅设置为72，54，30，0.2和0.2；训练相关参数包括学习率、衰变率、衰减步数等，学习率设置为α＝0.01，衰变率设置为β＝0.9，衰减步数设置为ε＝100，每次输入批量设置为

在步骤6)中，所述IoU阈值μ设置可为0.5。

本发明针对传统相机对目标快速运动和环境光照变化不鲁棒的缺点，提出一种基于事件相机的端对端目标帧间运动估计深度人工神经网络。由于事件相机仅产生异步的视觉事件，而所提出的深度网络需要同步的图像帧用于输入，因此本发明还提出一种异步视觉事件集到同步图像帧表示(称为视觉事件帧)的转换。该视觉事件帧能够清晰地展现所对应运动的模式，便于所提出的深度网络对这些模式的提取和识别。所提出的深度网络包含三个主要部分：开始的卷积模块用于提取视觉事件帧上的运动特征、中间的长短时记忆模块用于加速训练与压缩特征和最后的全连接层部分用于实时地预测5自由度的目标二维帧间运动。本发明能够有效地应对目标运动估计中存在的目标快速运动和环境光照变化等问题，取得了优于主流基于传统相机的目标运动估计算法的精度。

附图说明

图1为本发明实施例的整体流程图。

图2为本发明实施例中目标运动估计深度网络的流程图。

图3为本发明与其它三种具有代表性的目标运动估计/追踪方法在事件相机数据集(Event Camera Dataset)和极限事件数据集(Extreme Event Dataset)上对比的定性结果。在图3中，从左到右，每两列属于一个方法，依次为SiamFC，ECO，GOTURN和本发明。深色目标框为目标在下一帧的真实位置，浅色目标框为算法所预测的目标在下一帧的位置。其中：

事件相机数据集(Event Camera Dataset)对应为E.Mueggler等人提出的数据集(E.Mueggler,H.Rebecq,G.Gallego,T.Delbruck,and D.Scaramuzza.The event-cameradataset and simulator:Event-based data for pose estimation,visual odometry,and SLAM.The International Journal of Robotics Research,36(2):142–149,2017.)；

极限事件数据集(Extreme Event Dataset)对应为A.Mitrokhin等人提出的数据集(A.Mitrokhin,C.Fermuller,C.Parameshwara,and Y.Aloimonos.Event-based movingobject detection and tracking.arXiv preprint arXiv:1803.04523,2018.)；

SiamFC对应为L.Bertinetto等人提出的方法(L.Bertinetto,J.Valmadre,J.F.Henriques,A.Vedaldi,and P.H.Torr.Fully-convolutional siamese networks forobject tracking.In Proc.of European Conference on Computer Vision(ECCV),pages850–865.Springer,2016.)；

ECO对应为M.Danelljan等人提出的方法(M.Danelljan,G.Bhat,F.S.Khan,andM.Felsberg,“ECO:efficient convolution operators for tracking,”in Proc.IEEEConf.Comput.Vis.Pattern Recognit.(CVPR),2017.)；

GOTURN对应为D.Held等人提出的方法(D.Held,S.Thrun,andS.Savarese.Learning to track at 100fps with deep regression networks.InProc.of European Conference on Computer Vision(ECCV),pages 749–765.Springer,2016.)。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例的实施方式包括以下步骤：

A.给定事件相机拍摄的图像帧间由于目标运动所产生的异步视觉事件的集合，并按照事件类型将异步视觉事件分为开事件集合和闭事件集合两部分。事件相机(EventCamera)是模仿人类视网膜运作机制的新型视觉传感器。使用的事件相机为DAVIS240c，它可以高速、异步地捕捉场景中存在的视觉事件。这些视觉事件属于开(On)事件或闭(Off)事件的其中一种，其中开事件表示对应的像素坐标的像素值相较于前一时间点发生了指数程度的增长(变亮)；闭事件则与开事件相反，表示指数程度的下降(变暗)。这些像素灰度变化一般由物体运动造成，所以视觉事件可以较为精确地反映物体的运动信息。每个由事件相机捕捉、记录的视觉事件可以表示为如下所示的四元组形式：

其中，(u_k,v_k)表示该视觉事件发生在图像平面上的二维坐标，p_k表示该视觉事件e_k为开事件还是闭事件(对应设置为0或1)。t_k表示视觉事件发生时微秒级别的时间戳。因为物体运动可能同时产生开事件(像素值低于背景部分)和闭事件(像素值高于背景部分)，且其互相之间不存在联系，所以将视觉事件根据开、闭属性分开，使其并行地进入之后的步骤中。

B.对步骤A中的开事件和闭事件集合分别按一定的时间窗口进行分段，形成若干子异步视觉事件集合。因为事件相机是以异步的形式记录视觉事件，也就是说每个像素可以被相应的像素值指数级别变化单独触发，没有传统相机每隔固定时间间隔所有像素同步触发形成同步图像帧的概念。若单独研究每个视觉事件没有意义，则浪费计算资源，所以需要将视觉事件集合中每隔一段采样时间间隔内所记录的视觉事件聚合起来，形成子异步视觉事件集合的形式进入后续的步骤。这里所用到的采样时间间隔设置为T。

C.对步骤B中的每一个子异步视觉事件集合，将其内部的异步视觉事件根据其时空属性投影到一个与事件相机相同尺寸的图像平面上，形成其对应的同步视觉事件帧表示。具体过程如下：假设当前子异步视觉事件集合所对应的采样阶段的开始时刻为t_k，所以对应的采样时间间隔为t_k到t_k+T。首先，初始化一个要投影到的图像平面，该图像平面的尺寸与事件相机分辨率相同。接着，将图像平面的每个坐标的像素值都初始化为0。在投影过程中，当前采样阶段t_k+i-1时刻所对应的第i个视觉事件e_k+i-1将会被投影在对应二维图像平面的(u_k+i-1,v_k+i-1)坐标上。然后，图像(u_k+i-1,v_k+i-1)坐标位置的像素值按照如下所示计算并赋值为g_i：

g_i＝round(255*(t_k+i-1-t_k))/T)

即为t_k到t_k+T时刻子异步视觉事件集合所对应的同步视觉事件帧表示。

将会包含两个通道，分别对应开事件和闭事件。在视觉事件帧生成过程中，较大的运动量将会被反映为较长的相应方向的运动轨迹，便于后续基于深度人工神经网络的运动特征提取和运动参数估计。

D.将步骤C中的视觉事件帧输入包含卷积、长短时记忆和全连接模块的目标运动估计深度人工神经网络中，训练该深度网络学习回归的视觉事件帧中蕴含的5自由度二维目标相似变换运动模型参数。具体过程如下：对于任意目标o，其在第i和i+1图像帧之间的二维图像面上运动可以表示为如下的二维相似变换

其中，d_x和d_y表示目标前后两帧间在图像平面的水平和竖直方向的位移量，θ表示目标前后两帧间的二维旋转角度，s_x和s_y表示目标前后两帧间在图像平面的水平和竖直方向的缩放量。所以目标在图像帧间的运动

是包含5个运动参数(两维平移、一维旋转及两维缩放)的5自由度的二维相似变换。

对于已经生成的视觉事件帧和上述5个要估计的运动参数。本发明使用一个深度人工神经网络提取视觉事件帧中所包含的运动特征和回归、估计对应目标运动的5个运动参数。该深度网络的结构与流程图如图2所示。在实践时，如果单视觉事件帧上包含多个目标，所输入深度网络的视觉事件帧是在原始视觉事件帧上，根据对应目标的包围盒裁剪出来的目标块。这个目标块会缩放到64×64大小，作为所提出的深度网络的输入。如果只包含一个目标可以直接缩放到64×64大小作为输入。所提出的深度网络的具体结构从前到后包含一个卷积模块、一个长短时记忆模块(LSTM)和一个全连接模块。其中卷积模块用于提取视觉事件帧中所包含的运动特征，模块内包含三层卷积核为3、步长为1的卷积层和一层卷积核为1、步长为1的卷积层。所对应的卷积核个数分别为32、64、128和32。每个卷积层后面附加有一个批标准化(Batch Normalization)层，最后一层还附加有一个随机丢弃(DropOut)层防止过拟合。长短时记忆模块接受卷积模块的输出作为输入，用于压缩所提取特征，同时也用于加速训练该深度网络。模块内包含三层每层1568通道的长短时记忆(LSTM)层。全连接模块接受长短时记忆模块的输出作为输入，用于直接回归出所估计的5个运动参数。模块包含一层1568通道的全连接(Fully Connected)层用于接收长短时记忆模块的输入。剩下的部分分为5个分支用于分别独立地回归所估计的5个运动参数。每个分支都包含一个512通道的和一个128通道的全连接层。全连接模块最终的输出是所估计的5个运动参数e₁到e₅。因为目标在实际图像面上的运动与图像的分辨率成比例，所以这些估计的运动参数实际为归一化后的运动参数，表示对应运动的相对强度。这5个运动参数e₁到e₅需要乘以根据事件相机分辨率而调节的各运动分量的尺度参数p₁到p₅完成对d_x到s_y的绝对运动的估计，如下所示：

其中，(d_x,d_y,θ,s_x,s_y)为最终深度网络的输出结果。

在这个深度网络的训练过程中，所用到的训练数据为标记后的事件相机数据集(Event Camera Dataset)。所用到的损失是5个运动参数的平均MSE损失，优化器为ADAM优化器，学习率为α，衰减率为β，衰减步数为ε，每次输入批量(Batch Size)为

E.将测试目标前一帧与当前帧之间的视觉事件帧输入步骤D中训练好的深度网络，得到对应的5自由度帧间运动参数。具体过程如下：通过步骤C构建当前帧c与前一帧c-1之间关于目标o的视觉事件帧

将

输入步骤D中训练好的深度网络，进而得到目标在两帧间的(d_x,d_y,θ,s_x,s_y)5个运动参数。

F.把步骤E中的5自由度平面运动施加给前一帧的目标坐标得到其在当前帧的目标坐标，实现目标运动估计。具体过程如下：将目标在前一帧的坐标(x,y)乘以相应的由步骤E得到的(d_x,d_y,θ,s_x,s_y)所构造的变换矩阵，变换到下一帧目标的对应坐标(x′,y′)，如下所示：

其中，

表示原地(In-place)变换，指经过该变换后，目标要保持前后目标中心对齐。经过这个运动变换后生成的新的坐标即为目标o在当前帧c的位置。这也就实现了从前一帧目标位置到当前帧同一目标的新位置之间的目标运动估计。目标运动估计的质量可以按照如下所示的AOR和AR指标进行度量：

其中，AOR用于测试运动参数的精度，

表示第i个物体的第j次测试所生成的目标包围盒(Bounding Box)，是所有属于该目标的坐标经过运动变换后，再聚合而成的外接矩形框。

是

对应的真实值。连加符号内的部分为

和

的IoU(Intersection-over-Union)值。AR用于测试运动参数的精度，failure_i,j表示当前物体运动是否估计失败，如果

和

的IoU低于μ将会被认为第i个物体的第j次运动估计失败，且failure_i,j为0，反之failure_i,j为1。

在测试阶段，本发明与主流目标运动估计/追踪方法：KCF，TLD，GOTURN，SiamFC和ECO进行了对比。其中本发明与具有代表性的SiamFC，ECO以及GOTURN在事件相机数据集(Event Camera Dataset)和极限事件数据集(Extreme Event Dataset)部分序列上对比的定性结果如图3所示。本发明与其余4个方法在上述两个数据集所有序列上的定量结果分别如表1和表2所示。根据图3的定性结果以及表1和表2的定量结果可以看出，与当前主流的目标运动估计方法相比，本发明的目标运动估计的性能有所提升，尤其是对快速运动和低光照的运动样本具有较好的运动估计效果。

表1

表2

表1为本发明与其他目标运动估计/跟踪方法在事件相机数据集上对比的定量数据结果。采用的是本发明提出的AOR以及AR度量所有方法的精度与鲁棒性。除已经在图3介绍的数据集及工作外：

KCF对应为J.F.Henriques等人提出的方法(J.F.Henriques,R.Caseiro,P.Martins,and J.Batista,“High-speed tracking with kernelized correlationfilters,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.37,no.3,pp.583–596,2015.)；

TLD对应为Y.Zhai等人提出的方法(Z.Kalal,K.Mikolajczyk,and J.Matas,“Tracking-learning-detection,”IEEE Trans.Pattern Anal.Mach.Intell.(TPAMI),vol.34,no.7,pp.1409–1422,2012.)；

表2为本发明与其他目标运动估计/跟踪方法在极限事件数据集上对比的定量数据结果。采用的是本发明提出的AOR以及AR度量所有方法的精度与鲁棒性。相关工作和数据集与图3和表1介绍的一致。

Claims

1.一种基于事件相机的端对端目标运动估计方法，其特征在于包括以下步骤：

1)给定事件相机拍摄的图像帧间由于目标运动所产生的异步视觉事件的集合，并按照事件类型将异步视觉事件分为开事件集合和闭事件集合两部分；所述事件相机是模仿人类视网膜运作机制的新型视觉传感器，使用的事件相机为DAVIS240c，所述DAVIS240c异步地捕捉场景中存在的视觉事件，所述视觉事件属于开事件或闭事件的其中一种，所述开事件表示对应的像素坐标的像素值相较于前一时间点发生指数程度的增长；所述闭事件则与开事件相反，表示指数程度的下降；像素灰度变化由物体运动造成，所以视觉事件反映物体的运动信息，每个由事件相机捕捉、记录的视觉事件表示为如下所示的四元组形式：

其中，(u_k,v_k)表示该视觉事件发生在图像平面上的二维坐标，p_k表示该视觉事件e_k为开事件还是闭事件，对应设置为0或1，t_k表示视觉事件发生时微秒级别的时间戳；因为物体运动同时产生开事件和闭事件，开事件为像素值低于背景部分，闭事件为像素值高于背景部分，且其互相之间不存在联系，所以将视觉事件根据开、闭属性分开，使其并行地进入之后的步骤中；

2)对步骤1)中的开事件和闭事件集合分别按6.66ms的时间窗口进行分段，形成若干子异步视觉事件集合；因为事件相机是以异步的形式记录视觉事件，即每个像素被相应的像素值指数级别变化单独触发，没有传统相机每隔固定时间间隔所有像素同步触发形成同步图像帧的概念；若单独研究每个视觉事件没有意义，则浪费计算资源，所以需要将视觉事件集合中每隔一段采样时间间隔内所记录的视觉事件聚合起来，形成子异步视觉事件集合的形式进入后续的步骤，这里所用到的采样时间间隔设置为T；

g_i＝round(255*(t_k+i-1-t_k))/T)

将会包含两个通道，分别对应开事件和闭事件；在视觉事件帧生成过程中，较大的运动量将会被反映为较长的相应方向的运动轨迹，便于后续基于深度人工神经网络的运动特征提取和运动参数估计；

4)将步骤3)中的视觉事件帧输入包含卷积、长短时记忆和全连接模块的目标运动估计深度人工神经网络中，训练该深度网络学习回归的视觉事件帧中蕴含的5自由度二维目标相似变换运动模型参数，具体过程如下：对于任意目标o，其在第i和i+1图像帧之间的二维图像面上运动表示为如下的二维相似变换

是包含5个运动参数的5自由度的二维相似变换，所述5个运动参数包括两维平移、一维旋转及两维缩放；

对于已经生成的视觉事件帧和上述5个要估计的运动参数，使用一个深度人工神经网络提取视觉事件帧中所包含的运动特征和回归、估计对应目标运动的5个运动参数；这个深度网络从前到后包含一个卷积模块、一个长短时记忆模块和一个全连接模块，其中卷积模块用于提取视觉事件帧中所包含的运动特征，模块内包含三层卷积核为3、步长为1的卷积层和一层卷积核为1、步长为1的卷积层，所对应的卷积核个数分别为32、64、128和32，每个卷积层后面附加有一个批标准化层，最后一层还附加有一个随机丢弃层防止过拟合；长短时记忆模块接受卷积模块的输出作为输入，用于压缩所提取特征，同时也用于加速训练该深度网络；模块内包含三层每层1568通道的长短时记忆层，全连接模块接受长短时记忆模块的输出作为输入，用于直接回归出所估计的5个运动参数；模块包含一层1568通道的全连接层用于接收长短时记忆模块的输入；剩下的部分分为5个分支用于分别独立地回归所估计的5个运动参数；每个分支都包含一个512通道的和一个128通道的全连接层；全连接模块最终的输出是所估计的5个运动参数e₁到e₅；因为目标在实际图像面上的运动与图像的分辨率成比例，所以这些估计的运动参数实际为归一化后的运动参数，表示对应运动的相对强度；这5个运动参数e₁到e₅需要乘以根据事件相机分辨率而调节的各运动分量的尺度参数p₁到p₅完成对d_x到s_y的绝对运动的估计，如下所示：