CN108205679B

CN108205679B - 针对动态视觉传感器跟踪的多尺度加权匹配和传感器融合

Info

Publication number: CN108205679B
Application number: CN201711372041.3A
Authority: CN
Inventors: 冀正平; 石立龙; 王一兵; 柳贤锡; 伊利亚·奥夫桑尼科夫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-12-20
Filing date: 2017-12-19
Publication date: 2023-07-21
Anticipated expiration: 2037-12-19
Also published as: KR102568695B1; KR20180071962A; CN108205679A; US10510160B2; US10733760B2; US20200043196A1; US20180174323A1

Abstract

一种针对动态视觉传感器(DVS)跟踪的多尺度加权匹配和传感器融合。一种动态视觉传感器姿态估计系统包括：DVS、变换估计器、惯性测量单元(IMU)和基于传感器融合的相机姿态估计器。DVS检测DVS事件并且基于多个累积的DVS事件来形成帧。变换估计器基于估计的深度来估计DVS相机的3D变换并且对相机投影模型内的置信水平值进行匹配，使得在第一帧期间检测到的多个DVS事件中的至少一个与在随后的第二帧期间检测到的DVS事件相应。IMU检测在第一帧与第二帧之间的基于世界坐标系的DVS的惯性运动。相机姿态估计器基于估计的变换和检测到的DVS的惯性运动对来自第一帧与第二帧之间的相机投影模型的姿态变化的信息进行组合。

Description

针对动态视觉传感器跟踪的多尺度加权匹配和传感器融合

本专利申请要求于2016年12月20日提交的申请号为62/437,027的美国临时专利申请的优先权权益，其公开通过引用全部合并于此。

技术领域

本文公开的主题总体上涉及动态视觉传感器(DVS)，更具体地，涉及一种用于估计DVS姿态的设备和方法。

背景技术

DVS的输出是相机感测亮度中基于事件的变化。通常，DVS的输出是每个事件与特定状态(即图像传感器阵列内的事件位置和指示亮度的正或负变化的二元状态)相关联的事件流。对特定数量的DVS事件进行采样以形成图像，在该图像中包含一个或更多个事件的像素位置被设置为非零并且其他像素位置全部被设置为零。每个非零像素的值可以通过不同的技术来确定。例如，每个非零像素可以由可包括时间戳、像素坐标和最新事件状态变化(即亮度的正变化为+1，亮度的负变化为-1)的向量u来表示。可选地，非零像素可以由在该位置处出现的事件的数量来表示，或者由最新事件的到来时间来表示。

传统的DVS是没有时间整合的异步传感器，因此DVS帧必须基于特定的采样时间或帧整合时间来形成，使得可以对时间上相邻的帧之间的变化进行比较以估计相机运动。与DVS相机运动或跟踪有关的主要困难包括：(1)每个DVS帧内的特征是稀疏的并且是高度变化的，因此基于特征的图像匹配变得困难，(如果甚至有可能)导致运动估计精度受到影响；(2)由于缺乏关键特征的提取，所以相应的地标由于DVS运动是不可用的。因此，可能难以交叉检查相机运动或姿态的当前估计，并且可能难以参照地标来减小传感器运动估计偏移。

发明内容

本发明构思的示例实施例提供了DVS姿态估计系统，DVS姿态估计系统可以包括DVS、3D变换估计器、惯性测量单元和基于传感器融合的相机姿态估计器。

DVS可以检测DVS事件并且可以基于多个DVS累积的事件来形成帧。变换估计器可以基于估计的深度和对相机投影模型内的置信水平值的匹配来估计3D变换，使得在第一帧期间检测到的多个DVS事件中的至少一个事件与第二帧期间检测到的DVS事件相应，其中，第二帧在第一帧之后。惯性测量单元可以检测在第一帧与第二帧之间的基于世界坐标系的DVS的惯性运动。相机姿态估计器可以基于估计的变换和检测到的DVS的惯性运动对来自DVS相机在第一帧与第二帧之间的姿态变化的信息进行组合。在一个实施例中，相机姿态估计器可以使用检测到的DVS的惯性运动，对基于估计的变换的变换模型在第一帧与第二帧之间的估计姿态的变化进行校正。在一个实施例中，相机姿态估计器可以估计深度并针对多个帧整合时间对第一帧和第二帧的相机投影模型进行匹配，并且变换估计器可以基于对在与第二帧整合时间相应的第一帧和第二帧之间的相机姿态的变化的估计来校正对在与第一帧整合时间相应的第一帧和第二帧之间的相机姿态的变化的第一估计，其中，第一帧整合时间比第二帧整合时间更长。在一个实施例中，变换估计器可以基于下面的等式来估计变换：

其中，i是索引，u是检测到的DVS事件，是针对DVS事件u_i的置信水平值(标量)，I是帧，k是帧索引，π是针对DVS的相机投影模型，π^-1是针对DVS的相机投影模型的逆，u_i是与在相机投影模型π内的检测到的事件u_i相应的向量，/>是在世界坐标系中的DVS事件u_i的(3D)深度，T_k,k-1是在帧I_k-1与帧I_k之间的基于世界坐标系的多个可能向量变换中的一个。

示例实施例提供了一种用于估计DVS相机的姿态的方法，所述方法包括：检测DVS事件；基于估计的深度和对相机投影模型内的置信水平值的匹配来估计DVS相机的变换，使得在第一帧期间检测到的多个DVS事件中的至少一个事件与在第二帧期间检测到的DVS事件相应，其中，第二帧在第一帧之后；检测DVS在第一帧与第二帧之间的基于世界坐标系的惯性运动；基于估计的变换与检测到的DVS的惯性运动的融合来估计在第一帧和第二帧之间的相机投影模型的姿态的变化。

示例实施例提供了一种DVS姿态估计系统，所述系统可包括DVS、变换估计器和基于多尺度时间方式的相机姿态估计器。DVS可以检测在针对DVS相机的相机投影模型内的DVS事件。变换估计器可以基于估计的深度和对相机投影模型内的置信水平值的匹配来估计相机的变换，使得针对至少两个帧整合时间，在第一帧期间检测到的多个DVS事件中的至少一个事件与在第二帧期间检测到的DVS事件相应，其中，针对每个帧整合时间，第二帧在第一帧之后。相机姿态估计器可以基于估计的变换来针对所述多个帧整合时间中的所述至少两个帧整合时间估计在第一帧与第二帧之间的相机姿态的变化，其中，相机姿态估计器还可以基于对在针对第二帧整合时间的第一帧和第二帧之间的相机姿态的变化的估计来校正对在针对第一帧整合时间的第一帧和第二帧之间的相机姿态的变化的估计，其中，第一帧整合时间比第二帧整合时间更长。

根据本发明构思实施例，可提供一种用于精确估计DVS姿态的装置和方法。

附图说明

图1描绘了根据本文公开的主题的DVS姿态估计系统的框图；

图2描绘了根据本文公开的主题的针对相同DVS事件流或相同惯性测量单元输出数据流的两个示例性同步帧整合时间；

图3描绘了在一个实施例中如何确定置信水平值C_u；

图4描绘了根据本文公开的主题的估计DVS相机姿态的示例过程；

图5描绘了根据本文公开的主题的包括包含DVS姿态估计系统的一个或更多个集成电路(芯片)的电子装置；

图6描绘了根据本文公开的主题的可包括DVS姿态估计系统的存储器系统。

具体实施方式

在下面的详细描述中，阐述了许多具体细节以便提供对本公开的透彻理解。然而，本领域技术人员将会理解，可以在没有这些具体细节的情况下实施所公开的方面。在其他情况下，并没有详细描述公知的方法、程序、组件和电路，以免模糊本文公开的主题。

在整个说明书中，提及“一个实施例”或“实施例”意味着结合实施例描述的特定特征、结构或特性可以被包括在本文公开的至少一个实施例中。因此，在整个说明书的各个地方中出现的短语“在一个实施例中”或“在实施例中”或“根据一个实施例”(或具有相似含义的其他短语)不一定全部指代相同的实施例。此外，特定特征、结构或特性可以以任何合适的方式在一个或更多个实施例中进行组合。在这方面，如本文使用的，词语“示例性”是指“用作示例、实例或说明”。本文中描述为“示例性”的任何实施例不应被解释为必然比其他实施例更加优选或更加优越。此外，根据本文讨论的上下文，单个术语可以包括相应的复数形式，并且复数术语可以包括相应的单数形式。还应注意的是，本文示出和讨论的各种附图(包括组件示图)仅用于说明的目的，而不是按比例进行绘制。类似地，示出的各种波形和时序图仅用于说明的目的。例如，为了清楚起见，相对于其它元件，一些元件的尺寸可以被夸大。此外，如果出于适当的考虑，则在附图中重复的标号用于表示相应的和/或类似的元件。

本文使用的术语仅用于描述特定示例性实施例的目的，并不旨在限制要求保护的主题。如本文使用的，单数形式也旨在包括复数形式，除非上下文另有明确指示。将进一步理解，当在本说明书中使用术语“包括”和/或“包含”时，术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多个其它特征、整数、步骤、操作、元件、组件和/或其组合的存在或添加。如本文使用的术语“第一”、“第二”等被用作其前述名词的标签，除非明确定义，否则它们并不指示任何类型(例如，空间、时间、逻辑等)的排序。此外，在两个或更多个附图中可交叉使用相同的附图标号来表示具有相同或相似功能的部件、组件、块、电路、单元或模块。然而，这样的用法仅用于简单的说明并且易于讨论；这并不意味着这些组件或单元的构造或结构细节在所有实施例中是相同的，或者这样共同参照的部件/模块是实现本文公开的特定实施例的教导的唯一方式。

除非另有定义，否则本文使用的所有术语(包括技术和科学术语)具有与本主题所属领域的普通技术人员通常理解的含义相同的含义。还将理解，除非本文明确定义，否则诸如常用词典中定义的术语应被解释为具有与其在相关领域的上下文中的含义一致的含义，并且不会以理想化或过度正式的方式进行解释。

如本文使用的术语“模块”是指被配置为提供本文描述的与模块相关的功能的软件、固件和/或硬件的任何组合。如被应用于本文描述的任何实现的术语“软件”可以被实现为软件包、代码和/或指令集或多个指令。如被应用于本文描述的任何实现的术语“硬件”可以包括例如硬连线电路、可编程电路、状态机电路和/或存储由可编程电路执行的指令的固件中的单独一个或任意的组合。模块可以共同地或单独地被实现为形成更大系统(诸如但不限于集成电路(IC)、片上系统(SoC)等)的一部分的软件、固件和/或硬件。

本文公开的主题涉及一种具有自适应采样时间的DVS姿态估计系统，其中,该DVS姿态估计系统提供基于相机的深度估计器以及对在相机投影模型内检测到的事件之间的时间相关性的置信图的匹配的对DVS相机姿态的估计。基于置信图，在两帧之间执行加权图像匹配以估计DVS的姿态和位置。与常规匹配技术相比，基于置信图的加权图像匹配提供了更大的对多个帧的匹配的精度。也就是说，由于局部特征在DVS帧中是稀疏的和高度变化的，所以基于局部特征匹配的基准跟踪系统是不合适的，并且可能缺乏对全局映射的参照，从而导致估计偏移。本文公开的主题使用多尺度时间分辨率技术来最大化估计的相机姿态的可能性并且减少估计偏移。为了进一步避免系统偏差和时间整合偏移，惯性测量单元传感器可以与DVS集成以优化系统精度。

本文公开的主题还提供了一种DVS跟踪系统，其中,该DVS跟踪系统提供帧之间的多尺度加权匹配和传感器融合以进行DVS相机跟踪。在一个实施例中，使用多尺度图像匹配技术来减小由DVS帧之间的高特征/事件变化引起的DVS姿态估计误差。IMU传感器数据可以并入到DVS姿态估计以避免系统偏差、减少时间整合偏移并优化跟踪精度。

在一个实施例中，基于置信图的图像表示的加权图像匹配技术可以导致更高的匹配精度，其提供更好的DVS图像识别和DVS同步定位与地图构建(SLAM)。此外，多尺度图像匹配技术降低了DVS姿态估计误差。DVS姿态估计系统与IMU传感器的融合可进一步避免系统偏差、减少时间整合偏移和优化跟踪精度。

图1描绘了根据本文公开的主题的DVS姿态估计系统100的框图。系统100包括DVS101、帧形成器102、变换估计器103、相机姿态估计器104、惯性测量单元(IMU)105和整合器106。应当理解，图1中描绘的各种块可被实现为物理硬件模块、软件模块或物理硬件模块和软件模块的组合(固件)来实现。

DVS 101检测DVS 101的视场内的DVS事件。DVS 101的视场可以通过针对DVS 101的相机投影模型π来建模。DVS 101将DVS事件数据流107输出到帧形成器102。DVS数据流107包括事件流，在事件流中,每个事件与特定状态(即图像传感器阵列内的事件位置和指示亮度的正或负变化的二元状态)相关联。

帧形成器102接收帧选择信息108，其中,帧选择信息108设置被应用于DVS事件数据流107的帧整合时间。如本文使用的，术语“帧整合时间”是指可选择的时间段，在可选择的时间段期间收集DVS事件并将DVS事件关联在一起以形成帧。例如，在一个实施例中，可以选择50ms的帧整合时间，并且在每50ms的时间段期间收集DVS事件，并将DVS事件关联在一起形成同一帧。在另一个实施例中，可以选择100ms的帧整合时间，并且在每100ms的时间段期间收集DVS事件，并且将DVS事件关联在一起形成同一帧。应当理解，帧整合时间可以与50ms或100ms不同。此外，在一个实施例中，可以同时选择至少两个帧整合时间。

图2描绘了根据本文公开的主题的针对相同DVS事件流或相同IMU输出数据流的两个示例性同步帧整合时间。如图2描绘的，可以同时选择50ms的帧整合时间和100ms的帧整合时间，并且DVS事件(和/或IMU输出数据)同时与对应于两个帧整合时间的帧相关联。在其他实施例中，可以选择多于两个的同步帧整合时间。

帧形成器102针对已经选择的每个帧整合时间，将DVS事件的帧输出到变换估计器103。变换估计器103针对已经选择的每个帧整合时间估计DVS事件从一帧到下一帧的变换。作为估计处理的一部分，变换估计器103基于在从一帧到下一帧的检测到的事件之间的时间相关性，在针对DVS 101的相机投影模型π内产生置信图。对于在帧k中的每个检测到的DVS事件u相对于在前一帧k-1中的每个检测到的DVS事件u，确定置信水平值C_u，其中,置信水平值C_u表示在帧k中的事件u物理上与在前一帧k-1中的事件u相应的置信度。

图3描绘了在一个实施例中如何确定置信水平值C_u，针对当前帧k内的事件u，

C_u＝N+αM

其中，N是出现在当前帧k中的时间窗TW内的事件u附近的事件的数量，M是在前一帧k-1中被确定为置信的先前事件的数量，α可以是常数、可以依赖于时间间隔或者可以依赖于帧。如果C_u大于或等于预定阈值，则事件u被确定为具有置信水平值C_u＝N+αM的置信事件。

在一个实施例中，变换估计器103基于下面的公式来估计在一对时间上连续的帧中的检测到的事件的变换。

其中，i是索引，u是检测到的DVS事件，是针对DVS事件u_i的置信水平值(标量)，I是帧，k是帧索引，π是针对DVS的相机投影模型，π^-1是针对DVS的相机投影模型的逆，u_i是与在相机投影模型π内的检测到的事件u_i相应的向量，/>是在世界坐标系中的DVS事件u_i的(3D)深度，T_k,k-1是在帧I_k-1与帧I_k之间的基于世界坐标系的多个可能向量变换中的一个。变换模型基于深度/>和相机投影模型π中的置信事件/>的匹配来估计相机的3D变换(即，T_k,k-1)。相机投影模型包括用于将3D世界点投影到在帧中的位置的变换矩阵，但是相机投影模型的变换矩阵可以在相机校准时被加在前面并且通过相机运动不会发生变化。因此，相机投影变换与针对相机从一帧运动到下一帧估计的变换不同。

变换估计器103针对具有不同帧整合时间的每个事件流，估计每对时间上连续的帧的变换。也就是说，如果仅选择一个帧整合时间，则变换估计器103估计在由变换估计器103接收的一个事件流中的每对时间上连续的帧的变换。如果选择了两个或更多个帧整合时间，则变换估计器103针对与选择的帧整合时间相应的每个事件流，估计在每对时间上连续的帧的变换。

变换估计器103将估计的变换输出到相机姿态估计器104。在一个实施例中，相机姿态估计器104使用估计的变换来估计针对世界坐标系中的映射而对准的相机姿态，而不是基于前一帧来对准相机姿态。如果已经选择了两个或更多个帧整合时间，则相机姿态估计器104针对具有不同帧整合时间的每个各自事件流，估计相机姿态。图4描绘了根据本文公开的主题的估计DVS相机姿态的示例过程。在图4中，当前帧I_k和先前帧I_k-1被描绘为包括已被确定为具有高置信水平的DVS事件u。也就是说，在帧I_k-1中的DVS事件u₁、u₂和u₃与在帧I_k中的DVS事件u′₁、u′₂和u′₃分别具有高置信水平值。在帧I_k-1和帧I_k之间确定变换T_k,k-1。变换T_k,k-1被用于将事件映射到世界坐标系，然后变换T_k,k-1被用于基于世界坐标系来估计相机姿态p₁、p₂和p₃。

参照回图1，IMU 105可以被物理地耦接到DVS 101，使得IMU 105检测DVS 101的惯性运动。IMU 105的输出通过整合器106进行整合，其中，整合器106使用相同的帧整合时间并与由帧形成器102使用的帧整合时间同步。如果通过帧选择信息108已经选择了不只一个帧整合时间，则整合器106将针对每个选择的帧整合时间的IMU 105的输出同时整合。(参见，例如图2)。

在一个实施例中，相机姿态估计器104从变换估计器103接收估计的变换和从整合器106接收输出，并且相机姿态估计器104可以使用从集成的IMU 105接收的输出来校正或更新DVS的估计姿态。在一个实施例中，相机姿态估计器105还可以使用从整合器106接收的输出来基于接收到的估计的变换和从整合器106接收到的输出来估计DVS的位置和/或运动。

在另一个实施例中，相机姿态估计器104可以使用基于两个不同的帧整合时间产生的两个估计的变换来校正或更新估计的姿态。也就是说，相机姿态估计器104可以使用基于相对较短的帧整合时间(诸如50ms)的估计的变换，来校正或更新根据基于相对较长的帧整合时间(诸如如100ms帧整合时间)的变换而估计的姿态。例如，相机姿态估计器104可以使用基于50ms整合时间的每个第四估计的姿态来校正或更新基于100ms帧整合时间的每个第二估计的姿态。(参见，例如图2中的虚线201)。在另一个实施例中，相机姿态估计器104可以使用基于相对较短的帧整合时间(诸如50ms)的接收到的变换和从整合器106接收到输出，来校正或更新来自于基于相对较长的帧整合时间(诸如100ms帧整合时间)的接收到的变换和从整合器106接收的输出的DVS的估计的姿态、估计的位置和/或估计的运动(参见例如图2)。

图5描绘了根据本文公开的主题的包括包含DVS姿态估计系统的一个或更多个集成电路(芯片)的电子装置500。电子装置500可以被用于但不限于计算装置、个人数字助理(PDA)、膝上型计算机、移动计算机、网络平板、无线电话、蜂窝电话、智能电话、数字音乐播放器或者有线或无线电子装置。电子装置500可以包括通过总线550彼此耦接的控制器510、输入/输出装置520(诸如但不限于小键盘、键盘、显示器或触摸屏显示器)、存储器530和无线接口540。控制器510可以包括例如至少一个微处理器、至少一个数字信号处理器、至少一个微控制器等。存储器530可以被配置为存储用户数据或被控制器510使用的命令代码。电子装置500和包括电子装置500的各种系统组件可以包括根据本文公开的主题的DVS姿态估计系统。电子装置500可以使用被配置为使用RF信号向无线通信网络发送数据或从无线通信网络接收数据的无线接口540。无线接口540可以包括例如天线、无线收发器等。电子系统500可以被用于通信系统的通信接口协议中，例如但不限于码分多址(CDMA)、全球移动通信系统(GSM)、北美数字通信(NADC)、扩展时分多址(E-TDMA)、宽带CDMA(WCDMA)、CDMA 2000、Wi-Fi、市政Wi-Fi(Muni Wi-Fi)、蓝牙、数字增强无绳电信(DECT)、无线通用串行总线(Wireless USB)、具有无缝切换正交频分复用的快速低延迟接入(Flash OFDM)、IEEE802.20、通用分组无线业务(GPRS)、iBurst、无线宽带(WiBro)、WiMAX、高级WiMAX、通用移动电信业务-时分双工(UMTS TDD)、高速分组接入(HSPA)、演进数据优化(EVDO)、高级长期演进(高级LTE)、多信道多点分配业务(MMDS)等。

图6描绘了根据本文公开的主题的可以包括DVS姿态估计系统的存储器系统600。存储器系统600可以包括用于存储大量数据的存储器装置610以及存储器控制器620。响应于主机630的读取/写入请求，存储器控制器620控制存储器装置610读取存储在存储器装置610中的数据或将数据写入到存储器装置610中。存储器控制器620可以包括用于将从主机630(例如，移动装置或计算机系统)提供的地址映射到存储器装置610的物理地址的地址映射表。存储器装置610可以包括一个或更多个半导体装置，其中，所述一个或更多个半导体装置包括根据本文公开的主题的DVS姿态估计系统。

如本领域技术人员将认识到的，本文描述的创新构思能够在广泛的应用中被修改和变化。因此，要求保护的主题的范围不应被限于上述讨论的任何具体的示例性教导，而是由附属权利要求所限定。

Claims

1.一种动态视觉传感器姿态估计系统，包括：

动态视觉传感器，用于检测动态视觉传感器事件并且基于累积的动态视觉传感器事件来形成帧；

变换估计器，用于基于估计的深度来估计动态视觉传感器相机的变换并且对相机投影模型内的置信水平值进行匹配，使得在第一帧期间检测到的多个动态视觉传感器事件中的至少一个与在第二帧期间检测到的动态视觉传感器事件相应，其中，第二帧在第一帧之后；

惯性测量单元，用于检测动态视觉传感器在第一帧与第二帧之间的基于世界坐标系的惯性运动；

相机姿态估计器，用于基于估计的变换和检测到的动态视觉传感器的惯性运动，对来自动态视觉传感器相机在第一帧与第二帧之间的姿态的变化的信息进行组合,

其中，变换估计器基于下面的等式来估计动态视觉传感器相机的变换：

其中，i是索引，u是检测到的动态视觉传感器事件，是针对动态视觉传感器事件u_i的作为标量的置信水平值，I是帧，k是帧索引，π是针对动态视觉传感器的相机投影模型，π^-1是针对动态视觉传感器的相机投影模型的逆，u_i是与在相机投影模型π内的检测到的事件u_i相应的向量，/>是在世界坐标系中的动态视觉传感器事件u_i的三维深度，T_k,k-1是在帧I_k-1与帧I_k之间的基于世界坐标系的多个可能向量变换中的一个。

2.如权利要求1所述的系统，其中，相机姿态估计器使用检测到的动态视觉传感器的惯性运动，对基于所述估计的变换的变换模型在第一帧与第二帧之间的估计姿态的变化进行校正。

3.如权利要求1所述的系统，其中，变换估计器针对多个帧整合时间估计在第一帧与第二帧之间的动态视觉传感器相机的变换，

其中，相机姿态估计器基于对动态视觉传感器相机在与第二帧整合时间相应的第一帧和第二帧之间的姿态变化的估计，校正对动态视觉传感器相机在与第一帧整合时间相应的第一帧和第二帧之间的姿态变化的第一估计，其中，第一帧整合时间比第二帧整合时间更长。

4.如权利要求1所述的系统，其中，变换估计器针对多个帧整合时间估计在第一帧与第二帧之间的动态视觉传感器相机的变换，

其中，惯性测量单元针对所述多个帧整合时间中的每一个检测动态视觉传感器在第一帧与第二帧之间的基于世界坐标系的惯性运动。

5.如权利要求1所述的系统，其中，相机姿态估计器使用动态视觉传感器的检测到的惯性运动，对基于估计的变换的动态视觉传感器的相机投影模型在第一帧与第二帧之间的估计姿态的变化进行校正。

6.一种用于估计动态视觉传感器的相机的姿态的方法，所述方法包括：

检测动态视觉传感器事件并从累积的动态视觉传感器事件形成帧；

基于估计的深度来估计相机的变换，并且对相机投影模型内的置信水平值进行匹配，使得在第一帧期间检测到的多个动态视觉传感器事件中的至少一个与在第二帧期间检测到的动态视觉传感器事件相应，其中，第二帧在第一帧之后；

检测动态视觉传感器在第一帧与第二帧之间的基于世界坐标系的惯性运动；

基于所述估计的变换和检测到的动态视觉传感器的惯性运动来估计相机在第一帧和第二帧之间的姿态变化，

其中，估计相机的变换的步骤包括：基于下面的等式来估计所述变换：

7.如权利要求6所述的方法，还包括：

使用检测到的动态视觉传感器的惯性运动，对基于所述估计的变换而产生的相机在第一帧与第二帧之间的估计姿态变化进行校正。

8.如权利要求6所述的方法，其中，估计相机的变换的步骤包括：针对多个帧整合时间估计相机的变换，

所述方法还包括：

基于对相机在与第二帧整合时间相应的在第一帧和第二帧之间的姿态变化的估计，校正相机在与第一帧整合时间相应的在第一帧和第二帧之间的姿态变化的估计，其中，第一帧整合时间比第二帧整合时间更长。

9.如权利要求6所述的方法，其中，估计相机的变换的步骤包括：针对多个帧整合时间估计在第一帧和第二帧之间的相机的变换，

其中，检测动态视觉传感器的惯性运动的步骤包括：针对所述多个帧整合时间中的每一个检测动态视觉传感器在第一帧与第二帧之间的基于世界坐标系的惯性运动。

10.如权利要求6所述的方法，其中，估计相机的变换的步骤包括：针对多个帧整合时间估计在第一帧和第二帧之间的相机的变换，

所述方法还包括：

基于对相机在与第二帧整合时间相应的在第一帧和第二帧之间的姿态变化的估计，校正对相机在与第一帧整合时间相应的在第一帧和第二帧之间的姿态变化的估计，其中，第一帧整合时间比第二帧整合时间更长。

11.一种动态视觉传感器姿态估计系统，包括：

动态视觉传感器，用于检测动态视觉传感器事件并且基于多个累积的事件来形成帧；

变换估计器，用于基于估计的深度来估计动态视觉传感器的相机的变换并且对相机投影模型内的置信水平值进行匹配，使得针对至少两个帧整合时间，在第一帧期间检测到的多个动态视觉传感器事件中的至少一个与在第二帧期间检测到的动态视觉传感器事件相应，其中，针对每个帧整合时间，第二帧在第一帧之后；

相机姿态估计器，用于基于估计的变换来针对多个帧整合时间中的所述至少两个帧整合时间估计相机在第一帧与第二帧之间的姿态变化，相机姿态估计器还用于基于对相机在针对第二帧整合时间的第一帧与第二帧之间的姿态变化的估计，校正对相机在针对第一帧整合时间的第一帧与第二帧之间的姿态变化的估计，其中，第一帧整合时间比第二帧整合时间更长,

其中，变换估计器基于下面的等式来针对每个帧整合时间估计所述变换：

12.如权利要求11所述的系统，还包括惯性测量单元，用于针对所述至少两个帧整合时间中的每一个检测动态视觉传感器在第一帧与第二帧之间的基于世界坐标系的惯性运动。

13.如权利要求12所述的系统，其中，相机姿态估计器还使用检测到的动态视觉传感器的惯性运动，对基于估计的变换而产生的相机在针对每个帧整合时间的第一帧与第二帧之间的估计姿态变化进行校正。