CN116310408B

CN116310408B - 一种建立事件相机与帧相机数据关联的方法及装置

Info

Publication number: CN116310408B
Application number: CN202211515830.9A
Authority: CN
Inventors: 施柏鑫; 张德皓; 段沛奇; 周矗
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-10-13
Anticipated expiration: 2042-11-29
Also published as: CN116310408A

Abstract

本发明公开了一种建立事件相机与帧相机数据关联的方法及装置，基于transformer的神经网络，显式地建立事件相机与帧相机的数据关联，很好地结合了帧相机和事件相机的优势，避免了事件相机位姿估计中的初始解敏感问题，同时保证了精度，使得事件相机和帧相机的组合在不同的应用场景下都表现地更好、更加稳定，可以应用到多个应用场景中，比如深度估计、相机位姿估计等等。此外，本发明的方法和装置，在构造的仿真数据集上进行训练，并在真实数据上取得了比较好的效果。

Description

一种建立事件相机与帧相机数据关联的方法及装置

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于transformer网络建立事件相机与帧相机数据关联的方法及装置。

背景技术

近年来，增强现实(Augmented Reality)/虚拟现实(Virtual Reality)行业和自动驾驶行业发展迅速，元宇宙、新能源汽车吸引了社会广泛的关注。三维计算机视觉技术的突破性发展是相关行业取得发展的必要条件之一。增强现实中的视觉定位与导航、虚拟现实应用中的低成本三维重建、自动驾驶中导航功能，主要的挑战之一就是如何进行快速、准确的相机位姿估计，以及进行准确的场景深度估计。其中位姿估计的意思是使用三维计算机视觉技术计算手机或者车辆的位姿(pose)，包括相机平移以及相机旋转。

在基于先验地图的帧相机位姿估计中，当相机发生高速运动或相机所在的场景光线环境不佳的时候，传统的帧相机往往无法拍出清晰的图像，会导致这些条件下相机位姿估计的结果变得很差。而事件相机参考人类视觉系统硅视网膜的设计，异步地捕捉场景动态信息，其高时间分辨率(<10μs)，高动态范围(>120dB)的特性使得相机在高速运动或所处环境光线不佳时仍然能够拍到捕获到比较清晰的信息。在场景深度估计任务中也也可得较好的应用。

尽管事件相机在位姿估计、深度估计中具有高时间分辨率和高动态范围的优势，但是，事件相机通常空间分辨率较低，比如DAVIS240的像素分辨率仅为180×240，而且事件相机只记录灰度信息，这导致在重建先验地图上事件相机具有很大的劣势。

目前，最好的事件相机三维重建也仅仅局限在小范围的场景重建，而现有的帧相机三维重建工作已经可以处理城市级别的场景重建。基于此，本发明提出构想：如果能够实现用帧相机构建先验地图，再用事件相机基于先验地图来进行位姿估计，就能够很好地结合这两种相机各自的优势，解决之前仅仅使用帧相机或者仅仅使用事件相机都无法解决的实际问题。同样的，在深度估计场景下，结合两种相机不同的特性也能够更准确地进行深度估计。

然而，利用事件相机的生成模型来建立事件流到图像的匹配，生成模型是根据相机的运动信息在事件流和图像之间建立关联，从而建模出一个最大似然问题，并用最优化的方式进行求解。这种基于跟踪的方法来进行相机定位，当相机的初始解不好的时候，最终优化得到的解会偏差特别大。基于生成模型建立事件相机和帧相机之间的数据关联在拓展上具有局限性，很难拓展到其他场景或者任务中。同时，基于注意力机制的神经网络，端到端地输入图片和事件相机数据，输出场景的深度估计结果，缺乏显式地建立帧相机与事件相机数据关联的过程，容易在具体的任务和场景下过拟合，并且整套方案的可迁移性差。

发明内容

本发明针对上述基于生成模型建立事件相机和帧相机之间的数据关联在拓展上具有局限性、可迁移性差的问题，提出一种基于transformer网络建立事件相机与帧相机数据关联的方法，显式地建立事件相机与帧相机的数据关联，可以应用到多个应用场景中，并在相机位姿估计中不存在初始解敏感的问题，同时保证精度。

为了实现上述目的，本发明提供如下技术方案：

一方面，本发明提供了一种建立事件相机与帧相机数据关联的方法，包括以下步骤：

S1、输入事件相机与帧相机的事件流以及图像帧，将事件流表示为时间表面的形式，事件相机与帧相机的帧图像采用灰度图分别送入两个不同的FPN去提取不同层次的粗特征；

S2、将FPN提取的粗特征作为输入，经过LSparse-Net的Transformer的注意力机制得到两个特征图，计算两个特征图上两两特征的相关性，得到一个相关性矩阵；通过一个额外的解码器来过滤得到的误匹配；使用mutual nearest算法进行校验，在匹配矩阵中找到相互最匹配的匹配对，进而筛选出最终的粗粒度匹配；

S3、将FPN提取的粗特征和步骤S3的粗粒度匹配共同作为输入，经过SDense-Net的Transformer的注意力机制得到两个特征图，计算两个特征图上两两特征的相关性，得到另一个相关性矩阵；对于相机姿态估计任务，直接根据匹配点计算出相机的姿态估计；对于深度估计任务，根据匹配点额外接入一个深度预测模块进行预测深度。

进一步地，神经网络训练时，基于ScanNet数据集、采用V2E事件流进行了仿真数据的合成，ScanNet数据包括视频以及每一帧图像对应的深度图和相机的姿态信息，生成出训练数据所需要的事件流到帧相机数据的对应关系。

进一步地，在位姿估计任务中，以事件流到帧相机数据的对应关系作为监督信号，在仿真数据上进行训练，在真实数据上进行推理和测试。

进一步地，在深度估计任务中，以场景的真实深度作为监督信号，在真实数据上直接进行训练和测试。

另一方面，本发明还提供了一种建立事件相机与帧相机数据关联的装置，包括以下模块以实现上述任一项所述的方法：

预处理模块，用于将事件流表示为时间表面的形式以及将帧图像采用灰度图分别送入两个不同的FPN；

FPN特征提取模块，包括两个不同的FPN，用于提取事件相机与帧相机的帧图像灰度图的不同层次粗特征；

LSparse-Net，用于建立粗粒度的匹配，包括将FPN提取的粗特征作为输入，经过LSparse-Net的Transformer的注意力机制得到两个特征图，计算两个特征图上两两特征的相关性，得到一个相关性矩阵，然后通过一个额外的解码器来过滤得到的误匹配，最后使用mutual nearest算法进行校验，在匹配矩阵中找到相互最匹配的匹配对，进而筛选出最终的粗粒度匹配；

SDense-Net，用于建立细粒度的数据关联，包括将FPN提取的粗特征和LSparse-Ne输出的粗粒度匹配共同作为输入，然后经过SDense-Net的Transformer的注意力机制得到两个特征图，最后计算两个特征图上两两特征的相关性，得到另一个相关性矩阵；

相机姿态估计模块，根据SDense-Net输出的匹配点计算出相机的姿态估计；

深度估计模块，根据SDense-Net输出的匹配点额外接入一个深度预测模块进行预测深度。

又一方面，本发明还提供了一种设备，包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一项所述的方法。

与现有技术相比，本发明的有益效果为：

本发明的建立事件相机与帧相机数据关联的方法和装置，基于transformer的神经网络，显式地建立事件相机与帧相机的数据关联，很好地结合了帧相机和事件相机的优势，避免了事件相机位姿估计中的初始解敏感问题，同时保证了精度，使得事件相机和帧相机的组合在不同的应用场景下都表现地更好、更加稳定，可以应用到多个应用场景中，比如深度估计、相机位姿估计等等。此外，本发明的方法和装置，在构造的仿真数据集上进行训练，并在真实数据上取得了比较好的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的建立事件相机与帧相机数据关联的方法流程图。

图2为本发明实施例提供的建立事件相机与帧相机数据关联的网络结构图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明的建立事件相机与帧相机数据关联的方法，如图1和2所示，包括步骤具体如下：

S1、输入事件相机与帧相机的事件流以及图像帧，将事件流表示为时间表面的形式，事件相机与帧相机的帧图像采用灰度图分别送入两个不同的FPN(feature pyramidnetwork)去提取不同层次的粗特征；便于后续阶段的网络处理。

S2、将FPN提取的粗特征(Coarse-level feature)作为输入，经过LSparse-Net的Transformer的注意力机制得到两个特征图，大小均为N_L；计算两个特征图上两两特征的相关性，得到一个相关性矩阵C_L；通过一个额外的解码器(decoder)来过滤得到的误匹配；使用mutual nearest算法进行校验，在匹配矩阵中找到相互最匹配的匹配对，进而筛选出最终的粗粒度匹配；LSparse-Net设计的目的是建立粗粒度、稀疏的匹配。

S3、将FPN提取的粗特征和步骤S3的粗粒度匹配共同作为输入，经过SDense-Net的Transformer的注意力机制得到两个特征图，大小均为N_S；计算两个特征图上两两特征的相关性，得到另一个相关性矩阵C_S；对于相机姿态估计任务，直接根据匹配点计算出相机的姿态估计；对于深度估计任务，根据匹配点额外接入一个深度预测模块进行预测深度。SDense-Net的设计目的是建立细粒度、稠密的数据关联。主体的结构和Lsparse-Net比较类似，不同的是Sdense-Net是在Lsparse-Net找到的数据关联区域上去进行建立对应关系。

基于上述从粗粒度到细粒度的匹配，可以建立帧图像到事件相机流的匹配方法，进而完成帧相机和事件相机联合的位姿估计以及深度估计任务。

本发明采用合成数据对神经网络进行训练，具体训练过程如下：

(1)合成训练数据

本发明所需要的监督信息在现实生活中很难进行采集，于是本发明基于ScanNet数据集、采用V2E事件流进行了仿真数据的合成。ScanNet数据包括视频以及每一帧图像对应的深度图和相机的姿态信息，生成出训练数据所需要的事件流到帧相机数据的对应关系。

(2)训练过程

在位姿估计任务中，以事件流到帧相机数据的对应关系作为监督信号，采用如上所介绍的神经网络流程，在仿真数据上进行训练，在真实数据上进行推理和测试。

在深度估计任务中，以场景的真实深度作为监督信号，采用如上所介绍的神经网络流程以及一个深度预测模块，在真实数据上直接进行训练和测试。

相应于上述本发明实施例提供的方法，本发明提供了一种建立事件相机与帧相机数据关联的装置，包括以下模块以实现上述实施例任一项所述的方法：

本发明的方法或装置在相机位姿估计场景下，实施流程如下：

(1)使用RGB或者RGBD相机进行SMF(structure from motion)或者kinect fusion进行场景重建，从而获得场景的三维地图；

(2)当事件相机位于重建好的场景下运动的时候，提取事件相机某一个极短时间内的数据与场景重建用到的RGB图片数据，输入到本文提出的神经网络中进行关联，即可找到两者数据上的2D到2D的匹配关系；

(3)在场景的三维地图已知的情况下，可以通过图片的2D坐标得到对应的3D坐标。于是在已知事件流2D坐标以及其对应的3D坐标情况下，可以通过求解PnP(Perspective nPoints，利用世界坐标系下空间3D点的坐标和图像坐标系下对应2D点坐标之间的几何关系求解相机位姿的问题)问题，得到相机最终的姿态。

深度估计是一种从2D图像中估计深度的视觉任务。常见的应用包括平滑图像的模糊部分，3D场景渲染，自动驾驶汽车，机器人辅助手术等等。本发明的方法和装置，在构造的仿真数据集上进行训练，并在真实数据上取得了比较好的效果。如表1所示，表格中记录的是真实数据下的中位数准确度。其中平移误差为平移分量真值和估计值的欧式距离(Ori.)，旋转误差为旋转分量真值和估计值的测地距离(Pos.)。

表1

综上，相比现有技术，本发明通过显式地建立帧相机与事件相机数据的关联，避免了事件相机位姿估计中的初始解敏感问题，在应用上更加稳定。同时，本发明基于transformer的神经网络，建立事件相机与帧相机数据关联的方法，很好地结合了帧相机和事件相机的优势，使得事件相机和帧相机的组合在不同的应用场景下都表现地更好。

相应于上述本发明实施例提供的方法，本发明实施例还提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述本发明实施例提供的方法流程。

上述控制设备设备中提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字终端设备线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例和计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种建立事件相机与帧相机数据关联的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的建立事件相机与帧相机数据关联的方法，其特征在于，神经网络训练时，基于ScanNet数据集、采用V2E事件流进行了仿真数据的合成，ScanNet数据包括视频以及每一帧图像对应的深度图和相机的姿态信息，生成出训练数据所需要的事件流到帧相机数据的对应关系。

3.根据权利要求2所述的建立事件相机与帧相机数据关联的方法，其特征在于，在位姿估计任务中，以事件流到帧相机数据的对应关系作为监督信号，在仿真数据上进行训练，在真实数据上进行推理和测试。

4.根据权利要求2所述的建立事件相机与帧相机数据关联的方法，其特征在于，在深度估计任务中，以场景的真实深度作为监督信号，在真实数据上直接进行训练和测试。

5.一种建立事件相机与帧相机数据关联的装置，其特征在于，包括事件相机与帧相机以及以下模块以实现权利要求1-4任一项所述的方法：

LSparse-Net，用于建立粗粒度的匹配，包括将FPN提取的粗特征作为输入，经过LSparse-Net的Transformer的注意力机制得到两个特征图，计算两个特征图上两两特征的相关性，得到一个相关性矩阵，然后通过一个额外的解码器来过滤得到的误匹配，最后使用mutualnearest算法进行校验，在匹配矩阵中找到相互最匹配的匹配对，进而筛选出最终的粗粒度匹配；

6.一种设备，其特征在于，包括处理器、通信接口、存储器和通信总线，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；其特征在于，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一项所述的方法。