CN113222945A

CN113222945A - 基于双目事件相机的深度信息测量方法

Info

Publication number: CN113222945A
Application number: CN202110543405.XA
Authority: CN
Inventors: 李甫; 姚放; 张天娇; 尚旭东; 牛毅; 石光明; 张利剑; 陈远方
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-06
Anticipated expiration: 2041-05-19
Also published as: CN113222945B

Abstract

本发明公开了一种基于双目事件相机的深度信息测量方法，主要解决现有方法难以测量出准确、稠密的场景深度信息的问题。其实现方案为：构建基于双目事件相机的视差计算网络；通过从数据集中获取事件流和视差真值矩阵，对事件流进行归纳表示、注意力聚合和双目匹配，得到视差矩阵并最小化其与视差真值矩阵的差异，实现对视差计算网络的训练；搭建由双目相机组、场景和计算机组成的深度信息测量系统；用训练好的视差计算网络和搭建的深度信息测量系统，测量实际场景的深度信息。本发明能有效提取事件流的时空信息和聚合特征，使得对噪声更加鲁棒，测出的稠密深度信息更加准确，可应用于工业监控、医学科学、人机交互、虚拟现实、现实增强和自动驾驶。

Description

基于双目事件相机的深度信息测量方法

技术领域

本发明属于测量技术领域，主要涉及一种深度信息的测量方法，可应用于工业监控、医学科学、人机交互、虚拟现实、现实增强、以及自动驾驶场景。

背景技术

传统采集设备从场景中采集到的信号仅包含空间域上的二维信息，不含三维深度信息。而仅靠场景的二维信息已经无法满足实际生产生活需要。如何从场景中高效获取三维深度信息已成为当前研究的热点。

目前，深度信息测量技术仍然主要使用标准相机。标准相机以固定时间间隔生成绝对强度图像帧，耗能较多且容易产生运动模糊，难以应对高速移动或照明剧烈变化的场景。

近年来，基于事件的相机，简称为事件相机，已开始用于深度信息测量。事件相机是受生物启发的视觉传感器，典型的事件相机包括动态视觉传感器DVS、动态主动像素视觉传感器DAVIS等。事件相机捕获场景中的动态变化，按微秒级时间分辨率输出稀疏、异步的事件流。事件相机的每个像素独立工作，当检测到像素亮度变化超过阈值时产生信息，称为“事件”。输出事件流包括亮度变化像素的坐标、变化极性和时间戳。事件相机具有很高的动态范围、极低的延迟、高时间分辨率，对数据存储和计算资源的要求非常低。在标准相机难以应对的场景中，事件相机展现出极大的应用潜力。

然而，传统的深度信息测量算法仅适用于处理稠密的图像帧，事件相机输出的异步、稀疏数据无法直接通过传统方法进行处理。在采用事件相机测量深度信息的过程中，如何充分利用事件相机的特点与优势，来以较高效率获取准确的深度信息，仍是当前研究的重点与难点。

截至目前，国内外提出的基于事件相机的深度信息测量方法仍比较少，该内容仍属于一个新兴研究方向。

Zhu等人在Unsupervised event-based learning of optical flow,depth,andegomotion论文中提出了基于事件相机的无监督深度信息估计方法，该方法对事件进行光流估计和去模糊处理，通过最大化左右视图处理结果的相似性来计算深度，但该方法只能得到半稠密的深度结果，难以满足实际应用需求。

Tulyakov等人在Learning an event sequence embedding for dense event-based deep stereo论文中提出了基于事件相机的有监督深度信息测量方法，该方法将事件转化为四维张量，利用连续全连接网络提取事件的时间特征，对特征进行双目匹配来计算深度，但该方法测量深度信息的准确性仍有提升空间。

发明内容

本发明的目的在于针对上述现有基于事件相机的深度信息测量方法的不足，提出一种基于双目事件相机的深度信息测量方法，以充分利用事件的时空特性，获得更加准确的稠密深度信息，满足实际应用需求。

为实现上述目的，本发明的技术方案包括如下：

(1)构建基于双目事件相机的视差计算网络A，其依次包括两个不同的多层感知机、两个权重共享的带有残差模块的卷积层、空间金字塔池化层和编解码卷积器；

(2)从事件相机数据集中获取左、右两个事件流ε_l、ε_r和视差真值矩阵D_G，将其作为训练数据，端到端地对(1)构建的网络进行训练，得到训练好的视差计算网络A′：

(2a)将事件相机数据集中的左、右两个事件流ε_l和ε_r中的每个事件表示为e_i，并将这两个事件流ε_l和ε_r输入到(1)构建的网络中，其中：e_i＝(x_i,y_i,t_i,p_i)，i为事件流中事件的序数，(x_i,y_i)为事件e_i的坐标，t_i为事件e_i的时间戳，p_i∈{-1,1}为事件e_i的极性；

(2b)计算出每个事件e_i对应的局部事件子集E_i，并根据每个局部事件子集E_i计算其对应的子集位置向量

其中，

是级联运算符，R(·)为事件与其邻域点的欧式距离，cosd(·)为事件与其邻域点的余弦距离，v_i为事件e_i的坐标，k为事件e_i的邻域点序数，

为事件e_i的第k个邻域点坐标；

(2c)将子集位置向量

送入(1)中的第一个多层感知机，输出归纳表示向量

并根据归纳表示向量

分别计算出左、右两个事件邻近特征流

和

(2d)计算每个归纳表示向量

的注意力得分w_i：

其中，mlp(·)表示用(1)中的第二个多层感知机进行的运算，exp(·)表示指数函数，N表示每个事件邻近特征流

或

中归纳表示向量

的个数；

(2e)根据注意力得分w_i，分别计算出左、右两个事件聚合特征I_l和I_r，通过对左、右两个事件聚合特征I_l和I_r进行双目匹配，计算出视差矩阵D；

(2f)迭代最小化事件相机数据集中的视差真值矩阵D_G和(2d)中视差矩阵D的差值，更新基于双目事件相机的视差计算网络A的参数，直到迭代次数达到设定的22轮，得到训练好的视差计算网络A′；

(3)搭建一个包括双目相机组V、场景S和计算机C的双目事件相机深度信息测量系统，该双目相机组V由左、右两个事件相机组成；

(4)利用上述训练好的视差计算网络A′和深度信息测量系统，测量场景的深度信息：

(4a)用双目相机组V捕获场景S，得到场景S的左、右两个事件流ε_l ^s和ε_r ^s，并传输到计算机C；

(4b)计算机C将场景S的左、右两个事件流ε_l ^s和ε_r ^s送入训练好的视差计算网络A′，计算出场景S的视差矩阵D_s；

(4c)利用三角测量原理，从场景S的视差矩阵D_s计算出场景S的深度信息矩阵D_F。

本发明现有技术相比具有以下优点：

第一，本发明由于构建了基于双目事件相机的视差计算网络，并通过从事件相机数据集中获取左、右两个事件流ε_l、ε_r和视差真值矩阵D_G对其进行训练，因而不仅能够得到稠密的深度信息，更加符合实际应用需求，而且能够有效提取事件流的时空信息并更加有效地聚合事件特征，提高了测量结果的准确性。

第二，本发明由于能更加有效地聚合事件特征，相比于简单累加事件特征的方法，本发明对噪声具有更高的鲁棒性。

第三，本发明由于搭建了双目事件相机深度信息测量系统，能够获取实际场景的左、右两个事件流ε_l ^s和ε_r ^s，并结合训练好的视差计算网络，能够测量出实际场景的深度信息，因而具有更广泛的实用性。

附图说明

图1为本发明的实现总流程图；

图2为本发明中构建的网络结构框图；

图3为本发明中搭建的测量系统框图；

图4为本发明的网络输出结果图；

图5为用本发明对实际场景进行测量深度的结果图。

具体实施方式

下面结合附图，对本发明的实施例和效果作进一步详细描述。

参照图1，本实例基于双目事件相机的深度信息测量方法，实施步骤如下：

步骤1，构建基于双目事件相机的视差计算网络。

参照图2，本步骤构建的双目事件相机的视差计算网络，其依次包括两个不同的多层感知机、两个权重共享的带有残差模块的卷积层、空间金字塔池化层和编解码卷积器。该第一个多层感知机用于对事件特征进行归纳表示，第二个多层感知机用于对事件特征进行聚合；该两个权重共享的带有残差模块的卷积层和空间金字塔池化层用于双目匹配过程中计算匹配代价；该编解码卷积器用于双目匹配过程中聚合匹配代价。

步骤2，对步骤1构建的视差计算网络进行端到端训练，得到训练好的视差计算网络A′。

2.1)从多车立体声事件摄像机数据集MVSEC中获取左、右两个事件流ε_l、ε_r和视差真值图D_G，并将这两个事件流ε_l和ε_r中的每个事件表示为e_i：

e_i＝(x_i,y_i,t_i,p_i)，

其中，i为事件流中事件的序数，(x_i,y_i)为事件e_i的坐标，t_i为事件e_i的时间戳，p_i∈{-1,1}为事件e_i的极性。

2.2)将左、右两个事件流ε_l、ε_r和视差真值图D_G作为训练数据输入到(1)构建的网络中，并对事件流ε_l、ε_r分别进行归纳表示，得到左、右两个事件邻近特征流

和

2.2.1)计算事件e_i所有的邻域点

其中，kneighbour(·)表示K邻近算法；

2.2.2)计算出每个事件e_i对应的局部事件子集E_i：

2.2.3)计算每个局部事件子集E_i对应的子集位置向量

其中，

为事件e_i的第k个邻域点坐标，k和

由局部事件子集E_i确定；

2.2.4)将子集位置向量

送入步骤1中的第一个多层感知机，输出归纳表示向量

2.2.5)根据归纳表示向量

分别计算出左、右两个事件邻近特征流

和

2.3)分别对左、右两个事件邻近特征流

和

进行注意力聚合，得到左、右两个事件聚合特征I_l和I_r：

2.3.1)计算每个归纳表示向量

的注意力得分w_i：

或

中归纳表示向量

的个数；

2.3.2)根据注意力得分w_i，分别计算出左、右两个事件聚合特征I_l和I_r：

其中，I为事件聚合特征，σ(·)表示非线性处理，b为偏置。

2.4)对左、右两个事件聚合特征I_l和I_r进行双目匹配，计算出视差矩阵D：

2.4.1)分别将左、右两个事件聚合特征I_l和I_r送入步骤1中的两个权重共享的带有残差模块的卷积层和空间金字塔池化层，输出左、右两个匹配特征矩阵f_l和f_r；

2.4.2)用左、右两个匹配特征矩阵f_l和f_r，通过如下函数分别计算匹配代价矩阵M中每个元素M(p,q,d)的值，得到匹配代价矩阵M：

其中，(p,q)为左、右两个匹配特征矩阵f_l和f_r中的像素坐标，W为以坐标(p,q)为中心的小窗，a为小窗W中像素的纵向序数，b小窗W中像素的横向序数，d∈(0,d_max)为视差偏移量，设置最大视差值d_max为191；

2.4.3)将匹配代价矩阵M送入步骤1中的编解码卷积器，输出聚合代价矩阵M′；

2.4.4)根据聚合代价矩阵M′，采用softargmin(·)函数，计算出视差矩阵D：

D＝softargmin(M′)，

其中，

softmax(·)为归一化指数函数，d∈(0,d_max)为视差偏移量，设置最大视差值d_max为191；

2.5)迭代最小化视差真值矩阵D_G和视差矩阵D的差值，更新视差计算网络A的参数，得到训练好的视差计算网络A′：

2.5.1)计算视差真值矩阵D_G和视差矩阵D的差值L：

其中，函数

J是视差真值矩阵D_G中有真值标签的像素元素数量。

2.5.2)迭代最小化差值L，在每一次迭代过程中，利用RMSProp优化器更新基于双目事件相机的视差计算网络A的参数，直到迭代次数达到设定的22轮，得到训练好的视差计算网络A′。

步骤3，搭建深度信息测量系统。

参照图3，本步骤的搭建深度信息测量系统，包括双目相机组V、场景S和计算机C。场景S为待测量的实际场景；双目相机组V由左、右两个事件相机组成，用于捕获场景S并输出场景S的左、右两个事件流ε_l ^s和ε_r ^s；计算机C用于构建、训练视差计算网络，并计算出场景S的视差、深度信息。

步骤4，利用训练好的视差计算网络A′和深度信息测量系统，测量场景的深度信息。

4.1)用双目相机组V捕获场景S，得到场景S的左、右两个事件流ε_l ^s和ε_r ^s，并传输到计算机C；

4.2)计算机C将场景S的左、右两个事件流ε_l ^s和ε_r ^s送入到训练好的视差计算网络A′，计算出场景S的视差矩阵D_s；

4.3)利用三角测量原理，根据场景S的视差矩阵D_s计算出场景S的深度信息矩阵D_F：

其中，f为双目相机组V中事件相机的焦距，B为双目相机组V中两个事件相机的基线距离。

本发明的效果可通过以下仿真和测试实验进一步说明：

仿真实验1，从事件相机数据集获取一对左右事件流，用本发明中训练好的视差计算网络计算出视差矩阵D，对其进行可视化得到网络输出视差图，如图4(a)所示。

仿真实验2，从事件相机数据集获取与上述一对左右事件流对应的视差真值矩阵D_G，对其进行可视化，得到视差真值图，如图4(b)所示。

通过对比图4(a)和图4(b)可知，本发明网络输出视差图与视差真值图的差异较小，说明利用本发明构建的网络和提出的训练方法可以计算出较为准确的视差信息。

测试实验3，在如图5(a)所示的实际场景S下，用本发明测量出实际场景S的深度信息矩阵D_F，对其进行可视化得到测量深度图，如图5(b)所示。

测试实验4，用现有的深度采集器RealSense测量出5(a)所示实际场景S的深度信息矩阵D_RS，对其进行可视化得到深度真值图，如图5(c)所示。

对比图5(a)和图5(b)可知，本发明测量的深度图较好地反映了实际场景中的物体轮廓等信息；且由图5(b)可知，本发明测量出的深度信息是稠密的；

通过对比图5(b)和图5(c)可知，本发明测量的深度图与深度真值图的差异较小，说明本发明可以较为准确地测量出实际场景的稠密深度信息。

以上描述仅为本发明的一个具体实例，不构成对本发明的任何限制。显然对于本领域的专业人员来说，在了解本发明的内容和原理后，都可以在不背离本发明原理、结构的情况下，进行形式和细节上的各种修正和改变。这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种基于双目事件相机的深度信息测量方法，其特征在于，包括如下：

(2b)计算出每个事件e_i对应的局部事件子集E_i，并根据局部事件子集E_i计算其对应的子集位置向量

其中，

为事件e_i的第k个邻域点坐标，k和

由局部事件子集E_i确定；

(2c)将子集位置向量

送入(1)中的第一个多层感知机，输出归纳表示向量

并根据归纳表示向量

分别计算出左、右两个事件邻近特征流

和

(2d)计算每个归纳表示向量

的注意力得分w_i：

或

中归纳表示向量

的个数；

2.根据权利要求1所述的方法，其特征在于，(2b)中计算出每个事件e_i对应的局部事件子集E_i，是先用K邻近算法计算事件e_i所有的邻域点

再通过下式计算出每个事件e_i对应的局部事件子集E_i：

3.根据权利要求1所述的方法，其特征在于，(2c)中根据归纳表示向量

分别计算出左、右两个事件邻近特征流

和

实现如下：

其中，

为事件e_i所有的邻域点。

4.根据权利要求1所述的方法，其特征在于，(2e)中根据注意力得分w_i，分别计算出左、右两个事件聚合特征I_l和I_r，实现如下：

其中，I为事件聚合特征，σ(·)表示非线性处理，b为偏置。

5.根据权利要求1所述的方法，其特征在于，(2e)中对左、右两个事件聚合特征I_l和I_r进行双目匹配，计算出视差矩阵D，实现如下：

(2e1)分别将左、右两个事件聚合特征I_l和I_r送入(1)中的两个权重共享的带有残差模块的卷积层和空间金字塔池化层，输出左、右两个匹配特征矩阵f_l和f_r；

(2e2)用左、右两个匹配特征矩阵f_l和f_r，计算出匹配代价矩阵M；

(2e3)将匹配代价矩阵M送入(1)中的编解码卷积器，输出聚合代价矩阵M′；

(2e4)采用softargmin(·)函数，计算出视差矩阵D：

D＝softargmin(M′)，

其中，

softmax(·)为归一化指数函数，d∈(0,d_max)为视差偏移量，d_max为最大视差值。

6.根据权利要求5所述的方法，其特征在于，(2e2)中用左、右两个匹配特征矩阵f_l和f_r，计算出匹配代价矩阵M，是按如下函数分别计算匹配代价矩阵M中每个元素M(p,q,d)的值：

其中，(p,q)为左、右两个匹配特征矩阵f_l和f_r中的像素坐标，W为以坐标(p,q)为中心的小窗，a为小窗W中像素的纵向序数，b小窗W中像素的横向序数，d∈(0,d_max)为视差偏移量，d_max为最大视差值。

7.根据权利要求1所述的方法，其特征在于，(4c)中利用三角测量原理，从场景S的视差矩阵D_s计算出场景S的深度信息矩阵D_F，公式如下：