CN110503686A

CN110503686A - 基于深度学习的物体位姿估计方法及电子设备

Info

Publication number: CN110503686A
Application number: CN201910698047.2A
Authority: CN
Inventors: 杨慧光; 薛继光; 李茁; 唐创奇; 李宇光; 令狐雄展; 杨柳; 闫满军; 赵健
Original assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-26
Also published as: KR20210015695A

Abstract

提供了一种基于深度学习的物体位姿估计方法及电子设备，其中，物体位姿估计方法包括：分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；利用训练的神经网络模型进行物体位姿估计。根据本公开，可基于与事件流对应的图像帧序列和与图像帧序列对应的位姿序列进行物体位姿估计，可提高效率。

Description

基于深度学习的物体位姿估计方法及电子设备

技术领域

本公开总体说来涉及计算机视觉领域，更具体地讲，涉及一种基于深度学习的物体位姿估计方法及电子设备。

背景技术

三维目标跟踪和六自由度姿态(也称为六自由度位姿)估计在人工智能和机器人技术中发挥着重要作用。考虑到三维空间中运动物体的连续运动轨迹，我们希望通过视觉观察来估计运动物体在任意时刻的姿态(位置和角度)。为了便于跟踪以及避免背景干扰，我们在物体表面安装了一组发光二极管(路标点)，使它们在高频(如1KHz)下闪烁，以区别于环境噪声。相较于传统的摄像机传感器(如互补金属氧化物半导体(CMOS))无法捕捉此类高频闪烁，我们利用动态视觉传感器(DVS)的极高的时间分辨率来检测闪烁的LED。

从视觉信号中恢复六自由度姿态可以被视为经典的立体视觉问题。然而，这是一个相当复杂的过程，包括特征匹配、跟踪、几何转换和全局优化；此外，我们还需要精确了解三维(3D)物体模型和相机校准参数。过程中的各个步骤中都会引入噪声，任何步骤中的不准确(包括三维物体模型和相机参数的不准确)都会导致最终姿态估计的重大误差。

此外，也有方法利用卷积神经网络(CNN)从单帧图像提取的深度特征(可通过针对单帧图像应用预先训练的CNN来获取)，然而，通过DVS相机获取的基于路标点的图像包含信息量少(例如，具有的纹理或边缘少，甚至不包括边缘或纹理)，这样的图像的大部分内容为黑色背景，可称之为极度稀疏图像。利用CNN提取这样的极度稀疏图像的特征是困难的，甚至是不可行的，导致难以基于极度稀疏图像进行深度学习，进而无法进行物体跟踪和位姿估计。

发明内容

本公开的示例性实施例在于提供一种基于深度学习的物体位姿估计方法及电子设备，以针对极度稀疏图像进行物体位姿估计。

根据本公开的示例性实施例，提供了一种基于深度学习的物体位姿估计方法，包括：分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；利用训练的神经网络模型进行物体位姿估计。该物体位姿估计方法可针对包括极度稀疏图像的图像帧序列进行物体位姿估计，位姿估计对象可以是手柄控制器等具有路标点的物体而非拍摄该物体的相机本身，并且与传统的需要利用三维物体模型和相机参数并且需要进行目标特征和路标点的匹配的方法相比，具有简化操作、提高效率、以及估计结果准确的优点。

可选的，提取特征向量序列的步骤包括：通过奇异值分解将图像帧序列中的每个图像帧的图像矩阵分解为第一正交矩阵、第二正交矩阵和对角矩阵；基于针对每个图像帧的第一正交矩阵的至少一部分列向量、第二正交矩阵的至少一部分列向量、以及所述对角矩阵的至少一部分奇异值，产生针对所述每个图像帧的特征向量，以形成包括产生的各个特征向量的特征向量序列。这种在奇异值分解结果的基础上选择部分向量形成特征向量的方式可减少向量维数，并且通过部分向量而非全部向量可有效反映图像特征，从而可提高利用形成的特征向量来训练模型等步骤的执行效率。

可选的，所述对角矩阵的奇异值按照从大到小的顺序的前N个奇异值为所述对角矩阵的所述至少一部分奇异值，第一正交矩阵的所述至少一部分列向量为与所述N个奇异值对应的N个列向量，第二正交矩阵的所述至少一部分列向量为与所述N个奇异值对应的N个列向量，其中，N为自然数。优选的，N为25或更大。奇异值按照从大到小的顺序后，基于前N个奇异值和对应的列向量产生的特征向量既可有效表示特征也可减少维数以提高计算效率。

可选的，所述神经网络模型包括：序列输入层，用于分别基于特征向量序列和位姿向量序列来产生用于训练的输入矩阵和用于训练的输出矩阵。将特征向量序列和位姿向量序列分别合并为一个矩阵来进行训练，可有效的将各个向量结合在一起。

可选的，所述输入矩阵为通过将特征向量序列中各个特征向量按照事件流的时间顺序组合而成的矩阵，所述输出矩阵为通过将位姿向量序列中各个位姿向量按照事件流的时间顺序组合而成的矩阵。按照时间顺序组合矩阵，可有效体现事件流的时间特性。

可选的，所述神经网络模型用于进行六自由度估计，并且还包括以下层中的至少一种：第一长短期记忆层、第二长短期记忆层、第一全连接层、Dropout层、第二全连接层、以及回归层，其中，所述回归层用于基于与待估计物体对应的特征向量，获得估计的位姿向量。这种改进的长短期记忆(LSTM)网络既可实现LSTM网络的优点，又适用于针对极度稀疏图像进行深度学习。

可选的，第一长短期记忆层包括256个单元，第二长短期记忆层包括512个单元，第一全连接层包括512个单元，第二全连接层7个单元且所述7个单元对应于三维坐标和四元数。利用层所包括的单元经过合理设计的神经网络，可使各个层紧密结合，还可充分利用计算资源。

可选的，所述物体位姿估计方法还包括：通过动态视觉传感器相机获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；基于获取的事件流合成图像帧，以产生图像帧序列。通过动态视觉传感器相机，可快速、有效的获取用于物体位姿估计的图像帧序列。

根据本公开的另一示例性实施例，提供了一种电子设备，包括：向量提取单元，被配置为分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；训练单元，被配置为基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；估计单元，被配置为利用训练的神经网络模型进行物体位姿估计。该电子设备可针对包括极度稀疏图像的图像帧序列进行物体位姿估计，位姿估计对象可以是手柄控制器等具有路标点的物体而非拍摄该物体的相机本身，并且与传统的需要利用三维物体模型和相机参数并且需要进行目标特征和路标点的匹配的位姿估计设备相比，具有简化操作、提高效率、以及估计结果准确等优点。

可选的，向量提取单元被配置为：通过奇异值分解将图像帧序列中的每个图像帧的图像矩阵分解为第一正交矩阵、第二正交矩阵和对角矩阵；基于针对每个图像帧的第一正交矩阵的至少一部分列向量、第二正交矩阵的至少一部分列向量、以及所述对角矩阵的至少一部分奇异值，产生针对所述每个图像帧的特征向量，以形成包括产生的各个特征向量的特征向量序列。这种在奇异值分解结果的基础上选择部分向量形成特征向量的方式可减少向量维数，并且通过部分向量而非全部向量可有效反映图像特征，从而可提高利用形成的特征向量来训练模型等操作的执行效率。

可选的，所述电子设备还包括：动态视觉传感器相机，被配置为获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；图像帧序列产生单元，被配置为基于获取的事件流合成图像帧，以产生图像帧序列。通过动态视觉传感器相机，可快速、有效的获取用于物体位姿估计的图像帧序列。

根据本公开的另一示例性实施例，提供了一种电子设备，包括：动态视觉传感器相机，被配置为获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；处理器，被配置为：基于获取的事件流合成图像帧，以产生图像帧序列；分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；利用训练的神经网络模型进行物体位姿估计。该电子设备可针对包括极度稀疏图像的图像帧序列进行物体位姿估计，位姿估计对象可以是手柄控制器等具有路标点的物体而非拍摄该物体的相机本身，并且与传统的需要利用三维物体模型和相机参数并且需要进行目标特征和路标点的匹配的位姿估计设备相比，具有简化操作、提高效率、以及估计结果准确等优点。

根据本公开的另一示例性实施例，提供了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的物体位姿估计方法。

根据本公开的另一示例性实施例，提供了一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如上所述的物体位姿估计方法。

根据本公开，可基于深度学习进行物体位姿估计，尤其是物体(例如，虚拟现实手柄控制器)的六自由度位姿估计，与传统方法相比，可在以下几个方面体现效率和/或准确性的提高，便于进行跟踪和姿态估计：(1)不需要预先获知目标对象的3D模型，例如，仅需要获知手柄控制器表面上具有特定闪烁频率的发光二极管(LED)的分布；(2)不需要预先获知相机的校准参数；(3)不需要进行目标特征和路标点的匹配以及跟踪。

根据本公开，还可在无需获知硬件(如相机、待估计物体)细节的情况下，直接通过视觉图像处理来估计姿态。除了手柄控制器之外，本公开还可应用于机器人、无人机、无人驾驶月球车等各种物体的六自由度跟踪和位姿估计。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1示出根据本公开的示例性实施例的基于深度学习的物体位姿估计方法的流程图；

图2示出根据本公开的示例性实施例的事件流的极性变化示意图；

图3示出根据本公开的示例性实施例的经过奇异值分解之前和经过奇异值分解之后的图像帧的示意图；

图4示出根据本公开的示例性实施例的用于位姿估计的神经网络的结构示意图；

图5示出根据本公开的示例性实施例的手柄控制器及其图像帧的示意图；

图6示出基于single_fast子数据集的估计结果与实际数据之间的关系的示意图；

图7示出基于single_fast子数据集的估计结果与实际数据在三维轨迹上的关系的示意图；

图8示出基于free_moving子数据集的估计结果与实际数据之间的关系的示意图。

具体实施方式

现将详细参照本公开的实施例，所述实施例的示例在附图中示出，其中，相同的标号始终指的是相同的部件。以下将通过参照附图来说明所述实施例，以便解释本公开。

在本公开的示例性实施例中，可在虚拟现实应用中跟踪手持控制器的六自由度位姿。更具体的，通过在动态视觉传感器(DVS)摄像机等设备前摆动手柄控制器，用户可在虚拟现实环境中控制与动手柄控制器对应的虚拟控制器的运动。为了识别动手柄控制器的位姿并将识别结果反映为虚拟控制器的动作，可针对手柄控制器等设备进行识别或检测。手柄控制器等设备在表面布置有具有特定闪烁频率的LED。DVS摄像机仅检测具有特定闪烁频率的LED，而不检测除了LED之外的背景。在这种情况下，可以生成简洁的或稀疏(甚至极度稀疏)的视频帧，在这种视频帧中，可见的是代表LED的标志点，这样的视频帧可作为六自由度位姿估计针对的对象，或者作为六自由度位姿估计设备或系统的输入。

在本公开的示例性实施例中，可基于深度学习来进行六自由度位姿估。更具体的，为了在空间中跟踪三维物体(例如，虚拟现实(VR)手柄、手柄控制器等设备)的轨迹，可通过端到端的深度学习框架或方法来对三维物体的六自由度姿态进行估计。这种深度学习框架或方法的显著优点是能够提供对物体位姿的端到端的估计，也就是说，输入DVS相机获取的标志点(路标点)的分布模式，就可估计在特定坐标系下物体的六自由度姿态。另外，为了体现各帧图像之间在时间和上下文信息上的关联性，可采用基于时间序列学习的深度学习。

在本公开的示例性实施例中，可采用DVS相机为例进行说明。需要注意的是，这仅仅是为了说明的方便而且是为了说明的目的，并不用于限制本公开的保护范围，其他类型的拍摄设备也是可行的，例如，DVS摄像头等可获取事件流的拍摄设备，其他的获取以上手柄控制器等设备的图像帧序列的拍摄设备也是可行的。

图1示出根据本公开的示例性实施例的基于深度学习的物体位姿估计方法的流程图。

如图1中所示，根据本公开的示例性实施例的基于深度学习的物体位姿估计方法可包括步骤110至步骤130。

在步骤110，分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列。在步骤120，基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型。在步骤130，利用训练的神经网络模型进行物体位姿估计。

作为示例，可通过DVS相机获取针对设置有具有特定闪烁频率的LED的物体的事件流；基于获取的事件流合成图像帧，以产生图像帧或视频帧序列。当闪烁频率高达一定程度(如1KHz)时，可使DVS相机对标志点的检测不再受运动模糊和低频噪声的干扰。可将每个视频帧中除了标志点之外的部分视为背景(例如，设置为黑色)，因此，可去除复杂背景，同时，可仅检测标志点。这可视为一种进行位姿估计理想的视觉输入。

在本公开的示例性实施例中，DVS相机的原始输出包括可表示为(t，x，y，p)的事件流，该事件流包括时间戳t、像素坐标(x，y)和事件的极性p。p是事件的极性，可表示LED照明强度变化，包括增强(也称为开(On))和减弱(也称为关(Off))。为了进行基于计算机视觉的深度学习，需要从事件流生成图像帧序列(该图像帧序列与一段时间对应)。针对DVS相机输出的一段时间内的事件，可根据这样的事件包括的坐标(x，y)，将事件以像素点的形式绘制在同一图像帧上，从而获得一个二值图像，在这样的二值图像中，存在一个或更多个事件的像素点的像素值为1，其他像素点的像素值为0。像素值为1的像素点对应于与具有以上闪烁频率的LED相关的事件，为了在图像帧上显示像素值为1的像素点以及与噪声相区分，可利用事件的极性。

图2示出根据本公开的示例性实施例的事件流的极性变化示意图。图2中示出了来自规则闪烁的事件和来自随机噪声的事件。

可假设在一定时间间隔(例如，1.5微秒)内，图像帧中的运动可忽略不计。在给定的像素位置处，如果连续事件的极性变化达到一个变化周期，也就是说，从“增加”到“减少”再到“增加”，例如，从开(On)到关(Off)再到开(On)，或者从关到开再到关，可视为在像素位置(x,y)处的一个变化周期Δt_p，并且分布p(Δt_p|f)可视为高斯分布(f为预先设置的闪烁频率)。如果概率p(Δt_p|f)＝N(1/Δt_p-f,σ²)，σ＝30Hz大于预定阈值，则认为事件是由具有以上闪烁频率的LED产生。通过这种方式，可区分来自规则闪烁的事件和来自随机噪声的事件。

以上区分方式仅仅是为了说明的目的，并不是为了限制本公开的保护范围，其他从事件获取图像帧或者区分来自规则闪烁的事件和来自随机噪声的事件的方式也是可行的。例如，可通过如下方式对事件进行区分和从包括多个事件的事件流获取图像帧序列。

例如，可在给定的位置观察极性变化的多个变化周期。如果所有的变化周期长度近似相同或偏差足够小，则变化周期长度的平均值作为像素位置(x,y)的最终变化周期；否则，当变化周期长度的差异大于预定长度时，可将与像素位置(x,y)对应的事件视为噪声，而不是来自规则闪烁的事件。

另外，可计算给定像素点的闪烁频率并且将计算出的闪烁频率与LED的预设闪烁频率f_LED之间的差异在预定阈值范围内的像素点确定为LED出现位置，从而获得包括与确定的LED出现位置对应的像素点的图像帧。由于可从事件获取图像帧，因此可从包括多个事件的事件流获取图像帧序列。

接下来，可针对图像帧或图像帧序列进行特征提取。获取的图像帧是稀疏的，也就是说，相对于背景而言，具有特定闪烁频率的LED(标志点)对应的像素点的数量是稀少的(例如，在640×480像素的图像帧中仅包括10个或更少的与以上LED对应的像素点)。在这种情况下，为了突显图像特征并且减少深度学习的计算量，可提取图像帧的特征，尤其是使用基于奇异值分解的特征提取方式，以降低维数或进行压缩。

当然，虽然也可基于卷积神经网络(CNN)来提取图像特征，但是这种方式可能不适用于稀疏图像帧。具体而言，这种稀疏图像帧具有包含信息少的特征，例如，可能不包含边缘或纹理，稀疏图像帧的大部分像素点是作为背景的黑色像素点。基于CNN的图像特征提取方式，不能有效提取代表以上稀疏图像帧的特征向量。如果将与稀疏图像帧对应的图像矩阵转换为一个列或行向量形式的特征向量，则通常会得到一个巨大的向量(例如，对于180×240像素的图像帧，将得到43200×1维的向量)。利用这样的向量进行深度学习可能需要花费更长的训练时间甚至无法获得有效的模型。

因此，可通过奇异值分解将图像帧序列中的每个图像帧的图像矩阵分解为第一正交矩阵、第二正交矩阵和对角矩阵；基于针对每个图像帧的第一正交矩阵的至少一部分列向量、第二正交矩阵的至少一部分列向量、以及所述对角矩阵的至少一部分奇异值，产生针对所述每个图像帧的特征向量，以形成包括产生的各个特征向量的特征向量序列。

作为示例，所述对角矩阵的奇异值按照从大到小的顺序的前N个奇异值为所述对角矩阵的所述至少一部分奇异值，第一正交矩阵的所述至少一部分列向量为与所述N个奇异值对应的N个列向量，第二正交矩阵的所述至少一部分列向量为与所述N个奇异值对应的N个列向量，其中，N为自然数。

具体而言，由于图像帧的稀疏性，例如大部分像素点是黑色的作为背景的像素点，因此，可进行压缩或降维，例如通过奇异值分解来压缩或降维。可通过如下公式对原始图像帧(通过事件获得的图像帧)的m×n阶图像矩阵X进行奇异值分解：

X＝USV^T

其中，U是m×m阶矩阵，V是n×n阶矩阵，S是m×n阶对角矩阵，m×n阶图像矩阵X的每个元素代表一个像素值(灰度值)。

可保留按照矩阵S中奇异值从大到小的顺序排列的前N个奇异值，N为自然数，例如1、5、15、25。相应的，矩阵U的前N个列向量和矩阵V的前N个列向量被保留。这些保留的奇异值及其所对应的奇异向量包含大部分的图像信息。然后，可基于矩阵U和矩阵V的保留的列向量，以及以上的N个奇异值，获得一个长向量，这个向量的大小为(m+n+1)×N，与m×n相比，通常这个值会很小。

图3示出根据本公开的示例性实施例的经过奇异值分解之前和经过奇异值分解之后的图像帧的示意图。图3中示出了原始图像帧、通过保留1个奇异值而获得的图像帧、通过保留5个奇异值而获得的图像帧、通过保留15个奇异值而获得的图像帧、以及通过保留25个奇异值而获得的图像帧，还示出了重建后能量占总能量的百分比。如图3中所示，保留480个奇异值中的25个(例如，5.2％)或更高比例(例如，高于5.2％)的奇异值就足以有效重建原始图像帧。

通过以上方式获得的向量(例如，长度为(m+n+1)×N的列向量)可作为特征向量，因此，通过以序列形式排列的图像帧可获得特征向量序列。

可基于获得的特征向量序列进行深度学习，以进行位姿估计。作为示例，用于位姿估计的神经网络模型可包括：序列输入层，用于分别基于特征向量序列和位姿向量序列来产生用于训练的输入矩阵和用于训练的输出矩阵。

作为示例，所述输入矩阵为通过将特征向量序列中各个特征向量按照事件流的时间顺序组合而成的矩阵，所述输出矩阵为通过将位姿向量序列中各个位姿向量按照事件流的时间顺序组合而成的矩阵。

作为示例，所述神经网络模型用于进行六自由度估计，并且还包括以下层中的至少一种：第一长短期记忆(LSTM)层、第二长短期记忆层、第一全连接层、Dropout(可称为丢弃、丢失、抛弃等)层、第二全连接层、以及回归层，其中，所述回归层最终输出估计的位姿向量。在训练时，可将真值(Ground Truth)位姿向量以矩阵形式输入到回归层，通过真值位姿向量形成的矩阵可作为以上输出矩阵。

作为示例，第一长短期记忆层包括256个单元，第二长短期记忆层包括512个单元，第一全连接层包括512个单元，第二全连接层7个单元且所述7个单元对应于物体三维坐标和角度四元数。

具体而言，为了应用深度学习框架，可从每个图像帧中提取特征向量，随后，将特征向量逐列叠加，得到神经网络的输入矩阵。将与图像帧相应的姿态向量逐列叠加，得到神经网络的输出/标签矩阵。可采用多种方法从给定的图像帧中提取特征向量，包括但不限于通过预先训练的CNN从图像帧提取特征向量或者以上的基于奇异值分解的方法。

以上的图像帧序列或特征向量序列是时间序列数据，为了充分探索时间序列数据包含的信息(例如，运动的物体在运动中形成了一个连续的轨迹，相邻的图像帧是相似的，相邻的图像帧表达的物体姿态也是相似的)。可基于长短期记忆(LSTM)网络对时间序列数据进行处理(例如，将特征向量序列应用于网络训练)。采用以上方式的处理可充分挖掘相邻数据之间的联系。因此，在训练过程中，神经网络的输入矩阵和输出矩阵均可按照序列的时间顺序来形成，该时间顺序与事件流的时间顺序一致。

根据本公开的示例性实施例的神经网络模型，可包括堆叠在一起以处理时间序列数据多个LSTM层。然而，在本公开中，并非对每一帧图像进行单独处理，而是以“时间序列”的形式探索图像时间序列信息，因此，将相邻图像帧的特征向量组合在一起形成序列输入(每个图像帧的特征向量作为输入矩阵的一列)，与各个图像帧相应的各个姿态向量组合在一起作为神经网络的序列输出(每个姿态向量作为输出矩阵的一列)。

图4示出根据本公开的示例性实施例的用于位姿估计的神经网络的结构示意图。图4所示神经网络包括：序列输入层、第一长短期记忆层、第二长短期记忆层、第一全连接层、Dropout层、第二全连接层、以及回归层，其中，可基于从事件流提取的图像帧序列获得特征向量序列，将获得的特征向量序列输入到序列输入层后可形成输入矩阵和输出矩阵，并通过各个层进行训练。当需要进行估计时，可将与待估计物体对应的特征向量输入到这一网络以获得估计的位姿向量。

作为示例，神经网络采用“自适应矩”进行优化，初始学习率为0.0001，并保持不变，梯度阈值(权重衰减)设置为1，最小批量大小为64。

图5示出根据本公开的示例性实施例的手柄控制器及其图像帧的示意图。图5中所示的手柄控制器包括具有特定闪烁频率的LED，可针对图5所示手柄控制器进行六自由度姿态估计。通过在DVS相机前摆动手柄控制器，可在虚拟现实环境中控制虚拟控制器的运动。DVS相机可获取与手柄控制器对应的事件流，基于以上实施例，可从获得的事件流可获得图像帧序列，可从图像帧序列获取特征向量序列。另外，为了使估计准确，可通过使一系列的LED标记点分布在手柄的表面，并且使得从多个不同的视角观察到的LED分布模式基本不同，如图5(a)中所示手柄控制器的LED分布模式，可包括32个LED作为路标点(ALM)。图5(b)为从事件流生成的DVS图像帧，其中，每个非灰色像素表示具有特定位置、时间戳和极性(白色：增强；黑色：减弱)的事件。

在本公开的示例性实施例中，DVS相机可仅检测视场内亮度或照明强度变化。如果像素位置处没有照明强度变化，则该位置不会被激活。DVS相机的输出是一系列事件流，其中的一个事件对应于图像平面上某个位置和某个时间的强度变化。事件可以写成四元组向量(t，x，y，p)，其中，t是事件的时间戳，(x，y)是事件在图像帧中的像素位置，p是事件的极性。DVS相机输出的是离散的事件流。与传统的CMOS相机相比，DVS相机具有更高的时间分辨率(以微秒计)和更高的动态范围，因此，更适合于需要低延迟和高动态范围视觉数据的应用。例如，DVS相机适合检测闪烁频率很高(高于1KHz)的LED。例如，使用的DVS相机可以是三星第三代视频图形阵列(VGA)设备。又如，DVS相机的分辨率为640×480像素，通过USB 3.0与电子设备连接。

在本公开的示例性实施例中，物体在三维空间中具有六个运动自由度，包括三维平移/位置(X、Y、Z)和三维转角(例如，三个正交方向上的欧拉角)。为了避免欧拉角存在的固有问题(如万向锁)，可将三个欧拉角替换为具有四个元素(q0、q1、q2、q3)的相应的四元数。因此，可通过7维向量(x，y，z，q0，q1，q2，q3)来描述三维空间中的物体位姿。

在本公开的示例性实施例中，为了验证位姿估计的效果，可针对权威数据集(DAVIS数据集)进行实验，实验结果如表1所示：

表1

DAVIS数据集包括shapes_rotation子数据集和shapes_translation子数据集，获得的两个结果分别为平均位置误差和平均角度误差。如以上的表1中所示，本公开的各项结果均优于传统方法(即：PoseNet方法、Bayesian PoseNet方法以及SP-LSTM方法)。

由于DAVIS数据集不是专门针对手柄位姿估计提出的数据集，同时该数据集记录的是相机的位姿而不是物体本身的位姿，因此可采用针对手柄位姿估计的全新的数据集，可称之为真实手柄位姿数据集，该数据集包括free_moving(自由移动)、single_fast(单次快速)和shaking(晃动)等子数据集。在针对每个子数据集的实验中，前70％的图像帧用于训练，其余的图像帧用于测试(估计)。

表2

参照以上的表2，测试数据集用于进行测试，整个数据集包括用于训练的训练数据集和用于测试的测试数据集，目前已有的方法很难有效处理表2所示数据集(或者处理难度较大)，然而，根据本公开的方法，可有效针对该数据集进行位姿估计，而且误差较小。

以下结合图6至图8，验证训练的神经网络模型对于位姿的估计能力。图6示出基于single_fast子数据集的估计结果与实际数据之间的关系的示意图，图7示出基于single_fast子数据集的估计结果与实际数据在三维轨迹上的关系的示意图，图8示出基于free_moving子数据集的估计结果与实际数据之间的关系的示意图。

在图8中，是针对free_moving子数据集的前40％的图像帧进行训练，并基于训练的神经网络模型估计其余60％的图像帧的姿态。

在附图中，虚线对应于估计数据，实线对应于实际数据。结合图6至图8，尤其是在图8所示的训练集小于测试集的情况下，可以看出，基于本公开的物体位姿估计方法获得的估计结果与实际数据接近，可有效捕捉真实位姿，估计的准确性高。

根据本公开的另一示例性实施例，提供了一种电子设备包括：向量提取单元，被配置为分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；训练单元，被配置为基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；估计单元，被配置为利用训练的神经网络模型进行物体位姿估计。

作为示例，向量提取单元被配置为：通过奇异值分解将图像帧序列中的每个图像帧的图像矩阵分解为第一正交矩阵、第二正交矩阵和对角矩阵；基于针对每个图像帧的第一正交矩阵的至少一部分列向量、第二正交矩阵的至少一部分列向量、以及所述对角矩阵的至少一部分奇异值，产生针对所述每个图像帧的特征向量，以形成包括产生的各个特征向量的特征向量序列。

作为示例，所述神经网络模型包括：序列输入层，用于分别基于特征向量序列和位姿向量序列来产生用于训练的输入矩阵和用于训练的输出矩阵。

作为示例，所述神经网络模型用于进行六自由度估计，并且还包括以下层中的至少一种：第一长短期记忆层、第二长短期记忆层、第一全连接层、Dropout层、第二全连接层、以及回归层，其中，所述回归层用于基于与待估计物体对应的特征向量，获得估计的位姿向量。

作为示例，第一长短期记忆层包括256个单元，第二长短期记忆层包括512个单元，第一全连接层包括512个单元，第二全连接层7个单元且所述7个单元对应于三维坐标和四元数。

作为示例，所述电子设备还包括：动态视觉传感器相机，被配置为获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；图像帧序列产生单元，被配置为基于获取的事件流合成图像帧，以产生图像帧序列。

根据本公开的另一示例性实施例，提供了一种电子设备，包括：动态视觉传感器相机，被配置为获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；处理器，被配置为：基于获取的事件流合成图像帧，以产生图像帧序列；分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；利用训练的神经网络模型进行物体位姿估计。

应该理解，根据本公开示例性实施例的电子设备的具体实现方式可参照结合图1至图4描述的相关具体实现方式来实现，在此不再赘述。

根据本公开的示例性实施例，将基于单目事件流摄像机(例如DVS相机)的深度学习应用于虚拟现实手柄控制器等3D物体的六自由度跟踪和姿态估计中。可实现以端到端的方式估计物体的姿态，而无需进行繁琐的基于立体视觉和几何的计算。另外，不再需要了解3D对象模型和相机校准参数等硬件细节信息。

与现有的使用事件流摄像机的基于深度学习的方法相比，本公开的实施例可区分作为前景的物体和背景，这是由于可将LED标志点分布在物体的表面，并应用DVS闪烁检测算法等检测到标志点。基于此，可以对物体的姿态进行估计，而非对摄像机本身的姿态进行估计。

本公开采用基于序列的深度学习，可充分探索输入视频序列的时间/上下文信息，不同于现有的仅探索每个单独的图像帧中的信息的基于深度学习的方法等。

为了处理稀疏图像帧(也就是说，仅标志点或路标点可见)，可利用奇异值分解来提取图像帧的特征(特征向量)，而非应用可能不适用于稀疏图像帧的特征提取的CNN。因此，本公开的实施例更适合(但不限于)六自由度物体跟踪，以及其他目标物体的跟踪(例如，机器人和无人驾驶月球车)和其他领域的应用。

另外，在本公开的实施例中，LED分布模式也影响位姿估计结果。连续的时间序列数据可用于网络训练。这样，可在三维空间中对六自由度姿态进行端到端的估计，从而可避免传统立体视觉处理的繁琐过程(例如，物体特征提取、匹配、跟踪等计算，又如，需要了解三维物体模型和摄像机参数)。连续的时间序列数据被用于网络训练，使得时间连续性约束在学习中发挥了作用。与不考虑时间序列和时间连续性约束的传统学习方法相比，可获得更有效的网络模型。

根据本公开示例性实施例的电子设备所包括的组成部分可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些装置所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

应理解，根据本公开示例性实施例的方法可通过记录在计算可读介质上的程序来实现，例如，根据本公开的示例性实施例，可提供一种用于物体位姿估计的计算机可读介质，其中，在所述计算机可读介质上记录有用于执行以下方法步骤的计算机程序：分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；利用训练的神经网络模型进行物体位姿估计。

上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经参照附图进行了描述，这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的电子设备可完全依赖计算机程序的运行来实现相应的功能，即，各个装置与计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，根据本公开示例性实施例的电子设备所包括的各个组成部分也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本公开的示例性实施例还可被实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行物体位姿估计方法。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本公开示例性实施例的物体位姿估计方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本公开示例性实施例的物体位姿估计方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

例如，如上所述，根据本公开示例性实施例的电子装置可包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行下述步骤：分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；利用训练的神经网络模型进行物体位姿估计。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种基于深度学习的物体位姿估计方法，包括：

分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；

基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；

利用训练的神经网络模型进行物体位姿估计。

2.根据权利要求1所述的物体位姿估计方法，其中，提取特征向量序列的步骤包括：

通过奇异值分解将图像帧序列中的每个图像帧的图像矩阵分解为第一正交矩阵、第二正交矩阵和对角矩阵；

基于针对每个图像帧的第一正交矩阵的至少一部分列向量、第二正交矩阵的至少一部分列向量、以及所述对角矩阵的至少一部分奇异值，产生针对所述每个图像帧的特征向量，以形成包括产生的各个特征向量的特征向量序列。

3.根据权利要求2所述的物体位姿估计方法，其中，所述对角矩阵的奇异值按照从大到小的顺序的前N个奇异值为所述对角矩阵的所述至少一部分奇异值，第一正交矩阵的所述至少一部分列向量为与所述N个奇异值对应的N个列向量，第二正交矩阵的所述至少一部分列向量为与所述N个奇异值对应的N个列向量，其中，N为自然数。

4.根据权利要求1所述的物体位姿估计方法，其中，所述神经网络模型包括：序列输入层，用于分别基于特征向量序列和位姿向量序列来产生用于训练的输入矩阵和用于训练的输出矩阵。

5.根据权利要求4所述的物体位姿估计方法，其中，

所述输入矩阵为通过将特征向量序列中各个特征向量按照事件流的时间顺序组合而成的矩阵，

所述输出矩阵为通过将位姿向量序列中各个位姿向量按照事件流的时间顺序组合而成的矩阵。

6.根据权利要求4所述的物体位姿估计方法，其中，所述神经网络模型用于进行六自由度估计，并且还包括以下层中的至少一种：

第一长短期记忆层、第二长短期记忆层、第一全连接层、Dropout层、第二全连接层、以及回归层，

其中，所述回归层用于基于与待估计物体对应的特征向量，获得估计的位姿向量。

7.根据权利要求6所述的物体位姿估计方法，其中，第一长短期记忆层包括256个单元，第二长短期记忆层包括512个单元，第一全连接层包括512个单元，第二全连接层7个单元且所述7个单元对应于三维坐标和四元数。

8.根据权利要求1所述的物体位姿估计方法，还包括：

通过动态视觉传感器相机获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；

基于获取的事件流合成图像帧，以产生图像帧序列。

9.一种电子设备，包括：

向量提取单元，被配置为分别从与事件流对应的图像帧序列和与图像帧序列对应的位姿序列，提取特征向量序列和位姿向量序列；

训练单元，被配置为基于特征向量序列和位姿向量序列，训练用于位姿估计的神经网络模型；

估计单元，被配置为利用训练的神经网络模型进行物体位姿估计。

10.一种电子设备，包括：

动态视觉传感器相机，被配置为获取针对设置有具有特定闪烁频率的发光二极管的物体的事件流；

处理器，被配置为：

基于获取的事件流合成图像帧，以产生图像帧序列；

利用训练的神经网络模型进行物体位姿估计。

11.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1-8中任意一项权利要求所述的物体位姿估计方法。

12.一种存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求1-8中任意一项权利要求所述的物体位姿估计方法。