CN116452654B

CN116452654B - 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法

Info

Publication number: CN116452654B
Application number: CN202310380983.5A
Authority: CN
Inventors: 赵季; 陈志远; 魏哲; 章健勇
Original assignee: Beijing Huixi Intelligent Technology Co ltd
Current assignee: Beijing Huixi Intelligent Information Technology Co ltd
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-11-10
Anticipated expiration: 2043-04-11
Also published as: CN116452654A

Abstract

本发明涉及一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法，所述方法包括以下步骤：S1、获取上一采样时刻和当前采样时刻的多相机图像；S2、对上一采样时刻和当前采样时刻的多相机图像分别提取2D特征；S3、将多相机图像2D特征转换为BEV特征；S4、获取上一采样时刻和当前采样时刻目标坐标系区域遮挡和/或动态目标，用于屏蔽掉位姿估计的干扰信息；S5、输入上一采样时刻和当前采样时刻的BEV特征、上一采样时刻和当前采样时刻遮挡和/或动态目标，基于BEV视角下的BEV特征端到端地估计相机的相对位姿，进行相对位姿回归计算，获得目标坐标系相对相机坐标系的位置和姿态。有益效果是鲁棒性好、精度高、不需要外部依赖。

Description

一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法

【技术领域】

本发明涉及计算机视觉技术领域，具体涉及一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法。

【背景技术】

在当前的自动驾驶领域和机器人领域，为了更好地定位和感知不同方向的目标，车辆通常会在车身不同的位置安装多个相机。针对这样的传感器布局，相机之间的相对位姿估计通常有如下方案：(1)检测场景中的特征点并且建立匹配。使用单个相机估计相对旋转、不含尺度的平移；最后通过辅助传感器(如轮速计、IMU)得到平移的尺度。(2)检测场景中的特征点并且建立匹配。把多相机看成整体，使用多相机系统的相对位姿估计算法，得到相机的相对位姿；(3)检测场景中的静态目标，如车道线、路沿、停止线、斑马线、红绿灯等，利用共视的静态目标估计相对位姿。

在实际运行中，传统方法存在鲁棒性、精度、外部依赖等问题；有些方法依赖特定类型的物体、或者需要事先提供特定物体的模型、或者需要改造环境、张贴二维码，通用性差；有些方法需要用到激光雷达、深度相机等外部传感器。例如，第一种方案需要引入对其他传感器的依赖。第一和第二种方案需要提取特征点，使用鲁棒估计、非线性优化算法等计算位姿。在当前的自动驾驶、机器人主流算法体系中，鲁棒估计、非线性优化算法的中间结果难以复用到其他任务，会给在线任务增加很多算力消耗。第三种方案的适用性存在局限，环境中需要有相关的静态目标。

BEV(鸟瞰图(bird's eye view)感知是一种将三维场景转化为水平二维平面的方法，在二维和三维物体检测、感知地图生成、可行走区域的检测等方面取得了广泛应用。

相对位姿估计(relative pose estimation)是三维视觉的基础之一；基于平面特征点的位姿估计(测量)，已知：相机内参数；多个平面上的特征点在目标坐标系(3D)和相平面坐标系(2D)坐标；输出：目标坐标系相对相机坐标系的位置和姿态。

SLAM是Simultaneous localization and mapping缩写，意为“同步定位与建图”，主要用于解决机器人在未知环境运动时的定位与地图构建问题。李群是指具有连续(光滑)性质的群，群是一种集合加上一种运算的代数结构。李代数，指数映射，与李群相对应的一种结构，位于向量空间，通常以小写的so(n)和se(n)表示。

归一化方法有两种形式，一种是把数变为(0，1)之间的小数，一种是把有量纲表达式变为无量纲表达式。

以“BEV特征+位姿估计”作为关键词，没有检索到相关专利。以下是几个与BEV特征相关的专利申请。

《一种基于多摄像头的BEV视觉感知方法》申请公布号：CN115512326A，该件专利公开一种改进的多视角特征提取网络，能够有效解决2D图像到3D场景的理解能力，将其应用于目标检测。该件专利没有基于BEV感知进行相对位姿估计。

《基于自编码器获取鸟瞰图特征的感知模型训练方法及系统》申请公布号：CN115565146A，该件专利公开一种基于自编码器获取鸟瞰图特征的感知模型训练方法及系统。该件专利没有基于BEV感知进行相对位姿估计。

《基于多模态融合的鸟瞰图特征生成方法》申请公布号：CN115578705A，该件专利公开一种基于多模态融合的鸟瞰图特征生成方法。该件专利涉及到多模态，而且没有基于BEV感知进行相对位姿估计。

《基于车载环视图像的鸟瞰图特征生成方法》申请公布号：CN115588175A，该件专利公开一种基于车载环视图像的鸟瞰图特征生成方法。该件专利没有基于BEV感知进行相对位姿估计。

本发明针对自动驾驶领域和机器人领域，现有定位和感知不同方向目标方法存在鲁棒性差、精度低、需要外部依赖的技术问题，对相对位姿估计方法、神经网络及其训练方法进行了技术改进。

【发明内容】

本发明的目的是，提供一种鲁棒性好、精度高、不需要外部依赖的相对位姿估计方法。

为实现上述目的，本发明采取的技术方案是一种基于BEV感知的相对位姿估计方法，包括以下步骤：

S1、获取自动驾驶车辆/机器人采集的视频流，并对图像做预处理，得到上一采样时刻和当前采样时刻的多相机图像；

S2、对上一采样时刻和当前采样时刻的多相机图像分别提取2D特征；

S3、输入提取的上一采样时刻和当前采样时刻的多相机图像2D特征和多相机每个相机到自动驾驶车辆/机器人的外参，将提取上一采样时刻和当前采样时刻的多相机图像2D特征转换为上一采样时刻和当前采样时刻的BEV特征，所述BEV特征定义在一个二维格子上，所述二维格子定义在自动驾驶车辆/机器人与地面接触点所在的平面上；

S4、获取上一采样时刻和当前采样时刻目标坐标系区域遮挡和/或动态目标，用于屏蔽掉位姿估计的干扰信息；

S5、输入上一采样时刻和当前采样时刻的BEV特征、上一采样时刻和当前采样时刻遮挡和/或动态目标，基于BEV视角下的BEV特征端到端地估计相机的相对位姿，进行相对位姿回归计算，获得目标坐标系相对相机坐标系的位置和姿态。

优选地，步骤S2：使用神经网络，针对每一幅相机图像，提取2D特征为H*W*C的张量，其中，H和W分别代表2D特征的行和列，C代表2D特征的通道数。

优选地，步骤S3：按照预先设定的格子尺寸、坐标原点，每个格子对应BEV平面的一块物理区域，格子的行数与列数、格子尺寸决定了BEV特征对应的实际面积，所述BEV特征为H2*W2*C2的张量，其中，H2和W2分别代表BEV特征的行和列，C2代表BEV特征的通道数。

优选地，步骤S4：所述神经网络运行二值化的遮挡蒙板、动态目标蒙板获得遮挡和/或动态目标。

优选地，步骤S5：通过相对位姿神经网络进行相对位姿回归计算，待预测的相对位姿定义在李群SE(2)上，包含平移分量(x,y)和旋转对应的方向向量q，相对位姿回归计算的Loss函数其中，t[x,y]^T代表平移向量，q代表角度对应的二维方向向量，t_gt、q_gt代表向量真值，t_est、q_est代表相对位姿神经网络预测的平移和旋转角度，||.||代表向量的长度，α是一个参数、用于平衡旋转部分与平移部分的损失，将q_gt、q_est归一化。

本发明的又一目的是，提供一种鲁棒性好、精度高、不需要外部依赖的相对位姿估计神经网络。

为实现上述又一目的，本发明采取的技术方案是一种基于BEV感知的相对位姿估计神经网络，包括遮挡蒙板、动态目标蒙板和相对位姿神经网络，用于执行上述的一种基于BEV感知的相对位姿估计方法；所述神经网络输入当前采样时刻的多相机图像，上一采样时刻的BEV特征、遮挡和/或动态目标，多相机每个相机到自动驾驶车辆/机器人的外参；所述神经网络输出上一采样时刻和当前采样时刻两个时刻之间的多相机相对位姿，当前采样时刻神经网络输出的BEV特征、遮挡和/或动态目标；所述神经网络输入第一帧图像时前向地计算BEV特征、遮挡和/或动态目标，不运行相对位姿神经网络；所述神经网络输入第N帧图像时，N>1，前向地计算BEV特征、遮挡和/或动态目标，根据第N帧和第N-1帧的结果，运行相对位姿神经网络，进行相对位姿回归计算。

优选地，所述神经网络是共用的多头神经网络，所述多头神经网络增加一个头用于执行权利要求1至权利要求5任一权利要求所述的一种基于BEV感知的相对位姿估计方法。

优选地，所述相对位姿神经网络包括编码器和解码器；所述编码器采用双分支孪生网络，包括卷积层、残差模块、池化层，所述编码器在运行卷积和池化操作时，使用遮挡蒙板与动态目标蒙板进行加权；所述解码器包括上采样、残差模块、softplus激活模块。

本发明的再一目的是，提供一种鲁棒性好、精度高、不需要外部依赖的相对位姿估计神经网络训练方法。

为实现上述再一目的，本发明采取的技术方案是一种基于BEV感知的相对位姿估计神经网络训练方法，用于训练上述的一种基于BEV感知的相对位姿估计神经网络，包括以下步骤：每次向所述神经网络模型输入一批训练样本，根据所述神经网络的损失，对所述神经网络进行梯度反向传播和梯度下降，并更新所述网络权重和进入下一轮迭代；所述神经网络训练时的损失函L＝L_seg+c·L_pose，其中，L是总的损失，L_seg是遮挡与动态目标蒙板的分割引入的损失，L_pose是相对位姿估计引入的loss，c是一个参数，用于平衡这L_seg、L_pose两种loss所占的权重。

优选地，所述训练样本包括两个不同采样时刻对应的多相机数据，对于多路相机，一个采样时刻采集的图像包含每个相机分别获取的图像，如果有N路相机，就包含N幅图像；所述训练样本还包括还两个不同采样时刻对应的车辆相对位姿，待估计的相对位姿定义在李群SE(2)上，自由度是3，包含在BEV平面上的2维平移分量和1维旋转分量；所述训练样本还包括被遮挡和/或动态目标区域的蒙板，多相机每个相机到自动驾驶车辆/机器人的外参。

本发明一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法有益效果如下：1、广泛应用于自动驾驶或地面移动机器人的场景，不依赖特定物体，通用性强；2、在线运行阶段只需要使用多个相机，可以不借助其他类型的传感器；3、具有计算效率高的优点，因为很多中间计算步骤可以跟其他感知任务共用一个神经网络，只需要给多头神经网络模型(multi-head neural network)网络增加一个头(head)；4、能够有效提高车辆/机器人运动估计的精度和鲁棒性，与基于组合导航、轮速计的相对位姿估计构成互补的系统，提高定位系统整体的鲁棒性、可靠性，具有广泛的应用前景。

【附图说明】

图1是一种基于BEV感知的相对位姿估计方法流程图。

【具体实施方式】

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明构思的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

实施例

本实施例实现一种基于BEV感知的相对位姿估计方法。

本实施例基于BEV(鸟瞰图bird's eye view)视角下的特征进行相对位姿估计(relative pose estimation)。

本实施例端到端地估计相机的相对位姿，把相对位姿估计建模为一个回归问题，与传统的相对位姿估计方法不同，本实施例方法不依赖目标检测、特征点提取、状态估计等中间步骤。

本实施例方法基于神经网络，所述神经网络中包含遮挡蒙板、动态目标蒙板，这两个蒙板是自动生成的，用于屏蔽掉位姿估计的干扰信息。

本实施例方法实现的主要内容是对神经网络模型的处理，分成以下三部分介绍：训练数据的准备、神经网络模型、训练和测试的实施。

一、训练数据的准备

一个训练样本包括：

1、两个不同采样时刻对应的多相机数据。对于多路相机，一个时刻采集的图像包含每个相机分别获取的图像，如果有N路相机，就包含N幅图像。

2、两个不同采样时刻对应的车辆相对位姿。待估计的相对位姿是定义在李群SE(2)上的，自由度是3。其中，包含在BEV平面上的2维平移分量和1维旋转分量。

3、被遮挡或者动态目标区域的蒙板(mask)。一个格子被遮挡，代表多相机系统的任何相机都看不到它。对于BEV的一个格子，如果它被遮挡或者出现动态目标，真值为0，否则真值为1。只有真值为1的区域，适合用于相对位姿估计。真值为0的区域，对于相对位姿估计是干扰，需要尽量排除。对于训练样本，遮挡的模板的真值可以通过激光雷达得到；动态目标的模板可以通过在图像或激光雷达上进行标注得到。常见的动态目标包含车辆、行人，等。

4、多相机系统与车体的外参。

本实施例方法为了增加网络模型的泛化性能，对相机图像做数据扩增。包括但不限于以下方式：

1、颜色空间上的数据扩增。例如对于亮度、对比度、饱和度做随机扰动；

2、改变两个时刻的前后顺序。需要对两帧多相机图像调换顺序，把对应的相对位姿真值求逆。

3、对相机外参中的旋转分量做随机扰动。需要保证两个时刻的同一个单相机是同样的扰动，对应的图像根据扰动后的外参做调整。方法是将对应图像乘以一个单应性矩阵(Homography)。该单应性矩阵是根据原来的外参、扰动后的外参共同决定的，计算原理出自多视图几何理论。

二、神经网络模型

图1是一种基于BEV感知的相对位姿估计方法流程图。如附图1所示，本实施例算法输入：

1、多路相机在当前时刻的采集图像；

2、前一时刻网络输出的BEV特征、遮挡与动态目标模板；

3、每个相机到车体的外参；

本实施例算法输出：

1、两个时刻之间的相机相对位姿；

2、当前时刻神经网络输出的BEV特征、遮挡与动态目标模板。

本实施例方法包括以下步骤：

第一步：获取自动驾驶车辆/机器人采集的视频流，并对图像做预处理，得到当前采样时刻的多相机图像。

第二步：使用主干网络，对当前时刻的多相机图像分别提取2D特征。针对每一幅图像，提取的2D特征为H*W*C的张量。其中，H和W分别代表特征的行和列，C代表特征的通道数。本实施例并不限定采用何种骨干网络。

第三步：将2D特征转换为BEV特征。这一步的输入是2D特征和相机外参，输出是BEV特征。BEV特征是定义在一个二维格子上的。这个二维格子通常定义在自动驾驶车辆/机器人与地面接触点所在的平面上。按照预先设定的格子尺寸、坐标原点，每个格子对应BEV平面的一块物理区域。格子的行数与列数、格子尺寸决定了BEV特征对应的实际面积。目前有很多种方法可以实现2D特征到BEV特征的转换，例如自注意力网络(transformer)、逆透视变换(inverse perspective mapping)等。本实施例并不限定采用何种方法进行转换。本步骤可以得到BEV特征。BEV特征为H2*W2*C2的张量。其中，H2和W2分别代表特征的行和列，C2代表特征的通道数。

第四步，运行遮挡与动态目标蒙板(mask)的分割，得到遮挡蒙板、动态目标的蒙板。遮挡蒙板与动态目标蒙板都是二值化的蒙板，指示了相应区域有没有被遮挡或者出现动态目标。在训练阶段，预测蒙板与真值蒙板之间的差异可以定义为图像分割的各种loss，典型实施例包括：二值的交叉熵损失(Binary Cross-Entropy)、focal loss等。这部分的损失记作L_seg。

第五步，相对位姿回归。相对位姿估计部分的网络模型包含编码器(Encoder)和解码器(decoder)两部分。作为一个典型的实施例，编码器采用双分支孪生网络(Siamese分支)，包含卷积层、残差模块、池化层，在运行卷积和池化操作时，使用遮挡与动态目标蒙板进行加权。解码器包含上采样、残差模块、softplus激活模块。待预测的相对位姿是定义在李群SE(2)上的，包含平移分量(x,y)和旋转对应的方向向量q。Loss函数的定义如下

其中，t[x,y]^T代表平移向量，q代表角度对应的二维方向向量，下标gt代表真值，下标est代表网络模型的预测值。||.||代表向量的长度。α是一个参数，用于平衡旋转部分与平移部分的损失。方向向量的真值q_gt是单位模长的。网络模型预测的方向向量q_est不一定是单位模长的，因此我们把它归一化。

三、训练和测试的实施

与众所周知的神经网络训练和测试流程类似，本实施例也包含训练和测试两个阶段。

训练阶段

1、每次向神经网络模型输出一批训练样本。根据网络的损失，对网络进行梯度反向传播和梯度下降，并更新网络权重和进入下一轮迭代。

2、本实施例的神经网络训练时的损失函数如下。

L＝L_seg+c·L_pose

其中，L是总的损失，L_seg是遮挡与动态目标蒙板的分割引入的损失，L_pose是相对位姿估计引入的loss。c是一个参数，用于平衡这两种loss所占的权重。

测试阶段

1、输入第一帧图像时，根据训练好的神经网络模型，前向地计算BEV特征、遮挡与动态目标蒙板。不需要运行相对位姿回归模块。

2、输入第N帧图像时(N>1)，根据训练好的神经网络模型，前向地计算BEV特征、遮挡与动态目标蒙板。根据第N帧和第N-1帧的结果，运行相对位姿回归模块，得到相对位姿。

本实施例达到了以下技术效果：

1、有些方法依赖特定类型的物体；或者需要事先提供特定物体的模型；或者需要改造环境、张贴二维码。本实施例可以广泛应用于自动驾驶或地面移动机器人的场景，不依赖特定物体，通用性强。

2、有些方法需要用到激光雷达、深度相机等。本实施例方法在线运行阶段只需要使用多个相机，可以不借助其他类型的传感器。

3、本提案具有计算效率高的优点，因为很多中间计算步骤可以跟其他感知任务共用一个神经网络，只需要给多头神经网络模型(multi-head neural network)网络增加一个头(head)。

4、实际应用中，该方法能够有效提高车辆运动估计的精度和鲁棒性。可以与基于组合导航、轮速计的相对位姿估计构成互补的系统，提高定位系统整体的鲁棒性、可靠性，具有广泛的应用前景。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明原理的前提下，还可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。

Claims

1.一种基于BEV感知的相对位姿估计方法，其特征在于包括以下步骤：

S3、输入提取的上一采样时刻和当前采样时刻的多相机图像2D特征和多相机每个相机到自动驾驶车辆/机器人的外参，将提取的上一采样时刻和当前采样时刻的多相机图像2D特征转换为上一采样时刻和当前采样时刻的BEV特征，所述BEV特征定义在一个二维格子上，所述二维格子定义在自动驾驶车辆/机器人与地面接触点所在的平面上；

2.根据权利要求1所述的一种基于BEV感知的相对位姿估计方法，其特征在于步骤S2：使用神经网络，针对每一幅相机图像，提取2D特征为H*W*C的张量，其中，H和W分别代表2D特征的行和列，C代表2D特征的通道数。

3.根据权利要求2所述的一种基于BEV感知的相对位姿估计方法，其特征在于步骤S3：按照预先设定的格子尺寸、坐标原点，每个格子对应BEV平面的一块物理区域，格子的行数与列数、格子尺寸决定了BEV特征对应的实际面积，所述BEV特征为H2*W2*C2的张量，其中，H2和W2分别代表BEV特征的行和列，C2代表BEV特征的通道数。

4.根据权利要求3所述的一种基于BEV感知的相对位姿估计方法，其特征在于步骤S4：所述神经网络运行二值化的遮挡蒙板、动态目标蒙板获得遮挡和/或动态目标。

5.根据权利要求4所述的一种基于BEV感知的相对位姿估计方法，其特征在于步骤S5：通过相对位姿神经网络进行相对位姿回归计算，待预测的相对位姿定义在李群SE(2)上，包含平移分量(x,y)和旋转对应的方向向量q，相对位姿回归计算的Loss函数其中，t[x,y]^T代表平移向量，q代表角度对应的二维方向向量，t_gt、q_gt代表向量真值，t_est、q_est代表相对位姿神经网络预测的平移和旋转角度，||.||代表向量的长度，α是一个参数、用于平衡旋转部分与平移部分的损失，将q_gt、q_est归一化。

6.一种基于BEV感知的相对位姿估计神经网络，其特征在于：包括遮挡蒙板、动态目标蒙板和相对位姿神经网络，用于执行权利要求1至权利要求5任一权利要求所述的一种基于BEV感知的相对位姿估计方法；所述神经网络输入当前采样时刻的多相机图像，上一采样时刻的BEV特征、遮挡和/或动态目标，多相机每个相机到自动驾驶车辆/机器人的外参；所述神经网络输出上一采样时刻和当前采样时刻两个时刻之间的多相机相对位姿，当前采样时刻神经网络输出的BEV特征、遮挡和/或动态目标；所述神经网络输入第一帧图像时前向地计算BEV特征、遮挡和/或动态目标，不运行相对位姿神经网络；所述神经网络输入第N帧图像时，N>1，前向地计算BEV特征、遮挡和/或动态目标，根据第N帧和第N-1帧的结果，运行相对位姿神经网络，进行相对位姿回归计算。

7.根据权利要求6所述的一种基于BEV感知的相对位姿估计神经网络，其特征在于：所述神经网络是共用的多头神经网络，所述多头神经网络增加一个头用于执行权利要求1至权利要求5任一权利要求所述的一种基于BEV感知的相对位姿估计方法。

8.根据权利要求6所述的一种基于BEV感知的相对位姿估计神经网络，其特征在于：所述相对位姿神经网络包括编码器和解码器；所述编码器采用双分支孪生网络，包括卷积层、残差模块、池化层，所述编码器在运行卷积和池化操作时，使用遮挡蒙板与动态目标蒙板进行加权；所述解码器包括上采样、残差模块、softplus激活模块。

9.一种基于BEV感知的相对位姿估计神经网络训练方法，用于训练权利要求6至权利要求8任一权利要求所述的一种基于BEV感知的相对位姿估计神经网络，其特征在于包括以下步骤：每次向所述神经网络模型输入一批训练样本，根据所述神经网络的损失，对所述神经网络进行梯度反向传播和梯度下降，并更新所述网络权重和进入下一轮迭代；所述神经网络训练时的损失函L＝L_seg+c·L_pose，其中，L是总的损失，L_seg是遮挡与动态目标蒙板的分割引入的损失，L_pose是相对位姿估计引入的loss，c是一个参数，用于平衡L_seg、L_pose这两种loss所占的权重。

10.根据权利要求9所述的一种基于BEV感知的相对位姿估计神经网络训练方法，其特征在于：所述训练样本包括两个不同采样时刻对应的多相机数据，对于多路相机，一个采样时刻采集的图像包含每个相机分别获取的图像，如果有N路相机，就包含N幅图像；所述训练样本还包括还两个不同采样时刻对应的车辆相对位姿，待估计的相对位姿定义在李群SE(2)上，自由度是3，包含在BEV平面上的2维平移分量和1维旋转分量；所述训练样本还包括被遮挡和/或动态目标区域的蒙板，多相机每个相机到自动驾驶车辆/机器人的外参。