CN116452654B - 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 - Google Patents
一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 Download PDFInfo
- Publication number
- CN116452654B CN116452654B CN202310380983.5A CN202310380983A CN116452654B CN 116452654 B CN116452654 B CN 116452654B CN 202310380983 A CN202310380983 A CN 202310380983A CN 116452654 B CN116452654 B CN 116452654B
- Authority
- CN
- China
- Prior art keywords
- bev
- relative pose
- neural network
- camera
- sampling time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 title claims abstract description 35
- 230000008447 perception Effects 0.000 title claims abstract description 32
- 238000005070 sampling Methods 0.000 claims abstract description 61
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 238000013519 translation Methods 0.000 claims description 13
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241000709691 Enterovirus E Species 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012956 testing procedure Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法,所述方法包括以下步骤:S1、获取上一采样时刻和当前采样时刻的多相机图像;S2、对上一采样时刻和当前采样时刻的多相机图像分别提取2D特征;S3、将多相机图像2D特征转换为BEV特征;S4、获取上一采样时刻和当前采样时刻目标坐标系区域遮挡和/或动态目标,用于屏蔽掉位姿估计的干扰信息;S5、输入上一采样时刻和当前采样时刻的BEV特征、上一采样时刻和当前采样时刻遮挡和/或动态目标,基于BEV视角下的BEV特征端到端地估计相机的相对位姿,进行相对位姿回归计算,获得目标坐标系相对相机坐标系的位置和姿态。有益效果是鲁棒性好、精度高、不需要外部依赖。
Description
【技术领域】
本发明涉及计算机视觉技术领域,具体涉及一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法。
【背景技术】
在当前的自动驾驶领域和机器人领域,为了更好地定位和感知不同方向的目标,车辆通常会在车身不同的位置安装多个相机。针对这样的传感器布局,相机之间的相对位姿估计通常有如下方案:(1)检测场景中的特征点并且建立匹配。使用单个相机估计相对旋转、不含尺度的平移;最后通过辅助传感器(如轮速计、IMU)得到平移的尺度。(2)检测场景中的特征点并且建立匹配。把多相机看成整体,使用多相机系统的相对位姿估计算法,得到相机的相对位姿;(3)检测场景中的静态目标,如车道线、路沿、停止线、斑马线、红绿灯等,利用共视的静态目标估计相对位姿。
在实际运行中,传统方法存在鲁棒性、精度、外部依赖等问题;有些方法依赖特定类型的物体、或者需要事先提供特定物体的模型、或者需要改造环境、张贴二维码,通用性差;有些方法需要用到激光雷达、深度相机等外部传感器。例如,第一种方案需要引入对其他传感器的依赖。第一和第二种方案需要提取特征点,使用鲁棒估计、非线性优化算法等计算位姿。在当前的自动驾驶、机器人主流算法体系中,鲁棒估计、非线性优化算法的中间结果难以复用到其他任务,会给在线任务增加很多算力消耗。第三种方案的适用性存在局限,环境中需要有相关的静态目标。
BEV(鸟瞰图(bird's eye view)感知是一种将三维场景转化为水平二维平面的方法,在二维和三维物体检测、感知地图生成、可行走区域的检测等方面取得了广泛应用。
相对位姿估计(relative pose estimation)是三维视觉的基础之一;基于平面特征点的位姿估计(测量),已知:相机内参数;多个平面上的特征点在目标坐标系(3D)和相平面坐标系(2D)坐标;输出:目标坐标系相对相机坐标系的位置和姿态。
SLAM是Simultaneous localization and mapping缩写,意为“同步定位与建图”,主要用于解决机器人在未知环境运动时的定位与地图构建问题。李群是指具有连续(光滑)性质的群,群是一种集合加上一种运算的代数结构。李代数,指数映射,与李群相对应的一种结构,位于向量空间,通常以小写的so(n)和se(n)表示。
归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。
以“BEV特征+位姿估计”作为关键词,没有检索到相关专利。以下是几个与BEV特征相关的专利申请。
《一种基于多摄像头的BEV视觉感知方法》申请公布号:CN115512326A,该件专利公开一种改进的多视角特征提取网络,能够有效解决2D图像到3D场景的理解能力,将其应用于目标检测。该件专利没有基于BEV感知进行相对位姿估计。
《基于自编码器获取鸟瞰图特征的感知模型训练方法及系统》申请公布号:CN115565146A,该件专利公开一种基于自编码器获取鸟瞰图特征的感知模型训练方法及系统。该件专利没有基于BEV感知进行相对位姿估计。
《基于多模态融合的鸟瞰图特征生成方法》申请公布号:CN115578705A,该件专利公开一种基于多模态融合的鸟瞰图特征生成方法。该件专利涉及到多模态,而且没有基于BEV感知进行相对位姿估计。
《基于车载环视图像的鸟瞰图特征生成方法》申请公布号:CN115588175A,该件专利公开一种基于车载环视图像的鸟瞰图特征生成方法。该件专利没有基于BEV感知进行相对位姿估计。
本发明针对自动驾驶领域和机器人领域,现有定位和感知不同方向目标方法存在鲁棒性差、精度低、需要外部依赖的技术问题,对相对位姿估计方法、神经网络及其训练方法进行了技术改进。
【发明内容】
本发明的目的是,提供一种鲁棒性好、精度高、不需要外部依赖的相对位姿估计方法。
为实现上述目的,本发明采取的技术方案是一种基于BEV感知的相对位姿估计方法,包括以下步骤:
S1、获取自动驾驶车辆/机器人采集的视频流,并对图像做预处理,得到上一采样时刻和当前采样时刻的多相机图像;
S2、对上一采样时刻和当前采样时刻的多相机图像分别提取2D特征;
S3、输入提取的上一采样时刻和当前采样时刻的多相机图像2D特征和多相机每个相机到自动驾驶车辆/机器人的外参,将提取上一采样时刻和当前采样时刻的多相机图像2D特征转换为上一采样时刻和当前采样时刻的BEV特征,所述BEV特征定义在一个二维格子上,所述二维格子定义在自动驾驶车辆/机器人与地面接触点所在的平面上;
S4、获取上一采样时刻和当前采样时刻目标坐标系区域遮挡和/或动态目标,用于屏蔽掉位姿估计的干扰信息;
S5、输入上一采样时刻和当前采样时刻的BEV特征、上一采样时刻和当前采样时刻遮挡和/或动态目标,基于BEV视角下的BEV特征端到端地估计相机的相对位姿,进行相对位姿回归计算,获得目标坐标系相对相机坐标系的位置和姿态。
优选地,步骤S2:使用神经网络,针对每一幅相机图像,提取2D特征为H*W*C的张量,其中,H和W分别代表2D特征的行和列,C代表2D特征的通道数。
优选地,步骤S3:按照预先设定的格子尺寸、坐标原点,每个格子对应BEV平面的一块物理区域,格子的行数与列数、格子尺寸决定了BEV特征对应的实际面积,所述BEV特征为H2*W2*C2的张量,其中,H2和W2分别代表BEV特征的行和列,C2代表BEV特征的通道数。
优选地,步骤S4:所述神经网络运行二值化的遮挡蒙板、动态目标蒙板获得遮挡和/或动态目标。
优选地,步骤S5:通过相对位姿神经网络进行相对位姿回归计算,待预测的相对位姿定义在李群SE(2)上,包含平移分量(x,y)和旋转对应的方向向量q,相对位姿回归计算的Loss函数其中,t[x,y]T代表平移向量,q代表角度对应的二维方向向量,tgt、qgt代表向量真值,test、qest代表相对位姿神经网络预测的平移和旋转角度,||.||代表向量的长度,α是一个参数、用于平衡旋转部分与平移部分的损失,将qgt、qest归一化。
本发明的又一目的是,提供一种鲁棒性好、精度高、不需要外部依赖的相对位姿估计神经网络。
为实现上述又一目的,本发明采取的技术方案是一种基于BEV感知的相对位姿估计神经网络,包括遮挡蒙板、动态目标蒙板和相对位姿神经网络,用于执行上述的一种基于BEV感知的相对位姿估计方法;所述神经网络输入当前采样时刻的多相机图像,上一采样时刻的BEV特征、遮挡和/或动态目标,多相机每个相机到自动驾驶车辆/机器人的外参;所述神经网络输出上一采样时刻和当前采样时刻两个时刻之间的多相机相对位姿,当前采样时刻神经网络输出的BEV特征、遮挡和/或动态目标;所述神经网络输入第一帧图像时前向地计算BEV特征、遮挡和/或动态目标,不运行相对位姿神经网络;所述神经网络输入第N帧图像时,N>1,前向地计算BEV特征、遮挡和/或动态目标,根据第N帧和第N-1帧的结果,运行相对位姿神经网络,进行相对位姿回归计算。
优选地,所述神经网络是共用的多头神经网络,所述多头神经网络增加一个头用于执行权利要求1至权利要求5任一权利要求所述的一种基于BEV感知的相对位姿估计方法。
优选地,所述相对位姿神经网络包括编码器和解码器;所述编码器采用双分支孪生网络,包括卷积层、残差模块、池化层,所述编码器在运行卷积和池化操作时,使用遮挡蒙板与动态目标蒙板进行加权;所述解码器包括上采样、残差模块、softplus激活模块。
本发明的再一目的是,提供一种鲁棒性好、精度高、不需要外部依赖的相对位姿估计神经网络训练方法。
为实现上述再一目的,本发明采取的技术方案是一种基于BEV感知的相对位姿估计神经网络训练方法,用于训练上述的一种基于BEV感知的相对位姿估计神经网络,包括以下步骤:每次向所述神经网络模型输入一批训练样本,根据所述神经网络的损失,对所述神经网络进行梯度反向传播和梯度下降,并更新所述网络权重和进入下一轮迭代;所述神经网络训练时的损失函L=Lseg+c·Lpose,其中,L是总的损失,Lseg是遮挡与动态目标蒙板的分割引入的损失,Lpose是相对位姿估计引入的loss,c是一个参数,用于平衡这Lseg、Lpose两种loss所占的权重。
优选地,所述训练样本包括两个不同采样时刻对应的多相机数据,对于多路相机,一个采样时刻采集的图像包含每个相机分别获取的图像,如果有N路相机,就包含N幅图像;所述训练样本还包括还两个不同采样时刻对应的车辆相对位姿,待估计的相对位姿定义在李群SE(2)上,自由度是3,包含在BEV平面上的2维平移分量和1维旋转分量;所述训练样本还包括被遮挡和/或动态目标区域的蒙板,多相机每个相机到自动驾驶车辆/机器人的外参。
本发明一种基于BEV感知的相对位姿估计方法、神经网络及其训练方法有益效果如下:1、广泛应用于自动驾驶或地面移动机器人的场景,不依赖特定物体,通用性强;2、在线运行阶段只需要使用多个相机,可以不借助其他类型的传感器;3、具有计算效率高的优点,因为很多中间计算步骤可以跟其他感知任务共用一个神经网络,只需要给多头神经网络模型(multi-head neural network)网络增加一个头(head);4、能够有效提高车辆/机器人运动估计的精度和鲁棒性,与基于组合导航、轮速计的相对位姿估计构成互补的系统,提高定位系统整体的鲁棒性、可靠性,具有广泛的应用前景。
【附图说明】
图1是一种基于BEV感知的相对位姿估计方法流程图。
【具体实施方式】
下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中,提出了许多具体细节,以便提供对本发明的全面理解。但是对于本领域技术人员来说很明显的是,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法,而是在不脱离本发明构思的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中,没有示出公知的结构和技术,以便避免对本发明造成不必要的模糊。
实施例
本实施例实现一种基于BEV感知的相对位姿估计方法。
本实施例基于BEV(鸟瞰图bird's eye view)视角下的特征进行相对位姿估计(relative pose estimation)。
本实施例端到端地估计相机的相对位姿,把相对位姿估计建模为一个回归问题,与传统的相对位姿估计方法不同,本实施例方法不依赖目标检测、特征点提取、状态估计等中间步骤。
本实施例方法基于神经网络,所述神经网络中包含遮挡蒙板、动态目标蒙板,这两个蒙板是自动生成的,用于屏蔽掉位姿估计的干扰信息。
本实施例方法实现的主要内容是对神经网络模型的处理,分成以下三部分介绍:训练数据的准备、神经网络模型、训练和测试的实施。
一、训练数据的准备
一个训练样本包括:
1、两个不同采样时刻对应的多相机数据。对于多路相机,一个时刻采集的图像包含每个相机分别获取的图像,如果有N路相机,就包含N幅图像。
2、两个不同采样时刻对应的车辆相对位姿。待估计的相对位姿是定义在李群SE(2)上的,自由度是3。其中,包含在BEV平面上的2维平移分量和1维旋转分量。
3、被遮挡或者动态目标区域的蒙板(mask)。一个格子被遮挡,代表多相机系统的任何相机都看不到它。对于BEV的一个格子,如果它被遮挡或者出现动态目标,真值为0,否则真值为1。只有真值为1的区域,适合用于相对位姿估计。真值为0的区域,对于相对位姿估计是干扰,需要尽量排除。对于训练样本,遮挡的模板的真值可以通过激光雷达得到;动态目标的模板可以通过在图像或激光雷达上进行标注得到。常见的动态目标包含车辆、行人,等。
4、多相机系统与车体的外参。
本实施例方法为了增加网络模型的泛化性能,对相机图像做数据扩增。包括但不限于以下方式:
1、颜色空间上的数据扩增。例如对于亮度、对比度、饱和度做随机扰动;
2、改变两个时刻的前后顺序。需要对两帧多相机图像调换顺序,把对应的相对位姿真值求逆。
3、对相机外参中的旋转分量做随机扰动。需要保证两个时刻的同一个单相机是同样的扰动,对应的图像根据扰动后的外参做调整。方法是将对应图像乘以一个单应性矩阵(Homography)。该单应性矩阵是根据原来的外参、扰动后的外参共同决定的,计算原理出自多视图几何理论。
二、神经网络模型
图1是一种基于BEV感知的相对位姿估计方法流程图。如附图1所示,本实施例算法输入:
1、多路相机在当前时刻的采集图像;
2、前一时刻网络输出的BEV特征、遮挡与动态目标模板;
3、每个相机到车体的外参;
本实施例算法输出:
1、两个时刻之间的相机相对位姿;
2、当前时刻神经网络输出的BEV特征、遮挡与动态目标模板。
本实施例方法包括以下步骤:
第一步:获取自动驾驶车辆/机器人采集的视频流,并对图像做预处理,得到当前采样时刻的多相机图像。
第二步:使用主干网络,对当前时刻的多相机图像分别提取2D特征。针对每一幅图像,提取的2D特征为H*W*C的张量。其中,H和W分别代表特征的行和列,C代表特征的通道数。本实施例并不限定采用何种骨干网络。
第三步:将2D特征转换为BEV特征。这一步的输入是2D特征和相机外参,输出是BEV特征。BEV特征是定义在一个二维格子上的。这个二维格子通常定义在自动驾驶车辆/机器人与地面接触点所在的平面上。按照预先设定的格子尺寸、坐标原点,每个格子对应BEV平面的一块物理区域。格子的行数与列数、格子尺寸决定了BEV特征对应的实际面积。目前有很多种方法可以实现2D特征到BEV特征的转换,例如自注意力网络(transformer)、逆透视变换(inverse perspective mapping)等。本实施例并不限定采用何种方法进行转换。本步骤可以得到BEV特征。BEV特征为H2*W2*C2的张量。其中,H2和W2分别代表特征的行和列,C2代表特征的通道数。
第四步,运行遮挡与动态目标蒙板(mask)的分割,得到遮挡蒙板、动态目标的蒙板。遮挡蒙板与动态目标蒙板都是二值化的蒙板,指示了相应区域有没有被遮挡或者出现动态目标。在训练阶段,预测蒙板与真值蒙板之间的差异可以定义为图像分割的各种loss,典型实施例包括:二值的交叉熵损失(Binary Cross-Entropy)、focal loss等。这部分的损失记作Lseg。
第五步,相对位姿回归。相对位姿估计部分的网络模型包含编码器(Encoder)和解码器(decoder)两部分。作为一个典型的实施例,编码器采用双分支孪生网络(Siamese分支),包含卷积层、残差模块、池化层,在运行卷积和池化操作时,使用遮挡与动态目标蒙板进行加权。解码器包含上采样、残差模块、softplus激活模块。待预测的相对位姿是定义在李群SE(2)上的,包含平移分量(x,y)和旋转对应的方向向量q。Loss函数的定义如下
其中,t[x,y]T代表平移向量,q代表角度对应的二维方向向量,下标gt代表真值,下标est代表网络模型的预测值。||.||代表向量的长度。α是一个参数,用于平衡旋转部分与平移部分的损失。方向向量的真值qgt是单位模长的。网络模型预测的方向向量qest不一定是单位模长的,因此我们把它归一化。
三、训练和测试的实施
与众所周知的神经网络训练和测试流程类似,本实施例也包含训练和测试两个阶段。
训练阶段
1、每次向神经网络模型输出一批训练样本。根据网络的损失,对网络进行梯度反向传播和梯度下降,并更新网络权重和进入下一轮迭代。
2、本实施例的神经网络训练时的损失函数如下。
L=Lseg+c·Lpose
其中,L是总的损失,Lseg是遮挡与动态目标蒙板的分割引入的损失,Lpose是相对位姿估计引入的loss。c是一个参数,用于平衡这两种loss所占的权重。
测试阶段
1、输入第一帧图像时,根据训练好的神经网络模型,前向地计算BEV特征、遮挡与动态目标蒙板。不需要运行相对位姿回归模块。
2、输入第N帧图像时(N>1),根据训练好的神经网络模型,前向地计算BEV特征、遮挡与动态目标蒙板。根据第N帧和第N-1帧的结果,运行相对位姿回归模块,得到相对位姿。
本实施例达到了以下技术效果:
1、有些方法依赖特定类型的物体;或者需要事先提供特定物体的模型;或者需要改造环境、张贴二维码。本实施例可以广泛应用于自动驾驶或地面移动机器人的场景,不依赖特定物体,通用性强。
2、有些方法需要用到激光雷达、深度相机等。本实施例方法在线运行阶段只需要使用多个相机,可以不借助其他类型的传感器。
3、本提案具有计算效率高的优点,因为很多中间计算步骤可以跟其他感知任务共用一个神经网络,只需要给多头神经网络模型(multi-head neural network)网络增加一个头(head)。
4、实际应用中,该方法能够有效提高车辆运动估计的精度和鲁棒性。可以与基于组合导航、轮速计的相对位姿估计构成互补的系统,提高定位系统整体的鲁棒性、可靠性,具有广泛的应用前景。
本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明原理的前提下,还可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (10)
1.一种基于BEV感知的相对位姿估计方法,其特征在于包括以下步骤:
S1、获取自动驾驶车辆/机器人采集的视频流,并对图像做预处理,得到上一采样时刻和当前采样时刻的多相机图像;
S2、对上一采样时刻和当前采样时刻的多相机图像分别提取2D特征;
S3、输入提取的上一采样时刻和当前采样时刻的多相机图像2D特征和多相机每个相机到自动驾驶车辆/机器人的外参,将提取的上一采样时刻和当前采样时刻的多相机图像2D特征转换为上一采样时刻和当前采样时刻的BEV特征,所述BEV特征定义在一个二维格子上,所述二维格子定义在自动驾驶车辆/机器人与地面接触点所在的平面上;
S4、获取上一采样时刻和当前采样时刻目标坐标系区域遮挡和/或动态目标,用于屏蔽掉位姿估计的干扰信息;
S5、输入上一采样时刻和当前采样时刻的BEV特征、上一采样时刻和当前采样时刻遮挡和/或动态目标,基于BEV视角下的BEV特征端到端地估计相机的相对位姿,进行相对位姿回归计算,获得目标坐标系相对相机坐标系的位置和姿态。
2.根据权利要求1所述的一种基于BEV感知的相对位姿估计方法,其特征在于步骤S2:使用神经网络,针对每一幅相机图像,提取2D特征为H*W*C的张量,其中,H和W分别代表2D特征的行和列,C代表2D特征的通道数。
3.根据权利要求2所述的一种基于BEV感知的相对位姿估计方法,其特征在于步骤S3:按照预先设定的格子尺寸、坐标原点,每个格子对应BEV平面的一块物理区域,格子的行数与列数、格子尺寸决定了BEV特征对应的实际面积,所述BEV特征为H2*W2*C2的张量,其中,H2和W2分别代表BEV特征的行和列,C2代表BEV特征的通道数。
4.根据权利要求3所述的一种基于BEV感知的相对位姿估计方法,其特征在于步骤S4:所述神经网络运行二值化的遮挡蒙板、动态目标蒙板获得遮挡和/或动态目标。
5.根据权利要求4所述的一种基于BEV感知的相对位姿估计方法,其特征在于步骤S5:通过相对位姿神经网络进行相对位姿回归计算,待预测的相对位姿定义在李群SE(2)上,包含平移分量(x,y)和旋转对应的方向向量q,相对位姿回归计算的Loss函数其中,t[x,y]T代表平移向量,q代表角度对应的二维方向向量,tgt、qgt代表向量真值,test、qest代表相对位姿神经网络预测的平移和旋转角度,||.||代表向量的长度,α是一个参数、用于平衡旋转部分与平移部分的损失,将qgt、qest归一化。
6.一种基于BEV感知的相对位姿估计神经网络,其特征在于:包括遮挡蒙板、动态目标蒙板和相对位姿神经网络,用于执行权利要求1至权利要求5任一权利要求所述的一种基于BEV感知的相对位姿估计方法;所述神经网络输入当前采样时刻的多相机图像,上一采样时刻的BEV特征、遮挡和/或动态目标,多相机每个相机到自动驾驶车辆/机器人的外参;所述神经网络输出上一采样时刻和当前采样时刻两个时刻之间的多相机相对位姿,当前采样时刻神经网络输出的BEV特征、遮挡和/或动态目标;所述神经网络输入第一帧图像时前向地计算BEV特征、遮挡和/或动态目标,不运行相对位姿神经网络;所述神经网络输入第N帧图像时,N>1,前向地计算BEV特征、遮挡和/或动态目标,根据第N帧和第N-1帧的结果,运行相对位姿神经网络,进行相对位姿回归计算。
7.根据权利要求6所述的一种基于BEV感知的相对位姿估计神经网络,其特征在于:所述神经网络是共用的多头神经网络,所述多头神经网络增加一个头用于执行权利要求1至权利要求5任一权利要求所述的一种基于BEV感知的相对位姿估计方法。
8.根据权利要求6所述的一种基于BEV感知的相对位姿估计神经网络,其特征在于:所述相对位姿神经网络包括编码器和解码器;所述编码器采用双分支孪生网络,包括卷积层、残差模块、池化层,所述编码器在运行卷积和池化操作时,使用遮挡蒙板与动态目标蒙板进行加权;所述解码器包括上采样、残差模块、softplus激活模块。
9.一种基于BEV感知的相对位姿估计神经网络训练方法,用于训练权利要求6至权利要求8任一权利要求所述的一种基于BEV感知的相对位姿估计神经网络,其特征在于包括以下步骤:每次向所述神经网络模型输入一批训练样本,根据所述神经网络的损失,对所述神经网络进行梯度反向传播和梯度下降,并更新所述网络权重和进入下一轮迭代;所述神经网络训练时的损失函L=Lseg+c·Lpose,其中,L是总的损失,Lseg是遮挡与动态目标蒙板的分割引入的损失,Lpose是相对位姿估计引入的loss,c是一个参数,用于平衡Lseg、Lpose这两种loss所占的权重。
10.根据权利要求9所述的一种基于BEV感知的相对位姿估计神经网络训练方法,其特征在于:所述训练样本包括两个不同采样时刻对应的多相机数据,对于多路相机,一个采样时刻采集的图像包含每个相机分别获取的图像,如果有N路相机,就包含N幅图像;所述训练样本还包括还两个不同采样时刻对应的车辆相对位姿,待估计的相对位姿定义在李群SE(2)上,自由度是3,包含在BEV平面上的2维平移分量和1维旋转分量;所述训练样本还包括被遮挡和/或动态目标区域的蒙板,多相机每个相机到自动驾驶车辆/机器人的外参。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310380983.5A CN116452654B (zh) | 2023-04-11 | 2023-04-11 | 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310380983.5A CN116452654B (zh) | 2023-04-11 | 2023-04-11 | 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452654A CN116452654A (zh) | 2023-07-18 |
CN116452654B true CN116452654B (zh) | 2023-11-10 |
Family
ID=87119596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310380983.5A Active CN116452654B (zh) | 2023-04-11 | 2023-04-11 | 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452654B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116645649B (zh) * | 2023-07-27 | 2023-12-08 | 深圳魔视智能科技有限公司 | 车辆位姿及尺寸估计方法、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111476822A (zh) * | 2020-04-08 | 2020-07-31 | 浙江大学 | 一种基于场景流的激光雷达目标检测与运动跟踪方法 |
CN113345018A (zh) * | 2021-05-31 | 2021-09-03 | 湖南大学 | 一种动态场景下的激光单目视觉融合定位建图方法 |
WO2021252925A1 (en) * | 2020-06-12 | 2021-12-16 | University Of Central Florida Research Foundation, Inc. | Cooperative lidar object detection via feature sharing in deep networks |
CN114270368A (zh) * | 2019-08-23 | 2022-04-01 | 法弗人工智能有限公司 | 机器人系统的性能测试 |
CN114445593A (zh) * | 2022-01-30 | 2022-05-06 | 重庆长安汽车股份有限公司 | 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法 |
CN114972492A (zh) * | 2021-02-24 | 2022-08-30 | 中国科学院微电子研究所 | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 |
CN115565146A (zh) * | 2022-10-26 | 2023-01-03 | 安徽酷哇机器人有限公司 | 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 |
CN115830265A (zh) * | 2022-11-02 | 2023-03-21 | 香港理工大学深圳研究院 | 一种基于激光雷达的自动驾驶运动障碍物分割方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11442464B2 (en) * | 2020-03-25 | 2022-09-13 | Mitsubishi Electric Research Laboratories, Inc. | Bird's eye view map based recognition and motion prediction for autonomous systems |
EP4001965A1 (en) * | 2020-11-17 | 2022-05-25 | Volvo Truck Corporation | Lidar localization using optical flow |
KR20230047040A (ko) * | 2021-09-30 | 2023-04-06 | 서울대학교산학협력단 | 비전 기반 자율 주행 장치 및 그의 동작 방법 |
-
2023
- 2023-04-11 CN CN202310380983.5A patent/CN116452654B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114270368A (zh) * | 2019-08-23 | 2022-04-01 | 法弗人工智能有限公司 | 机器人系统的性能测试 |
CN111476822A (zh) * | 2020-04-08 | 2020-07-31 | 浙江大学 | 一种基于场景流的激光雷达目标检测与运动跟踪方法 |
WO2021252925A1 (en) * | 2020-06-12 | 2021-12-16 | University Of Central Florida Research Foundation, Inc. | Cooperative lidar object detection via feature sharing in deep networks |
CN114972492A (zh) * | 2021-02-24 | 2022-08-30 | 中国科学院微电子研究所 | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 |
CN113345018A (zh) * | 2021-05-31 | 2021-09-03 | 湖南大学 | 一种动态场景下的激光单目视觉融合定位建图方法 |
CN114445593A (zh) * | 2022-01-30 | 2022-05-06 | 重庆长安汽车股份有限公司 | 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法 |
CN115565146A (zh) * | 2022-10-26 | 2023-01-03 | 安徽酷哇机器人有限公司 | 基于自编码器获取鸟瞰图特征的感知模型训练方法及系统 |
CN115830265A (zh) * | 2022-11-02 | 2023-03-21 | 香港理工大学深圳研究院 | 一种基于激光雷达的自动驾驶运动障碍物分割方法 |
Non-Patent Citations (3)
Title |
---|
Birds Eye View Look-Up Table Estimation with Semantic Segmentation;Dongkyu Lee等;《applied sciences》;全文 * |
Minimal Solvers for Relative Pose Estimation of Multi-Camera Systems using Affine Correspondences;Banglei Guan;《International Journal of Computer Vision 》;全文 * |
基于多帧时序三维点云的目标检测;叶育文;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116452654A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
CN108665496B (zh) | 一种基于深度学习的端到端的语义即时定位与建图方法 | |
CN110335337B (zh) | 一种基于端到端半监督生成对抗网络的视觉里程计的方法 | |
CN112634451B (zh) | 一种融合多传感器的室外大场景三维建图方法 | |
US11462023B2 (en) | Systems and methods for 3D object detection | |
Mancini et al. | Toward domain independence for learning-based monocular depth estimation | |
Senlet et al. | A framework for global vehicle localization using stereo images and satellite and road maps | |
CN110473284B (zh) | 一种基于深度学习的运动物体三维模型重建方法 | |
Agostinho et al. | A practical survey on visual odometry for autonomous driving in challenging scenarios and conditions | |
KR20190030474A (ko) | 신뢰도에 기초하여 깊이 맵을 산출하는 방법 및 장치 | |
US10482616B2 (en) | 3D model reconstruction method, electronic device, and non-transitory computer readable storage medium | |
CN116452654B (zh) | 一种基于bev感知的相对位姿估计方法、神经网络及其训练方法 | |
CN111829532A (zh) | 一种飞行器重定位系统和重定位方法 | |
CN111582232A (zh) | 一种基于像素级语义信息的slam方法 | |
CN114693744A (zh) | 一种基于改进循环生成对抗网络的光流无监督估计方法 | |
CN111536970A (zh) | 一种用于低能见度大尺度场景的红外惯性组合导航方法 | |
CN112907573A (zh) | 一种基于3d卷积的深度补全方法 | |
CN114202579B (zh) | 一种面向动态场景的实时多体slam系统 | |
CN116503602A (zh) | 基于多层级边缘增强的非结构化环境三维点云语义分割方法 | |
Jia et al. | Depth measurement based on a convolutional neural network and structured light | |
CN116188550A (zh) | 一种基于几何约束的自监督深度视觉里程计 | |
CN116342675B (zh) | 一种实时单目深度估计方法、系统、电子设备及存储介质 | |
CN117132952A (zh) | 一种基于多摄像头的鸟瞰视角车辆感知系统 | |
Zhang et al. | A Self-Supervised Monocular Depth Estimation Approach Based on UAV Aerial Images | |
Wu et al. | AsyncNeRF: Learning Large-scale Radiance Fields from Asynchronous RGB-D Sequences with Time-Pose Function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240119 Address after: Room 1803, 18th Floor, Building 1, No. 2 Ronghua South Road, Beijing Economic and Technological Development Zone, Chaoyang District, Beijing, 100024 Patentee after: Beijing Huixi Intelligent Information Technology Co.,Ltd. Address before: Room 1101, 11th Floor, No. 52 North Fourth Ring West Road, Haidian District, Beijing, 100080 Patentee before: Beijing Huixi Intelligent Technology Co.,Ltd. |