CN116259043A - 一种自动驾驶3d目标检测方法及相关装置 - Google Patents

一种自动驾驶3d目标检测方法及相关装置 Download PDF

Info

Publication number
CN116259043A
CN116259043A CN202310439097.5A CN202310439097A CN116259043A CN 116259043 A CN116259043 A CN 116259043A CN 202310439097 A CN202310439097 A CN 202310439097A CN 116259043 A CN116259043 A CN 116259043A
Authority
CN
China
Prior art keywords
point cloud
cloud data
image
view
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310439097.5A
Other languages
English (en)
Inventor
郝坤坤
黄浴
潘余曦
杨子江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Xinxin Information Technology Co ltd
Original Assignee
Xi'an Xinxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Xinxin Information Technology Co ltd filed Critical Xi'an Xinxin Information Technology Co ltd
Priority to CN202310439097.5A priority Critical patent/CN116259043A/zh
Publication of CN116259043A publication Critical patent/CN116259043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本申请提供一种自动驾驶3D目标检测方法及相关装置,该方法包括:使用深度估计网络模型对多视角图像的图像特征进行深度点云预测,获得当前时刻的点云数据;根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征,并对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作;将获得的当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合;使用融合后的鸟瞰图特征进行3D目标检测。通过深度估计网络模型预测出的点云数据获得的鸟瞰图特征来进行3D目标检测,能够有效利用目标对象的三维信息建模的先验信息来深度监督模型的训练过程,从而提高了自动驾驶的应用场景中的目标检测精度。

Description

一种自动驾驶3D目标检测方法及相关装置
技术领域
本申请涉及自动驾驶、深度学习、时序融合和3D目标检测的技术领域,具体而言,涉及一种自动驾驶3D目标检测方法及相关装置。
背景技术
目前,在自动驾驶的应用场景中,通常是使用已有的二维(2D)目标检测方法来从二维图像特征中预测出三维(3D)目标,具体例如:获取多相机采集的环境图像,并提取出环境图像中的图像特征,然后,使用目标检测模型对该图像特征进行目标对象(例如障碍物或行人等等)检测等等。在具体的实践过程中发现,由于目标检测模型是使用二维图像和二维标签训练的,所以该目标检测模型缺少三维(3D)的先验信息,导致自动驾驶的应用场景中的目标检测精度较低。
发明内容
本申请实施例的目的在于提供一种自动驾驶3D目标检测方法及相关装置,用于改善自动驾驶的应用场景中的目标检测精度较低的问题。
本申请实施例提供了一种自动驾驶3D目标检测方法,包括:获取自动驾驶场景中的当前时刻的多视角图像,并提取出多视角图像的图像特征;使用深度估计网络模型对多视角图像的图像特征进行深度点云预测,获得当前时刻的点云数据;根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征,并对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作,获得当前时刻的鸟瞰图特征;获取过去时刻的鸟瞰图特征,并将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征;使用融合后的鸟瞰图特征进行3D目标检测。在上述方案的实现过程中,通过深度估计网络模型预测出的点云数据获得的鸟瞰图特征来进行3D目标检测,能够有效地利用目标对象的三维信息建模的先验信息,以使深度估计网络模型输出深度感知更精确的点云数据,从而提高了自动驾驶的应用场景中的目标检测精度。
可选地,在本申请实施例中,在使用深度估计网络模型对多视角图像的图像特征进行深度点云预测之前,还包括:获取不同视角拍摄的样本图像和样本标签,并提取出样本图像的图像特征和相机参数,样本图像是对目标对象采集的图像,样本标签是目标对象的三维点云数据;以图像特征和相机参数为训练数据,以样本标签为训练标签,对深度估计神经网络进行训练,获得深度估计网络模型。在上述方案的实现过程中,通过以图像特征和相机参数为训练数据,以样本标签为训练标签,对深度估计神经网络进行训练,以使深度估计网络模型输出深度感知更精确的点云数据,从而提高了自动驾驶的应用场景中的目标检测精度。
可选地,在本申请实施例中,相机参数包括:内部参数和外部参数;根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征,包括:将内部参数和外部参数进行展平和拼接,获得参数输入向量,并将参数输入向量扩展为多维向量;使用多维向量对图像特征进行加权融合,获得上下文特征。在上述方案的实现过程中,通过将内部参数和外部参数进行展平和拼接后的参数输入向量作为加权融合的一部分,从而进一步地高了深度估计的质量和目标检测的准确率。
可选地,在本申请实施例中,对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作,包括:获取过去时刻的点云数据,将过去时刻的点云数据与当前时刻的点云数据进行对齐,获得对齐点云数据;对上下文特征和对齐点云数据进行外积操作和体素池化操作。在上述方案的实现过程中,通过将过去时刻的点云数据与当前时刻的点云数据进行对齐,从而增加点云数据在时域上对齐的鲁棒性,以进一步提升3D目标检测的效果。
可选地,在本申请实施例中,将过去时刻的点云数据与当前时刻的点云数据进行对齐,包括:将过去时刻的点云数据的坐标系转换为全局坐标系;将过去时刻的点云数据由全局坐标系转换为当前时刻的点云数据的坐标系。在上述方案的实现过程中,通过将过去时刻的点云数据的坐标系转换为全局坐标系,并将过去时刻的点云数据由全局坐标系转换为当前时刻的点云数据的坐标系,从而增加点云数据在时域上对齐的鲁棒性,以进一步提升3D目标检测的效果。
可选地,在本申请实施例中,将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合,包括:将上一时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得对齐后的鸟瞰图特征;将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合。在上述方案的实现过程中,通过同时让点云数据和鸟瞰图特征对齐融合,即将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合,从而获得时空融合的BEV特征,更好地帮助模型识别和处理遮挡问题,有效地提升了模型性能的鲁棒性。
可选地,在本申请实施例中,将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合,包括:将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得多个时刻对齐后的鸟瞰图特征;将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合。在上述方案的实现过程中,通过将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,并将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合,从而获得时空融合的BEV特征,有效地改善了自动驾驶汽车运动造成过去帧与当前帧空间存在的非对齐问题,使用多帧时序特征的精确对齐,从而进一步地提升了3D目标检测的准确率。
本申请实施例还提供了一种自动驾驶3D目标检测装置,包括:图像特征提取模块,用于获取自动驾驶场景中的当前时刻的多视角图像,并提取出多视角图像的图像特征;点云数据获得模块,用于使用深度估计网络模型对多视角图像的图像特征进行深度点云预测,获得当前时刻的点云数据;特征提取获得模块,用于根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征,并对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作,获得当前时刻的鸟瞰图特征;时域特征融合模块,用于获取过去时刻的鸟瞰图特征,并将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征;特征目标检测模块,用于使用融合后的鸟瞰图特征进行3D目标检测。
可选地,在本申请实施例中,自动驾驶3D目标检测装置,还包括:特征参数提取模块,用于获取不同视角拍摄的样本图像和样本标签,并提取出样本图像的图像特征和相机参数,样本图像是对目标对象采集的图像,样本标签是目标对象的三维点云数据;网络模型获得模块,用于以图像特征和相机参数为训练数据,以样本标签为训练标签,对深度估计神经网络进行训练,获得深度估计网络模型。
可选地,在本申请实施例中,相机参数包括:内部参数和外部参数;特征提取获得模块,包括:参数展平拼接子模块,用于将内部参数和外部参数进行展平和拼接,获得参数输入向量,并将参数输入向量扩展为多维向量;特征加权融合子模块,用于使用多维向量对图像特征进行加权融合,获得上下文特征。
可选地,在本申请实施例中,特征提取获得模块,包括:点云数据对齐子模块,用于获取过去时刻的点云数据,将过去时刻的点云数据与当前时刻的点云数据进行对齐,获得对齐点云数据;外积体素池化子模块,用于对上下文特征和对齐点云数据进行外积操作和体素池化操作。
可选地,在本申请实施例中,点云数据对齐子模块,包括:第一坐标系转换单元,用于将过去时刻的点云数据的坐标系转换为全局坐标系;第二坐标系转换单元,用于将过去时刻的点云数据由全局坐标系转换为当前时刻的点云数据的坐标系。
可选地,在本申请实施例中,时域特征融合模块,包括:第一特征对齐子模块,用于将上一时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得对齐后的鸟瞰图特征;第一特征融合子模块,用于将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合。
可选地,在本申请实施例中,时域特征融合模块,包括:第二特征对齐子模块,用于将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得多个时刻对齐后的鸟瞰图特征;第二特征融合子模块,用于将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
本申请实施例的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请实施例中的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的自动驾驶3D目标检测方法的流程示意图;
图2示出的本申请实施例提供的多视角图像的处理过程示意图;
图3示出的本申请实施例提供的自动驾驶3D目标检测装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请实施例中的附图仅起到说明和描述的目的,并不用于限定本申请实施例的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请实施例中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请实施例内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请实施例的一部分,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请实施例的详细描述并非旨在限制要求保护的本申请实施例的范围,而是仅仅表示本申请实施例的选定实施例。
可以理解的是,本申请实施例中的“第一”“第二”用于区别类似的对象。本领域技术人员可以理解“第一”“第二”等字样并不对数量和执行次序进行限定,并且“第一”“第二”等字样也并不限定一定不同。在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
在介绍本申请实施例提供的自动驾驶3D目标检测方法之前,先介绍本申请实施例中所涉及的一些概念:
深度监督:是指在深度学习模型训练时,利用3D深度信息先验信息或先验知识进行监督训练,帮助模型能够更好的学习物体的3D几何知识,有助于模型提升感知任务的性能。
鸟瞰图(Bird’s Eye View,BEV),又被称为上帝视角,是一种用于描述感知世界的视角或坐标系(3D)。
需要说明的是,本申请实施例提供的自动驾驶3D目标检测方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,设备终端例如:智能手机、个人电脑、平板电脑、个人数字助理或者移动上网设备等。服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。该电子设备上可以运行的操作系统包括:Centos7.6系统或者ubuntu系统等等。
下面介绍该自动驾驶3D目标检测方法适用的应用场景,这里的应用场景包括但不限于:自动驾驶汽车、行走机器人、无人机或特殊环境仿真等,此处的特殊环境仿真包括但不限于:太空仿真、海底仿真、航空仿真或危险环境仿真等等。可以使用该自动驾驶3D目标检测方法对自动驾驶汽车、行走机器人、无人机或特殊环境仿真等采集的多视角图像进行3D目标检测,从而获得多视角图像中的3D目标(即三维的目标对象)。
请参见图1示出的本申请实施例提供的自动驾驶3D目标检测方法的流程示意图;该自动驾驶3D目标检测方法的主要思路是,利用目标对象的三维信息建模的先验信息来深度监督模型的训练过程,从而让模型输出更加精确的鸟瞰图特征以及更精确的点云数据,从而提高了自动驾驶的应用场景中的目标检测精度。上述的自动驾驶3D目标检测方法的实施方式可以包括:
步骤S110:获取自动驾驶场景中的当前时刻的多视角图像,并提取出多视角图像的图像特征。
多视角图像,是指自动驾驶汽车从多个视角拍摄的图像,此处的多个视角包括但不限于:前面视角、左前视角、右前视角、后面视角、左后视角和右后视角。
请参见图2示出的本申请实施例提供的多视角图像的处理过程示意图;上述步骤S110中的多视角图像的获取方式包括:第一种获取方式,使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄,获取多视角图像;然后该终端设备向电子设备发送多视角图像,然后电子设备接收终端设备发送的多视角图像,电子设备可以将多视角图像存储至文件系统、数据库或移动存储设备中;第二种获取方式,获取预先存储的多视角图像,具体例如:从文件系统、数据库或移动存储设备中获取多视角图像;第三种获取方式,使用浏览器等软件获取互联网上的多视角图像,或者使用其它应用程序访问互联网获取多视角图像。
上述步骤S110中的提取出多视角图像的图像特征的实施方式例如:使用图像特征提取器来提取出多视角图像的图像特征,该图像特征可以表示为
Figure BDA0004193245690000081
其中,N为相机个数,C为特征通道维度,H和W分别表示特征的高度和宽度。此处的图像特征提取器又被称为图像特征提取网络,该图像特征提取器可以采用ResNet22、ResNet38、ResNet50、ResNet101和ResNet152等等残差网络。
步骤S120:使用深度估计网络模型对多视角图像的图像特征进行深度点云预测,获得当前时刻的点云数据。
可以理解的是,将多视角图像的图像特征输入深度估计网络模型,深度估计网络模型可以估计出3D目标的深度信息(此处的深度信息可以理解的为3D目标与该多视角图像的拍摄相机之间的深度距离),即当前时刻的点云数据表示3D目标的深度信息。
步骤S130:根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征,并对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作,获得当前时刻的鸟瞰图特征。
可以理解的是,相机参数可以包括内部参数(又被简称为内参K)和外部参数(又被简称为外参T),其中,
Figure BDA0004193245690000091
K是相机参数的内部参数,内部参数的作用是将相机坐标系转换到像素坐标系,T是相机参数的外部参数(即旋转平移矩阵),外部参数的作用是将世界坐标系转换到相机坐标系。
步骤S140:获取过去时刻的鸟瞰图特征,并将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征。
步骤S150:使用融合后的鸟瞰图特征进行3D目标检测。
上述步骤S150的实施方式例如:使用融合后的鸟瞰图特征进行3D目标检测,获得目标对象,此处的目标对象可以是2D目标对象,当然也可以是从多视相机图像预测3D目标对象,此处的3D目标对象可以是:目标对象的类别、目标对象的具体位置区域(即3D检测框标识的位置区域)和/或3D方向等等。
在上述方案的实现过程中,通过深度估计网络模型预测出的点云数据获得的鸟瞰图特征来进行3D目标检测,能够有效地利用目标对象的三维信息建模的先验信息,以使深度估计网络模型输出深度感知更精确的点云数据,从而提高了自动驾驶的应用场景中的目标检测精度。
作为上述步骤S120的一种可选实施方式,在使用深度估计网络模型对多视角图像的图像特征进行深度点云预测之前,还可以训练深度估计网络模型,该实施方式可以包括:
步骤S121:获取不同视角拍摄的样本图像和样本标签,并提取出样本图像的图像特征和相机参数,样本图像是对目标对象采集的图像,样本标签是目标对象的三维点云数据。
上述步骤S121的实施方式例如:通过自动驾驶汽车、行走机器人或无人机在不同视角下对目标对象拍摄的多视角图像,并将此处的多视角图像作为样本图像。上述样本标签的获得方式具体例如:使用雷达采集目标对象的三维点云数据,并使用公式Pimg′=KTP对目标对象的三维点云数据进行处理,最后,将三维点云数据中的点云尺寸与预设尺寸进行对齐,获得样本标签,此处的样本标签又被称为真值点云,真值点云可以表示为Dgt,gt是真值(ground truth)的简写。其中,P表示原始的三维点云数据,T表示将三维点云数据转换到像素坐标系下的数据,K表示转换成2.5D图像坐标系下的点云数据,点云数据中的点云可以表示为Pimg(u,v,d);其中,u和v表示像素坐标系下的像素位置,d表示点云的深度信息。
步骤S122:以图像特征和相机参数为训练数据,以样本标签为训练标签,对深度估计神经网络进行训练,获得深度估计网络模型。
上述步骤S122的实施方式例如:将图像特征和相机参数输入到深度估计神经网络,即使用深度估计神经网络对图像特征和相机参数进行预测,获得预测点云数据,此处的预测点云数据表示为Dpred
Figure BDA0004193245690000101
其中,N为相机个数,D代表深度的划分个数(例如:单目深度或双目深度等等),H和W分别表示预测点云数据的高度和宽度。然后,计算出预测点云数据和样本标签中的三维点云数据之间的损失值,再根据该损失值更新神经网络的网络权重参数,直到神经网络的正确率不再升高或者迭代次数(epoch)数量大于预设阈值时,即可获得训练后的深度估计网络模型。其中,上述的预设阈值也可以根据具体情况进行设置,例如设置为100或者1000等等。
作为上述步骤S130的一种可选实施方式,上述的相机参数可以包括:内部参数和外部参数;在根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征时,可以先展平和拼接内部参数和外部参数,然后再进行加权融合,该实施方式可以包括:
步骤S131:将内部参数和外部参数进行展平和拼接,获得参数输入向量,并将参数输入向量扩展为多维向量。
上述步骤S131的实施方式例如:对于相机参数的内部参数(又被简称为内参K)和外部参数(又被简称为外参T),先将内部参数和外部参数进行展平和拼接,获得参数输入向量,并利用多层感知器(Multi-Layer Perceptron,MLP)将参数输入向量扩展到C维,从而获得C维的多维向量。
步骤S132:使用多维向量对图像特征进行加权融合,获得上下文特征。
上述步骤S132的实施方式例如:通过挤压激振网络(Squeeze-and-ExcitationNetworks,SENet)利用C维的多维向量对图像特征(该图像特征可以表示为F2d)进行加权融合,获得上下文特征(又被称为上下文感知特征)。
可以理解的是,上述步骤S131至步骤S132的处理过程可以使用公式表示为Fctx=SE(F2d,MLP(concat(flatten(T),flatten(K)))),其中,flatten为展平操作,concat为拼接操作,MLP表示多层感知器的处理操作,F2d表示多视角图像的图像特征,SE表示挤压激振网络的处理操作,Fctx是获得的上下文特征(又被称为上下文感知特征),上下文特征的尺寸大小与F2d相同。在上述的实现过程中,通过将内部参数和外部参数进行展平和拼接后的参数输入向量作为加权融合的一部分,从而进一步地高了深度估计的质量和目标检测的准确率。
作为上述步骤S130的一种可选实施方式,在对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作时,可以先对点云数据进行对齐,该实施方式可以包括:
步骤S133:获取过去时刻的点云数据,将过去时刻的点云数据与当前时刻的点云数据进行对齐,获得对齐点云数据。
步骤S134:对上下文特征和对齐点云数据进行外积操作和体素池化操作,获得当前时刻的鸟瞰图特征。
上述步骤S133和步骤S134的实施方式例如:使用预设编程语言编译或者解释的可执行程序获取过去时刻的点云数据,将过去时刻的点云数据与当前时刻的点云数据进行对齐,获得对齐点云数据。然后,可以使用公式
Figure BDA0004193245690000121
对上下文特征和对齐点云数据进行外积操作,获得点云特征,该点云特征可以表示为/>
Figure BDA0004193245690000122
其中,Fpc表示点云特征,Fctx表示上下文特征,Pcur表示对齐点云数据,/>
Figure BDA0004193245690000123
表示外积操作,N为相机个数,C为特征通道维度,H和W分别表示特征的高度和宽度。然后,使用PointPillars方法对点云特征进行处理,即将每个点分配到其最近的柱体,进一步地,对点云特征进行求和体素池化,获得当前时刻的鸟瞰图特征(即BEV特征),该BEV特征可以表示为/>
Figure BDA0004193245690000124
其中,N为相机个数,C为特征通道维度,X和Y分别表示BEV特征的长度和宽度。
作为上述步骤S133的一种可选实施方式,在将过去时刻的点云数据与当前时刻的点云数据进行对齐时,可以通过坐标系转换的方式来对齐,该实施方式可以包括:
步骤S133a:将过去时刻的点云数据的坐标系转换为全局坐标系。
步骤S133b:将过去时刻的点云数据由全局坐标系转换为当前时刻的点云数据的坐标系,获得对齐点云数据。
上述步骤S133a至步骤S133b的实施方式例如:上述的过去时刻的点云数据可以表示为Ppost,使用公式Pcur=Tglobal2cur·Tpost2global·Ppost将过去时刻的点云数据的坐标系转换为全局坐标系,将过去时刻的点云数据由全局坐标系转换为当前时刻的点云数据的坐标系;其中,Pcur表示对齐点云数据,Tglobal2cur表示由全局坐标系转换为当前时刻的点云数据的坐标系,Tpost2global表示将过去时刻的点云数据的坐标系转换为全局坐标系。
作为上述步骤S140的一种可选实施方式,过去时刻可以包括:上一时刻,那么在将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合时,可以先融合两个时刻的鸟瞰图特征(即上一时刻的鸟瞰图特征与当前时刻的鸟瞰图特征),该实施方式可以包括:
步骤S141:将上一时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得对齐后的鸟瞰图特征。
可以理解的是,可以基于自动驾驶汽车的运动信息将上一时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,假设当前时刻的鸟瞰图特征表示为
Figure BDA0004193245690000131
那么上一时刻的鸟瞰图特征可以表示为/>
Figure BDA0004193245690000132
同理地,当前时刻的自动驾驶汽车的运动信息可以表示为at(即第t时刻到t+1时刻的运动信息),那么上一时刻的自动驾驶汽车的运动信息可以表示为at-1(即第t-1时刻到t时刻的运动信息),利用Spatial Transformer操作将过去第i时刻对齐到当前时刻,该操作可以使用公式表示为/>
Figure BDA0004193245690000133
其中,/>
Figure BDA0004193245690000134
表示对齐后的第i时刻的鸟瞰图特征,/>
Figure BDA0004193245690000135
表示第i时刻的鸟瞰图特征,at-1表示第t-1时刻的自动驾驶汽车的运动信息,ST表示空间转换(Spatial Transformer,ST)操作。
步骤S142:将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征。
上述步骤S142的实施方式例如:使用时序模型将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征可以表示为
Figure BDA0004193245690000141
其中,Fbev-ts表示时空融合后的鸟瞰图特征,/>
Figure BDA0004193245690000142
表示对齐后的第t时刻的鸟瞰图特征,/>
Figure BDA0004193245690000143
表示时序模型的时空融合操作,上述的时序模型可以采用长短期记忆(Long Short-Term Memory,LSTM)网络模型,或者,双向长短记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络模型。
可选地,还可以使用两阶段目标检测模型中的第一阶段的3D目标检测头对时空融合后的鸟瞰图特征进行处理,从而获得检测出的3D目标对象;其中,两阶段目标检测模型包括但不限于:RCNN模型、fast RCNN模型和faster RCNN模型等等。
在上述的实现过程中,通过同时让点云数据和鸟瞰图特征对齐融合,即将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合,从而获得时空融合的BEV特征,更好地帮助模型识别和处理遮挡问题,有效地提升了模型性能的鲁棒性。
作为上述步骤S140的一种可选实施方式,过去时刻可以包括:曾经的多个时刻,在将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合时,可以融合很多时刻的鸟瞰图特征(即多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征),包括:
步骤S143:将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得多个时刻对齐后的鸟瞰图特征。
上述步骤S143的实施方式与上述步骤S141的实施方式是类似的,有不清楚的地方可以参见步骤S141的实施方式,具体可以例如:使用公式
Figure BDA0004193245690000144
将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得多个时刻对齐后的鸟瞰图特征;其中,/>
Figure BDA0004193245690000145
表示对齐后的第i时刻的鸟瞰图特征,/>
Figure BDA0004193245690000151
表示第i时刻的鸟瞰图特征,at-1表示第t-1时刻的自动驾驶汽车的运动信息,ST表示空间转换(Spatial Transformer,ST)操作。
步骤S144:将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征。
上述步骤S144的实施方式与上述步骤S142的实施方式是类似的,有不清楚的地方可以参见步骤S142的实施方式,具体可以例如:使用时序模型的公式
Figure BDA0004193245690000152
将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征。其中,Fbev-ts表示时空融合后的鸟瞰图特征,/>
Figure BDA0004193245690000153
表示对齐后的第t时刻的鸟瞰图特征,/>
Figure BDA0004193245690000154
表示时序模型的时空融合操作,上述的时序模型可以采用长短期记忆(Long Short-Term Memory,LSTM)网络模型,或者,双向长短记忆(Bidirectional Long Short-Term Memory,Bi-LSTM)网络模型。
在上述的实现过程中,通过将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,并将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合,从而获得时空融合的BEV特征,有效地改善了自动驾驶汽车运动造成过去帧与当前帧空间存在的非对齐问题,使用多帧时序特征的精确对齐,从而进一步地提升了3D目标检测的准确率。
请参见图3示出的本申请实施例提供的自动驾驶3D目标检测装置的结构示意图;本申请实施例提供了一种自动驾驶3D目标检测装置200,包括:
图像特征提取模块210,用于获取自动驾驶场景中的当前时刻的多视角图像,并提取出多视角图像的图像特征。
点云数据获得模块220,用于使用深度估计网络模型对多视角图像的图像特征进行深度点云预测,获得当前时刻的点云数据。
特征提取获得模块230,用于根据多视角图像的相机参数从多视角图像的图像特征中提取出上下文特征,并对上下文特征和当前时刻的点云数据进行外积操作和体素池化操作,获得当前时刻的鸟瞰图特征。
时域特征融合模块240,用于获取过去时刻的鸟瞰图特征,并将当前时刻的鸟瞰图特征和过去时刻的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征。
特征目标检测模块250,用于使用融合后的鸟瞰图特征进行3D目标检测。
可选地,在本申请实施例中,自动驾驶3D目标检测装置,还包括:
特征参数提取模块,用于获取不同视角拍摄的样本图像和样本标签,并提取出样本图像的图像特征和相机参数,样本图像是对目标对象采集的图像,样本标签是目标对象的三维点云数据。
网络模型获得模块,用于以图像特征和相机参数为训练数据,以样本标签为训练标签,对深度估计神经网络进行训练,获得深度估计网络模型。
可选地,在本申请实施例中,相机参数包括:内部参数和外部参数;特征提取获得模块,包括:
参数展平拼接子模块,用于将内部参数和外部参数进行展平和拼接,获得参数输入向量,并将参数输入向量扩展为多维向量。
特征加权融合子模块,用于使用多维向量对图像特征进行加权融合,获得上下文特征。
可选地,在本申请实施例中,特征提取获得模块,包括:
点云数据对齐子模块,用于获取过去时刻的点云数据,将过去时刻的点云数据与当前时刻的点云数据进行对齐,获得对齐点云数据。
外积体素池化子模块,用于对上下文特征和对齐点云数据进行外积操作和体素池化操作。
可选地,在本申请实施例中,点云数据对齐子模块,包括:
第一坐标系转换单元,用于将过去时刻的点云数据的坐标系转换为全局坐标系。
第二坐标系转换单元,用于将过去时刻的点云数据由全局坐标系转换为当前时刻的点云数据的坐标系。
可选地,在本申请实施例中,时域特征融合模块,包括:
第一特征对齐子模块,用于将上一时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得对齐后的鸟瞰图特征。
第一特征融合子模块,用于将当前时刻的鸟瞰图特征和对齐后的鸟瞰图特征进行融合。
可选地,在本申请实施例中,时域特征融合模块,包括:
第二特征对齐子模块,用于将多个时刻的鸟瞰图特征与当前时刻的鸟瞰图特征对齐,获得多个时刻对齐后的鸟瞰图特征。
第二特征融合子模块,用于将当前时刻的鸟瞰图特征和多个时刻对齐后的鸟瞰图特征进行融合。
应理解的是,该装置与上述的自动驾驶3D目标检测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备300,包括:处理器310和存储器320,存储器320存储有处理器310可执行的机器可读指令,机器可读指令被处理器310执行时执行如上的方法。
本申请实施例还提供了一种计算机可读存储介质330,该计算机可读存储介质330上存储有计算机程序,该计算机程序被处理器310运行时执行如上的方法。其中,计算机可读存储介质330可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以和附图中所标注的发生顺序不同。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这主要根据所涉及的功能而定。
另外,在本申请实施例中的各个实施例的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。此外,在本说明书的描述中,参考术语“一个实施例”“一些实施例”“示例”“具体示例”“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (10)

1.一种自动驾驶3D目标检测方法,其特征在于,包括:
获取自动驾驶场景中的当前时刻的多视角图像,并提取出所述多视角图像的图像特征;
使用深度估计网络模型对所述多视角图像的图像特征进行深度点云预测,获得所述当前时刻的点云数据;
根据所述多视角图像的相机参数从所述多视角图像的图像特征中提取出上下文特征,并对所述上下文特征和所述当前时刻的点云数据进行外积操作和体素池化操作,获得所述当前时刻的鸟瞰图特征;
获取过去时刻的鸟瞰图特征,并将所述当前时刻的鸟瞰图特征和所述过去时刻的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征;
使用所述融合后的鸟瞰图特征进行3D目标检测。
2.根据权利要求1所述的方法,其特征在于,在所述使用深度估计网络模型对所述多视角图像的图像特征进行深度点云预测之前,还包括:
获取不同视角拍摄的样本图像和样本标签,并提取出所述样本图像的图像特征和相机参数,所述样本图像是对目标对象采集的图像,所述样本标签是所述目标对象的三维点云数据;
以所述图像特征和所述相机参数为训练数据,以所述样本标签为训练标签,对深度估计神经网络进行训练,获得所述深度估计网络模型。
3.根据权利要求1所述的方法,其特征在于,所述相机参数包括:内部参数和外部参数;所述根据所述多视角图像的相机参数从所述多视角图像的图像特征中提取出上下文特征,包括:
将所述内部参数和所述外部参数进行展平和拼接,获得参数输入向量,并将所述参数输入向量扩展为多维向量;
使用所述多维向量对所述图像特征进行加权融合,获得所述上下文特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述上下文特征和所述当前时刻的点云数据进行外积操作和体素池化操作,包括:
获取过去时刻的点云数据,将所述过去时刻的点云数据与所述当前时刻的点云数据进行对齐,获得对齐点云数据;
对所述上下文特征和所述对齐点云数据进行外积操作和体素池化操作。
5.根据权利要求4所述的方法,其特征在于,所述将所述过去时刻的点云数据与所述当前时刻的点云数据进行对齐,包括:
将所述过去时刻的点云数据的坐标系转换为全局坐标系;
将所述过去时刻的点云数据由全局坐标系转换为所述当前时刻的点云数据的坐标系。
6.根据权利要求1-5任一所述的方法,其特征在于,所述将所述当前时刻的鸟瞰图特征和所述过去时刻的鸟瞰图特征进行融合,包括:
将上一时刻的鸟瞰图特征与所述当前时刻的鸟瞰图特征对齐,获得对齐后的鸟瞰图特征;
将所述当前时刻的鸟瞰图特征和所述对齐后的鸟瞰图特征进行融合。
7.根据权利要求1-5任一所述的方法,其特征在于,所述将所述当前时刻的鸟瞰图特征和所述过去时刻的鸟瞰图特征进行融合,包括:
将多个时刻的鸟瞰图特征与所述当前时刻的鸟瞰图特征对齐,获得所述多个时刻对齐后的鸟瞰图特征;
将所述当前时刻的鸟瞰图特征和所述多个时刻对齐后的鸟瞰图特征进行融合。
8.一种自动驾驶3D目标检测装置,其特征在于,包括:
图像特征提取模块,用于获取自动驾驶场景中的当前时刻的多视角图像,并提取出所述多视角图像的图像特征;
点云数据获得模块,用于使用深度估计网络模型对所述多视角图像的图像特征进行深度点云预测,获得所述当前时刻的点云数据;
特征提取获得模块,用于根据所述多视角图像的相机参数从所述多视角图像的图像特征中提取出上下文特征,并对所述上下文特征和所述当前时刻的点云数据进行外积操作和体素池化操作,获得所述当前时刻的鸟瞰图特征;
时域特征融合模块,用于获取过去时刻的鸟瞰图特征,并将所述当前时刻的鸟瞰图特征和所述过去时刻的鸟瞰图特征进行融合,获得融合后的鸟瞰图特征;
特征目标检测模块,用于使用所述融合后的鸟瞰图特征进行3D目标检测。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
CN202310439097.5A 2023-04-21 2023-04-21 一种自动驾驶3d目标检测方法及相关装置 Pending CN116259043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439097.5A CN116259043A (zh) 2023-04-21 2023-04-21 一种自动驾驶3d目标检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439097.5A CN116259043A (zh) 2023-04-21 2023-04-21 一种自动驾驶3d目标检测方法及相关装置

Publications (1)

Publication Number Publication Date
CN116259043A true CN116259043A (zh) 2023-06-13

Family

ID=86679572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439097.5A Pending CN116259043A (zh) 2023-04-21 2023-04-21 一种自动驾驶3d目标检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN116259043A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740669A (zh) * 2023-08-16 2023-09-12 之江实验室 多目图像检测方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116740669A (zh) * 2023-08-16 2023-09-12 之江实验室 多目图像检测方法、装置、计算机设备和存储介质
CN116740669B (zh) * 2023-08-16 2023-11-14 之江实验室 多目图像检测方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
CN107808407B (zh) 基于双目相机的无人机视觉slam方法、无人机及存储介质
Mancini et al. Toward domain independence for learning-based monocular depth estimation
CN107735797B (zh) 用于确定第一坐标系与第二坐标系之间的运动的方法
EP3690744A1 (en) Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same
CN116469079A (zh) 一种自动驾驶bev任务学习方法及相关装置
CN112528974B (zh) 测距方法、装置、电子设备及可读存储介质
US20210318140A1 (en) Incremental map building using learnable features and descriptors
CN109063549B (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN109584299B (zh) 一种定位方法、定位装置、终端及存储介质
CN111274847A (zh) 一种定位方法
CN111784737A (zh) 一种基于无人机平台的目标自动跟踪方法及系统
CN111738032A (zh) 一种车辆行驶信息确定方法及装置、车载终端
CN116259043A (zh) 一种自动驾驶3d目标检测方法及相关装置
JP2022164640A (ja) マルチモーダル自動ラベル付けと能動的学習のためのデータセットとモデル管理のためのシステムと方法
CN115496895A (zh) 目标识别方法及其模型、电子设备、存储介质
CN114792414A (zh) 一种用于载体的目标变量检测方法及其系统
CN113012215A (zh) 一种空间定位的方法、系统及设备
Badrloo et al. A novel region-based expansion rate obstacle detection method for MAVs using a fisheye camera
CN114299230A (zh) 一种数据生成方法、装置、电子设备及存储介质
Viana et al. Aerial image instance segmentation through synthetic data using deep learning
Angelov et al. ARTOT: Autonomous real-Time object detection and tracking by a moving camera
US20200285247A1 (en) Systems and methods for autonomous robot navigation
Le Barz et al. Absolute geo-localization thanks to Hidden Markov Model and exemplar-based metric learning
Zhang et al. A self-supervised monocular depth estimation approach based on uav aerial images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination