CN117274835A - 一种无人机的单目3d物体检测方法、系统、介质及终端 - Google Patents
一种无人机的单目3d物体检测方法、系统、介质及终端 Download PDFInfo
- Publication number
- CN117274835A CN117274835A CN202210657179.2A CN202210657179A CN117274835A CN 117274835 A CN117274835 A CN 117274835A CN 202210657179 A CN202210657179 A CN 202210657179A CN 117274835 A CN117274835 A CN 117274835A
- Authority
- CN
- China
- Prior art keywords
- height
- image
- feature
- bev
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 69
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims abstract description 26
- 230000000007 visual effect Effects 0.000 claims abstract description 22
- 240000004050 Pentaglottis sempervirens Species 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 36
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000001737 promoting effect Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Remote Sensing (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种无人机的单目3D物体检测方法,包括:使用深度卷积神经网络提取特征图像;使用高度预测模块预测所述特征图像中每个特征点的高度,通过基于几何先验的可变形变换将所述特征图像的视角变为鸟瞰视角,获得鸟瞰图中每个特征点的高度;基于所述特征图像和所述鸟瞰图中每个特征点的高度,获得三维的鸟瞰图特征;将所述三维的鸟瞰图特征解码获得检测结果。本发明同时进行双视角的目标检测,结合BEV与RV两个视角,具有提供补偿信息并相互促进的优势,从而提升了无人机的单目3D物体检测效果。
Description
技术领域
本发明涉及图像处理技术领域,具体地,涉及一种无人机的单目3D物体检测方法、系统、介质及终端。
背景技术
无人机大大增强了人类感知世界的能力,并在广泛的应用中取得了显著的成功,包括农业、航空摄影、空中运输、安防和抗险救灾。无人机的一个独特优势是其可在三维空间自由地移动,这使得其在三维场景的理解方面具有巨大的潜力。然而,目前无人机的目标检测仅局限于在二维图像空间中得到的二维边界框,并不具备能对真实的三维物理空间的有效感知。
基于单张无人机视角的图片输入完成对三维物理世界的有效感知有三个关键的挑战:一个组织良好的数据集,一个基于无人机视角的合适的3D物体表示,以及一个有效的基于俯瞰视角的3D目标检测方法。首先,目前,无人机感知数据集只有二维图像内的2D标注,无法用于3D物体检测;其次,无人车中常用的3D物体边界框表示法并不适用于无人机视角,因为在俯瞰视角下物体的高度与无人机的飞行高度相比是可以忽略不计的,物体本身的高度几乎是无法估计的,另一方面,在无人车视角下,无人车与物体在同一平面上,物体的海拔高度表示被忽略,而在无人机视角下定位物体在真实3D物理世界中的位置十分重要,故物体的海拔高度和物体在俯瞰视角下的位置共同组成了无人机视角下的3D物体表示;第三,现有的基于无人车的单目3D目标检测方法并不适用于无人机,原因是当前更多的是基于车辆平视视角的三维理解,而对于无人机来说,俯瞰视角下的物体检测有更多变的视角和更严重的形变问题。根据成像原理可知,远距离的物体的形变情况会更为严重。由于俯瞰图像中物体在尺度和方向上有很大的变化,许多现有的检测数据集和算法不能直接应用于俯瞰图像。为了缓解数据集的问题,人们提出了大量的俯瞰图像的物体检测数据集,不幸的是,目前的俯瞰图像物体检测数据集和算法只关注于二维范围的视图空间,不能直接实现三维场景的理解。最近自动驾驶场景中,3D目标检测也正在兴起。为了利用无人机的灵活的可操作性填补俯瞰视角的3D目标检测方面的巨大空白,本发明提出了基于无人机的单目3D目标检测的新任务,并提供了一个组织良好的数据集。单目3D目标检测的目标是在给定的二维图像中检测3D空间的物体,这些方法有三种类型,直接从2D表示回归的方法,基于估计的深度重构出伪3D点云后进行基于点云的3D目标检测方法,以及基于网格化的3D特征进行3D目标检测的方法。直接法首先检测为边界框,然后利用几何约束回归3D框,由于没有明确的深度信息,通常表现较差。基于深度的方法,首先估计深度图,然后将深度图与图像特征相结合,生成伪三维点云,然后使用基于点云的3D目标检测方法得到3D的物体表示,由于系统并不是端到端的,第一阶段深度估计的错误无法被缓解,且整体推断过程比较繁琐,需要两个模型,推断的效率较低。而基于网格化的3D特征的方法,根据2D的图像特征和图片拍摄的视角推测场景的3D表示,基于恢复的3D场景表示进行3D的物体检测。目前的单目3D目标检测方法,视野范围图像与成像平面和场景平行,并不能适用存在多样的视角变化和严重的形变问题的无人机视角下的3D目标检测。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种无人机的单目3D物体检测方法、系统、介质及终端。
根据本发明的一个方面,提供一种无人机的单目3D物体检测方法,包括:
使用深度卷积神经网络提取特征图像;
使用高度预测模块预测所述特征图像中每个特征点的高度,通过几何先验变换将所述特征图像的视角变为鸟瞰视角,获得鸟瞰图中每个特征点的高度;
基于所述特征图像和所述鸟瞰图中每个特征点的高度,获得三维的鸟瞰图特征;
将所述三维的鸟瞰图特征解码获得检测结果。
优选地,所述使用深度卷积神经网络提取特征图像,包括:
用一个主干网络从数据图像中提取图像特征F(rv),为
其中fbackbone是基于DLA的卷积神经网络,而HR、WR、C是特征图的长度、宽度和通道维度。
优选地,所述使用高度预测模块预测所述特征图像中每个特征点的高度,通过几何先验变换将所述特征图像的视角变为鸟瞰视角,获得鸟瞰图中每个特征点的高度,包括:
使用高度估计模块faltitude预测每个图像特征点的海拔高度类别,并进行几何先验变换以获得鸟瞰图中每个坐标的海拔高度类别A(bev):
A(bev)=fa1titude(F(rv))∈R{X×Y×Z},
其中faltitude是高度估计模块,X、Y表示沿X轴和Y轴的感知范围,Z是高度区间的数量,每个元素A(bev)(x,y,z)反映了鸟瞰图下坐标(x,y)位置位于第z个高度区间的置信度。
优选地,所述基于所述特征图像和所述鸟瞰图中每个特征点的高度,获得三维的鸟瞰图特征,包括:
基于几何先验的可变形变换,基于2D的图像特征和鸟瞰图高度估计得到3D的鸟瞰图特征F(bev):
F(bev)=fdeform(F(rv),A(bev))∈RX×Y×C
其中fdeform是基于几何先验的可变形变换。
优选地,所述基于几何先验的可变形变换fdeform是利用相机内外参提供的几何先验信息变换和可形变卷积的学习变换优化所述三维的鸟瞰图特征;
其中,所述相机内外参提供的几何先验信息变换,包括:
通过相机投影矩阵P定义全局坐标到本地图像像素坐标/>之间的映射,
鸟瞰图与图像特征的关系为:
其中G(bev)(x,y,z)是坐标系(x,y,z)下的三维的鸟瞰图特征;
所述可形变卷积的学习变换,包括:
可形变卷积DCN层用可训练的偏移量缓解视角转换中的形变问题,
其中[;]表示串联,是x坐标轴下的特征点;/>为学习得到的可变形特征;
将几何先验变换的特征和学习得到的可变形特征/>使用一个残差结构,得到最终的鸟瞰图特征F(bev):
优选地,所述将所述三维的鸟瞰图特征解码获得检测结果,包括:
基于特征解码fdecoder得到物体框:
oi=fdecoder(F(bev),A(bev))
其中oi=(xi,yi,wi,li,θi,ai,ci)代表坐标位于(xi,yi),宽度为wi,长度为li,偏差角度为θi,高度为ai,物体种类为ci的物体,F(bev)为鸟瞰图特征,A(bev)为鸟瞰图中每个坐标的海拔高度类别。
优选地,使用两个损失函数分别监督所述海拔高度分类和基于鸟瞰图的物体检测;
对于海拔高度分类,A(bev)为估计的海拔高度类别,只有前景物体被监督,分类损失为
其中是前景物体的掩膜,其中1表示该位置存在前景物体,0表示无前景物体,/>是真实的海拔高度类别;
对于鸟瞰图物体检测,(x,y,w,l,θ)为检测到的物体框,是真实的物体框,回归损失为:
其中,(x,y)表示检测到的物体的坐标,(w,l)分别表示检测到的物体的宽度和长度,θ表示检测到的物体旋转角度。/>表示真实的物体框坐标,/>分别表示真实的物体框的宽度和长度,/>表示真实的物体框旋转角度。
根据本发明的第二个方面,提供一种基于无人机的单目3D物体检测系统,其用于实现上述任一项的方法,包括:
图像特征提取模块,所述图像特征提取模块用于对输入的无人机俯瞰图像,使用深度卷积神经网络提取图像的特征;
高度预测模块,所述高度预测模块用于预测图像中每个特征点的高度,使用高度分类模块得到每个特征点的高度,并通过几何先验变换将图片视角变换为鸟瞰视角,由此得到鸟瞰图下每个特征点的高度;
基于几何先验的可变形变换模块,所述基于几何先验的可变形变换使高度预测模块得到的每个特征点的高度,以及图像特征提取模块提取的二维图像的特征,共同转换为三维的鸟瞰图特征;
物体框分类和回归模块,所述物体框分类和回归模块用于将三维的鸟瞰图特征码为带有物体类别的物体框,其中二维图片特征解码为带有类别的二维物体框,三维鸟瞰图特征和预测得到的鸟瞰图下每个特征点的高度共同解码为定义的三维物体框。
根据本发明的第三个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述任一项的方法,或,运行上述的系统。
根据本发明的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于任一项所述的方法,或,执行所述的系统。
与现有技术相比,本发明具有如下的有益效果:
本发明实施例中的一种无人机的单目3D目标检测方法及系统,同时进行双视角的目标检测,结合BEV与RV两个视角,具有提供补偿信息并相互促进的优势,从而提升了无人机的单目3D物体检测效果。
本发明实施例中的一种无人机的单目3D目标检测方法及系统,通过海拔分类估计和基于几何先验的可变形变换从2D的俯瞰图片推断出3D的物体表示;基于几何先验的可形变变换结合几何先验变换的稳定性和可变形模块的可学习能力能有效应对俯瞰视角变化的多样性并缓解严重的形变问题,得到更准确的3D特征,从而提升3D目标检测的效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一实施例的基于无人机的单目3D目标检测系统的流程图;
图2为本发明一实施例的基于无人机的单目3D目标检测系统的框图。
标号说明:1-图像特征提取模块,2-高度预测模块,3-基于几何先验的可变形变换模块,4-物体框解码模块。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明提供一个实施例,一种无人机的单目3D物体检测方法,包括:
S100,使用深度卷积神经网络提取特征图像;
S200,使用高度预测模块预测S100中获得的特征图像中每个特征点的高度,通过几何先验变换将S100中的特征图像的视角变为鸟瞰视角,从而获得鸟瞰图中每个特征点的高度;
S300,基于S100获得特征图像和S200获得的鸟瞰图中每个特征点的高度,获得三维的鸟瞰图特征;
S400,将S300获得的三维的鸟瞰图特征解码获得检测结果。
基于上述实施例进一步优化,为本发明提供一个优选实施例,一种无人机的单目3D物体检测方法,其流程图如图1所示,包括:
S11,对输入的图像,使用深度卷积神经网络提取图像特征图;
S12,使用高度预测模块预测S11中提取的图像特征图中每个特征点的高度,并通过几何先验变换将完成了高度预测的S11中的图像特征图视角变换为鸟瞰视角,由此得到鸟瞰图下每个特征点的高度;使用基于几何先验的可变形变换来缓解俯瞰视角变换中严重的形变问题,同时使用预测得到的鸟瞰图下每个特征点的高度,将二维的图片特征转换为更准确的三维的鸟瞰图特征;
S13,将图片特征解码为带有类别的二维物体框;将鸟瞰图特征和预测得到的鸟瞰图下每个点的高度解码为三维物体框。
本发明上述实施例,结合相机姿态参数的先验知识和可形变卷积的学习能力提出一种基于几何先验的可变形变换,针对性地缓解无人机视角下的视角多变和严重的形变问题,实现从无人机图片视图到3D鸟瞰视图的精确变换,从而得到更为准确的3D物体表示,从而提升3D目标检测的效果;同时进行双视角的目标检测,结合BEV与RV两个视角,具有提供补偿信息并相互促进的优势,从而提升了无人机的单目3D物体检测效果。
在本发明的一个较佳实施例中,S11使用一个主干网络提取图像(Range View,RV)特征,具体关系为
其中fbackbone是基于DLA的主干网,而HR、WR、C是特征图的高度、重量和通道维度。
在本发明的一个较佳实施例中,基于上述S11获得图像RV特征,实行S12,基于高度估计模块预测每个RV特征点的海拔高度类别,并进行几何先验变换以获得鸟瞰图(Birds’Eye View,BEV)中每个坐标的海拔高度类别,具体关系为:
A(bev)=faltitude(F(rv))∈R{X×Y×Z}
其中faltimde是高度估计模块,X、Y表示沿X轴和Y轴的感知场的长度,Z是海拔高度类别的数量。每个元素A(bev)(x,y,z)反映了BEV中(x,y)第1个位置仓的第z个高度的置信度。
本发明上述实施例提出的海拔高度类别估计模块。其具体目标是在Z轴上对物体进行定位。因为空中视角会遇到严重的远距离问题,与物体和无人机之间的距离相比,不同物体的高度差相对较小。几乎不可能以连续的方式准确定位物体。为了缓解海拔高度的困难,将高度分为多个档次,并将回归任务改为分类任务,用一个分类任务来代替回归任务。具体实现过程如下:
首先估计每个RV像素的高度水平,图像背景可以提供丰富的高度提示。具体关系:
其中conv是1×1卷积层;
接下来将图片视角转换为鸟瞰视角,t为转换函数;
A(bev)=t(Arv)∈RX×Y×Z
然后,输出A(bev)可以反映出每个BEV位置的高度类别信息。
进一步,S12中提出将RV特征和估计的高度类别A(bev)输入到一个基于几何先验的可变形变换中生成鸟瞰图特征,具体关系为:
F(bev)=fdeform(F(rv),A(bev))∈RX×Y×C
其中fdeform是所提出的基于几何先验的可变形变换,同时利用相机内外参提供的的几何先验信息和可形变卷积的学习能力(Deformable ConvolutionNetwork,DCN)来得到更准确的鸟瞰图特征。参照图2所示,由基于几何先验信息的变换模块和可变形卷积网络模块,这两个模块是基于给定的2D RV特征转换得到3D的BEV特征,从而实现3D的目标检测。由于输入是2D的图像特征,如果没有额外的深度传感器,高度维度是缺失的。为了弥补缺失的高度信息,本实施例从两个方面考虑解决方案:1)沿Z轴加权;2)沿X、Y轴变形特征。
首先,利用从相机内外参中得出的几何先验信息的变换,在所有可能的高度上生成BEV表示;然后,用高度分类器估计的高度置信度对它们进行加权。加权的BEV特征沿着高度轴被平均化,折叠为BEV特征。、接着,,一个可训练的可形变卷积网络(DCN)来适应性地修正由不精确的高度造成的BEV特征的失真。在这个视图转换阶段使用DCN能够用额外的偏移来灵活地进行空间采样,这可以帮助微调几何转换的特征。使用一个残差结构来结合来自上述几何先验变换的稳定性和可形变卷积的自适应性。
具体实施过程如下:
基于几何先验信息的变换是一种非参数化的视图变换方法。相机投影矩阵P定义了全局坐标到本地图像像素坐标/>之间的映射。
同时,BEV与RV的关系可以表示为
通过在所有可能的高度上的几何先验变换,得到了平坦的但″立体″的BEV特征。几何先验变换是非参数化,缺乏可学习的灵活性。理想情况下,BEV特征可以完全代表现实世界,如果高度是精确预测的。然而,严重的远距离问题以及空中视角使得高度的问题以及空中视角使得高度的估计特别困难。因此,预计几何先验信息的变换后的BEV特征遇到空间采样噪声。
为了促进更好的转换,一个DCN层被级联起来,用可训练的偏移量增强几何空间采。本实施例进一步将坐标与BEV特征连接起来,以BEV特征来指导偏移学习。由于坐标可以暗示网络的几何先验,即感知领域是随着物体和摄像机之间的距离增加而增加的,这意味着扰区域远时大,近时小。具体表现为最后,本实施例使用一个残差结构,将几何先验变换的特征和适应性的可变形特征来得到最终的BEV特征:
在本发明的一个优选实施例中,基于上述S12获得的BEV特征,以及由主干网络提取的图像特征,进一步提出了一个双视角的物体检测系统以实施S13。该系统可以同时感知二维图像空间和三维物理空间中的物体。因为这两个视图可以相互促进,二维图像空间可以提供物体的细节,如颜色和形状,而平滑的图像背景可以帮助理解物体。三维空间可以提供更准确的空间信息。它们的信息隐含的一致性来自于对两个视图的监督,包括RV和BEV,可以帮助减少彼此的误差,从而更准确地感知物体。
两个视图共享同一主干线。RV解码器在二维图像空间对物体进行定位,而BEV解码器则通过使用所提出的海拔高度类别估计和地理变形变换方法在三维空间对物体进行定位。得到物体框的过程如下:
oi=fdecoder(F(bev),A(bev))
其中oi=(xi,yi,wi,li,θi,ai,ci)代表坐标位于(xi,yi),宽度为wi,长度为li,偏差角度为θi,高度为ai,物体种类为ci的物体,i代表检测到的第i个物体。
在本发明的其他实施例中,为了训练整个系统,通过两个损失函数来监督两个任务:海拔高度分类和基于BEV的物体检测;对于海拔高度分类,让A(bev)为估计的海拔高度类别,只有前景物体被监督,分类损失为通过使用Focal损失函数来缓解不平衡问题。对于BEV物体检测。(x,y,w,l,θ)为检测到的物体框,是真实的物体框,那么回归损失具体如下:/> 其中,(x,y)表示检测到的物体的坐标,(w,l)分别表示检测到的物体的宽度和长度,θ表示检测到的物体旋转角度。表示真实的物体框坐标,/>分别表示真实的物体框的宽度和长度,/>表示真实的物体框旋转角度。
基于相同的发明构思,本发明还提供一种基于无人机的单目3D物体检测系统,其用于基于上述的无人机的单目3D物体检测方法,其包括:图像特征提取模块、高度预测模块、基于几何先验的可变形变换模块和物体框分类和回归模块;其中,
图像特征提取模块用于对输入的无人机俯瞰图像,使用深度卷积神经网络提取图像的特征;
高度预测模块用于预测图像中每个特征点的高度,使用高度分类模块得到每个特征点的高度,并通过几何先验变换将图片视角变换为鸟瞰视角,由此得到鸟瞰图下每个特征点的高度;
基于几何先验的可变形变换用于缓解图片视角到鸟瞰视角的视角变换中严重的形变问题,使用高度预测模块得到的每个特征点的高度,以及二维的图片特征点,共同转换为准确的三维的鸟瞰图特征;
物体框分类和回归模块用于将特征点解码为带有物体类别的物体框,其中二维图片特征解码为带有类别的二维物体框,三维鸟瞰图特征和预测得到的鸟瞰图下每个点的高度共同解码为定义的三维物体框。
基于相同的发明构思,在本发明的其他实施例中提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,上述处理器执行上述程序时可用于执行上述任一项的方法,或,运行上述的系统。
基于相同的发明构思,在本发明的其他实施例中提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于任一项上述的方法,或,执行上述的系统。
需要说明的是,本发明提供的所述方法中的步骤,可以利用所述系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照所述系统的技术方案实现所述方法的步骤流程,即,所述系统中的实施例可理解为实现所述方法的优选例,在此不予赘述。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。
Claims (10)
1.一种无人机的单目3D物体检测方法,其特征在于,包括:
使用深度卷积神经网络提取特征图像;
使用高度预测模块预测所述特征图像中每个特征点的高度,通过几何先验变换将所述特征图像的视角变为鸟瞰视角,获得鸟瞰图中每个特征点的高度;
基于所述特征图像和所述鸟瞰图中每个特征点的高度,获得三维的鸟瞰图特征;
将所述三维的鸟瞰图特征解码获得检测结果。
2.根据权利要求1所述的一种无人机的单目3D物体检测方法,其特征在于,所述使用深度卷积神经网络提取特征图像,包括:
用一个主干网络从数据图像中提取图像特征F(rv),为
其中fbackbone是基于DLA的卷积神经网络,而HR、WR、C是特征图的长度、宽度和通道维度。
3.根据权利要求2所述的无人机的单目3D物体检测方法,其特征在于,所述使用高度预测模块预测所述特征图像中每个特征点的高度,通过几何先验变换将所述特征图像的视角变为鸟瞰视角,获得鸟瞰图中每个特征点的高度,包括:
使用高度估计模块faltitude预测每个图像特征点的海拔高度类别,并进行几何先验变换以获得鸟瞰图中每个坐标的海拔高度类别A(bev):
A(bev)=faltitude(F(rv))∈R{X×Y×Z},
其中faltitude是高度估计模块,X、Y表示沿X轴和Y轴的感知范围,Z是高度区间的数量,每个元素A(bev)(x,y,z)反映了鸟瞰图下坐标(x,y)位置位于第z个高度区间的置信度。
4.根据权利要求3所述的无人机的单目3D物体检测方法,其特征在于,所述基于所述特征图像和所述鸟瞰图中每个特征点的高度,获得三维的鸟瞰图特征,包括:
基于几何先验的可变形变换,基于2D的图像特征和鸟瞰图高度估计得到3D的鸟瞰图特征F(bev):
F(bev)=fdeform(F(rv),A(bev))∈RX×Y×C
其中fdeform是基于几何先验的可变形变换。
5.根据权利要求4所述的无人机的单目3D物体检测方法,其特征在于,所述基于几何先验的可变形变换fdeform是利用相机内外参提供的几何先验信息变换和可形变卷积的学习变换优化所述三维的鸟瞰图特征;
其中,所述相机内外参提供的几何先验信息变换,包括:
通过相机投影矩阵P定义全局坐标到本地图像像素坐标/>之间的映射,
鸟瞰图与图像特征的关系为:
其中G(bev)(x,y,z)是坐标系(x,y,z)下的三维的鸟瞰图特征;
所述可形变卷积的学习变换,包括:
可形变卷积DCN层用可训练的偏移量缓解视角转换中的形变问题,
其中[;]表示串联,是x坐标轴下的特征点;/>为学习得到的可变形特征;
将几何先验变换的特征和学习得到的可变形特征/>使用一个残差结构,得到最终的鸟瞰图特征F(bev):
6.根据权利要求1所述的无人机的单目3D物体检测方法,其特征在于,所述将所述三维的鸟瞰图特征解码获得检测结果,包括:
基于特征解码fdecoder得到物体框:
oi=fdecoder(F(bev),A(bev))
其中oi=(xi,yi,wi,li,θi,ai,ci)代表坐标位于(xi,yi),宽度为wi,长度为li,旋转角度为θi,高度为ai,物体种类为ci的物体,F(bev)为鸟瞰图特征,A(bev)为鸟瞰图中每个坐标的海拔高度类别,i代表检测的第i个物体。
7.根据权利要求1所述的无人机的单目3D物体检测方法,其特征在于,使用两个损失函数分别监督所述海拔高度分类和基于鸟瞰图的物体检测;
对于海拔高度分类,A(bev)为估计的海拔高度类别,只有前景物体被监督,分类损失为
其中是前景物体的掩膜,其中1表示该位置存在前景物体,0表示无前景物体,/>是真实的海拔高度类别;
对于鸟瞰图物体检测,(x,y,w,l,θ)为检测到的物体框,是真实的物体框,回归损失为:
其中,(x,y)表示检测到的物体的坐标,(w,l)分别表示检测到的物体的宽度和长度,θ表示检测到的物体旋转角度,/>表示真实的物体框坐标,/>分别表示真实的物体框的宽度和长度,/>表示真实的物体框旋转角度。
8.一种基于无人机的单目3D物体检测系统,其用于实现权利要求1-7任一项所述的方法,其特征在于,包括:
图像特征提取模块,所述图像特征提取模块用于对输入的无人机俯瞰图像,使用深度卷积神经网络提取图像的特征;
高度预测模块,所述高度预测模块用于预测图像中每个特征点的高度,使用高度分类模块得到每个特征点的高度,并通过几何先验变换将图片视角变换为鸟瞰视角,由此得到鸟瞰图下每个特征点的高度;
基于几何先验的可变形变换模块,所述基于几何先验的可变形变换使将高度预测模块得到的每个特征点的高度,以及图像特征提取模块提取的二维图像的特征,共同转换为三维的鸟瞰图特征;
物体框分类和回归模块,所述物体框分类和回归模块用于将三维的鸟瞰图特征解码为带有物体类别的物体框,其中二维图片特征解码为带有类别的二维物体框,三维鸟瞰图特征和预测得到的鸟瞰图下每个特征点的高度共同解码为定义的三维物体框。
9.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时可用于执行权利要求1-7中任一项所述的方法,或,运行权利要求8所述的系统。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时可用于执行权利要求1-7中任一项所述的方法,或,执行权利要求8所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210657179.2A CN117274835A (zh) | 2022-06-10 | 2022-06-10 | 一种无人机的单目3d物体检测方法、系统、介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210657179.2A CN117274835A (zh) | 2022-06-10 | 2022-06-10 | 一种无人机的单目3d物体检测方法、系统、介质及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274835A true CN117274835A (zh) | 2023-12-22 |
Family
ID=89204986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210657179.2A Pending CN117274835A (zh) | 2022-06-10 | 2022-06-10 | 一种无人机的单目3d物体检测方法、系统、介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274835A (zh) |
-
2022
- 2022-06-10 CN CN202210657179.2A patent/CN117274835A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021233029A1 (en) | Simultaneous localization and mapping method, device, system and storage medium | |
US20200302629A1 (en) | Depth information determining method and related apparatus | |
CN110853075B (zh) | 一种基于稠密点云与合成视图的视觉跟踪定位方法 | |
Won et al. | Sweepnet: Wide-baseline omnidirectional depth estimation | |
Park et al. | High-precision depth estimation using uncalibrated LiDAR and stereo fusion | |
CN111563415B (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
US20120257016A1 (en) | Three-dimensional modeling apparatus, three-dimensional modeling method and computer-readable recording medium storing three-dimensional modeling program | |
EP3769265A1 (en) | Localisation, mapping and network training | |
CN113865580A (zh) | 构建地图的方法、装置、电子设备及计算机可读存储介质 | |
CN107809610B (zh) | 摄像头参数集算出装置、摄像头参数集算出方法以及记录介质 | |
CN113568435B (zh) | 一种基于无人机自主飞行态势感知趋势的分析方法与系统 | |
CN112083403B (zh) | 用于虚拟场景的定位追踪误差校正方法及系统 | |
EP3293700A1 (en) | 3d reconstruction for vehicle | |
CN113283525A (zh) | 一种基于深度学习的图像匹配方法 | |
US11842440B2 (en) | Landmark location reconstruction in autonomous machine applications | |
CN116194951A (zh) | 用于基于立体视觉的3d对象检测与分割的方法和装置 | |
CN117152228A (zh) | 基于通道自注意力机制的自监督图像深度估计方法 | |
CN114648639B (zh) | 一种目标车辆的检测方法、系统及装置 | |
CN115690711A (zh) | 一种目标检测方法、装置及智能车辆 | |
US20220236055A1 (en) | A system and method for providing improved geocoded reference data to a 3d map representation | |
CN117274835A (zh) | 一种无人机的单目3d物体检测方法、系统、介质及终端 | |
KR20220144456A (ko) | Svm 원 영상을 기반으로 근접 주행 환경을 인식하는 방법 및 시스템 | |
Javed et al. | OmniVO: Toward Robust Omni Directional Visual Odometry With Multicamera Collaboration for Challenging Conditions | |
Su et al. | Omnidirectional depth estimation with hierarchical deep network for multi-fisheye navigation systems | |
CN116740681B (zh) | 目标检测方法、装置、车辆和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |