CN110689008A - 一种面向单目图像的基于三维重建的三维物体检测方法 - Google Patents

一种面向单目图像的基于三维重建的三维物体检测方法 Download PDF

Info

Publication number
CN110689008A
CN110689008A CN201910877786.8A CN201910877786A CN110689008A CN 110689008 A CN110689008 A CN 110689008A CN 201910877786 A CN201910877786 A CN 201910877786A CN 110689008 A CN110689008 A CN 110689008A
Authority
CN
China
Prior art keywords
dimensional
point cloud
depth
information
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910877786.8A
Other languages
English (en)
Inventor
李豪杰
王智慧
马新柱
欧阳万里
方欣瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910877786.8A priority Critical patent/CN110689008A/zh
Publication of CN110689008A publication Critical patent/CN110689008A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向单目图像的基于三维重建的三维物体检测方法,属于图像处理和计算机视觉领域。本发明首先利用一个独立的模块将输入数据从二维图像平面转换为三维点云空间,以获得更好的输入表示;然后使用PointNet网络作为主干网络进行三维检测,以获得对象的三维位置、尺寸和方向;为了提高点云的识别能力,本发明提出了一个多模态特征融合模块,将点的RGB信息以及ROI的RGB特征补充嵌入到生成的点云表示中。同二维图像相比,本发明的这种从三维场景推出三维边界框的方法更为高效;和类似的基于单目相机的三维物体检测方法相比,本发明的方法更加高效。

Description

一种面向单目图像的基于三维重建的三维物体检测方法
技术领域
本发明属于图像处理和计算机视觉领域,涉及室外场景中基于单目图像的三维目标检测。具体涉及一种面向单目图像的基于三维重建的三维物体检测方法,是一种以单目图像为输入,输出图像中的感兴趣目标(如车辆,行人等)的真实三维坐标、大小、朝向等信息的三维检测方法。
背景技术
近年来,随着深度学习和计算机视觉的发展,大量的二维目标检测算法被提出并且广泛应用于各种视觉产品中。然而对于无人驾驶,移动机器人和虚拟现实等应用,二维检测技术远远不能满足实际需求。为了提供更精确的目标位置以及几何信息,三维目标检测技术已经成为不可缺少的重要研究热点,其目的是在真实三维场景中捕捉感兴趣的目标,并且给出其在真实世界坐标系下的绝对位置、大小以及朝向等信息。现在这个问题受到越来越多的学者的关注,因为雷达提供的可靠的深度信息可以用于精确地定位物体并且确定它们的形状。通常来说,根据所依赖的数据类型不同,可以分为基于雷达数据的三维检测方法和基于图像数据的三维检测方法。基于雷达点云数据的方法能够实现较高精度的三维目标检测任务,但是这类方法的存在明显的缺点:过度依赖硬件设备。造价昂贵且不具备便携性的雷达设备严重限制了此类方法的应用场景。然而基于图像数据的三维检测算法由于其数据采集方便且来源广泛,基于单目相机的三维目标检测研究更加具有应用前景。
传统的基于图像数据的三维检测方法采用和二维检测器相似的方法,主要关注从二维图片中提取RGB特征然而这些RGB特征并不适用于三维相关的任务因为这些特征缺少空间信息,这也是该方法很难取得好的表现效果的主要原因。一种新的解决思路是,在没有可用的深度数据时可以使用CNN来预测深度并作为输入。虽然深度信息对三维场景的理解非常有帮助,但是如果只是简单地将深度信息作为RGB图像的一个额外通道,并不能弥补基于图像数据的方法和基于雷达数据的方法二者之间的差距。毫无疑问的是雷达数据相较于使用CNN估计的深度信息有更高的准确度。
目前基于雷达数据的三维检测方法和基于图像数据的三维检测方法的发展情况如下:在早期的基于图像数据的三维检测方法中,基于单目的方法使用的是二维检测的框架,但是检测三维物体中心的坐标值更为复杂,因为单纯的图像信息无法确定物体的物理位置。Mono3D和3DOP利用之前的知识从单目相机或Stereo图像生成三维物体候选框。Deep3DBox引入了几何约束,基于作者的观察需要将3D边界框应与二维检测边界框紧密配合。Deep MANTA使用关键点对3D车辆信息进行编码,因为它们是具有几何信息的刚体。然后可以将Deep MANTA中的车辆识别看作额外的关键点检测。尽管这些方法提出了一些有效的先验知识或合理的约束条件,但由于空间信息的缺乏,它们很难获得很好的表现。
同时,介绍几种基于雷达数据的三维检测方法,MV3D将三维点云和多视角的特征图混合编码,支持基于区域的多模型融合表示。随着用深度学习处理原始点云数据的发展,一些基于原始点云的检测方式也陆续被提出。Qi等人通过提取对应于其二维检测的截锥点云将PointNet扩展到三维检测任务。VoxelNet将点云划分为均匀的三维体素网格空间并将体素网格内的点转化为体素网格的固有特征表示。最后,在这些高维度体素特征上使用二维卷积层来获取空间特征并给出预测结果。尽管这两种方法可以得到有保证的检测结果,它们并不能很好地利用到RGB信息。
发明内容
本发明旨在克服现有技术的不足,提供了一种基于单目相机的更准确的三维物体检测方法,解决了重建三维空间的问题,可以很好地提取三维语义,为此,首先利用一个独立的模块将输入数据从二维图像平面转换为三维点云空间,以获得更好的输入表示;为了提高点云的识别能力,本发明提出了一个多模态特征融合模块,将RGB特征补充嵌入到生成的点云表示中;然后使用PointNet网络进行三维检测,以获得对象的三维位置、尺寸和方向。同平面图像相比,从三维场景推出三维边界框更为高效。
本发明的具体技术方案:
一种面向单目图像的基于三维重建的三维物体检测方法,能够得到用以表示物体位置、大小、姿态的三维边框,其过程包括如下步骤:
1)三维数据生成:利用两个深度卷积神经网络实现二维检测和深度估计任务,得到位置以及深度信息,利用二维检测技术生成二维边界框,并将生成的深度图信息转化为点云。
2)二维图像平面转换为三维点云空间:利用步骤1)中得到的深度图和二维边界框计算得到每个二维边界框的深度的均值,从而得到ROI(感兴趣区域)区域的位置信息,提取每个ROI区域的点作为输入数据,依次去除背景信息,并进行更新。
3)RGB信息聚合,三维边界框预测:利用注意力机制,为每个点增加其RGB信息,同时,增加区域特征融合,将ROI区域内的图像进行放缩,利用卷积神经网络提取特征后,同点的特征作concatenate运算得到最后的特征图,之后使用PointNet网络预测三维物体区域的边界框。
所述的步骤1)的三维数据生成,具体包括以下步骤:
1-1)中间任务,训练两个深度卷积神经网络来生成深度图以及二维边界框以提供深度信息以及位置预测;中间任务通过DORN算法和FPN算法实现。
1-2)结合步骤1-1)中得到的深度信息,利用KITTI数据集中提供的相机坐标转换文件将深度图信息转化为点云,然后将点云作为数据输入格式;给定深度图像的像素坐标(u,v)和深度d,相机坐标系下的点云坐标(x,y,z)可通过如下公式得到:
Figure BDA0002204912470000041
其中,f是相机的焦距,(Cx,Cy)是坐标系原点。
1-3)点云S通过深度图和二维边界框B按下式得到:
S={p|p←F(v),v∈B}
其中,v是步骤1-2)中深度图中的像素,F(·)指代步骤1-2)中的公式的转换函数,p代表每一个点。
所述的步骤2)的二维图像平面转换为三维点云空间,具体包括以下步骤:
2-1)通过步骤1)中的深度图和二维边界框计算得到每个二维边界框的深度的均值,从而得到ROI区域的位置,并将其作为阈值;对于ROI区域中所有的点,如果一个点的Z通道的值大于阈值,该点将被视为背景点,将点云S去背景点得到点云S′,去背景点处理方式如下:
Figure BDA0002204912470000042
其中,pv代表每个点Z通道的值,即深度的值,r是用于修正阈值的偏置。
2-2)利用轻量网络预测ROI区域的中点δ,并用中点δ更新点云S′得到点云S″:
S″={p|p-δ,p∈S′}
所述的步骤3)的RGB信息聚合、三维边界框预测,具体包括以下步骤:
3-1)将RGB信息增加到生成的点云中,将步骤1-3)中S的表达式替换如下:
S={p|p←[F(v),D(v)],v∈B}
其中,D是一个输出每个点对应RGB值的函数,通过这种方式所有S中的点被编码为6维的向量:[x,y,z,r,g,b]。
3-2)在步骤3-1)的基础上,将RGB信息添加到步骤2-2)中更新后的点云S″中每一个点,使用注意力机制引导信息从空间特征到RGB特征的传导;当将RGB信息传递到对应的点云时,从三维物体的xyz信息生成注意力图G:
Figure BDA0002204912470000051
其中,f是通过卷积层学习到的非线性函数,σ是为特征图做标准化的sigmoid函数,
Figure BDA0002204912470000052
分别表示用最大池化和均值池化对网络输出的特征图进行操作提取到的xyz特征。
3-3)利用步骤3-2)中得到的注意力图G,信息在特征图进行传递,传递过程如下:
Figure BDA0002204912470000054
其中,
Figure BDA0002204912470000055
表示矩阵中元素的乘积,Fxyz和Frgb分别表示网络分别在点云数据和图像数据中提取到的关于xyz和关于rgb的特征图。
3-4)物体RGB信息的特征融合:首先从RGB图像提取ROI区域并将该区域放缩至像素128*128,然后使用卷积神经网络提取物体的特征图Fobj
3-5)用于估计三维物体的特征图集F通过融合模型获得,并利用特征图获得三维检测框,融合模型如下:
F←CONCAT(Fxyz,Fobj)
其中,CONCAT表示concatenate操作。
3-6)利用PointNet网络,结合三维物体的特征图集F,计算三维物体最终的中心点的坐标(X,Y,Z)、尺寸(h,w,l)和朝向θ,从而预测物体的三维边界框,其中,h是三维物体的高,w是三维物体的宽,l是三维物体的长度。
本发明的有益效果是:
本发明结合二维检测和卷积神经网络深度推断的融合方法进行三维点云重建,在此基础上,通过融合点点云的RGB特征以及区域的RGB特征来实现三维检测任务,具有以下特点:
1、将二维图像转化为三维点云,可以高效地实现三维检测。
2、利用一种特征融合策略,充分利用RGB信息和点云的优势,提高检测性能,同时这种融合策略也可以应用于其他场景,如基于激光雷达的三维检测等。
3、利用KITTI数据集进行评估显示本发明的方法比目前最好的基于单目相机的方法在三维定位任务和三维检测任务的AP值分别高15%和11%。
本发明充分的利用了CNN二维检测网络和CNN预测的深度图,实现了基于单目相机的三维场景的点云重建,同时利用多特征融合模型将RGB信息嵌入点云特诊,更高效地实现三维检测任务,所提的方法具有很好的可扩展性,并可直接用于LiDAR数据。
附图说明
图1是本发明方法的流程示意图。
图2是三维边界框预测(Det-Net)网络结构图;其中:点的特征是特征的主干,RGB特征附加到点的特征后和区域特征作连接(concatenate)运算。
图3是三维物体检测结果图;其中:深色的检测框是真值检测框,白色的检测框是本发明嵌入RGB信息后的模型检测得到的结果。
具体实施方式
以下结合附图和技术方案,进一步说明本发明的具体实施方式。
本发明以单目相机为传感器获取的图片为数据,在此基础上,利用二维检测器以及CNN的深度预测与特征法推断的稀疏深度图进行深度信息恢复,建立三维点云数据。整个方法的实施流程如图1所示,所述方法包括下列步骤:
1)首先采用两个CNN网络分别对RGB图像做卷积得到物体的大概位置以及深度信息。
1-1)二维检测器,使用CNN二维检测器检测并定为RGB图像中的物体,分别输出检测物体类别的分数(Class Score)以及二维边界框B的坐标。
1-2)深度生成器,同样使用现有的CNN网络学习并生成待检测RGB图片的深度信息。
1-3)如果只是单纯地用卷积神经网络从深度图提取有效的特征并不是最好的解决方法。为了更好地利用深度信息,利用KITTI数据集提供的坐标转换文件将预测的深度信息转化为点云数据并将点云作为模型进一步的输入。给定深度图像的像素坐标(u,v)和深度d,相机中的三维坐标(x,y,z)可以通过以下公式得到:
Figure BDA0002204912470000071
其中,f是相机的焦距,(Cx,Cy)是坐标原点。
1-4)点云S可以通过深度图和二维边界框B按下式得到:
S={p|p←F(v),v∈B}
其中,v是1-2)中深度图中的像素,F指代步骤1-2)中的公式的转换函数,p代表每一个点。
1-5)需要注意的是,实际上使用了一个编码-解码网络来学习从(u,v,d)到(x,y,z)的映射,因此在测试阶段不需要相机。实际上,点云生成阶段产生的误差相较于深度图本身包含的误差是可以忽略不计的。
2)二维图像平面转换为三维点云空间:
2-1)虽然在步骤1)中生成了点云,但是在点云数据中存在大量无用的背景信息,为了精确估计目标的位置,需要去除这些无用的点。通过步骤1)中的深度图和二维边界框计算得到每个二维边界框的深度的均值来得到ROI(感兴趣区域)的大致位置,并将其作为阈值。对于所有的点,如果一个点的Z通道的值大于这个阈值,这个点将被视为背景点,点云S′去背景点处理方式如下:
Figure BDA0002204912470000081
其中,pv代表每个点Z通道的值(即深度的值),r是用来修正阈值的偏置。
2-2)使用步骤2-1)中得到的点集,在每个点集中随机选取固定数量的点作为模型的输出来确保每个序列的点云数量是固定的大小。
2-3)使用已有的轻量级网络预测ROI区域的中点δ,并用δ更新点云:
S″={p|p-δ,p∈S′}
3)RGB信息聚合,三维边界框预测:为了进一步提升模型的表现以及鲁棒性,本发明提出将RGB信息添加到点云数据中,RGB信息分为两部分,一部分是每个点的RGB信息,另一部分是每个ROI区域的RGB信息。
3-1)将通过下式将RGB信息添加到点云上:
S={p|p←[F(v),D(v)],v∈B}
其中,D是一个输出每个点对应RGB值的函数,通过这种方式所有S中的点被编码为6维的向量:[x,y,z,r,g,b]。然而,如果仅依赖这种简单的方法来添加RGB信息是不可行的。添加如图2的注意力机制来实现融合RGB的任务。
3-2)在3-1)的基础上,使用注意力机制指导信息从空间特征到RGB特征的传递。注意力可以让网络自动关注或者忽略其他特征的信息。当将RGB信息传递到对应的点时,从三维物体的xyz信息生成注意力图G:
Figure BDA0002204912470000082
其中,f是通过卷积层学习到的非线性函数,σ是为特征图做标准化的sigmoid函数,
Figure BDA0002204912470000083
分别表示用最大池化和均值池化对网络输出的特征图进行操作提取到的xyz特征。
3-3)利用3-2)中得到的G,信息通过以下控制从特征图进行传递:
Figure BDA0002204912470000091
其中,
Figure BDA0002204912470000092
表示矩阵中元素的乘积,Fxyz和Frgb分别表示网络分别在点云数据和图像数据中提取到的关于xyz和关于rgb的特征图。
3-4)本发明除了融合点的RGB信息之外,也会融合ROI物体层面的RGB信息。首先从RGB图像中裁剪ROI区域并将其放缩到固定大小128×128。
3-5)使用卷积神经网络提取物理层面的特征图Fobj,从而融合模型中得到的最终特征图F:
F←CONCAT(Fxyz,Fobj)
其中,CONCAT表示concatenate操作。
3-6)利用PointNet网络,通过三维物体的中心点的坐标(X,Y,Z)、尺寸(h,w,l),和朝向θ来预测三维边界框,其中h是三维物体的高,w是三维物体的宽,l是三维物体的长度。同其他方法一样,只考虑了一个朝向因为假设路面是水平的并且另外两个角度是不可能得到的。三维边界框估计网络的架构如图2所示。
3-7)另外一点需要注意的是此处估计的中心点C是“冗余中心点”,换句话说C是实际中心点C+δ。最后将每个二维检测框的置信度(confidence score)添加到对应的三维检测结果。
4)实现细节:本实施例用多任务损失函数对两个三维物体检测的网络进行优化,同时将实现细节描写如下:
4-1)多任务损失函数如下所示:
L=Lloc+Ldet+λLcorner,
其中,Lloc是轻量的定位网络的损失函数,Ldet是三维物体检测网络的损失函数,Lcorner为边界框坐标的损失函数,λ为权重调整因子。
在训练模型时使用Adam优化,训练200个epoch,同时batch size的大小是32。学习速率初始化为0.001,然后每20个epoch降低一半。所有的训练进程可以在一天以内完成。
4-2)提出的融合模型在PyTorch上运行,GPU为Nvidia 1080Ti。两个中间任务网络适用于所有的网络结构。对于三维检测网络,使用PointNet作为的主干网络并通过随机初始化从零开始训练它们。除最后一层外,其余各层均采用保持率为0.7的Dropout策略。对于RGB的值,首先在(0,1)的区间内对它们做标准化并划分为255份,然后将每个颜色通道的数据分布规律化为标准正态分布。对于RGB功能融合模块中的区域分支,使用一半通道的ResNet-34网络以及全局池化操作来得到1*1*256的特征图。
5)图3是模型预测的三维边界框和ground truth的三位边界框的比较,将三维边界框分别投影到图像平面,深色框来自用RGB特征融合模块训练的模型,白色框是groundtruth提供的三维边界框。尤其是物体在遮挡/截断情况下,本发明提出的RGB融合方法可以提高三维检测的精度。

Claims (4)

1.一种面向单目图像的基于三维重建的三维物体检测方法,其特征在于,包括如下步骤:
1)三维数据生成:利用两个深度卷积神经网络实现二维检测和深度估计任务,得到位置以及深度信息,利用二维检测技术生成二维边界框,并将生成的深度图信息转化为点云;
2)二维图像平面转换为三维点云空间:利用步骤1)中得到的深度图和二维边界框计算得到每个二维边界框的深度的均值,从而得到ROI区域的位置信息,提取每个ROI区域的点作为输入数据,依次去除背景信息,并进行更新;
3)RGB信息聚合,三维边界框预测:利用注意力机制,为每个点增加其RGB信息,同时,增加区域特征融合,将ROI区域内的图像进行放缩,利用卷积神经网络提取特征后,同点的特征作concatenate运算得到最后的特征图,之后使用PointNet网络预测三维物体区域的边界框。
2.根据权利要求1所述的一种面向单目图像的基于三维重建的三维物体检测方法,其特征在于,所述的步骤1)包括以下步骤:
1-1)中间任务,训练两个深度卷积神经网络来生成深度图以及二维边界框以提供深度信息以及位置预测;中间任务通过DORN算法和FPN算法实现;
1-2)结合步骤1-1)中得到的深度信息,利用KITTI数据集中提供的相机坐标转换文件将深度图信息转化为点云,然后将点云作为数据输入格式;给定深度图像的像素坐标(u,v)和深度d,相机坐标系下的点云坐标(x,y,z)通过如下公式得到:
Figure FDA0002204912460000011
其中,f是相机的焦距,(Cx,Cy)是坐标系原点;
1-3)点云S通过深度图和二维边界框B按下式得到:
S={p|p←F(v),v∈B}
其中,v是步骤1-2)中深度图中的像素,F(·)指代步骤1-2)中的公式的转换函数,p代表每一个点。
3.根据权利要求1所述的一种面向单目图像的基于三维重建的三维物体检测方法,其特征在于,所述的步骤2)包括以下步骤:
2-1)通过步骤1)中的深度图和二维边界框计算得到每个二维边界框的深度的均值,从而得到ROI区域的位置,并将其作为阈值;对于ROI区域中所有的点,如果一个点的Z通道的值大于阈值,该点将被视为背景点,将点云S去背景点得到点云S′,去背景点处理方式如下:
Figure FDA0002204912460000021
其中,pv代表每个点Z通道的值,即深度的值,r是用于修正阈值的偏置;
2-2)利用轻量网络预测ROI区域的中点δ,并用中点δ更新点云S′得到点云S″:
S″={p|p-δ,p∈S′}。
4.根据权利要求1所述的一种面向单目图像的基于三维重建的三维物体检测方法,其特征在于,所述的步骤3)具体包括以下步骤:
3-1)将RGB信息增加到生成的点云中,将步骤1-3)中S的表达式替换如下:
S={p|p←[F(v),D(v)],v∈B}
其中,D是一个输出每个点对应RGB值的函数,通过这种方式所有S中的点被编码为6维的向量:[x,y,z,r,g,b];
3-2)在步骤3-1)的基础上,将RGB信息添加到步骤2-2)中更新后的点云S″中每一个点,使用注意力机制引导信息从空间特征到RGB特征的传导;当将RGB信息传递到对应的点云时,从三维物体的xyz信息生成注意力图G:
其中,f是通过卷积层学习到的非线性函数,σ是为特征图做标准化的sigmoid函数,
Figure FDA0002204912460000032
Figure FDA0002204912460000033
分别表示用最大池化和均值池化对网络输出的特征图进行操作提取到的xyz特征;
3-3)利用步骤3-2)中得到的注意力图G,信息在特征图进行传递,传递过程如下:
Figure FDA0002204912460000034
其中,表示矩阵中元素的乘积,Fxyz和Frgb分别表示网络分别在点云数据和图像数据中提取到的关于xyz和关于rgb的特征图;
3-4)物体RGB信息的特征融合:首先从RGB图像提取ROI区域并将该区域放缩至像素128*128,然后使用卷积神经网络提取物体的特征图Fobj
3-5)用于估计三维物体的特征图集F通过融合模型获得,并利用特征图获得三维检测框,融合模型如下:
F←CONCAT(Fxyz,Fobj)
其中,CONCAT表示concatenate操作;
3-6)利用PointNet网络,结合三维物体的特征图集F,计算三维物体最终的中心点的坐标(X,Y,Z)、尺寸(h,w,l)和朝向θ,从而预测物体的三维边界框,其中,h是三维物体的高,w是三维物体的宽,l是三维物体的长度。
CN201910877786.8A 2019-09-17 2019-09-17 一种面向单目图像的基于三维重建的三维物体检测方法 Withdrawn CN110689008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910877786.8A CN110689008A (zh) 2019-09-17 2019-09-17 一种面向单目图像的基于三维重建的三维物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910877786.8A CN110689008A (zh) 2019-09-17 2019-09-17 一种面向单目图像的基于三维重建的三维物体检测方法

Publications (1)

Publication Number Publication Date
CN110689008A true CN110689008A (zh) 2020-01-14

Family

ID=69109325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910877786.8A Withdrawn CN110689008A (zh) 2019-09-17 2019-09-17 一种面向单目图像的基于三维重建的三维物体检测方法

Country Status (1)

Country Link
CN (1) CN110689008A (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274943A (zh) * 2020-01-19 2020-06-12 深圳市商汤科技有限公司 一种检测方法、装置、电子设备及存储介质
CN111354075A (zh) * 2020-02-27 2020-06-30 青岛联合创智科技有限公司 一种三维重建中前景降干扰提取方法
CN111402405A (zh) * 2020-03-23 2020-07-10 北京工业大学 一种基于注意力机制的多视角图像三维重建方法
CN111507222A (zh) * 2020-04-09 2020-08-07 中山大学 一种基于多源数据知识迁移的三维物体检测框架
CN111563415A (zh) * 2020-04-08 2020-08-21 华南理工大学 一种基于双目视觉的三维目标检测系统及方法
CN111695480A (zh) * 2020-06-04 2020-09-22 重庆大学 基于单帧图像的实时目标检测与3d定位方法
CN111709923A (zh) * 2020-06-10 2020-09-25 中国第一汽车股份有限公司 一种三维物体检测方法、装置、计算机设备和存储介质
CN111783580A (zh) * 2020-06-19 2020-10-16 宁波智能装备研究院有限公司 基于人腿检测的行人识别方法
CN111899328A (zh) * 2020-07-10 2020-11-06 西北工业大学 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN111931643A (zh) * 2020-08-08 2020-11-13 商汤集团有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112116714A (zh) * 2020-09-28 2020-12-22 贝壳技术有限公司 基于二维图像生成房间结构模型的方法及装置
CN112347932A (zh) * 2020-11-06 2021-02-09 天津大学 一种点云-多视图融合的三维模型识别方法
CN112581597A (zh) * 2020-12-04 2021-03-30 上海眼控科技股份有限公司 三维重建方法、装置、计算机设备和存储介质
CN112767489A (zh) * 2021-01-29 2021-05-07 北京达佳互联信息技术有限公司 一种三维位姿确定方法、装置、电子设备及存储介质
CN112819080A (zh) * 2021-02-05 2021-05-18 四川大学 一种高精度通用的三维点云识别方法
CN112862776A (zh) * 2021-02-02 2021-05-28 中电鸿信信息科技有限公司 基于ar和多重语义分割的智能测量方法
CN112949463A (zh) * 2021-02-26 2021-06-11 长安大学 一种集料级配快速检测模型的建立、检测方法及系统
CN113052835A (zh) * 2021-04-20 2021-06-29 江苏迅捷装具科技有限公司 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统
CN113192204A (zh) * 2021-01-29 2021-07-30 哈尔滨工程大学 单幅倾斜遥感图像中建筑物的三维重建方法
CN113240750A (zh) * 2021-05-13 2021-08-10 中移智行网络科技有限公司 三维空间信息测算方法及装置
CN113239726A (zh) * 2021-04-06 2021-08-10 北京航空航天大学杭州创新研究院 基于着色点云的目标检测方法、装置和电子设备
CN113408584A (zh) * 2021-05-19 2021-09-17 成都理工大学 Rgb-d多模态特征融合3d目标检测方法
CN113436239A (zh) * 2021-05-18 2021-09-24 中国地质大学(武汉) 一种基于深度信息估计的单目图像三维目标检测方法
CN113496160A (zh) * 2020-03-20 2021-10-12 百度在线网络技术(北京)有限公司 三维物体检测方法、装置、电子设备和存储介质
CN113538487A (zh) * 2021-07-14 2021-10-22 安徽炬视科技有限公司 一种基于多摄像机三维重建的虚拟三维周界管控算法
CN113591369A (zh) * 2021-06-30 2021-11-02 国网福建省电力有限公司信息通信分公司 一种基于先验约束的单帧视图三维模型点云重建方法和存储设备
CN113657478A (zh) * 2021-08-10 2021-11-16 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN113674421A (zh) * 2021-08-25 2021-11-19 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
CN113705432A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 一种模型训练、三维目标检测方法、装置、设备及介质
CN114004971A (zh) * 2021-11-17 2022-02-01 北京航空航天大学 一种基于单目图像和先验信息的3d目标检测方法
CN114273826A (zh) * 2021-12-31 2022-04-05 南京欧睿三维科技有限公司 用于大型待焊接工件的焊接位置自动识别方法
CN114638996A (zh) * 2020-12-01 2022-06-17 广州视源电子科技股份有限公司 基于对抗学习的模型训练方法、装置、设备和存储介质
CN114708230A (zh) * 2022-04-07 2022-07-05 深圳市精明检测设备有限公司 基于图像分析的车架质量检测方法、装置、设备及介质
CN114821033A (zh) * 2022-03-23 2022-07-29 西安电子科技大学 一种基于激光点云的三维信息增强的检测识别方法及装置
CN115223023A (zh) * 2022-09-16 2022-10-21 杭州得闻天下数字文化科技有限公司 基于立体视觉和深度神经网络的人体轮廓估计方法及装置
CN115601498A (zh) * 2022-09-27 2023-01-13 内蒙古工业大学(Cn) 基于RealPoin3D的单幅图像三维重建方法
CN116205788A (zh) * 2023-04-27 2023-06-02 粤港澳大湾区数字经济研究院(福田) 一种三维特征图的获取方法、图像处理方法及相关装置
CN116503418A (zh) * 2023-06-30 2023-07-28 贵州大学 一种复杂场景下的作物三维目标检测方法
US11734845B2 (en) 2020-06-26 2023-08-22 Toyota Research Institute, Inc. System and method for self-supervised monocular ground-plane extraction
CN114638996B (zh) * 2020-12-01 2024-10-15 广州视源电子科技股份有限公司 基于对抗学习的模型训练方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056622A (zh) * 2016-08-17 2016-10-26 大连理工大学 一种基于Kinect相机的多视点深度视频复原方法
CN108171217A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于点融合网络的三维物体检测方法
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN109829476A (zh) * 2018-12-27 2019-05-31 青岛中科慧畅信息科技有限公司 基于yolo的端到端三维物体检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106056622A (zh) * 2016-08-17 2016-10-26 大连理工大学 一种基于Kinect相机的多视点深度视频复原方法
CN108171217A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于点融合网络的三维物体检测方法
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN109829476A (zh) * 2018-12-27 2019-05-31 青岛中科慧畅信息科技有限公司 基于yolo的端到端三维物体检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINZHU MA等: "Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving", 《ARXIV:1903.11444V1 [CS.CV]》 *
XINZHU MA等: "Accurate Monocular 3D Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving", 《ARXIV:1903.11444V2 [CS.CV]》 *
XINZHU MA等: "Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving", 《ARXIV:1903.11444V3 [CS.CV] 》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274943A (zh) * 2020-01-19 2020-06-12 深圳市商汤科技有限公司 一种检测方法、装置、电子设备及存储介质
CN111274943B (zh) * 2020-01-19 2023-06-23 深圳市商汤科技有限公司 一种检测方法、装置、电子设备及存储介质
CN111354075A (zh) * 2020-02-27 2020-06-30 青岛联合创智科技有限公司 一种三维重建中前景降干扰提取方法
CN113496160A (zh) * 2020-03-20 2021-10-12 百度在线网络技术(北京)有限公司 三维物体检测方法、装置、电子设备和存储介质
CN111402405A (zh) * 2020-03-23 2020-07-10 北京工业大学 一种基于注意力机制的多视角图像三维重建方法
CN111563415A (zh) * 2020-04-08 2020-08-21 华南理工大学 一种基于双目视觉的三维目标检测系统及方法
CN111563415B (zh) * 2020-04-08 2023-05-26 华南理工大学 一种基于双目视觉的三维目标检测系统及方法
CN111507222A (zh) * 2020-04-09 2020-08-07 中山大学 一种基于多源数据知识迁移的三维物体检测框架
CN111507222B (zh) * 2020-04-09 2023-07-07 中山大学 一种基于多源数据知识迁移的三维物体检测框架
CN111695480B (zh) * 2020-06-04 2023-04-28 重庆大学 基于单帧图像的实时目标检测与3d定位方法
CN111695480A (zh) * 2020-06-04 2020-09-22 重庆大学 基于单帧图像的实时目标检测与3d定位方法
CN111709923A (zh) * 2020-06-10 2020-09-25 中国第一汽车股份有限公司 一种三维物体检测方法、装置、计算机设备和存储介质
CN111709923B (zh) * 2020-06-10 2023-08-04 中国第一汽车股份有限公司 一种三维物体检测方法、装置、计算机设备和存储介质
CN111783580A (zh) * 2020-06-19 2020-10-16 宁波智能装备研究院有限公司 基于人腿检测的行人识别方法
CN111783580B (zh) * 2020-06-19 2022-11-15 宁波智能装备研究院有限公司 基于人腿检测的行人识别方法
US11734845B2 (en) 2020-06-26 2023-08-22 Toyota Research Institute, Inc. System and method for self-supervised monocular ground-plane extraction
CN111899328A (zh) * 2020-07-10 2020-11-06 西北工业大学 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN111899328B (zh) * 2020-07-10 2022-08-09 西北工业大学 一种基于rgb数据与生成对抗网络的点云三维重建方法
CN111931643A (zh) * 2020-08-08 2020-11-13 商汤集团有限公司 一种目标检测方法、装置、电子设备及存储介质
CN112116714A (zh) * 2020-09-28 2020-12-22 贝壳技术有限公司 基于二维图像生成房间结构模型的方法及装置
CN112347932A (zh) * 2020-11-06 2021-02-09 天津大学 一种点云-多视图融合的三维模型识别方法
CN112347932B (zh) * 2020-11-06 2023-01-17 天津大学 一种点云-多视图融合的三维模型识别方法
CN114638996B (zh) * 2020-12-01 2024-10-15 广州视源电子科技股份有限公司 基于对抗学习的模型训练方法、装置、设备和存储介质
CN114638996A (zh) * 2020-12-01 2022-06-17 广州视源电子科技股份有限公司 基于对抗学习的模型训练方法、装置、设备和存储介质
CN112581597A (zh) * 2020-12-04 2021-03-30 上海眼控科技股份有限公司 三维重建方法、装置、计算机设备和存储介质
CN112767489B (zh) * 2021-01-29 2024-05-14 北京达佳互联信息技术有限公司 一种三维位姿确定方法、装置、电子设备及存储介质
CN113192204A (zh) * 2021-01-29 2021-07-30 哈尔滨工程大学 单幅倾斜遥感图像中建筑物的三维重建方法
CN112767489A (zh) * 2021-01-29 2021-05-07 北京达佳互联信息技术有限公司 一种三维位姿确定方法、装置、电子设备及存储介质
CN112862776A (zh) * 2021-02-02 2021-05-28 中电鸿信信息科技有限公司 基于ar和多重语义分割的智能测量方法
CN112819080A (zh) * 2021-02-05 2021-05-18 四川大学 一种高精度通用的三维点云识别方法
CN112819080B (zh) * 2021-02-05 2022-09-02 四川大学 一种高精度通用的三维点云识别方法
CN112949463A (zh) * 2021-02-26 2021-06-11 长安大学 一种集料级配快速检测模型的建立、检测方法及系统
CN112949463B (zh) * 2021-02-26 2023-08-04 长安大学 一种集料级配快速检测模型的建立、检测方法及系统
CN113239726A (zh) * 2021-04-06 2021-08-10 北京航空航天大学杭州创新研究院 基于着色点云的目标检测方法、装置和电子设备
CN113239726B (zh) * 2021-04-06 2022-11-08 北京航空航天大学杭州创新研究院 基于着色点云的目标检测方法、装置和电子设备
CN113052835B (zh) * 2021-04-20 2024-02-27 江苏迅捷装具科技有限公司 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统
CN113052835A (zh) * 2021-04-20 2021-06-29 江苏迅捷装具科技有限公司 一种基于三维点云与图像数据融合的药盒检测方法及其检测系统
CN113240750A (zh) * 2021-05-13 2021-08-10 中移智行网络科技有限公司 三维空间信息测算方法及装置
CN113436239A (zh) * 2021-05-18 2021-09-24 中国地质大学(武汉) 一种基于深度信息估计的单目图像三维目标检测方法
CN113408584A (zh) * 2021-05-19 2021-09-17 成都理工大学 Rgb-d多模态特征融合3d目标检测方法
CN113591369B (zh) * 2021-06-30 2023-06-09 国网福建省电力有限公司信息通信分公司 一种基于先验约束的单帧视图三维模型点云重建方法和存储设备
CN113591369A (zh) * 2021-06-30 2021-11-02 国网福建省电力有限公司信息通信分公司 一种基于先验约束的单帧视图三维模型点云重建方法和存储设备
CN113538487A (zh) * 2021-07-14 2021-10-22 安徽炬视科技有限公司 一种基于多摄像机三维重建的虚拟三维周界管控算法
CN113657478A (zh) * 2021-08-10 2021-11-16 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN113657478B (zh) * 2021-08-10 2023-09-22 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN113674421B (zh) * 2021-08-25 2023-10-13 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
CN113674421A (zh) * 2021-08-25 2021-11-19 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
CN113705432A (zh) * 2021-08-26 2021-11-26 京东鲲鹏(江苏)科技有限公司 一种模型训练、三维目标检测方法、装置、设备及介质
CN114004971A (zh) * 2021-11-17 2022-02-01 北京航空航天大学 一种基于单目图像和先验信息的3d目标检测方法
CN114273826A (zh) * 2021-12-31 2022-04-05 南京欧睿三维科技有限公司 用于大型待焊接工件的焊接位置自动识别方法
CN114821033A (zh) * 2022-03-23 2022-07-29 西安电子科技大学 一种基于激光点云的三维信息增强的检测识别方法及装置
CN114708230A (zh) * 2022-04-07 2022-07-05 深圳市精明检测设备有限公司 基于图像分析的车架质量检测方法、装置、设备及介质
CN115223023A (zh) * 2022-09-16 2022-10-21 杭州得闻天下数字文化科技有限公司 基于立体视觉和深度神经网络的人体轮廓估计方法及装置
CN115223023B (zh) * 2022-09-16 2022-12-20 杭州得闻天下数字文化科技有限公司 基于立体视觉和深度神经网络的人体轮廓估计方法及装置
CN115601498A (zh) * 2022-09-27 2023-01-13 内蒙古工业大学(Cn) 基于RealPoin3D的单幅图像三维重建方法
CN116205788B (zh) * 2023-04-27 2023-08-11 粤港澳大湾区数字经济研究院(福田) 一种三维特征图的获取方法、图像处理方法及相关装置
CN116205788A (zh) * 2023-04-27 2023-06-02 粤港澳大湾区数字经济研究院(福田) 一种三维特征图的获取方法、图像处理方法及相关装置
CN116503418B (zh) * 2023-06-30 2023-09-01 贵州大学 一种复杂场景下的作物三维目标检测方法
CN116503418A (zh) * 2023-06-30 2023-07-28 贵州大学 一种复杂场景下的作物三维目标检测方法

Similar Documents

Publication Publication Date Title
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN111325797B (zh) 一种基于自监督学习的位姿估计方法
Zhan et al. Unsupervised learning of monocular depth estimation and visual odometry with deep feature reconstruction
US20210183083A1 (en) Self-supervised depth estimation method and system
CN110070025B (zh) 基于单目图像的三维目标检测系统及方法
CN108648161A (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
Liang et al. A survey of 3D object detection
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN111914615A (zh) 基于立体视觉的消防区域可通过性分析系统
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
Lv et al. A novel approach for detecting road based on two-stream fusion fully convolutional network
CN115359474A (zh) 适用于移动端的轻量级三维目标检测方法、装置及介质
CN111354030A (zh) 嵌入SENet单元的无监督单目图像深度图生成方法
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
CN116912405A (zh) 一种基于改进MVSNet的三维重建方法及系统
Li et al. Deep learning based monocular depth prediction: Datasets, methods and applications
Zhou et al. PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes
Shi et al. Self-supervised learning of depth and ego-motion with differentiable bundle adjustment
Gong et al. Skipcrossnets: Adaptive skip-cross fusion for road detection
CN116625383A (zh) 一种基于多传感器融合的道路车辆感知方法
Zhang et al. Dyna-depthformer: Multi-frame transformer for self-supervised depth estimation in dynamic scenes
Ogura et al. Improving the visibility of nighttime images for pedestrian recognition using in‐vehicle camera
Liu et al. FSFM: A feature square tower fusion module for multimodal object detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200114

WW01 Invention patent application withdrawn after publication