CN117351310B - 基于深度补全的多模态3d目标检测方法及系统 - Google Patents

基于深度补全的多模态3d目标检测方法及系统 Download PDF

Info

Publication number
CN117351310B
CN117351310B CN202311283502.5A CN202311283502A CN117351310B CN 117351310 B CN117351310 B CN 117351310B CN 202311283502 A CN202311283502 A CN 202311283502A CN 117351310 B CN117351310 B CN 117351310B
Authority
CN
China
Prior art keywords
depth
image
rgb image
sparse
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311283502.5A
Other languages
English (en)
Other versions
CN117351310A (zh
Inventor
宋然
史洋
张伟
丛润民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202311283502.5A priority Critical patent/CN117351310B/zh
Publication of CN117351310A publication Critical patent/CN117351310A/zh
Application granted granted Critical
Publication of CN117351310B publication Critical patent/CN117351310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了基于深度补全的多模态3D目标检测方法及系统,涉及目标检测技术领域,获取待检测的RGB图像及对应的3D稀疏深度图;将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;3D目标检测网络从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签;本发明将单目RGB图像信息和LIDAR深度信息进行结合,利用在图像局部区域同一目标具有相似深度的先验,对LIDAR获取的深度信息进行稠密化,以实现更加精确的3D目标检测效果。

Description

基于深度补全的多模态3D目标检测方法及系统
技术领域
本发明属于目标检测技术领域,尤其涉及基于深度补全的多模态3D目标检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在现阶段,3D目标检测是智能驾驶、智能制造等领域的重要技术,它利用计算机视觉和深度学习等方法,对环境中的关键目标进行感知和识别。相比传统的2D目标检测,3D目标检测可以预测目标的真实位置和姿态,以及与目标之间的距离信息,从而更好地适应现实世界的环境。该技术通过LIDAR、相机等传感器,获取数据建立数据集,使用深度神经网络对数据进行特征提取和分类,以及生成三维边界框来预测目标的位置和姿态。同时,它还可以利用获取的数据来计算目标之间的相对位姿,以便进行碰撞检测和避障规划等任务。由上可得,感知数据的丰富程度对于3D目标检测的效果至关重要。
目前,LIDAR和单目RGB相机相配合的数据获取组合是3D目标检测的主流方式,单目RGB相机可以获取场景中丰富的RGB信息和二维信息,LIDAR可以提供三维信息,然而相对于单目RGB相机,LIDAR获取的信息往往较为稀疏。LIDAR获取的三维信息越稠密,其造价往往越高,这无疑大大限制了3D目标检测的性能提升。
因此,现有的3D目标检测方法存在LIDAR获取的深度信息过于稀疏制约3D目标检测准确性的问题。
发明内容
为克服上述现有技术的不足,本发明提供了基于深度补全的多模态3D目标检测方法及系统,将单目RGB图像信息和L IDAR深度信息进行结合,利用在图像局部区域同一目标具有相似深度的先验,对L IDAR获取的深度信息进行稠密化,以实现更加精确的3D目标检测效果。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了基于深度补全的多模态3D目标检测方法。
基于深度补全的多模态3D目标检测方法,包括:
获取待检测的RGB图像及对应的3D稀疏深度图;
将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;
其中,所述3D目标检测网络,从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签。
进一步的,所述RGB图像通过单目RGB相机采集,所述3D稀疏深度图通过激光雷达LIDAR采集。
进一步的,所述像素点的类别标签,是采用SAM模型对RGB图像进行分割,识别每个像素点的类别标签。
进一步的,所述生成稠密深度图,具体为:
对RGB图像进行网格划分;
对每个网格中像素点的类别标签和深度信息进行对应,得到网格中的类别分布;
基于网格中的类别分布,对像素点的深度信息进行补全,得到稠密深度图。
进一步的,所述基于网格中的类别分布,对像素点的深度信息进行补全,具体为:
针对每种类别在网格中的像素点,利用3D稀疏深度图判断网格中类别是否存在对应的深度信息,如果存在深度信息,则将该深度信息传播到网格中该类别的所有像素点,如果不存在深度,则从3D稀疏深度图中搜索距离网格最近的深度信息,并传播到网格中该类别的所有像素点。
进一步的,所述融合预测,基于一种编码-解码结构,在编码阶段,利用四个编码块提取特征图,在解码阶段,利用解码器的输出特征图与编码阶段四个编码块提取的特征进行进一步的融合,得到最终的特征图,基于特征图,预测目标物的3D锚框和类别标签。
进一步的,所述3D目标检测网络的训练,基于从类别损失和3D回归两个角度构建的损失函数,具体为:
L=Lr+ce
其中,Lr被用于限制预测3D锚框位置点和真实3D锚框位置点之间的误差,交叉熵损失Lce被用于最大化融合预测的表现。
本发明第二方面提供了基于深度补全的多模态3D目标检测系统。
基于深度补全的多模态3D目标检测系统,包括获取模块和检测模块:
获取模块,被配置为:获取待检测的RGB图像及对应的3D稀疏深度图;
检测模块,被配置为:将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;
其中,所述3D目标检测网络,从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签。
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于深度补全的多模态3D目标检测方法中的步骤。
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于深度补全的多模态3D目标检测方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
本发明充分利用单目RGB图像的信息,建立局部区域内类别和深度的对应关系,实现对LIDAR获取的深度信息的补全,可以使得最终的3D目标检测效果实现有效的提升;借助于融合预测,在网络结构中充分挖掘低层特征、中级特征以及高级语义特征,有效用于不同场景下的3D目标检测任务,提高模型的应用能力和使用价值。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
图2为第一个实施例3D目标检测网络的结构图。
图3为第一个实施例融合预测模块的结构图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
针对L IDAR获取的深度信息过于稀疏制约3D目标检测准确性的问题,本发明提出了一种基于深度补全的多模态3D目标检测方法;该方法将单目RGB图像信息和L IDAR信息进行结合,利用在图像局部区域同一目标具有相似深度的先验,对L IDAR获取的深度信息进行稠密化,利用稠密化后的深度信息与单目RGB图像信息相结合,便可进一步提升3D目标检测的精度信息,由于该目标检测算法的整个优化过程均是在2维平面上进行,因此所提出的方法相较于目前的3D目标检测过程简单,且性能优良,可以有效提高3D目标检测的性能。
实施例一
在一个或多个实施方式中,公开了基于深度补全的多模态3D目标检测方法,如图1所示,包括如下步骤:
步骤S1:获取待检测的RGB图像及对应的3D稀疏深度图;
步骤S2:将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;
其中,所述3D目标检测网络,从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签。
下面对本实施例基于深度补全的多模态3D目标检测方法的实现过程进行详细说明。
本实施例的3D目标检测网络结构如图2所示,首先从激光雷达LIDAR中获取3D稀疏深度图,如3D点云,然后对RGB图像进行图像分割操作获取图像像素级别的类别标签,接着基于在RGB图像中局部区域内相同目标的像素往往具有相似的深度,引入深度稠密化策略,获取稠密深度图,最后基于稠密深度图和RGB图像的丰富信息,构建融合预测模块实现对图像中目标物的有效3D预测,下面对其中的关键技术进行说明:
一、深度补全
在上述的技术方案中,关键的一步是构建稠密深度图。在RGB图像的局部区域内,同一类别的像素通常具有相似的深度,利用局部区域内的类别和深度之间的关系来对稀疏深度进行补全。因此,在具体构造之前,获取像素类别标签是不可或缺的步骤。
可以采用有监督的语义分割方法来获取像素类别,但这种方法通常需要大量训练数据,增加了方法的复杂性和成本。根据先验知识,本方案主要关注的是局部区域内类别和深度的对应关系,而不需要具体的语义类别标签;因此,使用一些不包含语义信息的通用类别标签来指导深度的稠密化。
基于这种考虑,本实施例使用SAM模型来获取像素的类别标签,该模型是处理图像分割任务的通用模型,可以在不经过训练的情况下,对RGB图像中的物体进行直接分割;使用该模型可以大大降低像素类别标签的获取成本和代价;基于获取的图像像素类别标签,接下来的操作便是对3D稀疏深度图进行深度补全。
本实施例对RGB图像以d为步长进行网格划分,通过对每个网格中的像素类别和深度进行对应,实现对于稀疏深度信息的补全。
具体来说,对于单个网格,根据图像类别标签,获取该网格中的类别分布,即每种类别在网格中的像素点;基于网格中的类别分布,利用稀疏深度图判断网格中类别是否存在对应的深度信息,如果存在深度信息,则将该深度传播到网格区域中该类别的所有像素点,即将网格区域中该类别的所有像素点的深度信息都设置为该深度信息;如果不存在深度,则需要搜索稀疏深度图中距离该网格最近的有深度信息的像素点,将其深度信息作为网格区域中该类别下所有像素点的深度信息。通过这种方法,可以实现稀疏深度的补全,得到深度补全图,即稠密深度图。
上述判断中,如果有多个符合条件的深度信息,则取其中的中位值作为新的深度信息,进行网格区域中该类别的所有像素点的深度设定。
二、融合预测模块搭建
为了充分利用所得到的深度补全图,本实施例设计了融合预测模块,如图3所示,模块基于一种编码-解码结构,在编码阶段,利用四个尺度的编码块block从低层、中层和高层提取特征图,并将它们融合在一起;为了实现多层次的信息获取,采用了下采样策略将四个尺度的编码块合并在一起,每个编码块具有16个通道。
在解码阶段,采用了上采样策略,进一步提取特征,利用解码器的输出特征图与前述的四个编码块进行进一步的融合,从而得到最终的特征图,最后是两个串联操作:
第一个操作是ROI(Region ofInterest)池化层,它从候选框中提取出固定大小的特征向量,这样可以确保对于不同大小的候选框,都可以得到相同大小的特征表示。
第二个操作是两个全连接层(FC),它们用于候选框的分类和边界框回归,第一个全连接层用于分类任务,它根据候选框的特征向量输出每个类别的概率,第二个全连接层用于边界框回归任务,它根据候选框的特征向量预测边界框的坐标调整值,从而将候选框和它们的特征映射到最终的分类和边界框回归结果,即目标物的类别标签和3D锚框。
具体的参数如表1所示:
表1融合预测模块中每层的输出尺寸和输入输出通道数
三、损失函数设计
为了对3D目标检测网络进行精细化的训练,本实施例从类别损失和3D回归两个角度对模型训练用的损失函数进行设计。
在训练融合预测模块的过程中,将单个类别zi的logit值利用softmax可将其转换为类别概率qi,具体可以描述成以下形式:
其中,n为类别个数,基于类别概率qi和真实标签的one-hot向量vi,交叉熵损失Lce被用于最大化融合预测模块的表现,具体可以表述为:
此外为了实现3D锚框的边界回归,L1范数被用于限制预测3D锚框位置点和真实3D锚框位置点之间的误差,构造的损失函数Lr为:
其中,n为所有位置点信息的个数,pi和gi分别代表第i个预测位置点元素和真实位置点元素。
通过以上两种损失函数,最终的损失函数L可以描述为以下形式:
L=Lr+ce
本实施例的方法适用于具有挑战性的场景,例如在不同的恶劣条件下进行目标检测;在实际实验中观察到的结果显示,无论是在雨雾天,室内复杂环境或其他恶劣的环境条件下,该方法都能有效地降低目标检测的误报率和漏报率,从而显著提高模型的鲁棒性和可靠性;这证明了该方法在应对各种具有挑战性的场景中的适应能力和泛化能力;这种方法的优越性不仅限于使用环境条件,它还可以应用于其他具有挑战性的应用领域,例如工业缺陷质检,安防等;这意味着该方法在面对各种实际应用需求时能够更好地满足要求;通过采用该方法,可以确保目标检测在不同场景下的稳健性和可靠性,从而为实际应用提供更准确、更可靠的结果。
实施例二
在一个或多个实施例中,公开了基于深度补全的多模态3D目标检测系统,包括获取模块和检测模块:
获取模块,被配置为:获取待检测的RGB图像及对应的3D稀疏深度图;
检测模块,被配置为:将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;
其中,所述3D目标检测网络,从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签。
实施例三
本实施例的目的是提供计算机可读存储介质。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一所述的基于深度补全的多模态3D目标检测方法中的步骤。
实施例四
本实施例的目的是提供电子设备。
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的基于深度补全的多模态3D目标检测方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于深度补全的多模态3D目标检测方法,其特征在于,包括:
获取待检测的RGB图像及对应的3D稀疏深度图;
将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;
其中,所述3D目标检测网络,从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签;
所述融合预测,基于一种编码-解码结构,在编码阶段,利用四个编码块提取特征图,在解码阶段,利用解码器的输出特征图与编码阶段四个编码块提取的特征进行进一步的融合,得到最终的特征图,基于特征图,预测目标物的3D锚框和类别标签。
2.如权利要求1所述的基于深度补全的多模态3D目标检测方法,其特征在于,所述RGB图像通过单目RGB相机采集,所述3D稀疏深度图通过激光雷达LIDAR采集。
3.如权利要求1所述的基于深度补全的多模态3D目标检测方法,其特征在于,所述像素点的类别标签,是采用SAM模型对RGB图像进行分割,识别每个像素点的类别标签。
4.如权利要求1所述的基于深度补全的多模态3D目标检测方法,其特征在于,所述生成稠密深度图,具体为:
对RGB图像进行网格划分;
对每个网格中像素点的类别标签和深度信息进行对应,得到网格中的类别分布;
基于网格中的类别分布,对像素点的深度信息进行补全,得到稠密深度图。
5.如权利要求4所述的基于深度补全的多模态3D目标检测方法,其特征在于,所述基于网格中的类别分布,对像素点的深度信息进行补全,具体为:
针对每种类别在网格中的像素点,利用3D稀疏深度图判断网格中类别是否存在对应的深度信息,如果存在深度信息,则将该深度信息传播到网格中该类别的所有像素点,如果不存在深度,则从3D稀疏深度图中搜索距离网格最近的深度信息,并传播到网格中该类别的所有像素点。
6.如权利要求1所述的基于深度补全的多模态3D目标检测方法,其特征在于,所述3D目标检测网络的训练,基于从类别损失和3D回归两个角度构建的损失函数,具体为:
其中,被用于限制预测3D锚框位置点和真实3D锚框位置点之间的误差,交叉熵损失被用于最大化融合预测的表现。
7.基于深度补全的多模态3D目标检测系统,其特征在于,包括获取模块和检测模块:
获取模块,被配置为:获取待检测的RGB图像及对应的3D稀疏深度图;
检测模块,被配置为:将RGB图像及对应的3D稀疏深度图输入到训练好的3D目标检测网络中,输出目标物的3D检测结果;
其中,所述3D目标检测网络,从RGB图像中获取每个像素点的类别标签,基于3D稀疏深度图中像素点的深度信息与类别标签的对应关系,对稀疏深度信息进行补全,生成稠密深度图,对稠密深度图和RGB图像进行融合预测,得到目标物的3D锚框和类别标签;
所述融合预测,基于一种编码-解码结构,在编码阶段,利用四个编码块提取特征图,在解码阶段,利用解码器的输出特征图与编码阶段四个编码块提取的特征进行进一步的融合,得到最终的特征图,基于特征图,预测目标物的3D锚框和类别标签。
8.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-6任一项所述的方法。
9.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-6任一项所述方法的指令。
CN202311283502.5A 2023-09-28 2023-09-28 基于深度补全的多模态3d目标检测方法及系统 Active CN117351310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311283502.5A CN117351310B (zh) 2023-09-28 2023-09-28 基于深度补全的多模态3d目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311283502.5A CN117351310B (zh) 2023-09-28 2023-09-28 基于深度补全的多模态3d目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN117351310A CN117351310A (zh) 2024-01-05
CN117351310B true CN117351310B (zh) 2024-03-12

Family

ID=89364331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311283502.5A Active CN117351310B (zh) 2023-09-28 2023-09-28 基于深度补全的多模态3d目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN117351310B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161364A (zh) * 2019-12-24 2020-05-15 东南大学 一种针对单视角深度图的实时形状补全和姿态估计方法
CN113160327A (zh) * 2021-04-09 2021-07-23 上海智蕙林医疗科技有限公司 一种点云补全的实现方法和系统
CN114445475A (zh) * 2022-01-21 2022-05-06 中山大学·深圳 稀疏深度图的深度补全方法、计算机装置和存储介质
CN115205361A (zh) * 2022-06-17 2022-10-18 深圳市优必选科技股份有限公司 深度图像补全方法、装置、设备及存储介质
CN116030270A (zh) * 2023-02-08 2023-04-28 北京爱芯科技有限公司 目标检测方法、系统、电子设备及计算机可读存储介质
CN116468768A (zh) * 2023-04-20 2023-07-21 南京航空航天大学 基于条件变分自编码器和几何引导的场景深度补全方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11462023B2 (en) * 2019-11-14 2022-10-04 Toyota Research Institute, Inc. Systems and methods for 3D object detection

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161364A (zh) * 2019-12-24 2020-05-15 东南大学 一种针对单视角深度图的实时形状补全和姿态估计方法
CN113160327A (zh) * 2021-04-09 2021-07-23 上海智蕙林医疗科技有限公司 一种点云补全的实现方法和系统
CN114445475A (zh) * 2022-01-21 2022-05-06 中山大学·深圳 稀疏深度图的深度补全方法、计算机装置和存储介质
CN115205361A (zh) * 2022-06-17 2022-10-18 深圳市优必选科技股份有限公司 深度图像补全方法、装置、设备及存储介质
CN116030270A (zh) * 2023-02-08 2023-04-28 北京爱芯科技有限公司 目标检测方法、系统、电子设备及计算机可读存储介质
CN116468768A (zh) * 2023-04-20 2023-07-21 南京航空航天大学 基于条件变分自编码器和几何引导的场景深度补全方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
3D 目标检测方法研究综述;黄哲 等;《智能科学与技术学报》;20230331;第5卷(第1期);7-31页摘要,第4节 *
DFuseNet: Deep Fusion of RGB and Sparse Depth Information for Image Guided Dense Depth Completion;Shreyas S. Shivakumar 等;《2019 IEEE Intelligent Transportation Systems Conference (ITSC))》;20191030;13-20 *
复杂环境下多模态指导的点云补全方法;靳梦凡 等;《北京邮电大学学报》;20230630;第46卷(第3期);103-108页第1节 *

Also Published As

Publication number Publication date
CN117351310A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN111626217B (zh) 一种基于二维图片和三维点云融合的目标检测和追踪方法
CN111201451B (zh) 基于场景的激光数据和雷达数据进行场景中的对象检测的方法及装置
Zhang et al. Deep hierarchical guidance and regularization learning for end-to-end depth estimation
Zhang et al. Survey on Deep Learning‐Based Marine Object Detection
CN115719436A (zh) 模型训练方法、目标检测方法、装置、设备以及存储介质
CN115797736B (zh) 目标检测模型的训练和目标检测方法、装置、设备和介质
CN114782785A (zh) 多传感器信息融合方法及装置
CN116385761A (zh) 一种融合rgb与红外信息的3d目标检测方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN113724388B (zh) 高精地图的生成方法、装置、设备以及存储介质
Zhou et al. Underwater occlusion object recognition with fusion of significant environmental features
Li et al. Deep learning for scene flow estimation on point clouds: A survey and prospective trends
Dong et al. Combination of modified U‐Net and domain adaptation for road detection
CN117351310B (zh) 基于深度补全的多模态3d目标检测方法及系统
CN117152630A (zh) 一种基于深度学习的光学遥感图像变化检测方法
Pulipalupula et al. Object Detection using You only Look Once (YOLO) Algorithm in Convolution Neural Network (CNN)
Al Noman et al. A computer vision-based lane detection technique using gradient threshold and hue-lightness-saturation value for an autonomous vehicle
Li et al. Instance-aware semantic segmentation of road furniture in mobile laser scanning data
CN114359493A (zh) 一种用于无人船生成三维语义地图的方法和系统
CN115909173B (zh) 物体跟踪方法、跟踪模型训练方法、装置、设备和介质
Dai et al. Connecting the dots for real-time LiDAR-based object detection with YOLO
Vismaya et al. Fuzzy c-means algorithm based depth estimation in single image
CN115829898B (zh) 数据处理方法、装置、电子设备、介质以及自动驾驶车辆
Huong et al. OptimRSEG: An Optimized Semantic Road Segmentation Model
Ma et al. Fast, accurate vehicle detection and distance estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant