CN113486887A - 三维场景下的目标检测方法和装置 - Google Patents

三维场景下的目标检测方法和装置 Download PDF

Info

Publication number
CN113486887A
CN113486887A CN202110742040.3A CN202110742040A CN113486887A CN 113486887 A CN113486887 A CN 113486887A CN 202110742040 A CN202110742040 A CN 202110742040A CN 113486887 A CN113486887 A CN 113486887A
Authority
CN
China
Prior art keywords
point
pseudo
feature
point cloud
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110742040.3A
Other languages
English (en)
Other versions
CN113486887B (zh
Inventor
吴小沛
彭亮
杨鸿辉
黄晨晰
邓成杞
蔡登�
刘海风
何晓飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Fabu Technology Co Ltd
Original Assignee
Hangzhou Fabu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Fabu Technology Co Ltd filed Critical Hangzhou Fabu Technology Co Ltd
Priority to CN202110742040.3A priority Critical patent/CN113486887B/zh
Publication of CN113486887A publication Critical patent/CN113486887A/zh
Application granted granted Critical
Publication of CN113486887B publication Critical patent/CN113486887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种三维场景下的目标检测方法和装置,方法包括:获取激光雷达探测得到的原始点云,并对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征;对所述原始点云进行深度投影处理,获得稀疏深度图像,对所述稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将所述稠密深度图变换到原始点云的三维空间,得到三维的伪点云;对所述伪点云进行特征提取处理,获得所述伪点云的第二感兴趣区域特征;对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征,所述第三感兴趣区域特征用于进行三维目标检测。

Description

三维场景下的目标检测方法和装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种三维(3D)场景下的目标检测方法和装置。
背景技术
近年来,深度学习和自动驾驶的兴起带动了3D检测的快速发展,同时也涌现出许多优秀的3D检测方法。当前的3D检测模型主要基于原始激光雷达点云,而点云的稀疏性极大地限制了3D检测模型的性能。稀疏的雷达点云在远处和被遮挡的区域提供的信息质量很差,因此很难生成精准的3D框。
为了解决这个问题,现有技术通常会采用多模态方法来进行3D检测,例如在稀疏的激光雷达点云的基础上融合稠密的视觉图像特征。然而,目前的多模态方法即使使用了更多的数据、更多的标注和更多的推理时间,却往往不如仅采用激光雷达点云的方法获得的效果好。
经分析目前的多模态方法效果欠佳的主要原因为视觉图像和雷达点云之间的维度鸿沟问题。视觉图像和雷达点云之间存在固有的维度差异,这使得二维的视觉图像和三维的雷达点云很难直接融合。现有技术存在一些方法从视觉图像中裁剪感兴趣区域(Region of Interest,简称“RoI”)特征来和雷达点云进行特征融合。但是他们忽略了空间映射关系,从而导致性能欠佳。另外,现有技术还有一些方法通过建立视觉图像和雷达点云之间的空间映射关系来解决维度鸿沟。然而稀疏的雷达点云引起的稀疏映射关系使得从视觉图像中提取的图像特征也被稀疏化,进而造成图像特征大量损失。
发明内容
本申请提供一种三维场景下的目标检测方法及装置,以克服视觉图像和雷达点云之间的维度鸿沟问题。
第一方面,本申请提供一种三维场景下的目标检测方法,包括:
获取激光雷达探测得到的原始点云,并对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征;
对所述原始点云进行深度投影处理,获得稀疏深度图像,对所述稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将所述稠密深度图变换到原始点云的三维空间,得到三维的伪点云;
对所述伪点云进行特征提取处理,获得所述伪点云的第二感兴趣区域特征;
对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征,所述第三感兴趣区域特征用于进行三维目标检测。
第二方面,本申请提供一种三维场景下的目标检测装置,包括:
处理器和存储器;
所述存储器存储所述处理器可执行指令;
其中,所述处理器执行所述存储器存储的可执行指令,使得所述处理器执行如上所述的三维目标检测方法。
第三方面,本申请提供一种存储介质,所述存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的三维目标检测方法。
第四方面,本申请提供一种程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
本申请提供的三维场景下的目标检测方法及装置,通过对激光雷达探测得到的原始点云进行深度图像投影处理,可以获得二维的稀疏深度图像;进一步的,可以对稀疏深度图像以及通过相机采集的视觉图像进行深度补全处理,得到二维的稠密深度图像,从而不损失视觉图像本身所包含的特征;接着,可以将该二维的稠密深度图像再转换回原始点云的三维空间,得到三维的伪点云。从而使得该三维的伪点云与原始点云具有相同的空间维度,并且该三维的伪点云具有比稀疏的原始点云更稠密的点云特征;最后,再通过对原始点云和伪点云进行特征提取处理,分别获得原始点云的第一感兴趣区域特征和伪点云的第二感兴趣区域特征,对第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征。本申请解决了二维视觉图像和三维激光雷达点云之间在进行特征融合时的维度鸿沟问题。经自适应地融合原始点云和伪点云特征,实现了二维图像与三维原始点云的融合。使用该融合后得到的第三感兴趣区域特征进行三维目标检测,极大提高了三维目标检测的性能和质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的三维场景下的目标检测系统架构示意图;
图2为本申请实施例提供的三维场景下的目标检测方法流程示意图一;
图3为本申请实施例提供的三维场景下的目标检测方法流程示意图二;
图4为本申请实施例提供的算法逻辑架构示意图;
图5为本申请实施例提供的彩点特征提取器的架构示意图;
图6为本申请实施例提供的彩点卷积的架构示意图;
图7为本申请实施例提供的成对注意力融合的架构示意图;
图8为本申请实施例提供的同步数据增强的架构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的三维场景下的目标检测系统架构示意图。如图1所示,本实施例提供的系统包括:待检测的物体10、3D目标检测设备11、检测头12。其中,3D目标检测设备11包括:产生激光雷达点云的激光雷达111、视觉相机112以及进行检测处理的处理器110。可选的,该3D目标检测设备11还可以包括存储器。本实施例对3D目标检测设备11的具体应用场景可以是无人驾驶、机器人领域等。本实施例对应用场景和具体实现方式不做特别限制,只要该3D目标检测设备11能够实现3D场景下的物体目标检测即可。
具体来说,激光雷达111可以通过雷达探测,获取物体10的激光点云。视觉相机112可以对物体10进行拍照,获取该物体10的红绿蓝RGB图像。该3D目标检测设备11中的处理器110可以使用激光雷达111探测获取的激光点云以及视觉相机112采集获得的RGB图像进行3D融合处理。3D目标检测设备11将融合处理的结果输出给检测头12。检测头12可以根据不同的场景需求输出检测数据,例如可以输出物体类别、在3D空间中的长宽高、旋转角等信息。
本申请实施例的改进点主要在于处理器110如何对使用激光雷达111探测获取的激光点云以及视觉相机112采集获得的RGB图像进行3D融合处理。
在现有技术中,处理器110通过激光雷达111获得稀疏雷达点云,在稀疏的激光雷达点云的基础上融合视觉相机112采集获得的稠密视觉图像特征来进行3D目标检测。然而,2D的视觉图像和3D的雷达点云之间的维度鸿沟问题,使得2D的视觉图像和3D的雷达点云很难直接融合。现有技术一般是通过从2D的视觉图像中裁剪感兴趣区域(RoI)特征进行特征提取,将提取到的特征与3D的雷达点云进行特征融合。但是这种融合处理过程丢失了2D与3D之间的映射关系,甚至还可能出现特征融合关系错误,最终致使3D检测效果和性能欠佳。此外,现有技术即使考虑了3D的雷达点云与2D的视觉图像特征之间的映射关系,但是因为原始的雷达点云具有稀疏性。如果用该稀疏的映射关系来提取视觉图像的特征,则必然导致2D的视觉图像特征稀疏,最终造成图像特征的大量损失。因此,现有技术亟需一种既能跨越2D视觉图像和3D的雷达点云之间的维度鸿沟直接进行特征融合,又能有效保留2D视觉图像本身特征提升融合特征信息量的处理方法。
图2为本申请实施例提供的三维场景下的目标检测方法流程示意图一,本实施例的执行主体可以为图1所示实施例中的处理器110。如图2所示,该方法包括:
S201、获取激光雷达探测得到的原始点云,并对原始点云进行特征提取处理,获得原始点云的第一感兴趣区域特征;
具体来说,处理器110可以从激光雷达111获取其探测得到的原始点云。并且处理器110可以从该原始点云中提取感兴趣特征,从而获得原始点云的第一感兴趣区域特征。
S202、对原始点云进行深度投影处理,获得稀疏深度图像,对稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将稠密深度图变换到原始点云的三维空间,得到三维的伪点云;
处理器110可以从视觉相机112获取其采集得到的视觉图像,该视觉图像可以是RGB图像。然后处理器110可以将激光雷达111探测得到的原始点云以及视觉相机112采集得到的RGB图像送入到深度补全网络中进行处理。
具体来说,处理器110可以采用相机的投影矩阵将原始点云投影到图像上。处理器110通过对原始点云进行这种深度投影处理,获得稀疏深度图像。处理器110通过对稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图。接着,处理器110将稠密深度图变换到原始点云的三维空间,得到三维的伪点云。本实施例中的深度补全网络可以是各种处理算法的集成,也可以是AI模型的具体形式,本实施例不做限定。
S203、对伪点云进行特征提取处理,获得伪点云的第二感兴趣区域特征;
在获得3D的伪点云之后,处理器110即可对该伪点云进行特征提取处理。例如可以是与前述对相同的感兴趣区域进行特征提取,获得伪点云的第二感兴趣区域特征。
S204、对第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征;
由于处理器110是从3D的伪点云和3D的原始点云分别提取特征,因此处理器110无需再进行任何的空间变换,即可直接进行特征融合。即处理器110可以对所提取到的第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征。该第三感兴趣区域特征即可输入到检测头12,从而进行进一步的三维目标检测。
本实施例通过处理器110对激光雷达探测得到的原始点云进行深度图像投影处理,获得二维的稀疏深度图像。进一步的,处理器110对稀疏深度图像以及通过相机采集的视觉图像进行深度补全处理,得到二维的稠密深度图像。从而不损失视觉图像本身所包含的特征。接着,处理器110可以将该二维的稠密深度图像再转换回原始点云的三维空间,得到三维的伪点云。从而使得该三维的伪点云与原始点云具有相同的空间维度,并且该三维的伪点云具有比稀疏的原始点云更稠密的点云特征。最后,处理器110再通过对原始点云和伪点云进行特征提取处理,分别获得原始点云的第一感兴趣区域特征和伪点云的第二感兴趣区域特征。处理器110对第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征。本申请解决了二维视觉图像和三维激光雷达点云之间在进行特征融合时的维度鸿沟问题。经自适应地融合原始点云和伪点云特征,实现了二维图像与三维原始点云的融合。使用该融合后得到的第三感兴趣区域特征进行三维目标检测,极大提高了三维目标检测的性能和质量。
图3为本申请实施例提供的三维场景下的目标检测方法流程示意图二,图4为本申请实施例提供的算法逻辑架构示意图。图3和图4是在图2实施例的基础上,对本实施例的具体实现过程进行了详细说明。其中,针对原始点云提取第一感兴趣区域特征的处理在原始点云处理分支来完成,针对伪点云提取第二感兴趣区域特征的处理在伪点云处理分支。该两个分支可以并行处理,从而提高特征提取效率。该方法包括:
S301、获取激光雷达探测得到的原始点云,并对从区域提议网络产生的3D提议框内提取原始点云的特征,获得原始点云的第一感兴趣区域特征;
具体地,S301具体过程如图4中原始点云处理分支所示。原始点云处理分支是基于体素二阶段检测器(Voxel-RCNN)的一阶段,即3D主干网络。处理器110使用此3D主干网络作为区域提议网络产生3D提议框,取该3D提议框内的原始点云的特征得到原始点云的第一感兴趣区域特征
Figure BDA0003141705760000061
S302、将原始点云和视觉相机采集的RGB图像输入到深度补全网络中,生成3D的伪点云;
步骤S302的具体实现方式与上述图2所示实施例中的步骤S202的处理方式类似,本实施例此处不再赘述。
S303、将视觉相机采集的RGB图像上每个像素点的红绿蓝RGB信息投影映射到伪点云内的每个点上,得到彩色伪点云,采用彩点特征提取器,对彩色伪点云进行特征提取处理,获得伪点云的各伪点的特征;
具体来说,在本实施例中,由于伪点云内的每个点和视觉相机采集的RGB图像上的每个像素点都一一对应,处理器110将RGB图像上每个像素点的红绿蓝RGB信息投影映射到伪点云内的每个点上,即可得到彩色伪点云。可以通过处理器110中设计的彩点特征提取器来提取彩色伪点云的各伪点的特征。针对伪点云中每一个伪点,彩点特征提取器提取该伪点的邻域伪点的特征,将该伪点的特征以及与该伪点对应的邻域伪点的特征进行彩点卷积处理,得到该伪点的特征。图5为本申请实施例提供的彩点特征提取器的架构示意图,图6为本申请实施例提供的彩点卷积的架构示意图。结合图5和图6所示,对该提取过程进行详细说明。
如图5所示,在彩点特征提取器中设计有彩点卷积,彩点卷积用于提取伪点云邻域特征的卷积操作。彩点卷积提取过程如图6所示,
针对伪点云中的每一个伪点
Figure BDA0003141705760000071
彩点特征提取器取其在图像上的8邻域
Figure BDA0003141705760000072
将包括该点自身的9个伪点的特征输入到彩点卷积中提取得到伪点
Figure BDA0003141705760000073
的特征。
具体的,计算该伪点
Figure BDA0003141705760000074
以及8个相邻伪点
Figure BDA0003141705760000075
到该伪点
Figure BDA0003141705760000076
的2D距离残差R2D和3D距离残差R3D
Figure BDA0003141705760000077
Figure BDA0003141705760000078
其中,
Figure BDA0003141705760000079
是伪点
Figure BDA00031417057600000710
在图像上的横坐标值,
Figure BDA00031417057600000711
是伪点
Figure BDA00031417057600000712
在图像上的横坐标值,
Figure BDA00031417057600000713
是伪点
Figure BDA00031417057600000714
在图像上的纵坐标值,
Figure BDA00031417057600000715
是伪点
Figure BDA00031417057600000716
在图像上的纵坐标值,
Figure BDA00031417057600000717
是伪点
Figure BDA00031417057600000718
在3D空间x坐标轴上的坐标值,
Figure BDA00031417057600000719
是伪点
Figure BDA00031417057600000720
在3D空间x坐标轴上的坐标值,
Figure BDA00031417057600000721
是伪点
Figure BDA00031417057600000722
在3D空间y坐标轴上的坐标值,
Figure BDA00031417057600000723
是伪点
Figure BDA00031417057600000724
在3D空间y坐标轴上的坐标值,
Figure BDA00031417057600000725
是伪点
Figure BDA00031417057600000726
在3D空间z坐标轴上的坐标值,
Figure BDA00031417057600000727
是伪点
Figure BDA00031417057600000728
在3D空间z坐标轴上的坐标值;
将R2D和R3D级联作为伪点
Figure BDA00031417057600000729
的位置残差特征R;
将伪点
Figure BDA00031417057600000730
以及8个相邻伪点的2D特征F2D和3D特征F3D级联作为伪点
Figure BDA00031417057600000731
的邻域特征F,其中,
Figure BDA00031417057600000732
Figure BDA00031417057600000733
其中,
Figure BDA00031417057600000734
是伪点
Figure BDA00031417057600000735
在图像上的红色分量值,
Figure BDA00031417057600000736
是伪点
Figure BDA00031417057600000737
在图像上的绿色分量值,
Figure BDA00031417057600000738
是伪点
Figure BDA00031417057600000739
在图像上的蓝色分量值;
Figure BDA00031417057600000740
是伪点
Figure BDA00031417057600000741
在3D空间x坐标轴上的坐标值,
Figure BDA00031417057600000742
是伪点
Figure BDA00031417057600000743
在3D空间y坐标轴上的坐标值,
Figure BDA00031417057600000744
是伪点
Figure BDA00031417057600000745
在3D空间z坐标轴上的坐标值;
将R和F输入到全连接层,得到维度一致的特征r和f;
将特征r和f点乘,以将位置残差编码进邻域特征中,然后对点乘结果进行形状变换得到一维特征;
将该一维特征输入到全连接层得到伪点
Figure BDA0003141705760000081
的特征。
对伪点云进行特征提取处理还包括将多个彩点卷积堆叠级联处理,可选的,多个彩点卷积堆叠级联处理可以是3个彩点卷积堆叠级联处理。具体地,彩点特征提取器将伪点的领域特征F和该伪点的位置残差特征R通过彩点卷积处理输出得到该伪点的一次特征。彩点特征提取器将该一次特征与该伪点经彩点卷积处理前的位置残差特征R通过第二个彩点卷积从而输出得到该伪点的二次特征。彩点特征提取器将该二次特征与该伪点经彩点卷积处理前的位置残差特征R通过第三个彩点卷积从而输出得到该伪点的三次特征。最后,彩点特征提取器将伪点的领域特征F与该伪点的一次特征、二次特征、三次特征级联,得到的输出特征即得到该伪点的深层特征。
本实施例提供的方法实现对伪点云中丰富的2D语义信息和3D结构信息的高效提取。该方法将不同彩点卷积输出的特征级联有利于从伪点云中挖掘更多有价值的信息,从而获取更丰富的鲁棒的特征。
S304、将3D提议框内的伪点云离散化成多个格点,每个格点的特征为每个格点内所有伪点云点特征的均值;
在如图4所示的伪点云处理分支中,处理器110用原始点云处理分支产生的3D提议框裁剪出伪点云的感兴趣区域。处理器110将原始点云处理分支产生的3D提议框内的伪点云离散化成例如12×12×12个格点,每个格点的特征为每个格点内部所有伪点云点特征的均值。
S305、使用稀疏卷积对离散化后得到的多个格点进行特征抽取,获得伪点云的第二感兴趣区域特征;
如图4所示,处理器110使用稀疏卷积对离散化得到的多个格点特征进行进一步的特征抽取,得到伪点云第二感兴趣区域特征
Figure BDA0003141705760000082
进一步的,本实施例还可以对第二感兴趣区域特征
Figure BDA0003141705760000083
进行分类和监督处理,并通过反向传播算法对第二感兴趣区域特征
Figure BDA0003141705760000084
进行更新。在具体实现时,可以在处理器110中设置一个伪点云辅助网络,对伪点云的第二感兴趣区域特征
Figure BDA0003141705760000085
进行分类和监督。伪点云辅助网络采用反向传播算法对第二感兴趣区域特征进行反馈、更新,从而使得伪点云提供的特征对之后的分类和定位更加有用。
S306、对第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征,将来自第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行融合,得到融合后的第三感兴趣区域特征。
结合图4和图7,该融合通过图中所示的成对注意力融合过程而实现的疏密点云融合。对该融合过程进行说明,处理器110对第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征,例如分别离散成6×6×6的第一感兴趣区域的格点特征
Figure BDA0003141705760000091
和第二感兴趣区域的格点特征
Figure BDA0003141705760000092
将第一感兴趣区域的格点特征
Figure BDA0003141705760000093
和第二感兴趣区域的格点特征
Figure BDA0003141705760000094
分别输入全连接层分别得到稠密特征,将分别得到的稠密的特征级联在全连接层得到该两个稠密特征的权重预测,将该两个稠密特征的权重通过sigmoid函数归一化分别得到第一权重和第二权重;
具体地,处理器110将第一感兴趣区域的格点特征
Figure BDA0003141705760000095
和与其对应的第二感兴趣区域的格点特征
Figure BDA0003141705760000096
分别经过全连接层得到稠密特征。然后处理器110将稠密特征级联在过一层全连接层得到两个稠密特征的权重预测。最后处理器110将该两个稠密特征的权重通过sigmoid函数得到归一化的第一权重
Figure BDA0003141705760000097
和第二权重
Figure BDA0003141705760000098
在不同于权重预测的另一空间使用全连接层将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行转换得到第一转换特征和第二转换特征;
具体地,处理器110在区别于权重预测的另一空间使用全连接层将
Figure BDA0003141705760000099
Figure BDA00031417057600000910
转换得到第一转换特征
Figure BDA00031417057600000911
和第二转换特征
Figure BDA00031417057600000912
用第一权重点乘第一感兴趣区域格点特征和第一转换特征,用第二权重点乘第二感兴趣区域格点特征和第二转换特征,将该点乘后得到的结果特征级联在一起得到融合后的第三感兴趣区域格点特征;
具体地,处理器110用第一权重
Figure BDA00031417057600000913
点乘第一感兴趣区域的格点特征
Figure BDA00031417057600000914
和对应的第一转换特征
Figure BDA00031417057600000915
同时,处理器110用第二权重
Figure BDA00031417057600000916
点乘第二感兴趣区域的格点特征
Figure BDA0003141705760000101
和对应的第二转换特征
Figure BDA0003141705760000102
然后,处理器110再将点乘后得到的结果特征级联在一起得到融合后的第三感兴趣区域格点特征
Figure BDA0003141705760000103
各格点特征
Figure BDA0003141705760000104
共同组成融合后的第三感兴趣区域
Figure BDA0003141705760000105
使用该第三感兴趣区域特征
Figure BDA0003141705760000106
即可预测物体的类别置信度和各项属性,如类别、高度、朝向信息等。
从而解决了2D的视觉图像和3D的雷达点云之间因为维度鸿沟而很难直接融合的问题,实现了多模态方法下雷达点云特征和伪点云特征的自适应地融合。
本实施例通过基于体素二阶段检测器(Voxel-RCNN)的一阶段的3D主干网络作为区域提议网络产生3D提议框提取得到原始点云的第一感兴趣区域特征
Figure BDA0003141705760000107
通过该3D提议框裁剪出与原始点云对应的伪点云的感兴趣区域。然后通过彩点特征提取器中彩点卷积提取伪点云的各伪点的特征,并采用多个彩点卷积的堆叠级联处理来进一步提取各伪点的深层特征。接着将3D提议框内的伪点云进行离散化和稀疏卷积处理后,对得到的多个格点特征进行进一步提取,得到伪点云的第二感兴趣区域特征
Figure BDA0003141705760000108
进一步地,设置一个伪点云辅助网络,对伪点云的第二感兴趣区域特征
Figure BDA0003141705760000109
进行反馈、更新。然后对第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征。将对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征经过全连接层转换、点乘和级联处理后进行成对注意力融合,得到融合后的第三感兴趣区域格点特征
Figure BDA00031417057600001010
各格点特征
Figure BDA00031417057600001011
共同组成融合后的第三感兴趣区域特征
Figure BDA00031417057600001012
最后使用该第三感兴趣区域特征
Figure BDA00031417057600001013
进行物体目标的检测。本申请通过彩点特征提取器实现了对伪点云中丰富的2D语义信息和3D结构信息的高效提取。有利于从伪点云中挖掘更多有价值的信息,从而获取更丰富的鲁棒的特征。伪点云辅助网络实时对第二感兴趣区域特征进行反馈、更新,提高了第二感兴趣区域特征提取的精准度,使得伪点云提供的特征对之后的特征分类和定位更加有用。对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征之间的成对注意力融合,实现原始点云和伪点云特征的自适应融合。解决了二维视觉图像和三维激光雷达点云之间固有的维度差异导致二维图像与三维原始点云不能直接融合的问题。得到信息更丰富、更精准的第三感兴趣区域特征,解决了单一激光雷达检测和现有技术的多模态检测方法的信息损失问题。用该特征预测物体的类别置信度和各项属性,如类别、高度、朝向信息等,实现了三维目标的高性能、高质量检测。
图8为本申请实施例提供的同步数据增强的架构示意图。采用同步数据增强方法(SynAugment),对原始点云和伪点云进行同步数据增强处理。本实施例结合图8对同步数据增强过程进行说明。
通常而言,多模态方法中普遍存在数据增强不足的问题。原因在于2D图像和3D点云的固有维度差异,致使复杂的数据增强方法,例如采样数据增强、随机旋转和随机缩放等,很难在多模态方法中使用。本申请提供的3D目标检测方法通过深度补全网络将2D图像数据转换成3D伪点云,实现了维度的统一,进而实现在多模态方法中对3D原始点云和2D图像数据转换成的3D伪点云进行同步数据增强。如图8所示,处理器110提前采集原始点云样本库和伪点云样本库。处理器110对实时输入的原始点云和伪点云分别进行同步的数据增强处理,分别得到数据增强后的原始点云和数据增强后的伪点云。可选地,数据增强包括采样数据增强(gt-sampling)、随机翻转、随机旋转和随机缩放等通用数据增强方法和纯点云适用的定制的数据增强方法中的一种或多种。
本实施例提供的方法,可以解决多模态方法中数据增强的不足的问题。通过解决了复杂的数据增强方法难以在现有技术的多模态方法中使用的问题,实现在多模态方法中的同步数据增强,很大程度上提高了本申请的检测模型的泛化能力。
本申请实施例还提供一种3D场景下的目标检测装置,该装置包括处理器和存储器,存储器存储有处理器可执行指令,使得该处理器可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
本申请实施例还提供一种存储介质,该存储介质中存储有计算机执行指令,这些计算机执行指令被处理器执行时,实现上述的3D目标检测方法。存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本申请实施例还提供一种程序产品,如计算机程序,该计算机程序被处理器执行时实现本申请所涵盖的3D目标检测方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施方式对本发明已经进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述实施方式所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施方式技术方案的范围。

Claims (13)

1.一种三维场景下的目标检测方法,其特征在于,包括:
获取激光雷达探测得到的原始点云,并对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征;
对所述原始点云进行深度投影处理,获得稀疏深度图像,对所述稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将所述稠密深度图变换到原始点云的三维空间,得到三维的伪点云;
对所述伪点云进行特征提取处理,获得所述伪点云的第二感兴趣区域特征;
对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征,所述第三感兴趣区域特征用于进行三维目标检测。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征,包括:
从区域提议网络产生的3D提议框内提取原始点云的特征,获得所述原始点云的第一感兴趣区域特征。
3.根据权利要求1所述的方法,其特征在于,所述对所述伪点云进行特征提取处理,获得所述伪点云的第二感兴趣区域特征,包括:
将所述视觉图像上每个像素点的红绿蓝RGB信息投影映射到所述伪点云内的每个点上,得到彩色伪点云,采用彩点特征提取器,对所述彩色伪点云进行特征提取处理,获得所述伪点云的各伪点的特征;
将3D提议框内的伪点云离散化成多个格点,每个格点的特征为所述每个格点内所有伪点云点特征的均值;
使用稀疏卷积对离散化后得到的多个格点进行特征抽取,获得所述伪点云的第二感兴趣区域特征。
4.根据权利要求3所述的方法,其特征在于,所述采用彩点特征提取器,对所述伪点云进行特征提取处理,获得所述伪点云的各伪点的特征,包括:
针对伪点云中的每一伪点,提取该伪点的邻域伪点的特征,将该伪点的特征以及与该伪点对应的邻域伪点的特征进行彩点卷积处理,得到该伪点的特征。
5.根据权利要求4所述的方法,其特征在于,所述将该伪点的特征以及与该伪点对应的邻域伪点的特征进行彩点卷积处理,得到该伪点的特征,包括:
计算该伪点
Figure FDA0003141705750000021
以及8个相邻伪点
Figure FDA0003141705750000022
到该伪点
Figure FDA0003141705750000023
的二维距离残差R2D和三维距离残差R3D
Figure FDA0003141705750000024
Figure FDA0003141705750000025
其中,
Figure FDA0003141705750000026
是伪点
Figure FDA0003141705750000027
在图像上的横坐标值,
Figure FDA0003141705750000028
是伪点
Figure FDA0003141705750000029
在图像上的横坐标值,
Figure FDA00031417057500000210
是伪点
Figure FDA00031417057500000211
在图像上的纵坐标值,
Figure FDA00031417057500000212
是伪点
Figure FDA00031417057500000213
在图像上的纵坐标值,
Figure FDA00031417057500000214
是伪点
Figure FDA00031417057500000215
在3D空间x坐标轴上的坐标值,
Figure FDA00031417057500000216
是伪点
Figure FDA00031417057500000217
在3D空间x坐标轴上的坐标值,
Figure FDA00031417057500000218
是伪点
Figure FDA00031417057500000219
在3D空间y坐标轴上的坐标值,
Figure FDA00031417057500000220
是伪点
Figure FDA00031417057500000221
在3D空间y坐标轴上的坐标值,
Figure FDA00031417057500000222
是伪点
Figure FDA00031417057500000223
在3D空间z坐标轴上的坐标值,
Figure FDA00031417057500000224
是伪点
Figure FDA00031417057500000225
在3D空间z坐标轴上的坐标值;
将R2D和R3D级联作为伪点
Figure FDA00031417057500000226
的位置残差特征R;
将伪点
Figure FDA00031417057500000227
以及8个相邻伪点的二维特征F2D和三维特征F3D级联作为伪点
Figure FDA00031417057500000228
的邻域特征F,其中,
Figure FDA00031417057500000229
Figure FDA00031417057500000230
其中,
Figure FDA00031417057500000231
是伪点
Figure FDA00031417057500000232
在图像上的红色分量值,
Figure FDA00031417057500000233
是伪点
Figure FDA00031417057500000234
在图像上的绿色分量值,
Figure FDA00031417057500000235
是伪点
Figure FDA00031417057500000236
在图像上的蓝色分量值;
Figure FDA00031417057500000237
是伪点
Figure FDA00031417057500000238
在3D空间x坐标轴上的坐标值,
Figure FDA00031417057500000239
是伪点
Figure FDA00031417057500000240
在3D空间y坐标轴上的坐标值,
Figure FDA00031417057500000241
是伪点
Figure FDA00031417057500000242
在3D空间z坐标轴上的坐标值;
将R和F输入到全连接层,得到维度一致的特征r和f;
将特征r和f点乘,并对点乘结果进行形状变换得到一维特征;
将该一维特征输入到全连接层得到伪点
Figure FDA00031417057500000243
的特征。
6.根据权利要求5所述的方法,其特征在于,还包括:将多个彩点卷积堆叠级联处理。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,包括:
对所述第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征,将来自第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行融合。
8.根据权利要求7所述的方法,其特征在于,所述将来自第一感兴趣区域特征的格点特征和与其对应的第二感兴趣区域的格点特征进行融合,包括:
将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征分别输入全连接层分别得到稠密特征,将分别得到的稠密特征级联在全连接层得到两个稠密特征的权重,将该两个稠密特征的权重归一化分别得到第一权重和第二权重;
在不同于权重预测的另一空间使用全连接层将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行转换得到第一转换特征和第二转换特征;
用第一权重点乘第一感兴趣区域格点特征和第一转换特征,用第二权重点乘第二感兴趣区域格点特征和第二转换特征,将该点乘后得到的结果特征级联在一起得到融合后的第三感兴趣区域格点特征。
9.根据权利要求1-6任一项所述的方法,其特征在于,还包括:对第二感兴趣区域特征进行分类和监督,并通过反向传播算法对第二感兴趣区域特征进行更新。
10.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
采用同步数据增强方法SynAugment,对原始点云和伪点云进行同步数据增强处理。
11.一种三维场景下的目标检测装置,其特征在于,包括:
处理器和存储器;
所述存储器存储所述处理器可执行指令;
其中,所述处理器执行所述存储器存储的可执行指令,使得所述处理器执行如权利要求1至10任一项所述的三维目标检测方法。
12.一种存储介质,其特征在于,所述存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至10任一项所述的三维目标检测方法。
13.一种程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至10任一项所述的三维目标检测方法。
CN202110742040.3A 2021-06-30 2021-06-30 三维场景下的目标检测方法和装置 Active CN113486887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110742040.3A CN113486887B (zh) 2021-06-30 2021-06-30 三维场景下的目标检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110742040.3A CN113486887B (zh) 2021-06-30 2021-06-30 三维场景下的目标检测方法和装置

Publications (2)

Publication Number Publication Date
CN113486887A true CN113486887A (zh) 2021-10-08
CN113486887B CN113486887B (zh) 2023-12-22

Family

ID=77937633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110742040.3A Active CN113486887B (zh) 2021-06-30 2021-06-30 三维场景下的目标检测方法和装置

Country Status (1)

Country Link
CN (1) CN113486887B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861632A (zh) * 2022-12-20 2023-03-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN115861601A (zh) * 2022-12-20 2023-03-28 清华大学 一种多传感器融合感知方法及装置
CN117173655A (zh) * 2023-08-28 2023-12-05 南京航空航天大学 基于语义传播和跨注意力机制的多模态3d目标检测方法
CN117953029A (zh) * 2024-03-27 2024-04-30 北京科技大学 一种基于深度信息传播的通用深度图补全方法及装置
CN117953029B (zh) * 2024-03-27 2024-06-07 北京科技大学 一种基于深度信息传播的通用深度图补全方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161202A (zh) * 2019-12-30 2020-05-15 上海眼控科技股份有限公司 车辆行为信息获取方法、装置、计算机设备和存储介质
CN111179329A (zh) * 2019-12-31 2020-05-19 智车优行科技(上海)有限公司 三维目标检测方法、装置及电子设备
WO2020151109A1 (zh) * 2019-01-22 2020-07-30 中国科学院自动化研究所 基于点云带权通道特征的三维目标检测方法及系统
CN112419494A (zh) * 2020-10-09 2021-02-26 腾讯科技(深圳)有限公司 用于自动驾驶的障碍物检测、标记方法、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020151109A1 (zh) * 2019-01-22 2020-07-30 中国科学院自动化研究所 基于点云带权通道特征的三维目标检测方法及系统
CN111161202A (zh) * 2019-12-30 2020-05-15 上海眼控科技股份有限公司 车辆行为信息获取方法、装置、计算机设备和存储介质
CN111179329A (zh) * 2019-12-31 2020-05-19 智车优行科技(上海)有限公司 三维目标检测方法、装置及电子设备
CN112419494A (zh) * 2020-10-09 2021-02-26 腾讯科技(深圳)有限公司 用于自动驾驶的障碍物检测、标记方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIAOZHI CHEN ET AL: "Multi-View 3D Object Detection Network for Autonomous Driving", 《ARXIV:1611.07759V3》 *
宋绪杰等: "伪点云修正增强激光雷达数据", 《中国图象图形学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861632A (zh) * 2022-12-20 2023-03-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN115861601A (zh) * 2022-12-20 2023-03-28 清华大学 一种多传感器融合感知方法及装置
CN115861632B (zh) * 2022-12-20 2023-11-28 清华大学 一种基于图卷积的视觉激光融合的三维目标检测方法
CN115861601B (zh) * 2022-12-20 2023-12-29 清华大学 一种多传感器融合感知方法及装置
CN117173655A (zh) * 2023-08-28 2023-12-05 南京航空航天大学 基于语义传播和跨注意力机制的多模态3d目标检测方法
CN117953029A (zh) * 2024-03-27 2024-04-30 北京科技大学 一种基于深度信息传播的通用深度图补全方法及装置
CN117953029B (zh) * 2024-03-27 2024-06-07 北京科技大学 一种基于深度信息传播的通用深度图补全方法及装置

Also Published As

Publication number Publication date
CN113486887B (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN113486887B (zh) 三维场景下的目标检测方法和装置
CN105184763B (zh) 图像处理方法和装置
US10554957B2 (en) Learning-based matching for active stereo systems
CN113159151A (zh) 面向自动驾驶的多传感器深度融合3d目标检测方法
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
US11887346B2 (en) Systems and methods for image feature extraction
CN110033514B (zh) 一种基于点线特征快速融合的重建方法
EP3973507B1 (en) Segmentation for holographic images
CN113052006B (zh) 一种基于卷积神经网络的图像目标检测方法,系统及可读存储介质
CN111242181B (zh) 基于图像语义和细节的rgb-d显著性物体检测器
CN114220126A (zh) 一种目标检测系统及获取方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
CN114519853A (zh) 一种基于多模态融合的三维目标检测方法及系统
WO2019100348A1 (zh) 图像检索方法和装置以及图像库的生成方法和装置
CN115511759A (zh) 一种基于级联特征交互的点云图像深度补全方法
Ibrahim et al. MVPCC-Net: multi-view based point cloud completion network for MLS data
Engels et al. 3d object detection from lidar data using distance dependent feature extraction
Shao et al. Efficient three-dimensional point cloud object detection based on improved Complex-YOLO
CN112434576A (zh) 一种基于深度相机的人脸识别方法及系统
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
Tan et al. 3D detection transformer: Set prediction of objects using point clouds
CN110490235B (zh) 一种面向2d图像的车辆对象视点预测与三维模型恢复方法及装置
Zhang et al. PMVC: Promoting Multi-View Consistency for 3D Scene Reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant