CN113486887B - 三维场景下的目标检测方法和装置 - Google Patents
三维场景下的目标检测方法和装置 Download PDFInfo
- Publication number
- CN113486887B CN113486887B CN202110742040.3A CN202110742040A CN113486887B CN 113486887 B CN113486887 B CN 113486887B CN 202110742040 A CN202110742040 A CN 202110742040A CN 113486887 B CN113486887 B CN 113486887B
- Authority
- CN
- China
- Prior art keywords
- point
- pseudo
- region
- interest
- point cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000000007 visual effect Effects 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000007499 fusion processing Methods 0.000 claims abstract description 14
- 230000001131 transforming effect Effects 0.000 claims abstract description 4
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000001360 synchronised effect Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种三维场景下的目标检测方法和装置,方法包括:获取激光雷达探测得到的原始点云,并对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征;对所述原始点云进行深度投影处理,获得稀疏深度图像,对所述稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将所述稠密深度图变换到原始点云的三维空间,得到三维的伪点云;对所述伪点云进行特征提取处理,获得所述伪点云的第二感兴趣区域特征;对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征,所述第三感兴趣区域特征用于进行三维目标检测。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种三维(3D)场景下的目标检测方法和装置。
背景技术
近年来,深度学习和自动驾驶的兴起带动了3D检测的快速发展,同时也涌现出许多优秀的3D检测方法。当前的3D检测模型主要基于原始激光雷达点云,而点云的稀疏性极大地限制了3D检测模型的性能。稀疏的雷达点云在远处和被遮挡的区域提供的信息质量很差,因此很难生成精准的3D框。
为了解决这个问题,现有技术通常会采用多模态方法来进行3D检测,例如在稀疏的激光雷达点云的基础上融合稠密的视觉图像特征。然而,目前的多模态方法即使使用了更多的数据、更多的标注和更多的推理时间,却往往不如仅采用激光雷达点云的方法获得的效果好。
经分析目前的多模态方法效果欠佳的主要原因为视觉图像和雷达点云之间的维度鸿沟问题。视觉图像和雷达点云之间存在固有的维度差异,这使得二维的视觉图像和三维的雷达点云很难直接融合。现有技术存在一些方法从视觉图像中裁剪感兴趣区域(Region of Interest,简称“RoI”)特征来和雷达点云进行特征融合。但是他们忽略了空间映射关系,从而导致性能欠佳。另外,现有技术还有一些方法通过建立视觉图像和雷达点云之间的空间映射关系来解决维度鸿沟。然而稀疏的雷达点云引起的稀疏映射关系使得从视觉图像中提取的图像特征也被稀疏化,进而造成图像特征大量损失。
发明内容
本申请提供一种三维场景下的目标检测方法及装置,以克服视觉图像和雷达点云之间的维度鸿沟问题。
第一方面,本申请提供一种三维场景下的目标检测方法,包括:
获取激光雷达探测得到的原始点云,并对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征;
对所述原始点云进行深度投影处理,获得稀疏深度图像,对所述稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将所述稠密深度图变换到原始点云的三维空间,得到三维的伪点云;
对所述伪点云进行特征提取处理,获得所述伪点云的第二感兴趣区域特征;
对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征,所述第三感兴趣区域特征用于进行三维目标检测。
第二方面,本申请提供一种三维场景下的目标检测装置,包括:
处理器和存储器;
所述存储器存储所述处理器可执行指令;
其中,所述处理器执行所述存储器存储的可执行指令,使得所述处理器执行如上所述的三维目标检测方法。
第三方面,本申请提供一种存储介质,所述存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上所述的三维目标检测方法。
第四方面,本申请提供一种程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的方法。
本申请提供的三维场景下的目标检测方法及装置,通过对激光雷达探测得到的原始点云进行深度图像投影处理,可以获得二维的稀疏深度图像;进一步的,可以对稀疏深度图像以及通过相机采集的视觉图像进行深度补全处理,得到二维的稠密深度图像,从而不损失视觉图像本身所包含的特征;接着,可以将该二维的稠密深度图像再转换回原始点云的三维空间,得到三维的伪点云。从而使得该三维的伪点云与原始点云具有相同的空间维度,并且该三维的伪点云具有比稀疏的原始点云更稠密的点云特征;最后,再通过对原始点云和伪点云进行特征提取处理,分别获得原始点云的第一感兴趣区域特征和伪点云的第二感兴趣区域特征,对第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征。本申请解决了二维视觉图像和三维激光雷达点云之间在进行特征融合时的维度鸿沟问题。经自适应地融合原始点云和伪点云特征,实现了二维图像与三维原始点云的融合。使用该融合后得到的第三感兴趣区域特征进行三维目标检测,极大提高了三维目标检测的性能和质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的三维场景下的目标检测系统架构示意图;
图2为本申请实施例提供的三维场景下的目标检测方法流程示意图一;
图3为本申请实施例提供的三维场景下的目标检测方法流程示意图二;
图4为本申请实施例提供的算法逻辑架构示意图;
图5为本申请实施例提供的彩点特征提取器的架构示意图;
图6为本申请实施例提供的彩点卷积的架构示意图;
图7为本申请实施例提供的成对注意力融合的架构示意图;
图8为本申请实施例提供的同步数据增强的架构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的三维场景下的目标检测系统架构示意图。如图1所示,本实施例提供的系统包括:待检测的物体10、3D目标检测设备11、检测头12。其中,3D目标检测设备11包括:产生激光雷达点云的激光雷达111、视觉相机112以及进行检测处理的处理器110。可选的,该3D目标检测设备11还可以包括存储器。本实施例对3D目标检测设备11的具体应用场景可以是无人驾驶、机器人领域等。本实施例对应用场景和具体实现方式不做特别限制,只要该3D目标检测设备11能够实现3D场景下的物体目标检测即可。
具体来说,激光雷达111可以通过雷达探测,获取物体10的激光点云。视觉相机112可以对物体10进行拍照,获取该物体10的红绿蓝RGB图像。该3D目标检测设备11中的处理器110可以使用激光雷达111探测获取的激光点云以及视觉相机112采集获得的RGB图像进行3D融合处理。3D目标检测设备11将融合处理的结果输出给检测头12。检测头12可以根据不同的场景需求输出检测数据,例如可以输出物体类别、在3D空间中的长宽高、旋转角等信息。
本申请实施例的改进点主要在于处理器110如何对使用激光雷达111探测获取的激光点云以及视觉相机112采集获得的RGB图像进行3D融合处理。
在现有技术中,处理器110通过激光雷达111获得稀疏雷达点云,在稀疏的激光雷达点云的基础上融合视觉相机112采集获得的稠密视觉图像特征来进行3D目标检测。然而,2D的视觉图像和3D的雷达点云之间的维度鸿沟问题,使得2D的视觉图像和3D的雷达点云很难直接融合。现有技术一般是通过从2D的视觉图像中裁剪感兴趣区域(RoI)特征进行特征提取,将提取到的特征与3D的雷达点云进行特征融合。但是这种融合处理过程丢失了2D与3D之间的映射关系,甚至还可能出现特征融合关系错误,最终致使3D检测效果和性能欠佳。此外,现有技术即使考虑了3D的雷达点云与2D的视觉图像特征之间的映射关系,但是因为原始的雷达点云具有稀疏性。如果用该稀疏的映射关系来提取视觉图像的特征,则必然导致2D的视觉图像特征稀疏,最终造成图像特征的大量损失。因此,现有技术亟需一种既能跨越2D视觉图像和3D的雷达点云之间的维度鸿沟直接进行特征融合,又能有效保留2D视觉图像本身特征提升融合特征信息量的处理方法。
图2为本申请实施例提供的三维场景下的目标检测方法流程示意图一,本实施例的执行主体可以为图1所示实施例中的处理器110。如图2所示,该方法包括:
S201、获取激光雷达探测得到的原始点云,并对原始点云进行特征提取处理,获得原始点云的第一感兴趣区域特征;
具体来说,处理器110可以从激光雷达111获取其探测得到的原始点云。并且处理器110可以从该原始点云中提取感兴趣特征,从而获得原始点云的第一感兴趣区域特征。
S202、对原始点云进行深度投影处理,获得稀疏深度图像,对稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将稠密深度图变换到原始点云的三维空间,得到三维的伪点云;
处理器110可以从视觉相机112获取其采集得到的视觉图像,该视觉图像可以是RGB图像。然后处理器110可以将激光雷达111探测得到的原始点云以及视觉相机112采集得到的RGB图像送入到深度补全网络中进行处理。
具体来说,处理器110可以采用相机的投影矩阵将原始点云投影到图像上。处理器110通过对原始点云进行这种深度投影处理,获得稀疏深度图像。处理器110通过对稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图。接着,处理器110将稠密深度图变换到原始点云的三维空间,得到三维的伪点云。本实施例中的深度补全网络可以是各种处理算法的集成,也可以是AI模型的具体形式,本实施例不做限定。
S203、对伪点云进行特征提取处理,获得伪点云的第二感兴趣区域特征;
在获得3D的伪点云之后,处理器110即可对该伪点云进行特征提取处理。例如可以是与前述对相同的感兴趣区域进行特征提取,获得伪点云的第二感兴趣区域特征。
S204、对第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征;
由于处理器110是从3D的伪点云和3D的原始点云分别提取特征,因此处理器110无需再进行任何的空间变换,即可直接进行特征融合。即处理器110可以对所提取到的第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征。该第三感兴趣区域特征即可输入到检测头12,从而进行进一步的三维目标检测。
本实施例通过处理器110对激光雷达探测得到的原始点云进行深度图像投影处理,获得二维的稀疏深度图像。进一步的,处理器110对稀疏深度图像以及通过相机采集的视觉图像进行深度补全处理,得到二维的稠密深度图像。从而不损失视觉图像本身所包含的特征。接着,处理器110可以将该二维的稠密深度图像再转换回原始点云的三维空间,得到三维的伪点云。从而使得该三维的伪点云与原始点云具有相同的空间维度,并且该三维的伪点云具有比稀疏的原始点云更稠密的点云特征。最后,处理器110再通过对原始点云和伪点云进行特征提取处理,分别获得原始点云的第一感兴趣区域特征和伪点云的第二感兴趣区域特征。处理器110对第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征。本申请解决了二维视觉图像和三维激光雷达点云之间在进行特征融合时的维度鸿沟问题。经自适应地融合原始点云和伪点云特征,实现了二维图像与三维原始点云的融合。使用该融合后得到的第三感兴趣区域特征进行三维目标检测,极大提高了三维目标检测的性能和质量。
图3为本申请实施例提供的三维场景下的目标检测方法流程示意图二,图4为本申请实施例提供的算法逻辑架构示意图。图3和图4是在图2实施例的基础上,对本实施例的具体实现过程进行了详细说明。其中,针对原始点云提取第一感兴趣区域特征的处理在原始点云处理分支来完成,针对伪点云提取第二感兴趣区域特征的处理在伪点云处理分支。该两个分支可以并行处理,从而提高特征提取效率。该方法包括:
S301、获取激光雷达探测得到的原始点云,并对从区域提议网络产生的3D提议框内提取原始点云的特征,获得原始点云的第一感兴趣区域特征;
具体地,S301具体过程如图4中原始点云处理分支所示。原始点云处理分支是基于体素二阶段检测器(Voxel-RCNN)的一阶段,即3D主干网络。处理器110使用此3D主干网络作为区域提议网络产生3D提议框,取该3D提议框内的原始点云的特征得到原始点云的第一感兴趣区域特征
S302、将原始点云和视觉相机采集的RGB图像输入到深度补全网络中,生成3D的伪点云;
步骤S302的具体实现方式与上述图2所示实施例中的步骤S202的处理方式类似,本实施例此处不再赘述。
S303、将视觉相机采集的RGB图像上每个像素点的红绿蓝RGB信息投影映射到伪点云内的每个点上,得到彩色伪点云,采用彩点特征提取器,对彩色伪点云进行特征提取处理,获得伪点云的各伪点的特征;
具体来说,在本实施例中,由于伪点云内的每个点和视觉相机采集的RGB图像上的每个像素点都一一对应,处理器110将RGB图像上每个像素点的红绿蓝RGB信息投影映射到伪点云内的每个点上,即可得到彩色伪点云。可以通过处理器110中设计的彩点特征提取器来提取彩色伪点云的各伪点的特征。针对伪点云中每一个伪点,彩点特征提取器提取该伪点的邻域伪点的特征,将该伪点的特征以及与该伪点对应的邻域伪点的特征进行彩点卷积处理,得到该伪点的特征。图5为本申请实施例提供的彩点特征提取器的架构示意图,图6为本申请实施例提供的彩点卷积的架构示意图。结合图5和图6所示,对该提取过程进行详细说明。
如图5所示,在彩点特征提取器中设计有彩点卷积,彩点卷积用于提取伪点云邻域特征的卷积操作。彩点卷积提取过程如图6所示,
针对伪点云中的每一个伪点彩点特征提取器取其在图像上的8邻域将包括该点自身的9个伪点的特征输入到彩点卷积中提取得到伪点的特征。
具体的,计算该伪点以及8个相邻伪点/>到该伪点/>的2D距离残差R2D和3D距离残差R3D:
其中,是伪点/>在图像上的横坐标值,/>是伪点/>在图像上的横坐标值,是伪点/>在图像上的纵坐标值,/>是伪点/>在图像上的纵坐标值,/>是伪点/>在3D空间x坐标轴上的坐标值,/>是伪点/>在3D空间x坐标轴上的坐标值,/>是伪点/>在3D空间y坐标轴上的坐标值,/>是伪点/>在3D空间y坐标轴上的坐标值,/>是伪点/>在3D空间z坐标轴上的坐标值,/>是伪点/>在3D空间z坐标轴上的坐标值;
将R2D和R3D级联作为伪点的位置残差特征R;
将伪点以及8个相邻伪点的2D特征F2D和3D特征F3D级联作为伪点/>的邻域特征F,其中,/> 其中,/>是伪点/>在图像上的红色分量值,/>是伪点/>在图像上的绿色分量值,/>是伪点在图像上的蓝色分量值;/>是伪点/>在3D空间x坐标轴上的坐标值,/>是伪点/>在3D空间y坐标轴上的坐标值,/>是伪点/>在3D空间z坐标轴上的坐标值;
将R和F输入到全连接层,得到维度一致的特征r和f;
将特征r和f点乘,以将位置残差编码进邻域特征中,然后对点乘结果进行形状变换得到一维特征;
将该一维特征输入到全连接层得到伪点的特征。
对伪点云进行特征提取处理还包括将多个彩点卷积堆叠级联处理,可选的,多个彩点卷积堆叠级联处理可以是3个彩点卷积堆叠级联处理。具体地,彩点特征提取器将伪点的领域特征F和该伪点的位置残差特征R通过彩点卷积处理输出得到该伪点的一次特征。彩点特征提取器将该一次特征与该伪点经彩点卷积处理前的位置残差特征R通过第二个彩点卷积从而输出得到该伪点的二次特征。彩点特征提取器将该二次特征与该伪点经彩点卷积处理前的位置残差特征R通过第三个彩点卷积从而输出得到该伪点的三次特征。最后,彩点特征提取器将伪点的领域特征F与该伪点的一次特征、二次特征、三次特征级联,得到的输出特征即得到该伪点的深层特征。
本实施例提供的方法实现对伪点云中丰富的2D语义信息和3D结构信息的高效提取。该方法将不同彩点卷积输出的特征级联有利于从伪点云中挖掘更多有价值的信息,从而获取更丰富的鲁棒的特征。
S304、将3D提议框内的伪点云离散化成多个格点,每个格点的特征为每个格点内所有伪点云点特征的均值;
在如图4所示的伪点云处理分支中,处理器110用原始点云处理分支产生的3D提议框裁剪出伪点云的感兴趣区域。处理器110将原始点云处理分支产生的3D提议框内的伪点云离散化成例如12×12×12个格点,每个格点的特征为每个格点内部所有伪点云点特征的均值。
S305、使用稀疏卷积对离散化后得到的多个格点进行特征抽取,获得伪点云的第二感兴趣区域特征;
如图4所示,处理器110使用稀疏卷积对离散化得到的多个格点特征进行进一步的特征抽取,得到伪点云第二感兴趣区域特征
进一步的,本实施例还可以对第二感兴趣区域特征进行分类和监督处理,并通过反向传播算法对第二感兴趣区域特征/>进行更新。在具体实现时,可以在处理器110中设置一个伪点云辅助网络,对伪点云的第二感兴趣区域特征/>进行分类和监督。伪点云辅助网络采用反向传播算法对第二感兴趣区域特征进行反馈、更新,从而使得伪点云提供的特征对之后的分类和定位更加有用。
S306、对第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征,将来自第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行融合,得到融合后的第三感兴趣区域特征。
结合图4和图7,该融合通过图中所示的成对注意力融合过程而实现的疏密点云融合。对该融合过程进行说明,处理器110对第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征,例如分别离散成6×6×6的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征/>
将第一感兴趣区域的格点特征和第二感兴趣区域的格点特征/>分别输入全连接层分别得到稠密特征,将分别得到的稠密的特征级联在全连接层得到该两个稠密特征的权重预测,将该两个稠密特征的权重通过sigmoid函数归一化分别得到第一权重和第二权重;
具体地,处理器110将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征/>分别经过全连接层得到稠密特征。然后处理器110将稠密特征级联在过一层全连接层得到两个稠密特征的权重预测。最后处理器110将该两个稠密特征的权重通过sigmoid函数得到归一化的第一权重/>和第二权重/>
在不同于权重预测的另一空间使用全连接层将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行转换得到第一转换特征和第二转换特征;
具体地,处理器110在区别于权重预测的另一空间使用全连接层将和/>转换得到第一转换特征/>和第二转换特征/>
用第一权重点乘第一感兴趣区域格点特征和第一转换特征,用第二权重点乘第二感兴趣区域格点特征和第二转换特征,将该点乘后得到的结果特征级联在一起得到融合后的第三感兴趣区域格点特征;
具体地,处理器110用第一权重点乘第一感兴趣区域的格点特征/>和对应的第一转换特征/>同时,处理器110用第二权重/>点乘第二感兴趣区域的格点特征/>和对应的第二转换特征/>然后,处理器110再将点乘后得到的结果特征级联在一起得到融合后的第三感兴趣区域格点特征/>各格点特征/>共同组成融合后的第三感兴趣区域/>使用该第三感兴趣区域特征/>即可预测物体的类别置信度和各项属性,如类别、高度、朝向信息等。
从而解决了2D的视觉图像和3D的雷达点云之间因为维度鸿沟而很难直接融合的问题,实现了多模态方法下雷达点云特征和伪点云特征的自适应地融合。
本实施例通过基于体素二阶段检测器(Voxel-RCNN)的一阶段的3D主干网络作为区域提议网络产生3D提议框提取得到原始点云的第一感兴趣区域特征通过该3D提议框裁剪出与原始点云对应的伪点云的感兴趣区域。然后通过彩点特征提取器中彩点卷积提取伪点云的各伪点的特征,并采用多个彩点卷积的堆叠级联处理来进一步提取各伪点的深层特征。接着将3D提议框内的伪点云进行离散化和稀疏卷积处理后,对得到的多个格点特征进行进一步提取,得到伪点云的第二感兴趣区域特征/>进一步地,设置一个伪点云辅助网络,对伪点云的第二感兴趣区域特征/>进行反馈、更新。然后对第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征。将对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征经过全连接层转换、点乘和级联处理后进行成对注意力融合,得到融合后的第三感兴趣区域格点特征/>各格点特征/>共同组成融合后的第三感兴趣区域特征/>最后使用该第三感兴趣区域特征/>进行物体目标的检测。本申请通过彩点特征提取器实现了对伪点云中丰富的2D语义信息和3D结构信息的高效提取。有利于从伪点云中挖掘更多有价值的信息,从而获取更丰富的鲁棒的特征。伪点云辅助网络实时对第二感兴趣区域特征进行反馈、更新,提高了第二感兴趣区域特征提取的精准度,使得伪点云提供的特征对之后的特征分类和定位更加有用。对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征之间的成对注意力融合,实现原始点云和伪点云特征的自适应融合。解决了二维视觉图像和三维激光雷达点云之间固有的维度差异导致二维图像与三维原始点云不能直接融合的问题。得到信息更丰富、更精准的第三感兴趣区域特征,解决了单一激光雷达检测和现有技术的多模态检测方法的信息损失问题。用该特征预测物体的类别置信度和各项属性,如类别、高度、朝向信息等,实现了三维目标的高性能、高质量检测。
图8为本申请实施例提供的同步数据增强的架构示意图。采用同步数据增强方法(SynAugment),对原始点云和伪点云进行同步数据增强处理。本实施例结合图8对同步数据增强过程进行说明。
通常而言,多模态方法中普遍存在数据增强不足的问题。原因在于2D图像和3D点云的固有维度差异,致使复杂的数据增强方法,例如采样数据增强、随机旋转和随机缩放等,很难在多模态方法中使用。本申请提供的3D目标检测方法通过深度补全网络将2D图像数据转换成3D伪点云,实现了维度的统一,进而实现在多模态方法中对3D原始点云和2D图像数据转换成的3D伪点云进行同步数据增强。如图8所示,处理器110提前采集原始点云样本库和伪点云样本库。处理器110对实时输入的原始点云和伪点云分别进行同步的数据增强处理,分别得到数据增强后的原始点云和数据增强后的伪点云。可选地,数据增强包括采样数据增强(gt-sampling)、随机翻转、随机旋转和随机缩放等通用数据增强方法和纯点云适用的定制的数据增强方法中的一种或多种。
本实施例提供的方法,可以解决多模态方法中数据增强的不足的问题。通过解决了复杂的数据增强方法难以在现有技术的多模态方法中使用的问题,实现在多模态方法中的同步数据增强,很大程度上提高了本申请的检测模型的泛化能力。
本申请实施例还提供一种3D场景下的目标检测装置,该装置包括处理器和存储器,存储器存储有处理器可执行指令,使得该处理器可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。应理解,上述处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
本申请实施例还提供一种存储介质,该存储介质中存储有计算机执行指令,这些计算机执行指令被处理器执行时,实现上述的3D目标检测方法。存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称:ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本申请实施例还提供一种程序产品,如计算机程序,该计算机程序被处理器执行时实现本申请所涵盖的3D目标检测方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其进行限制;尽管参照前述实施方式对本发明已经进行了详细的说明,但本领域的普通技术人员应当理解:其依然可以对前述实施方式所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施方式技术方案的范围。
Claims (9)
1.一种三维场景下的目标检测方法,其特征在于,包括:
获取激光雷达探测得到的原始点云,并对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征;
对所述原始点云进行深度投影处理,获得稀疏深度图像,对所述稀疏深度图像和相机采集的视觉图像进行深度补全处理,得到稠密深度图,将所述稠密深度图变换到原始点云的三维空间,得到三维的伪点云;
将所述视觉图像上每个像素点的红绿蓝RGB信息投影映射到所述伪点云内的每个点上,得到彩色伪点云,针对伪点云中的每一伪点,提取该伪点的邻域伪点的特征,将该伪点的特征以及与该伪点对应的邻域伪点的特征进行彩点卷积处理,得到该伪点的特征;
将3D提议框内的伪点云离散化成多个格点,每个格点的特征为所述每个格点内所有伪点云点特征的均值;
使用稀疏卷积对离散化后得到的多个格点进行特征抽取,获得所述伪点云的第二感兴趣区域特征;
对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,得到融合后的第三感兴趣区域特征,所述第三感兴趣区域特征用于进行三维目标检测;
所述将该伪点的特征以及与该伪点对应的邻域伪点的特征进行彩点卷积处理,得到该伪点的特征,包括:
计算该伪点以及8个相邻伪点/>到该伪点/>的二维距离残差R2D和三维距离残差R3D:
其中,/>是伪点/>在图像上的横坐标值,/>是伪点/>在图像上的横坐标值,/>是伪点/>在图像上的纵坐标值,/>是伪点/>在图像上的纵坐标值,/>是伪点/>在3D空间x坐标轴上的坐标值,/>是伪点在3D空间x坐标轴上的坐标值,/>是伪点/>在3D空间y坐标轴上的坐标值,/>是伪点在3D空间y坐标轴上的坐标值,/>是伪点/>在3D空间z坐标轴上的坐标值,/>是伪点在3D空间z坐标轴上的坐标值;
将R2D和R3D级联作为伪点的位置残差特征R;
将伪点以及8个相邻伪点的二维特征F2D和三维特征F3D级联作为伪点/>的邻域特征F,其中,/> 其中,/>是伪点/>在图像上的红色分量值,/>是伪点/>在图像上的绿色分量值,/>是伪点/>在图像上的蓝色分量值;/>是伪点/>在3D空间x坐标轴上的坐标值,/>是伪点/>在3D空间y坐标轴上的坐标值,/>是伪点/>在3D空间z坐标轴上的坐标值;
将R和F输入到全连接层,得到维度一致的特征r和f;
将特征r和f点乘,并对点乘结果进行形状变换得到一维特征;
将该一维特征输入到全连接层得到伪点的特征。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始点云进行特征提取处理,获得所述原始点云的第一感兴趣区域特征,包括:
从区域提议网络产生的3D提议框内提取原始点云的特征,获得所述原始点云的第一感兴趣区域特征。
3.根据权利要求1所述的方法,其特征在于,还包括:将多个彩点卷积堆叠级联处理。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述第一感兴趣区域特征和第二感兴趣区域特征进行疏密点云融合处理,包括:
对所述第一感兴趣区域特征和第二感兴趣区域特征分别离散化成对应的第一感兴趣区域的格点特征和第二感兴趣区域的格点特征,将来自第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行融合。
5.根据权利要求4所述的方法,其特征在于,所述将来自第一感兴趣区域特征的格点特征和与其对应的第二感兴趣区域的格点特征进行融合,包括:
将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征分别输入全连接层分别得到稠密特征,将分别得到的稠密特征级联在全连接层得到两个稠密特征的权重,将该两个稠密特征的权重归一化分别得到第一权重和第二权重;
在不同于权重预测的另一空间使用全连接层将第一感兴趣区域的格点特征和与其对应的第二感兴趣区域的格点特征进行转换得到第一转换特征和第二转换特征;
用第一权重点乘第一感兴趣区域格点特征和第一转换特征,用第二权重点乘第二感兴趣区域格点特征和第二转换特征,将该点乘后得到的结果特征级联在一起得到融合后的第三感兴趣区域格点特征。
6.根据权利要求1-3任一项所述的方法,其特征在于,还包括:对第二感兴趣区域特征进行分类和监督,并通过反向传播算法对第二感兴趣区域特征进行更新。
7.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
采用同步数据增强方法,对原始点云和伪点云进行同步的数据增强处理。
8.一种三维场景下的目标检测装置,其特征在于,包括:
处理器和存储器;
所述存储器存储所述处理器可执行指令;
其中,所述处理器执行所述存储器存储的可执行指令,使得所述处理器执行如权利要求1至7任一项所述的三维目标检测方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7任一项所述的三维目标检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110742040.3A CN113486887B (zh) | 2021-06-30 | 2021-06-30 | 三维场景下的目标检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110742040.3A CN113486887B (zh) | 2021-06-30 | 2021-06-30 | 三维场景下的目标检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486887A CN113486887A (zh) | 2021-10-08 |
CN113486887B true CN113486887B (zh) | 2023-12-22 |
Family
ID=77937633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110742040.3A Active CN113486887B (zh) | 2021-06-30 | 2021-06-30 | 三维场景下的目标检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486887B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861601B (zh) * | 2022-12-20 | 2023-12-29 | 清华大学 | 一种多传感器融合感知方法及装置 |
CN115861632B (zh) * | 2022-12-20 | 2023-11-28 | 清华大学 | 一种基于图卷积的视觉激光融合的三维目标检测方法 |
CN117173655B (zh) * | 2023-08-28 | 2024-07-05 | 南京航空航天大学 | 基于语义传播和跨注意力机制的多模态3d目标检测方法 |
CN117953029B (zh) * | 2024-03-27 | 2024-06-07 | 北京科技大学 | 一种基于深度信息传播的通用深度图补全方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161202A (zh) * | 2019-12-30 | 2020-05-15 | 上海眼控科技股份有限公司 | 车辆行为信息获取方法、装置、计算机设备和存储介质 |
CN111179329A (zh) * | 2019-12-31 | 2020-05-19 | 智车优行科技(上海)有限公司 | 三维目标检测方法、装置及电子设备 |
WO2020151109A1 (zh) * | 2019-01-22 | 2020-07-30 | 中国科学院自动化研究所 | 基于点云带权通道特征的三维目标检测方法及系统 |
CN112419494A (zh) * | 2020-10-09 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 用于自动驾驶的障碍物检测、标记方法、设备及存储介质 |
-
2021
- 2021-06-30 CN CN202110742040.3A patent/CN113486887B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020151109A1 (zh) * | 2019-01-22 | 2020-07-30 | 中国科学院自动化研究所 | 基于点云带权通道特征的三维目标检测方法及系统 |
CN111161202A (zh) * | 2019-12-30 | 2020-05-15 | 上海眼控科技股份有限公司 | 车辆行为信息获取方法、装置、计算机设备和存储介质 |
CN111179329A (zh) * | 2019-12-31 | 2020-05-19 | 智车优行科技(上海)有限公司 | 三维目标检测方法、装置及电子设备 |
CN112419494A (zh) * | 2020-10-09 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 用于自动驾驶的障碍物检测、标记方法、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Multi-View 3D Object Detection Network for Autonomous Driving;Xiaozhi Chen et al;《arXiv:1611.07759v3》;第1-9页 * |
伪点云修正增强激光雷达数据;宋绪杰等;《中国图象图形学报》;第26卷(第5期);第1157-1168段 * |
Also Published As
Publication number | Publication date |
---|---|
CN113486887A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486887B (zh) | 三维场景下的目标检测方法和装置 | |
Shivakumar et al. | Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion | |
JP7033373B2 (ja) | ターゲット検出方法及び装置、スマート運転方法、装置並びに記憶媒体 | |
CN113159151B (zh) | 面向自动驾驶的多传感器深度融合3d目标检测方法 | |
WO2019223382A1 (zh) | 单目深度估计方法及其装置、设备和存储介质 | |
US9153203B2 (en) | Temporally consistent superpixels | |
CN114419570B (zh) | 一种点云数据识别方法、装置、电子设备及存储介质 | |
EP3973507B1 (en) | Segmentation for holographic images | |
Jeon et al. | ABCD: Attentive bilateral convolutional network for robust depth completion | |
CN116612468A (zh) | 基于多模态融合与深度注意力机制的三维目标检测方法 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
CN111444923A (zh) | 自然场景下图像语义分割方法和装置 | |
CN115511759A (zh) | 一种基于级联特征交互的点云图像深度补全方法 | |
CN115546549A (zh) | 点云分类模型构建方法、点云分类方法、装置及设备 | |
CN113744280B (zh) | 图像处理方法、装置、设备及介质 | |
Lahiri et al. | Deep learning-based stereopsis and monocular depth estimation techniques: a review | |
CN117612153A (zh) | 基于图像与点云信息补全的三维目标识别与定位方法 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
Dai et al. | Connecting the dots for real-time LiDAR-based object detection with YOLO | |
Zhang et al. | PMVC: Promoting Multi-View Consistency for 3D Scene Reconstruction | |
CN117173104B (zh) | 一种低空无人机图像变化检测方法及系统 | |
CN113989938B (zh) | 行为识别方法、装置及电子设备 | |
Sun et al. | Attention-guided multi-view stereo network for depth estimation | |
CN113496160B (zh) | 三维物体检测方法、装置、电子设备和存储介质 | |
CN115880470B (zh) | 3d图像数据的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |