CN114119992A

CN114119992A - 基于图像与点云融合的多模态三维目标检测方法及装置

Info

Publication number: CN114119992A
Application number: CN202111266214.XA
Authority: CN
Inventors: 高跃; 戴岳; 赵曦滨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-03-01

Abstract

本申请涉及立体视觉目标检测技术领域，特别涉及一种基于图像与点云融合的多模态三维目标检测方法及装置，其中，方法包括：利用图像卷积神经网络提取至少一个图像特征，并基于至少一个图像特征预测图像所含目标；根据传感器标定关系确定像素和点云投影关系，并基于像素和点云投影关系将像素特征融合至点云数据；将点云空间划分为柱体，并使用柱体特征网络编码柱体内点云，根据融合后的点云数据生成伪图像特征；将柱体对应的图像的结构化特征合并至伪图像特征；根据伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。本申请实施例可以基于图像和点云数据融合实现三维目标检测的目的，使用图像数据特征增强了从点云场景中执行目标检测的性能，有效保证检测的准确度和可靠性。

Description

基于图像与点云融合的多模态三维目标检测方法及装置

技术领域

本申请涉及立体视觉目标检测技术领域，特别涉及一种基于图像与点云融合的多模态三维目标检测方法及装置。

背景技术

目前，目标检测是计算机视觉领域的重要研究问题，系统的精准感知是系统正常决策运作的前提。目标检测是使机器具有感知外界环境中有意义对象的方法，目标检测算法的精度和速度性能关系到自动驾驶、人机交互、增强现实等众多领域的发展，也广泛应用于军事、医学、航天等领域。

目标检测任务是指从图像、视频、点云等空间数据中，对外界环境中的对象进行定位和分类，获得目标的位置、姿态、类别等信息。具体而言，基于传感器采集的空间数据，目标检测算法将产生可能目标的外接矩形(或外接立方体)和类别概率。

相关技术中，伴随着深度学习的迅速发展，卷积神经网络在图像处理领域得到了广泛的应用，目标检测算法也取得了非常大的进步，神经网络方法已成为图像处理和特征提取的主流方法。目标检测方法与图像识别和特征感知密切联系，图像识别任务的进步推动了基于图像的目标检测算法的进步和成熟。

然而，伴随着自动驾驶等领域的需求，图像中目标信息的局限性逐渐显露。虽然图像目标检测方法预测的边框误差较小，但是对应到真实空间中，目标的真实位置仍无法判断，无法获知目标的距离信息，给进一步工作开展带来困难。因此，研究者将视角转向更高维度的三维空间内的目标检测，利用激光雷达、深度摄像机采集包含三维信息的数据，获得更加精细的预测，而数据的特殊性也带来了相当的挑战。

申请内容

本申请提供一种基于图像与点云融合的多模态三维目标检测方法及装置，以解决相关技术在对应到真实空间中，目标的真实位置仍无法判断，无法获知目标的距离信息的问题。

本申请第一方面实施例提供一种基于图像与点云融合的多模态三维目标检测方法，包括以下步骤：利用图像卷积神经网络提取至少一个图像特征，并基于所述至少一个图像特征预测图像所含目标；基于所述图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于所述像素和点云投影关系将像素特征融合至点云数据；将点云空间划分为柱体，并使用柱体特征网络编码所述柱体内点云，根据融合后的点云数据生成伪图像特征；将所述柱体对应的图像的结构化特征合并至所述伪图像特征；根据所述伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。

可选地，在本申请的一个实施例中，所述基于所述图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于所述像素和点云投影关系将像素特征融合至点云数据，包括：根据激光雷达和相机位置矩阵及相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素；根据所述每个点对应的像素生成点云对应的特征；将所述点云对应的特征合并到点云列表中。

可选地，在本申请的一个实施例中，所述点云对应的特征包括第一语义特征、第一纹理特征和第一几何特征，其中，所述根据所述每个点对应的像素生成点云对应的特征，包括：若点对应的像素位于所述图像所含目标内，则将所述对应的像素标识为目标类别，否则标识为背景类别，生成的像素类别为所述第一语义特征；基于点对应的像素的三通道颜色值生成所述第一纹理特征；若点对应的像素位于所述图像所含目标内，则使用目标中心近似拟合三维目标的向量，生成所述第一几何特征。

可选地，在本申请的一个实施例中，所述将所述柱体对应的图像的结构化特征合并至所述伪图像特征，包括：计算所述柱体内点云的几何中心，确定所述柱体的计算坐标；根据所述激光雷达和相机位置矩阵及所述相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素；根据所述每个柱体对应的像素生成柱体对应的特征；将所述柱体对应的特征并到伪图像特征中。

可选地，在本申请的一个实施例中，所述柱体对应的特征包括第二语义特征、第二纹理特征和第二几何特征，其中，所述根据所述每个柱体对应的像素生成柱体对应的特征，包括：若柱体中心坐标对应的像素位于所述图像所含目标内，则将所述对应的像素标识为所述目标类别，否则标识为所述背景类别，生成的像素类别为所述第二语义特征；基于柱体中心对应的像素的三通道颜色值生成所述第二纹理特征；根据所述柱体中心对应的像素计算与图像检测到的目标的像素差，并计算相应的偏角，生成所述第二几何特征。

本申请第二方面实施例提供一种基于图像与点云融合的多模态三维目标检测装置，包括：预测模块，用于利用图像卷积神经网络提取至少一个图像特征，并基于所述至少一个图像特征预测图像所含目标；第一生成模块，用于基于所述图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于所述像素和点云投影关系将像素特征融合至点云数据；第二生成模块，用于将点云空间划分为柱体，并使用柱体特征网络编码所述柱体内点云，根据融合后的点云数据生成伪图像特征；合并模块，用于将所述柱体对应的图像的结构化特征合并至所述伪图像特征；检测模块，用于根据所述伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。

可选地，在本申请的一个实施例中，所述第一生成模块进一步用于根据激光雷达和相机位置矩阵及相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素；根据所述每个点对应的像素生成点云对应的特征；将所述点云对应的特征合并到点云列表中。

可选地，在本申请的一个实施例中，所述合并模块进一步用于计算所述柱体内点云的几何中心，确定所述柱体的计算坐标；根据所述激光雷达和相机位置矩阵及所述相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素；根据所述每个柱体对应的像素生成柱体对应的特征；将所述柱体对应的特征并到伪图像特征中。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的基于图像与点云融合的多模态三维目标检测方法。

本申请第四方面实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上述实施例所述的基于图像与点云融合的多模态三维目标检测方法。

本申请实施例将视角转向更高维度的三维空间内的目标检测，利用激光雷达、深度摄像机采集包含三维信息的数据，获得更加精细的预测，通过基于图像和点云数据融合实现三维目标检测的目的，使用图像数据特征增强了从点云场景中执行目标检测的性能，有效保证检测的准确度和可靠性。由此，解决了相关技术在对应到真实空间中，目标的真实位置仍无法判断，无法获知目标的距离信息的问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种基于图像与点云融合的多模态三维目标检测方法的流程图；

图2为根据本申请一个实施例的基于图像与点云融合的多模态三维目标检测方法的流程图；

图3为根据本申请一个具体实施例的基于图像与点云融合的多模态三维目标检测方法的流程图；

图4为根据本申请实施例的基于图像与点云融合的多模态三维目标检测装置的示例图；

图5为本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的基于图像与点云融合的多模态三维目标检测方法及装置。针对上述背景技术中心提到的相关技术在对应到真实空间中，目标的真实位置仍无法判断，无法获知目标的距离信息的问题，本申请提供了一种基于图像与点云融合的多模态三维目标检测方法，在该方法中，将视角转向更高维度的三维空间内的目标检测，利用激光雷达、深度摄像机采集包含三维信息的数据，获得更加精细的预测，通过基于图像和点云数据融合实现三维目标检测的目的，使用图像数据特征增强了从点云场景中执行目标检测的性能，有效保证检测的准确度和可靠性。由此，解决了相关技术在对应到真实空间中，目标的真实位置仍无法判断，无法获知目标的距离信息的问题。

具体而言，图1为本申请实施例所提供的一种基于图像与点云融合的多模态三维目标检测方法的流程示意图。

如图1所示，该基于图像与点云融合的多模态三维目标检测方法包括以下步骤：

在步骤S101中，利用图像卷积神经网络提取至少一个图像特征，并基于至少一个图像特征预测图像所含目标。

可以理解的是，使用图像卷积神经网络/图像目标检测模型提取图像特征，并预测图像所含目标。其中，图像所含目标可以表示为图像目标检测框。

在步骤S102中，基于图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于像素和点云投影关系将像素特征融合至点云数据。

可以理解的是，根据传感器标定关系，确定像素和点云投影关系，将像素特征融合至点云数据。本申请实施例基于点的特征生成与融合，其生成点相应特征，有效增强检测性能。

可选地，在本申请的一个实施例中，基于图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于像素和点云投影关系将像素特征融合至点云数据，包括：根据激光雷达和相机位置矩阵及相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素；根据每个点对应的像素生成点云对应的特征；将点云对应的特征合并到点云列表中。

其中，在本申请的一个实施例中，点云对应的特征包括第一语义特征、第一纹理特征和第一几何特征，其中，根据每个点对应的像素生成点云对应的特征，包括：若点对应的像素位于图像所含目标内，则将对应的像素标识为目标类别，否则标识为背景类别，生成的像素类别为第一语义特征；基于点对应的像素的三通道颜色值生成第一纹理特征；若点对应的像素位于图像所含目标内，则使用目标中心近似拟合三维目标的向量，生成第一几何特征。

例如，根据激光雷达和相机设备原理，建立点与像素的对应关系，生成点对应的图像特征融合，生成步骤具体包括：

步骤S1021：根据激光雷达和相机位置矩阵和相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素。

步骤S1022：生成点云对应的特征，点云对应的特征包括三类：语义特征、纹理特征、几何特征。

具体地，语义特征的生成方法为，若点对应的像素位于获得的图像目标检测框内，则将该像素标识为该目标类别，否则将该像素标识为背景类别，生成的像素类别即为语义特征；纹理特征的生成方法为点对应的像素的三通道颜色值；几何特征的生成方法为若点对应的像素位于获得的图像目标检测框内，则使用该目标中心近似拟合三维目标的向量。根据针孔摄像机的工作原理，将像素点转换到相机参考系后，其表达式为一条三维空间的直线，其单位向量计算公式如下：

其中，(u,v)为像素横纵坐标，(f_x,f_y)为相机横纵方向焦距。

步骤S1023：将生成的点对应特征合并到点云列表中。

在步骤S103中，将点云空间划分为柱体，并使用柱体特征网络编码柱体内点云，根据融合后的点云数据生成伪图像特征。

可以理解的是，将点云空间划分为柱体，使用柱体特征网络编码柱体内点云，生成伪图像特征。例如，柱体特征网络，将点云三维空间按鸟瞰图(x-y平面)划分为柱体，每个柱体包含若干点，使用全连接神经网络提取柱体点云特征，按照平面坐标合并为伪图像特征。

在步骤S104中，将柱体对应的图像的结构化特征合并至伪图像特征。

可以理解的是，根据空间对应关系，根据图像预测目标生成特征，合并至柱体特征。即言，本申请实施例基于柱体的特征生成与融合，生成柱体相应特征。

可选地，在本申请的一个实施例中，将柱体对应的图像的结构化特征合并至伪图像特征，包括：计算柱体内点云的几何中心，确定柱体的计算坐标；根据激光雷达和相机位置矩阵及相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素；根据每个柱体对应的像素生成柱体对应的特征；将柱体对应的特征并到伪图像特征中。

其中，在本申请的一个实施例中，柱体对应的特征包括第二语义特征、第二纹理特征和第二几何特征，其中，根据每个柱体对应的像素生成柱体对应的特征，包括：若柱体中心坐标对应的像素位于图像所含目标内，则将对应的像素标识为目标类别，否则标识为背景类别，生成的像素类别为第二语义特征；基于柱体中心对应的像素的三通道颜色值生成第二纹理特征；根据柱体中心对应的像素计算与图像检测到的目标的像素差，并计算相应的偏角，生成第二几何特征。

例如，基于柱体的特征生成与融合，如权利要求1所述步骤4。根据激光雷达和相机设备原理，建立点与像素的对应关系，生成柱体对应的图像特征融合，生成步骤具体包括：

步骤S1041：计算柱体内点云的几何中心，作为柱体的计算坐标。

步骤S1042：根据激光雷达和相机位置矩阵和相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素。

步骤S1043：生成柱体对应的特征，所述的柱体对应的特征包括三类：语义特征、纹理特征、几何特征。

具体地，语义特征的生成方法为，若柱体中心坐标对应的像素位于获得的图像目标检测框内，则将该像素标识为该目标类别，否则将该像素标识为背景类别，生成的像素类别即为语义特征；纹理特征的生成方法为柱体中心对应的像素的三通道颜色值；几何特征的生成方法为根据柱体中心对应像素，计算与图像检测到的目标的像素差，计算相应的偏角，即为几何特征。

步骤S1044：将生成的柱体对应特征合并到伪图像特征中。

在步骤S105中，根据伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。

可以理解的是，使用二维卷积网络处理伪图像特征，生成目标检测结果。也就是说，本申请实施例使用卷积神经网络处理融合的特征，监督生成三维目标检测结果。

如图2所示，以下列举实施例，示意性说明。

在本申请的一个实施例中，以KITTI数据集的数据格式为例，本申请实施例的方法包括：

步骤S1：使用图像卷积神经网络Faster-RCNN处理提取图像特征，提取图像特征，预测图像所含目标框

步骤S2，根据传感器标定关系，确定像素和点云投影关系，将像素特征融合至点云数据。

S21：根据激光雷达和相机位置矩阵和相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素。具体地，标定文件提供了参考系相关的7个矩阵，名称分别为P0、P1、P2、P3、R0_rect、Tr_velo_to_cam，P0是左边灰度相机的内参矩阵，P1是右边灰度相机的内参矩阵，P2左边彩色相机的内参矩阵，P3是右边彩色相机的内参矩阵，R0_rect旋转矩阵，用于矫正0号相机，使得图像平面共面，Tr_velo_to_cam是雷达坐标系到相机坐标系的转换矩阵。实际训练过程中，只是用P2对应的左部彩色相机的图像。因点云坐标有反射强度，是与位置无关的点云特征，需要扩展参数矩阵，以处理第四维的反射强度特征。具体做法是，P2矩阵和Tr_velo_to_cam矩阵在第四列添加(0,0,0,1)的列向量，R0_rect矩阵补0扩展至4*4的大小，给R0_rect33赋值为1。坐标转换使用矩阵乘法运算，使用Points_camera表示摄像机坐标系下点云的坐标，Points lidar表示摄像机坐标系下点云的坐标，则两者坐标间转换方式如公式(3.1)。从摄像机坐标系转换到像素平面，则需要对应相机的投影矩阵(即P2)，从三维降至二维，需要对舍去的z轴坐标作归一化操作，获得点在像素平面的位置。

S22：生成点云对应的特征，其特征在于，所述的点云对应的特征包括三类：语义特征、纹理特征、几何特征。其中，语义特征的生成方法为，若点对应的像素位于步骤1获得的图像目标检测框内，则将该像素标识为该目标类别，否则将该像素标识为背景类别，生成的像素类别即为语义特征；纹理特征的生成方法为点对应的像素的三通道颜色值；几何特征的生成方法为若点对应的像素位于步骤1获得的图像目标检测框内，则使用该目标中心近似拟合三维目标的向量。根据针孔摄像机的工作原理，将像素点转换到相机参考系后，其表达式为一条三维空间的直线，其单位向量计算公式如下：

式中，(u,v)为像素横纵坐标，(f_x,f_y)为相机横纵方向焦距。

S23，将生成的点对应特征合并到点云列表中。

步骤S3：将点云空间划分为柱体，使用柱体特征网络编码柱体内点云，生成伪图像特征。具体地，将柱体按x-y平面的坐标按序排列，合并为按位置合并为类似多通道图像的数据形式。

步骤S4：根据空间对应关系，根据图像预测目标生成特征，合并至柱体特征。S41：计算柱体内点云的几何中心，作为柱体的计算坐标。

S42：根据激光雷达和相机位置矩阵和相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素。

S43：生成柱体对应的特征，所述的柱体对应的特征包括三类：语义特征、纹理特征、几何特征。其中，语义特征的生成方法为，若柱体中心坐标对应的像素位于步骤1获得的图像目标检测框内，则将该像素标识为该目标类别，否则将该像素标识为背景类别，生成的像素类别即为语义特征；纹理特征的生成方法为柱体中心对应的像素的三通道颜色值；几何特征的生成方法为，根据柱体中心对应像素，计算与图像检测到的目标的像素差，计算相应的偏角，即为几何特征。

S44：将生成的柱体对应特征合并到伪图像特征中

步骤S5：使用二维卷积网络处理伪图像特征，生成目标检测结果。

例如，输入的柱体特征为通道数为64，使用类似金字塔结构，左边分支卷积步长设置为2，逐渐下采样，通道数扩张，三层卷积输出依次为[64,128,256]。同时，三层卷积的输出通过反卷积统一到统一尺寸、同一通道，进而合并多层特征。和图像卷积相同，深层的特征更容易表征大尺寸目标，浅层的特征容易表征尺寸效地目标，融合了多尺度的特征能提高目标检测的能力。获得多尺度特征后，利用SSD(Single Shot MultiBox Detector，)算法的锚框生成和真实目标匹配规则，预测目标检测结果，使用二维交并比去匹配先验矩形和真实值，并未使用高度和坐标高度进行匹配，对高度进行预测，实现三维目标检测

根据本申请实施例提出的基于图像与点云融合的多模态三维目标检测方法，将视角转向更高维度的三维空间内的目标检测，利用激光雷达、深度摄像机采集包含三维信息的数据，获得更加精细的预测，通过基于图像和点云数据融合实现三维目标检测的目的，使用图像数据特征增强了从点云场景中执行目标检测的性能，有效保证检测的准确度和可靠性。

其次参照附图描述根据本申请实施例提出的基于图像与点云融合的多模态三维目标检测装置。

图4是本申请实施例的基于图像与点云融合的多模态三维目标检测装置的方框示意图。

如图4所示，该基于图像与点云融合的多模态三维目标检测装置10包括：预测模块100、第一生成模块200、第二生成模块300、合并模块400和检测模块500。

具体地，预测模块100，用于利用图像卷积神经网络提取至少一个图像特征，并基于至少一个图像特征预测图像所含目标。

第一生成模块200，用于基于图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于像素和点云投影关系将像素特征融合至点云数据。

第二生成模块300，用于将点云空间划分为柱体，并使用柱体特征网络编码柱体内点云，根据融合后的点云数据生成伪图像特征。

合并模块400，用于将柱体对应的图像的结构化特征合并至伪图像特征。

检测模块500，用于根据伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。

可选地，在本申请的一个实施例中，第一生成模块200进一步用于根据激光雷达和相机位置矩阵及相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素；根据每个点对应的像素生成点云对应的特征；将点云对应的特征合并到点云列表中。

可选地，在本申请的一个实施例中，合并模块400进一步用于计算柱体内点云的几何中心，确定柱体的计算坐标；根据激光雷达和相机位置矩阵及相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素；根据每个柱体对应的像素生成柱体对应的特征；将柱体对应的特征并到伪图像特征中。

需要说明的是，前述对基于图像与点云融合的多模态三维目标检测方法实施例的解释说明也适用于该实施例的基于图像与点云融合的多模态三维目标检测装置，此处不再赘述。

根据本申请实施例提出的基于图像与点云融合的多模态三维目标检测装置，将视角转向更高维度的三维空间内的目标检测，利用激光雷达、深度摄像机采集包含三维信息的数据，获得更加精细的预测，通过基于图像和点云数据融合实现三维目标检测的目的，使用图像数据特征增强了从点云场景中执行目标检测的性能，有效保证检测的准确度和可靠性。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的基于图像与点云融合的多模态三维目标检测方法。

进一步地，电子设备还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的基于图像与点云融合的多模态三维目标检测方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于图像与点云融合的多模态三维目标检测方法，其特征在于，包括以下步骤：

利用图像卷积神经网络提取至少一个图像特征，并基于所述至少一个图像特征预测图像所含目标；

基于所述图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于所述像素和点云投影关系将像素特征融合至点云数据；

将点云空间划分为柱体，并使用柱体特征网络编码所述柱体内点云，根据融合后的点云数据生成伪图像特征；

将所述柱体对应的图像的结构化特征合并至所述伪图像特征；以及

根据所述伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述基于所述图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于所述像素和点云投影关系将像素特征融合至点云数据，包括：

根据激光雷达和相机位置矩阵及相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素；

根据所述每个点对应的像素生成点云对应的特征；

将所述点云对应的特征合并到点云列表中。

3.根据权利要求2所述的方法，其特征在于，所述点云对应的特征包括第一语义特征、第一纹理特征和第一几何特征，其中，所述根据所述每个点对应的像素生成点云对应的特征，包括：

若点对应的像素位于所述图像所含目标内，则将所述对应的像素标识为目标类别，否则标识为背景类别，生成的像素类别为所述第一语义特征；

基于点对应的像素的三通道颜色值生成所述第一纹理特征；

若点对应的像素位于所述图像所含目标内，则使用目标中心近似拟合三维目标的向量，生成所述第一几何特征。

4.根据权利要求2或3所述的方法，其特征在于，所述将所述柱体对应的图像的结构化特征合并至所述伪图像特征，包括：

计算所述柱体内点云的几何中心，确定所述柱体的计算坐标；

根据所述激光雷达和相机位置矩阵及所述相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素；

根据所述每个柱体对应的像素生成柱体对应的特征；

将所述柱体对应的特征并到伪图像特征中。

5.根据权利要求4所述的方法，其特征在于，所述柱体对应的特征包括第二语义特征、第二纹理特征和第二几何特征，其中，所述根据所述每个柱体对应的像素生成柱体对应的特征，包括：

若柱体中心坐标对应的像素位于所述图像所含目标内，则将所述对应的像素标识为所述目标类别，否则标识为所述背景类别，生成的像素类别为所述第二语义特征；

基于柱体中心对应的像素的三通道颜色值生成所述第二纹理特征；

根据所述柱体中心对应的像素计算与图像检测到的目标的像素差，并计算相应的偏角，生成所述第二几何特征。

6.一种基于图像与点云融合的多模态三维目标检测装置，其特征在于，包括：

预测模块，用于利用图像卷积神经网络提取至少一个图像特征，并基于所述至少一个图像特征预测图像所含目标；

第一生成模块，用于基于所述图像所含目标，根据传感器标定关系确定像素和点云投影关系，并基于所述像素和点云投影关系将像素特征融合至点云数据；

第二生成模块，用于将点云空间划分为柱体，并使用柱体特征网络编码所述柱体内点云，根据融合后的点云数据生成伪图像特征；

合并模块，用于将所述柱体对应的图像的结构化特征合并至所述伪图像特征；以及

检测模块，用于根据所述伪图像特征利用单步目标检测网络生成三维候选框，得到目标检测结果。

7.根据权利要求6所述的装置，其特征在于，所述第一生成模块进一步用于根据激光雷达和相机位置矩阵及相机内参矩阵，将点云坐标转换至像素平面，确定每个点对应的像素；根据所述每个点对应的像素生成点云对应的特征；将所述点云对应的特征合并到点云列表中。

8.根据权利要求6或7所述的装置，其特征在于，所述合并模块进一步用于计算所述柱体内点云的几何中心，确定所述柱体的计算坐标；根据所述激光雷达和相机位置矩阵及所述相机内参矩阵，将柱体坐标转换至像素平面，确定每个柱体对应的像素；根据所述每个柱体对应的像素生成柱体对应的特征；将所述柱体对应的特征并到伪图像特征中。

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-5任一项所述的基于图像与点云融合的多模态三维目标检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的基于图像与点云融合的多模态三维目标检测方法。