CN118447468A

CN118447468A - 一种基于相邻目标之间空间关系的单目三维检测方法及装置

Info

Publication number: CN118447468A
Application number: CN202410905053.1A
Authority: CN
Inventors: 秦华伟
Original assignee: Shanxi Finance & Taxation College
Current assignee: Shanxi Finance & Taxation College
Priority date: 2024-07-08
Filing date: 2024-07-08
Publication date: 2024-08-06
Anticipated expiration: 2044-07-08
Also published as: CN118447468B

Abstract

本发明提供了一种基于相邻目标之间空间关系的单目三维检测方法及装置，属于目标检测技术领域；解决了现有单目三维目标检测网络对被遮挡目标检测精度差的问题；包括以下步骤：将图片输入Smoke主干网络中得到特征图；基于特征图分别进行2D检测，3D检测和相邻目标的空间约束检测，得到目标2D预测框，包含目标三维中心，偏航角，三维长宽高，目标视觉深度和目标属性深度的3D预测框；相邻目标的空间约束检测通过预测目标三维中心与相邻目标三维中心之间的三维距离得到相邻目标的空间约束；结合相邻目标的空间约束和目标3D预测框进行目标三维空间优化，得到结果更加精确的最终3D预测框；本发明应用于三维目标检测。

Description

一种基于相邻目标之间空间关系的单目三维检测方法及装置

技术领域

本发明提供了一种基于相邻目标之间空间关系的单目三维检测方法及装置，属于目标检测技术领域。

背景技术

深度学习强大的表征能力以及丰富的特征表示使目标检测的准确度获得了很大提升，推动了目标检测的发展。卷积神经网络是一类包含卷积、池化、激活函数计算并且具有一定深度结构的神经网络，是深度学习领域的代表算法之一。卷积神经网络不仅能够提取高层特征，提高特征的表达能力，还能够将特征提取、特征选择和特征分类融合在同一个模型中，通过端到端的训练，从整体上进行功能优化，增强特征的可分性。基于卷积神经网络的目标检测早已成为计算机视觉领域的研究热点。

自动驾驶是未来的发展趋势。最近几年，三维目标检测也逐渐火热起来，也出现了很多优秀的单目三维目标检测网络。遵循R-CNN系列在二维目标检测中的思想，陈彦等人利用领域特定的先验(如形状、高度、位置分布等)去除低置信度的建议，提出了开创性的基于区域的方法Mono3D。周兴义等人提出了一种名为CenterNet的无锚一阶段检测器，并将其扩展到基于图像的3D检测。该框架将对象编码为单个点(对象的中心点)，并使用关键点估计来找到它。此外，利用多个并行检测头来估计物体的其他属性，包括深度、尺寸、位置和方向。加里克·布莱西等人提出了一个基于锚点的探测器M3D-RPN，这个探测器本质上是一个定制的RPN，用于一阶段3D检测，它为给定的图像生成2D锚点和3D锚点。在目标检测领域，已有许多学者将上述模型应用于单目三维目标检测，但其模型检测精度较差，尤其是对于被遮挡的目标效果更差。

发明内容

本发明为了解决现有单目三维目标检测网络对被遮挡目标检测精度差的问题，提出了一种基于相邻目标之间空间关系的单目三维检测方法及装置。

为了解决上述技术问题，本发明采用的技术方案为：一种基于相邻目标之间空间关系的单目三维检测方法，包括以下步骤：

S1：将图片输入Smoke主干网络中得到特征图；

S2：基于特征图分别进行2D检测，3D检测和相邻目标的空间约束检测；

其中2D检测通过2D检测模块预测目标二维中心和二维边界框的长宽，然后得到目标2D预测框；

3D检测通过3D检测头预测目标三维中心，偏航角，三维长宽高，目标视觉深度和目标属性深度，然后得到目标3D预测框；

相邻目标的空间约束检测通过预测目标三维中心与相邻目标三维中心之间的三维距离得到相邻目标的空间约束；

S3：结合相邻目标的空间约束和目标3D预测框进行目标三维空间优化，得到结果更加精确的最终3D预测框。

步骤S1中的Smoke主干网络采用改进的DLA-34网络，改进部分为将传统DLA-34网络中所有的层级聚合连接都替换成了可变形卷积连接，输出的特征图相对于原始图进行了4倍的下采样，所有的批归一化操作替换为分组归一化操作。

步骤S2中2D检测模块采用CenterNet网络，具有三个输出分支，分别为：

目标关键点位置分支：输出W×H×C的热力图，其中W、H分别为热力图的宽和高，C为目标类型；

目标尺寸分支：输出二维预测框的长宽；

目标中心分支：输出二维预测框的中心位置和目标关键点位置的偏移向量。步骤S2中的3D检测通过两个3D检测头分别检测目标视觉深度和目标属性深度，最终得到的目标深度为目标视觉深度和目标属性深度的和。

目标三维中心采用目标在世界空间中的中心点c ^w=(x，y，z)，其中建立坐标系的方式是以图像平面为xy平面，因此坐标z表示目标中心点的深度，x、y仅表示横纵坐标，其在特征图中的投影为c ^o=(u，v)，预测目标在世界空间中的中心点c ^w相对于关键点位置c ^g的偏移量为(，)，设相机的固有矩阵为K为：

；

上式中：f _x表示使用像素来描述x轴方向焦距的长度，f _y表示使用像素来描述y轴方向焦距的长度，a _x表示主点的实际位置的x轴坐标，单位为像素，a _y表示主点的实际位置的y轴坐标，单位为像素；

则目标在世界空间中的中心点表示为：

；

上式中：u ^g为关键点位置的横坐标，v ^g为关键点位置的纵坐标，表示目标在世界空间中的中心点c ^w相对于关键点位置c ^g的横坐标偏移量，表示目标在世界空间中的中心点c ^w相对于关键点位置c ^g的纵坐标偏移量，z表示目标中心点深度。

3D检测中的目标偏航角α=β+γ，其中β为相机坐标系中的全局方向，γ为目标与相机视角的相对旋转角，γ=arctan(x/z)；

3D检测中的目标三维长宽高直接以米为单位回归得到。

相邻目标的空间约束是通过设置其二维边界框中心的距离作为直径来定义范围圆，如果范围圆内包含其他目标中心，则忽略其他目标中心；

给定选定的一对目标，它们在世界空间中的三维中心分别为=(x _i，y _i，z _i)和=(x _j，y _j，z _j)，它们在特征图上的二维边界框中心分别为和，其中、为目标i在特征图上二维边界框的横坐标和纵坐标，、为目标j在特征图上二维边界框的横坐标和纵坐标，相邻目标的空间约束的回归目标是上述两个目标的三维距离。

相邻目标的空间约束的回归目标的实现步骤如下：

首先在三维空间中定位中点；

然后，取视点方向为Z轴，为原点，用左手系建立局部坐标系，相邻目标和的三维绝对距离为，其中为相邻目标的横坐标差的绝对值，为相邻目标的纵坐标差的绝对值，为相邻目标的Z坐标差的绝对值，且选取局部坐标系下的相邻目标间三维距离作为预测的相邻目标三维的空间约束。

步骤S3中采用非线性最小二乘法进行3D预测框空间优化，具体步骤如下：

假设在一张图中，网络输出有N个目标，其中有M对相邻目标之间的空间约束，将其视为一个顶点数为N，边数为M的图，每个顶点可以连接多个相邻顶点，未被其他顶点连接的目标不需要优化；

对于连接顶点C _i和顶点C _j的相邻目标之间的空间约束，存在三个误差项来衡量网络估计的三维距离和两个连接顶点C _i和C _j的三维位置和之间的距离的不一致性，其中误差项是和沿着三个轴的绝对差，其表达式如下：

=；

对于每个目标，计算其所有的相邻目标的空间约束对于预测的三维中心的误差项，并求平均值，得到优化之后的3D预测框中心。

一种基于相邻目标之间空间关系的单目三维检测装置，包括处理器和存储器，所述存储器中存储有基于相邻目标之间空间关系的单目三维检测方法的计算机程序，所述处理器用于执行上述计算机程序。

本发明相对于现有技术具备的有益效果为：本发明通过编码相邻目标之间的空间关系，来提高被遮挡目标的检测效果，并将目标深度预测解耦为目标视觉深度和目标属性深度，提高了目标深度预测的准确性。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明检测方法的流程图；

图2为检测目标的示意图，其中(2a)表示三维图像中3D预测框和2D预测框的示意图，(2b)表示特征图，(2c)表示俯瞰视角目标图；

图3为相邻目标之间的空间约束示例图；

图4为包含所有有效目标对的示例图；

图5为不同坐标系下的相邻目标的空间约束图，其中(5a)表示相机坐标系下的相邻目标的空间约束图，(5b)表示局部坐标系下的相邻目标的空间约束图；

图6为不同坐标系下推理相邻目标间三维距离的示例图，其中(6a)表示相机坐标系下推理相邻目标间三维距离的示例图，(6b)表示局部坐标系下推理相邻目标间三维距离的示例图。

具体实施方式

如图1至图6所示，本发明提供了一种基于相邻目标之间空间关系的单目三维检测方法，通过编码相邻目标之间的空间关系，来提高被遮挡目标的检测效果，并将目标深度预测解耦为目标视觉深度和目标属性深度，提高目标深度预测的准确性。如图1所示为本发明方法实现的流程图，具体步骤如下：

S1：将图片输入Smoke主干网络中得到特征图；

其中2D检测通过2D检测头预测目标二维中心和二维边界框的长宽，然后得到目标2D预测框；

其中Smoke主干网络使用层级融合网络DLA-34作为主干网络来提取特征，因为它可以跨不同层级聚合信息。本发明在DLA-34的基础上进行了改进，将所有的层级聚合连接都替换成了可变形卷积连接。输出的特征图相对于原始图进行了4倍的下采样。与原始DLA-34网络相比，本发明将所有的批归一化(BN)操作替换为分组归一化(GN)，因为已经证明GN操作对批量大小不敏感，并且对训练噪声更加稳健。

2D检测是基于CenterNet实现的，并且具有三个输出分支，分别为：目标关键点位置分支：输出W×H×C的热力图，其中W、H分别为热力图的宽和高，C为目标类型；目标尺寸分支：输出二维预测框的长宽；目标中心分支：输出二维预测框的中心位置和目标关键点位置的偏移向量。如图2所示，图(2a)中平面的长方形框表示二维预测框，立体的长方体框表示三维预测框，图2主要是通过三个视角说明目标关键点位置、二维预测框中心、三维预测框中心的三者关系。图(2b)中的点c ^g表示关键点位置，通过目标关键点位置分支得到。点c ^o表示三维预测框中心，通过3D检测得到三维预测框中心相对于关键点位置偏移量，从而得到三维预测框中心。点c ^b表示二维预测框中心，通过2D检测得到二维预测框中心相对于关键点位置偏移量，从而得到二维预测框中心。本发明采用KITTI数据集，KITTI数据集的3D目标检测中，目标类型包括汽车，骑车的人，行人三种，即C=3。从输出的特征图提取目标的关键点位置c ^g=(u ^g，v ^g)。另外两个分支，每个分支都包含两个通道，分别输出2D预测框的大小(w ^b，h ^b)和从提取的关键点位置c ^g到2D预测框中心c ^b=(u ^b，v ^b)的偏移向量(δ ^u，δ ^v)，如图(2b)所示。其中u ^g为关键点位置的横坐标，v ^g为关键点位置的纵坐标，w ^b为特征图边界框的宽度，h ^b为特征图边界框的高度，u ^b为特征图边界框中心的横坐标，v ^b为特征图边界框中心的纵坐标。

目标在世界空间中的中心点表示为c ^w=(x，y，z)，其中建立坐标系的方式是以图像平面为xy平面，因此坐标z表示目标中心点的深度，x、y仅表示横纵坐标，没有具体含义。它在特征图中的投影为c ^o=(u，v)，如图2所示。预测目标在世界空间中的中心点c ^w相对于关键点位置c ^g的偏移量为(，)。

本发明的3D检测将目标深度解耦成为目标视觉深度和目标属性深度。目标视觉深度：单目图像的视觉深度具有重要的特性。对于基于单目的系统，视觉深度高度依赖于物体的二维方框尺寸(远处物体在图像上看起来很小，反之亦然)和图像上的位置。目标属性深度：属性深度指的是从可视表面到物体3D中心的深度偏移量，称之为目标属性深度，因为它更可能与对象的内在属性相关。例如，当汽车在3D空间中方向平行于z轴(深度方向)时，汽车尾部的属性深度为汽车的半长。相反，如果方向平行于x轴，则属性深度是汽车的半宽度。可以看到，属性深度取决于目标的方向及其固有属性。如上所述，本发明分别使用两个单独的3D检测头来估计目标视觉深度和目标属性深度。其中3D检测头包括目标三维中心的检测头，偏航角检测头，三维长宽高检测头和深度检测头等。目标深度为目标视觉深度和目标属性深度的和。将目标深度解耦有以下几个优点：(1)深度解耦合理、直观，可以更全面、更精确地表示对象；(2)允许网络对不同类型的深度提取不同类型的特征，便于学习。

假设目标中心点深度为z，相机的固有矩阵K为：

；

上式中：f _x表示使用像素来描述x轴方向焦距的长度，f _y表示使用像素来描述y轴方向焦距的长度，a _x表示主点（光轴与像平面的交点称为相机的主点）的实际位置的x轴坐标，单位为像素，a _y表示主点的实际位置的y轴坐标，单位为像素；

则目标在世界空间中的中心点表示为：

；

上式中：表示目标在世界空间中的中心点c ^w相对于关键点位置c ^g的横坐标偏移量，表示目标在世界空间中的中心点c ^w相对于关键点位置c ^g的纵坐标偏移量，z表示目标中心点深度；

3D检测头的三维长宽高预测分支直接回归出三维预测框的长宽高，单位为米，长宽高的大小(w×h×l)。

如图(2c)所示，要预测出目标的偏航角α，可以先归出相机坐标系中的全局方向β，然后计算出目标与相机视角的相对旋转角γ=arctan(x/z)，x、z即为目标三维中心采用目标在世界空间中的中心点c ^w=(x，y，z)中的x、z，最后可以计算出目标的偏航角α=β+γ。

除了常规的2D检测头和3D检测头外，本发明还提出了一种新的回归目标，即预测相邻目标的空间约束。相邻目标的空间约束策略如图3所示。对于任意成对的目标，通过设置其二维边界框中心的距离作为直径来定义范围圆。如果范围圆内包含其他目标中心，则忽略该对。图4显示了包含所有有效目标对的示例图。

给定选定的一对目标，它们在世界空间中的三维中心分别为=(x _i，y _i，z _i)和=(x _j，y _j，z _j)，它们在特征图上的2D预测框中心分别为和，其中、为目标i在特征图上二维边界框的横坐标和纵坐标，、为目标j在特征图上二维边界框的横坐标和纵坐标。相邻目标的空间约束的回归目标是这两个目标的三维距离。首先在三维空间中定位中点。然后，取视点方向为Z轴，为原点，用左手系建立局部坐标系，相邻目标和的三维绝对距离为，其中为相邻目标的横坐标差的绝对值，为相邻目标的纵坐标差的绝对值，为相邻目标的Z坐标差的绝对值，图(5b)所示为回归目标。

训练过程中，可以很容易地从训练数据中通过真实3D目标中心得到，=，其中为相机坐标系到局部坐标系的旋转矩阵，为成对目标的中点的视点方向，即Z轴的方向，=arctan(/)，为相机坐标系下两目标的距离向量，可由两个目标在相机坐标系中的三维中心作差得到，。

如图6所示，相机坐标系中的相邻目标间三维距离k ^w在不同视角下是不变的。而局部坐标系下的相邻目标间三维距离k ^v会随着视角的变化而变化，所以局部坐标系下的相邻目标间三维距离k ^v更有意义。

在推理过程中，首先预测目标的二维位置，然后寻找距离目标二维边界框中心最近的相邻目标，并预测两相邻目标间在局部坐标系下的三维距离k ^v。

本发明还从图的角度提出了一种3D预测框空间优化方法。假设在一张图中，网络输出有N个目标，其中有M对相邻目标之间的空间约束，将其视为一个顶点数为N，边数为M的图。每个顶点可以连接多个相邻顶点。未被其他顶点连接的目标不需要优化。采用非线性最小二乘法进行3D预测框空间优化。

对于连接顶点C _i和顶点C _j的相邻目标之间的空间约束，存在三个误差项来衡量网络估计的三维距离和两个连接顶点C _i和C _j的三维位置和之间的距离的不一致性。因此，误差项是和沿着三个轴的绝对差，其表达式如下：

=；

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：包括以下步骤：

S1：将图片输入Smoke主干网络中得到特征图；

2.根据权利要求1所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：步骤S1中的Smoke主干网络采用改进的DLA-34网络，改进部分为将传统DLA-34网络中所有的层级聚合连接都替换成了可变形卷积连接，输出的特征图相对于原始图进行了4倍的下采样，所有的批归一化操作替换为分组归一化操作。

3.根据权利要求1或2所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：步骤S2中2D检测模块采用CenterNet网络，具有三个输出分支，分别为：

目标尺寸分支：输出二维预测框的长宽；

目标中心分支：输出二维预测框的中心位置和目标关键点位置的偏移向量。

4.根据权利要求3所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：步骤S2中的3D检测通过两个3D检测头分别检测目标视觉深度和目标属性深度，最终得到的目标深度为目标视觉深度和目标属性深度的和。

5.根据权利要求4所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：目标三维中心采用目标在世界空间中的中心点c ^w=(x，y，z)，其中建立坐标系的方式是以图像平面为xy平面，因此坐标z表示目标中心点的深度，x、y仅表示横纵坐标，其在特征图中的投影为c ^o=(u，v)，预测目标在世界空间中的中心点c ^w相对于关键点位置c ^g的偏移量为( ，)，设相机的固有矩阵为K为：

；

则目标在世界空间中的中心点表示为：

；

6.根据权利要求4所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：3D检测中的目标偏航角α=β+γ，其中β为相机坐标系中的全局方向，γ为目标与相机视角的相对旋转角，γ=arctan(x/z)；

3D检测中的目标三维长宽高直接以米为单位回归得到。

7.根据权利要求4所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：相邻目标的空间约束是通过设置其二维边界框中心的距离作为直径来定义范围圆，如果范围圆内包含其他目标中心，则忽略其他目标中心；

8.根据权利要求7所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：相邻目标的空间约束的回归目标的实现步骤如下：

首先在三维空间中定位中点；

然后，取视点方向即相机的拍摄方向为Z轴，为原点，用左手系建立局部坐标系，相邻目标和的三维绝对距离为，其中为相邻目标的横坐标差的绝对值，为相邻目标的纵坐标差的绝对值，为相邻目标的Z坐标差的绝对值，且选取局部坐标系下的相邻目标间三维距离作为预测的相邻目标三维的空间约束，其中局部坐标系指以相机位置到相邻目标连线的中点为z轴，其垂线为x轴。

9.根据权利要求8所述的一种基于相邻目标之间空间关系的单目三维检测方法，其特征在于：步骤S3中采用非线性最小二乘法进行3D预测框空间优化，具体步骤如下：

=；

10.一种基于相邻目标之间空间关系的单目三维检测装置，包括处理器和存储器，其特征在于：所述存储器中存储有如权利要求1-9任一项所述的基于相邻目标之间空间关系的单目三维检测方法的计算机程序，所述处理器用于执行上述计算机程序。