CN112258631B

CN112258631B - 一种基于深度神经网络的三维目标检测方法及系统

Info

Publication number: CN112258631B
Application number: CN202011123745.9A
Authority: CN
Inventors: 沈金荣; 赵鸣晖; 彭娟
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2023-12-08
Anticipated expiration: 2040-10-20
Also published as: CN112258631A

Abstract

本发明公开了三维目标检测技术领域的一种基于深度神经网络的三维目标检测方法及系统，具有目标检测准确，神经网络层数少，计算量小，对硬件要求低，通用性和实时性强等特点。包括：获取目标物体所处环境的彩色图像和点云信息；采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，分别获取目标物体在彩色图像上的2D边界框与3D边界框；将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；根据目标物体在图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息。

Description

一种基于深度神经网络的三维目标检测方法及系统

技术领域

本发明属于三维目标检测技术领域，具体涉及一种基于深度神经网络的三维目标检测方法及系统。

背景技术

随着深度学习理论的发展，已被广泛应用于目标识别、人脸识别、运动目标检测与风格迁移等各个领域中，然而，随着网络的不断加深，神经网络功能越来越强大，但其对硬件的要求也越来越高，尤其是三维目标检测领域。复杂的深度神经网络会大大增加所需成本，而且很多场合还需要满足实时性要求，这是三维目标检测应用中的一大难题。

发明内容

为解决现有技术中的不足，本发明提供一种基于深度神经网络的三维目标检测方法及系统，具有目标检测准确，神经网络层数少，计算量小，对硬件要求低，通用性和实时性强等特点。

为达到上述目的，本发明所采用的技术方案是：一种基于深度神经网络的三维目标检测方法，包括：a、获取目标物体所处环境的彩色图像和点云信息；b、采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；c、将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；d、根据目标物体在彩色图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；e、根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息。

进一步地，在所述步骤a中，通过RGB彩色相机获取目标物体所处环境的彩色图像，通过深度相机或激光雷达获取目标物体的点云信息。

进一步地，在所述步骤c中，通过将深度相机或激光雷达与RGB彩色相机进行标定，从而将点云信息映射到彩色图像的图像坐标系下。

进一步地，在所述步骤b中，深度神经网络YOLOv2的输出维度为：

S₁×S₁×(N₁×(4+1+C₁)) (1)

其中，S₁是划分的单元格数量，N₁为瞄框数量，4为彩色图像中心点坐标与边界框长宽的参数数量，1为深度神经网络YOLOv2的置信度的参数数量，C₁为深度神经网络YOLOv2中各个类别的概率的参数数量；

深度神经网络YOLO6D采用YOLOv2的框架结构，其输出维度为：

S₂×S₂×(9×2+1+C₂) (2)

其中，S₂是划分的单元格数量，9代表的是3D边界框的8个顶点与1个中心点的参数数量，1为深度神经网络YOLO6D的置信度的参数数量，C₂为深度神经网络YOLO6D中各个类别的概率的参数数量。

进一步地，在所述步骤d中，将点云信息在彩色图像中的坐标信息与深度神经网络YOLO6D输出的3D边界框进行比较，若点云信息在彩色图像中的坐标信息在3D边界框的内部，则说明该点云属于目标物体，从而直接提取彩色图像中框选目标物体的3D边界框的深度信息；将点云信息在彩色图像中的坐标信息与2D边界框的各个顶点及中心比对，将包含在2D边界框的深度信息平均求和，获取各个顶点及中心的深度信息，即为2D边界框的深度信息。

进一步地，在所述步骤e中，若点云信息为三维，利用3D边界框的深度信息，直接根据3D边界框分割三维点云信息；若点云信息为二维，利用2D边界框的深度信息，将2D边界框转化为三维点云，从而获取目标物体的类别、大小与位姿信息。

一种基于深度神经网络的三维目标检测系统，包括：第一模块，用于获取目标物体所处环境的彩色图像和点云信息；第二模块，用于采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；第三模块，用于将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；第四模块，用于根据目标物体在图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；第五模块，用于根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息。

与现有技术相比，本发明所达到的有益效果：本发明通过采用RGB相机获取目标物体所处环境的彩色图像，输入深度神经网络获得目标物体在二维图像上的位置或姿态，其后通过深度相机或激光雷达获取目标物体的点云信息，基于传统的相机标定原理，合成三维点云，从而获取目标物体的类别、大小与位姿信息；该策略主要采用深度神经网络与坐标转换算法，对各类场景具有很好的适应性，且采用神经网络网络层数较少，计算量小，对硬件要求较低，从而具有较好的通用性与实时性。

附图说明

图1是本发明实施例提供的一种基于深度神经网络的三维目标检测方法的流程示意图；

图2是深度神经网络YOLOv2的框架结构示意图；

图3是深度神经网络YOLO6D基于YOLOv2框架的输出卷积层示意图；

图4是相机标定原理示意图；

图5是本发明实施例中，深度神经网络YOLOv2的识别结果图；

图6是本发明实施例中，深度神经网络YOLO6D的识别结果图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，一种基于深度神经网络的三维目标检测方法，包括：a、获取目标物体所处环境的彩色图像和点云信息；b、采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；c、将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；d、根据目标物体在彩色图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；e、根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息。

1)获取目标物体所处环境的彩色图像和点云信息；通过RGB彩色相机获取目标物体所处环境的彩色图像，通过深度相机或激光雷达获取目标物体的点云信息，点云信息可以是三维或二维。

2)采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；YOLOv2整体网络框架如图2，输出维度为

S₁×S₁×(N₁×(4+1+C₁)) (1)

其中，S₁是划分的单元格数量，N₁为瞄框数量，4为彩色图像中心点坐标与边界框长宽的参数数量，即有四个参数，分别是中心点x，y，长和宽，1为深度神经网络YOLOv2的置信度的参数数量，即有一个参数为置信度，C₁为深度神经网络YOLOv2中各个类别的概率的参数数量。

如图5所示，采用深度神经网络YOLOv2对随机选取的图片进行识别，可以看出网络可以准确得出目标物体的类别和二维边界框。

深度神经网络YOLO6D采用YOLOv2的框架结构，如图2所示，但置信度计算公式与输出矩阵维度有所改动，输出矩阵维度卷积层如图3所示，网络输入也是2D彩色图像，但输出的维度变为：

S₂×S₂×(9×2+1+C₂) (2)

如图6所示，采用YOLO6D对给定图片进行识别，较准确地得出了物体的三维边界框。

3)将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；将深度相机或激光雷达与RGB彩色相机进行标定，从而将点云信息映射到彩色图像的图像坐标系下。

4)根据目标物体在图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；将转换后点云信息在彩色图像中的坐标信息与深度神经网络YOLO6D输出的3D边界框进行比较，若点云信息在彩色图像中的坐标信息在3D边界框的内部，则说明该点云属于目标物体，从而直接提取彩色图像中框选目标物体的3D边界框的深度信息，进而得到目标物体的三维信息；将点云信息在彩色图像中的坐标信息与2D边界框的各个顶点及中心比对，将包含在2D边界框的深度信息平均求和，从而近似获取各个顶点及中心的深度信息，即为2D边界框的深度信息，根据该深度信息，可以获取2D边界框的三维坐标，从而得到目标物体的三维信息。

5)根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息，具体为：

若点云信息为三维，利用3D边界框的深度信息，直接根据3D边界框分割三维点云信息；

若点云信息为二维，利用2D边界框的深度信息，将2D边界框转化为三维点云，从而获取目标物体的类别、大小与位姿信息；

如图4所示，根据相机标定原理，合成3D边界框的三维点云。设点m在图像坐标系下的坐标为(u_m,v_m)，在地面坐标系下的坐标为(x_M,y_M,z_M)，根据相机标定原理，可得其转换关系为：

式中，u₀为彩色图像的中心的x轴坐标，v₀为彩色图像的中心的y轴坐标，z_c为目标到相机的距离，R为外参矩阵的3×3旋转矩阵，T为3×1平移矩阵，f为相机焦距，dx为x方向上的像元尺寸，dy为y方向上的像元尺寸。

本实施例结合深度神经网络和相机标定原理，利用简易的坐标转换算法获取三维目标的类别、大小与位姿信息，对各类场景具有一定适应性，且采用神经网络层数较少，计算量不大，对硬件要求较低，从而具有较好的通用性与实时性。

实施例二：

基于实施例一所述的基于深度神经网络的三维目标检测方法，本实施例提供一种基于深度神经网络的三维目标检测系统，包括：

第一模块，用于获取目标物体所处环境的彩色图像和点云信息；

第二模块，用于采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；

第三模块，用于将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；

第四模块，用于根据目标物体在图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；

第五模块，用于根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的三维目标检测方法，其特征是，包括：

a、获取目标物体所处环境的彩色图像和点云信息；

b、采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；其中，深度神经网络YOLOv2的输出维度为：

S₁×S₁×(N₁×(4+1+C₁))(1)

深度神经网络YOLO6D采用YOLOv2的框架结构，其输出维度为：

S₂×S₂×(9×2+1+C₂)(2)

其中，S₂是划分的单元格数量，9代表的是3D边界框的8个顶点与1个中心点的参数数量，1为深度神经网络YOLO6D的置信度的参数数量，C₂为深度神经网络YOLO6D中各个类别的概率的参数数量；

c、将点云信息映射到彩色图像的图像坐标系下，获取点云信息在彩色图像中的坐标信息；

d、根据目标物体在彩色图像上的2D边界框与3D边界框，结合点云信息在彩色图像中的坐标信息，分别获取2D边界框与3D边界框的深度信息；

e、根据2D边界框与3D边界框的深度信息，结合点云信息的维度，获取目标物体的类别、大小和位姿信息。

2.根据权利要求1所述的基于深度神经网络的三维目标检测方法，其特征是，在所述步骤a中，通过RGB彩色相机获取目标物体所处环境的彩色图像，通过深度相机或激光雷达获取目标物体的点云信息。

3.根据权利要求2所述的基于深度神经网络的三维目标检测方法，其特征是，在所述步骤c中，通过将深度相机或激光雷达与RGB彩色相机进行标定，从而将点云信息映射到彩色图像的图像坐标系下。

4.根据权利要求1所述的基于深度神经网络的三维目标检测方法，其特征是，在所述步骤d中，将点云信息在彩色图像中的坐标信息与深度神经网络YOLO6D输出的3D边界框进行比较，若点云信息在彩色图像中的坐标信息在3D边界框的内部，则说明该点云属于目标物体，从而直接提取彩色图像中框选目标物体的3D边界框的深度信息；将点云信息在彩色图像中的坐标信息与2D边界框的各个顶点及中心比对，将包含在2D边界框的深度信息平均求和，获取各个顶点及中心的深度信息，即为2D边界框的深度信息。

5.根据权利要求1所述的基于深度神经网络的三维目标检测方法，其特征是，在所述步骤e中，若点云信息为三维，利用3D边界框的深度信息，直接根据3D边界框分割三维点云信息；若点云信息为二维，利用2D边界框的深度信息，将2D边界框转化为三维点云，从而获取目标物体的类别、大小与位姿信息。

6.一种基于深度神经网络的三维目标检测系统，其特征是，包括：

第二模块，用于采用深度神经网络YOLO6D与YOLOv2对彩色图像进行联合检测，框选目标物体，分别获取目标物体在彩色图像上的2D边界框与3D边界框；其中，深度神经网络YOLOv2的输出维度为：

S₁×S₁×(N₁×(4+1+C₁))(1)

深度神经网络YOLO6D采用YOLOv2的框架结构，其输出维度为：

S₂×S₂×(9×2+1+C₂)(2)