CN117218364A

CN117218364A - 三维目标检测方法、电子设备及存储介质

Info

Publication number: CN117218364A
Application number: CN202210613590.XA
Authority: CN
Inventors: 李洁; 卢志德; 郭锦斌
Original assignee: Hon Hai Precision Industry Co Ltd
Current assignee: Hon Hai Precision Industry Co Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-12-12
Also published as: US20230386231A1

Abstract

本申请提供一种三维目标检测方法、电子设备及存储介质。所述方法包括：获取检测图像及检测图像对应的深度图像；将检测图像输入至训练完成的目标检测模型，确定检测图像中物体的物体类别及物体的二维边线框；根据物体类别，从三维物体模型库中确定物件模型及三维边线框；根据深度图像及二维边线框，计算点云数据及深度相机到物件模型的距离；根据物件模型与点云数据，确定物件模型的旋转角度；根据深度相机到物件模型的距离、旋转角度及三维边线框，确定物件模型在三维空间中的位置。本申请能够快速确定物体在三维空间中的位置。

Description

三维目标检测方法、电子设备及存储介质

技术领域

本申请涉及计算机视觉和深度学习技术、尤其涉及一种三维目标检测方法、电子设备及存储介质。

背景技术

在自动驾驶领域中，自动驾驶系统会利用不同种类的传感器检测车辆前方或附近的物体，做出对应的决策。因此自动驾驶系统需要快速精准的检测出物体的类别及位置，才能确保行车安全。目前多数三维目标检测算法为检测出物体的类别，需要大量的标注样本，对物体的旋转角度标注困难且需要使用回归运算，在预测上需要花费很长的时间。此外，目前多数三维目标检测算法还需要准确的检测车辆与前方物体的距离，目前多数作法是利用光达或者雷达取得深度信息，但目前使用光达或者雷达的成本高昂、视场范围比较小。

发明内容

鉴于以上内容，有必要提供一种三维目标检测方法、电子设备及存储介质，能够解决旋转角度标注困难问题及检测成本过高的问题。

本申请实施例提供一种三维目标检测方法，所述三维目标检测方法包括：获取检测图像及所述检测图像对应的深度图像，其中，所述深度图像通过深度相机获取；将所述检测图像输入至训练完成的目标检测模型，利用所述目标检测模型确定所述检测图像中物体的物体类别及物体的二维边线框；根据所述物体类别，从三维物体模型库中确定与所述物体对应的物件模型及与所述物件模型对应的三维边线框；根据所述深度图像及所述二维边线框，计算所述二维边线框所框选的物体的点云数据及所述深度相机到所述物件模型的距离；根据所述物件模型与所述点云数据，确定所述物件模型的旋转角度；根据所述深度相机到所述物件模型的距离、所述旋转角度及所述三维边线框，确定所述物件模型在三维空间中的位置。

在一种可选的实施方式中，所述根据所述深度图像及所述二维边线框，计算所述二维边线框所框选的物体的点云数据及所述深度相机到所述物件模型的距离包括：根据所述深度图像获取所述二维边线框所框选的物体的深度值及坐标，根据所述深度值确定所述深度相机到所述物体的物件模型的距离；根据所述坐标和所述深度相机的内外参矩阵变换公式得到所述点云数据。

在一种可选的实施方式中，所述根据所述物件模型与所述点云数据，确定所述物件模型的旋转角度包括：根据所述点云数据，得到所述物体轮廓的第一点云数据；将所述物件模型转化为第二点云数据；将所述第一点云数据与所述第二点云数据进行点云匹配，得到所述物件模型的旋转角度。

在一种可选的实施方式中，所述方法还包括：获取训练图像；基于You Only LookOnce(YOLO)网络构建目标检测模型；将所述训练图像输入所述目标检测模型进行训练，通过所述目标检测模型进行卷积和均值池化交替处理后得到所述训练图像的特征值数据；利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中物体的二维边线框和物体类别，通过调整所述目标检测模型的参数，以最小化损失函数，得到所述训练完成的目标检测模型。

在一种可选的实施方式中，所述利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中物体的二维边线框和物体类别包括：利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中的物体的多个候选二维边线框，将所述多个候选二维边线框进行非极大值抑制运算，得到所述训练图像中的物体的二维边线框和物体类别。

在一种可选的实施方式中，所述方法还包括：建立所述三维物体模型库，其中，所述三维物体模型库包括与不同物体类别对应的多个物件模型及与每个物件模型对应的三维边线框，所述三维边线框包括每个物体类别对应的长、宽、高。

在一种可选的实施方式中，所述根据所述深度相机到所述物件模型的距离、所述旋转角度及所述三维边线框，确定所述物件模型在三维空间中的位置包括：根据所述旋转角度确定所述物件模型在所述三维空间中的方向；根据所述物件模型在所述三维空间中的方向、所述深度相机到所述物件模型的距离及所述物件模型的三维边线框，确定所述物件模型在三维空间中的位置。

在一种可选的实施方式中，所述方法还包括：将所述物件模型在三维空间中的位置作为所述物体在三维空间中的位置，输出所述物体类别及所述物体在三维空间中的位置。

本申请实施例还提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现所述的三维目标检测方法。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现所述的三维目标检测方法。

通过利用本申请各实施例提供的技术方案，不需进行复杂的运算且无需对物体的旋转角度进行标注，减少了人力成本且能快速地得到物体的三维位置。

附图说明

图1为本申请实施例提供的一种三维目标检测方法的流程图。

图2为本申请实施例提供的非极大值抑制方法流程图。

图3为本申请实施例提供的确定三维边线框示意图。

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的一些实施例的描述中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请的一些实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

参阅图1所示，图1为本申请实施例提供的一种三维目标检测方法的流程图。所述方法应用于电子设备(例如，图4所示的电子设备4)中，所述电子设备可以是任何一种可与用户进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet ProtocolTelevision，IPTV)、智能式穿戴式设备等。

所述电子设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括，但不限于：微处理器、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字信号处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述电子设备所处的网络包括，但不限于：互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network，VPN)等。

所述方法具体包括如下步骤。

101，获取检测图像及与所述检测图像对应的深度图像。

在本申请的至少一个实施例中，利用安装在车辆内部或外部的摄像头进行拍摄，将拍摄到的车辆前方的图像作为检测图像。

在本申请的至少一个实施例中，获取与所述检测图像对应的深度图像包括：使用深度相机获取深度图像，利用安装在车辆上的深度相机拍摄车辆前方的图像作为深度图像。需要说明的是，当利用安装在车辆内部或者外部的摄像头拍摄车辆前方的图像作为检测图像时，所述深度相机同时拍摄车辆前方图像作为深度图像，所述深度图像与所述检测图像对应。例如，利用不同类型的摄像头针对车辆前方的同一对象分别进行拍摄以得到检测图像与深度图像。

本申请实施例中，所述三维目标检测方法的应用场景包括，车辆自动驾驶领域。在车辆行驶的过程中，应用所述三维目标检测方法，实现对车辆前方的物体的三维检测。

102，将所述检测图像输入至训练完成的目标检测模型，利用所述目标检测模型确定所述检测图像中的物体的物体类别及所述物体的二维边线框。

在本申请的至少一个实施例中，所述训练完成的目标检测模型包括：基于YouOnly Look Once(YOLO)网络构建目标检测模型，所述YOLO网络包括YOLOv3网络或者YOLOv5网络。

在本申请的至少一个实施例中，训练目标检测模型得到所述训练完成的目标检测模型的方法包括：

获取训练图像；

将所述训练图像输入所述目标检测模型进行训练，通过所述目标检测模型进行卷积和均值池化交替处理后得到所述训练图像的特征值数据；

利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中物体的二维边线框和物体类别，通过调整所述目标检测模型的参数，以最小化损失函数，得到所述训练完成的目标检测模型。在本实施例中，所述目标检测模型的参数包括，但不限于所述目标检测模型的学习率、迭代次数。在本实施例中，所述目标检测模型的损失函数包括均方差损失函数。

在本申请的至少一个实施例中，所述获取训练图像还包括：对所述训练图像进行数据增强操作，以获取更多不相同的训练样本，所述数据增强操作包括，但不限于翻转图像、旋转图像、缩放图像、裁剪图像。通过所述数据增强操作可以有效扩充样本数据，使用更多不同场景下的训练图像(例如，车辆前方图像)训练并优化所述目标检测模型，使所述目标检测模型更具鲁棒性。

在本申请的至少一个实施例中，所述利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中物体的二维边线框和物体类别包括：

利用所述目标检测模型的全连接层处理所述特征值数据，得到多个候选二维边线框及多个所述候选二维边线框的得分。在本实施例中，所述候选二维边线框的得分包括，全连接层对所述候选二维边线框内的物体类别进行类别预测后的得分，即所述物体类别包含在所述候选二维边线框内的概率的得分。在本实施例中，将多个候选二维边线框进行非极大值抑制运算(Non-Maximum Suppression，NMS)，得到物体的二维边线框和物体类别。

在本实施例中，所述进行非极大值抑制运算(Non-Maximum Suppression，NMS)参考图2所述流程图，具体包括：

21，按照候选二维边线框的得分，对多个候选二维边线框进行排序，选择得分最高的候选二维边线框。所述“候选二维边线框”为训练图像中物体的候选二维边线框。

22，遍历其他候选二维边线框，计算其他候选二维边线框与选择的候选二维边线框之间的交并比(Intersection Over Union，IOU)，删除大于预设阈值的交并比对应的候选二维边线框。在本实施例中，所述交并比为选择的候选二维边线框(即得分最高的)与其他候选二维边线框之间的重叠程度。

23，判断除了所述选择的候选二维边线框之外，是否还存在其他的候选二维边线框。若还存在其他的候选二维边线框，流程返回21。若不存在其他的候选二维边线框，执行24，输出所述选择的候选二维边线框作为所述训练图像中物体的二维边线框。

在本申请的至少一个实施例中，通过上述方法，可以完成对目标检测模型的训练，并得到训练完成的目标检测模型。进一步地，将所述检测图像输入至所述训练完成的目标检测模型，输出所述检测图像中的物体类别及所述二维边线框。

103，根据所述物体类别，从三维物体模型库中确定与所述物体对应的物件模型及与所述物件模型对应的三维边线框。

在本申请的至少一个实施例中，三维目标检测方法还包括：预先建立三维物体模型库，其中，所述三维物体模型库包括与不同物体类别对应的多个物件模型及与每个物件模型对应的三维边线框，每个三维边线框包括物体类别对应的长、宽、高。

在本实施例中，根据所述物体类别查找所述三维物体模型库确定所述物件模型，并根据所述物件模型确定所述物件模型的三维边线框。例如，如图3所示，图3为本申请实施例提供的确定三维边线框示意图。当物体类别为小车时，基于所述三维物体模型库，查找小车的物件模型，根据小车的物件模型，查找小车的三维边线框；当物体类别为小货车时，基于所述三维物体模型库，查找小货车的物件模型，根据小货车的物件模型，查找小货车的三维边线框；当物体类别为电动车时，基于所述三维物体模型库，查找电动车的物件模型，根据电动车的物件模型，查找电动车的三维边线框；当物体类别为大巴车时，基于所述三维物体模型库，查找大巴车的物件模型，根据大巴车的物件模型，查找大巴车的三维边线框。在本实施例中，所述物件模型包括，但不限于三维模型。

104，根据所述深度图像及所述二维边线框，计算所述二维边线框所框选的物体的点云数据及所述深度相机到所述物件模型的距离。

在本申请的至少一个实施例中，确定所述深度相机到所述物件模型的距离的方法包括：

根据所述深度图像获取所述二维边线框所框选的物体的深度值；

根据所述深度值确定所述深度相机到所述物体的物件模型的距离。在本实施例中，所述深度值由深度相机获得，在利用深度相机拍摄得到深度图像时，深度相机显示深度值，所述深度值为所述深度相机到所述物体的距离，在本实施例中，将所述深度相机到所述物体的距离作为所述深度相机到所述物体的物件模型的距离。

在本申请的至少一个实施例中，获取所述点云数据的方法包括：

根据所述深度图像获取所述二维边线框所框选的物体的坐标集；

根据所述坐标集和所述深度相机的内外参矩阵变换公式得到所述点云数据。在本实施例中，所述二维边线框所框选的物体的坐标集为物体的像素坐标集；所述点云数据为所述二维边线框所框选的物体的坐标集中的坐标对应的世界坐标。所述点云数据是用于表征物体轮廓的数据。将所述二维边线框所框选的物体的坐标集中的坐标转化为对应的世界坐标需经过内外参矩阵变换公式得到，所述内外参矩阵变换公式为：

其中(x，y，z)为世界坐标，用于表示一个像素坐标的点云，f为焦距，D为深度值，(x₁，y₁)为所述二维边线框所框选的物体的坐标集中任意一像素点的像素坐标。利用上述公式将所述做坐标集中的所有坐标逐一转化为世界坐标，得到所述点云数据。

105，根据所述物体的物件模型与所述点云数据，确定所述物体的物件模型的旋转角度。

根据所述点云数据，得到所述物体轮廓的第一点云数据；

将所述物体的物件模型转化为第二点云数据；

将所述第一点云数据与所述第二点云数据进行点云匹配，得到所述物体的物件模型的旋转角度。

在本申请的至少一个实施例中，所述将所述物体的物件模型转化为第二点云数据包括，利用点云库(Point Cloud Library，PCL)中的多个函数读取所述物体的物件模型并生成所述物体的物件模型的点云数据作为第二点云数据。

在本申请的至少一个实施例中，将所述第一点云数据与所述第二点云数据进行点云匹配，得到所述物体的物件模型的旋转角度包括：

将所述第一点云数据中物体轮廓的点拟合成第一平面并计算所述第一平面的曲率，将所述第二点云数据的点拟合成第二平面并计算所述第二平面的曲率；计算所述第一平面的曲率与所述第二平面的曲率之差得到曲率偏差值，根据所述曲率偏差值确定所述物体的物件模型的旋转角度。

106，确定物体在三维空间中的位置。

在本申请的至少一个实施例中，根据所述旋转角度确定所述物件模型在所述三维空间中的方向，根据所述物件模型在所述三维空间中的方向、所述深度相机到所述物件模型的距离及所述物件模型的三维边线框，确定所述物件模型在三维空间中的位置。具体地，将所述物件模型在三维空间中的位置作为所述物体在三维空间中的位置，输出所述物体类别及所述物体在三维空间中的位置。例如将所述物体类别及所述物体在三维空间中的位置以三维边线框的方式显示于一显示屏。

以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本申请创造构思的前提下，还可以做出改进，但这些均属于本申请的保护范围。

如图4所示，图4为本申请实施例提供的一种电子设备的结构示意图。所述电子设备4包括存储器401、至少一个处理器402、存储在所述存储器401中并可在所述至少一个处理器402上运行的计算机程序403及至少一条通讯总线404。

本领域技术人员可以理解，图4所示的示意图仅仅是所述电子设备4的示例，并不构成对所述电子设备4的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备4还可以包括输入输出设备、网络接入设备等。

所述至少一个处理器402可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该至少一个处理器402可以是微处理器或者该至少一个处理器402也可以是任何常规的处理器等，所述至少一个处理器402是所述电子设备4的控制中心，利用各种接口和线路连接整个电子设备4的各个部分。

所述存储器401可用于存储所述计算机程序403，所述至少一个处理器402通过运行或执行存储在所述存储器401内的计算机程序403，以及调用存储在存储器401内的数据，实现所述电子设备4的各种功能。所述存储器401可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备4的使用所创建的数据(比如音频数据)等。此外，存储器401可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。

所述电子设备4集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM，Read-Only Memory)。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种三维目标检测方法，其特征在于，所述三维目标检测方法包括：

获取检测图像及所述检测图像对应的深度图像，其中，所述深度图像通过深度相机获取；

将所述检测图像输入至训练完成的目标检测模型，利用所述目标检测模型确定所述检测图像中物体的物体类别及物体的二维边线框；

根据所述物体类别，从三维物体模型库中确定与所述物体对应的物件模型及与所述物件模型对应的三维边线框；

根据所述深度图像及所述二维边线框，计算所述二维边线框所框选的物体的点云数据及所述深度相机到所述物件模型的距离；

根据所述物件模型与所述点云数据，确定所述物件模型的旋转角度；

根据所述深度相机到所述物件模型的距离、所述旋转角度及所述三维边线框，确定所述物件模型在三维空间中的位置。

2.根据权利要求1所述的三维目标检测方法，其特征在于，所述根据所述深度图像及所述二维边线框，计算所述二维边线框所框选的物体的点云数据及所述深度相机到所述物件模型的距离包括：

根据所述深度图像获取所述二维边线框所框选的物体的深度值及坐标，根据所述深度值确定所述深度相机到所述物体的物件模型的距离；

根据所述坐标和所述深度相机的内外参矩阵变换公式得到所述点云数据。

3.根据权利要求1所述的三维目标检测方法，其特征在于，所述根据所述物件模型与所述点云数据，确定所述物件模型的旋转角度包括：

根据所述点云数据，得到所述物体轮廓的第一点云数据；

将所述物件模型转化为第二点云数据；

将所述第一点云数据与所述第二点云数据进行点云匹配，得到所述物件模型的旋转角度。

4.根据权利要求1所述的三维目标检测方法，其特征在于，所述方法还包括：

获取训练图像；

基于You Only Look Once(YOLO)网络构建目标检测模型；

利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中物体的二维边线框和物体类别，通过调整所述目标检测模型的参数，以最小化损失函数，得到所述训练完成的目标检测模型。

5.根据权利要求4所述的三维目标检测方法，其特征在于，所述利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中物体的二维边线框和物体类别包括：

利用所述目标检测模型的全连接层处理所述特征值数据，得到所述训练图像中的物体的多个候选二维边线框，将所述多个候选二维边线框进行非极大值抑制运算，得到所述训练图像中的物体的二维边线框和物体类别。

6.根据权利要求1所述的三维目标检测方法，其特征在于，所述方法还包括：

建立所述三维物体模型库，其中，所述三维物体模型库包括与不同物体类别对应的多个物件模型及与每个物件模型对应的三维边线框，所述三维边线框包括每个物体类别对应的长、宽、高。

7.根据权利要求1所述的三维目标检测方法，其特征在于，所述根据所述深度相机到所述物件模型的距离、所述旋转角度及所述三维边线框，确定所述物件模型在三维空间中的位置包括：

根据所述旋转角度确定所述物件模型在所述三维空间中的方向；

根据所述物件模型在所述三维空间中的方向、所述深度相机到所述物件模型的距离及所述物件模型的三维边线框，确定所述物件模型在三维空间中的位置。

8.根据权利要求7所述的三维目标检测方法，其特征在于，所述方法还包括：

将所述物件模型在三维空间中的位置作为所述物体在三维空间中的位置，输出所述物体类别及所述物体在三维空间中的位置。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至8中任意一项所述的三维目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有至少一个指令，所述至少一个指令被处理器执行时实现如权利要求1至8任意一项所述的三维目标检测方法。