CN110472534A

CN110472534A - 基于rgb-d数据的3d目标检测方法、装置、设备和存储介质

Info

Publication number: CN110472534A
Application number: CN201910698902.XA
Authority: CN
Inventors: 吴杰隆; 张宏怡
Original assignee: Xiamen University of Technology
Current assignee: Xiamen University of Technology
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-19

Abstract

本发明公开了一种基于RGB‑D数据的3D目标检测方法、装置、设备和计算机存储介质，方法包括：获取目标集装箱的RGB‑D数据以及RGB图像，并将所述RGB‑D数据转换为3D点云数据；将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框；将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标；将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别。能够实现对目标集装箱实时的3D目标检测与定位。

Description

基于RGB-D数据的3D目标检测方法、装置、设备和存储介质

技术领域

本发明涉及计算机信息技术领域，具体地涉及一种基于RGB-D数据的3D目标检测方法、装置、设备和存储介质。

背景技术

由于集装箱运输具有速度快、成本低和易于管理的特点，促使现代化集装箱物流不断发展。随着计算机控制技术及机器视觉技术的不断发展，集装箱轮胎吊也朝着机电一体化、智能化、节能、高效的方向发展。目前已经出现了很多用于集装箱智能装卸的方法，例如3D目标检测方法。

但是，发明人在实施本发明的过程中发现，用于集装箱智能装卸的方法存在以下缺陷：1、虽然能够识别到货物，但是不能精准的实时的进行目标货物的定位。2、只是对二维空间的物体进行识别，标注边框，所提供的深度信息存在误差，所得出的边框信息在精确度上也存着很大的不足，精确度也远远不够。

发明内容

本发明目的在于克服现有技术的不足，提供一种基于RGB-D数据的3D目标检测方法、装置、设备和系统，能够实现对目标集装箱实时的3D目标检测与定位。

第一方面，本发明实施例提供了一种基于RGB-D数据的3D目标检测方法，包括：

获取目标集装箱的RGB-D数据以及RGB图像，并将所述RGB-D数据转换为3D点云数据；

将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框；

将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标；

将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别。

优选地，将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框，具体为：

将所述RGB图像输入RPN网络，以获得二维平面下目标集装箱的区域图像；将所述区域图像输入卷积神经网络中，得到目标集装箱的二维边界框。

优选地，将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标，具体为：

通过相机投影矩阵将所述目标集装箱的二维边界框转换成3D视锥体；

将3D视锥体以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标。

优选地，在所述将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标之后，在所述将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别之前，还包括：

将所述点云坐标输入到基于学习的三维对齐网络，预测集装箱的实际中心，以消除偏差。

第二方面，本发明实施例还提供了一种基于RGB-D数据的3D目标检测装置，包括：

转换单元，用于获取目标集装箱的RGB-D数据以及RGB图像，并将所述RGB-D数据转换为3D点云数据；

二维边界框获取单元，用于将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框；

点云坐标获取单元，用于将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标；

提取单元，用于将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别。

优选地，二维边界框获取单元，具体用于：将所述RGB图像输入RPN网络，以获得二维平面下目标集装箱的区域图像；将所述区域图像输入卷积神经网络中，得到目标集装箱的二维边界框。

优选地，点云坐标获取单元，具体用于：通过相机投影矩阵将所述目标集装箱的二维边界框转换成3D视锥体；将3D视锥体以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标。

优选地，还用于：

第三方面，本发明实施例还提供了一种基于RGB-D数据的3D目标检测设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如第一方面所述的基于RGB-D数据的3D目标检测方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面所述的基于RGB-D数据的3D目标检测方法。

实施本发明实施例，具有如下有益技术效果：

本申请通过将RGB-D数据转为点云数据，与RGB数据结合，采用二维卷积神经网络、三维实例分割网络与3D物体边界框估计网络，来提取目标物体的空间位置和姿态信息，最终实现对目标集装箱的融合感知与识别。能够对集装箱进行实时的刚精度的自动识别、定位，能够大大提高港口工作效率。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明第一实施例提供的一种基于RGB-D数据的3D目标检测方法的流程示意图。

图2为本发明第二实施例提供的一种基于RGB-D数据的3D目标检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

实施例一：

请参阅图1，本发明第一实施例提供了基于RGB-D数据的3D目标检测方法，其可由基于RGB-D数据的3D目标检测设备来执行，特别的，由基于RGB-D数据的3D目标检测设备内的一个或多个处理器来执行，并至少包括如下步骤：

S10，获取目标集装箱的RGB-D数据以及RGB图像，并将所述RGB-D数据转换为3D点云数据。

在本实施例中，通过收集目标集装箱在不同场景下的RGB-D数据和RGB图像数据，然后在数据中将每个目标集装箱的位置信息以及类别标签信息都标注出来，然后将RGB-D数据转换为3D点云数据，以方便使用3D工具处理这些点云数据。

S20，将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框。

在本实施例中，将所述RGB图像输入RPN网络，以获得二维平面下目标集装箱的区域图像；将所述区域图像输入卷积神经网络中，得到目标集装箱的二维边界框。所述区域图像也可以叫做候选区域。比如一张图片中有一辆车，要想检测这辆车在图片中的位置，需要把图片的每一位置都检测一遍。而候选区域即告知车大体所在的区域(或者给出车所在的几个区域)，能够节省消耗的时间，提高效率。

S30，将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标。

利用采用双目摄象机采取的RGB-D数据，由双目相机的摄像头投影矩阵、摄像头的内参矩阵、摄像头的外参矩阵，根据相应的公式关系，可以将二维集装箱边界框转换为3D视锥体。具体地，通过将23D边界框提升到视锥(具有由深度传感器范围指定的近和远平面)，也就是其定义对象的3D搜索空间。然后收集视锥内的所有点云以形成视锥点云。因为视锥可以朝向许多不同的方向，这导致点云的放置的大的变化。因此，通过将截头体朝向中心视图旋转来使截头锥体归一化，使得截头锥体的中心轴线与像平面正交。此归一化有助于改善算法的旋转不变性。将此整个过程称为从RGB-D数据平截头提议生成中提取视锥点云。

其中，基于3D实例分割，能够实现基于残差的3D定位。也就是说，不是回归物体的绝对3D位置，其偏离传感器的偏差可能在很大的范围内变化。实例分割网络在视锥中采用点云并且预测每个点的概率分数，其指示该点属于感兴趣对象的可能性。请注意，每个视锥体都包含一个感兴趣的对象。这些“其他”点可以是非相关区域(例如地面，植被)或其他遮挡或位于感兴趣对象后面的点。类似于2D实例分割中的情况，取决于视锥的位置，一个视锥中的对象点可能变得混乱或者遮挡另一个视锥中的点。

需要说明的是，利用2D检测器的语义来实现更好的实例分割。例如，如果知道感兴趣的对象是集装箱，那么分割网络可以在找到看起来像集装箱的几何形状之前使用它。具体来说，在的体系结构中，将语义类别编码为单热类向量(预定义k类的k维)，并将单热矢量连接到中间点云特征。在3D实例分割之后，提取被分类为感兴趣对象的点。获得这些分割的对象点之后，进一步标准化其坐标以增强算法的平移不变性，遵循与截锥体提议步骤中相同的基本原理。在的实现中，通过按质心减去XYZ值，将点云转换为局部坐标。请注意，故意不对点云进行缩放，因为部分点云的边界球大小可能会受到视点的极大影响，并且点云的实际大小有助于框大小估计。

S40，将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别。

对于给定3D对象坐标中的对象点云的对象，边界框估计网络预测物体的边界框(对于整个对象，即使其中一部分是看不见的，也能够全部正确的预测出来)。网络体系结构类似于对象分类，但输出不再是对象类分数，而是3D边界框的参数，方便获取集装箱的3D位置，用于其他操作。

通过其中心(cx，cy，cz)，尺寸(h，w，l)和航向角θ(沿着上轴)来参数化3D边界框。采用“残差”方法进行边界框中心估计。由边界框估计网络预测的中心残差与来自三维对齐网络和掩蔽点的质心的先前中心残差组合以恢复绝对中心(等式1)。对于箱子大小和航向角度，并使用分类和回归公式的混合。具体来说，预先定义了NS尺寸模板和NH等分割角度箱的模型将尺寸/航向(尺寸的NS分数，航向的NH分数)分类为预定义的类别，并预测每个类别的残差数量(3×NS残余尺寸的高度，宽度，长度，NH残余角度)用于标题)。最后，净输出总共为3+4×NS+2×NH。

综上，通过将RGB-D数据转为点云数据，与RGB数据结合，采用二维卷积神经网络、三维实例分割网络与3D物体边界框估计网络，来提取目标物体的空间位置和姿态信息，最终实现对目标集装箱的融合感知与识别。能够对集装箱进行实时的刚精度的自动识别、定位，能够大大提高港口工作效率。

在上述实施例的基础上，本发明一优选实施例中，将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标，具体为：

在上述实施例的基础上，本发明一优选实施例中，在所述将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标之后，在所述将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别之前，还包括：

将所述点云坐标输入到基于学习的三维对齐网络，预测集装箱的实际中心，以消除偏差。具体地，基于学习的三维对齐网络的架构和训练可以被认为是一种特殊类型的空间变换器网络(STN)。然而，与原始STN不同，它没有直接监督变换，只是预测从掩模坐标原点到真实对象中心的中心残差。

本发明第二实施：

参见图2，本发明第二实施例还提供了一种基于RGB-D数据的3D目标检测装置，包括：

转换单元100，用于获取目标集装箱的RGB-D数据以及RGB图像，并将所述RGB-D数据转换为3D点云数据；

二维边界框获取单元200，用于将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框；

点云坐标获取单元300，用于将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标；

提取单元400，用于将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别。

在上述实施例的基础上，本发明一优选实施例中，二维边界框获取单元，具体用于：将所述RGB图像输入RPN网络，以获得二维平面下目标集装箱的区域图像；将所述区域图像输入卷积神经网络中，得到目标集装箱的二维边界框。

在上述实施例的基础上，本发明一优选实施例中，点云坐标获取单元，具体用于：通过相机投影矩阵将所述目标集装箱的二维边界框转换成3D视锥体；将3D视锥体以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标。

在上述实施例的基础上，本发明一优选实施例中，还用于：

本发明实施例还提供了一种基于RGB-D数据的3D目标检测设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的基于RGB-D数据的3D目标检测方法。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述实施例所述的基于RGB-D数据的3D目标检测方法。

示例性地，本发明实施例所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现基于RGB-D数据的3D目标检测方法的执行过程。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(3Digital Signal Processor，3DSP)、专用集成电路(Application Specific Integrate3D Circuit，ASIC)、现成可编程门阵列(Fiel3D-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现基于RGB-D数据的3D目标检测系统的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Me3Dia Car3D,SMC)，安全数字(Secure 3Digital,S3D)卡，闪存卡(Flash Car3D)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本系统包含两个数据库。数据存储数据库，是服务器群进行存储调用信息的载体，存储数据包括导入的原始数据、清洗后的整理数据、模型数据、报表数据、评级结果数据等内容；CRM数据库主要存储受评客户评级结果展示信息，为客户关系管理的统一存储数据库。

其中，所述实现一种基于RGB-D数据的3D目标检测系统的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Rea3D-Only Memory)、随机存取存储器(RAM，Ran3Dom Access Memory)、电载波信号、GPU、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于RGB-D数据的3D目标检测方法，其特征在于，包括：

2.根据权利要求1所述的基于RGB-D数据的3D目标检测方法，其特征在于，将所述RGB图像输入神经网络中，以获得目标集装箱的二维边界框，具体为：

将所述RGB图像输入RPN网络，以获得二维平面下目标集装箱的区域图像；

将所述区域图像输入卷积神经网络中，得到目标集装箱的二维边界框。

3.根据权利要求1所述的基于RGB-D数据的3D目标检测方法，其特征在于，将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标，具体为：

4.根据权利要求1所述的基于RGB-D数据的3D目标检测方法，其特征在于，在所述将所述目标集装箱的二维边界框以及3D点云数据输入3D实例分割网络，以获得目标集装箱的点云坐标之后，在所述将所述点云坐标输入至3D边界框估计网络中，以提取所述目标集装箱空间位置和姿态信息，以实现对所述目标集装箱的融合感知与识别之前，还包括：

5.一种基于RGB-D数据的3D目标检测装置，其特征在于，包括：

6.根据权利要求5所述的基于RGB-D数据的3D目标检测装置，其特征在于，二维边界框获取单元，具体用于：

7.一种基于RGB-D数据的3D目标检测设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1至4任意一项所述的基于RGB-D数据的3D目标检测方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4任意一项所述的基于RGB-D数据的3D目标检测方法。