CN113553943B

CN113553943B - 目标实时检测方法以及装置、存储介质、电子装置

Info

Publication number: CN113553943B
Application number: CN202110821832.XA
Authority: CN
Inventors: 李玉洁; 杨朔; 郑禹超; 陆慧敏
Original assignee: Jiangsu Gongzhi Automation Technology Co ltd
Current assignee: Jiangsu Gongzhi Automation Technology Co ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2024-04-30
Anticipated expiration: 2041-07-19
Also published as: CN113553943A

Abstract

本申请公开了一种目标实时检测方法以及装置、存储介质、电子装置。该方法包括基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；根据所述目标检测模型，实时检测出目标的姿态位置信息。本申请解决了智能机器人的目标检测能力不足的技术问题。通过本申请实现了机器人对目标的位置与位姿的准确预测，并且可应用到多个不同的机器人上。

Description

目标实时检测方法以及装置、存储介质、电子装置

技术领域

本申请涉及计算机视觉、智能机器人领域，具体而言，涉及一种目标实时检测方法以及装置、存储介质、电子装置。

背景技术

随着计算机技术的快速发展，智能机器人被研究和使用在各个领域来取代人工操作。由于智能机器人可以重复劳动不需要休息，且有着更为精确和强大的计算能力，在工厂和生产间中往往可以替代人类，完成一些困难和高强度的操作。

然而，智能机器人由于对于目标检测的能力不足，从而无法控制智能机器人较好地执行识别、抓取、避障等操作。

针对相关技术中智能机器人的目标检测能力不足的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种目标实时检测方法以及装置、存储介质、电子装置，以解决智能机器人的目标检测能力不足的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种目标实时检测方法。

根据本申请的目标实时检测方法包括：基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；根据所述目标检测模型，实时检测出目标的姿态位置信息。

进一步地，所述姿态位置信息包括：目标的姿态信息预测结果和目标的位置信息预测结果，根据所述在预先训练的目标检测模型中保存的目标检测网络的权重参数、所述姿态信息预测结果以及所述位置信息预测结果，确定出所述姿态位置信息。

进一步地，所述目标至少包括物品，并基于所述实时检测出所述物品的姿态位置信息，控制机器人操作系统执行预设操作。

进一步地，所述预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置，包括：全局特征描述部分、姿态估计部分以及位姿估计部分，所述全局特征描述部分接收所述下采样数据，通过特征提取得到全局特征；将所述全局特征分别作为所述姿态估计部分以及所述位姿估计部分的输入；在所述姿态估计部分中，采用全连接层预测所述物品的姿态；在所述位姿估计部分中，采用全连接层预测所述物品的位置；基于预设矩阵描述所述姿态和所述位置；其中，所述全局特征描述部分，用于基于卷积神经网络完成目标特征采样；所述姿态估计部分，用于基于全连接神经网络和网络激活函数，输出第一维度的旋转矩阵，并对目标的角度进行描述；所述位姿估计部分，用于基于全连接神经网络和网络激活函数，输出第二维度的目标中心位置，并对所述目标所处位置进行描述。

进一步地，所述预先训练的目标检测模型还包括：离线训练部分以及在线检测部分，基于所述离线训练部分，用于构造训练所需要的物品数据，并且在离线训练过程中保存经过训练后的网络权重，用以作为在线检测部分的基础参数；基于所述在线检测部分，用于通过离线训练得到的预测网络模型，完成对目标位置和姿态的预测。

进一步地，所述离线训练部分还包括：将经过采样后的稀疏点云输入待训练的目标检测模型中进行训练，将训练好的目标检测模型保存并用于可实时检测所以目标；所述将经过采样后的稀疏点云输入待训练的目标检测模型中进行训练包括：输入三维稀疏点云数据；通过共享的多层神经网络进行特征提取，得到多维的全局特征；将所述全局特征分别作为姿态估计分支和位置估计分支的输入。

进一步地，所述基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据包括：基于激光雷达传感器采集得到的点云数据使用随机采样法将密集的点云数据完成下采样，并得到稀疏点云数据即所述下采样数据。

为了实现上述目的，根据本申请的另一方面，提供了一种目标实时检测装置。

根据本申请的目标实时检测装置包括：下采样模块，用于基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；目标检测模块，用于将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；输出模块，用于根据所述目标检测模型，实时检测出目标的姿态位置信息。

为了实现上述目的，根据本申请的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述的方法。

为了实现上述目的，根据本申请的再一方面，提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述的方法。

在本申请实施例中目标实时检测方法以及装置、存储介质、电子装置，采用基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据的方式，通过将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置，达到了根据所述目标检测模型，实时检测出目标的姿态位置信息的目的，从而实现机器人对目标的位置与位姿的准确预测的技术效果，进而解决了智能机器人的目标检测能力不足的技术问题。此外，本申请的方法可以应用到多个不同的机器人上，例如UR机器人、Baxter机器人等。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的目标实时检测方法的硬件结构示意图；

图2是根据本申请实施例的目标实时检测方法流程示意图；

图3是根据本申请实施例的目标实时检测装置结构示意图；

图4是根据本申请实施例的目标实时检测方法的目标检测模型流程示意图；

图5是根据本申请实施例的在线检测的神经网络的网络结构示意图；

图6是根据本申请实施例的数据集获取流程示意图；

图7是根据本申请实施例的点云数据的下采样示意图；

图8是根据本申请实施例的点云数据的随机下采样流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

通过激光雷达传感器可以获得精确的三维点云数据。与传统的RGB图像相比，点云可以提供更准确的物体几何、深度和空间信息。然而，由于点云的无序性、稀疏性和不规则性等特点，直接从点云中提取目标特征是一项十分困难的任务。对于基于点云的目标检测任务，需要构建一个对点云具有较强能力的特征提取模块。针对提取目标特征的问题，根据点云处理方式不同，可以分为三类方法：基于投影的方法，基于体素化的方法和基于点处理的方法，其中，

基于投影的方法：MV3D使用点云和鸟瞰图作为输入。在三维目标检测中，鸟瞰图比前视图/图像平面有以下优势。首先，物体在投射到鸟瞰图时保持物理尺寸，因此有小的尺寸变化，这在前视图/图像平面不是这样的情况。其次，鸟瞰图中的物体占据不同的空间，从而避免遮挡问题。该方法用紧凑的多视图表示对稀疏的三维点云进行编码，该网络从三维点云的鸟瞰图表示中生成三维候选框从而进行目标检测。MMF是一个端到端可学习的体系结构，该体系结构适用于2D和3D路面目标检测，通过融合不同层次的信息来帮助网络学习表示。在得到鸟瞰图表示的点云后完成估计，并得到俯视图中的路面高度，最后使用路面高度与真实的点云做差，得到每个点相对于路面的高度，减去了路面高度的起伏对3D目标检测的影响。

基于体素化的方法：VoteNet是一个基于深度点云网络和霍夫投票机制的3D目标检测网络。在图像中，通常在目标中心附近存在一个像素，但在点云中却不是这样。由于深度传感器仅捕获物体的表面，因此3D物体的中心很可能在远离任何点的空白空间中。为此，该方法提出赋予点云深度网络一种类似于经典霍夫投票(Hough Voting)的选择机制。通过投票，生成靠近对象中心的新的点，这些点可以进行分组和聚合，并在体素化后完成对物体的检测工作。

基于点的方法：神经网络直接处理输入的点云。网络先将点云在空间上对齐，再通过多层感知机将其映射到高维的空间上。这时对于每一个点，都有一个1024维的向量表征，而这样的向量表征对于一个三维的点云明显是冗余的，因此这个时候引入最大池化操作，得到点云的全局特征，最后使用全连接层输出预测结果。Point-CNN使用卷积神经网络处理点云数据。传统的卷积神经网络在处理二维图像时，其在图像中数据是结构化存储，直接通过卷积神经网络就能从二维空间结构中获取信息。而点云数据是无序集，无法直接使用卷积。因此Point-CNN学习了一个变换矩阵，对输入特征进行加权和置换，最后对经过变换的特征应用典型卷积进行目标检测。

发明人在研究时发现，基于投影的方法是将点云投影到不同的视图上进行表示，比如鸟瞰图。这种方法相当于将三维数据转换为二维图像进行处理，以不同的编码形式编码同一个的目标来减少信息的损失。然而，由于投影很难捕捉到目标的几何特征，基于投影的方法在网络构建中通常需要使用RGB图像以及图像的强度，密度和深度等信息。基于体素化的方法是通过将物体表现为空间中的体素进行类似于二维的三维卷积(例如，卷积核大小为5×5×5)，是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法。这两种方法都使用数据表示转换使得结果数据变得不必要地庞大，同时这种转换可能会影响点云数据的排列不变性。基于点的方法直接使用处理点云原始数据的网络，此种方法使用神经网络构建点云特征提取网络，通过设计多层感知机和使用对称函数，保持了点云的排列不变性。但是该方法仅对局部点云建立特征关系，无法建立全局特征模块，且该方法对特征矩阵的计算量和存储开销较大。

基于上述，为了解决物品检测，本申请提供了一个基于深度学习的目标检测网络，可以在三维点云数据中实时检测物体的位置与角度信息。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，硬件系统包括：至少一个智能机器人100，多个激光雷达传感器200以及目标(物品)300。基于将现实中的物品300通过激光雷达传感器200转换为三维的点云数据，然后对其进行目标检测，从而能够帮助所述智能机器人100完成识别、抓取、避障等操作。

如图2所示，该方法包括如下的步骤S201至步骤S203：

步骤S201，基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；

步骤S202，将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；

步骤S203，根据所述目标检测模型，实时检测出目标的姿态位置信息。

从以上的描述中，可以看出，本申请实现了如下技术效果：

采用基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据的方式，通过将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置，达到了根据所述目标检测模型，实时检测出目标的姿态位置信息的目的，从而实现机器人对目标的位置与位姿的准确预测的技术效果，进而解决了智能机器人的目标检测能力不足的技术问题。此外，本申请的方法可以应用到多个不同的机器人上，例如UR机器人、Baxter机器人等。

上述步骤S201中基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据。以目标为物品为例，即通过激光雷达传感器得到物品的三维数据，以及各点云的相机坐标，在完成各个坐标系之间的坐标变换后，得到训练模型所需要的数据集，并按照PCD文件格式储存。

作为一种可选地实施方式，基于所述激光雷达传感器获取密集的点云数据。

作为一种优选地实施方式，照预设采样方式得到下采样数据，预设采样方式即为下采样，下采样数据即为稀疏点云数据。

作为一种优选地实施方式，使用随机采样法将密集的点云数据完成下采样，并得到稀疏点云数据。随机采样法是从所有点云中以一定的概率，随机选择1024个点，但是其通过点与点距离运算，则可以保留整体物体的轮廓。

上述步骤S202中将所述下采样数据输入预先训练的目标检测模型。

所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置。

作为一种可选地实施方式，样本点云数据中即为作为样本的点云数据。

作为一种优选地实施方式，样本点云数据的坐标位置即点云数据中的每个点的位置信息。从而通过目标检测模型输出得到有效的目标点云数据和相应的坐标位置。

上述步骤S203中根据所述目标检测模型，实时检测出目标的姿态位置信息。

作为一种可选地实施方式，利用所述目标检测模型预测网络部分，完成对目标位置和姿态的预测。

作为一种优选地实施方式，基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据之后才能输入到预先训练的目标检测模型。

作为一种优选地实施方式，预先训练的目标检测模型是通过线下预先训练得到的，在进行实时目标检测时是线上实现的。

作为本实施例中的优选，所述姿态位置信息包括：目标的姿态信息预测结果和目标的位置信息预测结果，根据所述在预先训练的目标检测模型中保存的目标检测网络的权重参数、所述姿态信息预测结果以及所述位置信息预测结果，确定出所述姿态位置信息。

具体实施时，对于离线训练部分，由Gazebo模拟平台为支撑，构造训练需要的物品数据，通过该方式可以有效免除人工采集和获取的问题，直接获取到有效的物体点云数据和相应的坐标位置。在离线训练过程中，保存经过训练后的网络权重，作为在线检测部分的基础参数。

作为本实施例中的优选，所述目标至少包括物品，并基于所述实时检测出所述物品的姿态位置信息，控制机器人操作系统执行预设操作。

具体实施时，基于所述实时检测出所述物品的姿态位置信息通过机器人控制系统控制智能机器人完成识别、抓取、避障等操作。

作为本实施例中的优选，所述预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置，包括：全局特征描述部分、姿态估计部分以及位姿估计部分，所述全局特征描述部分接收所述下采样数据，通过特征提取得到全局特征；将所述全局特征分别作为所述姿态估计部分以及所述位姿估计部分的输入；在所述姿态估计部分中，采用全连接层预测所述物品的姿态；在所述位姿估计部分中，采用全连接层预测所述物品的位置；基于预设矩阵描述所述姿态和所述位置；其中，所述全局特征描述部分，用于基于卷积神经网络完成目标特征采样；所述姿态估计部分，用于基于全连接神经网络和网络激活函数，输出第一维度的旋转矩阵，并对目标的角度进行描述；所述位姿估计部分，用于基于全连接神经网络和网络激活函数，输出第二维度的目标中心位置，并对所述目标所处位置进行描述。

所述预先训练的目标检测模型采用深度学习网络，其中所述深度学习网络结构组成包括：全局特征描述部分、姿态估计部分和位姿估计部分。

全局特征描述部分：三层卷积神经网络，完成目标特征采样；姿态估计部分：FC(全连接神经网络，Full Connection)和Relu层(网络激活函数，实现非线性处理)，输出9维度的旋转矩阵，对目标角度进行描述；位置估计部分：FC(全连接神经网络，Full Connection)和Relu层(网络激活函数，实现非线性处理)，输出3维度的目标中心位置，对目标所处位置进行描述。

具体实施时，本发明的物品检测网络包含三个部分：全局特征描述部分、姿态估计分支和位置估计分支。

全局特征描述部分：输入为稀疏点云数据，共N个3维点，即N×3。输入首先经过3层共享的多层感知机进行特征提取，特征维度依次变化为3→128→256→1024，最终得到一个1024维的全局特征。

然后，将全局特征分别作为姿态估计分支和位置估计分支的输入。姿态估计分支和位置估计分支部分：两个分支为并行传播，在初始的3组网络中都是用全连接层和Relu层进行特征传播，此时特征维度依次变为1024→512→256→128。

在姿态估计分支中，用一个FC(全连接)层预测物品的姿态，即得到一个9维的三维角度旋转矩阵。

在位置估计分支中，用一个FC(全连接)层预测物品的位置，即得到一个3维的位置信息。

最终，采用齐次矩阵H来描述姿态和位置，如公式(1)所示，其中a_ij,i∈(1，2,3),j∈(1,2,3)表示姿态估计，t_k，k∈(1，2，3)表示位置估计。

作为本实施例中的优选，所述预先训练的目标检测模型还包括：离线训练部分以及在线检测部分，基于所述离线训练部分，用于构造训练所需要的物品数据，并且在离线训练过程中保存经过训练后的网络权重，用以作为在线检测部分的基础参数；基于所述在线检测部分，用于通过离线训练得到的预测网络模型，完成对目标位置和姿态的预测。

具体实施时，预先训练的目标检测模型分为两个部分，离线训练部分和在线检测部分。基于ROS机器人控制系统、Gazebo模拟平台和机器人实体，构建整体目标检测方法。

以目标为实际物品为例，对于离线训练部分，由Gazebo模拟平台为支撑，构造训练需要的物品数据，通过该方式可以有效免除人工采集和获取的问题，直接获取到有效的物体点云数据和相应的坐标位置。在离线训练过程中，保存经过训练后的网络权重，作为在线检测部分的基础参数。对于在线检测部分，由激光雷达相机、ROS机器人控制系统和实体机器人组成。通过激光雷达相机完成点云数据采集，通过超体素分割和颜色信息，获取单一的物体数据，并进行有效的点云采样，最终利用预测网络部分，完成对目标位置和姿态的预测。

作为本实施例中的优选，所述离线训练部分还包括：将经过采样后的稀疏点云输入待训练的目标检测模型中进行训练，将训练好的目标检测模型保存并用于可实时检测所以目标；所述将经过采样后的稀疏点云输入待训练的目标检测模型中进行训练包括：输入三维稀疏点云数据；通过共享的多层神经网络进行特征提取，得到多维的全局特征；将所述全局特征分别作为姿态估计分支和位置估计分支的输入。

作为本实施例中的优选，所述基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据包括：基于激光雷达传感器采集得到的点云数据使用随机采样法将密集的点云数据完成下采样，并得到稀疏点云数据即所述下采样数据。

具体实施时，通过激光雷达传感器获得密集的点云数据(实际中约40000-50000个点)；通过随机采样法将密集点云进行下采样得到稀疏点云(实际中约1024个点)；将采样后的稀疏点云输入检测模型中进行训练，训练过程是离线过程。训练好的模型保存成功后，即可实时检测物品。

优选地，使用随机采样法将密集的点云数据完成下采样，并得到稀疏点云数据。随机采样法是从所有点云中以一定的概率，随机选择1024个点，但是其通过点与点距离运算，可以保留整体物体的轮廓。

其中，离线训练的过程包括：

S1，模型的输入为3维稀疏点云；

S2，经过共享的MLP(Multilayer Perceptron)层进行特征提取，得到1024维的全局特征。特征维度的变化为：3→128→256→1024；

S3，将全局特征分别作为姿态估计分支和位置估计分支的输入；

S4，全局特征经过分别经过3组FC(Full Connection Networks,全连接)层和Relu层进行特征传播，特征维度的变化为：1024→512→256→128，最后通过一个FC层进行预测；

S5，姿态估计分支得到9维的姿态估计，位置估计分支得到3维的位置估计。(9维与3维分别对应物体的三维旋转矩阵)

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述方法的目标实时检测装置，如图3所示，该装置包括：

下采样模块301，用于基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；

目标检测模块302，用于将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；

输出模块303，用于根据所述目标检测模型，实时检测出目标的姿态位置信息。

本申请的所述下采样模块301中基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据。以目标为实际物品为例，即通过激光雷达传感器得到物品的三维数据，以及各点云的相机坐标，在完成各个坐标系之间的坐标变换后，得到训练模型所需要的数据集，并按照PCD文件格式储存。

本申请的所述目标检测模块302中将所述下采样数据输入预先训练的目标检测模型。

本申请的所述输出模块303中根据所述目标检测模型，实时检测出目标的姿态位置信息。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

为了更好的理解上述目标实时检测方法流程，以下结合优选实施例对上述技术方案进行解释说明，但不用于限定本发明实施例的技术方案。

本申请实施例中的目标实时检测方法，是计算机视觉、智能机器人和图像处理等跨多领域的整合与应用。与现有的技术相比，具有实际的应用能力，能实时检测物品的姿态位置信息，拥有较高的三维目标检测精度与效率。尤其应用在机械手抓取等方面，能够帮助机械手快速完成检测识别任务，大幅的提高工作效率，进而提高工厂的生产效率。本研究整体配置在Intel i9-9940X CPU、运行内存为12GB的RTX 2080GPU的电脑上，算法整合了Python、C++，并有效结合ROS系统操控(Robot Operating System，机器人操作系统)，能够在多个平台与不同硬件配置上实现部署。模型使用的计算机资源较少，能耗较低，并且模型的训练相对简单，容易为初学者提供快速上手的机会。同时，本系统为端到端的结构，无复杂的多阶段调控工作，因此，人力成本较低。在未来人工智能与实际生产相结合发展的大环境下，本研究有着非常开阔和长远的应用前景和提升空间。

本申请中通过将深度学习算法和实际机器人控制应用相结合，具有清晰的处理流程和完整的过程，即数据采集、预处理、网络特征提取与预测和输出结果。此外，本申请中的方法在精度、效率与速度方面，保证有效的平衡能力，并实现研究方法的产品化。

如图4所示，是本申请实施例目标实时检测方法的实现原理示意图，实现的具体过程包括如下步骤：

如图4所示，共分为两个部分，离线训练部分和在线检测部分。依托与ROS机器人控制系统、Gazebo模拟平台和机器人实体，构建整体物品检测方法。

所述离线训练部分，由Gazebo模拟平台为支撑，构造训练需要的物品数据，通过该方式可以有效免除人工采集和获取的问题，直接获取到有效的物体点云数据和相应的坐标位置。在离线训练过程中，保存经过训练后的网络权重，作为在线检测部分的基础参数。

将采样后的稀疏点云输入检测模型中进行训练，训练过程是离线过程，所述离线训练过程包括如下的步骤：

S1，模型的输入为三维稀疏点云数据；

S2，经过共享的MLP层进行特征提取，得到1024维的全局特征。特征维度的变化为：3→128→256→1024；

S5，姿态估计分支得到9维的姿态估计，位置估计分支得到3维的位置估计。(9维与3维分别对应物体的三维旋转矩阵)。

对于在线检测部分，主要由激光雷达相机、ROS机器人控制系统和实体机器人组成。通过激光雷达相机完成点云数据采集，通过超体素分割和颜色信息，获取单一的物体数据，并进行有效的点云采样，最终利用预测网络部分，完成对目标位置和姿态的预测。

如图5所示，在线检测的深度学习的网络结构包括：全局特征描述部分、姿态估计部分和位姿估计部分。全局特征描述部分：三层卷积神经网络，完成目标特征采样；姿态估计部分：FC(全连接神经网络，Full Connection)和Relu层(网络激活函数，实现非线性处理)，输出9维度的旋转矩阵，对目标角度进行描述；位置估计部分：FC(全连接神经网络，Full Connection)和Relu层(网络激活函数，实现非线性处理)，输出3维度的目标中心位置，对目标所处位置进行描述。

最终，采用齐次矩阵H来描述姿态和位置，如公式(1)所示，其中a_ij，i∈(1，2，3)，j∈(1，2，3)表示姿态估计，t_k，k∈(1，2，3)表示位置估计。

如图6所示，通过激光雷达传感器得到物品的三维数据，以及各点云的相机坐标，在完成各个坐标系之间的坐标变换后，得到训练模型所需要的数据集，通常按照PCD文件格式进行储存。

如图7以及图8所示，使用随机采样法将密集的点云数据完成随机下采样，并得到稀疏点云数据。随机采样法是从所有点云中以一定的概率，随机选择1024个点，但是其通过点与点距离运算，可以保留整体物体的轮廓。具体而言，使用随机采样法将密集的点云数据完成下采样，并得到稀疏点云数据。随机采样法是从所有点云中以一定的概率，随机选择1024个点，但是其通过点与点距离运算，可以保留整体物体的轮廓。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标实时检测方法，其特征在于，包括：

基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；

所述目标至少包括物品，并基于所述实时检测出所述物品的姿态位置信息，控制机器人操作系统执行预设操作；

将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；

根据所述目标检测模型，实时检测出目标的姿态位置信息；

所述姿态位置信息包括：目标的姿态信息预测结果和目标的位置信息预测结果，根据所述预先训练的目标检测模型中保存的目标检测网络的权重参数、所述姿态信息预测结果以及所述位置信息预测结果，确定出所述姿态位置信息；

所述预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置，包括：全局特征描述部分、姿态估计部分以及位姿估计部分，

所述全局特征描述部分接收所述下采样数据，通过特征提取得到全局特征；

将所述全局特征分别作为所述姿态估计部分以及所述位姿估计部分的输入；

在所述姿态估计部分中，采用全连接层预测所述物品的姿态；

在所述位姿估计部分中，采用全连接层预测所述物品的位置；

基于预设矩阵描述所述姿态和所述位置；

其中，所述全局特征描述部分，用于基于卷积神经网络完成目标特征采样；

所述姿态估计部分，用于基于全连接神经网络和网络激活函数，输出第一维度的旋转矩阵，并对目标的角度进行描述；

所述位姿估计部分，用于基于全连接神经网络和网络激活函数，输出第二维度的目标中心位置，并对所述目标所处位置进行描述。

2.根据权利要求1所述的方法，其特征在于，所述预先训练的目标检测模型还包括：离线训练部分以及在线检测部分，

基于所述离线训练部分，用于构造训练所需要的物品数据，并且在离线训练过程中保存经过训练后的网络权重，用以作为在线检测部分的基础参数；

基于所述在线检测部分，用于通过离线训练得到的预测网络模型，完成对目标位置和姿态的预测。

3.根据权利要求2所述的方法，其特征在于，所述离线训练部分还包括：将经过采样后的稀疏点云输入待训练的目标检测模型中进行训练，将训练好的目标检测模型保存并用于实时检测所述目标；

所述将经过采样后的稀疏点云输入待训练的目标检测模型中进行训练包括：

输入三维稀疏点云数据；

通过共享的多层神经网络进行特征提取，得到多维的全局特征；

将所述全局特征分别作为姿态估计分支和位置估计分支的输入。

4.根据权利要求1所述的方法，其特征在于，

所述基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据包括：基于激光雷达传感器采集得到的点云数据使用随机采样法将密集的点云数据完成下采样，得到稀疏点云数据即所述下采样数据。

5.一种目标实时检测装置，其特征在于，包括：

下采样模块，用于基于激光雷达传感器采集得到的点云数据，按照预设采样方式得到下采样数据；

目标检测模块，用于将所述下采样数据输入预先训练的目标检测模型，其中，所述目标检测模型为使用多组点云数据通过机器学习训练得出的，多组数据中的每组数据均包括：样本点云数据和所述样本点云数据的坐标位置；

输出模块，用于根据所述目标检测模型，实时检测出目标的姿态位置信息；

基于预设矩阵描述所述姿态和所述位置；

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项所述的方法。

7.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项所述的方法。