CN111085997A

CN111085997A - 基于点云获取和处理的抓取训练方法及系统

Info

Publication number: CN111085997A
Application number: CN201911303064.8A
Authority: CN
Inventors: 刘厚德; 张郑; 周星如; 王学谦; 阮见; 刘思成; 梁斌
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-05-01

Abstract

本申请实施例公开一种基于点云获取和处理的抓取训练方法及系统。所述系统包括相机、机械手、机械臂、机械臂基座和主控制计算机。所述方法包括：A1、将从相机得到的点云信息输入至第一部分神经网络，以获得实物场景内目标物体的位姿信息；A2、将所述位姿信息输入至所述第二部分神经网络，以生成相对于相机光轴坐标系的第一抓手位姿信息；A3、将所述第一抓手位姿信息变换成相对于机械臂基座坐标系的第二抓手位姿信息；A4、根据所述第二抓手位姿信息控制机械臂和机械手抓取目标物体；A5、获取反映抓取效果的指定指标。本申请实施例可以观察实物抓取效果，为算法的质量提供反馈，这不仅大幅提升了算法训练的效率，也在一定程度上提升了算法的实用性。

Description

基于点云获取和处理的抓取训练方法及系统

技术领域

本申请涉及机器人技术领域，特别涉及一种基于点云获取和处理的抓取训练方法及系统。

背景技术

随着人工智能与硬件设备的飞速发展，大大的推进了工业化进程与机器人科学的发展。机器人的抓取功能是机器人最基本的功能，用来在任务中执行诸如分拣、拾取等基本的任务操作。在工业生产环境或者物流分拣任务下，机器人抓取应用十分常见。但是在很多情况下，需要完成抓取的物体场景比较复杂，比如包含多种物体并存在堆叠现象，加之机器人事先对该环境并没有先验认知，这就导致机械手真正完成抓取任务时会遇到较大的阻碍。

为此，目前较为流行的解决办法是采用机器学习的理念，利用基于模型的已知信息对系统进行训练，最终使系统可以从视觉的原始输入中直接做出抓取决策。目前常用的训练方案包括利用RGB双目图像信息作为原始输入产生抓取策略，或者限制输入场景的复杂度以保证识别的准确性，又或者将整个抓取系统中各个部分分割开来处理，不能形成一套通用完整的训练体系。利用RGB双目信息的训练系统会受到诸如光强、照度等问题的制约，且处理起来较为繁琐；而通过限制场景复杂程度虽然能较显著的提升抓取的可靠性，但是在实际应用时会受到多物体堆叠的干扰，从而无法保证达到与训练时相同的良好效果；把各个设备割裂开来分别予以处理，则无法成为体系，难以进行推广和应用。

在机器人抓取中的一个关键问题就是视觉输入问题。当前机器人从环境中获取信息最为高效的方式即为视觉。现有的抓取技术在原始视觉信息的获取上往往有两种选择：一是使用RGB双目相机获取场景3D信息，二是使用基于TOF(Time of Flight)光行时间原理获得的点云信息。

通过RGB双目相机如Point Grey公司推出的BumbleBee系列相机，获得场景的RGB-D信息，进而使用可以处理RGB-D图像的机器学习算法得到场景内的物体特征。双目视觉的原理比较简单，主要是将左右两个相机获得图像数据进行整合，可以用图1来表示。其中基线距B为两摄像机的投影中心连线的距离，相机焦距为f。设两摄像机在同一时刻观看空间物体的同一特征点P(x_c,y_c,z_c)，分别在“左眼”和“右眼”上获取了点P的图像，它们的图像坐标分别为P_left(X_left,Y_left)，P_right(X_right,Y_right)。

现由于两摄像机的焦距相同，则对同一个点所成的像会落在同一个平面上，因此特征点P的在两幅图像内的坐标Y坐标相同，即Y_left＝Y_right＝Y。根据图6中的三角几何关系进行计算和整理可以得到如下结论：

经过以上运算，可以从两幅图像中获得场景点在相机坐标系(左相机)内的坐标值，只要逐点计算便可得到整个场景内点的三维坐标。

基于双目原理的相机对环境的光照非常敏感，这是因为双目立体视觉法依赖环境中的自然光线采集图像，而由于光照角度变化、光照强度变化等环境因素的影响，拍摄的图片亮度差别会比较大，这样对图片的处理程序可能需要有所适应；另外，左右两幅图片由于视差等因素的存在，摄录的像可能不完全相同，这会对匹配算法提出很大的挑战；同时，由于双目相机是被动的接收物体反射光，物体的材质、反光程度、纹理、粗糙度等性质都会为获得的RGB-D图像带来很大的干扰，从而从根本上影响到抓取性能。

为了克服以上问题，许多技术方案转而使用基于TOF原理的相机，如mesa系列相机和kinectv2相机。由于此类相机主动发射红外光并计算接收反射光的时间，通过该时间计算出场景中各点的深度信息，因此对自然光照环境要求非常低，往往获得的信息更为准确，而且原理简单，不需要在处理时使用复杂的配准算法。这就解决了训练系统的输入可靠性问题。

对相机输出的点云数据进行特征提取时，现有技术选择先将点云数据做体素化处理，然后使用3D-CNN网络模型进行计算。具体过程如图7所示。首先将整个空间进行分割，不同的栅格大小会影响到体素的整体分辨率，如使用较小的栅格可以提高分辨率；进而把分割好的体素按照一定顺序输入到3D神经网络(如VoxelNet)中进行特征提取和识别，以得到场景内物体的位姿估计结果。

这种将点云体素化的方式其实有很大的局限性。如体素化时分辨率的选择问题：使用较高分辨率的体素化方式，会导致3D-CNN的输入数据量按照3次方的比例增长，从而大幅度的提高了3D-CNN的复杂度，导致运算代价过大；反之如果使用较低的分辨率，会令单位体素内点的含量过低，有时甚至在某些体素内产生大量空白，这给网络带来了较严重的量化噪声，也会导致特征识别不够理想。因此，把原始点云数据先进行预处理并不是一个好的选择。

以上背景技术内容的公开仅用于辅助理解本申请的发明构思及技术方案，其并不必然属于本申请的现有技术，在没有明确的证据表明上述内容在本申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本申请提出一种基于点云获取和处理的抓取训练方法及系统，能够有效的提高算法改进效率。

在第一方面，本申请提供一种基于点云获取和处理的抓取训练方法，包括：

A1、将从相机得到的点云信息输入至第一部分神经网络，以获得实物场景内目标物体的位姿信息；

A2、将所述位姿信息输入至所述第二部分神经网络，以生成相对于相机光轴坐标系的第一抓手位姿信息；

A3、将所述第一抓手位姿信息变换成相对于机械臂基座坐标系的第二抓手位姿信息；

A4、根据所述第二抓手位姿信息控制机械臂和机械手抓取目标物体；

A5、获取反映抓取效果的指定指标。

在一些优选的实施方式中，还包括：A6、根据所述指定指标对所述第一部分神经网络进行修改，以提升抓取效果。

在一些优选的实施方式中，所述A3具体为：获取所述相机光轴坐标系与所述机械臂基座坐标系之间的相对关系，根据所述相对关系将所述第一抓手位姿信息变换成所述第二抓手位姿信息。

在一些优选的实施方式中，所述获取所述相机光轴坐标系与所述机械臂基座坐标系之间的相对关系具体为：通过手眼标定获得描述所述相对关系的坐标变换矩阵。

在一些优选的实施方式中，所述A4包括：将所述第二抓手位姿信息进行逆运动学解算以生成指令控制所述机械臂运动到相应的位置和呈现相应的姿态。

在一些优选的实施方式中，通过机器人操作系统在所述相机、所述机械臂和所述机械手之间进行通信。

在一些优选的实施方式中，所述A4包括：将所述第二抓手位姿信息发布到所述机器人操作系统，从而对所述第二抓手位姿信息进行逆运动学解算以生成指令控制所述机械臂运动到相应的位置和呈现相应的姿态。

在一些优选的实施方式中，还包括：通过仿真数据对指定神经网络进行训练，得到一个可行的神经网络作为所述第一部分神经网络。

在一些优选的实施方式中，所述A6具体为：根据所述指定指标对所述可行的神经网络进行修改，得到新的所述可行的神经网络，将新的所述可行的神经网络替换所述第一部分神经网络。

在一些优选的实施方式中，所述指定指标包括成功率和准确率。

在一些优选的实施方式中，所述将从相机得到的点云信息输入至第一部分神经网络包括：对从相机得到的点云信息进行处理以去除噪声，将去除噪声的点云信息输入第一部分神经网络。

在第二方面，本申请提供一种基于点云获取和处理的抓取训练系统，包括相机、机械手、机械臂、机械臂基座和主控制计算机；所述主控制计算机用于执行上述方法。

在第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行上述方法。

与现有技术相比，本申请的有益效果有：

读入相机得到的实物场景点云信息，通过第一部分神经网络和第二部分神经网络，得到相对于相机光轴坐标系的第一抓手位姿信息。将第一抓手位姿信息变换成相对于机械臂基座坐标系的第二抓手位姿信息；如此，可得到场景点云中相对于机械臂基座坐标系的目标物体的位姿以及适合机械手执行抓取任务的机械臂姿态。根据第二抓手位姿信息可控制机械臂和机械手抓取目标物体，从而获得反映抓取效果的指定指标，可用于验证目标位姿识别和机械手姿态的正确性。反映抓取效果的成功率、准确率等指定指标可为使用的神经网络模型提供信息和反馈，进而帮助改进神经网络模型，可提升抓取效果。

附图说明

图1为本申请一个实施例的基于点云获取和处理的抓取训练系统结构示意图；

图2为本申请一个实施例的基于点云获取和处理的抓取训练方法的信息交互图；

图3示出本申请一个实施例的PPRNet生成目标位姿的过程；

图4示出本申请一个实施例的PointNetGPD生成抓手位姿的过程；

图5示出本申请一个实施例的基于点云获取和处理的抓取训练系统的各组成部分在实物抓取阶段的通讯流程；

图6示出双目相机的原理；

图7示出体素化处理方式。

具体实施方式

为了使本申请实施例所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合图1至图5及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接即可以是用于固定作用也可以是用于电路连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本申请实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参考图1，本实施例提供一种基于点云获取和处理的抓取训练系统，包括主控制计算机1、相机2、相机的固定支架3、机械手4、机械臂6、机械臂基座61和储物平台7。

对下文中将会提及到的技术术语进行说明。

点云(Point Cloud)是在同一空间坐标系下表达目标空间分布和目标表面特征的海量点的集合。为了在现实场景中将目标与背景自然隔离开来，传统的图片即二维数据类型无法满足要求，故需要借助空间点与测度设备之间的距离信息作为第三维度，获得三维图像。其中，点云类型数据是目前使用较为广泛的三维数据模型。点云模型往往由测量直接得到，每个点对应一个测量点，未经过其他处理手段，故包含了最大的信息量。这些信息隐藏在点云中需要以其他手段将其提取出来，提取点云中信息的过程即为三维图像处理。测量获得点云的设备分为几种不同的类型，如基于光行时间(TOF)原理的Mesa系列和kinect系列相机、基于激光测距原理的车载激光雷达等。前者为大多数室内条件下的小范围三维重建任务使用，后者则被广泛应用在自动驾驶等领域中。

本实施例使用的相机2是微软kinect v2相机，使用的点云信息仅包含各点的三维坐标，即点在相机坐标系下的XYZ值。

神经网络模型(Neural Network)是一种仿照生物神经网络构造的人工计算关系，如今已被广泛研究且应用在各个人工智能领域内。一个典型的神经网络模型一般包含卷积层、池化层、激活层和全连接层等。经过近些年对神经网络的大量研究和应用，已经形成了许多功能强大、性能稳定的网络；比如最为有效的图像特征提取网络是发展迅速的卷积神经网络，即CNN(Convolutional Neural Network)；又如在点云处理领域内的Pointnet网络，从提出开始就因其简单的架构、出色的识别准确率受到了学术和工程界的关注。Pointnet网络是第一个能够直接处理无序点云序列完成特征识别和提取的网络，在物体分类、语义分割等功能上完成了对现有瓶颈的突破。

本实施例使用的神经网络模型正是经过了对Pointnet网络功能的扩展，从而能够设计出机械手在实物场景中抓取目标的策略。

ROS平台(RobotOperatingSystem，机器人操作系统)是一个适用于机器人的开源的元操作系统。它提供了操作系统应有的服务，包括硬件抽象、底层设备控制、常用函数的实现、进程间消息传递，以及包管理。它也提供用于获取、编译、编写、和跨计算机运行代码所需的工具和库函数。简单来说，ROS是一个适用于机器人编程的框架，这个框架把原本松散的零部件耦合在了一起，为它们提供了通信架构。

在本实施例中，由于完成抓取的机械手、用于定位抓取位姿的机械臂以及获取场景点云的kinect相机分别由不同的设备公司制造，在其间直接进行通信是不太可能实现的，因此需要借助ROS平台提供的通用通信机制，比如消息(message)、服务(service)等，将各设备发布以及需要接收的信息格式进行统一，从而实现在linux系统下进行同步控制的目标。

末端执行器相对于基座的位置和姿态，简称为位姿。

主控制计算机1安装有Ubuntu16.04操作系统和ROS平台也即机器人操作系统。主控制计算机1运行有神经网络模型。本实施例的神经网络模型包括第一部分神经网络和第二部分神经网络。

相机2为3D深度相机，用于获取场景点云。参考图1，相机2安装在固定支架3上，且相机2的布置方式是垂直向下。

机械手4是实现抓取任务的关键工具，为二指机械手Robotiq，安装在机械臂6的末端。在其他实施例中，根据实际需要，机械手4还可以是三指机械手、四指机械手或五指机械手。

机械臂6主要用来完成抓取任务，为六自由度机械臂UR5。在其他实施例中，机械臂6还可以是具有其它数量自由度的机械臂。

机械臂基座61与机械臂6固定连接，作为机械臂6的基座。

储物平台7用来放置待抓取的目标物体5。

结合本实施例的基于点云获取和处理的抓取训练方法对本实施例进行说明；在本实施例中，抓取训练方法的执行主体为主控制计算机1；主控制计算机1可执行实现抓取训练方法的控制程序。参考图2，本实施例的抓取训练方法包括步骤A1至A5。

步骤A1、将从相机得到的点云信息输入至第一部分神经网络，以获得实物场景内目标物体的位姿信息。

在本实施例中，第一部分神经网络是通过仿真训练得到的：通过仿真数据对指定神经网络进行训练，得到一个可行的神经网络作为第一部分神经网络。示例的，指定神经网络以Pointnet网络作为骨架，辅以相应的特征提取算法和位姿估计算法，比如适用于物品的特征提取算法和适用于物品的位姿估计算法；参考图3，然后使用Blender软件和Bullet物理引擎创建的大量仿真数据进行训练，可得到一个可行的神经网络，从而构建一套完整的基于深度学习的网络模型。将第一部分神经网络称为PPRNet。在其他实施例中，第一部分神经网络也可通过其他方式获得，只要能根据从相机得到的点云信息获得实物场景内目标物体的位姿信息即可。

在进行仿真训练时，第一部分神经网络的输入是通过Bullet和Blender软件生成数据集内的某一场景，其中包含了此场景的详细数据，即场景点云中所有点的空间坐标，在需要时也能够提供表面光滑度等指标，同时记录了数据集中预存的此场景内各物体的姿态真值，以与网络输出结果进行比对形成损失指标，为网络的训练提供依据；输出是该网络训练的结果，即对此场景内存在物体的姿态判断，其中包含各个物体在既定坐标系下的位置信息以及姿态信息，满足正确性指标后把该网络模型保存，后续会在第二部分神经网络中直接使用。

如此，该可行的神经网络在训练完成后可以直接通过读取实物场景点云信息，输出实物场景中目标物体的位姿和预计可以实现抓取的机械手姿态；那么，就允许为防止给数据添加噪声或丢失其中信息而使用相机2产生的原始点云数据，也即对原始点云数据不做任何额外处理。

其中，由主控制计算机1在仿真阶段生成并渲染数据集以及完成网络的训练。

相机2采集关于待抓取场景也即实物场景的点云信息。该点云信息以ROS支持的消息形式传输至主控制计算机1，输入至主控制计算机1的第一部分神经网络，由第一部分神经网络输出实物场景内各目标物体的位姿信息。

步骤A2、将位姿信息输入至第二部分神经网络，以生成相对于相机光轴坐标系的第一抓手位姿信息。

第二部分神经网络用于实物场景内的目标物体抓取。

参考图4，主控制计算机1的第二部分神经网络根据目标物体的位姿信息以及结合使用的机械手4的技术参数，生成多个可供机械手4实施的候选抓取位姿，然后进行抓取质量估计，从候选抓取位姿中选取最佳抓取方案作为第一抓手位姿信息以便后续进行实物抓取；其中，由3D神经网络Pointnet进行抓取质量估计。将第二部分神经网络称为PointNetGPD(Grasp Pose Detection)。

在其他实施例中，第一抓手位姿信息不仅包括最佳抓取方案，还包括目标物体的位姿信息。

经过以上流程，可完成仿真环境下根据虚拟数据训练网络以准确获得场景中各物体位姿的任务，也实现了在实物抓取过程中计算抓手位姿的目标。

步骤A3、将第一抓手位姿信息变换成相对于机械臂基座坐标系的第二抓手位姿信息。

步骤A2中得到的第一抓手位姿信息是相对于相机光轴坐标系的参数。为了控制机械臂6的运动，需要的是第一抓手位姿信息相对于机械臂基座坐标系的值。

在本实施例中，获取相机光轴坐标系与机械臂基座坐标系之间的相对关系，根据相对关系将第一抓手位姿信息变换成第二抓手位姿信息；第二抓手位姿信息是相对于机械臂基座坐标系的值。

在本实施例中，获取相机光轴坐标系与机械臂基座坐标系之间的相对关系具体为：参考图5，通过手眼标定获得描述相对关系的坐标变换矩阵。示例的，坐标变换矩阵为4×4的坐标变换矩阵；此坐标变换矩阵中包含平移与旋转变换两部分；为了获得该坐标变换矩阵，对相机——机械臂系统进行手眼标定，利用easy-hand-eye工具可以方便的得到。

步骤A4、根据第二抓手位姿信息控制机械臂和机械手抓取目标物体。

主控制计算机1根据第二抓手位姿信息可控制机械臂和机械手抓取目标物体。在本实施例中，主控制计算机1把机械臂基座坐标系下的第二抓手位姿信息发布到ROS平台也即机器人操作系统中，将第二抓手位姿信息进行逆运动学解算，参考图5，具体是使用Moveit！功能包进行机械臂关节角的反解，从而生成指令控制机械臂运动到相应的位置和呈现相应的姿态，完成抓取动作。

示例的，主控制计算机1与机械臂6的控制器进行通信，从而实现机械臂6的位置控制和机械手4的控制，完成抓取任务。具体的，机械臂6的控制器通过接收主控制计算机发出的运动指令，使机械臂6运动到指定位置；当机械臂6运动到指定位置后，主控制计算机1向机械手4发出指令，使得机械手4运动到特定位置后，通过开合动作完成抓取。

其中，运动指令是根据目标物体的空间位置减去已测定的机械臂末端二指机械手之间的尺寸，得到机械臂末端的空间位置，再经逆运动学解算得到要完成抓取任务，生成机械臂末端需要移动到空间位置及其对应的各关节应转动的角度指令。

步骤A5、获取反映抓取效果的指定指标。

在抓取任务完成之后，可通过统计来获取反映抓取效果的指定指标。其中，指定指标包括成功率和准确率。

根据上述可知，主控制计算机1读入相机得到的实物场景点云信息，通过基于神经网络的深度学习方法也即通过第一部分神经网络和第二部分神经网络，得到相对于相机光轴坐标系的第一抓手位姿信息。将第一抓手位姿信息变换成相对于机械臂基座坐标系的第二抓手位姿信息；如此，可得到场景点云中相对于机械臂基座坐标系的目标物体的位姿以及适合机械手执行抓取任务的机械臂姿态。根据第二抓手位姿信息可控制机械臂和机械手抓取目标物体，比如利用ROS平台控制机械臂到达网络输出的末端位姿对目标物体进行实物抓取，从而获得反映抓取效果的指定指标，可用于验证目标位姿识别和机械手姿态的正确性。反映抓取效果的成功率、准确率等指定指标可为使用的神经网络模型提供信息和反馈，进而帮助改进神经网络模型，可提升抓取效果。

为提升抓取效果，本实施例的抓取训练方法还包括步骤A6。

步骤A6、根据指定指标对第一部分神经网络进行修改，以提升抓取效果。

得到反映抓取效果的指定指标后，若指定指标比如成功率没有达到预期值，则对第一部分神经网络进行修改以使后续的指定指标达到预期值。

对第一部分神经网络进行修改具体可以是：根据指定指标对可行的神经网络进行修改，得到新的可行的神经网络，将新的可行的神经网络替换第一部分神经网络，得到新的第一部分神经网络；或者，根据指定指标对可行的神经网络进行修改，得到新的可行的神经网络，根据新的可行的神经网络对第一部分神经网络的参数和结构进行修改，得到新的第一部分神经网络。示例的，可通过神经网络结构搜索方法搜索可行的神经网络的网络结构和参数，使后续的指定指标达到预期值，从而得到新的可行的神经网络。

如前所述，在本实施例中，机械手4、机械臂6以及相机2分别由不同的设备公司制造，想要使机械臂6能够根据上述神经网络计算得到的抓手位姿移动到相应的状态，需要使用ROS平台消息与服务的通讯机制，也即通过机器人操作系统在相机2、机械臂6和机械手4之间进行通信。

KinectV2相机支持三种不同的点云数据消息类型，分别为/kinect2/hd/points、/kinect2/qhd/points、/kinect2/sd/points，对应的分辨率依次降低。处理sd类消息占用的资源最少，而且如果训练好的网络能够正确有效的通过sd类消息得到物体和抓手位姿，显然说明其性能更加优越。为此，选择/kinect2/sd/points消息作为实物抓取过程的标准输入。

由于来自相机2的原始消息比如/kinect2/sd/points消息可能存在一些噪声等，尤其是当相机获取了非抓取目标区域的点云时，神经网络有可能会将其视作抓取目标，而产生不必要的干扰。为此，对从相机得到的点云信息进行处理以去除噪声，将去除噪声的点云信息输入第一部分神经网络；示例的，对相机的原始输出做简单处理，即通过点云PCL(Point Cloud Library)库，将非目标区域剔除，从而保证第一部分神经网络的计算效果。

根据上述可知，本实施例包括仿真阶段深度学习网络模型的建立和实物验证阶段机械臂系统的控制两部分。仿真阶段的主要目的是通过对大量仿真数据的训练，得到合适的深度学习网络模型参数和结构，旨在能够通过读入一个场景点云，端到端的输出正确的目标位姿和抓手位姿。实物验证阶段通过ROS平台搭建了相机、机械臂、机械手和网络模型之间沟通的渠道，读取相机实物点云信息作为输入，令机械臂自动运行到可实现抓取的目标位置，抓取的成功率作为反馈帮助优化仿真阶段使用的网络模型，以使抓取效果越来越好。

本申请实施例的抓取训练系统包含的软件算法有相机点云处理算法、两套神经网络以及控制程序；其中，两套神经网络为第一部分神经网络和第二部分神经网络。根据实际的抓取效果，也即根据指定指标，可对算法做出评估和改进，从而达到构建抓取训练系统的目的。本申请实施例可以在仿真环境下进行训练，即训练阶段无需任何实物信息，仅需要仿真得到的场景点云即可；而在训练结束后，获取相机摄取的真实场景点云信息，可端到端的直接输出适于抓取目标物体的机械臂姿态，进而可验证目标位姿识别和机械手姿态的正确性，以该指标为依据就能够对算法进行改进。

本申请实施例采用基于点云的信息获取和处理方式，使用神经网络和ROS工具，将多个硬件平台和软件算法整合在一起，创建了一套完整的用于验证和改进点云识别算法的实物训练系统，可以有效实现复杂目标场景中的物体抓取策略，以使对算法的验证工作不只局限在仿真环境下，而是可以观察实物抓取效果，为算法的质量提供反馈，这不仅大幅提升了算法训练的效率，也在一定程度上提升了算法的实用性。同时，本申请实施例针对双目视觉等方法的不足之处，提出了直接利用相机输出的点云数据实现物体位姿估计和抓手姿态预测的神经网络模型，可以大幅提高原始视觉信息的质量，从而提高抓取的成功率。

本领域的技术人员可以理解实施例方法中的全部或部分流程可以由计算机程序来命令相关的硬件完成，程序可存储于计算机可读取存储介质中，程序在执行时，可包括如各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

以上内容是结合具体/优选的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本申请的保护范围。

Claims

1.一种基于点云获取和处理的抓取训练方法，其特征在于包括：

A5、获取反映抓取效果的指定指标。

2.根据权利要求1所述抓取训练方法，其特征在于还包括：A6、根据所述指定指标对所述第一部分神经网络进行修改，以提升抓取效果。

3.根据权利要求1所述抓取训练方法，其特征在于所述A3具体为：获取所述相机光轴坐标系与所述机械臂基座坐标系之间的相对关系，根据所述相对关系将所述第一抓手位姿信息变换成所述第二抓手位姿信息。

4.根据权利要求3所述抓取训练方法，其特征在于所述获取所述相机光轴坐标系与所述机械臂基座坐标系之间的相对关系具体为：通过手眼标定获得描述所述相对关系的坐标变换矩阵。

5.根据权利要求1所述抓取训练方法，其特征在于所述A4包括：将所述第二抓手位姿信息进行逆运动学解算以生成指令控制所述机械臂运动到相应的位置和呈现相应的姿态。

6.根据权利要求1所述抓取训练方法，其特征在于：通过机器人操作系统在所述相机、所述机械臂和所述机械手之间进行通信；所述指定指标包括成功率和准确率。

7.根据权利要求6所述抓取训练方法，其特征在于所述A4包括：将所述第二抓手位姿信息发布到所述机器人操作系统，从而对所述第二抓手位姿信息进行逆运动学解算以生成指令控制所述机械臂运动到相应的位置和呈现相应的姿态。

8.根据权利要求2所述抓取训练方法，其特征在于，

还包括：通过仿真数据对指定神经网络进行训练，得到一个可行的神经网络作为所述第一部分神经网络；

所述A6具体为：根据所述指定指标对所述可行的神经网络进行修改，得到新的所述可行的神经网络，将新的所述可行的神经网络替换所述第一部分神经网络；

所述将从相机得到的点云信息输入至第一部分神经网络包括：对从相机得到的点云信息进行处理以去除噪声，将去除噪声的点云信息输入第一部分神经网络。

9.一种基于点云获取和处理的抓取训练系统，其特征在于：包括相机、机械手、机械臂、机械臂基座和主控制计算机；所述主控制计算机用于执行根据权利要求1至8任一项所述方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质中存储有程序指令，所述程序指令被计算机的处理器执行时使所述处理器执行根据权利要求1至8任一项所述方法。