CN113763476A

CN113763476A - 目标物的抓取方法、设备和存储介质

Info

Publication number: CN113763476A
Application number: CN202111057356.5A
Authority: CN
Inventors: 杨曦; 慕佩其; 黄开竹; 闫毓垚
Original assignee: Xian Jiaotong Liverpool University
Current assignee: Xian Jiaotong Liverpool University
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2021-12-07
Anticipated expiration: 2041-09-09
Also published as: CN113763476B

Abstract

本申请涉及目标物的抓取方法、设备和存储介质，属于计算机技术领域。该方法包括：获取待抓取区域的深度图像；提取深度图像中待抓取的目标物对应的目标图像区域；获取目标图像区域对应三维点云数据；将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略；可以解决当多个目标物堆叠摆放时，现有的目标物抓取方法无法准确地识别待抓取区域中堆叠放置的目标物的具体位置，而导致的无法准确抓取的目标物的问题；由于最佳抓取策略是基于目标图像区域对应三维点云数据生成的，所以最佳抓取策略可以准确地反映待抓取区域中目标物的三维信息，在目标物堆叠放置时，可以准确定位目标物位置，从而提高目标物抓取的准确性。

Description

目标物的抓取方法、设备和存储介质

【技术领域】

本申请涉及一种目标物的抓取方法、设备和存储介质，属于计算机技术领域。

【背景技术】

随着自动控制技术的不断发展，机器手、抓取机器人等自动抓取设备被广泛应用于工业流水线中。人们可以利用抓取设备实现对目标物分拣、组装和转移等操作的自动化，提高了工业生产的效率。

现有的目标物抓取方法包括：生成待抓取区域的2D图；然后，使用2D图确定目标物的空间位置，得到位置信息；将位置信息传输至抓取设备，以供抓取设备按照位置信息抓取目标物。

但是，由于2D图不包含深度信息，所以当多个目标物堆叠摆放在待抓取区域时，现有的目标物抓取方法无法准确地识别待抓取区域中堆叠放置的目标物的具体位置。这样，会导致由于目标物的空间位置定位错误，而无法准确抓取目标物的问题。

【发明内容】

本申请提供了一种目标物的抓取方法、设备和存储介质，可以解决现有的目标物抓取方法无法准确地识别待抓取区域中堆叠放置的目标物的具体位置，从而导致由于目标物的空间位置定位错误，而无法准确抓取目标物的问题。本申请提供如下技术方案：

第一方面，提供一种目标物的抓取方法，所述方法包括：

获取待抓取区域的深度图像；

提取所述深度图像中待抓取的目标物对应的目标图像区域；

获取所述目标图像区域对应三维点云数据；

将所述三维点云数据输入预先训练的抓取策略预测模型，得到所述目标物的最佳抓取策略，以供抓取设备按照所述最佳抓取策略抓取所述目标物；所述最佳抓取策略包括最佳抓取位置信息和最佳抓取位姿信息；

其中，所述抓取策略预测模型用于预测使用多种抓取位姿对所述目标物上不同的位置进行抓取时抓取成功的概率，所述最佳抓取策略为抓取所述目标物成功的概率最高时对应的抓取策略。

可选地，所述策略预测模型包括概率预测子模型，所述概率预测子模型用于预测利用每种抓取策略抓取所述目标物时抓取成功的概率；所述将所述三维点云数据输入预先训练的抓取策略预测模型，得到所述目标物的最佳抓取策略，包括：

基于所述三维点云数据选取n个初始采样点，并确定所述n个初始采样点的抓取位姿；所述n为正整数；

将本次选取的采样点和每个采样点对应的抓取位姿输入所述概率预测子模型，得到利用每个采样点和对应的抓取位姿构成的抓取策略抓取所述目标物时成功的概率；

将每个采样点对应的概率按照由大到小的顺序排序，并确定排序在前m位的采样点，得到m个采样点；所述m为小于或等于输入所述概率预测子模型的采样点的数量；

使用高斯混合模型拟合所述m个采样点的分布情况，得到采样点分布；

基于所述采样点分布选取k个采样点，并确定所述k个采样点的抓取位姿，再次执行所述将本次选取的采样点和每个采样点对应的抓取位姿输入所述概率预测子模型的步骤，直至所述概率预测子模型的预测次数达到预设次数时停止，所述k为正整数；

将最后一次预测时概率最高的采样点和对应的抓取位姿确定为所述目标物的最佳抓取策略。

可选地，对于所述n个初始采样点和所述k个采样点中的每个采样点，确定所述采样点的抓取位姿，包括：

从所述三维点云数据中选择与所述采样点之间的距离小于预设距离、且位于所述目标物表面的邻近点；

计算所述采样点和所述邻近点构成的表面的表面法线，所述表面法线的方向为采样点的抓取位姿，且所述表面法线的方向指向所述目标物内部。

可选地，所述提取所述深度图像中待抓取的目标物对应的目标图像区域，包括：

识别所述深度图像中静态背景区域；

将所述静态背景区域设置为黑色、将所述深度图像中的非静态背景区域的设置为白色，得到第一图像；

接收对所述深度图像中所述目标物所在区域的框选操作，得到所述深度图像中包围所述目标物的多边型框；

在所述深度图像中，将所述多边型框之外的图像区域设置为黑色、将所述多边型框所包围的图像区域设置为白色，得到第二图像；

使用所述第一图像和所述第二图像生成图像掩膜；

使用所述图像掩膜在所述深度图像中确定所述目标图像区域。

可选地，所述识别所述深度图像中静态背景区域，包括：

获取静态背景图像，所述静态背景图像为在当前抓取场景中未放置所述目标物时得到的图像；

对所述静态背景图像和所述深度图像分别进行灰度化处理；

将所述深度图像对应的灰度图像与所述静态背景图像对应的灰度图像进行图像减法操作，得到所述深度图像中的静态背景区域和所述非静态背景区域。

可选地，所述使用所述第一图像和所述第二图像生成图像掩膜，包括：

将所述第一图像和所述第二图像进行与逻辑运算，得到所述图像掩膜。

可选地，所述深度图像由采集设备采集，所述目标图像区域通过所述目标图像区域在所述深度图像中的图像坐标表示，所述获取所述目标图像区域对应三维点云数据，包括：

获取所述采集设备的内参和外参；

基于所述内参和所述外参，将所述目标图像区域的图像坐标转换至世界坐标系，得到所述目标图像区域对应三维点云数据。

可选地，所述基于所述内参和所述外参，将所述目标抓取区域的图像坐标转换至世界坐标系，包括：

使用所述图像坐标和所述内参，计算所述目标抓取区域的相机坐标；

使用所述相机坐标和所述外参，计算所述目标抓取区域的世界坐标。

第二方面，提供一种电子设备，所述电子设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现第一方面提供的目标物的抓取方法。

第三方面，提供一种计算机可读存储介质，所述存储介质中存储有程序，所述程序被处理器执行时用于实现第一方面提供的目标物的抓取方法。

本申请的有益效果至少包括：通过获取待抓取区域的深度图像；提取深度图像中待抓取的目标物对应的目标图像区域；获取目标图像区域对应三维点云数据；将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，以供抓取设备按照最佳抓取策略抓取目标物；可以解决当多个目标物堆叠摆放时，现有的目标物抓取方法无法准确地识别待抓取区域中堆叠放置的目标物的具体位置，而导致的因目标物的空间位置定位错误，而无法准确抓取的目标物的问题；由于最佳抓取策略是基于目标图像区域对应三维点云数据生成的，所以最佳抓取策略可以准确地反映待抓取区域中目标物的三维信息，在目标物堆叠放置时，可以准确定位目标物位置，所以可以提高目标物抓取的准确性。

同时，由于采用了抓取策略预测模型，可以预测各种抓取策略，并计算各种抓取策略的抓取概率，并从中选取最佳抓取策略进行抓取，所以可以提高目标物抓取的准确性。

同时，由于是将深度图像中待抓取的目标物对应的目标图像区域对应的点云输入策略预测模型，排除了背景噪声对抓取策略预测的干扰，所以可以提高最佳抓取策略预测的准确性，进而提高目标物抓取的准确性。

另外，由于使用高斯混合模型拟合采样点的分布，并根据采样点的分布重新选择采样点，重新预测抓取策略，并从中选取抓取成功概率最高的抓取策略作为最佳抓取策略，提高了采样点选取的抓准确性，可以避免遗漏最佳抓取位置的问题，使得到的最佳抓取策略更具有代表性，所以可以提高目标物抓取的准确性。

另外，采用采样点表面法线的方向作为采样点的抓取位姿，避免了因抓取位姿错误而导致的不能成功抓取目标物，且目标物在抓取过程中位置改变而需要重新生成抓取策略的问题，提高了抓取的准确性。

另外，由于采用了静态背景图像消除了深度图像中的静态背景中的噪声(比如，放置目标物的箱子，放置箱子的支架的图像)，排除了待抓取区域中除目标物外的其他静态因素对目标物抓取策略生成的干扰，可以避免错误的抓取目标物体以外的其他物品，从而导致抓取目标物失败，提高了抓取的准确性。

另外，由于接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，可以将抓取范围缩小至目标物所在的区域，然后再针对目标物所在的区域进行计算，生成抓取策略，在减少了生成最佳抓取策略时计算量的同时，也可以避免抓取过程中待抓取区域中动态移动的物体对抓取策略生成的影响，提高了抓取的准确性。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，并可依照说明书的内容予以实施，以下以本申请的较佳实施例并配合附图详细说明如后。

【附图说明】

图1是本申请一个实施例提供的目标物的抓取系统的结构示意图；

图2是本申请一个实施例提供的目标物的抓取方法的示意图；

图3是本申请一个实施例提供的第一图像的一个示例图；

图4是本申请一个实施例提供的第二图像的一个示例图；

图5是本申请一个实施例提供的目标物的抓取方法的流程图；

图6是本申请一个实施例提供的目标物的抓取装置的框图；

图7是本申请一个实施例提供的电子设备的框图。

【具体实施方式】

下面结合附图和实施例，对本申请的具体实施方式做进一步详细描述。以下实施例用于说明本申请，但不用来限制本申请的范围。

首先，对本申请涉及的若干名词进行介绍。

图像坐标系：是指以图像的中心为原点，水平向右为x轴，垂直向下为y轴的坐标系。

相机坐标系：是以相机的光轴作为Z轴，光线在相机光学系统的中心位置就是原点Oc(也即相机透镜的中心)。相机坐标系的水平轴Xc与图像坐标系的x轴平行、相机坐标系的垂直轴Yc与图像坐标系的y轴平行。相机坐标系的原点与图像坐标系的原点之间的距离OcOi为f(也就是焦距)。

世界坐标系：是指图像与真实物体之间的一个映射关系。世界坐标系的原点是Ow，而世界坐标系的三维坐标轴Xw、Yw、Zw轴并不是一定与其他相机坐标系、或者图像坐标系平行的，而是有一定的角度，并且有一定的平移。当对相机坐标系按照一定的参数，分别绕着X、Y、Z轴做平移和旋转后，就可以得到在世界坐标系中的坐标。其中，绕着X、Y、Z轴做平移和旋转的方式即为相机的外参标定结果。

换言之，相机的外参用于指示相机相对于世界坐标系的旋转和平移变换关系。

深度图像：也被称为距离影像，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了场景可见表面的几何形状。

传输控制协议(Transmission Control Protocol，TCP)：是一种面向连接的、可靠的、基于字节流的传输层通信协议。

互联网协议地址(Internet Protocol Address，IP地址)：是一种统一的地址格式，它为互联网上的每一个网络和每一台主机分配一个逻辑地址，以此来屏蔽物理地址的差异。

端口号：用于区别一台主机所提供的这些不同的服务，一台主机在接收到其他主机发送的数据后，根据数据中的端口号把数据发送到指定服务或程序上。

套接字(Socket)：是指通信的端点，每个套接字由一个IP地址和一个端口号组成。

图1是本申请一个实施例提供的目标物的抓取系统的结构示意图，该抓取系统用于抓取待抓取区域中的目标物。待抓取区域中包括至少一个待抓取的目标物。可选地，待抓取区域还包括容纳目标物箱子和/或放置箱子的支架。其中，根据图1可知，该系统至少包括采集设备110、控制设备120和抓取设备130。

采集设备110用于采集待抓取区域的深度图像。采集设备110可以为深度相机，或者是安装有微控制单元(Micro Control Unit，MCU)并具有深度图像采集功能和通信功能的设备，或者也可以为其他设备中具有深度图像采集功能和通信功能的组件，本申请不对采集设备110的类型作限定。

可选地，采集设备110安装于控制设备120上，与控制设备120实现为同一个设备，此时，采集设备110可以为控制设备120中的深度摄像头；或者，采集设备110实现为与控制设备120不同的设备，本实施例不对采集设备110的实现方式作限定。

本实施例中，采集设备110采集待抓取区域的深度图像，包括：获取抓取指令，基于该抓取指令采集待抓取区域的深度图像。

可选地，抓取指令是控制设备120上设置的抓取控件被触发时，由控制设备120生成，并由控制设备120基于与采集设备110之间的信息传输通道向采集设备110发送的。此时，采集设备110与控制设备120之间预先建立有信息传输通道。

其中，信息传输通道可以是基于有线的方式建立的，或者，也可以是基于无线的方式建立的；同时，信息传输通道可以是固定的，或者，也可以临时的，本实施例不对采集设备110与控制设备120之间信息传输通道类型作限定。

比如：以信息传输通道基于无线的方式建立，且信息传输通道是临时的为例进行说明。在采集设备110与控制设备120之间有信息传输需求时，建立控制设备120与采集设备110的无线信息传输通道，采集设备110与控制设备120基于该无线信息传输通道传输信息。在信息传输完成后，无线信息传输通道断开。

可选地，控制设备120上设置的抓取控件可以是物理按钮；或者，也可以是控制设备120通过触摸屏显示的虚拟触控按键，本实施例不对抓取控件的实现方式做限定。

比如：以抓取控件为控制设备120通过触控屏显示的虚拟触控按键为例进行说明，用户触碰触摸屏显示的虚拟按键后，控制设备120接收到作用于抓取控件上的触发操作，生成抓取指令并基于与采集设备110之间的信息传输通道发送至采集设备110。

在其他实施例中，抓取指令也可以是由其他设备(管理员的移动终端)生成并发送的，本实施例不对抓取指令的生成方式作限定。

可选地，采集设备110还用于将采集到的深度图像基于与控制设备120之间信息传输通道发送至控制设备120。

相应地，控制设备120用于接收采集设备110采集的深度图像，并基于该深度图像生成最佳抓取策略，以供抓取设备130抓取目标物。

其中，最佳抓取策略为抓取目标物成功的概率最高时对应的抓取策略。抓取策略包括抓取位置信息和抓取位姿信息。抓取位置信息是指目标物上抓取点的三维空间坐标；抓取位姿信息是指抓取设备130在抓取位置抓取目标物的方向信息。

可选地，控制设备120可以为手机、电脑或可穿戴式设备等具有通信功能和计算功能的设备，或者，也可以为其他设备中具有通信功能和计算功能的组件，本实施例不对目标设备120的设备类型作限定。

本实施例中，控制设备120用于获取抓取区域的深度图像；提取深度图像中待抓取的目标物对应的目标图像区域；获取目标图像区域对应三维点云数据；将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，以供抓取设备130按照最佳抓取策略抓取目标物；最佳抓取策略包括最佳抓取位置信息和最佳抓取位姿信息。

其中，抓取策略预测模型用于预测使用多种抓取位姿对目标物上不同的位置进行抓取时抓取成功的概率。

控制设备120与抓取设备130之间预先建立有信息传输通道。可选地，控制设备120安装于抓取设备130中，与抓取设备130实现为同一个设备，此时，控制设备120可以为抓取设备130中的控制芯片；或者，控制设备120实现为与抓取设备130不同的设备，本实施例不对控制设备120的实现方式作限定。

可选地，抓取设备130可以为抓取机器人或者机械臂等具有抓取功能和通信功能的设备，或者其他设备中具有抓取功能和通信功能的组件，本实施例不对抓取设备130的设备类型作限定。

示意性地，抓取设备130有六个自由度，即沿x轴方向、y轴方向或z轴三个方向的移动自由度，或者，绕着x轴、y轴或z轴三个方向的转动自由度。

其中，信息传输通道可以是基于有线的方式建立的，或者，也可以是基于无线的方式建立的；同时，信息传输通道可以是固定的，或者，也可以临时地，本实施例不对抓取设备130与控制设备120之间信息传输通道类型作限定。

比如：以信息传输通道基于无线的方式建立，且信息传输通道是临时的为例进行说明。在有信息传输需求时，使用TCP协议进行控制设备120与抓取设备130之间的socket通信，此时控制设备120为客户端，抓取设备130为服务器端。

在一个示例中，控制设备120与抓取设备130之间预先建立信息传输通道，包括：抓取设备130建立一个套接字，将该套接字与IP地址和端口号进行绑定并进入监听的状态；然后，抓取设备130等待控制设备120发送的连接请求；控制设备120建立一个套接字并设定的远程IP地址和端口号；然后，控制设备120向设定的远程IP地址和端口号发送连接请求；抓取设备130接收连接请求并建立与控制设备120之间的连接，得到控制设备120与抓取设备130之间的信息传输通道。

在信息传输通道建立后，控制设备120将需要发送的指令或数据写入socket，并基于该信息传输通道发送给抓取设备130。相应地，抓取设备130读取socket中的指令或数据。

在控制设备120与抓取设备130之间的传输过程结束后，控制设备120向抓取设备130发送关闭连接请求，抓取设备130接收到关闭连接请求后，断开与控制设备120之间的通信。

本实施例中，抓取设备130用于基于与控制设备120之间的信息传输通道，获取最佳抓取策，并基于该最佳抓取策略抓取目标物。

需要补充说明的是，在待抓取区域内包括容纳目标物的箱子时，在抓取前需要人工对待抓取区域和抓取系统进行调整，以确保抓取过程的顺利进行，调整的过程包括：调整箱子的位置、调整采集设备110的高度和/或调整箱子的深度。

在抓取目标物的过程中，抓取设备130要通过移动和转动来抓取目标物，但抓取设备130的移动和转动的区域范围是有限的，所以在抓取前需要调整箱子的位置，以确保抓取设备130可以抓取到箱子内任何位置的物体。

由于采集设备110的高度不同，所采集到的待抓取区域的深度图像也不同，如果采集设备110的高度过高或过低都有可能无法采集到目标物对应的目标图像区域，从而导致抓取失败，所以在抓取前需要调整采集设备110的高度，以确保采集设备110采集的深度图像可以完整的包含目标物对应的图像区域。

在抓取设备130通过移动和转动抓取目标物的过程中，为防止抓取设备130与箱壁之间发生碰撞导致抓取失败，需要调整箱子的深度，以确保抓取设备130的在抓取过程中不会与箱壁发生碰撞。

综上所述，本实施例提供的目标物的抓取系统，通过控制器获取待抓取区域的深度图像；提取深度图像中待抓取的目标物对应的目标图像区域；获取目标图像区域对应三维点云数据；将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，以供抓取设备按照最佳抓取策略目标物；可以解决当多个目标物堆叠摆放时，现有的目标物抓取方法无法准确地识别待抓取区域中堆叠放置的目标物的具体位置，而导致的因目标物的空间位置定位错误，而无法准确抓取的目标物的问题；由于最佳抓取策略是基于目标图像区域对应三维点云数据生成的，所以最佳抓取策略可以准确地反映待抓取区域中目标物的三维信息，在目标物堆叠放置时，可以准确定位目标物位置，从而提高目标物抓取的准确性。

下面对本申请涉及的目标物的抓取方法进行详细介绍。

图2是本申请一个实施例提供的目标物的抓取方法的示意图，本实施例以该方法用于图1所示的目标物的抓取系统的控制设备120中为例进行说明，该方法至少包括以下几个步骤：

步骤201，获取待抓取区域的深度图像。

可选地，获取待抓取区域的深度图像，包括：接收采集设备采集的待抓取区域的深度图像。

在其它实施例中，待抓取区域的深度图像也可以预存在控制设备的存储介质中，相应地，控制设备读取预先存储的深度图像。

步骤202，提取深度图像中待抓取的目标物对应的目标图像区域。

可选地，提取深度图像中待抓取的目标物对应的目标图像区域，包括：识别深度图像中静态背景区域；将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像；接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框；在深度图像中，将多边型框之外的图像区域设置为黑色、将多边型框所包围的图像区域设置为白色，得到第二图像；使用第一图像和第二图像生成图像掩膜；使用图像掩膜在深度图像中确定目标图像区域。

其中，静态背景区域是指：深度图像中除待抓取物的目标物以外的其它静态物体(比如放置待目标物的箱子，放置箱子的支架)的图像。换言之，静态背景区域是深度图像中除目标物之外的、无法主动移动的物体的图像。

其中，黑色的灰度值0，白色的灰度值为255。相应地，将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像，包括：将静态背景区域的灰度值设置为0、将深度图像中的非静态背景区域的灰度值设置为255。

比如，参考图3，图3为第一图像的一个示例，其中，黑色区域为静态背景区域，白色区域为非静态背景区域。

比如，参考图4，图4为第二图像的一个示例，其中，黑色区域为多边型框之外的图像区域，白色区域为多边型框所包围的图像区域。

在一个示例中，识别深度图像中静态背景区域，包括：获取静态背景图像，该静态背景图像为在当前抓取场景中未放置目标物时得到的图像；对静态背景图像和深度图像分别进行灰度化处理；将深度图像对应的灰度图像与静态背景图像对应的灰度图像进行图像减法操作，得到深度图像中的静态背景区域和非静态背景区域。

在本实施例中，静态背景图像可以预先存储在控制设备中，或者，静态背景图像也可以预先存储在采集设备中，在控制设备有需求时，控制设备可以从采集设备获取静态背景图像，本实施例不对控制设备获取静态背景图像的方式做限定。

可选地，对静态背景图像和深度图像分别进行灰度化处理，包括：使用灰度化处理算法对静态背景图像和深度图像进行处理。

其中，灰度化处理算法可以是最大值法，或者，也可以是平均值法，或者，还可以是加权均值法，本实施例不对灰度化处理算法的类型做限定。

可选地，将深度图像对应的灰度图像与静态背景图像对应的灰度图像进行图像减法操作，得到深度图像中的静态背景区域和非静态背景区域，包括：将深度图像对应的灰度图像减去静态背景图像对应的灰度图像得到差分图像；将差分图像二级化得到深度图像中的静态背景区域和非静态背景区域。

可选地，将深度图像对应的灰度图像减去静态背景图像对应的灰度图像得到差分图像，通过下式表示：

D_n(x，y)＝|f_n(x，y)-B(x，y)|

其中，D_n(x，y)为差分图像；f_n(x，y)为深度图像对应的灰度图像；B(x，y)静态背景图像对应的灰度图像。

可选地，将差分图像二级化得到深度图像中的静态背景区域和非静态背景区域，包括：差分图像中灰度值符合预定范围的区域为静态背景区域，灰度值不符合预设范围的区域为非静态背景区域。

其中，预设范围是根据测试得到的。

在另一个示例中，识别深度图像中静态背景区域，包括：获取静态背景图像，静态背景图像为在当前抓取场景中未放置目标物时得到的图像；将静态图像和深度图像输入背景识别网络，得到深度图像的静态背景区域和非静态背景区域。

其中，背景识别网络为预先训练好的卷积神经网络，用于识别深度图像中的静态背景。

可选地，将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像，包括：将静态背景区域的灰度值设置为0，将深度图像中的非静态背景区域的灰度值设置为255，得到第一图像。

可选地，将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像，通过下式表示：

其中，R_n(x，y)为第一图像。

可选地，接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，包括：接收深度图像中目标物所在区域的边缘点的坐标，根据边缘点的坐标得到深度图像中包围目标物的多边形框。

可选地，接收深度图像中目标物所在区域的边缘点的坐标，包括：通过接收到的鼠标点击位置的信息确定目标物所在区域的边缘点的坐标；其中，鼠标与控制设备连接。

需要补充说明的是，识别深度图像中静态背景区域，将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像可以在接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，在深度图像中，将多边型框之外的图像区域设置为黑色、将多边型框所包围的图像区域设置为白色，得到第二图像之前执行，或者，也可以在接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，在深度图像中，将多边型框之外的图像区域设置为黑色、将多边型框所包围的图像区域设置为白色，得到第二图像之后执行，或者，还可以与接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，在深度图像中，将多边型框之外的图像区域设置为黑色、将多边型框所包围的图像区域设置为白色，得到第二图像同时执行，本实施例不对识别深度图像中静态背景区域，将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像与接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，在深度图像中，将多边型框之外的图像区域设置为黑色、将多边型框所包围的图像区域设置为白色，得到第二图像的执行顺序作限定。

可选地，使用第一图像和第二图像生成图像掩膜，包括：将第一图像和第二图像进行与逻辑运算，得到图像掩膜。

可选地，使用图像掩膜在深度图像中确定目标图像区域，包括：将图像掩膜和深度图像进行与逻辑运算，得到目标图像区域。

在其它实施例中，目标图像区域也可以是人工对深度图像进行选择得到的，本实施例不对目标图像区域的获取方式作限定。

步骤203，获取目标图像区域对应三维点云数据。

可选地，深度图像由采集设备采集，目标图像区域的坐标为图像坐标，获取目标图像区域对应三维点云数据，包括：获取采集设备的内参和外参；基于内参和外参，将目标图像区域的图像坐标转换至世界坐标系，得到目标图像区域对应三维点云数据。

可选地，内参包括采集设备的焦距，主点位置，以及像素和真实环境大小的比例。

可选地，外参包括平移矩阵和旋转矩阵；其中平移矩阵表示在x、y、z三个方向上的平移量，旋转角度表示绕x、y、z三个轴的旋转角度。

可选地，获取采集设备的内参和外参，包括：对采集设备进行标定，得到采集设备的内参和外参。

其中，可以使用MATLAB对采集设备进行标定，或者，也可以使用Opencv对采集设备进行标定，本实施例不对采集设备的标定方法作限定。

可选地，基于内参和外参，将目标抓取区域的图像坐标转换至世界坐标系，包括：使用图像坐标和内参，计算目标抓取区域的相机坐标；使用相机坐标和外参，计算目标抓取区域的世界坐标。

可选地，使用图像坐标和内参，计算目标抓取区域的相机坐标，通过下式表示：

其中，

为图像坐标；K为内参；

为相机坐标。

可选地，使用相机坐标和外参，计算目标抓取区域的世界坐标，通过下式表示：

其中，

为相机坐标；

为外参；R为旋转矩阵；T为平移矩阵；

为世界坐标。

步骤204，将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，以供抓取设备按照最佳抓取策略抓取目标物；最佳抓取策略包括最佳抓取位置信息和最佳抓取位姿信息；其中，抓取策略预测模型用于预测使用多种抓取位姿对目标物上不同的位置进行抓取时抓取成功的概率，最佳抓取策略为抓取目标物成功的概率最高时对应的抓取策略。

其中，抓取位置信息是指抓取点的三维空间坐标，抓取位姿信息是指抓取设备在抓取位置抓取目标物的方向信息。

可选地，策略预测模型包括概率预测子模型，概率预测子模型用于预测利用每种抓取策略抓取目标物时抓取成功的概率。

可选地，将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，包括：基于三维点云数据选取n个初始采样点，并确定n个初始采样点的抓取位姿；n为正整数；将本次选取的采样点和每个采样点对应的抓取位姿输入概率预测子模型，得到利用每个采样点和对应的抓取位姿构成的抓取策略抓取目标物时成功的概率；将每个采样点对应的概率按照由大到小的顺序排序，并确定排序在前m位的采样点，得到m个采样点；m为小于或等于输入模型的采样点的数量；使用高斯混合模型拟合m个采样点的分布情况，得到采样点分布；基于采样点分布选取k个采样点，并确定k个采样点的抓取位姿，再次执行将本次选取的采样点和每个采样点对应的抓取位姿输入概率预测子模型的步骤，直至概率预测子模型的预测次数达到预设次数时停止，k为正整数；将最后一次预测时概率最高的采样点和对应的抓取位姿确定为目标物的最佳抓取策略。

可选地，对于n个初始采样点和k个采样点中的每个采样点，确定采样点的抓取位姿，包括：从三维点云数据中选择与采样点之间的距离小于预设距离、且位于目标物表面的邻近点；计算采样点和邻近点构成的表面的表面法线，表面法线的方向为采样点的抓取位姿，且表面法线的方向指向目标物内部。

可选地，概率预测子模型是采用多个抓取策略训练得到的，其中每个抓取策略都能成功的抓取目标物。

可选地，概率预测子模型是采用多个抓取策略训练得到的，包括：获取训练数据，训练数据包括多个样本区域深度图像和每个样本区域深度图像对应的标签，标签包括多个抓取位置信息和每个抓取位置对应的抓取位姿信息；创建初始网络模型，初始网络模型的模型结构与预测子模型的模型结构相同；将训练数据输入初始网络模型，得到初始模型结果；基于初始模型结果迭代更新预测子模型的参数，得到预测子模型。

可选地，基于初始模型结果迭代更新预测子模型的参数，得到预测子模型，包括：基于初始模型结果迭代更新预测子模型的参数，当损失函数收敛时，得到预测子模型。

可选地，基于初始模型结果迭代更新预测子模型的参数，当损失函数收敛时，得到预测子模型，包括：损失函数通过下式表示：

θ_g∈Θ (R_i，u_i，y_i)∈D_g

其中，y为抓取位置信息，u为抓取位姿信息，R为抓取成功的标签，θ为神经网络，D为数据集，

为用于训练概率预测子模型的交叉熵损失。

可选地，基于采样点分布选取k个采样点，包括：随机生成k个服从采样点分布的随机点；按照采样点分布的混合比将k个随机点分配给采样点分布的多个子高斯模型；将每个随机点的位置信息除以对应的子高斯模型的标准差并加上对应的子高斯模型的均值得到k个采样点的位置信息。

综上所述，本实施例提供的目标物的抓取方法，通过获取待抓取区域的深度图像；提取深度图像中待抓取的目标物对应的目标图像区域；获取目标图像区域对应三维点云数据；将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，以供抓取设备按照最佳抓取策略抓取目标物；可以解决当多个目标物堆叠摆放时，现有的目标物抓取方法无法准确地识别待抓取区域中堆叠放置的目标物的具体位置，而导致的因目标物的空间位置定位错误，而无法准确抓取的目标物的问题；由于最佳抓取策略是基于目标图像区域对应三维点云数据生成的，所以最佳抓取策略可以准确地反映待抓取区域中目标物的三维信息，在目标物堆叠放置时，可以准确定位目标物位置，所以可以提高目标物抓取的准确性。

另外，由于使用高斯混合模型拟合采样点的分布，并根据采样点的分布重新选择采样点，重新预测抓取策略，并将最后一次预测时概率最高的采样点和对应的抓取位姿确定为目标物的最佳抓取策略，提高了采样点选取的抓准确性，可以避免遗漏最佳抓取位置的问题，使得到的最佳抓取策略更具有代表性，所以可以提高目标物抓取的准确性。

为了更清楚地理解本申请提供的目标物的抓取方法，下面对该方法举一个实例进行说明。参考图5，图5是本申请一个实施例提供的目标物的抓取方法的流程图，本实施例以该方法用于图1所示的目标物的抓取系统的控制设备120中为例进行说明，该方法至少包括以下几个步骤：

步骤501，获取待抓取区域的深度图像。

步骤502，获取静态背景图像，静态背景图像为在当前抓取场景中未放置目标物时得到的图像。

步骤503，对静态背景图像和深度图像分别进行灰度化处理。

步骤504，将深度图像对应的灰度图像与静态背景图像对应的灰度图像进行图像减法操作，得到深度图像中的静态背景区域和非静态背景区域。

步骤505，将静态背景区域设置为黑色、将深度图像中的非静态背景区域的设置为白色，得到第一图像。

步骤506，接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框。

步骤507，在深度图像中，将多边型框之外的图像区域设置为黑色、将多边型框所包围的图像区域设置为白色，得到第二图像。

需要补充说明的是，步骤502,步骤503,步骤504和步骤505可以在步骤506和步骤507之前执行，或者，也可以在步骤506和步骤507之后执行，或者，还可以与步骤506和步骤507同时执行，本实施例不对步骤502,步骤503,步骤504和步骤505与步骤506和步骤507的执行顺序作限定。

步骤508，将第一图像和第二图像进行与逻辑运算，得到图像掩膜。

步骤509，使用图像掩膜在深度图像中确定目标图像区域。

步骤510，获取采集设备的内参和外参。

步骤511，使用图像坐标和内参，计算目标抓取区域的相机坐标。

步骤512，使用相机坐标和外参，计算目标抓取区域的世界坐标，得到目标图像区域对应三维点云数据。

步骤513，基于三维点云数据选取n个初始采样点，n为正整数。

步骤514，从三维点云数据中选择与采样点之间的距离小于预设距离、且位于目标物表面的邻近点。

步骤515，计算采样点和邻近点构成的表面的表面法线，表面法线的方向为采样点的抓取位姿，且表面法线的方向指向目标物内部。

步骤516，将本次选取的采样点和每个采样点对应的抓取位姿输入概率预测子模型，得到利用每个采样点和对应的抓取位姿构成的抓取策略抓取目标物时成功的概率。

步骤517，判断概率预测子模型执行的次数是否达到预设次数；如果概率预测子模型执行的次数达到预定次数，执行步骤521；如果概率预测子模型执行的次数没有达到预定次数，执行步骤518。

步骤518，将每个采样点对应的概率按照由大到小的顺序排序，并确定排序在前m位的采样点，得到m个采样点；m为小于或等于输入模型的采样点的数量。

步骤519，使用高斯混合模型拟合m个采样点的分布情况，得到采样点分布。

步骤520，基于采样点分布选取k个采样点，k为正整数，执行步骤514。

步骤521，将最后一次预测时概率最高的采样点和对应的抓取位姿确定为目标物的最佳抓取策略。

根据上述实施例可知，本申请提供的目标物的抓取方法，由于接收对深度图像中目标物所在区域的框选操作，得到深度图像中包围目标物的多边型框，可以将抓取范围缩小至目标物所在的区域，然后再针对目标物所在的区域进行计算，生成抓取策略，在减少了生成最佳抓取策略时计算量的同时，也可以避免抓取过程中待抓取区域中动态移动的物体对抓取策略生成的影响，提高了抓取的准确性。

图6是本申请一个实施例提供的目标物的抓取装置的框图。该装置用于图1所示的目标物的抓取系统的控制设备120中为例进行说明，该装置至少包括以下几个模块：图像获取模块610、区域提取模块620、点云获取模块630和策略生成模块610。

图像获取模块610，用于获取待抓取区域的深度图像；

区域提取模块620，用于提取深度图像中待抓取的目标物对应的目标图像区域；

点云获取模块630，用于获取目标图像区域对应三维点云数据；

策略生成模块640，用于将三维点云数据输入预先训练的抓取策略预测模型，得到目标物的最佳抓取策略，以供抓取设备按照最佳抓取策略抓取目标物；最佳抓取策略包括最佳抓取位置信息和最佳抓取位姿信息；其中，抓取策略预测模型用于预测使用多种抓取位姿对目标物上不同的位置进行抓取时抓取成功的概率，最佳抓取策略为抓取目标物成功的概率最高时对应的抓取策略。

相关细节参考上述方法实施例。

需要说明的是：上述实施例中提供的目标物的抓取装置在进行目标物的抓取时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将目标物的抓取装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标物的抓取装置与目标物的抓取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本申请一个实施例提供的目标物的抓取装置的框图。该装置包括图1所示的目标物的抓取系统中的控制设备120。该装置至少包括处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的目标物的抓取方法。

在一些实施例中，目标物的抓取装置还可选包括有：外围设备接口和至少一个外围设备。处理器701、存储器702和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。示意性地，外围设备包括但不限于：射频电路、触摸显示屏、音频电路、和电源等。

当然，目标物的抓取装置还可以包括更少或更多的组件，本实施例对此不作限定。

可选地，本申请还提供有一种计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的目标物的抓取方法。

可选地，本申请还提供有一种计算机产品，该计算机产品包括计算机可读存储介质，所述计算机可读存储介质中存储有程序，所述程序由处理器加载并执行以实现上述方法实施例的目标物的抓取方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标物的抓取方法，其特征在于，所述方法包括：

获取待抓取区域的深度图像；

提取所述深度图像中待抓取的目标物对应的目标图像区域；

获取所述目标图像区域对应三维点云数据；

2.根据权利要求1所述的方法，其特征在于，所述策略预测模型包括概率预测子模型，所述概率预测子模型用于预测利用每种抓取策略抓取所述目标物时抓取成功的概率；所述将所述三维点云数据输入预先训练的抓取策略预测模型，得到所述目标物的最佳抓取策略，包括：

3.根据权利要求2所述的方法，其特征在于，对于所述n个初始采样点和所述k个采样点中的每个采样点，确定所述采样点的抓取位姿，包括：

4.根据权利要求1所述的方法，其特征在于，所述提取所述深度图像中待抓取的目标物对应的目标图像区域，包括：

识别所述深度图像中静态背景区域；

使用所述第一图像和所述第二图像生成图像掩膜；

5.根据权利要求4所述的方法，其特征在于，所述识别所述深度图像中静态背景区域，包括：

对所述静态背景图像和所述深度图像分别进行灰度化处理；

6.根据权利要求4所述的方法，其特征在于，所述使用所述第一图像和所述第二图像生成图像掩膜，包括：

7.根据权利要求1所述的方法，其特征在于，所述深度图像由采集设备采集，所述目标图像区域通过所述目标图像区域在所述深度图像中的图像坐标表示，所述获取所述目标图像区域对应三维点云数据，包括：

获取所述采集设备的内参和外参；

8.根据权利要求7所述的方法，其特征在于，所述基于所述内参和所述外参，将所述目标抓取区域的图像坐标转换至世界坐标系，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；所述存储器中存储有程序，所述程序由所述处理器加载并执行以实现如权利要求1至8任一项所述的目标物的抓取方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有程序，所述程序被处理器执行时用于实现如权利要求1至8任一项所述的目标物的抓取方法。