CN111844101B

CN111844101B - 一种多指灵巧手分拣规划方法

Info

Publication number: CN111844101B
Application number: CN202010762978.7A
Authority: CN
Inventors: 尚伟伟; 赵增智; 何浩源; 张飞; 丛爽
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-09-06
Anticipated expiration: 2040-07-31
Also published as: CN111844101A

Abstract

本发明公开了一种多指灵巧手分拣规划方法，包括：捕捉包含目标物体的彩色图像与深度图像；基于单图多框目标检测网络，从彩色图像中提取出若干包含单个目标物体的边界框，并基于边界框从深度图像中裁剪出相应的目标物体的深度图像；对于每个目标物体，若通过判断确定数据库中存在包含相同单个目标物体的深度图像，则提取数据库中相应的抓取点与抓取质量；否则，基于目标物体的深度图像计算抓取点与抓取质量；基于各目标物体对应的抓取质量，决策目标物体分拣次序，从而结合目标物体对应的抓取点驱动多指灵巧手抓取目标物体，并分拣至指定区域。该方法采用基于深度学习的规划策略，能在提升泛化性的同时，让多指灵巧手更有效地学习人类的行为。

Description

一种多指灵巧手分拣规划方法

技术领域

本发明涉及机器人分拣规划领域，尤其涉及一种多指灵巧手分拣规划方法。

背景技术

在机器人的发展历史中，稳定且高效的抓取操作一直是机器人的基础功能之一，根据机器人所处的场景不同，可以将抓取操作进行封装，应用于各种较为复杂的日常任务之中，而分拣操作便是其中之一。因此，可以从人类对于分拣操作的潜意识中寻找某些固有规律，将其应用于机器人的分拣操作中。

多年以来，机器人的分拣操作已经在工业生产中有了较为成熟的应用，可以对固定种类的产品或零件实现固定模式的分拣操作，但是难以应用于生活场景中的未知物体，其特点是形状、大小并不固定。而因为工业生产中大多使用平行夹持器作为末端执行器，所以，大部分分拣规划方法都是针对平行夹持器进行优化，没有将多指灵巧手作为研究重点。因此，结合对多指灵巧手的分拣规划问题进行研究意义重大。

发明内容

本发明的目的是提供一种多指灵巧手分拣规划方法，采用基于深度学习的规划策略，能在提升泛化性的同时，让多指灵巧手更有效地学习人类的行为。

本发明的目的是通过以下技术方案实现的：

一种多指灵巧手分拣规划方法，包括：

捕捉包含目标物体的彩色图像与深度图像；

基于单图多框目标检测网络，从彩色图像中提取出若干包含单个目标物体的边界框，并基于提取出的边界框从深度图像中裁剪出相应的目标物体的深度图像；

对于每个目标物体，若通过判断确定数据库中存在包含相同单个目标物体的深度图像，则提取数据库中相应的抓取点与抓取质量；否则，基于目标物体的深度图像计算抓取点与抓取质量；基于各目标物体对应的抓取质量，决策目标物体分拣次序，从而结合目标物体对应的抓取点驱动多指灵巧手抓取目标物体，并分拣至指定区域。

由上述本发明提供的技术方案可以看出，将抓取规划方法应用于的包含单个目标物体的深度图像，不仅将针对多个目标物体的分拣任务拆分为多个针对单个目标物体的抓取任务，还可以避免多个目标物体之间可能存在堆叠、遮挡等相互干扰的情况；并且，通过以提取目标物体分布的方式，达到在未获知完整场景信息的情形下，对多指灵巧手的分拣操作进行规划的目标。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种多指灵巧手分拣规划方法的流程图；

图2为本发明实施例提供的单图多框目标检测网络的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种多指灵巧手分拣规划方法，如图1所示，其主要包括：

1、捕捉包含目标物体的彩色图像I_rgb与深度图像I_depth。

本发明实施例中，同相机实时捕捉包含目标物体的彩色图像与深度图像，相机可以集成在机器人内，也可以分离设置，设置方式不影响方案的实现。

2、基于单图多框目标检测网络，从彩色图像中提取出若干包含单个目标物体的边界框，并基于提取出的边界框从深度图像中裁剪出相应的目标物体的深度图像。

如图2所示，为基于单图多框目标检测网络，其主要包括：特征提取器(Featureextractor)与回归计算部分(Regression)。

1)特征提取器。

所述特征提取器主要包括：交替设置的

个卷积核大小和数量不同的卷积层、与

个池化核大小相同的池化层，其中

如图2所示，底部的虚线框示意性的给出了特征提取器中卷积层与池化层的数目，以及相关的参数。

本发明实施例中，所述特征提取器主要用于从彩色图像中提取若干特征图并输入至回归计算部分；此处的特征图是图像的全局特征，还没有进行目标物体的分割。

2)回归计算部分。

所述回归计算部分主要包括：交替设置的

个卷积核大小和数量不同的卷积层与

个池化核大小相同的池化层、以及针对每个特征图的探测卷积核(Detector)，其中

如图2所示，中间部分的虚线框示意性的给出了回归计算部分中交替设置卷积层与池化层的数目，Detector中的c表示图像中物体类别的数量。

所述回归计算部分，在特征图的每个像素采样不同的默认框，使用

个探测卷积核作为回归工具，计算得到检测值，每个探测卷积核对应一个检测值，即某个类别的置信度或边界框转换值的某个分量；根据转换值将默认框转换为候选边界框，从而得到每个候选边界框的位置和尺寸，并将默认框的类别置信度作为相应候选边界框的类别置信度。

本发明实施例中，所述默认框为在特征图的每个像素上设置的多个尺寸或长宽比的矩形框，表示为：d＝{d^cx,d^cy,d^w,d^h}；所述候选边界框为以默认框为基准的恰好包含单个目标物体的矩形框或者包含背景的边界框，表示为：b＝{b^cx,b^cy,b^w,b^h}，其中，上标cx、cy表示x、y位置，上标w、h分别为矩形框的宽、高。

候选边界框相对于默认框的转换值为：l＝{l^cx,l^cy,l^w,l^h}，可以表示为：

通过转换值可以将预设的一系列固定大小、长宽比的默认框转换为边界框。

由于候选边界框中存在包含目标物体的边界框、以及仅包含背景的边界框，因此，还需要对通过上述方式获得的候选边界框做进一步处理，即：由于彩色图像中只包含物体和背景两个类别，因此根据每个候选边界框的类别置信度中的最大值确定候选边界框中是否包含物体，从而剔除只包含背景的候选边界框，再利用阈值对候选边界框进行筛选，从而剔除类别置信度较低的候选边界框，只保留类别置信度最大值高于阈值的候选边界框；之后，使用非极大值抑制算法(Non-Maximun Suppression)，剔除交集区域超过设定范围的候选边界框，只保留其中一个即可，剩余的候选边界框即为单图多框目标检测网络的预测结果；预测结果即为选出的各边界框的位置和尺寸。

另一方面，上述单图多框目标检测网络需要预先进行训练，训练过程与测试过程的工作过程相同，区别在于，测试过程只需要利用预测到的边界框位置与尺寸，训练过程还需要利用边界框的类别置信度，以构建损失函数。

训练过程的损失函数包含边界框误差和类别置信度误差，表示为：

其中，x为指示参数，表明默认框与真实边界框的对应关系(即每一默认框与具体某个真实框相对应)；l为location，即上文的候选边界框相对于默认框的转换值，g为真实的边界框，C为目标物体的类别，N为数据量，L_loc为边界框误差，L_conf为类别置信度误差。

测试阶段，通过单图多框目标检测网络，得到若干(数目可记为

)包含单个目标物体的边界框，基于边界框的位置很尺寸，对深度图像进行裁剪，获得每个目标对应的深度图像。

3、对于每个目标物体，若通过判断确定数据库中存在包含相同单个目标物体的深度图像，则提取数据库中相应的抓取点与抓取质量；否则，基于目标物体的深度图像计算抓取点与抓取质量；基于各目标物体对应的抓取质量，决策目标物体分拣次序，从而结合目标物体对应的抓取点驱动多指灵巧手抓取目标物体，并分拣至指定区域。

本步骤的优选实施方式如下：

1)考虑到上述步骤1～步骤3是一个迭代规划的过程，即会不断重复执行，直至不存在任何目标物体为止；因此，为了减少冗余计算，提高决策效率，会预先建立一个数据库

所述数据库

中包含多幅单个目标物体对应的深度图像，以及每一目标物体对应的预期抓取点与预期抓取质量，即“目标物体→预期抓取点+预期抓取质量”。

2)对于上述步骤2获得的每个目标物体的深度图像，判断数据库

中是否存在包含相同单个目标物体的深度图像。

如果存在，则认为且目标物体的位置与上一时间步的位置类似，无需重新规划抓取点，从而节省计算资源，直接提取数据库中相应的抓取点与抓取质量(即预期抓取点+预期抓取质量)。

如果不存在，则需要重新计算相关的抓取信息，即：对于每个目标物体的深度图像

预测出多组抓取点

再评估每组抓取点的抓取质量，计算出抓取质量的平均值

将数组

存入数据库

其中，可以采用下述方式，判断数据库中是否存在包含相同单个目标物体的深度图像：使用直方图比较法，对裁剪出的目标物体的深度图像与数据库

中的深度图像进行计算，如果相似度大于设定值，那么两个深度图像中包含的目标物体相同，则认定数据库中存在包含相同单个目标物体的深度图像。

3)利用最小堆算法找出平均抓取质量最高的目标物体，再利用运动学反解算法反解计算机器人的关节值，从而驱动多指灵巧手抓取目标物体，之后，从数据库

中删除已抓取的目标物体的相关数组，随后恢复机器人至初始状态(即，多指灵巧手恢复到原始位置)。通过抓取质量可以对目标物体的分拣次序进行决策，从而使用多指灵巧手完成当前步对于单个目标物体的抓取操作。

执行完上述步骤之后，再返回至前述的步骤1重新采集下一时刻的图像，再重新检测目标物体，因为目标物体可能由于本次抓取的碰撞接触而改变了位置，并且下一时刻的图像中包含未抓取的剩余目标物体。

本发明实施例中，所涉及的各项阈值、设定值、设定范围等所涉及的具体数值或者数值范围，可以由用户根据实际情况或者经验自行设定，本发明不做数值限定。

本发明实施例上述方案，主要获得如下有益效果：

1、本发明使用了相机捕捉包含多个目标物体的彩色图像和深度图像，从而有效解决了多个目标物体之间可能存在堆叠、遮挡等相互干扰的问题。

2、本发明使用了单图多框目标检测网络将彩色图像中多个目标物体的位置进行快速检测，并对当前可见的目标物体在深度图像中的前后景进行了分割，将抓取规划方法应用于分割后的包含单个目标物体的深度图像，从而将针对多个目标物体的分拣任务拆分为多个针对单个目标物体的抓取任务。

3、本发明使用了分拣次序决策算法对于多个目标物体的分拣次序进行决策，建立了“目标物体→预期抓取点+预期抓取质量”的数据库，从而提高了决策效率。

4、以检测目标物体分布的方式，达到在未获知完整场景信息的情形下，对多指灵巧手的分拣操作进行规划的目标。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多指灵巧手分拣规划方法，其特征在于，包括：

捕捉包含目标物体的彩色图像与深度图像；

对于每个目标物体，若通过判断确定数据库中存在包含相同单个目标物体的深度图像，则提取数据库中相应的抓取点与抓取质量；否则，基于目标物体的深度图像计算抓取点与抓取质量；基于各目标物体对应的抓取质量，决策目标物体分拣次序，从而结合目标物体对应的抓取点驱动多指灵巧手抓取目标物体，并分拣至指定区域；

其中，所述单图多框目标检测网络包括：特征提取器与回归计算部分；

所述特征提取器从彩色图像中提取若干特征图并输入至回归计算部分；

所述回归计算部分，在特征图的每个像素采样不同的默认框，所述默认框为在特征图的每个像素上设置的多个尺寸或长宽比的矩形框；使用

个探测卷积核作为回归工具，计算得到检测值，每个探测卷积核对应一个检测值，即某个类别的置信度或边界框转换值的某个分量；根据转换值将默认框转换为候选边界框，从而得到每个候选边界框的位置和尺寸，并将默认框的类别置信度作为相应候选边界框的类别置信度，所述候选边界框为以默认框为基准的恰好包含单个目标物体的矩形框或者包含背景的边界框；根据每个候选边界框的类别置信度中的最大值确定候选边界框中是否包含物体，从而剔除只包含背景的候选边界框，再利用阈值对候选边界框进行筛选，保留类别置信度最大值高于阈值的候选边界框；之后，使用非极大值抑制算法，剔除交集区域超过设定范围的边界框，只保留其中一个即可，剩余的候选边界框即为单图多框目标检测网络的预测结果。

2.根据权利要求1所述的一种多指灵巧手分拣规划方法，其特征在于，所述特征提取器包括：交替设置的