CN111644398A

CN111644398A - 一种基于双视角的推抓协同分拣网络及其分拣方法和系统

Info

Publication number: CN111644398A
Application number: CN202010471572.3A
Authority: CN
Inventors: 彭刚; 廖金虎
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-11

Abstract

本发明公开了一种基于双视角的推抓协同分拣网络及其分拣方法和系统，本发明训练的推抓协同分拣网络包括推动全卷积网络和抓取全卷积网络，该网络应用于机器人推抓协同分拣，分拣方法包括：分别从两个视角采集待分拣物体场景的点云图，对点云图的俯视图进行旋转，将多张旋转图像分别输入推动全卷积网络和抓取全卷积网络，得到两个网络输出的带有Q值的热力图，选取其中较大Q值的热力图作为最终的热力图；根据该热力图中最大Q值对应的像素点以及该热力图对应的旋转图像的旋转角度，控制机器人执行该热力图对应网络的分拣动作，进而完成分拣。本发明采用双视角结合深度Q学习，在面对杂乱堆叠场景时，抓取成功率高、泛化能力强。

Description

一种基于双视角的推抓协同分拣网络及其分拣方法和系统

技术领域

本发明属于机器人应用技术领域，更具体地，涉及一种基于双视角的推抓协同分拣网络及其分拣方法和系统。

背景技术

物体抓取作为机器人分拣操作的主要手段，机器人抓取操作能力的高低直接决定了分拣的效率，鲁棒高效的分拣物体是当前机器人学的研究热点。当前的物体抓取方法大多是针对非堆叠式的物体场景，利用相机拍摄场景图片，结合传统图像处理方法以及机器学习的方法，进行物体的分割与识别。但随着工业应用场景越来越复杂，往往会存在多种目标物体、物体位姿的任意摆放、多个物体间的相互接触与遮挡等不利于分拣的情况。传统的抓取方式在面对上述情形时很难完成分拣任务。

最近，基于深度Q学习(Deep Q Network，DQN)算法的深度强化学习抓取策略为分拣任务提供了新的方向。由于深度强化学习结合了深度学习感知能力和强化学习的决策能力，使得学习得到的抓取策略能应对更为复杂的抓取场景。但是当前基于深度强化学习的抓取策略在面对杂乱堆叠场景时抓取成功率低，泛化能力较差。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于双视角的推抓协同分拣网络及其分拣方法和系统，由此解决现有技术存在面对杂乱堆叠场景时抓取成功率低，泛化能力差的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于双视角的推抓协同分拣网络的训练方法，包括如下步骤：

(1)分别从两个视角采集样本场景的样本点云图，对样本点云图的俯视图进行旋转，得到多张旋转样本图像；

(2)将多张旋转样本图像输入到推抓协同分拣网络，推抓协同分拣网络包括推动全卷积网络和抓取全卷积网络，两个全卷积网络分别输出带有Q值的样本热力图，将推动全卷积网络中最大Q值与抓取全卷积网络中最大Q值进行比较，选取其中较大Q值的样本热力图作为目标热力图；

(3)根据目标热力图中最大Q值对应的像素点以及该热力图对应的旋转图像的旋转角度，选择该热力图对应网络的分拣动作，作为机械臂的执行动作，并根据分拣动作进行奖励计算；

(4)利用计算结果更新目标热力图对应全卷积网络的网络参数，然后返回步骤(1)进行下一次迭代，当迭代次数达到预设值时，得到训练好的推抓协同分拣网络。

按照本发明的另一方面，提供了一种基于双视角的推抓协同分拣网络，所述推抓协同分拣网络通过推抓协同分拣网络的训练方法训练得到，所述推抓协同分拣网络中推动全卷积网络和抓取全卷积网络的网络结构相同，

每个全卷积网络结构包括DenseNet121网络与两个卷积层进行通道级联，每个卷积层带有ReLU激活函数以及批量归一化，并进行双线性上采样。

按照本发明的另一方面，提供了一种基于双视角的推抓协同分拣方法，包括如下步骤：

(1)分别从两个视角采集待分拣物体场景的点云图，对点云图的俯视图进行旋转，得到多张旋转图像；

(2)将多张旋转图像分别输入到经过本发明所述训练方法训练得到的推抓协同分拣网络，得到推动全卷积网络和抓取全卷积网络输出的带有Q值的热力图，将推动全卷积网络中最大Q值与抓取全卷积网络中最大Q值进行比较，选取其中较大Q值的热力图作为最终的热力图；

(3)根据最终的热力图中最大Q值对应的像素点以及该热力图对应的旋转图像的旋转角度，控制机械臂执行该热力图对应网络的分拣动作，根据分拣动作进行奖励计算，利用计算结果更新最终的热力图对应网络的网络参数；

(4)判断待分拣物体场景中待分拣对象是否分拣完成，若完成，则结束分拣，否则返回步骤(1)。

进一步地，旋转的具体实现方式为：

对两个视角下点云图的俯视图分别进行旋转，每360°/n旋转一次，其中n＝2的m次幂，m为大于等于1的整数。

进一步地，分拣动作为推动动作或抓取动作。

进一步地，推动动作为：

以最终的热力图中的像素点坐标为起始位置，机械臂末端沿着最终的热力图对应的旋转图像的旋转方向，推动物体，推动距离为物体几何形状长边长度的一半。

进一步地，抓取动作为：

以最终的热力图中的像素点坐标为机械臂末端夹爪中心运动的目标位置，机械臂末端旋转到最终的热力图对应的旋转图像的旋转方向，对物体进行抓取。

进一步地，奖励计算的具体实现方式为：

其中，R为分拣动作后推动全卷积网络或抓取全卷积网络的奖励函数的计算结果，

为推动全卷积网络或抓取全卷积网络将获得的奖励，a为分拣动作，R_G为抓取动作的奖励，R_P为推动动作的奖励，τ为推动后场景的像素变化率。

按照本发明的另一方面，提供了一种基于双视角的推抓协同分拣系统，包括：

图像处理模块，用于分别从两个视角采集待分拣物体场景的点云图，对点云图的俯视图进行旋转，得到多张旋转图像；

热力图选择模块，用于将多张旋转图像分别输入到经过本发明所述训练方法训练得到的推抓协同分拣网络，得到推动全卷积网络和抓取全卷积网络输出的带有Q值的热力图，将推动全卷积网络中最大Q值与抓取全卷积网络中最大Q值进行比较，选取其中较大Q值的热力图作为最终的热力图；

分拣模块，用于根据最终的热力图中最大Q值对应的像素点以及该热力图对应的旋转图像的旋转角度，控制机械臂执行该热力图对应网络的分拣动作，根据分拣动作进行奖励计算，利用计算结果更新最终的热力图对应网络的网络参数；

判断模块，用于判断待分拣物体场景中待分拣对象是否分拣完成，若完成，则结束分拣，否则重新执行图像处理模块。

进一步地，分拣模块包括：

推动模块，用于以最终的热力图中的像素点坐标为起始位置，机械臂末端沿着最终的热力图对应的旋转图像的旋转方向，推动物体，推动距离为物体几何形状长边长度的一半；

抓取模块，用于以最终的热力图中的像素点坐标为机械臂末端夹爪中心运动的目标位置，机械臂末端旋转到最终的热力图对应的旋转图像的旋转方向，对物体进行抓取。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明在训练网络时采用双视角获取样本图像，基于深度Q学习进行相应训练，由此训练得到的推动全卷积网络和抓取全卷积网络在面对杂乱堆叠场景时抓取成功率高、泛化能力强。

(2)在机械臂进行分拣之前，本发明先对推抓协同分拣网络进行训练，得到较优的网络参数，当机械臂执行分拣任务时，继续对训练得到的推抓协同分拣网络参数进行更新，以得到更优的网络参数，这样既可以避免由于面向相同的样本场景训练，而导致的网络参数易饱和问题，又可以针对待分拣物体场景进一步优化网络参数，提高抓取成功率，从而提高了分拣效率。

(3)本发明采用双视角获取待抓取区域的物体信息，相比单一视角可获取更加全面的物体信息，避免了单视角下物体信息的缺失，提高了算法的感知能力。对点云图的俯视图分别进行旋转，以便进行分拣动作的方向选择。

(4)本发明引入推动动作，打乱了杂乱分拣物体场景中物体的排列顺序，使得底部的物体更容易被抓取，提高了抓取成功率。

(5)本发明采用多级奖励函数，避免现有技术中单一奖励导致的稀疏性奖励的问题，多级奖励的引入加快了网络收敛。

(6)由于引入了深度学习的感知能力，本发明方法针对场景中未知物体的抓取也具有一定的泛化能力。

(7)本发明通过实验证明，本发明的分拣方法，相比单视角、仅抓取以及单一奖励的方法具有更快的收敛速度和更高的抓取成功率，本发明提出的方法经过180次迭代达到了83.5％的抓取成功率。

附图说明

图1是本发明提供的基于双视角的推抓协同分拣方法的流程图；

图2是本发明实施例1提供的基于双视角的推抓协同分拣方法的杂乱堆叠场景示例；

图3(a)是本发明实施例1提供的单视角下相邻物体的俯视图；

图3(b)是本发明实施例1提供的单视角下堆叠物体的俯视图；

图4(a)是本发明实施例1提供的两个视角下的一个俯视图；

图4(b)是本发明实施例1提供的两个视角下的另一个俯视图；

图5是本发明实施例1提供的基于双视角的推抓协同分拣方法的热力图筛选过程；

图6(a)是本发明实施例1提供的机械臂初始化阶段示意图；

图6(b)是本发明实施例1提供的机械臂根据本发明方法进行抓取的效果图；

图6(c)是本发明实施例1提供的机械臂根据本发明方法进行推动的效果图；

图7是本发明实施例1提供的基于双视角的推抓协同分拣方法的性能曲线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，一种基于双视角的推抓协同分拣方法，包括如下步骤：

(2)将多张旋转图像分别输入到经过本发明训练方法训练得到的推抓协同分拣网络，得到推动全卷积网络和抓取全卷积网络输出的带有Q值的热力图，将推动全卷积网络中最大Q值与抓取全卷积网络中最大Q值进行比较，选取其中较大Q值的热力图作为最终的热力图；

进一步地，旋转的具体实现方式为：

进一步地，分拣动作为推动动作或抓取动作。

进一步地，推动动作为：

进一步地，抓取动作为：

进一步地，奖励计算的具体实现方式为：

进一步地，网络参数指DenseNet121网络以及两个卷积层的参数。

实施例1

步骤1、对于如图2所示的杂乱堆叠场景，采用两个双目相机，分别从两个视角采集待分拣物体场景的点云图。由于单视角拍摄场景得到的点云图，会存在部分物体信息的缺失，如图3(a)单视角下的相邻物体、图3(b)单视角下的堆叠物体。所以本发明采用两个视角获取物体信息，可以得到更为完整的物体信息。

步骤2、将步骤1中所得点云图进行俯视投影，得到两个视角下的俯视图，如图4(a)和4(b)所示。

步骤3、将步骤2中得到的两个视角下的俯视图分别进行旋转，每22.5°旋转一次，分别得到16张旋转图像，总共可以得到两个视角下的32张旋转图像。将这32张旋转图像分别输入到已训练好的推动全卷积网络和抓取全卷积网络中，两个网络分别输出32张带有Q值的热力图。

具体的，推动全卷积网络和抓取全卷积网络具有相同的网络结构，每个网络结构包括预训练好的DenseNet121网络，然后与两个1×1的卷积层进行通道级联，每个卷积层带有ReLU激活函数以及批量归一化，再进行双线性上采样，最后输出与输入图像相同尺寸大小的带有Q值的热力图。

步骤4、将步骤3中两个网络得到的热力图的Q值分别进行排序，选取推动网络中最大Q值对应的热力图，以及抓取网络中最大Q值对应的热力图。比较推动网络最大Q值的热力图与抓取网络最大Q值的热力图，选取其中较大Q值的热力图作为最终选择的热力图。热力图筛选过程如图5所示。

步骤5、根据步骤4中选择的热力图中最大Q值对应的像素点，以及该热力图对应的旋转图像的旋转角度，控制机械臂执行该热力图对应网络的分拣动作，根据分拣动作进行对应的推动奖励函数计算或者抓取奖励函数计算。

进一步的，步骤5中所选择的分拣动作包括推动网络对应的推动动作、抓取网络对应的抓取动作，具体的：

推动动作指的是：以最大Q值对应的热力图中的像素点坐标为起始位置，机械臂末端沿着热力图对应的旋转图像的旋转方向，对物体推动5cm；

抓取动作指的是：以最大Q值对应的热力图中的像素点坐标为机械臂末端夹爪中心运动的目标位置，机械臂末端旋转到热力图对应的旋转图像的旋转方向，对物体进行抓取。

进一步的，步骤5中，奖励函数采用多级奖励函数，计算方式为：

R为机械臂对待分拣物体场景执行分拣动作后，推动网络或抓取网络的奖励函数计算结果。

进一步的，R_G为抓取动作的奖励，抓取成功时R_G＝1，抓取失败时R_G＝-1。

进一步的，R_P为推动动作的奖励，如果推动后场景的像素变化率τ在10％～24％，则给出奖励R_P＝0.3；如果τ在24％～40％，则给出奖励R_P＝0.5；如果τ在40％～100％，则给出奖励R_P＝0.7；其余情况，则给出奖励R_P＝-0.1。

步骤6、根据推动奖励函数计算结果或抓取奖励函数计算结果，更新所选择的热力图对应网络的网络参数；

步骤7、判断待分拣物体场景中是否还存在杂乱堆放的分拣物体，若不存在，则结束分拣，否则返回步骤1。

下面对采用本发明专利方法进行分拣的效果进行说明：

如图6所示，为基于双视角和深度Q学习的机器人推抓协同分拣方法的分拣效果，其中图6(a)表示机械臂初始化阶段，图6(b)表示机械臂根据本发明方法进行抓取，图6(c)表示机械臂根据本发明方法进行推动。

如图7所示，为基于双视角和深度Q学习的机器人推抓协同分拣方法的性能曲线。可以看出：单视角的策略经过170次迭代达到了76.1％的抓取成功率，仅抓取的策略经过180次迭代达到了57.3％的抓取成功率，单一奖励的策略经过200次迭代达到了78.5％的抓取成功率，而本发明提出的方法经过180次迭代达到了83.5％的抓取成功率。因此，本发明的分拣方法，相比单视角、仅抓取以及单一奖励的方法具有更快的收敛速度和更高的抓取成功率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双视角的推抓协同分拣网络的训练方法，其特征在于，包括如下步骤：

2.一种基于双视角的推抓协同分拣网络，其特征在于，所述推抓协同分拣网络通过如权利要求1所述的推抓协同分拣网络的训练方法训练得到，所述推抓协同分拣网络中推动全卷积网络和抓取全卷积网络的网络结构相同，

3.一种基于双视角的推抓协同分拣方法，其特征在于，包括如下步骤：

(2)将多张旋转图像分别输入到经过权利要求1所述训练方法训练得到的推抓协同分拣网络，得到推动全卷积网络和抓取全卷积网络输出的带有Q值的热力图，将推动全卷积网络中最大Q值与抓取全卷积网络中最大Q值进行比较，选取其中较大Q值的热力图作为最终的热力图；

4.如权利要求3所述的一种基于双视角的推抓协同分拣方法，其特征在于，所述旋转的具体实现方式为：

5.如权利要求3或4所述的一种基于双视角的推抓协同分拣方法，其特征在于，所述分拣动作为推动动作或抓取动作。

6.如权利要求5所述的一种基于双视角的推抓协同分拣方法，其特征在于，所述推动动作为：

7.如权利要求5所述的一种基于双视角的推抓协同分拣方法，其特征在于，所述抓取动作为：

8.如权利要求5所述的一种基于双视角的推抓协同分拣方法，其特征在于，所述奖励计算的具体实现方式为：

9.一种基于双视角的推抓协同分拣系统，其特征在于，包括：

热力图选择模块，用于将多张旋转图像分别输入到经过权利要求1所述训练方法训练得到的推抓协同分拣网络，得到推动全卷积网络和抓取全卷积网络输出的带有Q值的热力图，将推动全卷积网络中最大Q值与抓取全卷积网络中最大Q值进行比较，选取其中较大Q值的热力图作为最终的热力图；

10.如权利要求9所述的一种基于双视角的推抓协同分拣系统，其特征在于，所述分拣模块包括：