CN110238855B

CN110238855B - 一种基于深度逆向强化学习的机器人乱序工件抓取方法

Info

Publication number: CN110238855B
Application number: CN201910550243.5A
Authority: CN
Inventors: 傅建中; 王郑拓; 徐月同; 杨波
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2020-10-16
Anticipated expiration: 2039-06-24
Also published as: CN110238855A

Abstract

本发明公开了一种基于深度逆向强化学习的机器人乱序工件抓取方法。视觉传感器拍摄待抓取的工件图像信息，并传输给信息处理单元；信息处理单元将拍摄的图像生成提取目标工件的三维点云；处理后的三维点云数据输入到深度逆向强化学习处理中，计算机器人运动路径；机器人根据计算获得的运动路径进行工件的抓取。本发明可满足工业生产的需求，只需示教较少的专家演示数据，即可快速实现对特定工件的抓取编程，解决了深度强化学习方法策略适用性不强、抓取能力有限、训练周期长、效率低等缺点。

Description

一种基于深度逆向强化学习的机器人乱序工件抓取方法

技术领域

本发明涉及属于人工智能的一种机器人工件抓取方法，尤其涉及一种基于深度逆向强化学习的机器人乱序工件抓取方法。

背景技术

中国作为全球五大工业机器人消费国之一，在2018年安装量全球占比提升至36.0％，共计安装了138000台工业机器人，同比增长了59％，消费体量已经超过了欧洲和美国的总和。智能制造是中国制造2025的主攻方向，智能化的工业机器人需求量巨大。搬运及上下料的机器人应用占比超过三分之二，对其进行智能化升级所带来的附加价值明显。

随着人工智能深度学习的发展，已开始研究基于人工智能技术深度学习工件视觉，利用预先训练过的深度强化学习网络对照片进行数据降维特征提取；根据特征提取结果得出机器人的控制策略，机器人利用控制策略来控制运动路径和机械手臂的位姿，从而实现目标的自适应抓取。

现有的基于人工智能算法的机器人自适应抓取方法往往是采用深度强化学习方法来实现的。然而，传统强化学习方法在求解高维度状态和动作空间问题时，有较大的局限性，在有限样本和计算单元条件下对复杂函数的表示能力有限，实际应用中的表现往往不是很理想。同时，传统深度强化学习算法需要提供大量的数据进行训练，在训练过程中，机器人需要不断抓取试错，才有可能可以获得稳定的抓取能力。这种训练方法周期长、效率低，在实际训练过程中有安全隐患，往往无法满足工业生产应用的需求。而且，在实际的多步强化学习过程中，回报函数的设计非常困难。

发明内容

为克服现有技术的不足，本发明提供一种基于深度逆向强化学习的机器人乱序工件抓取方法。

本发明采用的技术方案如下：

步骤一，机器人末端侧方固定的视觉传感器拍摄工件平台上的工件，获得待抓取的工件图像，并传输给信息处理单元；

步骤二，信息处理单元将拍摄的图像生成三维点云数据，并采用聚类算法提取目标工件的三维点云作为点云信息；

步骤三，将点云信息输入到深度逆向强化学习处理中，计算机器人运动路径，计算获得的机器人运动路径输出给机器人控制器，控制机器人实施工件抓取。

本发明技术方案中，工件保持固定乱序放置，机器人末端运动对工件进行抓取。

所述步骤三中的深度逆向强化学习处理，具体包括：

包括有生成网络和判别网络的两部分；

A)所述的生成网络主要由第一点云处理单元和路径生成单元串联而成，第一点云处理单元用以处理输入的点云信息输入到路径生成单元，路径生成单元根据输入的点云信息产生机器人运动路径；

第一点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第一子网络结构，但两个第一子网络结构的网络参数/训练不同，具体包括依次连接的随机采样层、感知层和池化层，感知层是由多个多层感知器并联组成，同一感知层中各个多层感知器共享/具有相同的参数，随机采样的数据组和多层感知器的个数相同；随机采样层接收输入的点云信息并进行随机采样，然后将随机采样的各组数据分别输入到各个多层感知器，所有多层感知器处理输出到同一池化层中，池化层的输出到对应的路径生成单元各自的一个多层感知器中，输出获得位置信息/姿态信息；

路径生成单元有两个多层感知器和一个路径生成模块，两个多层感知器分别接收点云处理单元中两个第一子网络结构的池化层的输出信息，然后分别生成输出机器人末端的位置信息和姿态信息，最后传输给路径生成模块生成机器人的运动路径；

B)所述的判别网络主要由第二点云处理单元和路径处理单元以及联合处理单元组成，第二点云处理单元和路径处理单元并联连接到联合处理单元的输入端，点云处理单元用以处理输入的点云信息，路径处理单元用以处理输入的运动路径，联合处理单元接收点云处理单元和路径处理单元的输出信息，处理预测出分类判别值；

第二点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第二子网络结构，但两个第二子网络结构的网络参数/训练不同，具体包括依次连接的随机采样层、感知层和池化层，感知层是由多个多层感知器并联组成，同一感知层中各个多层感知器共享/具有相同的参数，随机采样的数据组和多层感知器的个数相同；随机采样层接收输入的点云信息并进行随机采样，然后将随机采样的各组数据分别输入到各个多层感知器，所有多层感知器处理输出到同一池化层中，池化层的输出到对应的路径处理单元各自的一个多层感知器中，输出获得位置信息/姿态信息；

联合处理单元由三个多层感知器组成，其中两个多层感知器分别接收点云处理单元中两个池化层的输出，另一个多层感知器接收前两个多层感知器以及路径处理单元中的多层感知器的输出信息，最后输出判别值，此处的判别值为示教数据还是自主生成数据的分类判别值。

路径处理单元由一个多层感知器组成，接收生成网络的路径生成单元生成的机器人运动路径信息，并输出到联合处理单元的另一个多层感知器中。

所述步骤三的深度逆向强化学习处理中，生成网络和判别网络采用以下方式建立示教数据和自主生成数据进行训练：

S1，视觉传感器拍摄工件的图像作为工件图像，将工件图像转换成三维点云；

S2，示教机器人进行抓取工件，记录机器人抓取的姿态信息；

S3，将S1和S2的数据进行匹配对应组成一组示教数据；

S4，重复S1～S3若干次，获得若干组示教数据；

S5，将S1获得的三维点云数据导入到最新的生成网络中生成机器人运动路径；

S6，将S1和S5的数据进行匹配对应组成一组自主生成数据；

S7，重复S5～S6若干次，获得若干组自主生成数据；

S8，将示教数据和自主生成数据输入到最新的判别网络，采用梯度下降的方法仅对判别网络进行训练，对判别网络的参数进行优化，获得训练后的判别网络，固定判别网络的参数；

S9，将S1获得的三维点云输入到生成网络，固定保持判别网络的参数，对判别网络和生成网络采用梯度上升的方法一起进行训练，对生成网络的参数进行优化，使得判别网络最终输出的判别值接近示教数据的判别值，获得训练后的生成网络；

S10，利用S9获得的训练后的生成网络更新重复S5中的生成网络，重复S5～S9若干次进行迭代处理，不断迭代优化判别网络和生成网络的网络参数，直至满足收敛条件结束。

具体实施中，对判别网络的输出建立两个判别值，取较高的判别值作为示教数据的判别值，取较低的判别值作为自主生成数据的判别值。

以满足收敛条件结束后获得的生成网络作为最终的深度逆向强化学习处理模块，将工件的三维点云信息导入到该生成网络后，输出生成准确的机器人运动路径。

工业产线的上下料环节中，往往存在很多乱序堆放的工件，需要机器人实现自动化的分拣或上下料。本发明适用于工业上下料环节中的零件自动化分拣或上下料，采用深度逆向强化学习的方法，使得神经网络在不断迭代过程中逐渐学会并掌握示教机器人实现乱序工件抓取的能力。

本发明的有益效果是：

1、本发明采用深度逆向强化学习算法进行机器人乱序工件抓取，算法中的回报函数是从示教数据中学习，解决了强化学习算法在有限样本和计算单元条件下对复杂函数的表示能力有限、策略适用性不强等缺点。

2、传统深度强化学习算法需要提供大量的数据进行训练，在训练过程中，机器人需要不断抓取试错，才有可能可以获得稳定的抓取能力。这种训练方法周期长、效率低，在实际训练过程中有安全隐患，往往无法满足工业生产应用的需求。本发明的训练方法无需大量试错训练，只需较少的专家演示数据，即可快速实现对特定工件的抓取编程，可满足工业生产的需要。

附图说明

图1为本发明的实施流程图；

图2为本发明的深度逆向强化学习算法结构示意图；

图3为本发明的深度逆向强化学习算法中生成网络结构示意图；

图4为本发明的深度逆向强化学习算法中判别网络结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如附图1所示，本发明的具体实施例及其实施过程如下：

深度相机采用双目视觉传感器，设置在待抓取物体正上方，可拍摄待抓取物体，并输出点云数据。机器人选用六轴工业机器人，设置在水平面上。本发明所述的方法需先对点云分类网络、位置生成网络和姿态生成网络进行训练，网络训练完成之后才能实施抓取位姿估计。

在本方法中，设置机器人的工具中心点为末端执行器的装夹中点，工具中心点的x轴方向为末端执行器的前进方向，z轴方向为上升方向，y轴方向根据右手法则计算得出。待抓取物体设置在水平面上，实施抓取时，末端执行器总是与水平面垂直。

步骤一，通过机器人末端侧方布置的视觉传感器从上往下拍摄工件平台上的工件，获得待抓取的工件图像，并传输给信息处理单元；

步骤二，信息处理单元内设置有图像处理软件，图像处理软件将拍摄的图像生成三维点云数据，并进行滤波、下采样等前处理操作，再进行点云平面分割去除数据中的平面背景，并采用聚类算法提取目标工件的三维点云作为点云信息；

步骤三，将点云信息输入到深度逆向强化学习处理模块中，深度逆向强化学习处理模块采用以下方式获得：

首先，如附图2所示，建立包含有生成网络和判别网络的两部分的网络模型：

A)如附图3所示，生成网络主要由第一点云处理单元和路径生成单元串联而成，第一点云处理单元用以处理输入的点云信息输入到路径生成单元，路径生成单元根据输入的点云信息产生机器人运动路径；

第一点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第一子网络结构，具体包括依次连接的随机采样层、感知层和池化层，感知层是由多个多层感知器并联组成，同一感知层中各个多层感知器共享/具有相同的参数；随机采样层接收输入的点云信息并进行随机采样，然后将随机采样的各组数据分别输入到各个多层感知器，所有多层感知器处理输出到同一池化层中，池化层的输出到对应的路径生成单元各自的一个多层感知器中；

B)如附图4所示，判别网络主要由第二点云处理单元和路径处理单元以及联合处理单元组成，第二点云处理单元和路径处理单元并联连接到联合处理单元的输入端，点云处理单元用以处理输入的点云信息，路径处理单元用以处理输入的运动路径，联合处理单元接收点云处理单元和路径处理单元的输出信息，处理预测出分类判别值。具体实施中，对判别网络的输出建立两个判别值，取较高的判别值作为示教数据的判别值，取较低的判别值作为自主生成数据的判别值。

第二点云处理单元包括两个分别用于位置生成和姿态生成的结构相同的第二子网络结构，具体包括依次连接的随机采样层、感知层和池化层，感知层是由多个多层感知器并联组成，同一感知层中各个多层感知器共享/具有相同的参数；随机采样层接收输入的点云信息并进行随机采样，然后将随机采样的各组数据分别输入到各个多层感知器，所有多层感知器处理输出到同一池化层中，池化层的输出到对应的路径处理单元各自的一个多层感知器中；

联合处理单元由三个多层感知器组成，其中两个多层感知器分别接收点云处理单元中两个池化层的输出，另一个多层感知器接收前两个多层感知器以及路径处理单元中的多层感知器的输出信息，最后输出判别值。

接着，如附图2所示的数据传输逻辑，建立示教数据和自主生成数据对网络模型进行训练获得最后的生成网络：

S3，将S1和S2的数据进行匹配对应组成一组示教数据；

S4，重复S1～S3若干次，获得若干组示教数据；

S6，将S1和S5的数据进行匹配对应组成一组自主生成数据；

S7，重复S5～S6若干次，获得若干组自主生成数据；

S8，将示教数据和自主生成数据输入到最新的判别网络，采用梯度下降的方法仅对判别网络进行训练，获得训练后的判别网络；

S9，将S1获得的三维点云输入到生成网络，固定保持判别网络的参数，对判别网络和生成网络采用梯度上升的方法一起进行训练，使得判别网络最终输出的判别值接近示教数据的判别值，获得训练后的生成网络；

再以满足收敛条件结束后获得的生成网络作为最终的深度逆向强化学习处理模块，将工件的三维点云信息导入到该生成网络后，输出生成准确的机器人运动路径。

最后，机器人运动路径输出给机器人控制器，控制机器人实施工件抓取。

由此实施可见，本发明可满足工业生产的需求，只需示教较少的专家演示数据，即可快速实现对特定工件的抓取编程，解决了深度强化学习方法策略适用性不强、抓取能力有限、训练周期长、效率低等缺点。

Claims

1.一种基于深度逆向强化学习的机器人乱序工件抓取方法，其特征在于，包括如下步骤：

步骤三，将点云信息输入到深度逆向强化学习处理中，计算机器人运动路径，计算获得的机器人运动路径输出给机器人控制器，控制机器人实施工件抓取；

所述步骤三中的深度逆向强化学习处理，具体包括：

包括有生成网络和判别网络的两部分；

联合处理单元由三个多层感知器组成，其中两个多层感知器分别接收点云处理单元中两个池化层的输出，另一个多层感知器接收前两个多层感知器以及路径处理单元中的多层感知器的输出信息，最后输出判别值；

2.根据权利要求1所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法，其特征在于：所述步骤三的深度逆向强化学习处理中，生成网络和判别网络采用以下方式建立示教数据和自主生成数据进行训练：

S3，将S1和S2的数据进行匹配对应组成一组示教数据；

S4，重复S1～S3若干次，获得若干组示教数据；

S5，将S1获得的三维点云数据导入到生成网络中生成机器人运动路径；

S6，将S1和S5的数据进行匹配对应组成一组自主生成数据；

S7，重复S5～S6若干次，获得若干组自主生成数据；

S8，将示教数据和自主生成数据输入到判别网络，采用梯度下降的方法仅对判别网络进行训练，获得训练后的判别网络；

S9，将S1获得的三维点云输入到生成网络，固定保持判别网络的参数，对判别网络和生成网络采用梯度上升的方法一起进行训练，使得判别网络最终输出的判别值接近示教的判别值，获得训练后的生成网络；

3.根据权利要求2所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法，其特征在于：具体实施中，对判别网络的输出建立两个判别值，取较高的判别值作为示教数据的判别值，取较低的判别值作为自主生成数据的判别值。

4.根据权利要求2所述的一种基于深度逆向强化学习的机器人乱序工件抓取方法，其特征在于：以满足收敛条件结束后获得的生成网络作为最终的深度逆向强化学习处理模块，将工件的三维点云信息导入到该生成网络后，输出生成准确的机器人运动路径。