CN111890357B

CN111890357B - 一种基于动作演示示教的智能机器人抓取方法

Info

Publication number: CN111890357B
Application number: CN202010619248.1A
Authority: CN
Inventors: 雷渠江; 徐杰; 李秀昊; 桂光超; 潘艺芃; 王卫军; 韩彰秀
Original assignee: Guangzhou Institute of Advanced Technology of CAS
Current assignee: Guangzhou Institute of Advanced Technology of CAS
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2023-07-04
Anticipated expiration: 2040-07-01
Also published as: CN111890357A

Abstract

本发明公开了一种基于动作演示示教的智能机器人抓取方法，涉及机器人学习技术领域，包括如下步骤：完成动作演示示教编程系统的硬件环境搭建；人类演示抓取操作形成人类示教动作视频，人类使用示教器控制机器人完成演示抓取动作形成机器人示教动作视频；将人类和机器人示教动作视频的数据集合均进行去噪和扩充操作；采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习。本发明所提出的元学习算法能在不同的背景环境、不同的人类示教者和不同的机器人上实现模仿学习的一眼学习，利用时间卷积实现自适应目标损失函数的学习，使得网络能够同时捕捉多帧人类动作图像信息，具有强大的适应能力和鲁棒性。

Description

一种基于动作演示示教的智能机器人抓取方法

技术领域

本发明涉及机器人学习技术领域，尤其是一种基于动作演示示教的智能机器人抓取方法。

背景技术

近年来机器人自动化系统得到了飞速发展，在工业和家用环境中得到广泛应用，对解决社会老龄化问题、加快产业升级转型等起到了重要作用。其中，机器人抓取技术是机器人自动化系统中的重要组成部分，几乎涉及到机器人操作相关的所有应用，例如工业机器人分拣搬运、家用机器人桌面清理等。然而，当前大部分成熟的抓取系统都是围绕结构化操作环境设计，依赖事先获取的目标模型信息规划抓取过程，抓取目标单一且应用场景相对固定，灵巧性不够，不能很好地适应复杂多变的现实应用场景。

目前，对于未知物体的抓取问题大都采用机器学习的方法，人工设计特征并建立特征到抓取参数的映射，利用算法的学习能力将特征从已知物体迁移到未知物体中。但采用传统机器学习方法进行未知物体抓取时，人工设计特征费时费力，并且严重依赖人类经验，特征的好坏直接影响算法性能，抓取系统存在泛化能力差、仅用于当前任务难以迁移到其他任务中的问题。

发明内容

有鉴于此，有必要针对上述的问题，提出一种基于动作演示示教的智能机器人抓取方法，机器人从动作演示中学习需要获取的示教抓取轨迹，当面对新任务时，可以通过快速学习就掌握该技能，并且能够处理多种任务，满足机器人智能抓取的可重复性、灵活性和可靠性的发展需求。

为实现上述目的，本发明是根据以下技术方案实现的：

一种基于动作演示示教的智能机器人抓取方法，包括以下步骤：

步骤S1：完成动作演示示教编程系统的硬件环境搭建；

步骤S2：人类演示抓取操作形成人类示教动作视频，人类使用示教器控制机器人完成演示抓取动作形成机器人示教动作视频；

步骤S3：将人类示教动作视频和机器人示教动作视频的数据集合均进行去噪和扩充操作；

步骤S4：采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习；该步骤具体包括元训练和元测试两个过程：在元训练过程中，将内训练的损失函数作为自适应目标，将外训练的目标作为元目标，利用人类演示示教动作中的线索信息推断出完成任务应采取的策略参数；在元测试过程中，输入一个人类动作视频序列，由输出梯度信息对策略网络进行微调，完成机器人模仿人类抓取物体功能的实现。

进一步地，所述动作演示示教编程系统包括Inter深度摄像机、至少一台ROS动力学特性的Ubantu18.04电脑、至少一台带有夹持器的UR5机器人、至少一个待抓取物体；

所述Inter深度摄像机用于采集人类和机器人动作演示的视频数据，并安装在所述UR5机器人上；

所述Ubantu18.04电脑用于完成抓取网络模型的训练；

所述UR5机器人用于抓取待抓取物体。

进一步地，步骤S3具体包括以下步骤：

步骤S31：采用深度视频分层去噪方法对人类和机器人演示示教动作获得的数据集合进行去噪处理；

步骤S32：采用随机平移和旋转对人类和机器人演示示教动作获得的数据集合进行扩充；

具体地，所述步骤S31具体实现方法包括：

获取深度视频深度帧；

依照深度值分布对深度帧进行分层；

对每层图像进行二值化处理，将面积小于阈值的深度噪声去除；

将去噪后的每层图像合并为完整深度帧；

填补去噪后深度值空白区域；

对与深度帧对应的彩色帧进行SLIC超像素划分，进行聚类；

划分后，根据类内无噪声点的深度值计算，得到空白点的深度值；

填补完毕，得到去噪后深度帧。

具体地，所述SLIC超像素划分具体实现方法包括：

初始化种子点；

在种子点的3×3领域内重新选择种子点；

在每个种子点周围的领域内为每个像素点分配类标签；

距离度量包括颜色距离和空间，分别计算每个搜索到的像素点和该种子点的距离；

迭代优化。

具体地，所述计算每个搜索到的像素点和该种子点的距离的方法为：

其中，d_c代表颜色距离，d_c代表空间距离，l_j和l_i代表亮度，a_j和a_i代表从绿色到红色的分量，b_j和b_i代表从蓝色到黄色分量，x_j、x_i、y_j、y_i代表横纵坐标，N_c代表最大颜色距离，N_s是类内最大空间距离，定义Ns＝S＝sqrt(N/K)，适用于每个聚类。

具体地，所述步骤S32具体实现方法包括：

翻转：包括但不限于水平翻转、垂直翻转、水平垂直翻转；

旋转：将原图按照一定角度旋转作为新图像，常取的旋转角度为-30°、-15°、15°、30°角度值；

尺度变换：将图像分辨率变为原图的0.8、0.9、1.1、1.2倍数作为新图像；

截取：截取含有明显语义信息的图像块作为新图像。

具体地，所述步骤S4的具体实现方法包括：

首先将人类和机器人演示示教动作视频输入到一个由多个卷积层构成的特征提取网络之中，训练策略分为内外训练两个阶段：其中在内训练阶段输入人类动作，在外训练阶段输入机器人示教动作，并在多个任务中进行反复迭代训练；然后经过一个空间softmax函数转为一维特征向量，并与机器人配置信息级联起来，经过3个全连接层后得到隐藏层的输出向量，此时网络分成两个支路：一个输出向量与前面提取的特征向量在此级联起来，经过3层时间卷积和范数计算得到自适应目标损失函数；另一个输出向量经过一个全连接层后输出预测的动作指令，在外训练过程中计算行为克隆损失函数，并利用特征向量预测机器人在接触到目标对象或容器时夹具的位姿，并对此进行监督。

具体地，在步骤S4中，模型内训练过程损失函数可以表示为：

其中，

表示内训练阶段模型内训练过程损失函数，w和b分别表示最后一个全连接层的权重和偏置，T_i和T_j分别表示所采样的第i和第j个任务样本；

具体地，在步骤S4中，外训练的优化目标可以表示为：

其中，θ、w、b分别表示网络参数、最后一个全连接层的权重和偏置，

和

别表示外训练模型外训练过程损失函数和内训练模型内训练过程损失函数，T_i表示所采样的第i个任务样本，f_θ‘和/>

分别表示外层学习器和内层学习器的参数值，α表示外层训练的学习率，/>

表示梯度算子；

具体地，在步骤S4中，对于机器人夹具开或关的离散动作采用sigmoid层输出和交叉熵损失函数，其中sigmoid函数表示如下：

其中，s表示模型上一层的输出，g(s)为概率值也是交叉熵公式中的模型预测输出；

交叉熵损失函数表示如下：

其中，

表示当前样本标签的概率，y表示0或者1，N表示样本总个数，i表示样本编号。

具体地，在步骤S4中，对于接触到目标对象或容器时夹具位姿的监督训练采用均方误差损失函数，表示如下：

其中，x_i表示网络输出，x′_i表示真实值。

本发明的优点和积极效果是：

与传统的机器学习方法相比，本发明所提出的元学习算法能在不同的背景环境、不同的人类示教者和不同的机器人上实现模仿学习的一眼学习，利用时间卷积实现自适应目标损失函数的学习，使得网络能够同时捕捉多帧人类动作图像信息，具有强大的适应能力和鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于动作演示示教的智能机器人抓取方法流程示意图；

图2为本发明基于动作演示示教的机器人抓取系统硬件环境示意图；

图3为本发明元学习算法模型网络结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

图1给出了本发明基于动作演示示教的智能机器人抓取方法流程示意图，如图1所示，本发明提供了一种基于动作演示示教的智能机器人抓取方法，包括以下步骤：

步骤S1：完成动作演示示教编程系统的硬件环境搭建；

图2为本发明基于动作演示示教的机器人抓取系统硬件环境示意图，如图2所示，进一步地，所述动作演示示教编程系统包括Inter深度摄像机、至少一台ROS动力学特性的Ubantu18.04电脑、至少一台带有夹持器的UR5机器人、至少一个待抓取物体；

所述Ubantu18.04电脑用于完成抓取网络模型的训练；

所述UR5机器人用于抓取待抓取物体。

进一步地，步骤S3具体包括以下步骤：

具体地，所述步骤S31具体实现方法包括：

获取深度视频深度帧；

依照深度值分布对深度帧进行分层；

将去噪后的每层图像合并为完整深度帧；

填补去噪后深度值空白区域；

对与深度帧对应的彩色帧进行SLIC超像素划分，进行聚类；

填补完毕，得到去噪后深度帧。

具体地，所述SLIC超像素划分具体实现方法包括：

初始化种子点；

在种子点的3×3领域内重新选择种子点；

在每个种子点周围的领域内为每个像素点分配类标签；

迭代优化。

具体地，所述步骤S32具体实现方法包括：

翻转：包括水平翻转、垂直翻转、水平垂直翻转；

截取：截取含有明显语义信息的图像块作为新图像。

具体地，所述步骤S4的具体实现方法包括：

图3给出了本发明元学习算法模型网络结构示意图，此处的网络结构模型如图3所示。首先将人类和机器人演示示教动作视频输入到一个由多个卷积层构成的特征提取网络之中，训练策略分为内外训练两个阶段：其中在内训练阶段输入人类动作，在外训练阶段输入机器人动作，并在多个任务中进行反复迭代训练；然后经过一个空间softmax函数转为一维特征向量，并与机器人配置信息级联起来，经过3个全连接层后得到隐藏层的输出向量，此时网络分成两个支路：一个输出向量与前面提取的特征向量在此级联起来，经过3层时间卷积和范数计算得到自适应目标损失函数；另一个输出向量经过一个全连接层后输出预测的动作指令，在外训练过程中计算行为克隆损失函数，并利用特征向量预测机器人在接触到目标对象或容器时夹具的位姿，并对此进行监督。

其中，

具体地，在步骤S4中，外训练的优化目标可以表示为：

和

分别表示外训练模型外训练过程损失函数和内训练模型内训练过程损失函数，T_i表示所采样的第i个任务样本，f_θ‘和/>

表示梯度算子；

为了使外训练的损失函数下降，在每个内训练过程中就强行优化W和b，使其组成的损失函数能更好的引导网络参数的更新，经过多次反复迭代训练后，网络逐渐具备了仅利用观察进行参数更新的能力，在测试时，仅需要输入一个不带有人类动作新任务的视频序列，网络就能进行参数微调，从而学会新的任务。

交叉熵损失函数表示如下：

其中，

其中，x_i表示网络输出，x′_i表示真实值。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于动作演示示教的智能机器人抓取方法，其特征在于，包括以下步骤：

步骤S1：完成动作演示示教编程系统的硬件环境搭建；

步骤S4：采用元学习算法直接从人类和机器人的示教动作中自动学习先验知识实现新任务的学习；该步骤具体包括元训练和元测试两个过程：在元训练过程中，将内训练的损失函数作为自适应目标，将外训练的目标作为元目标，利用人类演示示教动作中的线索信息推断出完成任务应采取的策略参数；在元测试过程中，输入一个人类动作视频序列，由输出梯度信息对策略网络进行微调，完成机器人模仿人类抓取物体功能的实现；

所述步骤S4的具体实现方法包括：

首先将人类和机器人演示示教动作视频输入到一个由多个卷积层构成的特征提取网络之中，训练策略分为内外训练两个阶段：其中在内训练阶段输入人类动作，在外训练阶段输入机器人动作，并在多个任务中进行反复迭代训练；然后经过一个空间softmax函数转为一维特征向量，并与机器人配置信息级联起来，经过3个全连接层后得到隐藏层的输出向量，此时网络分成两个支路：一个输出向量与前面提取的特征向量在此级联起来，经过3层时间卷积和范数计算得到自适应目标损失函数；另一个输出向量经过一个全连接层后输出预测的动作指令，在外训练过程中计算行为克隆损失函数，并利用特征向量预测机器人在接触到目标对象或容器时夹具的位姿，并对此进行监督；

在步骤S4中，模型内训练过程损失函数表示为：