CN111983922A

CN111983922A - 一种基于元模仿学习的机器人演示示教方法

Info

Publication number: CN111983922A
Application number: CN202010669008.2A
Authority: CN
Inventors: 雷渠江; 李秀昊; 徐杰; 桂光超; 梁波; 潘艺芃; 刘纪; 王雨禾; 王卫军; 韩彰秀
Original assignee: Guangzhou Institute of Advanced Technology of CAS
Current assignee: Guangzhou Institute of Advanced Technology of CAS
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-11-24
Also published as: WO2022012265A1

Abstract

本发明公开了一种基于元模仿学习的机器人演示示教方法，涉及机器学习技术领域，包括步骤：获取机器人演示示教任务集；构造网络结构模型并获得自适应目标损失函数；在元训练阶段，利用算法一学习、优化损失函数及其初始化值和参数；在元测试阶段，利用算法二对专家演示的轨迹进行学习，获得学习策略；将专家演示轨迹作为输入，结合学习策略，利用网络结构模型生成机器人模仿轨迹，并结合机器人状态信息映射到机器人的动作上。本发明能够从专家演示给出的少量示范例子中，快速泛化到新的场景，而不需要再做具体的任务工程，并且机器人根据专家演示能够自学习与任务无关的策略，从而产生出轨迹，实现一次演示快速示教。

Description

一种基于元模仿学习的机器人演示示教方法

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种基于元模仿学习的机器人演示示教方法。

背景技术

随着市场规模的不断扩大，尤其是随着3C产业的快速发展，工业机器人已经在多个领域被广泛应用，并能完成一系列复杂工作，如抓取、装配、焊接、激光切割和喷涂等。传统的机器人示教方法操作复杂，耗时较长，还需要掌握机器人模型等相关知识，对操作者要求较高。在现有技术下，为简化机器人示教操作，操作人员一般通过示教器，手动控制机器人关节运动，采用人工拖动使机器人末端按照需要的轨迹运动，同时机器人会记录运动的点，从而达到复原示教运动的效果；然而，虽然拖动示教操作灵活，但是效率低下，精度难以保证。为此，国内外学者致力于新一代机器人示教方法的研究，通过机器人从演示示教中学习实现操纵自主执行抓取任务，以适应3C行业的快速发展，满足工业机器人智能操作的可重复性、灵活性和可靠性的发展需求。

传统的机器人演示学习模型主要有隐马尔可夫模型、高斯混合模型和动态运动原语等，通过对具有时空变化的运动进行建模，模拟运动轨迹，但这些方法在现实环境下的效果不好且鲁棒性较差，而工业机器人抓取执行环境多为非结构化未知动态环境，因此，该方法不适用于现实环境下工业机器人的智能操作。

目前，机器人演示学习主要基于模仿学习方法进行研究，主要分为行为克隆和逆强化学习。行为克隆是从观察到行动的监督学习，这种方法依赖于专家数据，需要大量的数据集，将冗余的劳动转化到了专家身上，这是比较低效和耗时的。逆强化学习则通过专家给出的演示，去归类或者回归出激励函数，通过激励函数来评价当前状态的优劣并进行积累，来学习最优的策略，但是很多情况下奖励函数难以设计，需要额外的经验来优化奖励函数，这种通过试错法优化奖励函数的方式耗时费力，而且该方法难以适用于多阶段决策中。

发明内容

有鉴于此，有必要针对上述的问题，提供一种基于元模仿学习的机器人演示示教方法，使机器人从专家演示给出的少量示范例子中，快速泛化到新的场景，而不需要再做具体的任务工程，并且机器人根据专家演示能够自学习与任务无关的策略，从而产生出轨迹，实现一次演示快速示教。

为实现上述目的，本发明是根据以下技术方案实现的：

一种基于元模仿学习的机器人演示示教方法，包括以下步骤：

步骤S1：获取机器人演示示教任务集p(T)；

步骤S2：构造网络结构模型并获得自适应目标损失函数L_ψ；

步骤S3：在元训练阶段，利用算法一学习、优化自适应目标损失函数L_ψ，获得策略参数θ和ψ；

步骤S4：在元测试阶段，利用算法二对专家演示的轨迹τ^h进行学习，获得学习策略π_φ；

步骤S5：将专家演示轨迹

作为输入，结合已学习到的策略π_φ，利用网络结构模型生成机器人模仿轨迹

并结合机器人状态信息(s₁,s₂,…,s_T)映射到机器人的动作(a₁,a₂,…,a_T)上，从而达到一次演示快速示教的效果。

进一步地，所述任务集p(T)为演示示教视频，采用50-way 1-shot的方法构造所述任务集，包括训练任务集和测试任务集，训练任务集包括人类演示轨迹

和机器人演示轨迹

测试任务集为专家演示轨迹τ^h，每个任务集演示轨迹包含机器人输入的图像(o₁,o₂,…,o_T)、机器人状态信息(s₁,s₂,…,s_T)和机器人动作信息(a₁,a₂,…,a_T)。

具体地，所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别，每个类别中都有1个样本。

进一步地，所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN，通过神经网络来训练参数作为策略表示，获得自适应目标损失函数L_ψ，在每个时间步长将机器人输入的图像(o₁,o₂,…,o_T)和机器人状态信息(s₁,s₂,…,s_T)映射到机器人的动作上(a₁,a₂,…,a_T)。

具体地，所述卷积层中前两个卷积层Conv1和Conv2的步长为2，后两个卷积层Conv3和Conv4的步长为1，卷积核大小为3×3，每个卷积层均通过ReLu函数和归一化BatchNormalization操作；

所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能，其中残差链接通过残差块代替卷积层，使得网络可以跨层的方式传递信息；

所述残差块包含两层卷积和非线性映射，卷积核大小为3×3，每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化；利用1×1的卷积进行降维，将下层的特征图跳层到上层，再将两个层的特征图相加。

进一步地，在步骤S3中，所述算法一包括输入、处理过程、输出三个步骤，具体为：

输入：任务集p(T)、人类演示轨迹

机器人演示轨迹

以及学习率α和β；

处理过程：随机初始化参数θ，从p(T)所有的任务中取出一个批量的任务T_i，对于所有的T_i都有：从T_i中采样人类演示轨迹

计算梯度

使用梯度下降法计算模型参数

从T_i中采样机器人演示轨迹

最后使用梯度下降法更新模型参数

其中，d^h为

子集，d^r为

子集；

输出：策略参数θ,ψ。

进一步地，在步骤S4中，所述算法二包括输入、处理过程、输出三个步骤，具体为：

输入：任务集p(T)、专家演示轨迹τ^h、学习率α、元训练阶段更新后的参数θ和学习后的自适应损失函数L_ψ；

处理过程：计算损失函数L_ψ关于θ的梯度

使用梯度下降法计算模型参数

输出：学习策略π_φ。

与现有技术相比，本发明的优点和积极效果至少包括：

面向现实非结构化未知动态环境下，突破现有机器人演示学习需要大量的演示获取训练样本并且依赖于专家数据的局限性，本发明公开的一种基于元模仿学习的机器人演示示教方法，能够从专家演示给出的少量示范例子中，快速泛化到新的场景，而不需要再做具体的任务工程，并且机器人根据专家演示能够自学习与任务无关的策略，从而产生出轨迹，实现一次演示快速示教。具体而言：

(1)采用网络结构模型获得自适应目标损失函数，由损失函数引导网络参数的更新，可快速泛化到新的场景，而不需要再做具体的任务工程；

(2)采用空洞卷积和残差链接组合的时间卷积TCN结构，使得网络对历史具有记忆功能；

(3)将算法分为训练阶段元模仿学习算法和训练阶段元模仿学习算法，这种训练和测试阶段采用两种不同元模仿学习算法的方式，可使得机器人根据专家演示能够自学习与任务无关的策略，从而产生出轨迹，达到一次演示快速示教的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的整体流程示意图；

图2是本发明所使用的网络结构模型示意图；

图3是本发明训练阶段元模仿学习算法一的示意图；

图4是本发明测试阶段元模仿学习算法二的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

实施例1

图1给出了本发明的整体流程示意图，如图1所示，本发明提供了一种基于元模仿学习的机器人演示示教方法，包括以下步骤：

步骤S1：获取机器人演示示教任务集p(T)；

步骤S2：构造网络结构模型并获得自适应目标损失函数L_ψ；

步骤S5：将专家演示轨迹

进一步地，机器人演示示教为机器人从人类演示中学习操纵自主执行任务，即机器人通过元模仿学习算法从人类演示轨迹

和机器人演示轨迹

中进行学习，当专家演示τ^h一次后机器人可根据学习到的策略模仿出轨迹τ^r，从而达到一次演示快速示教的效果，其中任务包含机器人的抓取、装配和焊接等。

和机器人演示轨迹

图2给出了本发明所使用的网络结构模型示意图，如图2所示，本发明所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN，通过神经网络来训练参数作为策略表示，获得自适应目标损失函数L_ψ，在每个时间步长将机器人输入的图像(o₁,o₂,…,o_T)和机器人状态信息(s₁,s₂,…,s_T)映射到机器人的动作上(a₁,a₂,…,a_T)。

图3给出了本发明训练阶段元模仿学习算法一的示意图，如图3所示，进一步地，在步骤S3中，所述算法一包括输入、处理过程、输出三个步骤，具体为：

输入：任务集p(T)、人类演示轨迹

机器人演示轨迹

以及学习率α和β；

计算梯度

使用梯度下降法计算模型参数

从T_i中采样机器人演示轨迹

最后使用梯度下降法更新模型参数

其中，d^h为

子集，d^r为

子集；

输出：策略参数θ,ψ。

图4给出了本发明训练阶段元模仿学习算法二的示意图，如图4所示，进一步地，在步骤S4中，所述算法二包括输入、处理过程、输出三个步骤，具体为：

处理过程：计算损失函数L_ψ关于θ的梯度

使用梯度下降法计算模型参数

输出：学习策略π_φ。

面向现实非结构化未知动态环境下，突破现有机器人演示学习需要大量的演示获取训练样本并且依赖于专家数据的局限性，本发明公开一种基于元模仿学习的机器人演示示教方法，能够从专家演示给出的少量示范例子中，快速泛化到新的场景，而不需要再做具体的任务工程，并且机器人根据专家演示能够自学习与任务无关的策略，从而产生出轨迹，实现一次演示快速示教。

具体而言，本发明至少具有下述优点和积极效果：

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于元模仿学习的机器人演示示教方法，其特征在于，包括以下步骤：

步骤S1：获取机器人演示示教任务集p(T)；

步骤S2：构造网络结构模型并获得自适应目标损失函数L_ψ；

步骤S5：将专家演示轨迹

2.根据权利要求1所述的基于元模仿学习的机器人演示示教方法，其特征在于，所述任务集p(T)为演示示教视频，采用50-way 1-shot的方法构造所述任务集，包括训练任务集和测试任务集，训练任务集包括人类演示轨迹

和机器人演示轨迹

测试任务集为专家演示轨迹τ^h，每个任务集演示轨迹包含机器人输入的图像(o₁,o₂,…,o_T)、机器人状态信息(s₁,s₂,…,s_T)和机器人动作信息(a₁,a₂,…,a_T)；具体地，所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别，每个类别中都有1个样本。

3.根据权利要求1所述的基于元模仿学习的机器人演示示教方法，其特征在于，所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN，通过神经网络来训练参数作为策略表示，获得自适应目标损失函数L_ψ，在每个时间步长将机器人输入的图像(o₁,o₂,…,o_T)和机器人状态信息(s₁,s₂,…,s_T)映射到机器人的动作上(a₁,a₂,…,a_T)。

4.根据权利要求3所述的基于元模仿学习的机器人演示示教方法，其特征在于，

所述卷积层中前两个卷积层Conv1和Conv2的步长为2，后两个卷积层Conv3和Conv4的步长为1，卷积核大小为3×3，每个卷积层均通过ReLu函数和归一化Batch Normalization操作；

5.根据权利要求1所述的基于元模仿学习的机器人演示示教方法，其特征在于，在步骤S3中，所述算法一包括输入、处理过程、输出三个步骤，具体为：

输入：任务集p(T)、人类演示轨迹