CN112183188A

CN112183188A - 一种基于任务嵌入网络的机械臂模仿学习的方法

Info

Publication number: CN112183188A
Application number: CN202010829750.5A
Authority: CN
Inventors: 雷小永; 周继祥; 赵永嘉; 谢建峰; 戴树岭
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2021-01-05
Anticipated expiration: 2040-08-18
Also published as: CN112183188B

Abstract

本发明属于人工智能和机器人控制领域，特别涉及一种基于任务嵌入网络的机械臂模仿学习的方法，包括：创建示教任务数据集；构建任务嵌入网络，学习示教任务的任务原型；构建深度神经网络，以拼接后的机械臂示教任务演示视频为输入，输出机械臂的动作值；对所构建的任务嵌入网络和深度神经网络进行联合训练，训练得到示教任务模型；结合所搭建的机械臂虚拟仿真环境，将示教任务模型作为机械臂的控制策略指导机械臂完成对于示教任务的模仿。本发明可以解决目前模仿学习方法需要巨量的训练集和试错、正确率较低、缺乏足够的泛化能力、容易遗忘先前学会的示教任务的缺陷。

Description

一种基于任务嵌入网络的机械臂模仿学习的方法

技术领域

本发明属于人工智能和机器人控制领域，特别涉及一种基于任务嵌入网络的机械臂模仿学习的方法。

背景技术

当前，机器人技术在诸多行业都得到了广泛的应用。机械臂作为机器人最主要的执行机构，近年来越来越多的工程技术人员对它展开了各种研究。随着人工智能技术的飞速发展，模仿学习机制的提出为机械臂注入了新鲜血液，在机械臂的智能性的提升方面发挥出巨大的作用。一方面，相对于传统的机械臂编程控制，模仿学习使得机械臂能够模仿示教任务的行为实现快速学习，减少了对于操控人员的专业性要求，具有更高的工作效率。另一方面，模仿学习使得机械臂能够获取环境信息，不依赖于先前规划的动作轨迹进行重复运动，具有更完善的环境感知能力和适应能力，并具备更高的智能性。

对于机械臂模仿学习，一般由示教者、学习器和执行器三个模块组成。机械臂通过行为观测和感知，获取示教者的示教信息，通过模仿学习算法将示教信息和模仿者自身特征结合完成模仿。目前，对于机械臂模仿学习的研究，主要集中在学习器的研究，分为两个趋势：一是低水平学习；二是高水平学习。在和其他的人工智能技术结合之后，机械臂模仿学习的方法主要分为四个大的类别：一是基于行为克隆的方法；二是基于强化学习的方法；三是基于生成对抗网络的方法；四是基于元学习的方法。

然而，目前已有的机械臂模仿学习方法主要还存在以下问题：1)已有机械臂模仿学习方法需要巨量的训练集和试错；2)当前机械臂模仿学习方法对于示教任务训练集之外的新示教任务学习的正确率较低，缺乏足够的泛化能力；3)已有的机械臂模仿学习方法在示教任务数量增多，示教任务复杂度较高时，模型训练容易遗忘先前学会的示教任务。

发明内容

针对现有机械臂模仿学习方法中存在的上述问题，本发明提出了一种基于任务嵌入网络的机械臂模仿学习的方法。首先，本方法通过任务嵌入网络学习示教任务的低维向量描述，该描述可以有效表示示教任务的特点，称为任务原型；其次，将任务原型平铺并按通道和示教任务演示视频拼接，三通道演示视频转换为多通道演示视频，输入深度(卷积)神经网络，联合训练优化两个网络，从而得到示教任务模型参数，实现对于示教任务的完整描述；最后，将学习得到的示教任务模型参数作为控制策略结合机械臂系统来指导机械臂完成示教任务的模仿。

本发明提供了一种基于任务嵌入网络的机械臂模仿学习的方法，包括如下步骤：

S1：搭建机械臂虚拟仿真环境并操控机械臂完成多种示教任务，创建示教任务数据集；

S2：构建任务嵌入网络，所述任务嵌入网络以示教任务为输入，输出任务组合嵌入，所述任务组合嵌入与任务遍历模块输出的特征掩码相乘，得到示教任务的任务原型；

S3：构建深度神经网络，所述深度神经网络以拼接后的机械臂示教任务演示视频为输入，输出机械臂的动作值，所述拼接后的机械臂示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到；

S4:基于步骤S1中创建的示教任务数据集，使用监督学习训练方法对所构建的任务嵌入网络和深度神经网络进行联合训练，训练得到示教任务模型；

S5：结合所搭建的机械臂虚拟仿真环境，将步骤S4中得到的示教任务模型作为机械臂的控制策略指导机械臂完成对于示教任务的模仿。

进一步，步骤S1中，所述示教任务数据集包括机械臂的观测值和动作值，所述观测值包括从机械臂虚拟仿真环境中导出的机械臂示教任务演示视频，所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。

进一步，步骤S2中，构建任务嵌入网络并输出任务组合嵌入具体过程为：从一个示教任务

中采样得到K个样本，使用三个卷积层和三个全连接层构建任务嵌入网络f_θ:R^D→R^N，R^D、R^N分别代表D维欧氏空间和N维欧氏空间；利用任务嵌入网络f_θ:R^D→R^N为每一个样本

计算一个标准化N维向量，然后通过取样本向量的标准化平均值来计算该示教任务

的任务组合嵌入s′∈R^N:

其中

进一步，步骤S2中，所述任务遍历模块由集中网络和聚焦网络组成，所述集中网络和所述聚焦网络分别使用残差神经网络构成，其中，所述集中网络用于查看示教任务中的每个演示视频，寻找示教任务演示视频特征的共性；所述聚焦网络则用于查看示教任务中的所有演示视频，屏蔽演示视频间不相关的特征，寻找演示视频间最具判别性的特征。

进一步,步骤S4具体过程为：

为每个正示教任务

选择两个不相交的示教任务集，分别是支持集

和测试集

假设一个训练批次中的每个采样任务都是唯一的，选择示教任务

作为所述训练批次中的负示教任务，使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数，正示教任务

的损失为：

其中，

为正示教任务

的损失函数；

是正示教任务

的测试集

中的样本嵌入；s^j是正示教任务

的任务原型；sⁱ是负示教任务

的任务原型；γ是间隔距离；

给定正示教任务

的支持集

的原型

和测试集

的样本，使用均方误差损失计算深度神经网络的损失：

其中，

为深度神经网络的损失函数；

为测试集

中的第q个示教任务；o为机械臂的观测值，a为机械臂的动作值；

联合训练任务嵌入网络和深度神经网络学习任务原型，示教任务模型的最终损失是：

其中，λ_emb表示正示教任务

的损失函数

的权重；

表示深度神经网络的损失函数

的权重；

表示深度神经网络的损失函数

的权重。

本发明的有益效果：

1)本发明采用元学习的方法进行模型训练和测试，不需要巨量的训练集和试错；

2)本发明可以学习大量示教任务，利用学习到的知识来更有效地学习示教任务，对示教任务训练集之外的新示教任务学习成功率较高，模型泛化能力强；

3)本发明使用度量学习的思想创建任务嵌入，能够学习示教任务的任务原型，增强策略模型对示教任务的表达能力；

4)本发明将任务原型和示教任务结合，联合训练任务嵌入网络和深度神经网络，可以提高学习更多示教任务的能力，同时减少模型的灾难性遗忘影响。

附图说明

图1为本发明实施例的基于任务嵌入网络的机械臂模仿学习的方法流程图；

图2为本发明实施例的基于任务嵌入网络的机械臂模仿学习系统结构框图；

图3为本发明实施例的任务嵌入网络流程示意图；

图4为本发明实施例的深度神经网络结构示意图；

图5是本发明实施例的网络联合训练流程示意图；

图6是本发明实施例的是示教任务模型效果测试流程示意图。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

本实施例提供一种基于任务嵌入网络的机械臂模仿学习的方法，如图1所示，包括如下步骤：

S1：搭建OpenAI gym Pusher虚拟仿真环境并在虚拟仿真环境中操控机械臂完成多种示教任务，创建示教任务数据集。

本实施例在搭建的OpenAI gym Pusher虚拟仿真环境中，放置不同的目标物和干扰物，示教者例如通过遥控操作方式操控机械臂执行抓取、推送、放置任务，从虚拟仿真环境中导出机械臂演示视频(即观测值o)和机械臂运动过程中的关节角度、关节速度、末端执行器的姿态信息(即动作值a)，相应的样本由一系列观测值和动作值组成：τ＝[(o₁,a₁),...,(o_T,a_T)]，T表示第T帧。把一组这样的样本定义为一个示教任务

K表示一个示教任务

中的样本数量。可以通过改变操作环境，例如更换虚拟仿真环境中的目标物和干扰物、改变目标物和干扰物的摆放位置、调节光照强度、操作机械臂执行抓取、推送、放置任务，获得由多个不同示教任务组成的示教任务数据集，如图2的最底层的框图所示。

S2：构建任务嵌入网络，该任务嵌入网络由4个跨步卷积层、4个批归一化层和3个全连接层组成，每个跨步卷积层都有16个(5x5)过滤器，每个全连接层有200个神经元，除最后一层外，每层使用ReLU作为非线性激活函数。

图3为本实施例的任务嵌入网络流程示意图，从一个示教任务

中采样得到K个样本，使用三个卷积层和三个全连接层构建任务嵌入网络。本发明的任务嵌入网络f_θ:R^D→R^N为每一个样本

计算一个标准化N维向量，然后通过取样本向量的标准化平均值来计算该示教任务的任务组合嵌入s′∈R^N:

其中

本发明所利用的任务遍历模块由集中网络和聚焦网络两部分组成，任务遍历模块生成一个用于提取最具判别性特征的特征掩码r∈R^N，该掩码与任务组合嵌入相乘，得到更具判别性的任务原型s∈R^N。集中网络和聚焦网络分别使用残差神经网络构成，其中，集中网络用于查看示教任务中的每个演示视频，寻找演示视频特征的共性，如图3所示，集中网络对机械臂演示视频进行特征提取和维度压缩，计算每个类别样本特征的平均值avg作为输出o；聚焦网络则用于查看示教任务中的所有视频，屏蔽视频间不相关的特征，寻找视频间最具判别性的特征，如图3所示，聚焦网络对集中网络提取到的特征进行拼接和压缩，最后在特征通道维度上使用softmax层，得到各个特征对应的特征掩码r∈R^N。

S4：构建深度神经网络，该深度神经网络由3个跨步卷积层、3个批归一化层和3个全连接层组成，每个跨步卷积层都有16个(5x5)过滤器，每个全连接层有200个神经元，除最后一层外，每层使用ReLU作为非线性激活函数。

如图4所示，将任务嵌入网络学习得到的任务原型平铺并按通道和示教任务演示视频拼接，依次经过三个步长stride为2、激活函数为ReLU的卷积层Conv，使用空间softmax转换为空间特征点，提取拼接后的演示视频特征送入三个激活函数为ReLU的全连接层，预测机械臂动作值的输出。

S4：基于创建的示教任务数据集，使用监督学习训练方法对任务嵌入网络和深度神经网络进行联合训练，随机初始化网络权重，使用随机梯度下降法，同时求解任务嵌入网络和深度神经网络的损失函数，使得其最小化来训练示教任务模型，保存好训练好的示教任务模型权重。

如图5所示，为每个正示教任务

选择两个不相交的示教任务集，分别是支持集

和测试集

作为本批次中的负示教任务，使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数，正示教任务

的损失定义为：

其中，

为正示教任务

的损失函数；

是正示教任务

的测试集

中的样本嵌入；s^j是正示教任务

的任务原型；sⁱ是负示教任务

的任务原型；γ是间隔距离。损失函数

训练示教任务模型在正示教任务

的样本嵌入

和它的任务原型s^j之间产生比来自其他负示教任务

的任务原型sⁱ更高的点积相似性。

给定正示教任务

的支持集

的原型

和测试集

的样本，使用均方误差损失计算深度神经网络的损失：

其中，

为深度神经网络的损失函数；

为测试集

中的第q个示教任务。

联合训练任务嵌入网络和深度神经网络学习任务原型，示教任务模型最终的损失是：

其中，λ_emb表示正示教任务

的损失函数

的权重；

表示深度神经网络的损失函数

的权重；

表示深度神经网络的损失函数

的权重。

S5：结合所搭建的机械臂虚拟仿真环境，将得到的示教任务模型作为机械臂的控制策略，指导机械臂完成对于示教任务的模仿(学习运动技能)。

图6是示教任务模型效果测试流程示意图，对于一个给定的新示教任务，输入任务嵌入网络，得到任务原型，然后将任务原型平铺并按通道和从机械臂系统中采集的观测图像拼接，输入深度神经网络，预测机械臂的动作值；该动作值作用于机械臂之后，再次采集观测图像与任务原型按通道拼接，输入深度神经网络，预测机械臂的动作值并驱动机械臂，重复以上操作，直到模仿任务完成。

对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以对本发明的实施例作出若干变型和改进，这些都属于本发明的保护范围。

Claims

1.一种基于任务嵌入网络的机械臂模仿学习的方法，其特征在于，包括如下步骤：

S3：构建深度神经网络，所述深度神经网络以拼接后的示教任务演示视频为输入，输出机械臂的动作值，所述拼接后的示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到；

S5：结合所搭建的机械臂虚拟仿真环境，将步骤S4中得到的示教任务模型作为机械臂的控制策略，指导机械臂完成对于示教任务的模仿。

2.根据权利要求1所述的方法，其特征在于，步骤S1中，所述示教任务数据集包括机械臂的观测值和动作值，所述观测值包括从机械臂虚拟仿真环境中导出的示教任务演示视频，所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。

3.根据权利要求1所述的方法，其特征在于，步骤S2中，构建任务嵌入网络并输出任务组合嵌入具体过程为：从一个示教任务

的任务组合嵌入s′∈R^N:

其中

4.根据权利要求1所述的方法，其特征在于，步骤S2中，所述任务遍历模块由集中网络和聚焦网络组成，所述集中网络和所述聚焦网络分别使用残差神经网络构成，其中，所述集中网络用于查看示教任务中的每个演示视频，寻找示教任务演示视频特征的共性；所述聚焦网络则用于查看示教任务中的所有演示视频，屏蔽演示视频间不相关的特征，寻找演示视频间最具判别性的特征。

5.根据权利要求1所述的方法，其特征在于,步骤S4具体过程为：

为每个正示教任务