CN112809689B

CN112809689B - 基于语言引导的机械臂动作元模仿学习方法及存储介质

Info

Publication number: CN112809689B
Application number: CN202110217079.3A
Authority: CN
Inventors: 尤鸣宇; 钱智丰; 周洪钧
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-06-14
Anticipated expiration: 2041-02-26
Also published as: CN112809689A

Abstract

本发明涉及一种基于语言引导的机械臂动作元模仿学习方法及存储介质，元模仿学习方法包括：基于采样控制策略引导机械臂创建示教数据；构建语言提示函数，根据当前子目标输出提示语言，引导机械臂修正当前动作；使用深度神经网络构建机械臂控制网络，基于元模仿学习的学习范式，训练控制网络自主学习自然语言指令中的关键字语义信息和像素空间的对应关系，并在测试中能够通过人的语言提示来快速适应新的任务目标和应用场景，实现更精准的机械臂动作预测。与现有技术相比，本发明具有部署复杂度低、任务完成精度高等优点。

Description

基于语言引导的机械臂动作元模仿学习方法及存储介质

技术领域

本发明涉及机械臂动作模仿学习技术领域，尤其是涉及一种基于语言引导的机械臂动作元模仿学习方法及存储介质

背景技术

随着人工智能技术的兴起和传感器的快速发展，机器人技术已在医用、清洁、运输、清洗、保安、救援等各个领域中得到了广泛的应用。由于人口老龄化和劳动力资源紧张等问题，如何让服务机器人在日常生活中代替人完成各种任务是我们一直以来追求的目标。机械臂作为目前机器人最主要的执行机构，研究如何快速部署机械臂在复杂动态环境下完成目标任务尤为重要。

传统的机械臂控制需要机器人相关专业知识和软件编程技术，该类方法复杂度高，且对环境的确定性有较为严格的假设要求，泛化到新任务需要重新手工编程，代价昂贵。深度强化学习方法能够通过探索和利用的方式训练机械臂自主学习技能，然而该类方法需要针对不同的任务人为地设计特定的奖励函数，这在现实世界环境中是具有挑战的，尤其是某些任务无法设计合适的奖励函数来清晰描述任务目标。同时，单一的奖励函数设计难以应对在非结构化的日常生活中复杂的场景和多变的任务目标，在部署新任务时往往费时费力。模仿学习能够使机械臂从专家演示中学习目标技能，然而目前无论是人工演示或是拖动机械臂演示都有些麻烦，让机械臂单从演示中去理解人们的意图也比较困难，可能会存在偏差。

在日常生活中，人们能通过自然语言来互相传达需求和意图，并通过多次交流来消除沟通中的歧义和混乱。如何利用人在回路的自然语言引导机械臂快速学习新技能仍是一个挑战。

中国专利CN111890357A中公开了一种基于动作演示示教的智能机器人抓取方法，该专利中的方法虽然可以基于元学习的方式实现在不同背景环境下让机器人学习新任务，但是该方法需要利用新的人类示教视频对元模型进行参数更新，在实际场景应用和部署中，不管是录制人类示教视频还是对模型的更新，都会耗费一定的时间和精力。此外，若元学习模型无法通过一次执行精准地完成任务，该方法不能直接对模型进行修正。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种部署复杂度低、任务完成精度高的基于语言引导的机械臂动作元模仿学习方法及存储介质。

本发明的目的可以通过以下技术方案来实现：

一种基于语言引导的机械臂动作元模仿学习方法，所述的模仿学习方法包括：

步骤1：搭建机械臂虚拟仿真环境并通过采样控制策略控制机械臂完成若干个目标任务，创建示教任务数据；

步骤2：构建语言提示函数，并基于语言提示函数给出语言提示；

步骤3：搭建机械臂元控制网络，并对元控制网络进行训练；

步骤4：在所搭建的虚拟仿真环境中进行元测试，将采样得到的新任务自然语言指令输入元控制网络，同时在每一时间步长中将步骤2获得的语言提示输入元控制网络，通过元控制网络输出的动作向量来控制机械臂的动作，直至完成当前任务。

优选地，所述的步骤1具体为：

步骤1-1：基于开源仿真平台，搭建目标任务的仿真环境；

步骤1-2：采样目标任务，并给出对应的自然语言任务指令；

步骤1-3：通过强化学习算法训练得到最优专家策略，并与随机控制策略相结合得到采样控制策略；

步骤1-4：基于采样控制策略控制机械臂，构建示教任务数据。

更加优选地，所述步骤1中的示教任务数据具体为：

在若干个目标任务中，每个目标任务对应一组示教任务数据，每组示教任务数据包括一条当前任务特定的自然语言指令、对机械臂和环境的观察序列、机械臂动作序列以及语言提示序列；

所述的自然语言指令L_T具体为谓语与宾语的组合范式；

所述的对机械臂和环境的观察序列O的获取方法为：使用相机记录机械臂的第一视角图片作为对机械臂和环境的观察序列O＝{o₁,o₂,…,o_n}，其中，n表示第n帧；

所述的机械臂动作序列为机械臂在时序过程中所做的动作A＝{a₁,a₂,…,a_n}，具体为由机械臂的关节角度、关节角速度和末端执行器的姿态信息组成的13维向量。

更加优选地，所述的采样控制策略具体为：

其中，rand()为(0,1)之间的随机采样值，ε为预设的超参数，π(a_t|o_t)为随机控制策略，π^*(a_t|o_t)为最优专家策略。

更加优选地，所述的ε取值为0.7。

优选地，所述的步骤2具体为：

语言提示函数F_T(c_t|s_t,L_T)能够以当前任务T的自然语言指令L_T和当前时间步长t下机械臂的关节角度、关节角速度和末端执行器的姿态信息以及目标物和干扰物坐标位置s_t为输入，输出当前时刻语言提示序列c_t。

优选地，所述的步骤3中元控制网络包括任务指令编码模块、语言提示编码模块、图像感知模块和控制模块；

所述的任务指令编码模块通过预训练的词向量模型Word2vec将自然语言指令L_T编码成词向量，并经过2层的多层感知机，得到1024维的特征向量F_L；

所述的语言提示编码模块通过预训练的词向量模型Word2vec将语言提示序列c_t编码成词向量，并经过2层的多层感知机，得到1024维的特征向量F_c；

所述的图像感知模块用于感知当前的机械臂和环境状态，包括3个卷积层、3个池化层和3个BN层，图像感知模块将当前时间步长下机械臂的观察o_t作为输入，得到当前状态的特征向量表示F_o；

所述的控制模块包括3层全连接层和2层激活层，控制模块的输入为拼接后的特征向量F_L、F_c和F_o，输出为13维的用于直接控制机械臂的动作向量。

优选地，所述的步骤3元控制网络的训练方法为：

使用步骤1中创建的示教任务数据对元控制方法进行端到端的监督训练，损失函数具体为：

其中，

为元控制网络预测的机械臂动作，a_t为机械臂动作的ground truth。

优选地，所述步骤4中的元测试具体为：

将新任务语言指令L_T'和当前的观察o_t'输入元控制网络，同时将初始语言提示c_t'的每一位都置为0并输入模型，然后在每一时刻把元控制网络输出的动作向量控制机械臂运动，同时在元训练时采用人在回路的交互式语言提示方式。

一种存储介质，所述的存储介质内存储有上述任一项中所述的基于语言引导的机械臂动作元模仿学习方法。

与现有技术相比，本发明具有以下有益效果：

一、部署复杂度低：本发明中的机械臂动作元模仿学习方法采用元学习组合模仿学习的方式，将自然语言和图像多模态输入的端到端控制网络，能够让机械臂基于多模态信息自主学习不同任务目标和动作之间的映射关系，无需在机械臂上和场景中部署大量的传感器来检测系统的状态，适用于非结构化的动态场景，能够根据用户语言来引导机械臂执行新任务，大大降低了不同任务的部署复杂度，增强系统对应用场景和操作目标的泛化性能。

二、提高机械臂任务完成精度：本发明中的机械臂动作元模仿学习方法基于迭代式的语言提示输入的元模仿学习范式，在元训练时采样大量的任务对控制网络进行监督训练；而在元测试过程中通过人在回路的交互式语言提示，使得网络能够快速学习新任务，并大大提高了机械臂的任务完成精度。

附图说明

图1为本发明实施例中机械臂动作元模仿学习方法的流程示意图；

图2为本发明实施例中搭建的仿真环境示意图；

图3为本发明实施例中元控制网络的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于语言引导的机械臂动作元模仿学习方法，其流程如图1所示，包括：

步骤1具体为：

步骤1-1：基于开源仿真平台，搭建目标任务的仿真环境；

步骤1-2：采样目标任务，并给出对应的自然语言任务指令；

步骤1-4：基于采样控制策略控制机械臂，构建示教任务数据；

步骤1中的示教任务数据具体为：

将机械臂的序贯控制问题建模为一个马尔科夫决策过程，使用相机记录下机械臂的第一视角图片作为对机械臂和环境的观察序列O＝{o₁,o₂,…,o_n}，其中，n表示第n帧。区别于通过设计奖励函数来描述目标任务和动作轨迹，本实施例通过一条自然语言指令L_T来传达相应的目标。自然语言指令L_T通过“谓语”+“宾语”的组合范式；本实施例无需通过检测或分割的算法将目标物体的坐标预测出来，而是在元训练过程中自主找到指令与动作的映射关系；机械臂动作序列为机械臂在时序过程中所做的动作A＝{a₁,a₂,…,a_n}，具体为由机械臂的关节角度、关节角速度和末端执行器的姿态信息组成的13维向量；

步骤1中的采样控制策略结合了随机策略和最优专家策略来控制机械臂，具体表达形式如下：

本实施例中ε取值为0.7，使得机械臂有30％的概率基于最优专家策略来做出相应的动作，有70％的概率基于随机策略来做出相应动作。

对于元训练的每一个任务，都能够设置奖励函数，并通过强化学习算法训练获得最优专家策略，在创建示教任务数据中，给定基于采样控制策略控制机械臂序列地预测下一步的动作，并有步骤2中的语言提示函数F_T(c_t|s_t,L_T)给出当前的语言提示c_t。由上述数据组成每一时刻的元组(o_t,a_t,c_t,L_T)并保存到示教任务数据中。

对于每一个元训练任务来说，本实施例认为都能够采样得到一个相关的语言提示函数。在实际应用中，能够用人来对机械臂每一步的动作和与环境交互后得到的观察来给出语言提示。当用户使用本实施例中的机械臂动作元模仿学习方法时，能够自主选择语言提示的方式：人为给出语言提示或由语言提示函数给出。为了节省成本，本实施例在训练过程中构建一个语言提示函数来计算出当前的语言体。

步骤3：搭建机械臂元控制网络，并对元控制网络进行训练；

元控制网络的结构如图3所示，包括任务指令编码模块、语言提示编码模块、图像感知模块和控制模块；

任务指令编码模块通过预训练的词向量模型Word2vec将自然语言指令L_T编码成词向量，并经过2层的多层感知机，得到1024维的特征向量F_L；

语言提示编码模块通过预训练的词向量模型Word2vec将语言提示序列c_t编码成词向量，并经过2层的多层感知机，得到1024维的特征向量F_c；

图像感知模块用于感知当前的机械臂和环境状态，包括3个卷积层、3个池化层和3个BN层，图像感知模块将当前时间步长下机械臂的观察o_t作为输入，得到当前状态的特征向量表示F_o；

控制模块包括3层全连接层和2层激活层，控制模块的输入为拼接后的特征向量F_L、F_c和F_o，输出为13维的用于直接控制机械臂的动作向量。

元控制网络的训练方法为：

其中，

元测试具体为：

将新任务语言指令L_T'和当前的观察o_t'输入元控制网络，同时将初始语言提示c_t'的每一位都置为0并输入模型，然后在每一时刻把元控制网络输出的动作向量控制机械臂运动，同时认为或者通过语言提示函数可以不断地给出语言提示并输入元控制模型，不断引导机械臂精准地完成任务。

下面提供一种具体的应用实例：

一种基于语言引导的机械臂动作元模仿学习方法，包括：

S1：基于OpenAI Gym和Mujoco仿真平台搭建各种任务与的仿真环境，仿真环境和任务示意图如图2所示。本实施例在仿真环境中的桌子上放置了各种不同颜色的木块及障碍物，任务目标为控制机械臂执行木块的抓取、推送、放置、堆叠等任务。在仿真环境中设置好相机的三维空间坐标和姿态。在机械臂运动过程中，可以通过Mujoco自带函数导出机械臂视角下对系统的观测，同时保存下机械臂在每一时间步长下的关节角度、关节角速度和末端执行器的姿态信息。每一条机械臂的运动轨迹都由一系列观测O＝{o₁,o₂,…,o_n}和动作A＝{a₁,a₂,…,a_n}组成，n表示第n帧。不同的任务可以通过改变仿真环境中的操作场景和任务目标来实现，例如改变仿真环境的背景、改变目标物和干扰物的颜色、移动目标物体或干扰物的摆放位置、调节光照强度、操作机械臂进行抓取、推送、堆叠、放置任务等。

多次采样目标任务T，并人为给出或脚本生成相应的自然语言任务指令L_T。通过强化学习算法PPO或TRPO训练得到最优策略模型π^*(a_t|o_t)，并与随机策略模型结合得到采样控制策略模型，并控制机械臂产生一系列轨迹，构建示教任务数据。

S2：构建语言提示函数，能够基于当前机械臂状态和场景给出相应的语言提示。针对每个任务目标，为了便于生成语言提示和分解任务目标，清晰执行任务的步骤，将所有任务T分解为5个子任务目标点L_T＝(l_T1,l_T2,l_T3,l_T4,l_T5)，生成演示时需要控制机械臂依次达到这5个子任务目标点。

为了构建语言提示函数F_T(c_t|s_t,L_T)，从仿真环境中提取出机械臂在当前时刻的关节角度、角加速度和末端执行器的姿态，以及目标物体和干扰物体的坐标位置，这些信息作为语言提示函数的输入。需要注意的是，本实施例仅在生成语言提示时才用到仿真环境中各物体的位置状态信息，在控制模型的训练以及测试中是不使用状态信息的，控制模型仅通过对环境的图像观测来进行感知和预测，在实际应用中可以人为给出语言提示来代替语言提示函数。例如在推送木块到指定位置的任务中，为了躲避障碍物，可以将任务的执行轨迹分为以下五个子任务目标(1)机械臂移动到指定木块前；(2)机械臂末端执行器夹住指定木块；(3)推送木块到指定位置1，从而绕过障碍物1；(4)推送木块到指定位置2，从而绕过障碍物2；(5)最终将木块推到指定位置。语言提示函数能够根据当前的状态信息s_t和子任务目标，给出当前帧的语言提示c_t。若当前子任务已经完成，则生成的语言提示即为下一个子任务目标。

S3：搭建元控制网络。元控制网络的详细网络结构图如图3所示，该元控制网络由任务指令编码模块、语言提示编码模块、图像感知模块以及控制模块四部分组成。图像感知模块由3个卷积大小为5、步长stride为2、激活函数为ReLU的卷积层组成，最终将RGB图像编码成一个1024维的向量。语言提示编码模块和任务指令编码模块的结构类似，由语言经过预训练模型Word2vec后得到的文本嵌入作为输入，经过2层的多层感知机，最终得到1024维的特征向量F_L和1024维的特征向量F_C。其中语言提示编码模块和任务指令编码模块结构相同，均包含2048个神经元组成的隐藏层和1024个神经元组成的输出层。将得到的三个特征F_L、F_C、F_o拼接起来共同输入控制模块，经过3层全连接层和2层ReLU激活层，最终输出动作向量用于直接控制机械臂。通过S1和S2构建的数据来监督训练元控制模型，计算预测的动作和真实动作之间的L2距离作为损失函数进行网络的反向传播和参数优化。

S4：在所搭建的机械臂虚拟仿真环境中进行元测试，将采样得到的新任务自然语言指令输入步骤S3中得到的元控制模型，同时在每一时间步长中将步骤S2中得到的语言提示函数生成的提示语言输入元控制模型，不断地指导机械臂向着一系列子目标方向执行，并最终完成新任务。区别于经典的元学习需要少量样本进行fine-tune的测试方式，该方式通过语言提示来直接对元控制模型进行指导，大大减少了对样本的需求，同时能够使模型更加快速灵活地收敛到新任务上去。

通过上述方法，可以通过自然语言向机械臂传达任务目标，并通过像素输入和交互式地自然语言不断引导机械臂修正动作轨迹，无需大量的传感器来检测系统的状态和目标的三维坐标位置，同时能够快速泛化到非结构化的动态场景下的各种新任务。

本实施例还包括一种存储介质，该存储介质内存储有上述任一项机械臂动作元模仿学习方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语言引导的机械臂动作元模仿学习方法，其特征在于，所述的模仿学习方法包括：

所述的采样控制策略具体为：

其中，rand()为(0,1)之间的随机采样值，ε为预设的超参数，π(a_t|o_t)为随机控制策略，π^*(a_t|o_t)为最优专家策略；

步骤3：搭建机械臂元控制网络，并对元控制网络进行训练；

所述的元控制网络包括任务指令编码模块、语言提示编码模块、图像感知模块和控制模块；

所述的控制模块包括3层全连接层和2层激活层，控制模块的输入为拼接后的特征向量F_L、F_c和F_o，输出为13维的用于直接控制机械臂的动作向量；

所述的步骤3元控制网络的训练方法为：

其中，

为元控制网络预测的机械臂动作，a_t为机械臂动作的ground truth；

2.根据权利要求1所述的一种基于语言引导的机械臂动作元模仿学习方法，其特征在于，所述的步骤1具体为：

步骤1-1：基于开源仿真平台，搭建目标任务的仿真环境；

步骤1-2：采样目标任务，并给出对应的自然语言任务指令；

3.根据权利要求2所述的一种基于语言引导的机械臂动作元模仿学习方法，其特征在于，所述步骤1中的示教任务数据具体为：

所述的自然语言指令L_T具体为谓语与宾语的组合范式；

4.根据权利要求1所述的一种基于语言引导的机械臂动作元模仿学习方法，其特征在于，所述的ε取值为0.7。

5.根据权利要求1所述的一种基于语言引导的机械臂动作元模仿学习方法，其特征在于，所述的步骤2具体为：

6.根据权利要求1所述的一种基于语言引导的机械臂动作元模仿学习方法，其特征在于，所述步骤4中的元测试具体为：