CN111983922A - 一种基于元模仿学习的机器人演示示教方法 - Google Patents

一种基于元模仿学习的机器人演示示教方法 Download PDF

Info

Publication number
CN111983922A
CN111983922A CN202010669008.2A CN202010669008A CN111983922A CN 111983922 A CN111983922 A CN 111983922A CN 202010669008 A CN202010669008 A CN 202010669008A CN 111983922 A CN111983922 A CN 111983922A
Authority
CN
China
Prior art keywords
robot
learning
demonstration
meta
task set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010669008.2A
Other languages
English (en)
Inventor
雷渠江
李秀昊
徐杰
桂光超
梁波
潘艺芃
刘纪
王雨禾
王卫军
韩彰秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Advanced Technology of CAS
Original Assignee
Guangzhou Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Advanced Technology of CAS filed Critical Guangzhou Institute of Advanced Technology of CAS
Priority to CN202010669008.2A priority Critical patent/CN111983922A/zh
Publication of CN111983922A publication Critical patent/CN111983922A/zh
Priority to PCT/CN2021/100857 priority patent/WO2022012265A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/42Recording and playback systems, i.e. in which the programme is recorded from a cycle of operations, e.g. the cycle of operations being manually controlled, after which this record is played back on the same machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Manipulator (AREA)
  • Numerical Control (AREA)

Abstract

本发明公开了一种基于元模仿学习的机器人演示示教方法,涉及机器学习技术领域,包括步骤:获取机器人演示示教任务集;构造网络结构模型并获得自适应目标损失函数;在元训练阶段,利用算法一学习、优化损失函数及其初始化值和参数;在元测试阶段,利用算法二对专家演示的轨迹进行学习,获得学习策略;将专家演示轨迹作为输入,结合学习策略,利用网络结构模型生成机器人模仿轨迹,并结合机器人状态信息映射到机器人的动作上。本发明能够从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。

Description

一种基于元模仿学习的机器人演示示教方法
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种基于元模仿学习的机器人演示示教方法。
背景技术
随着市场规模的不断扩大,尤其是随着3C产业的快速发展,工业机器人已经在多个领域被广泛应用,并能完成一系列复杂工作,如抓取、装配、焊接、激光切割和喷涂等。传统的机器人示教方法操作复杂,耗时较长,还需要掌握机器人模型等相关知识,对操作者要求较高。在现有技术下,为简化机器人示教操作,操作人员一般通过示教器,手动控制机器人关节运动,采用人工拖动使机器人末端按照需要的轨迹运动,同时机器人会记录运动的点,从而达到复原示教运动的效果;然而,虽然拖动示教操作灵活,但是效率低下,精度难以保证。为此,国内外学者致力于新一代机器人示教方法的研究,通过机器人从演示示教中学习实现操纵自主执行抓取任务,以适应3C行业的快速发展,满足工业机器人智能操作的可重复性、灵活性和可靠性的发展需求。
传统的机器人演示学习模型主要有隐马尔可夫模型、高斯混合模型和动态运动原语等,通过对具有时空变化的运动进行建模,模拟运动轨迹,但这些方法在现实环境下的效果不好且鲁棒性较差,而工业机器人抓取执行环境多为非结构化未知动态环境,因此,该方法不适用于现实环境下工业机器人的智能操作。
目前,机器人演示学习主要基于模仿学习方法进行研究,主要分为行为克隆和逆强化学习。行为克隆是从观察到行动的监督学习,这种方法依赖于专家数据,需要大量的数据集,将冗余的劳动转化到了专家身上,这是比较低效和耗时的。逆强化学习则通过专家给出的演示,去归类或者回归出激励函数,通过激励函数来评价当前状态的优劣并进行积累,来学习最优的策略,但是很多情况下奖励函数难以设计,需要额外的经验来优化奖励函数,这种通过试错法优化奖励函数的方式耗时费力,而且该方法难以适用于多阶段决策中。
发明内容
有鉴于此,有必要针对上述的问题,提供一种基于元模仿学习的机器人演示示教方法,使机器人从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于元模仿学习的机器人演示示教方法,包括以下步骤:
步骤S1:获取机器人演示示教任务集p(T);
步骤S2:构造网络结构模型并获得自适应目标损失函数Lψ
步骤S3:在元训练阶段,利用算法一学习、优化自适应目标损失函数Lψ,获得策略参数θ和ψ;
步骤S4:在元测试阶段,利用算法二对专家演示的轨迹τh进行学习,获得学习策略πφ
步骤S5:将专家演示轨迹
Figure BDA0002581546170000021
作为输入,结合已学习到的策略πφ,利用网络结构模型生成机器人模仿轨迹
Figure BDA0002581546170000022
并结合机器人状态信息(s1,s2,…,sT)映射到机器人的动作(a1,a2,…,aT)上,从而达到一次演示快速示教的效果。
进一步地,所述任务集p(T)为演示示教视频,采用50-way 1-shot的方法构造所述任务集,包括训练任务集和测试任务集,训练任务集包括人类演示轨迹
Figure BDA0002581546170000023
和机器人演示轨迹
Figure BDA0002581546170000024
测试任务集为专家演示轨迹τh,每个任务集演示轨迹包含机器人输入的图像(o1,o2,…,oT)、机器人状态信息(s1,s2,…,sT)和机器人动作信息(a1,a2,…,aT)。
具体地,所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别,每个类别中都有1个样本。
进一步地,所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN,通过神经网络来训练参数作为策略表示,获得自适应目标损失函数Lψ,在每个时间步长将机器人输入的图像(o1,o2,…,oT)和机器人状态信息(s1,s2,…,sT)映射到机器人的动作上(a1,a2,…,aT)。
具体地,所述卷积层中前两个卷积层Conv1和Conv2的步长为2,后两个卷积层Conv3和Conv4的步长为1,卷积核大小为3×3,每个卷积层均通过ReLu函数和归一化BatchNormalization操作;
所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能,其中残差链接通过残差块代替卷积层,使得网络可以跨层的方式传递信息;
所述残差块包含两层卷积和非线性映射,卷积核大小为3×3,每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化;利用1×1的卷积进行降维,将下层的特征图跳层到上层,再将两个层的特征图相加。
进一步地,在步骤S3中,所述算法一包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、人类演示轨迹
Figure BDA0002581546170000031
机器人演示轨迹
Figure BDA0002581546170000032
以及学习率α和β;
处理过程:随机初始化参数θ,从p(T)所有的任务中取出一个批量的任务Ti,对于所有的Ti都有:从Ti中采样人类演示轨迹
Figure BDA0002581546170000033
计算梯度
Figure BDA0002581546170000034
使用梯度下降法计算模型参数
Figure BDA0002581546170000035
从Ti中采样机器人演示轨迹
Figure BDA0002581546170000036
最后使用梯度下降法更新模型参数
Figure BDA0002581546170000037
其中,dh
Figure BDA0002581546170000038
子集,dr
Figure BDA0002581546170000039
子集;
输出:策略参数θ,ψ。
进一步地,在步骤S4中,所述算法二包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、专家演示轨迹τh、学习率α、元训练阶段更新后的参数θ和学习后的自适应损失函数Lψ
处理过程:计算损失函数Lψ关于θ的梯度
Figure BDA00025815461700000310
使用梯度下降法计算模型参数
Figure BDA00025815461700000311
输出:学习策略πφ
与现有技术相比,本发明的优点和积极效果至少包括:
面向现实非结构化未知动态环境下,突破现有机器人演示学习需要大量的演示获取训练样本并且依赖于专家数据的局限性,本发明公开的一种基于元模仿学习的机器人演示示教方法,能够从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。具体而言:
(1)采用网络结构模型获得自适应目标损失函数,由损失函数引导网络参数的更新,可快速泛化到新的场景,而不需要再做具体的任务工程;
(2)采用空洞卷积和残差链接组合的时间卷积TCN结构,使得网络对历史具有记忆功能;
(3)将算法分为训练阶段元模仿学习算法和训练阶段元模仿学习算法,这种训练和测试阶段采用两种不同元模仿学习算法的方式,可使得机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,达到一次演示快速示教的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的整体流程示意图;
图2是本发明所使用的网络结构模型示意图;
图3是本发明训练阶段元模仿学习算法一的示意图;
图4是本发明测试阶段元模仿学习算法二的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
图1给出了本发明的整体流程示意图,如图1所示,本发明提供了一种基于元模仿学习的机器人演示示教方法,包括以下步骤:
步骤S1:获取机器人演示示教任务集p(T);
步骤S2:构造网络结构模型并获得自适应目标损失函数Lψ
步骤S3:在元训练阶段,利用算法一学习、优化自适应目标损失函数Lψ,获得策略参数θ和ψ;
步骤S4:在元测试阶段,利用算法二对专家演示的轨迹τh进行学习,获得学习策略πφ
步骤S5:将专家演示轨迹
Figure BDA0002581546170000051
作为输入,结合已学习到的策略πφ,利用网络结构模型生成机器人模仿轨迹
Figure BDA0002581546170000052
并结合机器人状态信息(s1,s2,…,sT)映射到机器人的动作(a1,a2,…,aT)上,从而达到一次演示快速示教的效果。
进一步地,机器人演示示教为机器人从人类演示中学习操纵自主执行任务,即机器人通过元模仿学习算法从人类演示轨迹
Figure BDA0002581546170000053
和机器人演示轨迹
Figure BDA0002581546170000054
中进行学习,当专家演示τh一次后机器人可根据学习到的策略模仿出轨迹τr,从而达到一次演示快速示教的效果,其中任务包含机器人的抓取、装配和焊接等。
进一步地,所述任务集p(T)为演示示教视频,采用50-way 1-shot的方法构造所述任务集,包括训练任务集和测试任务集,训练任务集包括人类演示轨迹
Figure BDA0002581546170000061
和机器人演示轨迹
Figure BDA0002581546170000062
测试任务集为专家演示轨迹τh,每个任务集演示轨迹包含机器人输入的图像(o1,o2,…,oT)、机器人状态信息(s1,s2,…,sT)和机器人动作信息(a1,a2,…,aT)。
具体地,所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别,每个类别中都有1个样本。
图2给出了本发明所使用的网络结构模型示意图,如图2所示,本发明所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN,通过神经网络来训练参数作为策略表示,获得自适应目标损失函数Lψ,在每个时间步长将机器人输入的图像(o1,o2,…,oT)和机器人状态信息(s1,s2,…,sT)映射到机器人的动作上(a1,a2,…,aT)。
具体地,所述卷积层中前两个卷积层Conv1和Conv2的步长为2,后两个卷积层Conv3和Conv4的步长为1,卷积核大小为3×3,每个卷积层均通过ReLu函数和归一化BatchNormalization操作;
所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能,其中残差链接通过残差块代替卷积层,使得网络可以跨层的方式传递信息;
所述残差块包含两层卷积和非线性映射,卷积核大小为3×3,每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化;利用1×1的卷积进行降维,将下层的特征图跳层到上层,再将两个层的特征图相加。
图3给出了本发明训练阶段元模仿学习算法一的示意图,如图3所示,进一步地,在步骤S3中,所述算法一包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、人类演示轨迹
Figure BDA0002581546170000063
机器人演示轨迹
Figure BDA0002581546170000064
以及学习率α和β;
处理过程:随机初始化参数θ,从p(T)所有的任务中取出一个批量的任务Ti,对于所有的Ti都有:从Ti中采样人类演示轨迹
Figure BDA0002581546170000065
计算梯度
Figure BDA0002581546170000071
使用梯度下降法计算模型参数
Figure BDA0002581546170000072
从Ti中采样机器人演示轨迹
Figure BDA0002581546170000073
最后使用梯度下降法更新模型参数
Figure BDA0002581546170000074
其中,dh
Figure BDA0002581546170000075
子集,dr
Figure BDA0002581546170000076
子集;
输出:策略参数θ,ψ。
图4给出了本发明训练阶段元模仿学习算法二的示意图,如图4所示,进一步地,在步骤S4中,所述算法二包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、专家演示轨迹τh、学习率α、元训练阶段更新后的参数θ和学习后的自适应损失函数Lψ
处理过程:计算损失函数Lψ关于θ的梯度
Figure BDA0002581546170000077
使用梯度下降法计算模型参数
Figure BDA0002581546170000078
输出:学习策略πφ
面向现实非结构化未知动态环境下,突破现有机器人演示学习需要大量的演示获取训练样本并且依赖于专家数据的局限性,本发明公开一种基于元模仿学习的机器人演示示教方法,能够从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。
具体而言,本发明至少具有下述优点和积极效果:
(1)采用网络结构模型获得自适应目标损失函数,由损失函数引导网络参数的更新,可快速泛化到新的场景,而不需要再做具体的任务工程;
(2)采用空洞卷积和残差链接组合的时间卷积TCN结构,使得网络对历史具有记忆功能;
(3)将算法分为训练阶段元模仿学习算法和训练阶段元模仿学习算法,这种训练和测试阶段采用两种不同元模仿学习算法的方式,可使得机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,达到一次演示快速示教的效果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于元模仿学习的机器人演示示教方法,其特征在于,包括以下步骤:
步骤S1:获取机器人演示示教任务集p(T);
步骤S2:构造网络结构模型并获得自适应目标损失函数Lψ
步骤S3:在元训练阶段,利用算法一学习、优化自适应目标损失函数Lψ,获得策略参数θ和ψ;
步骤S4:在元测试阶段,利用算法二对专家演示的轨迹τh进行学习,获得学习策略πφ
步骤S5:将专家演示轨迹
Figure FDA0002581546160000011
作为输入,结合已学习到的策略πφ,利用网络结构模型生成机器人模仿轨迹
Figure FDA0002581546160000012
并结合机器人状态信息(s1,s2,…,sT)映射到机器人的动作(a1,a2,…,aT)上,从而达到一次演示快速示教的效果。
2.根据权利要求1所述的基于元模仿学习的机器人演示示教方法,其特征在于,所述任务集p(T)为演示示教视频,采用50-way 1-shot的方法构造所述任务集,包括训练任务集和测试任务集,训练任务集包括人类演示轨迹
Figure FDA0002581546160000013
和机器人演示轨迹
Figure FDA0002581546160000014
测试任务集为专家演示轨迹τh,每个任务集演示轨迹包含机器人输入的图像(o1,o2,…,oT)、机器人状态信息(s1,s2,…,sT)和机器人动作信息(a1,a2,…,aT);具体地,所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别,每个类别中都有1个样本。
3.根据权利要求1所述的基于元模仿学习的机器人演示示教方法,其特征在于,所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN,通过神经网络来训练参数作为策略表示,获得自适应目标损失函数Lψ,在每个时间步长将机器人输入的图像(o1,o2,…,oT)和机器人状态信息(s1,s2,…,sT)映射到机器人的动作上(a1,a2,…,aT)。
4.根据权利要求3所述的基于元模仿学习的机器人演示示教方法,其特征在于,
所述卷积层中前两个卷积层Conv1和Conv2的步长为2,后两个卷积层Conv3和Conv4的步长为1,卷积核大小为3×3,每个卷积层均通过ReLu函数和归一化Batch Normalization操作;
所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能,其中残差链接通过残差块代替卷积层,使得网络可以跨层的方式传递信息;
所述残差块包含两层卷积和非线性映射,卷积核大小为3×3,每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化;利用1×1的卷积进行降维,将下层的特征图跳层到上层,再将两个层的特征图相加。
5.根据权利要求1所述的基于元模仿学习的机器人演示示教方法,其特征在于,在步骤S3中,所述算法一包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、人类演示轨迹
Figure FDA0002581546160000021
机器人演示轨迹
Figure FDA0002581546160000022
以及学习率α和β;
处理过程:随机初始化参数θ,从p(T)所有的任务中取出一个批量的任务Ti,对于所有的Ti都有:从Ti中采样人类演示轨迹
Figure FDA0002581546160000023
计算梯度
Figure FDA0002581546160000024
使用梯度下降法计算模型参数
Figure FDA0002581546160000025
从Ti中采样机器人演示轨迹
Figure FDA0002581546160000026
最后使用梯度下降法更新模型参数
Figure FDA0002581546160000027
其中,dh
Figure FDA0002581546160000028
子集,dr
Figure FDA0002581546160000029
子集;
输出:策略参数θ,ψ。
6.根据权利要求1所述的基于元模仿学习的机器人演示示教方法,其特征在于,在步骤S4中,所述算法二包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、专家演示轨迹τh、学习率α、元训练阶段更新后的参数θ和学习后的自适应损失函数Lψ
处理过程:计算损失函数Lψ关于θ的梯度
Figure FDA00025815461600000210
使用梯度下降法计算模型参数
Figure FDA00025815461600000211
输出:学习策略πφ
CN202010669008.2A 2020-07-13 2020-07-13 一种基于元模仿学习的机器人演示示教方法 Pending CN111983922A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010669008.2A CN111983922A (zh) 2020-07-13 2020-07-13 一种基于元模仿学习的机器人演示示教方法
PCT/CN2021/100857 WO2022012265A1 (en) 2020-07-13 2021-06-18 Robot learning from demonstration via meta-imitation learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010669008.2A CN111983922A (zh) 2020-07-13 2020-07-13 一种基于元模仿学习的机器人演示示教方法

Publications (1)

Publication Number Publication Date
CN111983922A true CN111983922A (zh) 2020-11-24

Family

ID=73439123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010669008.2A Pending CN111983922A (zh) 2020-07-13 2020-07-13 一种基于元模仿学习的机器人演示示教方法

Country Status (2)

Country Link
CN (1) CN111983922A (zh)
WO (1) WO2022012265A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396180A (zh) * 2020-11-25 2021-02-23 中国科学院自动化研究所 基于动态示教数据和行为克隆的深度q学习网络优化方法
CN113408621A (zh) * 2021-06-21 2021-09-17 中国科学院自动化研究所 面向机器人技能学习的快速模仿学习方法、系统、设备
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
WO2022012265A1 (en) * 2020-07-13 2022-01-20 Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences Robot learning from demonstration via meta-imitation learning
CN114683287A (zh) * 2022-04-25 2022-07-01 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法
CN114734443A (zh) * 2022-04-27 2022-07-12 东南大学 基于生成对抗模仿学习的人机协作机器人技能识别方法
CN114841362A (zh) * 2022-03-30 2022-08-02 山东大学 一种利用虚拟现实技术进行模仿学习数据收集的方法
CN114881240A (zh) * 2022-02-28 2022-08-09 复旦大学 一种基于多注意力机制的机器人视觉示教学习模型及方法
CN115338610A (zh) * 2022-07-04 2022-11-15 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN116227571A (zh) * 2023-03-01 2023-06-06 北京百度网讯科技有限公司 模型的训练、动作确定方法、装置、电子设备及存储介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114905505B (zh) * 2022-04-13 2024-04-19 南京邮电大学 一种移动机器人的导航控制方法、系统及存储介质
CN114817989B (zh) * 2022-04-29 2024-06-11 浪潮(北京)电子信息产业有限公司 模型生成方法、运行控制方法、装置、设备及存储介质
CN114888801B (zh) * 2022-05-16 2023-10-13 南京邮电大学 一种基于离线策略强化学习的机械臂控制方法及系统
CN115204387B (zh) * 2022-07-21 2023-10-03 法奥意威(苏州)机器人系统有限公司 分层目标条件下的学习方法、装置和电子设备
CN116117826B (zh) * 2023-04-12 2023-07-25 佛山科学技术学院 基于仿射变换与行为树的机器人任务规划方法及系统
CN116533247A (zh) * 2023-05-31 2023-08-04 同济大学 基于dmp与卷积神经网络的机械臂多模态抓取任务实现方法
CN116595443B (zh) * 2023-07-17 2023-10-03 山东科技大学 一种基于元学习的无线信号本手势识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106773659A (zh) * 2015-11-20 2017-05-31 哈尔滨工大天才智能科技有限公司 一种基于高斯过程的机器人模仿学习方法
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN109805898A (zh) * 2019-03-22 2019-05-28 中国科学院重庆绿色智能技术研究院 基于注意力机制时序卷积网络算法的危重症死亡预测方法
CN110059188A (zh) * 2019-04-11 2019-07-26 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110900598A (zh) * 2019-10-15 2020-03-24 合肥工业大学 机器人三维运动空间动作模仿学习方法和系统
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956601B (zh) * 2016-04-15 2019-01-29 北京工业大学 一种基于轨迹模仿的机器人汉字书写学习方法
US11615284B2 (en) * 2016-12-22 2023-03-28 Intel Corporation Efficient transferring of human experiences to robots and other autonomous machines
US11741398B2 (en) * 2018-08-03 2023-08-29 Samsung Electronics Co., Ltd. Multi-layered machine learning system to support ensemble learning
CN109760050A (zh) * 2019-01-12 2019-05-17 鲁班嫡系机器人(深圳)有限公司 机器人行为训练方法、装置、系统、存储介质及设备
CN110238855B (zh) * 2019-06-24 2020-10-16 浙江大学 一种基于深度逆向强化学习的机器人乱序工件抓取方法
CN111203878B (zh) * 2020-01-14 2021-10-01 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法
CN111983922A (zh) * 2020-07-13 2020-11-24 广州中国科学院先进技术研究所 一种基于元模仿学习的机器人演示示教方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106773659A (zh) * 2015-11-20 2017-05-31 哈尔滨工大天才智能科技有限公司 一种基于高斯过程的机器人模仿学习方法
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN109805898A (zh) * 2019-03-22 2019-05-28 中国科学院重庆绿色智能技术研究院 基于注意力机制时序卷积网络算法的危重症死亡预测方法
CN110059188A (zh) * 2019-04-11 2019-07-26 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110900598A (zh) * 2019-10-15 2020-03-24 合肥工业大学 机器人三维运动空间动作模仿学习方法和系统
CN110991027A (zh) * 2019-11-27 2020-04-10 华南理工大学 一种基于虚拟场景训练的机器人模仿学习方法
CN111401556A (zh) * 2020-04-22 2020-07-10 清华大学深圳国际研究生院 一种对抗式模仿学习中奖励函数的选择方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SHAOJIE BAI ET AL.: ""An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling"", 《ARXIV:1803.01271》 *
TIANHE YU ET AL.: ""One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning"", 《PROCEEDINGS OF ROBOTICS: SCIENCE AND SYSTEMS》 *
VAN DEN OORD, AARON ET AL.: ""WaveNet: A Generative Model for Raw Audio"", 《ARXIV:1609.03499》 *
田霞: "基于元学习的少样本图像分类方法研究", 《中国优秀硕士论文全文数据库(电子期刊)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022012265A1 (en) * 2020-07-13 2022-01-20 Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences Robot learning from demonstration via meta-imitation learning
CN112396180A (zh) * 2020-11-25 2021-02-23 中国科学院自动化研究所 基于动态示教数据和行为克隆的深度q学习网络优化方法
CN112396180B (zh) * 2020-11-25 2021-06-29 中国科学院自动化研究所 基于动态示教数据和行为克隆的深度q学习网络优化方法
CN113408621A (zh) * 2021-06-21 2021-09-17 中国科学院自动化研究所 面向机器人技能学习的快速模仿学习方法、系统、设备
CN113408621B (zh) * 2021-06-21 2022-10-14 中国科学院自动化研究所 面向机器人技能学习的快速模仿学习方法、系统、设备
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113641099B (zh) * 2021-07-13 2023-02-10 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN114881240A (zh) * 2022-02-28 2022-08-09 复旦大学 一种基于多注意力机制的机器人视觉示教学习模型及方法
CN114881240B (zh) * 2022-02-28 2023-09-26 复旦大学 一种基于多注意力机制的机器人视觉示教学习模型及方法
CN114841362A (zh) * 2022-03-30 2022-08-02 山东大学 一种利用虚拟现实技术进行模仿学习数据收集的方法
CN114683287A (zh) * 2022-04-25 2022-07-01 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法
CN114683287B (zh) * 2022-04-25 2023-10-20 浙江工业大学 一种基于元动作分层泛化的机械臂模仿学习方法
CN114734443A (zh) * 2022-04-27 2022-07-12 东南大学 基于生成对抗模仿学习的人机协作机器人技能识别方法
CN114734443B (zh) * 2022-04-27 2023-08-04 东南大学 基于生成对抗模仿学习的人机协作机器人技能识别方法
WO2023206863A1 (zh) * 2022-04-27 2023-11-02 东南大学 一种基于生成对抗模仿学习的人机协作机器人技能识别方法
CN115338610A (zh) * 2022-07-04 2022-11-15 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN115338610B (zh) * 2022-07-04 2024-02-13 中国科学院自动化研究所 双轴孔装配方法、装置、电子设备和存储介质
CN116227571A (zh) * 2023-03-01 2023-06-06 北京百度网讯科技有限公司 模型的训练、动作确定方法、装置、电子设备及存储介质
CN116227571B (zh) * 2023-03-01 2024-03-12 北京百度网讯科技有限公司 模型的训练、动作确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2022012265A1 (en) 2022-01-20

Similar Documents

Publication Publication Date Title
CN111983922A (zh) 一种基于元模仿学习的机器人演示示教方法
US10766137B1 (en) Artificial intelligence system for modeling and evaluating robotic success at task performance
CN112231489B (zh) 防疫机器人知识学习与迁移方法和系统
CN111872934B (zh) 一种基于隐半马尔可夫模型的机械臂控制方法及系统
US11086938B2 (en) Interpreting human-robot instructions
CN111898728A (zh) 一种基于多Agent强化学习的团队机器人决策方法
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN112183188B (zh) 一种基于任务嵌入网络的机械臂模仿学习的方法
Remman et al. Robotic lever manipulation using hindsight experience replay and shapley additive explanations
Yamada et al. Representation learning of logic words by an RNN: from word sequences to robot actions
Zakaria et al. Robotic control of the deformation of soft linear objects using deep reinforcement learning
Zhang et al. Learning Riemannian stable dynamical systems via diffeomorphisms
Ramirez et al. Reinforcement learning from expert demonstrations with application to redundant robot control
Nahavandi et al. Machine learning meets advanced robotic manipulation
Hartland et al. Using echo state networks for robot navigation behavior acquisition
CN114779792B (zh) 基于模仿与强化学习的医药机器人自主避障方法及系统
Liu et al. Robotic manipulation skill acquisition via demonstration policy learning
Aly et al. Experiential robot learning with deep neural networks
Tsinganos et al. Behavior policy learning: Learning multi-stage tasks via solution sketches and model-based controllers
Zhou et al. Humanoid action imitation learning via boosting sample DQN in virtual demonstrator environment
CN116749194A (zh) 一种基于模型的机器人操作技能参数学习方法
Park et al. Spatio-semantic Task Recognition: Unsupervised Learning of Task-discriminative Features for Segmentation and Imitation
Sylaja et al. Example-driven trajectory learner for robots under structured static environment
Danielsen Vision-based robotic grasping in simulation using deep reinforcement learning
Jadeja et al. An industrial self-learning robotic platform solution for smart factories industrial applications using machine and deep imitation learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201124