CN111983922A - 一种基于元模仿学习的机器人演示示教方法 - Google Patents
一种基于元模仿学习的机器人演示示教方法 Download PDFInfo
- Publication number
- CN111983922A CN111983922A CN202010669008.2A CN202010669008A CN111983922A CN 111983922 A CN111983922 A CN 111983922A CN 202010669008 A CN202010669008 A CN 202010669008A CN 111983922 A CN111983922 A CN 111983922A
- Authority
- CN
- China
- Prior art keywords
- robot
- learning
- demonstration
- meta
- task set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004088 simulation Methods 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012360 testing method Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims abstract description 5
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000006386 memory function Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 3
- 238000010367 cloning Methods 0.000 description 2
- 230000008092 positive effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000003466 welding Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003698 laser cutting Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005507 spraying Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1656—Programme controls characterised by programming, planning systems for manipulators
- B25J9/1664—Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/42—Recording and playback systems, i.e. in which the programme is recorded from a cycle of operations, e.g. the cycle of operations being manually controlled, after which this record is played back on the same machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Manipulator (AREA)
- Numerical Control (AREA)
Abstract
本发明公开了一种基于元模仿学习的机器人演示示教方法,涉及机器学习技术领域,包括步骤:获取机器人演示示教任务集;构造网络结构模型并获得自适应目标损失函数;在元训练阶段,利用算法一学习、优化损失函数及其初始化值和参数;在元测试阶段,利用算法二对专家演示的轨迹进行学习,获得学习策略;将专家演示轨迹作为输入,结合学习策略,利用网络结构模型生成机器人模仿轨迹,并结合机器人状态信息映射到机器人的动作上。本发明能够从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。
Description
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种基于元模仿学习的机器人演示示教方法。
背景技术
随着市场规模的不断扩大,尤其是随着3C产业的快速发展,工业机器人已经在多个领域被广泛应用,并能完成一系列复杂工作,如抓取、装配、焊接、激光切割和喷涂等。传统的机器人示教方法操作复杂,耗时较长,还需要掌握机器人模型等相关知识,对操作者要求较高。在现有技术下,为简化机器人示教操作,操作人员一般通过示教器,手动控制机器人关节运动,采用人工拖动使机器人末端按照需要的轨迹运动,同时机器人会记录运动的点,从而达到复原示教运动的效果;然而,虽然拖动示教操作灵活,但是效率低下,精度难以保证。为此,国内外学者致力于新一代机器人示教方法的研究,通过机器人从演示示教中学习实现操纵自主执行抓取任务,以适应3C行业的快速发展,满足工业机器人智能操作的可重复性、灵活性和可靠性的发展需求。
传统的机器人演示学习模型主要有隐马尔可夫模型、高斯混合模型和动态运动原语等,通过对具有时空变化的运动进行建模,模拟运动轨迹,但这些方法在现实环境下的效果不好且鲁棒性较差,而工业机器人抓取执行环境多为非结构化未知动态环境,因此,该方法不适用于现实环境下工业机器人的智能操作。
目前,机器人演示学习主要基于模仿学习方法进行研究,主要分为行为克隆和逆强化学习。行为克隆是从观察到行动的监督学习,这种方法依赖于专家数据,需要大量的数据集,将冗余的劳动转化到了专家身上,这是比较低效和耗时的。逆强化学习则通过专家给出的演示,去归类或者回归出激励函数,通过激励函数来评价当前状态的优劣并进行积累,来学习最优的策略,但是很多情况下奖励函数难以设计,需要额外的经验来优化奖励函数,这种通过试错法优化奖励函数的方式耗时费力,而且该方法难以适用于多阶段决策中。
发明内容
有鉴于此,有必要针对上述的问题,提供一种基于元模仿学习的机器人演示示教方法,使机器人从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。
为实现上述目的,本发明是根据以下技术方案实现的:
一种基于元模仿学习的机器人演示示教方法,包括以下步骤:
步骤S1:获取机器人演示示教任务集p(T);
步骤S2:构造网络结构模型并获得自适应目标损失函数Lψ;
步骤S3:在元训练阶段,利用算法一学习、优化自适应目标损失函数Lψ,获得策略参数θ和ψ;
步骤S4:在元测试阶段,利用算法二对专家演示的轨迹τh进行学习,获得学习策略πφ;
步骤S5:将专家演示轨迹作为输入,结合已学习到的策略πφ,利用网络结构模型生成机器人模仿轨迹并结合机器人状态信息(s1,s2,…,sT)映射到机器人的动作(a1,a2,…,aT)上,从而达到一次演示快速示教的效果。
进一步地,所述任务集p(T)为演示示教视频,采用50-way 1-shot的方法构造所述任务集,包括训练任务集和测试任务集,训练任务集包括人类演示轨迹和机器人演示轨迹测试任务集为专家演示轨迹τh,每个任务集演示轨迹包含机器人输入的图像(o1,o2,…,oT)、机器人状态信息(s1,s2,…,sT)和机器人动作信息(a1,a2,…,aT)。
具体地,所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别,每个类别中都有1个样本。
进一步地,所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN,通过神经网络来训练参数作为策略表示,获得自适应目标损失函数Lψ,在每个时间步长将机器人输入的图像(o1,o2,…,oT)和机器人状态信息(s1,s2,…,sT)映射到机器人的动作上(a1,a2,…,aT)。
具体地,所述卷积层中前两个卷积层Conv1和Conv2的步长为2,后两个卷积层Conv3和Conv4的步长为1,卷积核大小为3×3,每个卷积层均通过ReLu函数和归一化BatchNormalization操作;
所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能,其中残差链接通过残差块代替卷积层,使得网络可以跨层的方式传递信息;
所述残差块包含两层卷积和非线性映射,卷积核大小为3×3,每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化;利用1×1的卷积进行降维,将下层的特征图跳层到上层,再将两个层的特征图相加。
进一步地,在步骤S3中,所述算法一包括输入、处理过程、输出三个步骤,具体为:
处理过程:随机初始化参数θ,从p(T)所有的任务中取出一个批量的任务Ti,对于所有的Ti都有:从Ti中采样人类演示轨迹计算梯度使用梯度下降法计算模型参数从Ti中采样机器人演示轨迹最后使用梯度下降法更新模型参数其中,dh为子集,dr为子集;
输出:策略参数θ,ψ。
进一步地,在步骤S4中,所述算法二包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、专家演示轨迹τh、学习率α、元训练阶段更新后的参数θ和学习后的自适应损失函数Lψ;
输出:学习策略πφ。
与现有技术相比,本发明的优点和积极效果至少包括:
面向现实非结构化未知动态环境下,突破现有机器人演示学习需要大量的演示获取训练样本并且依赖于专家数据的局限性,本发明公开的一种基于元模仿学习的机器人演示示教方法,能够从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。具体而言:
(1)采用网络结构模型获得自适应目标损失函数,由损失函数引导网络参数的更新,可快速泛化到新的场景,而不需要再做具体的任务工程;
(2)采用空洞卷积和残差链接组合的时间卷积TCN结构,使得网络对历史具有记忆功能;
(3)将算法分为训练阶段元模仿学习算法和训练阶段元模仿学习算法,这种训练和测试阶段采用两种不同元模仿学习算法的方式,可使得机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,达到一次演示快速示教的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的整体流程示意图;
图2是本发明所使用的网络结构模型示意图;
图3是本发明训练阶段元模仿学习算法一的示意图;
图4是本发明测试阶段元模仿学习算法二的示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。需要指出的是,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
图1给出了本发明的整体流程示意图,如图1所示,本发明提供了一种基于元模仿学习的机器人演示示教方法,包括以下步骤:
步骤S1:获取机器人演示示教任务集p(T);
步骤S2:构造网络结构模型并获得自适应目标损失函数Lψ;
步骤S3:在元训练阶段,利用算法一学习、优化自适应目标损失函数Lψ,获得策略参数θ和ψ;
步骤S4:在元测试阶段,利用算法二对专家演示的轨迹τh进行学习,获得学习策略πφ;
步骤S5:将专家演示轨迹作为输入,结合已学习到的策略πφ,利用网络结构模型生成机器人模仿轨迹并结合机器人状态信息(s1,s2,…,sT)映射到机器人的动作(a1,a2,…,aT)上,从而达到一次演示快速示教的效果。
进一步地,机器人演示示教为机器人从人类演示中学习操纵自主执行任务,即机器人通过元模仿学习算法从人类演示轨迹和机器人演示轨迹中进行学习,当专家演示τh一次后机器人可根据学习到的策略模仿出轨迹τr,从而达到一次演示快速示教的效果,其中任务包含机器人的抓取、装配和焊接等。
进一步地,所述任务集p(T)为演示示教视频,采用50-way 1-shot的方法构造所述任务集,包括训练任务集和测试任务集,训练任务集包括人类演示轨迹和机器人演示轨迹测试任务集为专家演示轨迹τh,每个任务集演示轨迹包含机器人输入的图像(o1,o2,…,oT)、机器人状态信息(s1,s2,…,sT)和机器人动作信息(a1,a2,…,aT)。
具体地,所述50-way 1-shot的方法为每个训练任务集和测试任务集都有50个类别,每个类别中都有1个样本。
图2给出了本发明所使用的网络结构模型示意图,如图2所示,本发明所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN,通过神经网络来训练参数作为策略表示,获得自适应目标损失函数Lψ,在每个时间步长将机器人输入的图像(o1,o2,…,oT)和机器人状态信息(s1,s2,…,sT)映射到机器人的动作上(a1,a2,…,aT)。
具体地,所述卷积层中前两个卷积层Conv1和Conv2的步长为2,后两个卷积层Conv3和Conv4的步长为1,卷积核大小为3×3,每个卷积层均通过ReLu函数和归一化BatchNormalization操作;
所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能,其中残差链接通过残差块代替卷积层,使得网络可以跨层的方式传递信息;
所述残差块包含两层卷积和非线性映射,卷积核大小为3×3,每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化;利用1×1的卷积进行降维,将下层的特征图跳层到上层,再将两个层的特征图相加。
图3给出了本发明训练阶段元模仿学习算法一的示意图,如图3所示,进一步地,在步骤S3中,所述算法一包括输入、处理过程、输出三个步骤,具体为:
处理过程:随机初始化参数θ,从p(T)所有的任务中取出一个批量的任务Ti,对于所有的Ti都有:从Ti中采样人类演示轨迹计算梯度使用梯度下降法计算模型参数从Ti中采样机器人演示轨迹最后使用梯度下降法更新模型参数其中,dh为子集,dr为子集;
输出:策略参数θ,ψ。
图4给出了本发明训练阶段元模仿学习算法二的示意图,如图4所示,进一步地,在步骤S4中,所述算法二包括输入、处理过程、输出三个步骤,具体为:
输入:任务集p(T)、专家演示轨迹τh、学习率α、元训练阶段更新后的参数θ和学习后的自适应损失函数Lψ;
输出:学习策略πφ。
面向现实非结构化未知动态环境下,突破现有机器人演示学习需要大量的演示获取训练样本并且依赖于专家数据的局限性,本发明公开一种基于元模仿学习的机器人演示示教方法,能够从专家演示给出的少量示范例子中,快速泛化到新的场景,而不需要再做具体的任务工程,并且机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,实现一次演示快速示教。
具体而言,本发明至少具有下述优点和积极效果:
(1)采用网络结构模型获得自适应目标损失函数,由损失函数引导网络参数的更新,可快速泛化到新的场景,而不需要再做具体的任务工程;
(2)采用空洞卷积和残差链接组合的时间卷积TCN结构,使得网络对历史具有记忆功能;
(3)将算法分为训练阶段元模仿学习算法和训练阶段元模仿学习算法,这种训练和测试阶段采用两种不同元模仿学习算法的方式,可使得机器人根据专家演示能够自学习与任务无关的策略,从而产生出轨迹,达到一次演示快速示教的效果。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。
Claims (6)
3.根据权利要求1所述的基于元模仿学习的机器人演示示教方法,其特征在于,所述网络结构模型包括4个卷积层Conv、3个全连接层FC和时间卷积TCN,通过神经网络来训练参数作为策略表示,获得自适应目标损失函数Lψ,在每个时间步长将机器人输入的图像(o1,o2,…,oT)和机器人状态信息(s1,s2,…,sT)映射到机器人的动作上(a1,a2,…,aT)。
4.根据权利要求3所述的基于元模仿学习的机器人演示示教方法,其特征在于,
所述卷积层中前两个卷积层Conv1和Conv2的步长为2,后两个卷积层Conv3和Conv4的步长为1,卷积核大小为3×3,每个卷积层均通过ReLu函数和归一化Batch Normalization操作;
所述时间卷积TCN采用空洞卷积和残差链接组合使得网络对历史有记忆功能,其中残差链接通过残差块代替卷积层,使得网络可以跨层的方式传递信息;
所述残差块包含两层卷积和非线性映射,卷积核大小为3×3,每个卷积层均通过ReLu函数并加入WeightNorm和Dropout对网络进行正则化;利用1×1的卷积进行降维,将下层的特征图跳层到上层,再将两个层的特征图相加。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010669008.2A CN111983922A (zh) | 2020-07-13 | 2020-07-13 | 一种基于元模仿学习的机器人演示示教方法 |
PCT/CN2021/100857 WO2022012265A1 (en) | 2020-07-13 | 2021-06-18 | Robot learning from demonstration via meta-imitation learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010669008.2A CN111983922A (zh) | 2020-07-13 | 2020-07-13 | 一种基于元模仿学习的机器人演示示教方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111983922A true CN111983922A (zh) | 2020-11-24 |
Family
ID=73439123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010669008.2A Pending CN111983922A (zh) | 2020-07-13 | 2020-07-13 | 一种基于元模仿学习的机器人演示示教方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111983922A (zh) |
WO (1) | WO2022012265A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396180A (zh) * | 2020-11-25 | 2021-02-23 | 中国科学院自动化研究所 | 基于动态示教数据和行为克隆的深度q学习网络优化方法 |
CN113408621A (zh) * | 2021-06-21 | 2021-09-17 | 中国科学院自动化研究所 | 面向机器人技能学习的快速模仿学习方法、系统、设备 |
CN113641099A (zh) * | 2021-07-13 | 2021-11-12 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
WO2022012265A1 (en) * | 2020-07-13 | 2022-01-20 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | Robot learning from demonstration via meta-imitation learning |
CN114683287A (zh) * | 2022-04-25 | 2022-07-01 | 浙江工业大学 | 一种基于元动作分层泛化的机械臂模仿学习方法 |
CN114734443A (zh) * | 2022-04-27 | 2022-07-12 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
CN114841362A (zh) * | 2022-03-30 | 2022-08-02 | 山东大学 | 一种利用虚拟现实技术进行模仿学习数据收集的方法 |
CN114881240A (zh) * | 2022-02-28 | 2022-08-09 | 复旦大学 | 一种基于多注意力机制的机器人视觉示教学习模型及方法 |
CN115338610A (zh) * | 2022-07-04 | 2022-11-15 | 中国科学院自动化研究所 | 双轴孔装配方法、装置、电子设备和存储介质 |
CN116227571A (zh) * | 2023-03-01 | 2023-06-06 | 北京百度网讯科技有限公司 | 模型的训练、动作确定方法、装置、电子设备及存储介质 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114905505B (zh) * | 2022-04-13 | 2024-04-19 | 南京邮电大学 | 一种移动机器人的导航控制方法、系统及存储介质 |
CN114817989B (zh) * | 2022-04-29 | 2024-06-11 | 浪潮(北京)电子信息产业有限公司 | 模型生成方法、运行控制方法、装置、设备及存储介质 |
CN114888801B (zh) * | 2022-05-16 | 2023-10-13 | 南京邮电大学 | 一种基于离线策略强化学习的机械臂控制方法及系统 |
CN115204387B (zh) * | 2022-07-21 | 2023-10-03 | 法奥意威(苏州)机器人系统有限公司 | 分层目标条件下的学习方法、装置和电子设备 |
CN116117826B (zh) * | 2023-04-12 | 2023-07-25 | 佛山科学技术学院 | 基于仿射变换与行为树的机器人任务规划方法及系统 |
CN116533247A (zh) * | 2023-05-31 | 2023-08-04 | 同济大学 | 基于dmp与卷积神经网络的机械臂多模态抓取任务实现方法 |
CN116595443B (zh) * | 2023-07-17 | 2023-10-03 | 山东科技大学 | 一种基于元学习的无线信号本手势识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106773659A (zh) * | 2015-11-20 | 2017-05-31 | 哈尔滨工大天才智能科技有限公司 | 一种基于高斯过程的机器人模仿学习方法 |
CN109702744A (zh) * | 2019-01-15 | 2019-05-03 | 北京工业大学 | 一种基于动态系统模型的机器人模仿学习的方法 |
CN109805898A (zh) * | 2019-03-22 | 2019-05-28 | 中国科学院重庆绿色智能技术研究院 | 基于注意力机制时序卷积网络算法的危重症死亡预测方法 |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN110900598A (zh) * | 2019-10-15 | 2020-03-24 | 合肥工业大学 | 机器人三维运动空间动作模仿学习方法和系统 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111401556A (zh) * | 2020-04-22 | 2020-07-10 | 清华大学深圳国际研究生院 | 一种对抗式模仿学习中奖励函数的选择方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956601B (zh) * | 2016-04-15 | 2019-01-29 | 北京工业大学 | 一种基于轨迹模仿的机器人汉字书写学习方法 |
US11615284B2 (en) * | 2016-12-22 | 2023-03-28 | Intel Corporation | Efficient transferring of human experiences to robots and other autonomous machines |
US11741398B2 (en) * | 2018-08-03 | 2023-08-29 | Samsung Electronics Co., Ltd. | Multi-layered machine learning system to support ensemble learning |
CN109760050A (zh) * | 2019-01-12 | 2019-05-17 | 鲁班嫡系机器人(深圳)有限公司 | 机器人行为训练方法、装置、系统、存储介质及设备 |
CN110238855B (zh) * | 2019-06-24 | 2020-10-16 | 浙江大学 | 一种基于深度逆向强化学习的机器人乱序工件抓取方法 |
CN111203878B (zh) * | 2020-01-14 | 2021-10-01 | 北京航空航天大学 | 一种基于视觉模仿的机器人序列任务学习方法 |
CN111983922A (zh) * | 2020-07-13 | 2020-11-24 | 广州中国科学院先进技术研究所 | 一种基于元模仿学习的机器人演示示教方法 |
-
2020
- 2020-07-13 CN CN202010669008.2A patent/CN111983922A/zh active Pending
-
2021
- 2021-06-18 WO PCT/CN2021/100857 patent/WO2022012265A1/en active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106773659A (zh) * | 2015-11-20 | 2017-05-31 | 哈尔滨工大天才智能科技有限公司 | 一种基于高斯过程的机器人模仿学习方法 |
CN109702744A (zh) * | 2019-01-15 | 2019-05-03 | 北京工业大学 | 一种基于动态系统模型的机器人模仿学习的方法 |
CN109805898A (zh) * | 2019-03-22 | 2019-05-28 | 中国科学院重庆绿色智能技术研究院 | 基于注意力机制时序卷积网络算法的危重症死亡预测方法 |
CN110059188A (zh) * | 2019-04-11 | 2019-07-26 | 四川黑马数码科技有限公司 | 一种基于双向时间卷积网络的中文情感分析方法 |
CN110900598A (zh) * | 2019-10-15 | 2020-03-24 | 合肥工业大学 | 机器人三维运动空间动作模仿学习方法和系统 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111401556A (zh) * | 2020-04-22 | 2020-07-10 | 清华大学深圳国际研究生院 | 一种对抗式模仿学习中奖励函数的选择方法 |
Non-Patent Citations (4)
Title |
---|
SHAOJIE BAI ET AL.: ""An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling"", 《ARXIV:1803.01271》 * |
TIANHE YU ET AL.: ""One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning"", 《PROCEEDINGS OF ROBOTICS: SCIENCE AND SYSTEMS》 * |
VAN DEN OORD, AARON ET AL.: ""WaveNet: A Generative Model for Raw Audio"", 《ARXIV:1609.03499》 * |
田霞: "基于元学习的少样本图像分类方法研究", 《中国优秀硕士论文全文数据库(电子期刊)》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022012265A1 (en) * | 2020-07-13 | 2022-01-20 | Guangzhou Institute Of Advanced Technology, Chinese Academy Of Sciences | Robot learning from demonstration via meta-imitation learning |
CN112396180A (zh) * | 2020-11-25 | 2021-02-23 | 中国科学院自动化研究所 | 基于动态示教数据和行为克隆的深度q学习网络优化方法 |
CN112396180B (zh) * | 2020-11-25 | 2021-06-29 | 中国科学院自动化研究所 | 基于动态示教数据和行为克隆的深度q学习网络优化方法 |
CN113408621A (zh) * | 2021-06-21 | 2021-09-17 | 中国科学院自动化研究所 | 面向机器人技能学习的快速模仿学习方法、系统、设备 |
CN113408621B (zh) * | 2021-06-21 | 2022-10-14 | 中国科学院自动化研究所 | 面向机器人技能学习的快速模仿学习方法、系统、设备 |
CN113641099A (zh) * | 2021-07-13 | 2021-11-12 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
CN113641099B (zh) * | 2021-07-13 | 2023-02-10 | 西北工业大学 | 一种超越专家演示的阻抗控制模仿学习训练方法 |
CN114881240A (zh) * | 2022-02-28 | 2022-08-09 | 复旦大学 | 一种基于多注意力机制的机器人视觉示教学习模型及方法 |
CN114881240B (zh) * | 2022-02-28 | 2023-09-26 | 复旦大学 | 一种基于多注意力机制的机器人视觉示教学习模型及方法 |
CN114841362A (zh) * | 2022-03-30 | 2022-08-02 | 山东大学 | 一种利用虚拟现实技术进行模仿学习数据收集的方法 |
CN114683287A (zh) * | 2022-04-25 | 2022-07-01 | 浙江工业大学 | 一种基于元动作分层泛化的机械臂模仿学习方法 |
CN114683287B (zh) * | 2022-04-25 | 2023-10-20 | 浙江工业大学 | 一种基于元动作分层泛化的机械臂模仿学习方法 |
CN114734443A (zh) * | 2022-04-27 | 2022-07-12 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
CN114734443B (zh) * | 2022-04-27 | 2023-08-04 | 东南大学 | 基于生成对抗模仿学习的人机协作机器人技能识别方法 |
WO2023206863A1 (zh) * | 2022-04-27 | 2023-11-02 | 东南大学 | 一种基于生成对抗模仿学习的人机协作机器人技能识别方法 |
CN115338610A (zh) * | 2022-07-04 | 2022-11-15 | 中国科学院自动化研究所 | 双轴孔装配方法、装置、电子设备和存储介质 |
CN115338610B (zh) * | 2022-07-04 | 2024-02-13 | 中国科学院自动化研究所 | 双轴孔装配方法、装置、电子设备和存储介质 |
CN116227571A (zh) * | 2023-03-01 | 2023-06-06 | 北京百度网讯科技有限公司 | 模型的训练、动作确定方法、装置、电子设备及存储介质 |
CN116227571B (zh) * | 2023-03-01 | 2024-03-12 | 北京百度网讯科技有限公司 | 模型的训练、动作确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022012265A1 (en) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111983922A (zh) | 一种基于元模仿学习的机器人演示示教方法 | |
US10766137B1 (en) | Artificial intelligence system for modeling and evaluating robotic success at task performance | |
CN112231489B (zh) | 防疫机器人知识学习与迁移方法和系统 | |
CN111872934B (zh) | 一种基于隐半马尔可夫模型的机械臂控制方法及系统 | |
US11086938B2 (en) | Interpreting human-robot instructions | |
CN111898728A (zh) | 一种基于多Agent强化学习的团队机器人决策方法 | |
CN113821041B (zh) | 一种多机器人协同导航与避障的方法 | |
CN112183188B (zh) | 一种基于任务嵌入网络的机械臂模仿学习的方法 | |
Remman et al. | Robotic lever manipulation using hindsight experience replay and shapley additive explanations | |
Yamada et al. | Representation learning of logic words by an RNN: from word sequences to robot actions | |
Zakaria et al. | Robotic control of the deformation of soft linear objects using deep reinforcement learning | |
Zhang et al. | Learning Riemannian stable dynamical systems via diffeomorphisms | |
Ramirez et al. | Reinforcement learning from expert demonstrations with application to redundant robot control | |
Nahavandi et al. | Machine learning meets advanced robotic manipulation | |
Hartland et al. | Using echo state networks for robot navigation behavior acquisition | |
CN114779792B (zh) | 基于模仿与强化学习的医药机器人自主避障方法及系统 | |
Liu et al. | Robotic manipulation skill acquisition via demonstration policy learning | |
Aly et al. | Experiential robot learning with deep neural networks | |
Tsinganos et al. | Behavior policy learning: Learning multi-stage tasks via solution sketches and model-based controllers | |
Zhou et al. | Humanoid action imitation learning via boosting sample DQN in virtual demonstrator environment | |
CN116749194A (zh) | 一种基于模型的机器人操作技能参数学习方法 | |
Park et al. | Spatio-semantic Task Recognition: Unsupervised Learning of Task-discriminative Features for Segmentation and Imitation | |
Sylaja et al. | Example-driven trajectory learner for robots under structured static environment | |
Danielsen | Vision-based robotic grasping in simulation using deep reinforcement learning | |
Jadeja et al. | An industrial self-learning robotic platform solution for smart factories industrial applications using machine and deep imitation learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201124 |