CN112183188A - 一种基于任务嵌入网络的机械臂模仿学习的方法 - Google Patents

一种基于任务嵌入网络的机械臂模仿学习的方法 Download PDF

Info

Publication number
CN112183188A
CN112183188A CN202010829750.5A CN202010829750A CN112183188A CN 112183188 A CN112183188 A CN 112183188A CN 202010829750 A CN202010829750 A CN 202010829750A CN 112183188 A CN112183188 A CN 112183188A
Authority
CN
China
Prior art keywords
task
teaching
mechanical arm
network
teaching task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010829750.5A
Other languages
English (en)
Other versions
CN112183188B (zh
Inventor
雷小永
周继祥
赵永嘉
谢建峰
戴树岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010829750.5A priority Critical patent/CN112183188B/zh
Publication of CN112183188A publication Critical patent/CN112183188A/zh
Application granted granted Critical
Publication of CN112183188B publication Critical patent/CN112183188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于人工智能和机器人控制领域,特别涉及一种基于任务嵌入网络的机械臂模仿学习的方法,包括:创建示教任务数据集;构建任务嵌入网络,学习示教任务的任务原型;构建深度神经网络,以拼接后的机械臂示教任务演示视频为输入,输出机械臂的动作值;对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;结合所搭建的机械臂虚拟仿真环境,将示教任务模型作为机械臂的控制策略指导机械臂完成对于示教任务的模仿。本发明可以解决目前模仿学习方法需要巨量的训练集和试错、正确率较低、缺乏足够的泛化能力、容易遗忘先前学会的示教任务的缺陷。

Description

一种基于任务嵌入网络的机械臂模仿学习的方法
技术领域
本发明属于人工智能和机器人控制领域,特别涉及一种基于任务嵌入网络的机械臂模仿学习的方法。
背景技术
当前,机器人技术在诸多行业都得到了广泛的应用。机械臂作为机器人最主要的执行机构,近年来越来越多的工程技术人员对它展开了各种研究。随着人工智能技术的飞速发展,模仿学习机制的提出为机械臂注入了新鲜血液,在机械臂的智能性的提升方面发挥出巨大的作用。一方面,相对于传统的机械臂编程控制,模仿学习使得机械臂能够模仿示教任务的行为实现快速学习,减少了对于操控人员的专业性要求,具有更高的工作效率。另一方面,模仿学习使得机械臂能够获取环境信息,不依赖于先前规划的动作轨迹进行重复运动,具有更完善的环境感知能力和适应能力,并具备更高的智能性。
对于机械臂模仿学习,一般由示教者、学习器和执行器三个模块组成。机械臂通过行为观测和感知,获取示教者的示教信息,通过模仿学习算法将示教信息和模仿者自身特征结合完成模仿。目前,对于机械臂模仿学习的研究,主要集中在学习器的研究,分为两个趋势:一是低水平学习;二是高水平学习。在和其他的人工智能技术结合之后,机械臂模仿学习的方法主要分为四个大的类别:一是基于行为克隆的方法;二是基于强化学习的方法;三是基于生成对抗网络的方法;四是基于元学习的方法。
然而,目前已有的机械臂模仿学习方法主要还存在以下问题:1)已有机械臂模仿学习方法需要巨量的训练集和试错;2)当前机械臂模仿学习方法对于示教任务训练集之外的新示教任务学习的正确率较低,缺乏足够的泛化能力;3)已有的机械臂模仿学习方法在示教任务数量增多,示教任务复杂度较高时,模型训练容易遗忘先前学会的示教任务。
发明内容
针对现有机械臂模仿学习方法中存在的上述问题,本发明提出了一种基于任务嵌入网络的机械臂模仿学习的方法。首先,本方法通过任务嵌入网络学习示教任务的低维向量描述,该描述可以有效表示示教任务的特点,称为任务原型;其次,将任务原型平铺并按通道和示教任务演示视频拼接,三通道演示视频转换为多通道演示视频,输入深度(卷积)神经网络,联合训练优化两个网络,从而得到示教任务模型参数,实现对于示教任务的完整描述;最后,将学习得到的示教任务模型参数作为控制策略结合机械臂系统来指导机械臂完成示教任务的模仿。
本发明提供了一种基于任务嵌入网络的机械臂模仿学习的方法,包括如下步骤:
S1:搭建机械臂虚拟仿真环境并操控机械臂完成多种示教任务,创建示教任务数据集;
S2:构建任务嵌入网络,所述任务嵌入网络以示教任务为输入,输出任务组合嵌入,所述任务组合嵌入与任务遍历模块输出的特征掩码相乘,得到示教任务的任务原型;
S3:构建深度神经网络,所述深度神经网络以拼接后的机械臂示教任务演示视频为输入,输出机械臂的动作值,所述拼接后的机械臂示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到;
S4:基于步骤S1中创建的示教任务数据集,使用监督学习训练方法对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;
S5:结合所搭建的机械臂虚拟仿真环境,将步骤S4中得到的示教任务模型作为机械臂的控制策略指导机械臂完成对于示教任务的模仿。
进一步,步骤S1中,所述示教任务数据集包括机械臂的观测值和动作值,所述观测值包括从机械臂虚拟仿真环境中导出的机械臂示教任务演示视频,所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。
进一步,步骤S2中,构建任务嵌入网络并输出任务组合嵌入具体过程为:从一个示教任务
Figure BDA0002637498060000031
中采样得到K个样本,使用三个卷积层和三个全连接层构建任务嵌入网络fθ:RD→RN,RD、RN分别代表D维欧氏空间和N维欧氏空间;利用任务嵌入网络fθ:RD→RN为每一个样本
Figure BDA0002637498060000032
计算一个标准化N维向量,然后通过取样本向量的标准化平均值来计算该示教任务
Figure BDA0002637498060000033
的任务组合嵌入s′∈RN:
Figure BDA0002637498060000034
其中
Figure BDA0002637498060000035
进一步,步骤S2中,所述任务遍历模块由集中网络和聚焦网络组成,所述集中网络和所述聚焦网络分别使用残差神经网络构成,其中,所述集中网络用于查看示教任务中的每个演示视频,寻找示教任务演示视频特征的共性;所述聚焦网络则用于查看示教任务中的所有演示视频,屏蔽演示视频间不相关的特征,寻找演示视频间最具判别性的特征。
进一步,步骤S4具体过程为:
为每个正示教任务
Figure BDA0002637498060000036
选择两个不相交的示教任务集,分别是支持集
Figure BDA0002637498060000037
和测试集
Figure BDA0002637498060000038
假设一个训练批次中的每个采样任务都是唯一的,选择示教任务
Figure BDA0002637498060000041
作为所述训练批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务
Figure BDA0002637498060000042
的损失为:
Figure BDA0002637498060000043
其中,
Figure BDA0002637498060000044
为正示教任务
Figure BDA0002637498060000045
的损失函数;
Figure BDA0002637498060000046
是正示教任务
Figure BDA0002637498060000047
的测试集
Figure BDA0002637498060000048
中的样本嵌入;sj是正示教任务
Figure BDA0002637498060000049
的任务原型;si是负示教任务
Figure BDA00026374980600000410
的任务原型;γ是间隔距离;
给定正示教任务
Figure BDA00026374980600000411
的支持集
Figure BDA00026374980600000412
的原型
Figure BDA00026374980600000413
和测试集
Figure BDA00026374980600000414
的样本,使用均方误差损失计算深度神经网络的损失:
Figure BDA00026374980600000415
其中,
Figure BDA00026374980600000416
为深度神经网络的损失函数;
Figure BDA00026374980600000417
为测试集
Figure BDA00026374980600000418
中的第q个示教任务;o为机械臂的观测值,a为机械臂的动作值;
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型的最终损失是:
Figure BDA00026374980600000419
其中,λemb表示正示教任务
Figure BDA00026374980600000420
的损失函数
Figure BDA00026374980600000421
的权重;
Figure BDA00026374980600000422
表示深度神经网络的损失函数
Figure BDA00026374980600000423
的权重;
Figure BDA00026374980600000424
表示深度神经网络的损失函数
Figure BDA00026374980600000425
的权重。
本发明的有益效果:
1)本发明采用元学习的方法进行模型训练和测试,不需要巨量的训练集和试错;
2)本发明可以学习大量示教任务,利用学习到的知识来更有效地学习示教任务,对示教任务训练集之外的新示教任务学习成功率较高,模型泛化能力强;
3)本发明使用度量学习的思想创建任务嵌入,能够学习示教任务的任务原型,增强策略模型对示教任务的表达能力;
4)本发明将任务原型和示教任务结合,联合训练任务嵌入网络和深度神经网络,可以提高学习更多示教任务的能力,同时减少模型的灾难性遗忘影响。
附图说明
图1为本发明实施例的基于任务嵌入网络的机械臂模仿学习的方法流程图;
图2为本发明实施例的基于任务嵌入网络的机械臂模仿学习系统结构框图;
图3为本发明实施例的任务嵌入网络流程示意图;
图4为本发明实施例的深度神经网络结构示意图;
图5是本发明实施例的网络联合训练流程示意图;
图6是本发明实施例的是示教任务模型效果测试流程示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
本实施例提供一种基于任务嵌入网络的机械臂模仿学习的方法,如图1所示,包括如下步骤:
S1:搭建OpenAI gym Pusher虚拟仿真环境并在虚拟仿真环境中操控机械臂完成多种示教任务,创建示教任务数据集。
本实施例在搭建的OpenAI gym Pusher虚拟仿真环境中,放置不同的目标物和干扰物,示教者例如通过遥控操作方式操控机械臂执行抓取、推送、放置任务,从虚拟仿真环境中导出机械臂演示视频(即观测值o)和机械臂运动过程中的关节角度、关节速度、末端执行器的姿态信息(即动作值a),相应的样本由一系列观测值和动作值组成:τ=[(o1,a1),...,(oT,aT)],T表示第T帧。把一组这样的样本定义为一个示教任务
Figure BDA0002637498060000061
K表示一个示教任务
Figure BDA0002637498060000062
中的样本数量。可以通过改变操作环境,例如更换虚拟仿真环境中的目标物和干扰物、改变目标物和干扰物的摆放位置、调节光照强度、操作机械臂执行抓取、推送、放置任务,获得由多个不同示教任务组成的示教任务数据集,如图2的最底层的框图所示。
S2:构建任务嵌入网络,该任务嵌入网络由4个跨步卷积层、4个批归一化层和3个全连接层组成,每个跨步卷积层都有16个(5x5)过滤器,每个全连接层有200个神经元,除最后一层外,每层使用ReLU作为非线性激活函数。
图3为本实施例的任务嵌入网络流程示意图,从一个示教任务
Figure BDA0002637498060000063
中采样得到K个样本,使用三个卷积层和三个全连接层构建任务嵌入网络。本发明的任务嵌入网络fθ:RD→RN为每一个样本
Figure BDA0002637498060000064
计算一个标准化N维向量,然后通过取样本向量的标准化平均值来计算该示教任务的任务组合嵌入s′∈RN:
Figure BDA0002637498060000065
其中
Figure BDA0002637498060000066
本发明所利用的任务遍历模块由集中网络和聚焦网络两部分组成,任务遍历模块生成一个用于提取最具判别性特征的特征掩码r∈RN,该掩码与任务组合嵌入相乘,得到更具判别性的任务原型s∈RN。集中网络和聚焦网络分别使用残差神经网络构成,其中,集中网络用于查看示教任务中的每个演示视频,寻找演示视频特征的共性,如图3所示,集中网络对机械臂演示视频进行特征提取和维度压缩,计算每个类别样本特征的平均值avg作为输出o;聚焦网络则用于查看示教任务中的所有视频,屏蔽视频间不相关的特征,寻找视频间最具判别性的特征,如图3所示,聚焦网络对集中网络提取到的特征进行拼接和压缩,最后在特征通道维度上使用softmax层,得到各个特征对应的特征掩码r∈RN
S4:构建深度神经网络,该深度神经网络由3个跨步卷积层、3个批归一化层和3个全连接层组成,每个跨步卷积层都有16个(5x5)过滤器,每个全连接层有200个神经元,除最后一层外,每层使用ReLU作为非线性激活函数。
如图4所示,将任务嵌入网络学习得到的任务原型平铺并按通道和示教任务演示视频拼接,依次经过三个步长stride为2、激活函数为ReLU的卷积层Conv,使用空间softmax转换为空间特征点,提取拼接后的演示视频特征送入三个激活函数为ReLU的全连接层,预测机械臂动作值的输出。
S4:基于创建的示教任务数据集,使用监督学习训练方法对任务嵌入网络和深度神经网络进行联合训练,随机初始化网络权重,使用随机梯度下降法,同时求解任务嵌入网络和深度神经网络的损失函数,使得其最小化来训练示教任务模型,保存好训练好的示教任务模型权重。
如图5所示,为每个正示教任务
Figure BDA0002637498060000071
选择两个不相交的示教任务集,分别是支持集
Figure BDA0002637498060000072
和测试集
Figure BDA0002637498060000073
假设一个训练批次中的每个采样任务都是唯一的,选择示教任务
Figure BDA0002637498060000074
作为本批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务
Figure BDA0002637498060000075
的损失定义为:
Figure BDA0002637498060000076
其中,
Figure BDA0002637498060000077
为正示教任务
Figure BDA0002637498060000078
的损失函数;
Figure BDA0002637498060000079
是正示教任务
Figure BDA00026374980600000710
的测试集
Figure BDA00026374980600000711
中的样本嵌入;sj是正示教任务
Figure BDA00026374980600000712
的任务原型;si是负示教任务
Figure BDA00026374980600000713
的任务原型;γ是间隔距离。损失函数
Figure BDA00026374980600000714
训练示教任务模型在正示教任务
Figure BDA00026374980600000715
的样本嵌入
Figure BDA0002637498060000081
和它的任务原型sj之间产生比来自其他负示教任务
Figure BDA0002637498060000082
的任务原型si更高的点积相似性。
给定正示教任务
Figure BDA0002637498060000083
的支持集
Figure BDA0002637498060000084
的原型
Figure BDA0002637498060000085
和测试集
Figure BDA0002637498060000086
的样本,使用均方误差损失计算深度神经网络的损失:
Figure BDA0002637498060000087
其中,
Figure BDA0002637498060000088
为深度神经网络的损失函数;
Figure BDA0002637498060000089
为测试集
Figure BDA00026374980600000810
中的第q个示教任务。
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型最终的损失是:
Figure BDA00026374980600000811
其中,λemb表示正示教任务
Figure BDA00026374980600000812
的损失函数
Figure BDA00026374980600000813
的权重;
Figure BDA00026374980600000814
表示深度神经网络的损失函数
Figure BDA00026374980600000815
的权重;
Figure BDA00026374980600000816
表示深度神经网络的损失函数
Figure BDA00026374980600000817
的权重。
S5:结合所搭建的机械臂虚拟仿真环境,将得到的示教任务模型作为机械臂的控制策略,指导机械臂完成对于示教任务的模仿(学习运动技能)。
图6是示教任务模型效果测试流程示意图,对于一个给定的新示教任务,输入任务嵌入网络,得到任务原型,然后将任务原型平铺并按通道和从机械臂系统中采集的观测图像拼接,输入深度神经网络,预测机械臂的动作值;该动作值作用于机械臂之后,再次采集观测图像与任务原型按通道拼接,输入深度神经网络,预测机械臂的动作值并驱动机械臂,重复以上操作,直到模仿任务完成。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例作出若干变型和改进,这些都属于本发明的保护范围。

Claims (5)

1.一种基于任务嵌入网络的机械臂模仿学习的方法,其特征在于,包括如下步骤:
S1:搭建机械臂虚拟仿真环境并操控机械臂完成多种示教任务,创建示教任务数据集;
S2:构建任务嵌入网络,所述任务嵌入网络以示教任务为输入,输出任务组合嵌入,所述任务组合嵌入与任务遍历模块输出的特征掩码相乘,得到示教任务的任务原型;
S3:构建深度神经网络,所述深度神经网络以拼接后的示教任务演示视频为输入,输出机械臂的动作值,所述拼接后的示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到;
S4:基于步骤S1中创建的示教任务数据集,使用监督学习训练方法对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;
S5:结合所搭建的机械臂虚拟仿真环境,将步骤S4中得到的示教任务模型作为机械臂的控制策略,指导机械臂完成对于示教任务的模仿。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述示教任务数据集包括机械臂的观测值和动作值,所述观测值包括从机械臂虚拟仿真环境中导出的示教任务演示视频,所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。
3.根据权利要求1所述的方法,其特征在于,步骤S2中,构建任务嵌入网络并输出任务组合嵌入具体过程为:从一个示教任务
Figure FDA0002637498050000011
中采样得到K个样本,使用三个卷积层和三个全连接层构建任务嵌入网络fθ:RD→RN,RD、RN分别代表D维欧氏空间和N维欧氏空间;利用任务嵌入网络fθ:RD→RN为每一个样本
Figure FDA0002637498050000021
计算一个标准化N维向量,然后通过取样本向量的标准化平均值来计算该示教任务
Figure FDA0002637498050000022
的任务组合嵌入s′∈RN:
Figure FDA0002637498050000023
其中
Figure FDA0002637498050000024
4.根据权利要求1所述的方法,其特征在于,步骤S2中,所述任务遍历模块由集中网络和聚焦网络组成,所述集中网络和所述聚焦网络分别使用残差神经网络构成,其中,所述集中网络用于查看示教任务中的每个演示视频,寻找示教任务演示视频特征的共性;所述聚焦网络则用于查看示教任务中的所有演示视频,屏蔽演示视频间不相关的特征,寻找演示视频间最具判别性的特征。
5.根据权利要求1所述的方法,其特征在于,步骤S4具体过程为:
为每个正示教任务
Figure FDA0002637498050000025
选择两个不相交的示教任务集,分别是支持集
Figure FDA0002637498050000026
和测试集
Figure FDA0002637498050000027
假设一个训练批次中的每个采样任务都是唯一的,选择示教任务
Figure FDA0002637498050000028
作为所述训练批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务
Figure FDA0002637498050000029
的损失为:
Figure FDA00026374980500000210
其中,
Figure FDA00026374980500000211
为正示教任务
Figure FDA00026374980500000212
的损失函数;
Figure FDA00026374980500000213
是正示教任务
Figure FDA00026374980500000214
的测试集
Figure FDA00026374980500000222
中的样本嵌入;sj是正示教任务
Figure FDA00026374980500000216
的任务原型;si是负示教任务
Figure FDA00026374980500000217
的任务原型;γ是间隔距离;
给定正示教任务
Figure FDA00026374980500000218
的支持集
Figure FDA00026374980500000223
的原型
Figure FDA00026374980500000224
和测试集
Figure FDA00026374980500000225
的样本,使用均方误差损失计算深度神经网络的损失:
Figure FDA0002637498050000031
其中,
Figure FDA0002637498050000032
为深度神经网络的损失函数;
Figure FDA0002637498050000033
为测试集
Figure FDA0002637498050000034
中的第q个示教任务;o为机械臂的观测值,a为机械臂的动作值;
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型的最终损失是:
Figure FDA0002637498050000035
其中,λemb表示正示教任务
Figure FDA00026374980500000311
的损失函数
Figure FDA0002637498050000036
的权重;
Figure FDA0002637498050000037
表示深度神经网络的损失函数
Figure FDA0002637498050000038
的权重;
Figure FDA0002637498050000039
表示深度神经网络的损失函数
Figure FDA00026374980500000310
的权重。
CN202010829750.5A 2020-08-18 2020-08-18 一种基于任务嵌入网络的机械臂模仿学习的方法 Active CN112183188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010829750.5A CN112183188B (zh) 2020-08-18 2020-08-18 一种基于任务嵌入网络的机械臂模仿学习的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010829750.5A CN112183188B (zh) 2020-08-18 2020-08-18 一种基于任务嵌入网络的机械臂模仿学习的方法

Publications (2)

Publication Number Publication Date
CN112183188A true CN112183188A (zh) 2021-01-05
CN112183188B CN112183188B (zh) 2022-10-04

Family

ID=73919027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010829750.5A Active CN112183188B (zh) 2020-08-18 2020-08-18 一种基于任务嵌入网络的机械臂模仿学习的方法

Country Status (1)

Country Link
CN (1) CN112183188B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112809689A (zh) * 2021-02-26 2021-05-18 同济大学 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN113524166A (zh) * 2021-01-08 2021-10-22 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN113927593A (zh) * 2021-09-22 2022-01-14 北京航空航天大学 基于任务分解的机械臂操作技能学习方法
CN117086866A (zh) * 2023-08-07 2023-11-21 广州中鸣数码科技有限公司 一种基于编程机器人的任务规划训练方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107263449A (zh) * 2017-07-05 2017-10-20 中国科学院自动化研究所 基于虚拟现实的机器人远程示教系统
CN108284436A (zh) * 2018-03-17 2018-07-17 北京工业大学 具有模仿学习机制的远程机械双臂系统及方法
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN110026987A (zh) * 2019-05-28 2019-07-19 广东工业大学 一种机械臂抓取轨迹的生成方法、装置、设备及存储介质
CN110900598A (zh) * 2019-10-15 2020-03-24 合肥工业大学 机器人三维运动空间动作模仿学习方法和系统
CN111203878A (zh) * 2020-01-14 2020-05-29 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107263449A (zh) * 2017-07-05 2017-10-20 中国科学院自动化研究所 基于虚拟现实的机器人远程示教系统
CN108284436A (zh) * 2018-03-17 2018-07-17 北京工业大学 具有模仿学习机制的远程机械双臂系统及方法
CN109800864A (zh) * 2019-01-18 2019-05-24 中山大学 一种基于图像输入的机器人主动学习方法
CN110026987A (zh) * 2019-05-28 2019-07-19 广东工业大学 一种机械臂抓取轨迹的生成方法、装置、设备及存储介质
CN110900598A (zh) * 2019-10-15 2020-03-24 合肥工业大学 机器人三维运动空间动作模仿学习方法和系统
CN111203878A (zh) * 2020-01-14 2020-05-29 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHANGHONG LIN等: "Tensegrity robot dynamic simulation and kinetic strategy programming", 《2016IEEE》 *
KONSTANTINOS BOUSMALIS等: "Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping", 《2018IEEE》 *
XINGTAI FANG等: "Hand pose estimation on hybrid CNN-AE model", 《2017IEEE》 *
YANG, SHUO等: "Learning Actions from Human Demonstration Video for Robotic Manipulation", 《2019IEEE》 *
于建均等: "基于RNN的机械臂任务模仿系统", 《北京工业大学学报》 *
张海峰: "结合深度学习的机械臂视觉抓取控制", 《数字化用户》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113524166A (zh) * 2021-01-08 2021-10-22 腾讯科技(深圳)有限公司 基于人工智能的机器人控制方法、装置及电子设备
CN112809689A (zh) * 2021-02-26 2021-05-18 同济大学 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN112809689B (zh) * 2021-02-26 2022-06-14 同济大学 基于语言引导的机械臂动作元模仿学习方法及存储介质
CN113927593A (zh) * 2021-09-22 2022-01-14 北京航空航天大学 基于任务分解的机械臂操作技能学习方法
CN113927593B (zh) * 2021-09-22 2023-06-13 北京航空航天大学 基于任务分解的机械臂操作技能学习方法
CN117086866A (zh) * 2023-08-07 2023-11-21 广州中鸣数码科技有限公司 一种基于编程机器人的任务规划训练方法及装置
CN117086866B (zh) * 2023-08-07 2024-04-12 广州中鸣数码科技有限公司 一种基于编程机器人的任务规划训练方法及装置

Also Published As

Publication number Publication date
CN112183188B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN112183188B (zh) 一种基于任务嵌入网络的机械臂模仿学习的方法
CN109948642B (zh) 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN111203878B (zh) 一种基于视觉模仿的机器人序列任务学习方法
CN109483534B (zh) 一种物体抓取方法、装置和系统
CN109702744A (zh) 一种基于动态系统模型的机器人模仿学习的方法
Sadeghi et al. Sim2real view invariant visual servoing by recurrent control
CN112809689B (zh) 基于语言引导的机械臂动作元模仿学习方法及存储介质
Paxton et al. Prospection: Interpretable plans from language by predicting the future
Fu et al. Active learning-based grasp for accurate industrial manipulation
CN113657573A (zh) 一种情景记忆引导下基于元学习的机器人技能获取方法
Li et al. Curiosity-driven exploration for off-policy reinforcement learning methods
Tekden et al. Belief regulated dual propagation nets for learning action effects on groups of articulated objects
CN117474094B (zh) 基于Transformer的融合领域特征的知识追踪方法
CN114170454A (zh) 基于关节分组策略的智能体元动作学习方法
Edwards et al. Cross-domain perceptual reward functions
Sui et al. Transfer of robot perception module with adversarial learning
CN113011081B (zh) 一种基于元学习的无人机导航方法
Yao et al. Robotic grasping training using deep reinforcement learning with policy guidance mechanism
Sanchez et al. Towards advanced robotic manipulation
Xiao et al. One-shot sim-to-real transfer policy for robotic assembly via reinforcement learning with visual demonstration
Hu et al. Learning from visual demonstrations via replayed task-contrastive model-agnostic meta-learning
Aslan et al. End-to-end learning from demonstation for object manipulation of robotis-Op3 humanoid robot
Son et al. Usefulness of using Nvidia IsaacSim and IsaacGym for AI robot manipulation training
Yu et al. LSTM learn policy from dynamical system of demonstration motions for robot imitation learning
CN118378659B (zh) 一种输氧孔接头氧气泄漏风险预测优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant