CN112183188A - 一种基于任务嵌入网络的机械臂模仿学习的方法 - Google Patents
一种基于任务嵌入网络的机械臂模仿学习的方法 Download PDFInfo
- Publication number
- CN112183188A CN112183188A CN202010829750.5A CN202010829750A CN112183188A CN 112183188 A CN112183188 A CN 112183188A CN 202010829750 A CN202010829750 A CN 202010829750A CN 112183188 A CN112183188 A CN 112183188A
- Authority
- CN
- China
- Prior art keywords
- task
- teaching
- mechanical arm
- network
- teaching task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004088 simulation Methods 0.000 title claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 15
- 238000011217 control strategy Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 239000012636 effector Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
- B25J9/163—Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Manipulator (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于人工智能和机器人控制领域,特别涉及一种基于任务嵌入网络的机械臂模仿学习的方法,包括:创建示教任务数据集;构建任务嵌入网络,学习示教任务的任务原型;构建深度神经网络,以拼接后的机械臂示教任务演示视频为输入,输出机械臂的动作值;对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;结合所搭建的机械臂虚拟仿真环境,将示教任务模型作为机械臂的控制策略指导机械臂完成对于示教任务的模仿。本发明可以解决目前模仿学习方法需要巨量的训练集和试错、正确率较低、缺乏足够的泛化能力、容易遗忘先前学会的示教任务的缺陷。
Description
技术领域
本发明属于人工智能和机器人控制领域,特别涉及一种基于任务嵌入网络的机械臂模仿学习的方法。
背景技术
当前,机器人技术在诸多行业都得到了广泛的应用。机械臂作为机器人最主要的执行机构,近年来越来越多的工程技术人员对它展开了各种研究。随着人工智能技术的飞速发展,模仿学习机制的提出为机械臂注入了新鲜血液,在机械臂的智能性的提升方面发挥出巨大的作用。一方面,相对于传统的机械臂编程控制,模仿学习使得机械臂能够模仿示教任务的行为实现快速学习,减少了对于操控人员的专业性要求,具有更高的工作效率。另一方面,模仿学习使得机械臂能够获取环境信息,不依赖于先前规划的动作轨迹进行重复运动,具有更完善的环境感知能力和适应能力,并具备更高的智能性。
对于机械臂模仿学习,一般由示教者、学习器和执行器三个模块组成。机械臂通过行为观测和感知,获取示教者的示教信息,通过模仿学习算法将示教信息和模仿者自身特征结合完成模仿。目前,对于机械臂模仿学习的研究,主要集中在学习器的研究,分为两个趋势:一是低水平学习;二是高水平学习。在和其他的人工智能技术结合之后,机械臂模仿学习的方法主要分为四个大的类别:一是基于行为克隆的方法;二是基于强化学习的方法;三是基于生成对抗网络的方法;四是基于元学习的方法。
然而,目前已有的机械臂模仿学习方法主要还存在以下问题:1)已有机械臂模仿学习方法需要巨量的训练集和试错;2)当前机械臂模仿学习方法对于示教任务训练集之外的新示教任务学习的正确率较低,缺乏足够的泛化能力;3)已有的机械臂模仿学习方法在示教任务数量增多,示教任务复杂度较高时,模型训练容易遗忘先前学会的示教任务。
发明内容
针对现有机械臂模仿学习方法中存在的上述问题,本发明提出了一种基于任务嵌入网络的机械臂模仿学习的方法。首先,本方法通过任务嵌入网络学习示教任务的低维向量描述,该描述可以有效表示示教任务的特点,称为任务原型;其次,将任务原型平铺并按通道和示教任务演示视频拼接,三通道演示视频转换为多通道演示视频,输入深度(卷积)神经网络,联合训练优化两个网络,从而得到示教任务模型参数,实现对于示教任务的完整描述;最后,将学习得到的示教任务模型参数作为控制策略结合机械臂系统来指导机械臂完成示教任务的模仿。
本发明提供了一种基于任务嵌入网络的机械臂模仿学习的方法,包括如下步骤:
S1:搭建机械臂虚拟仿真环境并操控机械臂完成多种示教任务,创建示教任务数据集;
S2:构建任务嵌入网络,所述任务嵌入网络以示教任务为输入,输出任务组合嵌入,所述任务组合嵌入与任务遍历模块输出的特征掩码相乘,得到示教任务的任务原型;
S3:构建深度神经网络,所述深度神经网络以拼接后的机械臂示教任务演示视频为输入,输出机械臂的动作值,所述拼接后的机械臂示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到;
S4:基于步骤S1中创建的示教任务数据集,使用监督学习训练方法对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;
S5:结合所搭建的机械臂虚拟仿真环境,将步骤S4中得到的示教任务模型作为机械臂的控制策略指导机械臂完成对于示教任务的模仿。
进一步,步骤S1中,所述示教任务数据集包括机械臂的观测值和动作值,所述观测值包括从机械臂虚拟仿真环境中导出的机械臂示教任务演示视频,所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。
进一步,步骤S2中,构建任务嵌入网络并输出任务组合嵌入具体过程为:从一个示教任务中采样得到K个样本,使用三个卷积层和三个全连接层构建任务嵌入网络fθ:RD→RN,RD、RN分别代表D维欧氏空间和N维欧氏空间;利用任务嵌入网络fθ:RD→RN为每一个样本计算一个标准化N维向量,然后通过取样本向量的标准化平均值来计算该示教任务的任务组合嵌入s′∈RN:
进一步,步骤S2中,所述任务遍历模块由集中网络和聚焦网络组成,所述集中网络和所述聚焦网络分别使用残差神经网络构成,其中,所述集中网络用于查看示教任务中的每个演示视频,寻找示教任务演示视频特征的共性;所述聚焦网络则用于查看示教任务中的所有演示视频,屏蔽演示视频间不相关的特征,寻找演示视频间最具判别性的特征。
进一步,步骤S4具体过程为:
为每个正示教任务选择两个不相交的示教任务集,分别是支持集和测试集假设一个训练批次中的每个采样任务都是唯一的,选择示教任务作为所述训练批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务的损失为:
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型的最终损失是:
本发明的有益效果:
1)本发明采用元学习的方法进行模型训练和测试,不需要巨量的训练集和试错;
2)本发明可以学习大量示教任务,利用学习到的知识来更有效地学习示教任务,对示教任务训练集之外的新示教任务学习成功率较高,模型泛化能力强;
3)本发明使用度量学习的思想创建任务嵌入,能够学习示教任务的任务原型,增强策略模型对示教任务的表达能力;
4)本发明将任务原型和示教任务结合,联合训练任务嵌入网络和深度神经网络,可以提高学习更多示教任务的能力,同时减少模型的灾难性遗忘影响。
附图说明
图1为本发明实施例的基于任务嵌入网络的机械臂模仿学习的方法流程图;
图2为本发明实施例的基于任务嵌入网络的机械臂模仿学习系统结构框图;
图3为本发明实施例的任务嵌入网络流程示意图;
图4为本发明实施例的深度神经网络结构示意图;
图5是本发明实施例的网络联合训练流程示意图;
图6是本发明实施例的是示教任务模型效果测试流程示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。
本实施例提供一种基于任务嵌入网络的机械臂模仿学习的方法,如图1所示,包括如下步骤:
S1:搭建OpenAI gym Pusher虚拟仿真环境并在虚拟仿真环境中操控机械臂完成多种示教任务,创建示教任务数据集。
本实施例在搭建的OpenAI gym Pusher虚拟仿真环境中,放置不同的目标物和干扰物,示教者例如通过遥控操作方式操控机械臂执行抓取、推送、放置任务,从虚拟仿真环境中导出机械臂演示视频(即观测值o)和机械臂运动过程中的关节角度、关节速度、末端执行器的姿态信息(即动作值a),相应的样本由一系列观测值和动作值组成:τ=[(o1,a1),...,(oT,aT)],T表示第T帧。把一组这样的样本定义为一个示教任务K表示一个示教任务中的样本数量。可以通过改变操作环境,例如更换虚拟仿真环境中的目标物和干扰物、改变目标物和干扰物的摆放位置、调节光照强度、操作机械臂执行抓取、推送、放置任务,获得由多个不同示教任务组成的示教任务数据集,如图2的最底层的框图所示。
S2:构建任务嵌入网络,该任务嵌入网络由4个跨步卷积层、4个批归一化层和3个全连接层组成,每个跨步卷积层都有16个(5x5)过滤器,每个全连接层有200个神经元,除最后一层外,每层使用ReLU作为非线性激活函数。
图3为本实施例的任务嵌入网络流程示意图,从一个示教任务中采样得到K个样本,使用三个卷积层和三个全连接层构建任务嵌入网络。本发明的任务嵌入网络fθ:RD→RN为每一个样本计算一个标准化N维向量,然后通过取样本向量的标准化平均值来计算该示教任务的任务组合嵌入s′∈RN:
本发明所利用的任务遍历模块由集中网络和聚焦网络两部分组成,任务遍历模块生成一个用于提取最具判别性特征的特征掩码r∈RN,该掩码与任务组合嵌入相乘,得到更具判别性的任务原型s∈RN。集中网络和聚焦网络分别使用残差神经网络构成,其中,集中网络用于查看示教任务中的每个演示视频,寻找演示视频特征的共性,如图3所示,集中网络对机械臂演示视频进行特征提取和维度压缩,计算每个类别样本特征的平均值avg作为输出o;聚焦网络则用于查看示教任务中的所有视频,屏蔽视频间不相关的特征,寻找视频间最具判别性的特征,如图3所示,聚焦网络对集中网络提取到的特征进行拼接和压缩,最后在特征通道维度上使用softmax层,得到各个特征对应的特征掩码r∈RN。
S4:构建深度神经网络,该深度神经网络由3个跨步卷积层、3个批归一化层和3个全连接层组成,每个跨步卷积层都有16个(5x5)过滤器,每个全连接层有200个神经元,除最后一层外,每层使用ReLU作为非线性激活函数。
如图4所示,将任务嵌入网络学习得到的任务原型平铺并按通道和示教任务演示视频拼接,依次经过三个步长stride为2、激活函数为ReLU的卷积层Conv,使用空间softmax转换为空间特征点,提取拼接后的演示视频特征送入三个激活函数为ReLU的全连接层,预测机械臂动作值的输出。
S4:基于创建的示教任务数据集,使用监督学习训练方法对任务嵌入网络和深度神经网络进行联合训练,随机初始化网络权重,使用随机梯度下降法,同时求解任务嵌入网络和深度神经网络的损失函数,使得其最小化来训练示教任务模型,保存好训练好的示教任务模型权重。
如图5所示,为每个正示教任务选择两个不相交的示教任务集,分别是支持集和测试集假设一个训练批次中的每个采样任务都是唯一的,选择示教任务作为本批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务的损失定义为:
其中,为正示教任务的损失函数;是正示教任务的测试集中的样本嵌入;sj是正示教任务的任务原型;si是负示教任务的任务原型;γ是间隔距离。损失函数训练示教任务模型在正示教任务的样本嵌入和它的任务原型sj之间产生比来自其他负示教任务的任务原型si更高的点积相似性。
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型最终的损失是:
S5:结合所搭建的机械臂虚拟仿真环境,将得到的示教任务模型作为机械臂的控制策略,指导机械臂完成对于示教任务的模仿(学习运动技能)。
图6是示教任务模型效果测试流程示意图,对于一个给定的新示教任务,输入任务嵌入网络,得到任务原型,然后将任务原型平铺并按通道和从机械臂系统中采集的观测图像拼接,输入深度神经网络,预测机械臂的动作值;该动作值作用于机械臂之后,再次采集观测图像与任务原型按通道拼接,输入深度神经网络,预测机械臂的动作值并驱动机械臂,重复以上操作,直到模仿任务完成。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例作出若干变型和改进,这些都属于本发明的保护范围。
Claims (5)
1.一种基于任务嵌入网络的机械臂模仿学习的方法,其特征在于,包括如下步骤:
S1:搭建机械臂虚拟仿真环境并操控机械臂完成多种示教任务,创建示教任务数据集;
S2:构建任务嵌入网络,所述任务嵌入网络以示教任务为输入,输出任务组合嵌入,所述任务组合嵌入与任务遍历模块输出的特征掩码相乘,得到示教任务的任务原型;
S3:构建深度神经网络,所述深度神经网络以拼接后的示教任务演示视频为输入,输出机械臂的动作值,所述拼接后的示教任务演示视频通过将所述任务原型平铺并按通道和示教任务演示视频拼接后得到;
S4:基于步骤S1中创建的示教任务数据集,使用监督学习训练方法对所构建的任务嵌入网络和深度神经网络进行联合训练,训练得到示教任务模型;
S5:结合所搭建的机械臂虚拟仿真环境,将步骤S4中得到的示教任务模型作为机械臂的控制策略,指导机械臂完成对于示教任务的模仿。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,所述示教任务数据集包括机械臂的观测值和动作值,所述观测值包括从机械臂虚拟仿真环境中导出的示教任务演示视频,所述动作值包括示教任务过程中机械臂的关节角度、关节速度和末端执行器姿态变化情况。
4.根据权利要求1所述的方法,其特征在于,步骤S2中,所述任务遍历模块由集中网络和聚焦网络组成,所述集中网络和所述聚焦网络分别使用残差神经网络构成,其中,所述集中网络用于查看示教任务中的每个演示视频,寻找示教任务演示视频特征的共性;所述聚焦网络则用于查看示教任务中的所有演示视频,屏蔽演示视频间不相关的特征,寻找演示视频间最具判别性的特征。
5.根据权利要求1所述的方法,其特征在于,步骤S4具体过程为:
为每个正示教任务选择两个不相交的示教任务集,分别是支持集和测试集假设一个训练批次中的每个采样任务都是唯一的,选择示教任务作为所述训练批次中的负示教任务,使用点之间的余弦距离和铰链秩损失的组合作为任务嵌入网络的损失函数,正示教任务的损失为:
联合训练任务嵌入网络和深度神经网络学习任务原型,示教任务模型的最终损失是:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829750.5A CN112183188B (zh) | 2020-08-18 | 2020-08-18 | 一种基于任务嵌入网络的机械臂模仿学习的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010829750.5A CN112183188B (zh) | 2020-08-18 | 2020-08-18 | 一种基于任务嵌入网络的机械臂模仿学习的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183188A true CN112183188A (zh) | 2021-01-05 |
CN112183188B CN112183188B (zh) | 2022-10-04 |
Family
ID=73919027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010829750.5A Active CN112183188B (zh) | 2020-08-18 | 2020-08-18 | 一种基于任务嵌入网络的机械臂模仿学习的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183188B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112809689A (zh) * | 2021-02-26 | 2021-05-18 | 同济大学 | 基于语言引导的机械臂动作元模仿学习方法及存储介质 |
CN113524166A (zh) * | 2021-01-08 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的机器人控制方法、装置及电子设备 |
CN113927593A (zh) * | 2021-09-22 | 2022-01-14 | 北京航空航天大学 | 基于任务分解的机械臂操作技能学习方法 |
CN117086866A (zh) * | 2023-08-07 | 2023-11-21 | 广州中鸣数码科技有限公司 | 一种基于编程机器人的任务规划训练方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107263449A (zh) * | 2017-07-05 | 2017-10-20 | 中国科学院自动化研究所 | 基于虚拟现实的机器人远程示教系统 |
CN108284436A (zh) * | 2018-03-17 | 2018-07-17 | 北京工业大学 | 具有模仿学习机制的远程机械双臂系统及方法 |
CN109800864A (zh) * | 2019-01-18 | 2019-05-24 | 中山大学 | 一种基于图像输入的机器人主动学习方法 |
CN110026987A (zh) * | 2019-05-28 | 2019-07-19 | 广东工业大学 | 一种机械臂抓取轨迹的生成方法、装置、设备及存储介质 |
CN110900598A (zh) * | 2019-10-15 | 2020-03-24 | 合肥工业大学 | 机器人三维运动空间动作模仿学习方法和系统 |
CN111203878A (zh) * | 2020-01-14 | 2020-05-29 | 北京航空航天大学 | 一种基于视觉模仿的机器人序列任务学习方法 |
-
2020
- 2020-08-18 CN CN202010829750.5A patent/CN112183188B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107263449A (zh) * | 2017-07-05 | 2017-10-20 | 中国科学院自动化研究所 | 基于虚拟现实的机器人远程示教系统 |
CN108284436A (zh) * | 2018-03-17 | 2018-07-17 | 北京工业大学 | 具有模仿学习机制的远程机械双臂系统及方法 |
CN109800864A (zh) * | 2019-01-18 | 2019-05-24 | 中山大学 | 一种基于图像输入的机器人主动学习方法 |
CN110026987A (zh) * | 2019-05-28 | 2019-07-19 | 广东工业大学 | 一种机械臂抓取轨迹的生成方法、装置、设备及存储介质 |
CN110900598A (zh) * | 2019-10-15 | 2020-03-24 | 合肥工业大学 | 机器人三维运动空间动作模仿学习方法和系统 |
CN111203878A (zh) * | 2020-01-14 | 2020-05-29 | 北京航空航天大学 | 一种基于视觉模仿的机器人序列任务学习方法 |
Non-Patent Citations (6)
Title |
---|
CHANGHONG LIN等: "Tensegrity robot dynamic simulation and kinetic strategy programming", 《2016IEEE》 * |
KONSTANTINOS BOUSMALIS等: "Using Simulation and Domain Adaptation to Improve Efficiency of Deep Robotic Grasping", 《2018IEEE》 * |
XINGTAI FANG等: "Hand pose estimation on hybrid CNN-AE model", 《2017IEEE》 * |
YANG, SHUO等: "Learning Actions from Human Demonstration Video for Robotic Manipulation", 《2019IEEE》 * |
于建均等: "基于RNN的机械臂任务模仿系统", 《北京工业大学学报》 * |
张海峰: "结合深度学习的机械臂视觉抓取控制", 《数字化用户》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113524166A (zh) * | 2021-01-08 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 基于人工智能的机器人控制方法、装置及电子设备 |
CN112809689A (zh) * | 2021-02-26 | 2021-05-18 | 同济大学 | 基于语言引导的机械臂动作元模仿学习方法及存储介质 |
CN112809689B (zh) * | 2021-02-26 | 2022-06-14 | 同济大学 | 基于语言引导的机械臂动作元模仿学习方法及存储介质 |
CN113927593A (zh) * | 2021-09-22 | 2022-01-14 | 北京航空航天大学 | 基于任务分解的机械臂操作技能学习方法 |
CN113927593B (zh) * | 2021-09-22 | 2023-06-13 | 北京航空航天大学 | 基于任务分解的机械臂操作技能学习方法 |
CN117086866A (zh) * | 2023-08-07 | 2023-11-21 | 广州中鸣数码科技有限公司 | 一种基于编程机器人的任务规划训练方法及装置 |
CN117086866B (zh) * | 2023-08-07 | 2024-04-12 | 广州中鸣数码科技有限公司 | 一种基于编程机器人的任务规划训练方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112183188B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183188B (zh) | 一种基于任务嵌入网络的机械臂模仿学习的方法 | |
CN109948642B (zh) | 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法 | |
CN111203878B (zh) | 一种基于视觉模仿的机器人序列任务学习方法 | |
CN109483534B (zh) | 一种物体抓取方法、装置和系统 | |
CN109702744A (zh) | 一种基于动态系统模型的机器人模仿学习的方法 | |
Sadeghi et al. | Sim2real view invariant visual servoing by recurrent control | |
CN112809689B (zh) | 基于语言引导的机械臂动作元模仿学习方法及存储介质 | |
Paxton et al. | Prospection: Interpretable plans from language by predicting the future | |
Fu et al. | Active learning-based grasp for accurate industrial manipulation | |
CN113657573A (zh) | 一种情景记忆引导下基于元学习的机器人技能获取方法 | |
Li et al. | Curiosity-driven exploration for off-policy reinforcement learning methods | |
Tekden et al. | Belief regulated dual propagation nets for learning action effects on groups of articulated objects | |
CN117474094B (zh) | 基于Transformer的融合领域特征的知识追踪方法 | |
CN114170454A (zh) | 基于关节分组策略的智能体元动作学习方法 | |
Edwards et al. | Cross-domain perceptual reward functions | |
Sui et al. | Transfer of robot perception module with adversarial learning | |
CN113011081B (zh) | 一种基于元学习的无人机导航方法 | |
Yao et al. | Robotic grasping training using deep reinforcement learning with policy guidance mechanism | |
Sanchez et al. | Towards advanced robotic manipulation | |
Xiao et al. | One-shot sim-to-real transfer policy for robotic assembly via reinforcement learning with visual demonstration | |
Hu et al. | Learning from visual demonstrations via replayed task-contrastive model-agnostic meta-learning | |
Aslan et al. | End-to-end learning from demonstation for object manipulation of robotis-Op3 humanoid robot | |
Son et al. | Usefulness of using Nvidia IsaacSim and IsaacGym for AI robot manipulation training | |
Yu et al. | LSTM learn policy from dynamical system of demonstration motions for robot imitation learning | |
CN118378659B (zh) | 一种输氧孔接头氧气泄漏风险预测优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |