CN111942621B - 一种基于多任务学习的在轨自主加注控制方法及系统 - Google Patents

一种基于多任务学习的在轨自主加注控制方法及系统 Download PDF

Info

Publication number
CN111942621B
CN111942621B CN202010693554.XA CN202010693554A CN111942621B CN 111942621 B CN111942621 B CN 111942621B CN 202010693554 A CN202010693554 A CN 202010693554A CN 111942621 B CN111942621 B CN 111942621B
Authority
CN
China
Prior art keywords
task
network
filling
orbit
mechanical arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010693554.XA
Other languages
English (en)
Other versions
CN111942621A (zh
Inventor
解永春
李林峰
王勇
陈奥
唐宁
胡勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Control Engineering
Original Assignee
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Control Engineering filed Critical Beijing Institute of Control Engineering
Priority to CN202010693554.XA priority Critical patent/CN111942621B/zh
Publication of CN111942621A publication Critical patent/CN111942621A/zh
Application granted granted Critical
Publication of CN111942621B publication Critical patent/CN111942621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G4/00Tools specially adapted for use in space
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G4/00Tools specially adapted for use in space
    • B64G2004/005Robotic manipulator systems for use in space

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多任务学习的在轨自主加注控制方法及系统,属于空间技术领域。本发明方法包括:构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。针对多种操作任务独立学习引起的自主性不足问题,将深度强化学习和多任务学习方法相结合,实现了多种操作任务策略网络的统一表达和学习,相比于人工设计任务状态判断与切换,提升了自主性与鲁棒性。

Description

一种基于多任务学习的在轨自主加注控制方法及系统
技术领域
本发明涉及一种基于多任务学习的在轨自主加注控制方法及系统,属于空间技术领域。
背景技术
在轨燃料加注技术能够有效延长航天器运行寿命,是带动其他在轨服务技术的先导和基础。对于遥操作的在轨加注,通讯时延会造成系统可控性、可靠性降低,发展自主化的在轨加注技术具有重要价值。面对干扰源多、不确定性大的空间环境,利用机械臂进行在轨加注具有更强的灵活性和鲁棒性。学习能力决定了这种系统的操作自主化水平,根据学习原理的不同,表1归纳了几种基于学习的机械臂操作控制方法。可以看出,深度强化学习方法兼具良好的环境感知能力与自主决策能力。在此框架下,用深度神经网络整体地表示控制策略(策略网络),策略网络以图像、机械臂关节测量、力测量等为输入,以电机指令为输出,控制机械臂完成加注操作。通过虚拟/实际环境的交互采样、奖励评价、优化对策略网络参数进行学习。学习完成后,策略网络能够根据环境反馈进行实时规划与控制,符合航天器智能自主化的发展趋势。
表1.基于学习的机械臂操作控制方法
Figure BDA0002590110420000011
发明内容
本发明解决的技术问题是:克服现有技术的不足,提供了一种基于多任务学习的在轨自主加注控制方法及系统,将深度强化学习和多任务学习方法相结合,实现了多种操作任务策略网络的统一表达和学习,相比于人工设计任务状态判断与切换,提升了自主性与鲁棒性。
本发明的技术解决方案是:一种基于多任务学习的在轨自主加注控制方法,包括如下步骤:
步骤1,构建与真实环境相同的在轨加注虚拟环境和虚拟机械臂,采集虚拟机械臂与虚拟环境的交互行为数据,以在轨加注虚拟环境采样代替在轨加注真实环境采样;
步骤2,构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;
步骤3,在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。
进一步地,所述任务表达网络G包括任务分类器网络D和特征提取网络E;所述任务分类器网络D用于判断当前需要被执行的任务,输出独热型任务编码向量;所述特征提取网络E用于对RGB图像进行特征提取,输出高维的特征嵌入向量。
进一步地,所述任务分类器网络D和特征提取网络E均采用卷积神经网络结构,均以机械臂末端手眼相机的RGB图像为输入。
进一步地,所述任务执行网络H包括任务共享层S和任务预测层Ti,i=1,2..N,N为任务总数,均采用多层感知机网络结构;所述任务共享层S用于处理多任务的共性嵌入,对在轨加注抓取、对接和插入操作场景下的测量信号进行共性特征提取,输出特征编码向量;所述任务预测层Ti用于处理跨任务的特殊嵌入,以任务共享层S输出的特征编码向量为输入,对在轨加注抓取、对接和插入任务分别训练,输出连续的控制信号,驱动机械臂的关节电机完成在轨加注抓取、对接和插入任务。
进一步地,步骤2中训练与微调任务表达网络G和任务执行网络H的具体步骤为:
步骤2.1,训练任务表达网络G和任务共享层S:随机初始化任务表达网络G和任务执行网络Hi=(Ti,S)的参数,随机选取一种任务p=rand{1,2,...,N},在在轨加注虚拟环境中执行多任务策略网络F=(G,Hp),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新F=(G,Hp)的参数,直至算法收敛,实现任务p的奖励函数最大化,存储任务表达网络G和任务执行网络Hp=(Tp,S)的参数;
步骤2.2,微调任务预测层Ti,i={1,2,...,N}\p:随机选取一种任务q={1,2..N}\p,在在轨加注虚拟环境中执行多任务策略网络F=(G,Hq),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新Tq的参数,直至算法收敛,实现全部任务的平均奖励函数最大化;
步骤2.3,存储多任务策略网络F=(G,Ti,S),i=1,2..N的参数,完成任务执行网络H的训练与调整。
进一步地,所述基于值函数、利用策略梯度算法更新F=(G,Hp)的参数,优化目标为机械臂末端位置姿态和目标位置姿态之差的2-范数最小。
进一步地,所述在轨加注操作任务包括抓取、对接和插入。
进一步地,步骤1中构建在轨加注虚拟环境的具体步骤为:
步骤1.1,根据真实机械臂的形状、尺寸、质量、惯量和关节阻尼,构建真实机械臂的多刚体动力学模型;
步骤1.2,根据加注主动端、加注被动端、受体卫星端面、受体卫星端面上的喷管和天线的真实形状和尺寸,构建在轨加注真实环境的多刚体动力学模型;
步骤1.3,根据在轨加注真实环境中加注主动端、加注被动端、受体卫星端面和受体卫星端面上的喷管和天线的真实光照和纹理,设置在轨加注真实环境的多刚体动力学模型的表面视觉特性。
一种基于多任务学习的在轨自主加注控制系统,包括补加卫星、机械臂、加注主动端、加注被动端、受体卫星、敏感器模块和上位机;
所述加注主动端位于补加卫星上,所述加注被动端位于受体卫星上,所述机械臂用于夹持加注主动端,并使加注主动端跟随其移动至加注被动端;所述机械臂的末端装有RGB相机;所述敏感器模块用于采集机械臂的环境交互数据,对采集信号进行滤波处理后发送至上位机;所述上位机根据输入的环境感知信息,读取存储的多任务策略网络F=(G,H)参数,运行多任务策略网络F=(G,H),输出控制电压到机械臂,使真实机械臂执行相应动作,完成在轨加注操作任务。
进一步地,所述敏感器模块包括单目视觉相机和六自由度力与力矩传感器;所述单目视觉相机安装在机械臂的末端;所述六自由度力与力矩传感器安装在机械臂手爪和末端关节之间。
本发明与现有技术相比的优点在于:
(1)本发明以深度强化学习为基本框架,将在轨加注所需的多任务操作进行结构整合,既实现了策略网络的统一表达,又节省了网络参数的存储空间,在星载计算资源有限的条件下具有优势;
(2)本发明利用多任务学习方法替代人控任务切换,减弱了人工因素的介入,有助于实现空间在轨全自主操作;
(3)本发明将多任务策略网络划分成表达、执行两模块,对前者进行预训练可以降低后者的优化负担,有利于提高收敛性。
附图说明
图1为本发明中一种基于多任务学习的在轨自主加注控制系统示意图;
图2为本发明的方法原理图;
图3为本发明的方法流程图;
图4为本发明中训练多任务策略网络F=(G,H)算法流程图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明进行进一步解释和说明。
一种基于多任务学习的在轨自主加注控制方法及系统,被控对象是安装于补加卫星1上的机械臂2,机械臂2在多任务策略网络F的控制下,围绕加注主动端3依顺序进行抓取、对接、插入操作任务,使得加注主动端3与受体卫星5上的加注被动端4有效结合,最终完成在轨加注任务。本发明的核心是多任务策略网络F=(G,H)的架构设计与训练方法。多任务策略网络F以机械臂2的末端RGB图像、机械臂2的关节角速度、角位移、末端力、末端力矩等信号为输入,一方面负责任务判断、任务规划,另一方面输出控制电压到机械臂2的关节电机,使电机执行相应动作,完成与特定任务相匹配的操作。多任务策略网络F由两部分组成,分别是任务表达网络G和任务执行网络H,总体使用强化学习的方式训练。具体地,主要包含以下步骤:
步骤1,构建与真实环境相同的在轨加注虚拟环境和虚拟机械臂,采集虚拟机械臂与虚拟环境的交互行为数据,以在轨加注虚拟环境采样代替在轨加注真实环境采样;
步骤2,构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;
步骤3,在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。
作为本发明的进一步限定方案,步骤2中训练与微调任务表达网络G和任务执行网络H的具体步骤为:
步骤2.1,训练任务表达网络G和任务共享层S:随机初始化任务表达网络G和任务执行网络Hi=(Ti,S)的参数,i=1,2..N,N为任务总数,随机选取一种任务p=rand{1,2,...,N},在在轨加注虚拟环境中执行多任务策略网络F=(G,Hp),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新F=(G,Hp)的参数,直至算法收敛,实现任务p的奖励函数最大化,存储任务表达网络G和任务执行网络Hp=(Tp,S)的参数;
步骤2.2,微调任务预测层Ti,i={1,2,...,N}\p:随机选取一种任务q={1,2..N}\p,在在轨加注虚拟环境中执行多任务策略网络F=(G,Hq),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新Tq的参数,直至算法收敛,实现全部任务的平均奖励函数最大化;
步骤2.3,存储多任务策略网络F=(G,Ti,S),i=1,2..N的参数,完成任务执行网络H的训练与微调。
实施例一
如图1所示,本发明提供一种基于多任务学习的在轨自主加注控制方法,具体实施的控制系统主要包括:补加卫星1、机械臂2、加注主动端3、加注被动端4、受体卫星5、敏感器模块6、上位机7;所述加注主动端3位于补加卫星1上,所述加注被动端4位于受体卫星5上,所述机械臂3用于夹持加注主动端3,并使加注主动端3跟随其移动至加注被动端4;所述机械臂2的末端装有RGB相机;所述敏感器模块6用于采集机械臂2的环境交互数据,对采集信号进行滤波处理后发送至上位机7;所述上位机7根据输入的环境感知信息,读取存储的多任务策略网络F=(G,H)参数,运行多任务策略网络F=(G,H),输出控制电压到机械臂,使真实机械臂执行相应动作,完成在轨加注操作任务。
为了完成在轨加注操作,需要依次完成的任务包括抓取、对接、插入。具体地,抓取指机械臂2从补加卫星1的工具舱中成功抓住加注主动端3;对接指机械臂2携带加注主动端3定点到达加注被动端4附近;插入指机械臂2携带加注主动端3将加注枪插入加注被动端4上的加注孔。为了保证上述几种任务之间的连续性,我们考虑合作目标情况,即补加卫星1和受体卫星5之间没有大范围相对位移,二者接近刚性连接状态。
如图2所示,本发明提供一种基于多任务学习的在轨自主加注控制方法,核心是多任务策略网络F=(G,H)的架构设计与训练方法。多任务策略网络F以机械臂的末端RGB图像、机械臂3关节角速度、角位移、末端力、末端力矩等信号为输入,输出控制电压到机械臂关节电机。多任务策略网络F由任务表达网络G和任务执行网络H构成,任务表达网络G提取图像的任务特征和物体特征;任务执行网络H采用前端共享后端特殊的结构,控制机械臂完成与特定任务相匹配的操作,用强化学习的方式学习。
所述任务表达网络G包括任务分类器网络D和特征提取网络E,任务分类器网络D和特征提取网络E均采用卷积神经网络结构,均以机械臂末端手眼相机的RGB图像为输入;所述任务分类器网络D判断当前需要被执行的任务,输出独热(one-hot)型任务编码向量;所述特征提取网络E对RGB图像进行特征提取,输出高维的特征嵌入向量;所述任务执行网络H包括任务共享层S和任务预测层Ti,i=1,2..N,N为任务总数,均采用多层感知机网络结构
系统的上位机7需要配置GPU,用以存储、优化多任务策略网络F=(G,H)参数。系统的反馈信号按照如下方式获取:机械臂关节角速度和关节角位移可以从机械臂的驱动器模拟量输出接口读取至上位机7,也可以通过以太网协议发送到上位机7;在末端工具和机械臂之间安装6自由度力传感器,末端力和力矩信号可以通过TCP或UDP通讯方式发送到上位机7;RGB图像可以直接由相机通过高速USB串口发送至上位机7。
如图3所示,多任务策略网络F的训练与执行可分3个步骤进行实施。
步骤1,构建与真实环境相同的在轨加注虚拟环境和虚拟机械臂,采集虚拟机械臂与虚拟环境的交互行为数据,以在轨加注虚拟环境采样代替在轨加注真实环境采样;
步骤2,构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;
步骤3,在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务。
步骤1中构建在轨加注虚拟环境的具体步骤为:
步骤1.1,根据真实机械臂的形状、尺寸、质量、惯量和关节阻尼,构建真实机械臂的多刚体动力学模型,建模可以通过MuJoCo等动力学仿真平台实施;
步骤1.2,根据加注主动端3、加注被动端4、受体卫星5端面、受体卫星5端面上的喷管和天线的真实形状和尺寸,构建在轨加注真实环境的多刚体动力学模型;
步骤1.3,根据在轨加注真实环境中加注主动端3、加注被动端4、受体卫星5端面、受体卫星5端面上的喷管和天线的真实光照和纹理,设置在轨加注真实环境的多刚体动力学模型的表面视觉特性。
如图4所示,步骤2中网络训练的具体步骤为:
步骤2.1,训练任务表达网络G和任务共享层S:随机初始化任务表达网络G和任务执行网络Hi=(Ti,S)的参数,i=1,2..N,N为任务总数,随机选取一种任务p=rand{1,2,...,N},在在轨加注虚拟环境中执行多任务策略网络F=(G,Hp),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新F=(G,Hp)的参数,直至算法收敛,实现任务p的奖励函数最大化,存储任务表达网络G和任务执行网络Hp=(Tp,S)的参数。优化目标为机械臂末端位置姿态和目标位置姿态之差的2-范数最小。优化采用演员-评论家框架,梯度方差小,优化算法可以使用TRPO、PPO等在线策略的策略梯度优化算法,采用共轭梯度优化;
步骤2.2,微调任务预测层Ti,i={1,2,...,N}\p:随机选取一种任务q={1,2..N}\p,在在轨加注虚拟环境中执行多任务策略网络F=(G,Hq),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新Tq的参数,直至算法收敛,实现全部任务的平均奖励函数最大化。任务预测层Ti由多层全连接层组成,与步骤3.1类似地,优化目标为机械臂末端位置姿态和目标位置姿态之差的2-范数最小。优化采用演员-评论家框架,优化算法可以使用TRPO、PPO等在线策略的策略梯度优化算法;
步骤2.3,存储多任务策略网络F=(G,Ti,S),i=1,2..N的参数,完成任务执行网络H的训练与微调。
本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

Claims (7)

1.一种基于多任务学习的在轨自主加注控制方法,其特征在于,包括如下步骤:
步骤1,构建与真实环境相同的在轨加注虚拟环境和虚拟机械臂,采集虚拟机械臂与虚拟环境的交互行为数据,以在轨加注虚拟环境采样代替在轨加注真实环境采样;
步骤2,构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;
步骤3,在一种基于多任务学习的在轨自主加注控制系统中,将真实机械臂运动状态复位,使用多任务策略网络F对真实机械臂进行控制,使真实机械臂执行相应动作,完成在轨加注操作任务;
所述任务执行网络H包括任务共享层S和任务预测层Ti,i=1,2..N,N为任务总数,均采用多层感知机网络结构;所述任务共享层S用于处理多任务的共性嵌入,对在轨加注抓取、对接和插入操作场景下的测量信号进行共性特征提取,输出特征编码向量;所述任务预测层Ti用于处理跨任务的特殊嵌入,以任务共享层S输出的特征编码向量为输入,对在轨加注抓取、对接和插入任务分别训练,输出连续的控制信号,驱动机械臂的关节电机完成在轨加注抓取、对接和插入任务;
步骤2中训练与微调任务表达网络G和任务执行网络H的具体步骤为:
步骤2.1,训练任务表达网络G和任务共享层S:随机初始化任务表达网络G和任务执行网络Hi=(Ti,S)的参数,随机选取一种任务p=rand{1,2,...,N},在在轨加注虚拟环境中执行多任务策略网络F=(G,Hp),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新F=(G,Hp)的参数,直至算法收敛,实现任务p的奖励函数最大化,存储任务表达网络G和任务执行网络Hp=(Tp,S)的参数;
步骤2.2,微调任务预测层Ti,i={1,2,...,N}\p:随机选取一种任务q={1,2..N}\p,在在轨加注虚拟环境中执行多任务策略网络F=(G,Hq),获取策略运行下的采样轨迹,并计算采样轨迹产生的值函数,基于值函数、利用策略梯度算法更新Tq的参数,直至算法收敛,实现全部任务的平均奖励函数最大化;
步骤2.3,存储多任务策略网络F=(G,Ti,S),i=1,2..N的参数,完成任务执行网络H的训练与调整。
2.根据权利要求1所述的一种基于多任务学习的在轨自主加注控制方法,其特征在于:所述任务表达网络G包括任务分类器网络D和特征提取网络E;所述任务分类器网络D用于判断当前需要被执行的任务,输出独热型任务编码向量;所述特征提取网络E用于对RGB图像进行特征提取,输出高维的特征嵌入向量。
3.根据权利要求2所述的一种基于多任务学习的在轨自主加注控制方法,其特征在于:所述任务分类器网络D和特征提取网络E均采用卷积神经网络结构,均以机械臂末端手眼相机的RGB图像为输入。
4.根据权利要求1所述的一种基于多任务学习的在轨自主加注控制方法,其特征在于:所述基于值函数、利用策略梯度算法更新F=(G,Hp)的参数,优化目标为机械臂末端位置姿态和目标位置姿态之差的2-范数最小。
5.根据权利要求1所述的一种基于多任务学习的在轨自主加注控制方法,其特征在于:步骤1中构建在轨加注虚拟环境的具体步骤为:
步骤1.1,根据真实机械臂的形状、尺寸、质量、惯量和关节阻尼,构建真实机械臂的多刚体动力学模型;
步骤1.2,根据加注主动端、加注被动端、受体卫星端面、受体卫星端面上的喷管和天线的真实形状和尺寸,构建在轨加注真实环境的多刚体动力学模型;
步骤1.3,根据在轨加注真实环境中加注主动端、加注被动端、受体卫星端面和受体卫星端面上的喷管和天线的真实光照和纹理,设置在轨加注真实环境的多刚体动力学模型的表面视觉特性。
6.一种基于多任务学习的在轨自主加注控制系统,用于实现权利要求1~5任一项所述的方法,其特征在于:包括补加卫星、机械臂、加注主动端、加注被动端、受体卫星、敏感器模块和上位机;
所述加注主动端位于补加卫星上,所述加注被动端位于受体卫星上,所述机械臂用于夹持加注主动端,并使加注主动端跟随其移动至加注被动端;所述机械臂的末端装有RGB相机;所述敏感器模块用于采集机械臂的环境交互数据,对采集信号进行滤波处理后发送至上位机;所述上位机根据输入的环境感知信息,读取存储的多任务策略网络F=(G,H)参数,运行多任务策略网络F=(G,H),输出控制电压到机械臂,使真实机械臂执行相应动作,完成在轨加注操作任务;其中,构建任务表达网络G和任务执行网络H,在在轨加注虚拟环境中使用强化学习方法训练与微调任务表达网络G和任务执行网络H,直到两个网络的参数收敛,形成多任务策略网络F;所述任务表达网络G包括任务分类器网络D和特征提取网络E;所述任务分类器网络D用于判断当前需要被执行的任务,输出独热型任务编码向量;所述特征提取网络E用于对RGB图像进行特征提取,输出高维的特征嵌入向量。
7.根据权利要求6所述的一种基于多任务学习的在轨自主加注控制系统,其特征在于:所述敏感器模块包括单目视觉相机和六自由度力与力矩传感器;所述单目视觉相机安装在机械臂的末端;所述六自由度力与力矩传感器安装在机械臂手爪和末端关节之间。
CN202010693554.XA 2020-07-17 2020-07-17 一种基于多任务学习的在轨自主加注控制方法及系统 Active CN111942621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010693554.XA CN111942621B (zh) 2020-07-17 2020-07-17 一种基于多任务学习的在轨自主加注控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010693554.XA CN111942621B (zh) 2020-07-17 2020-07-17 一种基于多任务学习的在轨自主加注控制方法及系统

Publications (2)

Publication Number Publication Date
CN111942621A CN111942621A (zh) 2020-11-17
CN111942621B true CN111942621B (zh) 2022-03-04

Family

ID=73340639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010693554.XA Active CN111942621B (zh) 2020-07-17 2020-07-17 一种基于多任务学习的在轨自主加注控制方法及系统

Country Status (1)

Country Link
CN (1) CN111942621B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220276652A1 (en) * 2021-03-01 2022-09-01 The Boeing Company Autonomous maneuver generation to mate connectors
CN113065796A (zh) * 2021-04-22 2021-07-02 哈尔滨理工大学 基于q-学习算法的空间桁架在轨装配策略
CN113724260B (zh) * 2021-08-03 2023-10-17 南京邮电大学 一种基于深度强化学习的卫星抓取方法
CN114905505B (zh) * 2022-04-13 2024-04-19 南京邮电大学 一种移动机器人的导航控制方法、系统及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19846327C1 (de) * 1998-10-08 2000-03-16 Daimlerchrysler Aerospace Ag Flugkörper
CN104058109A (zh) * 2014-05-30 2014-09-24 北京控制工程研究所 一种卫星在轨自主加注用液体传输接口
CN105059569A (zh) * 2015-07-24 2015-11-18 北京控制工程研究所 一种在轨补加气液接口装置
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN106864776A (zh) * 2017-01-18 2017-06-20 哈尔滨工业大学深圳研究生院 一种基于对接环的捕获目标卫星的方法与系统
CN109605365A (zh) * 2018-10-30 2019-04-12 大连理工大学 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法
CN109760860A (zh) * 2018-12-11 2019-05-17 上海航天控制技术研究所 一种双臂协同抓捕非合作旋转目标的地面试验系统
CN110014426A (zh) * 2019-03-21 2019-07-16 同济大学 一种利用低精度深度相机高精度抓取形状对称工件的方法
CN111151463A (zh) * 2019-12-24 2020-05-15 北京无线电测量研究所 一种基于3d视觉的机械臂分拣抓取系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8979034B2 (en) * 2011-12-06 2015-03-17 Altius Space Machines Sticky boom non-cooperative capture device

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19846327C1 (de) * 1998-10-08 2000-03-16 Daimlerchrysler Aerospace Ag Flugkörper
CN104058109A (zh) * 2014-05-30 2014-09-24 北京控制工程研究所 一种卫星在轨自主加注用液体传输接口
CN105059569A (zh) * 2015-07-24 2015-11-18 北京控制工程研究所 一种在轨补加气液接口装置
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN106864776A (zh) * 2017-01-18 2017-06-20 哈尔滨工业大学深圳研究生院 一种基于对接环的捕获目标卫星的方法与系统
CN109605365A (zh) * 2018-10-30 2019-04-12 大连理工大学 一种空间机器人抓捕控制系统、强化学习方法及动力学建模方法
CN109760860A (zh) * 2018-12-11 2019-05-17 上海航天控制技术研究所 一种双臂协同抓捕非合作旋转目标的地面试验系统
CN110014426A (zh) * 2019-03-21 2019-07-16 同济大学 一种利用低精度深度相机高精度抓取形状对称工件的方法
CN111151463A (zh) * 2019-12-24 2020-05-15 北京无线电测量研究所 一种基于3d视觉的机械臂分拣抓取系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于学习的空间机器人在轨服务操作技术;解永春 等;《空间控制技术与应用》;20190831;第45卷(第4期);第25-37页 *

Also Published As

Publication number Publication date
CN111942621A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111942621B (zh) 一种基于多任务学习的在轨自主加注控制方法及系统
CN113176776B (zh) 基于深度强化学习的无人艇天气自适应避障方法
Breyer et al. Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning
CN111844034B (zh) 基于深度强化学习的端到端在轨自主加注控制系统及方法
CN111027143B (zh) 一种基于深度强化学习的舰载机进近引导方法
CN112711271B (zh) 基于深度强化学习的自主导航无人机功率优化方法
CN111881772A (zh) 基于深度强化学习的多机械臂协同装配方法和系统
Wang et al. Research of UAV target detection and flight control based on deep learning
CN113076615B (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及系统
CN114995132B (zh) 一种基于高斯混合过程的多臂航天器模型预测控制方法、设备和介质
CN111152227A (zh) 一种基于引导式dqn控制的机械臂控制方法
CN110555404A (zh) 基于人体姿态识别的飞翼无人机地面站交互装置及方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
CN114310870A (zh) 智能体的控制方法、装置、电子设备及存储介质
CN115617039B (zh) 一种基于事件触发的分布式仿射无人艇编队控制器构建方法和无人艇编队控制方法
CN116852347A (zh) 一种面向非合作目标自主抓取的状态估计与决策控制方法
CN115716278A (zh) 基于主动感知与交互操作协同的机器人目标搜索方法及机器人仿真平台
CN116009583A (zh) 基于纯粹视觉的分布式无人机协同运动控制方法和装置
CN113927593B (zh) 基于任务分解的机械臂操作技能学习方法
Bhanu et al. Real-time robot learning
Wang et al. Autonomous docking of the USV using deep reinforcement learning combine with observation enhanced
CN115524964B (zh) 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统
CN115289917B (zh) 基于深度学习的火箭子级着陆实时最优制导方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant