CN113400307B - 一种空间机器人机械臂的控制方法 - Google Patents

一种空间机器人机械臂的控制方法 Download PDF

Info

Publication number
CN113400307B
CN113400307B CN202110666012.8A CN202110666012A CN113400307B CN 113400307 B CN113400307 B CN 113400307B CN 202110666012 A CN202110666012 A CN 202110666012A CN 113400307 B CN113400307 B CN 113400307B
Authority
CN
China
Prior art keywords
network
mechanical arm
layer
control strategy
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110666012.8A
Other languages
English (en)
Other versions
CN113400307A (zh
Inventor
张涛
王圣杰
刘磊
张海博
胡海东
周玉新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Institute of Control Engineering
Original Assignee
Tsinghua University
Beijing Institute of Control Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Institute of Control Engineering filed Critical Tsinghua University
Priority to CN202110666012.8A priority Critical patent/CN113400307B/zh
Publication of CN113400307A publication Critical patent/CN113400307A/zh
Application granted granted Critical
Publication of CN113400307B publication Critical patent/CN113400307B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J17/00Joints
    • B25J17/02Wrist joints
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J18/00Arms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)
  • Numerical Control (AREA)

Abstract

本发明属于航空航天技术领域,尤其涉及一种空间机器人机械臂的控制方法。本方法首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对实用梯度下降算法对各个网络参数进行训练,得到机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂。本方法解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,避免了模块化的控制器设计过程中人工调整参数的问题。

Description

一种空间机器人机械臂的控制方法
技术领域
本发明属于航空航天技术领域,尤其涉及一种空间机器人机械臂的控制方法。
背景技术
对于空间机器人来说,轨迹规划是最为常见的执行任务,因而对其的研究十分广泛。空间机械臂的广义雅可比矩阵(GJM),可以在不影响机器人基本姿态的情况下实现机器人手臂的轨迹规划。然而,GJM在某些情况下可能存在奇异点,这将限制GJM逆方法进行运动学规划的可行空间。由于空间机器人在进行路径规划时,在路径中存在动态奇异点的位置,该位置处无法实现有限的关节速度,因此会造成规划路径的长度增大。所以传统的空间机器人轨迹规划方案主要解决的是求解中存在的奇异解问题。近些年来也有一些利用智能优化的方法来解决空间机器人动态奇异问题。如Wu等人是用DDPG算法实现了对双臂空间机器人的单目标点的轨迹规划任务,参见Wu,Yun-Hua,et al.Reinforcement learningindual-arm trajectory planning for a free-floating space robot[J].AerospaceScience andTechnology,2020,98:105657。
然而对于目标的位姿获取仍然需要单独设计控制器实现,这样的基于模型且模块化的设计,存在一定的缺点。首先,有限的建模细节限制了模型的精度,建模误差和约束条件会降低控制效果。其次,模块化控制器的设计是非常费力的,需要手动调整每个模块的控制参数。因此对于自由漂浮空间机器人控制,采用端到端的无模型强化学习,即直接从原始的图像像素中学习控制器,可以很好的解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,以避免模块化的控制器设计。
发明内容
本发明的目的是提出一种空间机器人机械臂的控制方法,对已有的自由漂浮空间机器人控制方法进行改进,以实现空间机器人抓捕太空垃圾和失效卫星的目的。
本发明提出的空间机器人机械臂的控制方法,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对实用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂。
本发明提出的一种空间机器人机械臂的控制方法,其特点和优点是:
本发明的一种空间机器人机械臂的控制方法,采用端到端的无模型强化学习,即直接从原始的图像像素中学习控制器,可以很好的解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,避免了模块化的控制器设计。端到端的无模型强化学习可以很好的解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,避免了模块化的控制器设计过程中人工调整参数的问题。
附图说明
图1是本发明提出的空间机器人机械臂的控制方法的流程框图。
具体实施方式
本发明提出的空间机器人机械臂的控制方法,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对实用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂。
上述空间机器人的机械臂控制方法,其流程框图如图1所示,具体步骤如下:
(1)根据马尔可夫决策过程建模机械臂的控制,获取空间机器人基座相机采集的图像,并定义t时刻的图像为状态信息st,形式为W*H*3的矩阵,其中3个维度包括了RGB三色的通道,每个维度的图像包换W*H个像素,其中W为图像的宽度,H为图像的高度;将空间机器人关节的角速度at作为动作信息,其中t代表采样时刻;
(2)设定一个用于机械臂控制过程中的奖励函数rt(st,at),完成马尔可夫决策过程的建模;奖励函数rt(st,at)的表达式如下:
rt(st,at)=-[β1d2+ln(β2d2+∈d)+β3||at-at-1||2]
其中,pe为空间机器人机械臂的末端位置,pt为目空间机器人机械臂的标位置,d为欧式距离,d=||pe-pt||,β1=10-3,β2=1,β3=10-1,∈d=0.001,防止ln函数出现奇异,上标T为矩阵转置;在奖励函数中加入-ln(β2d2+∈d)是为了鼓励距离d越小,可以获得更高的奖励,以此提高精度。此外,当末端执行器到目标抓捕点的距离较远时,-β1d2对奖励影响更大,这时机械臂可以进行较大幅度的动作,奖励值的改变不太剧烈,有助于进行充分探索。而-β3||at-at-1||2是为了让控制曲线更为平滑而引入的惩罚项。最后一项
Figure BDA0003116855230000031
是为了尽可能降低机械臂输出的力矩,这样可以减少对基座的干扰。
(3)构建一个机械臂控制策略网络
Figure BDA0003116855230000032
其中
Figure BDA0003116855230000033
代表机械臂控制策略网络的参数,向机械臂控制策略网络
Figure BDA0003116855230000034
输入图像st,以得到动作信息角速度at,具体包括以下步骤:
(3-1)机械臂控制策略网络
Figure BDA0003116855230000035
的第一层为卷积神经网络,卷积神经网络的卷积核权重W1为一个Gw1*Lw1*Mw1矩阵,其中,Gw1为该卷积核的通道数,Lw1为该卷积核的宽度,Mw1为该卷积核的高度;
(3-2)机械臂控制策略网络
Figure BDA0003116855230000036
的第二层为批次归一化层,批次归一化层将上一层中得到的多层特征层分别做归一化处理,归一化参数的数量与特征层的层数线性正相关;
(3-3)机械臂控制策略网络
Figure BDA0003116855230000037
的第三层为最大值池化层,最大值池化层的滤波器P1为2*2的矩阵;
(3-4)机械臂控制策略网络
Figure BDA0003116855230000038
的第四层为卷积神经网络,卷积神经网络的卷积核权重W2为一个Gw2*Lw2*Mw2矩阵,其中,Gw2为该卷积核的通道数,Lw2为该卷积核的宽度,Mw2为该卷积核的高度;
(3-5)机械臂控制策略网络
Figure BDA0003116855230000039
的第五层为批次归一化层,批次归一化层将上一层中的到的多层特征层分别做归一化的处理,归一化参数的数量和特征层的层数线性正相关;
(3-6)机械臂控制策略网络
Figure BDA00031168552300000310
的第六层为最大值池化层,最大值池化层的滤波器P2为2*2的矩阵
(3-7)机械臂控制策略网络
Figure BDA00031168552300000311
的第七层为卷积神经网络,卷积神经网络的卷积核权重W3为一个Gw3*Lw3*Mw3矩阵,其中,Gw3为该卷积核的通道数,Lw3为该卷积核的宽度,Mw3为该卷积核的高度;
(3-8)机械臂控制策略网络
Figure BDA00031168552300000312
的第八层为批次归一化层,批次归一化层将上一层中的到的多层特征层分别做归一化的处理,归一化参数的数量和特征层的层数有关;
(3-9)机械臂控制策略网络
Figure BDA00031168552300000313
的第九层为最大值池化层,最大值池化层的滤波器P3为2*2的矩阵;
(3-10)机械臂控制策略网络
Figure BDA00031168552300000314
的第十层为全连接神经网络,输入的神经元个数为上一层输出的特征层展平后的特征数量F9,输出的神经元个数为F10,神经元权重为W10
(3-11)机械臂控制策略网络
Figure BDA0003116855230000044
的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10,输出的神经元个数为F11,神经元权重为W11
(3-12)机械臂控制策略网络
Figure BDA0003116855230000045
的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元个数为高斯分布的均值
Figure BDA0003116855230000041
和方差
Figure BDA0003116855230000042
神经元权重为W12
(3-13)根据步骤(3-1)~(3-12),得到机械臂控制策略网络
Figure BDA0003116855230000047
(3-14)向步骤(3-13)的机械臂控制策略网络
Figure BDA0003116855230000048
输入步骤(1)采集的RGB三通道图像st,机械臂控制策略网络
Figure BDA0003116855230000046
输出得到高斯分布的均值μt和方差∑t,均值μt和方差∑t组合成空间机器人关节的角速度at的概率分布
Figure BDA0003116855230000043
通过采样得到机械臂关节的角速度at
(4)根据马尔可夫决策过程原理,构建一个机械臂状态价值网络Vψ,其中ψ代表机械臂状态价值网络的参数,通过输入图像st得到状态价值vt,具体包含以下步骤:
(4-1)重复步骤(3-1)-步骤(3-11),构建机械臂状态价值网络Vψ的第一层到第十一层的网络结构;
(4-2)机械臂状态价值网络Vψ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态的价值函数vt,神经元权重为W12
(4-3)根据步骤(4-1)-步骤(4-2),得到机械臂状态价值网络Vψ
(5)根据马尔可夫决策过程原理,构建一个机械臂状态动作价值网络Qθ,其中θ代表机械臂状态动作价值网络的参数,向机械臂状态动作价值网络Qθ输入图像st和关节角速度at,得到状态动作价值qt的映射关系,具体包含以下步骤:
(5-1)重复步骤(3-1)-步骤(3-10),构建机械臂状态动作价值网络Qθ的第一层到第十层的网络结构;
(5-2)机械臂状态动作价值网络Qθ的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10和空间机器人的关节角速度at合并后的数量,输出的神经元个数为F11,神经元权重为W11
(5-3)机械臂状态动作价值网络Qθ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态动作价值函数qt,神经元权重为W12
(5-4)根据步骤(5-1)-步骤(5-3),得到机械臂状态动作价值网络Qθ
(6)向步骤(3)的机械臂控制策略网络
Figure BDA0003116855230000049
输入步骤(1)采样时刻t采集的图像st,输出为机械臂的关节角速度at,将该关节角速度at输出到一个比例微分控制器C中,比例微分控制器C输出得到关节扭矩,实现对机器人的控制;将采样时刻t采集的图像st和关节跟踪期望的关节角速度at输入到步骤(2)的奖励函数,得到奖励值rt,并且得到t+1时刻的图像st+1,得到t时刻的交互信息对Et=<st,at,rt,st+1>;
(7)遍历T时段内采集的所有图像st=1:T,重复上述步骤(6),得到多组交互信息对,多组交互信息对构成一个经验回放池D,分别向步骤(4)的机械臂状态价值网络Vψ和步骤(5)的机械臂状态动作价值网络Qθ输入不同采样时刻采集的图像st,得到状态价值vψ(st)和状态动作价值qt(st,at);
(8)根据最大熵强化学习,建立优化目标,使策略的累积奖励和熵最大化:
Figure BDA0003116855230000051
其中,
Figure BDA0003116855230000052
表示信息熵;最大化信息熵是为了提高算法的探索能力,使学习到的策略产生更大的随机性。学习的随机度α表示学习中策略的最大化程随机度。一般来说,通过引入策略的熵,并在最终实现较高的熵值,这会使得智能体能够更广泛地探索环境。
(9)根据策略迭代的原理,在最大熵强化学习框架下,通过策略评估和策略改进交替进行策略学习。采用最小化贝尔曼残差对机械臂状态动作价值网络Qθ的参数进行训练,得到机械臂状态动作价值网络Qθ在最优参数JQ(θ)的表达式:
Figure BDA0003116855230000053
(10)通过最小化平方损失值,对机械臂状态价值网络Vψ的参数训练,得到机械臂状态价值网络Vψ的最优参数JV(ψ)表达式:
Figure BDA0003116855230000054
(11)通过最小化期望的相对熵散度,对策略函数进行训练,得到策略函数优化参数
Figure BDA0003116855230000055
表达式:
Figure BDA0003116855230000056
(12)以步骤(9)~步骤(11)得到的训练目标,使用梯度下降法,训练步骤(3)~步骤(5)的机械臂控制策略网络
Figure BDA0003116855230000058
状态动作价值网络Qθ和状态价值网络Vψ,完成对网络的训练;
(13)实时采集搭载在空间机器人基座上的相机得到的图像st,将实时采集的图像st输入到步骤(12)的机械臂控制策略网络
Figure BDA0003116855230000057
输出得到采样时刻t下的机械臂关节角速度at,实现对空间机器人机械臂的控制,并实现在T时段内轨迹规划任务。

Claims (1)

1.一种空间机器人机械臂的控制方法,其特征在于,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对使用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂,
其中,所述控制方法的具体步骤如下:
(1)根据马尔可夫决策过程建模机械臂的控制,获取空间机器人基座相机采集的图像,并定义t时刻的图像为状态信息st,形式为W*H*3的矩阵,其中3个维度包括了RGB三色的通道,每个维度的图像包换W*H个像素,其中W为图像的宽度,H为图像的高度;将空间机器人关节的角速度at作为动作信息,t代表采样时刻;
(2)设定一个用于机械臂控制过程中的奖励函数rt(st,at),完成马尔可夫决策过程的建模;奖励函数rt(st,at)的表达式如下:
rt(st,at)=-[β1d2+ln(β2d2+∈d)+β3||at-at-1||2]
其中,pe为空间机器人机械臂的末端位置,pt为空间机器人机械臂的目标位置,d为欧式距离,d=||pe-pt||,β1=10-3,β2=1,β3=10-1,∈d的作用是防止ln函数出现奇异,∈d=0.001,上标T为矩阵转置;
(3)构建一个机械臂控制策略网络
Figure FDA0003840680110000011
其中
Figure FDA0003840680110000012
代表机械臂控制策略网络的参数,向机械臂控制策略网络
Figure FDA0003840680110000013
输入图像st,以得到动作信息角速度at,具体包括以下步骤:
(3-1)机械臂控制策略网络
Figure FDA0003840680110000014
的第一层为卷积神经网络,卷积神经网络的卷积核权重W1为一个Gw1*Lw1*Mw1矩阵,其中,Gw1为该卷积核的通道数,Lw1为该卷积核的宽度,Mw1为该卷积核的高度;
(3-2)机械臂控制策略网络
Figure FDA0003840680110000015
的第二层为批次归一化层,批次归一化层将上一层中得到的多层特征层分别做归一化处理,归一化参数的数量与特征层的层数线性正相关;
(3-3)机械臂控制策略网络
Figure FDA0003840680110000016
的第三层为最大值池化层,最大值池化层的滤波器P1为2*2的矩阵;
(3-4)机械臂控制策略网络
Figure FDA0003840680110000021
的第四层为卷积神经网络,卷积神经网络的卷积核权重W2为一个Gw2*Lw2*Mw2矩阵,其中,Gw2为该卷积核的通道数,Lw2为该卷积核的宽度,Mw2为该卷积核的高度;
(3-5)机械臂控制策略网络
Figure FDA0003840680110000022
的第五层为批次归一化层,批次归一化层将上一层中得到的多层特征层分别做归一化的处理,归一化参数的数量和特征层的层数线性正相关;
(3-6)机械臂控制策略网络
Figure FDA0003840680110000023
的第六层为最大值池化层,最大值池化层的滤波器P2为2*2的矩阵
(3-7)机械臂控制策略网络
Figure FDA0003840680110000024
的第七层为卷积神经网络,卷积神经网络的卷积核权重W3为一个Gw3*Lw3*Mw3矩阵,其中,Gw3为该卷积核的通道数,Lw3为该卷积核的宽度,Mw3为该卷积核的高度;
(3-8)机械臂控制策略网络
Figure FDA0003840680110000025
的第八层为批次归一化层,批次归一化层将上一层中的到的多层特征层分别做归一化的处理,归一化参数的数量和特征层的层数有关;
(3-9)机械臂控制策略网络
Figure FDA0003840680110000026
的第九层为最大值池化层,最大值池化层的滤波器P3为2*2的矩阵;
(3-10)机械臂控制策略网络
Figure FDA0003840680110000027
的第十层为全连接神经网络,输入的神经元个数为上一层输出的特征层展平后的特征数量F9,输出的神经元个数为F10,神经元权重为W10
(3-11)机械臂控制策略网络
Figure FDA0003840680110000028
的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10,输出的神经元个数为F11,神经元权重为W11
(3-12)机械臂控制策略网络
Figure FDA0003840680110000029
的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元个数为高斯分布的均值
Figure FDA00038406801100000210
和方差
Figure FDA00038406801100000211
神经元权重为W12
(3-13)根据步骤(3-1)~(3-12),得到机械臂控制策略网络
Figure FDA00038406801100000212
(3-14)向步骤(3-13)的机械臂控制策略网络
Figure FDA00038406801100000213
输入步骤(1)采集的RGB三通道图像st,机械臂控制策略网络
Figure FDA00038406801100000214
输出得到高斯分布的均值μt和方差∑t,均值μt和方差∑t组合成空间机器人关节的角速度at的概率分布
Figure FDA00038406801100000215
通过采样得到机械臂关节的角速度at
(4)根据马尔可夫决策过程原理,构建一个机械臂状态价值网络Vψ,其中ψ代表机械臂状态价值网络的参数,通过输入图像st得到状态价值vt,具体包含以下步骤:
(4-1)重复步骤(3-1)-步骤(3-11),构建机械臂状态价值网络Vψ的第一层到第十一层的网络结构;
(4-2)机械臂状态价值网络Vψ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态的价值函数vt,神经元权重为W12
(4-3)根据步骤(4-1)-步骤(4-2),得到机械臂状态价值网络Vψ
(5)根据马尔可夫决策过程原理,构建一个机械臂状态动作价值网络Qθ,其中θ代表机械臂状态动作价值网络的参数,向机械臂状态动作价值网络Qθ输入图像st和关节角速度at,得到状态动作价值qt的映射关系,具体包含以下步骤:
(5-1)重复步骤(3-1)-步骤(3-10),构建机械臂状态动作价值网络Qθ的第一层到第十层的网络结构;
(5-2)机械臂状态动作价值网络Qθ的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10和空间机器人的关节角速度at合并后的数量,输出的神经元个数为F11,神经元权重为W11
(5-3)机械臂状态动作价值网络Qθ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态动作价值函数qt,神经元权重为W12
(5-4)根据步骤(5-1)-步骤(5-3),得到机械臂状态动作价值网络Qθ
(6)向步骤(3)的机械臂控制策略网络
Figure FDA0003840680110000031
输入步骤(1)采样时刻t采集的图像st,输出为机械臂的关节角速度at,将该关节角速度at输出到一个比例微分控制器C中,比例微分控制器C输出得到关节扭矩,实现对机器人的控制;将采样时刻t采集的图像st和关节跟踪期望的关节角速度at输入到步骤(2)的奖励函数,得到奖励值rt,并且得到t+1时刻的图像st+1,得到t时刻的交互信息对Et=<st,at,rt,st+1>;
(7)遍历T时段内采集的所有图像st=1:T,重复上述步骤(6),得到多组交互信息对,多组交互信息对构成一个经验回放池D,分别向步骤(4)的机械臂状态价值网络Vψ和步骤(5)的机械臂状态动作价值网络Qθ输入不同采样时刻采集的图像st,得到状态价值vψ(st)和状态动作价值qt(st,at);
(8)根据最大熵强化学习,建立优化目标,使策略的累积奖励和熵最大化:
Figure FDA0003840680110000032
其中,
Figure FDA0003840680110000033
表示信息熵,α表示学习中策略的最大化随机程 度;
(9)采用最小化贝尔曼残差对机械臂状态动作价值网络Qθ的参数进行训练,得到机械臂状态动作价值网络Qθ在最优参数JQ(θ)的表达式:
Figure FDA0003840680110000034
(10)通过最小化平方损失值,对机械臂状态价值网络Vψ的参数训练,得到机械臂状态价值网络Vψ的最优参数JV(ψ)表达式:
Figure FDA0003840680110000035
(11)通过最小化期望的相对熵散度,对策略函数进行训练,得到策略函数优化参数
Figure FDA0003840680110000041
表达式:
Figure FDA0003840680110000042
其中,α表示学习中策略的最大化随机程 度;
(12)以步骤(9)~步骤(11)得到的训练目标,使用梯度下降法,训练步骤(3)~步骤(5)的机械臂控制策略网络
Figure FDA0003840680110000043
状态动作价值网络Qθ和状态价值网络Vψ,完成对网络的训练;
(13)实时采集搭载在空间机器人基座上的相机得到的图像st,将实时采集的图像st输入到步骤(12)的机械臂控制策略网络
Figure FDA0003840680110000044
输出得到采样时刻t下的机械臂关节角速度at,实现对空间机器人机械臂的控制,并实现在T时段内轨迹规划任务。
CN202110666012.8A 2021-06-16 2021-06-16 一种空间机器人机械臂的控制方法 Active CN113400307B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110666012.8A CN113400307B (zh) 2021-06-16 2021-06-16 一种空间机器人机械臂的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110666012.8A CN113400307B (zh) 2021-06-16 2021-06-16 一种空间机器人机械臂的控制方法

Publications (2)

Publication Number Publication Date
CN113400307A CN113400307A (zh) 2021-09-17
CN113400307B true CN113400307B (zh) 2022-10-18

Family

ID=77684241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110666012.8A Active CN113400307B (zh) 2021-06-16 2021-06-16 一种空间机器人机械臂的控制方法

Country Status (1)

Country Link
CN (1) CN113400307B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113838042B (zh) * 2021-09-30 2023-11-10 清华大学 双机械臂操作问答方法、装置、电子设备和存储介质
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统
CN114609918B (zh) * 2022-05-12 2022-08-02 齐鲁工业大学 一种四足机器人运动控制方法、系统、存储介质及设备
CN114939870B (zh) * 2022-05-30 2023-05-09 兰州大学 模型训练方法和装置、策略优化方法、设备及介质
CN116512254B (zh) * 2023-04-11 2024-01-23 中国人民解放军军事科学院国防科技创新研究院 基于方向的机械臂智能控制方法及系统、设备、存储介质
CN117379184A (zh) * 2023-10-26 2024-01-12 北京长木谷医疗科技股份有限公司 基于强化学习的关节手术机器人智能压配控制方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106737673B (zh) * 2016-12-23 2019-06-18 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN107832836B (zh) * 2017-11-27 2020-04-21 清华大学 无模型深度增强学习探索方法及装置
US20210325894A1 (en) * 2018-09-14 2021-10-21 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN111085997A (zh) * 2019-12-17 2020-05-01 清华大学深圳国际研究生院 基于点云获取和处理的抓取训练方法及系统
CN111300390B (zh) * 2020-03-20 2021-03-23 南栖仙策(南京)科技有限公司 基于蓄水池采样和双经验池的机械臂智能控制系统
CN111618847B (zh) * 2020-04-22 2022-06-21 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111291890B (zh) * 2020-05-13 2021-01-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN111881772B (zh) * 2020-07-06 2023-11-07 上海交通大学 基于深度强化学习的多机械臂协同装配方法和系统
CN111844034B (zh) * 2020-07-17 2022-03-04 北京控制工程研究所 基于深度强化学习的端到端在轨自主加注控制系统及方法

Also Published As

Publication number Publication date
CN113400307A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113400307B (zh) 一种空间机器人机械臂的控制方法
CN108280856B (zh) 基于混合信息输入网络模型的未知物体抓取位姿估计方法
Zhao et al. A tandem robotic arm inverse kinematic solution based on an improved particle swarm algorithm
CN111695562B (zh) 一种基于卷积神经网络的机器人自主抓取方法
CN108196453B (zh) 一种机械臂运动规划群体智能计算方法
CN111243017B (zh) 基于3d视觉的智能机器人抓取方法
CN110238840B (zh) 一种基于视觉的机械臂自主抓取方法
CN110900598A (zh) 机器人三维运动空间动作模仿学习方法和系统
CN114117926B (zh) 一种基于联邦学习的机器人协同控制算法
Köker A neuro-genetic approach to the inverse kinematics solution of robotic manipulators
Oliva et al. Graph neural networks for relational inductive bias in vision-based deep reinforcement learning of robot control
Tang et al. Deep transfer learning-based fault diagnosis of spacecraft attitude system
Kumar et al. An optimization approach to solve the inverse kinematics of redundant manipulator
CN113601499B (zh) 一种单关节锁定失效下的空间机械臂逆运动学方法
Ito et al. Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions
Zhang et al. Kinematic motion retargeting via neural latent optimization for learning sign language
Ficuciello et al. A brief survey on the role of dimensionality reduction in manipulation learning and control
TWI758828B (zh) 具有自我學習能力的智慧型驅動裝置
Wang et al. An end-to-end trajectory planning strategy for free-floating space robots
CN111241982A (zh) 一种基于cae-svm的机器人手势识别方法
CN113743287B (zh) 基于脉冲神经网络的机器人自适应抓取控制方法及系统
Hu et al. Learning From Demonstrations Via Multi-Level and Multi-Attention Domain-Adaptive Meta-Learning
CN115546050A (zh) 一种基于点云补全的陶瓷文物智能复原网络及复原方法
Aslan et al. End-to-end learning from demonstation for object manipulation of robotis-Op3 humanoid robot
CN114998573A (zh) 一种基于rgb-d特征深度融合的抓取位姿检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant