CN113400307B - 一种空间机器人机械臂的控制方法 - Google Patents
一种空间机器人机械臂的控制方法 Download PDFInfo
- Publication number
- CN113400307B CN113400307B CN202110666012.8A CN202110666012A CN113400307B CN 113400307 B CN113400307 B CN 113400307B CN 202110666012 A CN202110666012 A CN 202110666012A CN 113400307 B CN113400307 B CN 113400307B
- Authority
- CN
- China
- Prior art keywords
- network
- mechanical arm
- layer
- control strategy
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
- B25J9/1697—Vision controlled systems
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J17/00—Joints
- B25J17/02—Wrist joints
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J18/00—Arms
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
- Manipulator (AREA)
- Numerical Control (AREA)
Abstract
本发明属于航空航天技术领域,尤其涉及一种空间机器人机械臂的控制方法。本方法首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对实用梯度下降算法对各个网络参数进行训练,得到机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂。本方法解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,避免了模块化的控制器设计过程中人工调整参数的问题。
Description
技术领域
本发明属于航空航天技术领域,尤其涉及一种空间机器人机械臂的控制方法。
背景技术
对于空间机器人来说,轨迹规划是最为常见的执行任务,因而对其的研究十分广泛。空间机械臂的广义雅可比矩阵(GJM),可以在不影响机器人基本姿态的情况下实现机器人手臂的轨迹规划。然而,GJM在某些情况下可能存在奇异点,这将限制GJM逆方法进行运动学规划的可行空间。由于空间机器人在进行路径规划时,在路径中存在动态奇异点的位置,该位置处无法实现有限的关节速度,因此会造成规划路径的长度增大。所以传统的空间机器人轨迹规划方案主要解决的是求解中存在的奇异解问题。近些年来也有一些利用智能优化的方法来解决空间机器人动态奇异问题。如Wu等人是用DDPG算法实现了对双臂空间机器人的单目标点的轨迹规划任务,参见Wu,Yun-Hua,et al.Reinforcement learningindual-arm trajectory planning for a free-floating space robot[J].AerospaceScience andTechnology,2020,98:105657。
然而对于目标的位姿获取仍然需要单独设计控制器实现,这样的基于模型且模块化的设计,存在一定的缺点。首先,有限的建模细节限制了模型的精度,建模误差和约束条件会降低控制效果。其次,模块化控制器的设计是非常费力的,需要手动调整每个模块的控制参数。因此对于自由漂浮空间机器人控制,采用端到端的无模型强化学习,即直接从原始的图像像素中学习控制器,可以很好的解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,以避免模块化的控制器设计。
发明内容
本发明的目的是提出一种空间机器人机械臂的控制方法,对已有的自由漂浮空间机器人控制方法进行改进,以实现空间机器人抓捕太空垃圾和失效卫星的目的。
本发明提出的空间机器人机械臂的控制方法,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对实用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂。
本发明提出的一种空间机器人机械臂的控制方法,其特点和优点是:
本发明的一种空间机器人机械臂的控制方法,采用端到端的无模型强化学习,即直接从原始的图像像素中学习控制器,可以很好的解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,避免了模块化的控制器设计。端到端的无模型强化学习可以很好的解决传统方法中存在的奇异解及建模误差问题,并将感知与决策统一到一个方法,避免了模块化的控制器设计过程中人工调整参数的问题。
附图说明
图1是本发明提出的空间机器人机械臂的控制方法的流程框图。
具体实施方式
本发明提出的空间机器人机械臂的控制方法,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对实用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂。
上述空间机器人的机械臂控制方法,其流程框图如图1所示,具体步骤如下:
(1)根据马尔可夫决策过程建模机械臂的控制,获取空间机器人基座相机采集的图像,并定义t时刻的图像为状态信息st,形式为W*H*3的矩阵,其中3个维度包括了RGB三色的通道,每个维度的图像包换W*H个像素,其中W为图像的宽度,H为图像的高度;将空间机器人关节的角速度at作为动作信息,其中t代表采样时刻;
(2)设定一个用于机械臂控制过程中的奖励函数rt(st,at),完成马尔可夫决策过程的建模;奖励函数rt(st,at)的表达式如下:
rt(st,at)=-[β1d2+ln(β2d2+∈d)+β3||at-at-1||2]
其中,pe为空间机器人机械臂的末端位置,pt为目空间机器人机械臂的标位置,d为欧式距离,d=||pe-pt||,β1=10-3,β2=1,β3=10-1,∈d=0.001,防止ln函数出现奇异,上标T为矩阵转置;在奖励函数中加入-ln(β2d2+∈d)是为了鼓励距离d越小,可以获得更高的奖励,以此提高精度。此外,当末端执行器到目标抓捕点的距离较远时,-β1d2对奖励影响更大,这时机械臂可以进行较大幅度的动作,奖励值的改变不太剧烈,有助于进行充分探索。而-β3||at-at-1||2是为了让控制曲线更为平滑而引入的惩罚项。最后一项是为了尽可能降低机械臂输出的力矩,这样可以减少对基座的干扰。
(3-14)向步骤(3-13)的机械臂控制策略网络输入步骤(1)采集的RGB三通道图像st,机械臂控制策略网络输出得到高斯分布的均值μt和方差∑t,均值μt和方差∑t组合成空间机器人关节的角速度at的概率分布通过采样得到机械臂关节的角速度at;
(4)根据马尔可夫决策过程原理,构建一个机械臂状态价值网络Vψ,其中ψ代表机械臂状态价值网络的参数,通过输入图像st得到状态价值vt,具体包含以下步骤:
(4-1)重复步骤(3-1)-步骤(3-11),构建机械臂状态价值网络Vψ的第一层到第十一层的网络结构;
(4-2)机械臂状态价值网络Vψ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态的价值函数vt,神经元权重为W12;
(4-3)根据步骤(4-1)-步骤(4-2),得到机械臂状态价值网络Vψ;
(5)根据马尔可夫决策过程原理,构建一个机械臂状态动作价值网络Qθ,其中θ代表机械臂状态动作价值网络的参数,向机械臂状态动作价值网络Qθ输入图像st和关节角速度at,得到状态动作价值qt的映射关系,具体包含以下步骤:
(5-1)重复步骤(3-1)-步骤(3-10),构建机械臂状态动作价值网络Qθ的第一层到第十层的网络结构;
(5-2)机械臂状态动作价值网络Qθ的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10和空间机器人的关节角速度at合并后的数量,输出的神经元个数为F11,神经元权重为W11;
(5-3)机械臂状态动作价值网络Qθ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态动作价值函数qt,神经元权重为W12;
(5-4)根据步骤(5-1)-步骤(5-3),得到机械臂状态动作价值网络Qθ;
(6)向步骤(3)的机械臂控制策略网络输入步骤(1)采样时刻t采集的图像st,输出为机械臂的关节角速度at,将该关节角速度at输出到一个比例微分控制器C中,比例微分控制器C输出得到关节扭矩,实现对机器人的控制;将采样时刻t采集的图像st和关节跟踪期望的关节角速度at输入到步骤(2)的奖励函数,得到奖励值rt,并且得到t+1时刻的图像st+1,得到t时刻的交互信息对Et=<st,at,rt,st+1>;
(7)遍历T时段内采集的所有图像st=1:T,重复上述步骤(6),得到多组交互信息对,多组交互信息对构成一个经验回放池D,分别向步骤(4)的机械臂状态价值网络Vψ和步骤(5)的机械臂状态动作价值网络Qθ输入不同采样时刻采集的图像st,得到状态价值vψ(st)和状态动作价值qt(st,at);
(8)根据最大熵强化学习,建立优化目标,使策略的累积奖励和熵最大化:
其中,表示信息熵;最大化信息熵是为了提高算法的探索能力,使学习到的策略产生更大的随机性。学习的随机度α表示学习中策略的最大化程随机度。一般来说,通过引入策略的熵,并在最终实现较高的熵值,这会使得智能体能够更广泛地探索环境。
(9)根据策略迭代的原理,在最大熵强化学习框架下,通过策略评估和策略改进交替进行策略学习。采用最小化贝尔曼残差对机械臂状态动作价值网络Qθ的参数进行训练,得到机械臂状态动作价值网络Qθ在最优参数JQ(θ)的表达式:
(10)通过最小化平方损失值,对机械臂状态价值网络Vψ的参数训练,得到机械臂状态价值网络Vψ的最优参数JV(ψ)表达式:
Claims (1)
1.一种空间机器人机械臂的控制方法,其特征在于,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对使用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂,
其中,所述控制方法的具体步骤如下:
(1)根据马尔可夫决策过程建模机械臂的控制,获取空间机器人基座相机采集的图像,并定义t时刻的图像为状态信息st,形式为W*H*3的矩阵,其中3个维度包括了RGB三色的通道,每个维度的图像包换W*H个像素,其中W为图像的宽度,H为图像的高度;将空间机器人关节的角速度at作为动作信息,t代表采样时刻;
(2)设定一个用于机械臂控制过程中的奖励函数rt(st,at),完成马尔可夫决策过程的建模;奖励函数rt(st,at)的表达式如下:
rt(st,at)=-[β1d2+ln(β2d2+∈d)+β3||at-at-1||2]
其中,pe为空间机器人机械臂的末端位置,pt为空间机器人机械臂的目标位置,d为欧式距离,d=||pe-pt||,β1=10-3,β2=1,β3=10-1,∈d的作用是防止ln函数出现奇异,∈d=0.001,上标T为矩阵转置;
(3-14)向步骤(3-13)的机械臂控制策略网络输入步骤(1)采集的RGB三通道图像st,机械臂控制策略网络输出得到高斯分布的均值μt和方差∑t,均值μt和方差∑t组合成空间机器人关节的角速度at的概率分布通过采样得到机械臂关节的角速度at;
(4)根据马尔可夫决策过程原理,构建一个机械臂状态价值网络Vψ,其中ψ代表机械臂状态价值网络的参数,通过输入图像st得到状态价值vt,具体包含以下步骤:
(4-1)重复步骤(3-1)-步骤(3-11),构建机械臂状态价值网络Vψ的第一层到第十一层的网络结构;
(4-2)机械臂状态价值网络Vψ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态的价值函数vt,神经元权重为W12;
(4-3)根据步骤(4-1)-步骤(4-2),得到机械臂状态价值网络Vψ;
(5)根据马尔可夫决策过程原理,构建一个机械臂状态动作价值网络Qθ,其中θ代表机械臂状态动作价值网络的参数,向机械臂状态动作价值网络Qθ输入图像st和关节角速度at,得到状态动作价值qt的映射关系,具体包含以下步骤:
(5-1)重复步骤(3-1)-步骤(3-10),构建机械臂状态动作价值网络Qθ的第一层到第十层的网络结构;
(5-2)机械臂状态动作价值网络Qθ的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10和空间机器人的关节角速度at合并后的数量,输出的神经元个数为F11,神经元权重为W11;
(5-3)机械臂状态动作价值网络Qθ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态动作价值函数qt,神经元权重为W12;
(5-4)根据步骤(5-1)-步骤(5-3),得到机械臂状态动作价值网络Qθ;
(6)向步骤(3)的机械臂控制策略网络输入步骤(1)采样时刻t采集的图像st,输出为机械臂的关节角速度at,将该关节角速度at输出到一个比例微分控制器C中,比例微分控制器C输出得到关节扭矩,实现对机器人的控制;将采样时刻t采集的图像st和关节跟踪期望的关节角速度at输入到步骤(2)的奖励函数,得到奖励值rt,并且得到t+1时刻的图像st+1,得到t时刻的交互信息对Et=<st,at,rt,st+1>;
(7)遍历T时段内采集的所有图像st=1:T,重复上述步骤(6),得到多组交互信息对,多组交互信息对构成一个经验回放池D,分别向步骤(4)的机械臂状态价值网络Vψ和步骤(5)的机械臂状态动作价值网络Qθ输入不同采样时刻采集的图像st,得到状态价值vψ(st)和状态动作价值qt(st,at);
(8)根据最大熵强化学习,建立优化目标,使策略的累积奖励和熵最大化:
(9)采用最小化贝尔曼残差对机械臂状态动作价值网络Qθ的参数进行训练,得到机械臂状态动作价值网络Qθ在最优参数JQ(θ)的表达式:
(10)通过最小化平方损失值,对机械臂状态价值网络Vψ的参数训练,得到机械臂状态价值网络Vψ的最优参数JV(ψ)表达式:
其中,α表示学习中策略的最大化随机程 度;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110666012.8A CN113400307B (zh) | 2021-06-16 | 2021-06-16 | 一种空间机器人机械臂的控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110666012.8A CN113400307B (zh) | 2021-06-16 | 2021-06-16 | 一种空间机器人机械臂的控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113400307A CN113400307A (zh) | 2021-09-17 |
CN113400307B true CN113400307B (zh) | 2022-10-18 |
Family
ID=77684241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110666012.8A Active CN113400307B (zh) | 2021-06-16 | 2021-06-16 | 一种空间机器人机械臂的控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113400307B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113838042B (zh) * | 2021-09-30 | 2023-11-10 | 清华大学 | 双机械臂操作问答方法、装置、电子设备和存储介质 |
CN114454160B (zh) * | 2021-12-31 | 2024-04-16 | 中国人民解放军国防科技大学 | 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及系统 |
CN114609918B (zh) * | 2022-05-12 | 2022-08-02 | 齐鲁工业大学 | 一种四足机器人运动控制方法、系统、存储介质及设备 |
CN114939870B (zh) * | 2022-05-30 | 2023-05-09 | 兰州大学 | 模型训练方法和装置、策略优化方法、设备及介质 |
CN116512254B (zh) * | 2023-04-11 | 2024-01-23 | 中国人民解放军军事科学院国防科技创新研究院 | 基于方向的机械臂智能控制方法及系统、设备、存储介质 |
CN117379184A (zh) * | 2023-10-26 | 2024-01-12 | 北京长木谷医疗科技股份有限公司 | 基于强化学习的关节手术机器人智能压配控制方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106737673B (zh) * | 2016-12-23 | 2019-06-18 | 浙江大学 | 一种基于深度学习的端到端的机械臂控制的方法 |
CN107832836B (zh) * | 2017-11-27 | 2020-04-21 | 清华大学 | 无模型深度增强学习探索方法及装置 |
US20210325894A1 (en) * | 2018-09-14 | 2021-10-21 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
CN111085997A (zh) * | 2019-12-17 | 2020-05-01 | 清华大学深圳国际研究生院 | 基于点云获取和处理的抓取训练方法及系统 |
CN111300390B (zh) * | 2020-03-20 | 2021-03-23 | 南栖仙策(南京)科技有限公司 | 基于蓄水池采样和双经验池的机械臂智能控制系统 |
CN111618847B (zh) * | 2020-04-22 | 2022-06-21 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN111291890B (zh) * | 2020-05-13 | 2021-01-01 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
CN111881772B (zh) * | 2020-07-06 | 2023-11-07 | 上海交通大学 | 基于深度强化学习的多机械臂协同装配方法和系统 |
CN111844034B (zh) * | 2020-07-17 | 2022-03-04 | 北京控制工程研究所 | 基于深度强化学习的端到端在轨自主加注控制系统及方法 |
-
2021
- 2021-06-16 CN CN202110666012.8A patent/CN113400307B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113400307A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113400307B (zh) | 一种空间机器人机械臂的控制方法 | |
CN108280856B (zh) | 基于混合信息输入网络模型的未知物体抓取位姿估计方法 | |
Zhao et al. | A tandem robotic arm inverse kinematic solution based on an improved particle swarm algorithm | |
CN111695562B (zh) | 一种基于卷积神经网络的机器人自主抓取方法 | |
CN108196453B (zh) | 一种机械臂运动规划群体智能计算方法 | |
CN111243017B (zh) | 基于3d视觉的智能机器人抓取方法 | |
CN110238840B (zh) | 一种基于视觉的机械臂自主抓取方法 | |
CN110900598A (zh) | 机器人三维运动空间动作模仿学习方法和系统 | |
CN114117926B (zh) | 一种基于联邦学习的机器人协同控制算法 | |
Köker | A neuro-genetic approach to the inverse kinematics solution of robotic manipulators | |
Oliva et al. | Graph neural networks for relational inductive bias in vision-based deep reinforcement learning of robot control | |
Tang et al. | Deep transfer learning-based fault diagnosis of spacecraft attitude system | |
Kumar et al. | An optimization approach to solve the inverse kinematics of redundant manipulator | |
CN113601499B (zh) | 一种单关节锁定失效下的空间机械臂逆运动学方法 | |
Ito et al. | Integrated learning of robot motion and sentences: Real-time prediction of grasping motion and attention based on language instructions | |
Zhang et al. | Kinematic motion retargeting via neural latent optimization for learning sign language | |
Ficuciello et al. | A brief survey on the role of dimensionality reduction in manipulation learning and control | |
TWI758828B (zh) | 具有自我學習能力的智慧型驅動裝置 | |
Wang et al. | An end-to-end trajectory planning strategy for free-floating space robots | |
CN111241982A (zh) | 一种基于cae-svm的机器人手势识别方法 | |
CN113743287B (zh) | 基于脉冲神经网络的机器人自适应抓取控制方法及系统 | |
Hu et al. | Learning From Demonstrations Via Multi-Level and Multi-Attention Domain-Adaptive Meta-Learning | |
CN115546050A (zh) | 一种基于点云补全的陶瓷文物智能复原网络及复原方法 | |
Aslan et al. | End-to-end learning from demonstation for object manipulation of robotis-Op3 humanoid robot | |
CN114998573A (zh) | 一种基于rgb-d特征深度融合的抓取位姿检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |