CN114851193B - 一种空间机械臂与未知环境接触过程的智能柔顺操控方法 - Google Patents

一种空间机械臂与未知环境接触过程的智能柔顺操控方法 Download PDF

Info

Publication number
CN114851193B
CN114851193B CN202210443677.7A CN202210443677A CN114851193B CN 114851193 B CN114851193 B CN 114851193B CN 202210443677 A CN202210443677 A CN 202210443677A CN 114851193 B CN114851193 B CN 114851193B
Authority
CN
China
Prior art keywords
model
matrix
steps
control
method comprises
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210443677.7A
Other languages
English (en)
Other versions
CN114851193A (zh
Inventor
胡庆雷
吴晗
邵小东
郑建英
郭雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202210443677.7A priority Critical patent/CN114851193B/zh
Publication of CN114851193A publication Critical patent/CN114851193A/zh
Application granted granted Critical
Publication of CN114851193B publication Critical patent/CN114851193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/1607Calculation of inertia, jacobian matrixes and inverses
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Automation & Control Theory (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种空间机械臂与未知环境接触过程的智能柔顺操控方法,首先,利用凯恩方程和多体动力学理论建立空间机械臂系统的动力学模型,对机械臂末端与目标的环境接触模型进行数学表征;其次,将接触模型简化为最优跟踪模型,设计性能函数和基于部分模型信息及状态反馈的积分强化学习算法;然后,将状态观测器与积分强化学习算法融合,提出基于输入输出数据的无模型最优控制方法;最后针对简化前的接触模型,将提出的算法进行修正,应用于空间机械臂抓捕未知目标的最优阻抗控制。本发明能够通过自主学习实现部分状态可测情况下的无模型最优控制,可用于空间机械臂抓捕非合作目标的安全柔顺接触控制。

Description

一种空间机械臂与未知环境接触过程的智能柔顺操控方法
技术领域
本发明属于空间机器人智能控制领域,具体涉及一种空间机械臂与未知环境接触过程的智能柔顺操控方法。
背景技术
空间机械臂在现代空间任务中发挥着越来越重要的作用,如空间碎片清理、在轨组装与维护、非合作航天器抓捕与破坏等。空间机械臂抓捕目标通常可分为抓捕前、抓捕中、抓捕后三个阶段,本发明考虑抓捕中阶段,若机械臂末端位置存在控制误差或待抓捕/接触目标的位置存在测量误差,则末端工具与目标表面的接触就会产生接触力,其大小与接触刚度和形变量成正比,一旦接触力过大就会损坏所抓取的物体甚至破坏空间机械臂系统,因此亟需对末端接触过程施加安全控制。
阻抗控制(也称导纳控制)是一种控制末端接触过程的柔顺算法,1985年由Hogan首次提出,其将末端工具的位姿与接触力/力矩之间的关系视为一个弹簧-质量-阻尼系统,可通过测量接触力对末端位姿进行实时修正,在现代机械臂柔顺控制中被广泛应用。传统阻抗控制中,力与位置之间是一对相互矛盾的指标,且阻抗参数通常固定或需要已知环境参数,在解决这些问题的方案中,自适应控制无法实现力与位置的最优权衡(CN202011169349.X,CN202010087388.9),迭代学习控制方法需要重复训练(Y.Li andS.S.Ge,"Impedance Learning for Robots Interacting With Unknown Environments,"in IEEE Transactions on Control Systems Technology,vol.22,no.4,pp.1422-1432,2014),基于模型辨识的方法则增加了算法的复杂性(CN202010226048.X)。考虑到强化学习在处理最优控制与无模型控制方面具有较大的优势,本发明将自适应/近似动态规划算法应用到最优阻抗控制问题求解中。积分强化学习作为一种处理连续系统最优控制问题的自适应/近似动态规划算法,在诸多领域得到了应用。但是目前积分强化学习算法在处理状态不完全可测、模型完全未知问题时存在依赖初始稳定控制策略、状态重构受噪声影响大等问题(H.Modares,F.L.Lewis and Z.-P.Jiang,"Optimal Output-Feedback Control ofUnknown Continuous-Time Linear Systems Using Off-policy ReinforcementLearning,"in IEEE Transactions on Cybernetics,vol.46,no.11,pp.2401-2410,2016.),因此提出一种基于测量数据的无模型值迭代积分强化学习算法,并成功应用于空间机械臂阻抗控制中,能够有效保证机械臂操纵的成功率,增强机械臂系统的可靠性。
发明内容
针对现有机械臂阻抗控制算法中无法实现接触力与位置的最优控制、阻抗参数固定或需要已知环境参数、需要重复训练等问题,本发明提供一种空间机械臂与未知环境接触过程的智能柔顺操控方法,其基于状态观测器的连续系统积分强化学习算法,具有自主学习、不依赖模型和全状态测量信息等优点,可应用于空间机械臂最优阻抗控制。
为达到上述目的,本发明采用的技术方案为:
针对空间机械臂抓捕非合作目标接触过程的控制问题,首先,根据将空间机械臂视为一类多体系统,利用凯恩方程建立一套通用动力学模型,并对接触过程中未知的环境模型进行数学表征;其次,基于简化的数学模型设计依赖全状态反馈和部分模型信息的积分强化学习算法;然后,设计状态重构算法,与积分强化学习算法融合得到基于测量数据的无模型积分强化学习算法;最后,对算法进行修正,扩展并应用至空间机械臂最优阻抗控制中,完成环境接触模型未知和状态不完全可测情况下的安全智能柔顺控制。具体实施步骤如下:
(1)根据凯恩方程与多体动力学理论,建立空间机械臂系统的通用动力学模型,并对环境接触模型进行数学表征;
利用凯恩方程进行多体动力学建模的一般形式可以写为:
其中和/>分别表示系统第k阶广义主动力和广义惯性力,n是系统所有广义速率写成分量列阵形式,分量列阵的个数。选取空间机械臂系统的广义速率为:
其中,和/>分别表示基座的速度和角速度在基座本体坐标系中的分量,/>表示第i个机械臂关节的角速度。通过凯恩方程进行规范化推导,可以得到空间机械臂系统的动力学模型为:
其中为υ的导数,Η为系统全局质量阵,Fnon为系统全局非线性项,FA表示广义主动力为:
其中F0是基座受到的推力在基座本体坐标系中的分量列阵,rb是F0作用点在基座本体坐标系中的矢径,T0是基座受到的力矩在基座本体坐标系中的分量列阵,Ti是第i个电机转子的驱动力矩,0矩阵具有其对应的广义速率相容的维数;下标“i-1”和“2m-i”分别表示有i-1和2m-i个0矩阵,上标“T”表示矩阵的转置;对于任意三维列向量χ=[χ1 χ2 χ3]T,上标“~”的定义为其中标量χ1、χ2、χ3为向量χ中的元素。
对于目标位置固定的抓捕任务中,空间机械臂末端与环境的接触力Fe的数学模型可表征为:
式中,Ge表示环境模型的刚度系数,Ce为阻尼系数,Me为质量系数,x表示机械臂末端位置在惯性系中的分量,分别表示x的一阶导数和二阶导数,xe表示目标位置在惯性系中的分量。
阻抗控制模型的表达式为:
式中,Md、Cd、Gd分别表示阻抗模型的期望惯量、阻尼、刚度参数,xd表示机械臂末端的期望位置。
将环境模型与阻抗模型相加,得到:
其中,Me1定义为Me1=Md+Me,Ce1定义为Ce1=Cd+Ce,f=Gd(x-xd)为控制输入。
取状态变量控制输入取u=f,则可以得到阻抗控制模型的线性状态方程形式:
其中表示X的导数,re=xe表示环境位置输入,
C=[0Ι]。
(2)忽略环境位置信息,将接触模型简化为一般的最优跟踪模型,设计最优性能函数与基于状态反馈及模型信息的积分强化学习算法;
首先忽略环境位置re的影响,针对一般的线性系统:
参考轨迹通过以下轨迹生成器产生:
其中是参考轨迹r的一阶导数,F是常值矩阵,用于生成轨迹。
取性能函数为:
其中Q0≥0和R>0分别为相应的对称权重矩阵,γ为折扣因子,τ表示积分变量,t表示当前时间。
然后构造增广系统的状态为得到增广系统为:
从而性能函数可改写为:
其中I表示与C维数一致的三维矩阵。
从而得到的基于状态反馈的值迭代积分强化学习算法为:
a)初始化:给定任意初始控制策略u0
b)策略评估:对当前时刻i的控制策略ui,利用以下Bellman方程求解i+1时刻的正定对称矩阵Pi+1
其中Pi表示i时刻的正定对称矩阵,Δt表示系统采样周期;
c)策略改进:更新控制策略;
d)收敛条件:如果满足||Pi+1-Pi||≤ε则停止迭代,否则设置i=i+1并转到策略评估步骤。
(3)设计状态重构观测器,与积分强化学习算法结合,利用输入输出数据实现系统的无模型最优阻抗控制;
增广系统的状态可以通过输入输出数据重构,表达式为:
其中为可观测的历史数据,由t-Δt时刻到t-NΔt时刻的输入数据集/>和输出数据集/>以及t-NΔt时刻的期望轨迹r(t-NΔt)组成,M为重构矩阵,表示为:
其中UN、VN、ΦN均表示参数矩阵,表示ΦN的伪逆,
将重构状态表达式代入基于状态反馈的值迭代积分强化学习算法,并定义为正定对称矩阵,其中p0、pu、py、pr均为矩阵中的元素,“*”表示与控制无关的矩阵元素。则可得到基于输入输出数据的无模型值迭代积分强化学习算法:
a)初始化:任意初始控制策略根据i时刻的Pi *给出;
b)策略评估:对于当前的控制策略ui,利用接下来的Bellman方程求解矩阵P*在i+1时刻的值
其中,Pi *表示i时刻的矩阵P*
c)策略改进:更新控制策略;
其中分别为i+1时刻p0、pu、py、pr的值;
d)收敛条件:如果满足则停止迭代,否则设置i=i+1并转到策略评估步骤。
(4)根据简化前的数学模型,将提出的积分强化学习算法进行修正,将算法应用于空间机械臂智能柔顺操控;
上一步中算法是针对系统Π2和Π3提出的,没有考虑目标位置的影响,为使算法在空间机械臂阻抗控制中的应用具有通用性,需要针对系统Π1对算法进行改进。首先修正的状态重构表达式为:
其中为可观测的历史数据,相对于上一步中的/>增加了re,由于本发明研究的阻抗控制问题中,环境位置re和期望位置r均为常值,因此在实现过程中取任意时刻均可;M′为修正的重构矩阵,表示为:
其中VN、ΦN、/>的定义均与上一步相同。
重新定义则修正后的控制策略为:
其中分别为i+1时刻p0、pu、py、pr1、pr2的值。本发明与现有技术相比的优点在于:本发明通过将状态重构算法与积分强化学习相结合提出一种基于输入输出数据的无模型值迭代积分强化学习算法,能够解决机械臂与未知环境接触过程的最优阻抗控制问题。本发明不依赖模型信息、能够充分利用输入输出的历史数据,克服了现有算法中状态重构精度低、依赖初始稳定控制策略等问题,可应用于空间机械臂智能柔顺控制。本发明在接触环境模型未知情况下,能够通过自主学习实现机械臂末端工具与非合作目标的安全柔顺接触。
附图说明
图1为本发明的空间机械臂与未知环境接触过程的智能柔顺操控方法流程框图;
图2为本发明的空间机械臂系统结构图;
图3为本发明的空间机械臂末端与目标接触的环境模型;
图4为本发明的空间机械臂末端抓捕目标产生的接触力仿真曲线;
图5为本发明的空间机械臂末端位置的仿真曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明具体实现步骤如下:
第一步,针对图2所示的空间机械臂系统,根据凯恩方程与多体动力学理论,建立空间机械臂系统的通用动力学模型,并对环境接触模型进行数学表征:
利用凯恩方程进行多体动力学建模的一般形式可以写为:
其中和/>分别表示系统第k阶广义主动力和广义惯性力,n是系统所有广义速率写成分量列阵形式,分量列阵的个数。
选取空间机械臂系统的广义速率为:
其中,和/>分别表示基座的速度和角速度在基座本体坐标系中的分量,/>表示第i个机械臂关节的角速度。通过凯恩方程进行规范化推导,可以得到空间机械臂系统的动力学模型为:
其中为υ的导数,H为系统全局质量阵,Fnon为系统全局非线性项,FA表示广义主动力为:
其中F0是基座受到的推力在基座本体坐标系中的分量列阵,rb是F0作用点在基座本体坐标系中的矢径,T0是基座受到的力矩在基座本体坐标系中的分量列阵,Ti是第i个电机转子的驱动力矩,0矩阵具有其对应的广义速率相容的维数;下标“i-1”和“2m-i”分别表示有i-1和2m-i个0矩阵,上标“T”表示矩阵的转置;对于任意三维列向量χ=[χ1χ2χ3]T,上标“~”的定义为其中标量χ1、χ2、χ3为向量χ中的元素。
在实施过程中,采用空间六自由度机械臂系统作为空间机械臂系统进行仿真实验,系统参数如下所示:
其中,“#”处基体的长度实际上应该是臂杆1与基体的连接点在基体中的位置矢量,为[-10.88,-2.45,0.93]Tm。
对于目标位置固定的抓捕任务中,空间机械臂末端与环境的接触过程如图3所示,接触力Fe的数学模型可表征为:
为说明算法有效性,假设y、z方向不存在接触力,仅研究x方向的柔顺控制问题。式中,环境模型的刚度系数取Ge=100N/m,阻尼系数Ce=10Ns/m,质量系数Me=1kg,xe表示目标位置在惯性系中的分量,x表示机械臂末端位置在惯性系中的分量,分别表示x的一阶导数和二阶导数。
阻抗控制模型的表达式为:
式中,Md、Cd、Gd分别表示阻抗模型的期望惯量、阻尼、刚度参数,xd表示机械臂末端的期望位置。末端接触力与平衡位置仅与Gd相关,因此取Md=1kg,Cd=100Ns/m,Gd通过自主学习确定。
将环境模型与阻抗模型相加,得到:
其中,Me1定义为Me1=Md+Me,Ce1定义为Ce1=Cd+Ce,f=Gd(x-xd)为控制输入。
取状态变量输入变量u=f,则可以得到阻抗控制模型的线性状态方程形式:
其中表示X的导数,re=xe表示环境位置输入,因此:
C=[0 1]。
第二步,忽略环境位置信息,将接触模型简化为一般的最优跟踪模型,设计最优性能函数与基于状态反馈及模型信息的积分强化学习算法:
首先忽略环境位置re的影响,针对一般的线性系统:
参考轨迹通过以下轨迹生成器产生:
其中是参考轨迹r的一阶导数,常值矩阵F=0,轨迹为常值r=xd
取性能函数为:
其中取权重矩阵Q0=50000和R=0.001,折扣因子γ=500,τ表示积分变量,t表示当前时间。
然后构造增广系统的状态为得到增广系统为:
从而性能函数可改写为:
其中I表示与C维数一致的三维矩阵。
从而得到的基于状态反馈的值迭代积分强化学习算法为:
a)初始化:给定任意初始控制策略u0
b)策略评估:对当前时刻i的控制策略ui,利用以下Bellman方程求解i+1时刻的正定对称矩阵Pi+1
其中Pi表示i时刻的正定对称矩阵,Δt表示系统采样周期;
c)策略改进:更新控制策略:
d)收敛条件:如果满足||Pi+1-Pi||≤ε则停止迭代,否则设置i=i+1并转到策略评估步骤。
第三步,设计状态重构观测器,与积分强化学习算法结合,利用输入输出数据实现系统的无模型最优阻抗控制:
增广系统的状态可以通过输入输出数据重构,表达式为:
其中为可观测的历史数据,由t-Δt时刻到t-NΔt时刻的输入数据集/>和输出数据集/>以及t-NΔt时刻的期望轨迹r(t-NΔt)组成,M为重构矩阵,表示为:
其中UN、VN、ΦN均表示参数矩阵,表示ΦN的伪逆,
将重构状态表达式代入基于状态反馈的值迭代积分强化学习算法,并定义为正定对称矩阵,其中p0、pu、py、pr均为矩阵中的元素,“*”表示与控制无关的矩阵元素。则可得到基于输入输出数据的无模型值迭代积分强化学习算法:
a)初始化:任意初始控制策略根由初始时刻的给出;
b)策略评估:对于当前的控制策略ui,利用接下来的Bellman方程求解矩阵P*在i+1时刻的值
其中,Pi *表示i时刻的矩阵P*
c)策略改进:更新控制策略;
其中分别为i+1时刻p0、pu、py、pr的值;
d)收敛条件:如果满足则停止迭代,否则设置i=i+1并转到策略评估步骤。
第四步,根据简化前的数学模型,将第三步中提出的算法进行修正,将算法应用于空间机械臂智能柔顺操控:
第三步中算法是针对系统Π2和Π3提出的,没有考虑目标位置的影响,为使算法在空间机械臂阻抗控制中的应用具有通用性,需要针对系统Π1对算法进行改进。首先修正的状态重构表达式为:
其中为可观测的历史数据,相对于第三步中的/>增加了re,由于本发明研究的阻抗控制问题中,环境位置re和期望位置r均为常值,因此在实现过程中取任意时刻均可;M′为修正的重构矩阵,表示为:
其中VN、ΦN、/>的定义均与第三步定义相同。
重新定义则修正后的控制策略为:
其中分别为i+1时刻p0、pu、py、pr1、pr2的值。
仿真步长/采样周期设置为Δt=2ms,用于恢复状态信息的采样数据点数量N=2,为了满足满秩条件,搜集数据用的初始控制策略需设置探索噪声,本发明取为其中randn表示-1~1之间的随机数,用于训练的环境末端位置为re=0.3m,机械臂末端期望位置为r=0.4m,末端初始位置为x0=0.31m。
利用含噪声的控制策略,搜集控制数据与机械臂末端位置的测量数据,作为学习最优阻抗控制策略的数据集;然后利用第四步修正后的算法,通过记录的输入输出数据进行迭代得到最优策略对应的矩阵P′*,其中基于状态反馈得到的最优策略对应的矩阵记为P,二者之间的转换关系为P′*=M′TPM′。
矩阵P的理论值可利用线性二次型调节器设计,即LQR方法,得到:
利用基于输入输出数据的无模型强化学习算法得到最优阻抗控制策略对应的矩阵P为:
可以看出,所提出算法求解得到的矩阵P与理论值一致。因此,该算法不仅能够有效收敛到最优控制策略,且具有较高的收敛精度。值得指出,实际应用中求解得到的是矩阵P′*,而P不可以直接求解,以上结果仅用于对算法精度进行说明。
最后,将环境位置设置为7.7m,期望位置设置为8.1m,对以上学习得到的最优阻抗控制策略P′*应用于空间机械臂柔顺控制仿真。本发明提出的基于输入输出数据的无模型积分强化学习算法简称为ADP方法,将其仿真得到的环境接触力与末端位置运动曲线与LQR方法对比,如图4和图5所示。可以看出LQR方法与ADP方法得到的环境接触力曲线与末端位置曲线基本重合;机械臂末端运动0.15s左右均达到环境位置,开始产生接触力,经过4s左右,末端位置与环境接触力达到最优的平衡状态,最优接触力分别为17.61N与17.22N,最优位置分别为7.8761m与7.8722m,最优接触力误差为2.21%,最优位置误差为0.05%。考虑到ADP算法计算的阻抗控制策略是在无模型和状态信息不完全可测情况下得到的,误差范围合理,验证了本发明的合理性和有效性。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种空间机械臂与未知环境接触过程的智能柔顺操控方法,其特征在于,包括以下步骤:
第一步,根据凯恩方程与多体动力学理论,建立空间机械臂系统的通用动力学模型,并对环境接触模型进行数学表征,包括:
利用凯恩方程进行多体动力学建模的一般形式可以写为:
其中和/>分别表示系统第k阶广义主动力和广义惯性力,n是系统所有广义速率写成分量列阵形式,分量列阵的个数,选取空间机械臂系统的广义速率为:
其中,和/>分别表示基座的速度和角速度在基座本体坐标系中的分量,/>表示第i个机械臂关节的角速度;通过凯恩方程进行规范化推导,可以得到空间机械臂系统的动力学模型为:
其中为υ的导数,Η为系统全局质量阵,Fnon为系统全局非线性项,FA表示广义主动力为:
其中F0是基座受到的推力在基座本体坐标系中的分量列阵,rb是F0作用点在基座本体坐标系中的矢径,T0是基座受到的力矩在基座本体坐标系中的分量列阵,Ti是第i个电机转子的驱动力矩,0矩阵具有其对应的广义速率相容的维数;下标“i-1”和“2m-i”分别表示有i-1和2m-i个0矩阵,上标“T”表示矩阵的转置;定义三维列向量rb=[rb1 rb2 rb3]T,则定义为/>其中标量rb1、rb2、rb3为向量rb中的元素;
对于目标位置固定的抓捕任务中,空间机械臂末端与环境的接触力Fe的数学模型可表征为:
式中,Ge表示环境模型的刚度系数,Ce为阻尼系数,Me为质量系数,x表示机械臂末端位置在惯性系中的分量,分别表示x的一阶导数和二阶导数,xe表示目标位置在惯性系中的分量;
阻抗控制模型的表达式为:
式中,Md、Cd、Gd分别表示阻抗模型的期望惯量、阻尼、刚度参数,xd表示机械臂末端的期望位置;
将环境模型与阻抗模型相加,得到:
其中,Me1定义为Me1=Md+Me,Ce1定义为Ce1=Cd+Ce,f=Gd(x-xd)为控制输入;
取状态变量控制输入取u=f,则可以得到阻抗控制模型的线性状态方程形式:
其中表示X的导数,re=xe表示环境位置输入,
C=[0 Ι];
第二步,忽略环境位置信息,将环境接触模型简化为一般的最优跟踪模型,设计最优性能函数与基于状态反馈及模型信息的积分强化学习算法,包括:
首先忽略环境位置re的影响,针对一般的线性系统:
参考轨迹通过以下轨迹生成器产生:
其中是参考轨迹r的一阶导数,F是常值矩阵,用于生成轨迹;
取性能函数为:
其中Q0≥0和R>0分别为相应的对称权重矩阵,γ为折扣因子,τ表示积分变量,t表示当前时间;
然后构造增广系统的状态为得到增广系统为:
从而性能函数可改写为:
其中I表示与C维数一致的三维矩阵,
从而得到的基于状态反馈的值迭代积分强化学习算法为:
a)初始化:给定任意初始控制策略u0
b)策略评估:对当前时刻i的控制策略ui,利用以下Bellman方程求解i+1时刻的正定对称矩阵Pi+1
其中Pi表示i时刻的正定对称矩阵,Δt表示系统采样周期;
c)策略改进:更新控制策略;
d)收敛条件:如果满足||Pi+1-Pi||≤ε则停止迭代,否则设置i=i+1并转到策略评估步骤;
第三步,设计状态重构观测器,与积分强化学习算法结合,利用输入输出数据实现系统的无模型最优阻抗控制,包括:
增广系统的状态可以通过输入输出数据重构,表达式为:
其中为可观测的历史数据,由t-Δt时刻到t-NΔt时刻的输入数据集/>和输出数据集/>以及t-NΔt时刻的期望轨迹r(t-NΔt)组成,M为重构矩阵,表示为:
其中UN、VN、ΦN均表示参数矩阵,表示ΦN的伪逆,
将重构状态表达式代入基于状态反馈的值迭代积分强化学习算法,并定义为正定对称矩阵,其中p0、pu、py、pr均为矩阵中的元素,“*”表示与控制无关的矩阵元素,则可得到基于输入输出数据的无模型值迭代积分强化学习算法:
a)初始化:任意初始控制策略由初始时刻的给出;
b)策略评估:对于当前的控制策略ui,利用接下来的Bellman方程求解矩阵P*在i+1时刻的值
其中,Pi *表示i时刻的矩阵P*
c)策略改进:更新控制策略;
其中分别为i+1时刻p0、pu、py、pr的值;
d)收敛条件:如果满足则停止迭代,否则设置i=i+1并转到策略评估步骤;
第四步,根据简化前的数学模型,将第三步中提出的积分强化学习算法进行修正,将该算法应用于空间机械臂的智能柔顺操控,包括:
第三步中算法是针对系统Π2和Π3提出的,没有考虑目标位置的影响,为使算法在空间机械臂阻抗控制中的应用具有通用性,针对系统Π1对算法进行改进,首先修正的状态重构表达式为:
其中为可观测的历史数据,相对于第三步中的/>增加了re,由于本发明研究的阻抗控制问题中,环境位置re和期望位置r均为常值,因此在实现过程中取任意时刻均可;M′为修正的重构矩阵,表示为:
其中VN、ΦN、Φ+ N的定义均与第三步相同;
重新定义则修正后的控制策略为:
其中分别为i+1时刻p0、pu、py、pr1、pr2的值。
CN202210443677.7A 2022-04-26 2022-04-26 一种空间机械臂与未知环境接触过程的智能柔顺操控方法 Active CN114851193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210443677.7A CN114851193B (zh) 2022-04-26 2022-04-26 一种空间机械臂与未知环境接触过程的智能柔顺操控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210443677.7A CN114851193B (zh) 2022-04-26 2022-04-26 一种空间机械臂与未知环境接触过程的智能柔顺操控方法

Publications (2)

Publication Number Publication Date
CN114851193A CN114851193A (zh) 2022-08-05
CN114851193B true CN114851193B (zh) 2023-12-22

Family

ID=82633822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210443677.7A Active CN114851193B (zh) 2022-04-26 2022-04-26 一种空间机械臂与未知环境接触过程的智能柔顺操控方法

Country Status (1)

Country Link
CN (1) CN114851193B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115421387B (zh) * 2022-09-22 2023-04-14 中国科学院自动化研究所 一种基于逆强化学习的可变阻抗控制系统及控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156448A (zh) * 2009-11-23 2011-08-17 库卡实验仪器有限公司 控制操纵器的方法和装置
CN108356816A (zh) * 2018-01-12 2018-08-03 南京邮电大学 基于输出位置的单臂机械手事件触发adp控制器结构
WO2019139133A1 (ja) * 2018-01-11 2019-07-18 オムロン株式会社 モデル予測制御のための制御パラメータの設定方法
CN113103237A (zh) * 2021-04-25 2021-07-13 长春工业大学 一种面向未知环境约束的可重构机械臂控制方法及系统
WO2022007358A1 (zh) * 2020-07-08 2022-01-13 深圳市优必选科技股份有限公司 阻抗控制方法、装置、阻抗控制器和机器人

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7688016B2 (en) * 2005-09-28 2010-03-30 Canadian Space Agency Robust impedance-matching of manipulators interacting with unknown environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156448A (zh) * 2009-11-23 2011-08-17 库卡实验仪器有限公司 控制操纵器的方法和装置
WO2019139133A1 (ja) * 2018-01-11 2019-07-18 オムロン株式会社 モデル予測制御のための制御パラメータの設定方法
CN108356816A (zh) * 2018-01-12 2018-08-03 南京邮电大学 基于输出位置的单臂机械手事件触发adp控制器结构
WO2022007358A1 (zh) * 2020-07-08 2022-01-13 深圳市优必选科技股份有限公司 阻抗控制方法、装置、阻抗控制器和机器人
CN113103237A (zh) * 2021-04-25 2021-07-13 长春工业大学 一种面向未知环境约束的可重构机械臂控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
工业机器人机械臂加工目标定位控制研究;冯春成;刘满禄;张华;赵皓;;计算机仿真(第06期);全文 *

Also Published As

Publication number Publication date
CN114851193A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN110202574B (zh) 基于环境刚度估计的机器人自适应混合阻抗/导纳控制方法
CN110977988B (zh) 基于有限时间命令滤波的多关节机械臂阻抗控制方法
CN108326852B (zh) 一种多目标优化的空间机械臂轨迹规划方法
Rigatos Model-based and model-free control of flexible-link robots: A comparison between representative methods
CN110340898B (zh) 一种自由漂浮空间机械臂自适应容错控制方法
CN108445768B (zh) 空间机器人操作空间轨迹跟踪的增广自适应模糊控制方法
JPH10133703A (ja) 適応的ロバスト制御装置
CN113589689B (zh) 一种基于多参数自适应神经网络的滑模控制器设计方法
CN114851193B (zh) 一种空间机械臂与未知环境接触过程的智能柔顺操控方法
CN109352656B (zh) 一种具有时变输出约束的多关节机械臂控制方法
Huang et al. A FAT-based adaptive controller for robot manipulators without regressor matrix: theory and experiments
CN112809666B (zh) 一种基于神经网络的5-dof机械臂力位跟踪算法
CN109426147B (zh) 捕获卫星后组合航天器的自适应增益调整控制方法
CN111268182A (zh) 空间双臂机器人约束柔顺稳定控制方法
CN112192573A (zh) 基于反演法的不确定性机器人自适应神经网络控制方法
CN113219825B (zh) 一种四足机器人单腿轨迹跟踪控制方法及系统
Xia et al. Hybrid force/position control of industrial robotic manipulator based on Kalman filter
Bayro-Corrochano et al. Newton–Euler modeling and Hamiltonians for robot control in the geometric algebra
Maouche et al. A fast adaptive artificial neural network controller for flexible link manipulators
He et al. Active compliance control of a position-controlled industrial robot for simulating space operations
Jang et al. Networked operation of a uav using gaussian process-based delay compensation and model predictive control
Ahmad et al. Dynamic modelling with a modified PID controller of a three link rigid manipulator
Zhang et al. Adaptive Neural Network Sliding Mode Control Method Based on Udwadia-Kalaba Theory
CN116909305B (zh) 基于时域变换的预设时间预设精度姿轨一体化跟踪控制方法及其控制系统
Yan et al. Research on attitude adjustment control for large angle maneuver of rigid-flexible coupling spacecraft

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant