CN110850719A - 一种基于强化学习的空间非合作目标参数自整定追踪方法 - Google Patents

一种基于强化学习的空间非合作目标参数自整定追踪方法 Download PDF

Info

Publication number
CN110850719A
CN110850719A CN201911172906.0A CN201911172906A CN110850719A CN 110850719 A CN110850719 A CN 110850719A CN 201911172906 A CN201911172906 A CN 201911172906A CN 110850719 A CN110850719 A CN 110850719A
Authority
CN
China
Prior art keywords
channel
tracking
control
target
star
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911172906.0A
Other languages
English (en)
Other versions
CN110850719B (zh
Inventor
师鹏
王逍
张冉
邓忠民
赵育善
徐添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201911172906.0A priority Critical patent/CN110850719B/zh
Publication of CN110850719A publication Critical patent/CN110850719A/zh
Application granted granted Critical
Publication of CN110850719B publication Critical patent/CN110850719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种基于强化学习的空间非合作目标参数自整定追踪方法,包括以下步骤:第一步,建立追踪星与目标星的相对动力学模型,设计控制律;第二步,根据第一步的动力学模型及控制律,建立基于强化学习的参数自整定学习框架;第三步,根据第二步的所述学习框架,与环境交互以迭代优化控制参数,最终实现对情形(a)的初始加速度降低及对情形(b)的终端跟踪误差降低;所述(a)失效卫星(b)带机动非合作目标。

Description

一种基于强化学习的空间非合作目标参数自整定追踪方法
技术领域
本发明涉及一种基于强化学习的空间非合作目标参数自整定追踪方法,属于空间飞行器技术领域。
背景技术
随着人们对空间飞行器研究的不断进展,对航天交会对接提出了更高的需求,对空间合作目标的研究逐渐拓展至对空间非合作目标的研究。空间非合作目标大致包含两类:一类是失效航天器,一般在空间中呈自旋状态。另一类是带有机动能力的非合作航天器,具有不受控且有产生空间对抗可能的特征。对非合作目标的跟踪接近技术进行研究,有利于轨道垃圾清除,回收重要零部件,预警空间威胁等。
对失效航天器的在轨操作,对于航天技术的长远发展意义重大。面向非合作航天器的自主停靠技术是实施对失效目标近距离停靠和对失效卫星跟踪瞄准的基础。在这一过程中,最为核心的步骤就是解决航天器相对运动中的姿轨联合控制问题并考虑处理模型中的不确定性。PAN H以航天器编队飞行为背景,建立了相对姿轨耦合动力学方程,并设计了质量与惯量未知的自适应控制律(参见Haizhou Pan and Vikram Kapila.Adaptivenonlinear control for spacecraft formation flying with coupled translationaland attitude dynamics.In Proceedings of the IEEE Conference on Decision andControl,volume 3,pages2057-2062,02 2001.)。
空间中还有一类非合作目标,即带机动能力的空间目标。随着空间竞争的加剧,对带机动能力非合作目标的跟踪控制技术越来越受到重视。与对失效卫星的逼近不同,对带机动能力目标的跟踪控制更多地体现在追逃问题,也称空间博弈问题。在航空航天追逃问题领域,HORIE K和CONWAY B A以空战对抗为背景,基于双方极值原理,研究了半直接配点法,给出了空战博弈求解方法,CONWAY B A随后继续将半直接配点法拓展到卫星三维空间对抗问题中,并用遗传算法辅助寻找数值解初值(参见Mauro Pontani and BruceA.Conway.Numerical solution of the three-dimensional orbital pursuit evasiongame.Journal of Guidance Control&Dynamics,32(32):474-487,2009.)。
对于第一类非合作目标,过去的研究工作较好地解决了对目标星和追踪星之间的相对位姿建模与控制问题,用多种控制算法及最优控制来对问题进行求解,对于能量消耗及输入受限问题等问题也有所讨论。但是,在众多控制算法中,控制参数的选取问题鲜少被提及,通常学者们采取试错法来选取合适的参数。参数选择不够好,会导致初始控制加速度过大,机构易饱和,虽然有学者从输入受限的角度从理论上优化控制器设计过程,本发明将从另一个角度讨论如何利用强化学习直接对控制参数进行优化,降低初始控制加速度。
对于第二类非合作目标,从追踪星的追踪效果来看,博弈求解方法可以提供一种最糟糕条件下的控制方法,但涉及到复杂的HJB方程求解,使得该方法计算困难,动态性较差且抗模型不确定能力弱。而从反馈控制的角度出发所设计的控制器,尤其针对可能为非线性系统模型时,对固定时间的终端跟踪误差进行控制比较困难。本发明将利用强化学习,对控制参数进行调整,降低固定时间追逃问题中追踪星的终端跟踪误差。
对于空间非合作目标跟踪问题,无论目标为第一种还是第二种,国内外学者都有着不同程度的研究,得出了许多具有实际意义的成果。总的来看,跟踪控制器设计的基本思路还是基于稳定性理论,用以保证跟踪系统的稳定性。但在实际模拟实验中,控制器参数的选择,将极大地影响控制效果,导致跟踪效果不好甚至导致系统不稳定。在过往的文献中,一般作者都直接给定了控制参数,并在该参数的基础上讨论控制性能,并没有深入讨论参数对跟踪效果的作用。而对空间非合作目标的跟踪控制,考虑到燃料成本及控制精度的硬性需求,需要更加精细的控制器。如在对失效慢旋目标的跟踪过程中,由于初始误差较大,往往容易导致初始加速度较大,易使得执行机构饱和;而在对带机动非合作目标跟踪中,控制参数的选取,将对末端跟踪误差产生较大的影响。因此,控制参数在对非合作目标跟踪中有着很大的影响,精细地调节控制参数,将改善跟踪效果或跟踪性能。
强化学习为机器学习的一种,与动态规划理论,最优控制理论等都有较为紧密的联系。Actor-Critic法为目前强化学习中最有活力的分支,在引入神经网络对状态和行为进行泛化后,维数灾的问题被解决,强化学习可以广泛应用在智能体的控制上。目前已公开专利中,涉及强化学习及相学习算法(如深度学习等)在空间非合作目标领域应用的,有来自西安微电子技术研究所的“一种基于深度增强学习的空间非合作目标捕获方法”和来自西北工业大学的“基于深度学习的空间非合作目标姿轨一体化参数估计方法”。
在“一种基于深度增强学习的空间非合作目标捕获方法”中(公开号:CN109625333A),该发明通过构建卷积神经网络,对控制飞行器的控制力与控制力进行深度增强训练,以获得非合作目标捕获策略。本发明与该发明的主要区别是:(1)本发明包含了两种非合作目标:(2)本发明是对控制参数进行训练,而非直接对控制力及控制力矩。
在“基于深度学习的空间非合作目标姿轨一体化参数估计方法”中(公开号:CN109284530A),该发明提出了一种神经网络参数估计算法用以对空间非合作目标的相关状态信息进行估算。本发明与该发明的主要区别是:本发明是通过对服务飞行器的控制参数进行训练,用以提升对非合作目标跟踪的性能,该发明是对非合作目标的状态参数进行估算,主要为信息收集功能。
对于情形(a)失效卫星跟踪任务,现有控制策略较少考虑实际执行时控制加速度饱和的情况,虽有部分研究考虑了饱和情况,但设计过程繁琐,推导复杂,不利于应用。对于情形(b)带机动非合作目标跟踪任务,从微分博弈推导的控制算法不具备动态性,而自适应控制又难以在固定时间的终端控制跟踪误差。总之,对于这两种典型的非合作目标跟踪任务场景,现有技术均尚未充分挖掘控制参数对非合作目标跟踪效果影响。
发明内容
本发明的技术解决问题是:为了充分发掘控制参数对非合作目标跟踪效果的作用,避免对于情形(a)失效卫星跟踪中为降低控制加速度而进行的复杂推导,和情形(b)带机动非合作目标固定时间终端跟踪误差难以控制的情况,克服现有技术的不足,提供一种基于强化学习的空间非合作目标参数自整定追踪方法,本发明针对两种空间非合作目标(a)失效卫星(b)带机动非合作目标,降低了情形(a)中的服务星初始控制加速度,提高了情形(b)中的服务星终端跟踪精度。
本发明技术解决方案:一种基于强化学习的空间非合作目标参数自整定追踪方法,包括以下步骤:
第一步,建立追踪星与目标星的相对动力学模型,设计控制律。
第二步,根据第一步的动力学模型及控制律结构,建立基于强化学习的参数自整定学习框架。
第三步,根据第二步的学习框架,与环境交互以迭代优化控制参数,最终实现对情形(a)的初始加速度降低及对情形(b)的终端跟踪误差降低。
所述第一步具体实现如下:
(1)建立追踪星与目标星的相对动力学模型
对于情形(a):
设追踪星质心C相对于目标星点P的相对位置、相对速度{rre,vre},相对姿态、相对角速度{qrere},建立追踪星相对于目标星的相对位置动力学模型。
对于情形(b):
追逐航天器P需要对非合作逃逸航天器E进行跟踪。建立参考轨道坐标系Oxoyozo(O系),可得追踪星相对于目标星的相对位置动力学模型。
(2)设计相应控制律
对于情形(a):
引入追踪星的质量m、转动惯量Jc和追踪星所受有界干扰力df及有界干扰力矩dτ和目标星的转动惯量Jt可能存在的5种不确定性。根据李雅普诺夫稳定性原理,设计跟踪失效卫星的自适应控制律。
对于情形(b):
在跟踪带机动的非合作目标时,首先考虑当目标不存在机动能力时,即
Figure BDA0002289207750000041
时,设计目标无机动时的PD控制。进一步,考虑当目标存在机动时,则该PD控制律进行修正,用以保证闭环系统稳定性。由此可分别得倒x,y和z通道的自适应控制律。
所述第二步具体实现如下:
(1)建立模糊推理系统
由于本发明所提出的控制算法为在连续系统下设计的连续控制律,需要利用泛化技术,解决维数灾问题。因此,用零阶T-S模糊系统作为函数逼近和策略逼近器。通过将预处理后的跟踪误差定义为模糊系统的输入,将模糊推理系统分别用于执行器(Actor)和评价器(Critic)上。
(2)设计单回路参数自整定学习框架
对系统进行通道拆分,各通道独立学习。每个通道具有1个执行器,2个评价器,共有x、y和z三通道,则系统共存在3个执行器和6个评价器用于评价当前的价值。
每个通道中两个评价器分别用来评价当前状态价值Vx(t)和下一个状态的价值Vx(t+1),执行器根据当前状态给出控制系数kx1和kx2,将控制系数带到前述控制律中,可根据环境得到当前回报和下一个时刻的状态。根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δt。根据Δt可对评价器和执行器的组成参数进行调节。
所述第三步具体实现如下:
(1)与环境交互,优化控制参数
跟踪系统在给定控制参数κ0作用下,对目标进行跟踪,系统收敛。以κ0作用下产生各通道产生的最大误差的范数作为基准,则可以对跟踪误差进行预处理。为降低控制器初始加速度,需设计相应的回报函数r(t)。根据梯度下降法,可对第i通道的执行器和评价器进行参数更新,通过执行器,可获得优化后的控制参数集κ。
(2)完成控制参数优化过程
对于情形(a),通过本发明的学习框架对控制参数进行自整定,可以达到降低初始控制加速度的目的。
对于情形(b),通过强化学习对控制参数进行整定,不仅可以使得终端偏差渐渐修正,同样可以使得跟踪过程中尽量贴近目标。
本发明基于强化学习理论,结合模糊推理系统,提出非合作目标跟踪过程中的控制参数自整定方法,分别针对失效慢旋空间非合作目标和带机动能力的空间非合作目标进行控制器设计。在对失效慢旋目标跟踪中,通过模糊系统,建立控制参数与跟踪误差之间的关系,使得控制参数随着误差的变化而平稳过渡,从而在可容许的终端误差范围内,大幅降低初始控制加速度,并对控制参数自整定前后对跟踪效果的影响进行了讨论。而在对机动目标的跟踪中,通过控制参数自整定,可降低末端跟踪误差,同时本发明讨论了参数自整定控制律和通过微分博弈求解的控制律的区别,微分博弈控制虽然可在末端达到几乎零误差,但飞行过程中不够贴近目标,而参数自整定控制律则通过对参数进行调节,可在一定末端可容许误差范围内,在跟踪过程中更贴近目标。
本发明在以下几点上作出了改进:(1)针对失效卫星自适应控制律,减缓初始控制加速度,避免机构饱和可能性;(2)针对固定时间段机动非合作目标跟踪问题,降低终端跟踪误差,并使得跟踪过程中追踪星尽量贴近目标。
附图说明
图1为本发明方法实现流程图;
图2为本发明中追踪星与失效卫星相对位置关系示意图;
图3为本发明中失效卫星上特征点位置示意;
图4为本发明中x通道学习逻辑示意图;
图5为本发明中的x通道评价器模糊推理图;
图6为本发明中目标星上特征点与期望悬停位置示意图
图7为本发明中强化学习参数自整定控制下的相对状态变化曲线;
图8为本发明中参数自整定前后控制下的控制加速度对比(a);
图9为本发明中参数自整定前后控制下的控制加速度对比(b);
图10为本发明中强化学习过程中各通道最大控制加速度变化曲线;
图11为本发明中强化学习追逃轨迹与博弈最优追逃轨迹;
图12强化学习终端误差修正过程;
图13强化学习过程中x、y通道终端误差修正。
具体实施方式
下面结合附图及实施例对本发明进行详细说明。
如图1所示,本发明方法具体实现如下:
1失效慢旋的空间非合作目标跟踪控制
1.1问题描述
在该场景中,目标为失效卫星,在空间中呈慢旋状态。假设有一颗追踪星,需要对目标卫星上的某一特定特征点,进行抓捕或跟踪拍摄。在这一过程中,需要同时对目标与追踪星间的相对位置与相对距离进行控制。控制过程中,同时受到多种不确定性。
为方便问题描述,采取如下坐标系:
1)地心惯性坐标系Oxiyizi(Fi系)。
2)目标星本体坐标系Oxbtybtzbt(Fbt系)。
3)追踪星本体坐标系Oxbcybczbc(Fbc系),假设xbc轴上搭载有对目标观测的星载敏感器。
4)参考坐标系Oxdydzd(Fd系),原点在追踪航天器质心,xd轴指向目标星特征点,其他两轴与xd轴的关系与ybc和zbc与xbc的关系一致。
设追踪星的质心为C点,到惯性系原点O的距离表示为rc,目标星(失效卫星)的质心为T点,到惯性系原点O的距离表示为rt。S表示目标星上的特征点,其在目标星本体坐标系中的位置为st。P点为追踪星的质心C在目标星本体坐标系下的期望停靠点。在目标星本体坐标系下,P点距离惯性系原点O、目标星质心T、目标特征点S的距离分别表示为rpt、pt和pt *。追踪星质心C相对期望停靠点P的矢量表示为re。则其位置关系如图2所示:
定义[w]×∈R3×3,对向量w=[w1,w2,w3]T满足:
Figure BDA0002289207750000061
在Fbc系下,追踪星C满足如下方程:
Figure BDA0002289207750000071
式中:qc=[qc1,qc2,qc3,qc4]T,是表示追踪星姿态的四元数,{rc,vc,qcc}分别为Fbc系下的质心C相对于惯性系的位置、速度、姿态和角速度,{f,df}分别为Fbc系下的质心C所受到的控制力和扰动力,{τ,dτ}分别为Fbc下质心C所受到的控制力矩和扰动力矩,{m,Jc}分别为追踪星的质量和转动惯量;Ω(qc)为姿态矩阵。
在目标星本体坐标系Fbt下,目标星质心T满足如下方程:
Figure BDA0002289207750000072
式中:qt=[qt1,qt2,qt3,qt4]T,{rt,vt,qtt}分别为Fbt系下的质心T相对于惯性系的位置、速度、姿态和角速度,Jt为目标星的转动惯量。
为实现对目标星上特征点S的悬停与姿态跟瞄,当相对特征点悬停距离pt *确定后,需对追踪星施加控制力与控制力矩,对追踪星的位置和姿态进行控制,将图2中的re控制到0,使C点与P点重合,同时,使追踪星本体坐标系的xbc轴指向目标特征点S。
如图2所示,由于{pt,pt *,st}均在Fbt系下,存在几何关系:pt=pt *+st。当给定对特征点S的期望悬停距离pt *后,通过该几何关系,可转化为对目标质心T的期望悬停距离pt。当追踪星C满足对目标T点在Fbt系下的相对距离为pt时,则自然满足对目标特征点S点在Fbt系下的相对距离为pt *
为使追踪星上的敏感器对准目标星上特征点S,追踪星本体坐标系中的xbc轴指向该点,如图3所示。
将pt *转换至Fbc系下记为pc *
Figure BDA0002289207750000073
其中,
Figure BDA0002289207750000074
表示从bt系到bc系的转换矩阵。设
Figure BDA0002289207750000075
则图2中所示的α、γ分别是pd在bc系下的投影与xbc轴的夹角,以及该投影与pd的夹角。
当xbc指向点S时,α与γ均应为0。定义从追踪星本体坐标系bc系到参考坐标系d系的转换矩阵为
Figure BDA0002289207750000081
定义第3个转角恒为0(或可根据任务需求解算第三个转角),可推导出:
为使相对姿态更清晰的表达,将
Figure BDA0002289207750000083
转化为误差四元数qe。则qe为追踪星从当前姿态到目标姿态的相对姿态,是待消除的相对量。
1.2相对动力学模型
在图2中,用{vt,vpt}分别表示bt系下目标星质心T,和P点相对于惯性系原点的速度,则可得:
Figure BDA0002289207750000084
则追踪星质心C相对于目标星点P的相对位置、相对速度{rre,vre}可表示为:
Figure BDA0002289207750000085
Figure BDA0002289207750000086
{qrere}为表示追踪星相对于目标星的相对姿态与相对角速度:
Figure BDA0002289207750000087
式中:M(qc)为计算四元数差值的特殊矩阵:
Figure BDA0002289207750000088
假设目标星是刚体,特征点S同样满足公式(2)中的姿态动力学方程。则结合公式(42)~(48),并利用关系式
Figure BDA0002289207750000089
可得bc系下追踪星相对于目标星的相对位置动力学模型:
Figure BDA00022892077500000810
其中,
Figure BDA0002289207750000091
1.3自适应控制律设计
设qe=[q1,qv]T,qv=[q2,q3,q4]T,为实现对目标星特征点的悬停,同时使追踪星的敏感器指向该特征点,假设每个姿态跟瞄的瞬间是平衡的
Figure BDA0002289207750000092
则其控制目标为:
Figure BDA0002289207750000093
Figure BDA0002289207750000094
假设1:转动惯量Jc和Jt均是对称矩阵。
假设2:df和dτ是有界的。
假设3:各状态量的初始值是已知的。
假设4:变量{rc,vc,qcc}可通过追踪星上安装的传感器直接得到,变量{rre,vre,qrere}可通过追踪星上携带的测量设备得到(ωt可由ωc和ωe做差得到)。
假设5:追踪星上搭载的姿态与轨道发动机均为理想的连续变推力发动机。
引入追踪星的质量m、转动惯量Jc和追踪星所受有界干扰力df及有界干扰力矩dτ和目标星的转动惯量Jt可能存在的5种不确定性。定义:a=||Jt -1||||Jt||;b=||Jc -1||||Jc||。基于以上,自适应控制律为:
Figure BDA0002289207750000095
式中,分别为对追踪星的质量m与转动惯量Jc的估计值,
Figure BDA0002289207750000097
分别为对追踪星所受的扰动df和扰动力矩dτ最大值{df,dτ}的估计值(df≥||df||,dτ≥||dτ||),
Figure BDA0002289207750000098
分别表示对N2、N3和N4的估计值,表示为:
Figure BDA0002289207750000099
其中,
Figure BDA00022892077500000910
分别表示对a和b的估计值。
自适应参数更新律如下:
Figure BDA0002289207750000101
2.带机动空间非合作目标跟踪控制
2.1空间追逃问题
在该场景中,目标为带机动能力的非合作逃逸航天器E,追逐航天器P需要对逃逸航天器进行跟踪。假设追逐航天器P和逃逸航天器E都在近地轨道上,追逐航天器希望接近逃逸航天器,逃逸航天器希望远离追逐航天器。建立参考轨道坐标系Oxoyozo(O系),取追逐航天器P和逃逸航天器E附近某一参考轨道上的动点o作为动坐标原点,选取x轴为参考点o和地心的连线方向,y轴为参考点o沿轨道的运动方向与x轴垂直,z轴与x、y轴成右手定则。
追逐航天器P在O系中的位置分量为{xP,yP,zP},逃逸航天器E在O系中的位置分量为{xE,yE,zE},用x=[xP,xE]T
Figure BDA0002289207750000103
分别表示总状态量,追逐航天器状态量和逃逸航天器状态量,分别表示追逐航天器和逃逸航天器的控制量。为简化表达式,设偏心率e约等于0,设
Figure BDA0002289207750000106
为o的平均角速度,可得:
Figure BDA0002289207750000107
定义追逐方P和逃逸方E的相对距离:
Figure BDA0002289207750000108
则进而可得:
Figure BDA0002289207750000111
式(56)为经典的航天器相对运动的C-W方程。因本发明主要讨论的重点在于控制参数对跟踪控制的影响,而非轨道偏心率或轨道摄动对控制的影响,因此,此处选用较为经典的C-W模型。
2.3追踪星PD控制律设计
为实现对目标的跟踪控制,其控制目标为:
假设1:变量
Figure BDA0002289207750000113
可通过追踪星上安装的传感器得到,反馈状态可测;
假设2:追逐航天器上搭载的发动机为理想的连续变推力发动机。
为对式(56)所示的系统设计跟踪控制律,可首先考虑当目标不存在机动能力时,即
Figure BDA0002289207750000114
时,设计目标无机动时的PD控制:
容易证明式(58)中的控制律是稳定的。
进一步,考虑当目标存在机动时,则需要对式(58)控制律进行修正,用以保证闭环系统稳定性。以x通道为例分析,设x通道的李雅普诺夫函数如下:
Figure BDA0002289207750000116
对式(59)求导可得:
Figure BDA0002289207750000117
可见,如要系统稳定,应选取合适的
Figure BDA0002289207750000118
使得
Figure BDA0002289207750000119
Figure BDA00022892077500001110
则此可得
Figure BDA00022892077500001111
设有参数ρx,且满足ρx≥||η||,则有:
ηaxx||ax||≤||η||||ax||-ρx||ax||≤0 (61)
进而可得:
Figure BDA0002289207750000121
所以:
Figure BDA0002289207750000122
同理,可得y和z通道的控制量如下:
Figure BDA0002289207750000123
Figure BDA0002289207750000124
3.连续系统强化学习
第1和第2部分分别提出了针对失效慢旋空间非合作目标和带机动空间非合作目标的跟踪控制律,所设计的控制器可较好地完成任务,并保证闭环系统稳定。但在这两种控制律中,其核心还是基于反馈控制。因此,控制系数的选择,会较大地影响控制器性能。如果能够改善控制系数,将进一步改善控制器性能,获得更好的跟踪控制律。
强化学习是基于动物心理的智能学习方法,通过“trail-error”法对环境进行感知,通过训练达到学习目标。实际上,许多科研人员在工作中为了选取合适的控制参数,正是“trail-error”法,通过观察控制器性能,反复调节控制参数,以达到期望性能。因此,选用强化学习方法用以训练控制参数,改善控制效果,是十分有前景的。
3.1模糊推理系统
由于所提出的控制算法均为在连续系统下设计的连续控制律,而传统的强化学习是基于表格的离散系统模型进行算法设计。因此,需要利用泛化技术,解决维数灾问题。
为解决强化学习在大规模和连续状态空间中的泛化,此处用零阶T-S模糊系统作为函数逼近和策略逼近器。设模糊系统含有L条规则,每条规则有n个模糊变量,每条规则的输出是一个常数。模糊推理规则如下:
其中,si(i=1,…,n)是模糊系统的第i个输入,n是输入状态变量的个数,Fi l表示输入si在规则l下的语言值,zl表示第l条规则的输出,φl为表示每条规则对应的输值。
设每个输入si有h个隶属度函数,隶属度
Figure BDA0002289207750000131
可得,模糊系统的输出如下:
其中,s=(s1,…sn)是状态向量,
Figure BDA0002289207750000133
表示输入状态变量si在规则l下的隶属度函数,Ψl(s)表示为:
Figure BDA0002289207750000134
3.2自启发式强化学习
强化学习是一种与环境进行交互的学习方法,智能体通过从环境获得的收益r来优化自身的行为,从而使得总收益最大。在马尔可夫过程下,强化学习的值函数可表示为:
Figure BDA0002289207750000135
其中,γ∈[0,1)为折扣因子,ri为智能体从环境获取的即时回报。
为求解连续行为空间Markov决策问题的强化学习算法,一类称为自适应启发评价(AHC)的强化学习算法得到了广泛的研究和应用。在AHC学习算法中,分别对Markov决策过程的值函数和策略函数进行逼近,构成的学习控制结构通常称为Actor-Critic结构。其中,评价器(Critic)用于对值函数进行估计,执行器(Actor)用于决定决策器的决策量。将模糊推理系统分别用于执行器和评价器上。为实现残差迭代,需要2个评价器,分别用于对当前时刻值Vt(st)和下一时刻值Vt(st+1)的进行评价。时间差分信号可定义为:
Δt=rt+γVt(st+1)-Vt(st) (70)
定义差分信号的方差E如下:
Figure BDA0002289207750000136
评价器结构采用零阶T-S模糊推理系统,则评价器中的模糊参数自适应更新律如下:
Figure BDA0002289207750000137
其中,ξc是评价器学习速率。进一步,根据梯度法,有:
Figure BDA0002289207750000141
整理可得:
Figure BDA0002289207750000142
Figure BDA0002289207750000143
根据式(68),上式可以求解。
上述即为评价器的自适应更新算法。对于执行器,设Kt为执行器输出,则其输出参数φA的自适应更新算法如下:
Figure BDA0002289207750000144
其中,ξa是执行器学习速率,Kt的偏导数表达如下:
Figure BDA0002289207750000145
4.基于强化学习参数自整定的非合作目标跟踪控制律
通过第2部分设计的控制器,可以对空间非合作目标进行接近,但很难精细化整个控制过程。虽然有一些学者尝试用最优控制的方法或次优反馈控制的方法对某一类问题的控制算法进行设计,但是,这些方法的适用范围有限,依赖模型的程度较高,且求解困难,不能充分发掘控制参数对控制性能的影响。而通过自启发式强化学习,模仿动物心理法,来找到合适的从跟踪误差到控制参数的映射,可以改善控制效果。与其他的强化学习算法不同,本发明所设计的强化学习算法不直接寻找状态对行为的映射,这是因为航天器飞行过程较为复杂,没有状态与行为间的先验知识,会使得传统强化学习难以进行,因此本发明建立的是跟踪误差与控制参数间的映射,利用了先验知识,不会使得整个学习过程从零探索,而是对可人工设计的控制方法进行精细化设计。
本发明设计的参数整定强化学习过程为单回路学习,单回路学习可以更精确地对每个通道的控制器进行精细调节,使得学习效果更好。虽然由于动力学的一些耦合作用,不同通道之间的控制可能会造成互相影响,但这个影响非常小,本发明忽略了不同通道间的耦合影响作用。
以x通道学习为例,它的示意图如4所示。由图4中可看出,通道中一共存在两个评价器和一个执行器。两个评价器分别用来评价当前状态价值Vx(t)和下一个状态的价值Vx(t+1),执行器根据当前状态给出控制系数kx1和kx2,将控制系数带到前述控制律中,可根据环境得到当前回报和下一个时刻的状态。根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δt。根据Δt可对评价器和执行器的组成参数进行调节。
评价器和执行器由模糊推理系统(FIS)组成。在单通道(x通道)中,FIS共有两个输入s1和s2。s1和s2分别与跟踪误差x和
Figure BDA0002289207750000157
有关。需要说明的是,由于x和
Figure BDA0002289207750000151
是随着时间不断变化的,其数值没有范围限制。但对于模糊推理系统,如果输入的范围不受限,那么确定模糊规则是非常困难的。因此,为了使模糊推理系统的输入能够在一定范围内变化,需要对x和进行一定预处理,将模糊推理系统的输入固定在[0,1]之间。预处理的方法在下面将会提到。
评价器模糊推理规则如图5所示,其模糊推理规则如下:
Figure BDA0002289207750000153
在本发明的评价器设计中,分别对两个输入赋予3个模糊函数,一共6个模糊函数,组成9条模糊规则。Vx用来表示x通道评价器的最终输出,如图5所示。由图5可知,s1和s2分别对应模糊函数{A1,A2,A3}和{A4,A5,A6}。以{A1,A2,A3}为例,隶属度可表示为:
Figure BDA0002289207750000154
其中,A1和A2为高斯隶属度函数,A3为S型隶属度函数。第三个隶属度函数取为S型函数的好处在于,可以完全覆盖输入的范围,防止有极端情况出现输入大于1而没有对应隶属度的情况。根据输入的隶属度,可以计算输入对应的输出:
Figure BDA0002289207750000156
执行器的模糊推理过程与评价器的过程基本完全一致,区别在于每个隶属度对应的参数:
Figure BDA0002289207750000161
4.1失效慢旋卫星跟踪控制律
在第1部分中,失效慢旋卫星跟踪的自适应控制律设计如式(12)。为了将各通道进行区分,定义κi(i=x,y,z,u,v,w)为第i通道的控制参数组合,κ={κxyzuvw}表示整个控制参数集。
式(12)所设计的控制器可以较好地对失效慢旋卫星上的特征点进行跟踪接近,能够完成任务的基本需要。假设跟踪系统在给定控制参数κ0作用下,对目标进行跟踪,系统收敛。在κ0作用下,跟踪误差可以有效衰减,但由于初始误差较大,控制器启动加速度较大,易使得执行机构出现饱和情况,为了缓解控制器启动加速度较大的情况,需要引入模糊推理系统及Actor-Critic强化学习框架。
以κ0作用下产生各通道产生的最大误差的范数作为基准,则可以对跟踪误差进行预处理。以x通道为例,可由跟踪误差x和
Figure BDA0002289207750000162
得模糊系统的输入s1和s2
Figure BDA0002289207750000163
对其他通道的预处理过程也是类似的。
为降低控制器初始加速度,需设计相应的回报函数r(t)。回报函数为整个学习过程的核心,学习系统将根据回报获得的奖励或惩罚情况,对控制参数进行自整定。此处设计的回报函数r(t)如下。
Figure BDA0002289207750000164
由回报函数结构可知,当控制器输出大于ε时,系统将获得一个负向回报,用以减退当前系统状态下对应的控制参数选取倾向。根据式(74)到式(77)可对第i通道的
Figure BDA0002289207750000165
Figure BDA0002289207750000166
和κi进行参数更新。
4.2带机动非合作目标跟踪控制律
采用式(63)到式(65)的控制器,可以对带机动非合作目标进行跟踪控制,并且系统是稳定的。这样PD结构的控制形式,使得控制器容易设计,并且鲁棒性高。但是,对于固定追逃时间的问题来说,难以对终端跟踪误差进行把控,尤其是在目标存在机动的情况下。虽然可以用最优控制的思想或其他次优反馈的思路来解决这一问题,但容易面临HJB方程难解问题或模型高度依赖等问题。本发明引入强化学习的方式,可在容易实现的控制器上,对其参数进行自整定,避免了复杂控制器设计问题。
同4.1节一样,建立学习框架之前,需要对系统进行通道拆分,各通道独立学习。每个通道具有1个执行器,2个评价器,共有x、y和z三通道,则系统共存在3个执行器和6个评价器用于评价当前的价值。
为减小跟踪机动非合作目标的终端误差,需要引入模糊推理系统,并且同样需要对模糊推理系统的输入进行预处理。与4.1节不同,此处要选取的参考基准为当全部控制系数全部为0时,整个过程中的最大跟踪误差。以x通道为例,有,
Figure BDA0002289207750000171
一般情况xmax≠0,
由执行器得到kx1和kx2后,可计算得到x通道的控制量:
Figure BDA0002289207750000173
同理,可得y和z通道的控制量分别为:
Figure BDA0002289207750000174
Figure BDA0002289207750000175
根据时间差分,可得到差分量Δt,执行器和评价器中的参数可根据Δt来对自身的参数进行调节,从而完成整个学习过程。以x通道为例,Δt可根据前后两个时刻的评价器和即时回报计算而得,
Δt=rt+γVx-Vx (89)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报。对于x通道,此处设计的即时回报如下,其中,Rx是可以指定的x方向的可接受跟踪间距,
Figure BDA0002289207750000176
由rt结构可知,当x方向的跟踪误差还未达到要求时,系统将获得正向回报,以刺激模糊系统给出当前状态下对应的更大的控制系数。由式(74)到式(77)可对执行器和评价器进行参数更新。y和z通道的回报函数设计方法及参数更新方法与x通道的方法一致。
总体来说,通过x、y和z通道的分别学习,可以使得原控制律中的参数得到更好的调节,从而使得跟踪效果更好。采用这种方法,不仅结合了反馈控制的优势,还能够对控制参数进行优化,使得结果更加贴合要求。并且,在整个学习过程中,训练数据是完全来源于环境本身的,而不依赖模型本身。
5.数值仿真
5.1基于强化学习的失效慢旋目标参数自整定追踪算法仿真
假设失效卫星(目标星)在太空中不受干扰且无机动,呈自然旋转状态,初始姿态相对于惯性系为qt=[1,0,0,0]T,并假失效卫星的初始角速度为ωt=[0.1,0.1,0.1]T(rad/s)。在满足安全条件的情况下,追踪星对目标星上一特征点S进行悬停。仿真期望目标为:对目标星特征点进行悬停,同时使追踪星上搭载的敏感器(搭载于xbc轴上)指向特征点。
值得注意的是,考虑到实际情况下,对特征点S的期望对其悬停的位置应处于对该特征点的可见范围内,如图6所示。因此,假设特征点S位于目标星上的某一面上,在目标星本体坐标系下的位置为:st=[0.5,0.5,0.5]T(m),并假设对S点的期望悬停位置在目标星本体坐标系下为pt *=[3,0,0]T(m)。
取追踪星与目标星的初始状态相关参数如下:
表1初始状态相关参数
设追踪星和失效卫星的转动惯量(单位kg·m2)分别如下:
Figure BDA0002289207750000182
设追踪星受如下干扰力和干扰力矩:
Figure BDA0002289207750000183
自适应更新相关参数如下:
表2自适应更新参数
表3自适应参数初始值
Figure BDA0002289207750000192
设κ0中的控制参数全为2,取仿真时间50s,仿真步长0.1s,下标最右的{x,y,z}表示变量在bc系中的分量,模糊系统隶属度函数如下。
Figure BDA0002289207750000193
由图7可见,在本发明提出的参数自整定算法作用下,位置与姿态跟踪误差都逐渐衰减倒0,控制精度高且反应灵敏。图8-图9对比了参数整定前后各通道控制加速度的变化。由图中可知,在控制初期,控制加速度较大,在本发明所提算法的作用下,初期的控制加速度出现了明显下降,但并未改变整体走势。图10直观的展现了在强化学习过程中,各通道在控制过程中所产生的最大加速度随着学习次数的变化趋势。可以看出,
Figure BDA0002289207750000194
都随着学习过程而最大数值产生了显著的下降,其中,
Figure BDA0002289207750000196
下降43%,
Figure BDA0002289207750000197
下降67%,下降66%,
Figure BDA0002289207750000199
下降54%。可见,通过引入强化学习对控制参数进行自整定,可以达到降低初始控制加速度的目的。通过参数自整定方法,在不影响原有控制器结构的基础上,用理论化的参数调节方式替代人工经验手调法,极大地优化了控制效果。
Figure BDA00022892077500001910
Figure BDA00022892077500001911
数值略微上升的原因是两通道的误差本身就小,产生的控制加速度也小,未达到需要进行整定的条件。,但由于其他通道进行了整定,通道间的耦合作用引起了数值略微上升。
5.2基于强化学习的带机动目标参数自整定追踪算法仿真
假设参考轨道为半长轴为104km的圆轨道,追踪星与目标星在参考轨道附近运动。用xp0、xe0分别表示追踪星和逃逸星相对于参考轨道的初始值,向量的前三位表示相对位置,单位为m,后三位为相对速度,单位为m/s,相对状态初值如下。
表4相对参考轨道初始值
对于固定时间的机动目标追踪问题,有航天博弈理论从双方极值原理出发,推导了追踪星和逃逸星的双方最优解。为了对比本发明提出的方法,与博弈论所推导的最优解之间的不同,此处仿真中逃逸星所采取的机动措施,正是基于博弈论推导的逃逸星最优机动策略,并在仿真中对比了博弈论中追踪星机动策略与本发明提出的追踪控制律之间的不同。
当κ0中的参数全为0时,得到最大状态误差作为模糊系统输入预处理参考基准。
Figure BDA0002289207750000202
模糊函数隶属度函数参数选取与7.1保持一致,取仿真时间3000s,仿真步长10s,仿真结果如图11-13所示。
由图11分别展示了目标飞行轨迹、追踪星博弈最优飞行轨迹和追踪星参数整定飞行轨迹集合。从图11中可看出从航天博弈所推导出来的最优追逃轨迹与强化学习控制算法下的追逃轨迹之间的关系。其中,长虚线是博弈推导出的追踪星最优机动策略,可以有非常高的终端跟踪精度,这是由于这种机动策略在本身就是以终端误差为零为前提而进行推导的。运用这种机动策略,虽然可以保证终端跟踪误差极小,但中途的跟踪过程中,追踪星与逃逸星间的距离难以保证。且这种方法依赖模型程度较高,抗模型不确定性能力较差,很难具备很好的鲁棒性。图11中的最外层的实线,是追踪星未进行参数整定前的修正PD控制算法下的轨迹。可见通过该控制律,可以基本上跟踪机动目标,但由于没有合适的控制参数,跟踪过程及终端效果都不是最佳的。通过强化学习对控制参数进行整定,不仅可以使得终端偏差渐渐修正,同样可以使得跟踪过程中尽量贴近目标。图12中展示了每一次学习的追踪星轨迹变化。可以清晰的看见,每一次学习过程,追踪星都更加向目标贴近,并逐渐降低终端误差。图13从数值上展示了X和Y通道的终端误差修正过程,可见随着学习次数的不断增加,追踪星终端跟踪误差不断减小。
以上虽然描述了本发明的具体实施方法,但是本领域的技术人员应当理解,这些仅是举例说明,在不背离本发明原理和实现的前提下,可以对这些实施方案做出多种变更或修改,因此,本发明的保护范围由所附权利要求书限定。

Claims (4)

1.一种基于强化学习的空间非合作目标参数自整定追踪方法,其特征在于,包括以下步骤:
第一步,针对(a)失效卫星,(b)带机动非合作目标的两种情形,分别建立追踪星与目标星的相对动力学模型,设计控制律;
第二步,根据第一步的动力学模型及控制律,建立基于强化学习的参数自整定学习框架;
第三步,根据第二步的所述学习框架,通过由模糊系统组成的执行器Actor和评价器Critic部分,分别获取当前控制参数和当前状态对应的值函数,通过与智能体所处环境交互,获取下一状态值函数与回报,基于时间差分法与梯度下降法,通过迭代逐次优化控制参数进行学习;学习结束时,得到优化后的控制参数,最终实现对情形(a)的初始加速度降低和情形对(b)的终端跟踪误差降低。
2.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法,其特征在于:所述第一步具体实现如下:
(1)建立追踪星与目标星的相对动力学模型
对于情形(a):
设追踪星质心C相对于目标星点P的相对位置、相对速度{rre,vre},相对姿态、相对角速度{qrere},建立追踪星相对于目标星的相对位置动力学模型;
Figure FDA0002289207740000011
其中,ωc为质心C在追踪星本体坐标系下相对于惯性系的角速度,ωt为质心T在目标星本体坐标系下相对于惯性系角速度,pt为追踪星C满足对目标T点在目标星本体坐标系下的相对距离,
Figure FDA0002289207740000012
表示从目标本体坐标系到追踪星本体坐标系的转换矩阵,Jt为目标星的转动惯量,{f,df}分别为目标本体坐标系下的质心C所受到的控制力和扰动力,{τ,dτ}分别为目标本体坐标系下质心C所受到的控制力矩和扰动力矩,{m,Jc}分别为追踪星的质量和转动惯量,Ω(qc)为姿态矩阵;
对于情形(b):
追逐航天器P需要对非合作逃逸航天器E进行跟踪,建立参考轨道坐标系Oxoyozo,即O系,设偏心率e约等于0,ω*为轨道角速度,得到追踪星相对于目标星的相对位置动力学模型;
Figure FDA0002289207740000021
其中,{x,y,z}分别表示追逐方P,和逃逸方E在三个方向上的相对距离,
Figure FDA0002289207740000022
Figure FDA0002289207740000023
分别表示追逐航天器和逃逸航天器的机动控制量;
(2)基于步骤1(1)中的动力学模型设计相应控制律
对于情形(a):
基于步骤1(1)中(a)情况中的动力学模型,引入包括追踪星的质量m、转动惯量Jc和追踪星所受有界干扰力df及有界干扰力矩dτ和目标星的转动惯量Jt在内的5种不确定性,根据李雅普诺夫稳定性原理,设计跟踪失效卫星的自适应控制律;
Figure FDA0002289207740000024
式中,a=||Jt -1|| ||Jt||,b=||Jc -1|| ||Jc||,分别为对追踪星的质量m与转动惯量Jc的估计值,
Figure FDA0002289207740000026
分别为对追踪星所受的扰动df和扰动力矩dτ最大值{df,dτ}的估计值(df≥||df||,dτ≥||dτ||),
Figure FDA0002289207740000027
分别表示对a和b的估计值,{k1,k2,k3,k4}表示待优化的控制参数;
自适应参数更新律如下:
Figure FDA0002289207740000028
其中,{γ123456}表示自适应更新参数;
对于情形(b):
在跟踪带机动的非合作目标时,首先考虑当目标不存在机动能力时,即时,设计目标无机动时的PD控制,再考虑当目标存在机动时,则该PD控制律进行修正,用以保证闭环系统稳定性,对于x通道,设
Figure FDA0002289207740000032
得到x通道的自适应控制律:
Figure FDA0002289207740000033
同理,得到y和z通道的控制量如下:
Figure FDA0002289207740000034
3.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法,其特征在于:所述第二步具体实现如下:
(1)建立模糊推理系统
采用零阶T-S模糊系统作为函数逼近和策略逼近器,通过将预处理后的跟踪误差s1和s2定义为模糊系统的输入,将模糊推理系统分别用于执行器Actor和评价器Critic上;
在评价器设计中,根据输入的隶属度,计算输入对应的输出:
Figure FDA0002289207740000037
执行器的模糊推理过程与评价器的过程基本完全一致,区别在于每个隶属度对应的参数:
Figure FDA0002289207740000041
定义差分信号的方差E如下:
Figure FDA0002289207740000042
评价器结构采用零阶T-S模糊推理系统,则评价器中的模糊参数自适应更新律如下:
Figure FDA0002289207740000043
其中,ξc是评价器学习速率。进一步,根据梯度法,有:
Figure FDA0002289207740000044
整理得:
Figure FDA0002289207740000046
上述即为评价器的自适应更新算法。对于执行器,定义Kt是执行器输出,其输出参数φA的自适应更新算法如下:
Figure FDA0002289207740000047
其中,ξa是执行器学习速率,Kt的偏导数表达如下:
Figure FDA0002289207740000048
(2)基于前述步骤(1)中所设计的执行器与评价器部分,设计单回路参数自整定学习框架;
情形(a):
对追踪星的控制系统进行拆分,共有x、y、z、u、v、w六通道,各通道独立学习,每个通道具有1个执行器,2个评价器,则整个控制系统共存在6个执行器和12个评价器用于评价当前的价值;
对于x通道,通道中两个评价器分别用来评价当前状态价值Vx(t)和下一个状态的价值Vx(t+1),执行器根据当前状态给出控制系数kx1和kx2;对于y通道,通道中两个评价器分别用来评价当前状态价值Vy(t)和下一个状态的价值Vy(t+1),执行器根据当前状态给出控制系数ky1和ky2;对于z通道,通道中两个评价器分别用来评价当前状态价值Vz(t)和下一个状态的价值Vz(t+1),执行器根据当前状态给出控制系数kz1和kz2;对于u通道,通道中两个评价器分别用来评价当前状态价值Vu(t)和下一个状态的价值Vu(t+1),执行器根据当前状态给出控制系数ku3和ku4;对于v通道,通道中两个评价器分别用来评价当前状态价值Vv(t)和下一个状态的价值Vv(t+1),执行器根据当前状态给出控制系数kv3和kv4;对于z通道,通道中两个评价器分别用来评价当前状态价值Vz(t)和下一个状态的价值Vz(t+1),执行器根据当前状态给出控制系数kz3和kz4,设k1=[kx1,ky1,kz1]T,k2=[kx2,ky2,kz2]T,k3=[ku3,kv3,kw3]T,k4=[ku4,kv4,kw4]T,将控制系数带到如下控制律中,
随后,根据智能体所处环境得到当前回报和下一个时刻的状态,根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δt,根据Δt对评价器和执行器的组成参数进行调节;
情形(b):
对追踪星的控制系统进行拆分,共有x、y和z三通道,各通道独立学习,每个通道具有1个执行器,2个评价器,则整个控制系统共存在3个执行器和6个评价器用于评价当前的价值;
对于x通道,通道中两个评价器分别用来评价当前状态价值Vx(t)和下一个状态的价值Vx(t+1),执行器根据当前状态给出控制系数kx1和kx2,然后,计算得到x通道的控制量:
Figure FDA0002289207740000052
同理,得到y和z通道的控制量分别为:
Figure FDA0002289207740000053
Figure FDA0002289207740000054
随后,根据智能体所处环境得到当前回报和下一个时刻的状态,根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δt,根据Δt对评价器和执行器的组成参数进行调节。
4.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法,其特征在于:所述第三步具体实现如下:
(1)跟踪误差预处理与回报函数设计
情形(a):
在给定控制参数κ0作用下,式(18)所示的控制器对目标进行跟踪,各通道跟踪误差收敛,以κ0作用下产生各通道产生的最大误差的范数作为基准,则对跟踪误差进行预处理,对于x通道,由跟踪误差x和
Figure FDA0002289207740000061
得模糊系统x通道的输入s1和s2;对于y通道,由跟踪误差y和
Figure FDA0002289207740000062
得模糊系统y通道的输入s1和s2;对于z通道,由跟踪误差z和得模糊系统z通道的输入s1和s2;对于u通道,由跟踪误差u和得模糊系统u通道的输入s1和s2;对于v通道,由跟踪误差v和
Figure FDA0002289207740000065
得模糊系统v通道的输入s1和s2;对于w通道,由跟踪误差w和w得模糊系统w通道的输入s1和s2
Figure FDA0002289207740000066
对于x通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVx-Vx (23)
其中,γ为折扣因子,γ∈(0,1),rt为x通道内采用当前机动下的即时回报,此处设计的回报函数r(t)如下:
Figure FDA0002289207740000067
对于y通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVy-Vy (25)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报,此处设计的回报函数r(t)如下:
Figure FDA0002289207740000071
对于z通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVz-Vz (27)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报,此处设计的回报函数r(t)如下:
Figure FDA0002289207740000072
对于u通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVu-Vu (29)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报,此处设计的回报函数r(t)如下:
Figure FDA0002289207740000073
对于v通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVv-Vv (31)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报,此处设计的回报函数r(t)如下:
Figure FDA0002289207740000074
对于w通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVw-Vw (33)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报,此处设计的回报函数r(t)如下:
Figure FDA0002289207740000081
由回报函数结构可知,当控制器输出大于ε时,追踪星将获得一个负向回报,用以减退当前系统状态下对应的控制参数选取倾向。由式(74)到式(77)可对执行器和评价器进行参数更新;
情形(b):
(1)
对于x通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVx-Vx (35)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报;对于x通道,此处设计的即时回报如下,其中,Rx是指定的x方向的可接受跟踪间距,
Figure FDA0002289207740000082
对于y通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVy-Vy (37)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报;对于y通道,此处设计的即时回报如下,其中,Ry是指定的y方向的可接受跟踪间距,
Figure FDA0002289207740000083
对于z通道,根据时间差分,得到差分量Δt,Δt根据前后两个时刻的评价器和即时回报计算得到,
Δt=rt+γVz-Vz (39)
其中,γ为折扣因子,γ∈(0,1),rt为采用当前机动下的即时回报;对于z通道,此处设计的即时回报如下,其中,Rz是指定的z方向的可接受跟踪间距,
Figure FDA0002289207740000084
由rt结构可知,当某方向的跟踪误差还未达到要求时,系统将获得正向回报,以刺激模糊系统给出当前状态下对应的更大的控制系数;根据梯度下降法可对执行器和评价器进行参数更新;
(2)基于步骤(1)中所设计的回报函数与评价器差分量Δt,追踪星与环境交互,优化控制参数,追踪星通过与环境交互,完成控制参数优化过程,具体如下:
①初始化模糊系统;
②计算κ0作用下的各通道最大跟踪误差;
③对各通道最大跟踪误差进行预处理,各通道的模糊系统输入s1与s2
④基于模糊系统的输入s1与s2,通过评价器计算Vt,通过执行器计算Kt
⑤将Kt代入控制器中,获得控制量u;
⑥智能体在控制量u的作用下与环境交互获得回报rt,并获得下一时刻Vt+1
⑦由rt,Vt与Vt+1,计算差分量Δt
⑧由差分量Δt更新模糊推理系统参数φC和φA
对于情形(a),通过学习框架对控制参数进行自整定,达到降低初始控制加速度的目的;
对于情形(b),通过强化学习对控制参数进行整定,使得仿真时间偏差渐渐修正,同样使得跟踪过程中贴近目标。
CN201911172906.0A 2019-11-26 2019-11-26 一种基于强化学习的空间非合作目标参数自整定追踪方法 Active CN110850719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911172906.0A CN110850719B (zh) 2019-11-26 2019-11-26 一种基于强化学习的空间非合作目标参数自整定追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911172906.0A CN110850719B (zh) 2019-11-26 2019-11-26 一种基于强化学习的空间非合作目标参数自整定追踪方法

Publications (2)

Publication Number Publication Date
CN110850719A true CN110850719A (zh) 2020-02-28
CN110850719B CN110850719B (zh) 2021-03-30

Family

ID=69605002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911172906.0A Active CN110850719B (zh) 2019-11-26 2019-11-26 一种基于强化学习的空间非合作目标参数自整定追踪方法

Country Status (1)

Country Link
CN (1) CN110850719B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111596677A (zh) * 2020-05-07 2020-08-28 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111624886A (zh) * 2020-06-05 2020-09-04 沈阳航空航天大学 一种基于sarsa的变循环航空发动机推力控制方法
CN112666984A (zh) * 2020-12-29 2021-04-16 北京电子工程总体研究所 一种飞行器追逃博弈方法及系统
CN113139655A (zh) * 2021-03-31 2021-07-20 北京大学 一种基于强化学习的目标追踪的训练方法、追踪方法
CN113282097A (zh) * 2021-06-04 2021-08-20 中国人民解放军战略支援部队航天工程大学 一种geo博弈航天器相对位置非球形摄动误差的控制方法
CN113311851A (zh) * 2021-04-25 2021-08-27 北京控制工程研究所 航天器追逃智能轨道控制方法、装置和存储介质
CN113325704A (zh) * 2021-04-25 2021-08-31 北京控制工程研究所 航天器逆光抵近智能轨道控制方法、装置和存储介质
CN114115307A (zh) * 2021-11-09 2022-03-01 北京航空航天大学 一种基于深度学习的航天器反交会逃逸脉冲求解方法
CN114721296A (zh) * 2022-05-18 2022-07-08 伸瑞科技(北京)有限公司 空间非合作目标抓捕与操控及组合体控制试验装置与方法
CN116954075A (zh) * 2023-07-20 2023-10-27 中国人民解放军战略支援部队航天工程大学 非合作连续推力航天器推力参数辨识方法、系统和设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102759358A (zh) * 2012-03-14 2012-10-31 南京航空航天大学 基于失效卫星表面参考点的相对位姿动力学建模方法
CN103438888A (zh) * 2013-07-24 2013-12-11 西北工业大学 一种对空间非合作目标自主交会的相对导航方法
CN104406598A (zh) * 2014-12-11 2015-03-11 南京航空航天大学 一种基于虚拟滑模控制的非合作航天器姿态估计方法
CN104656666A (zh) * 2015-03-11 2015-05-27 哈尔滨工业大学 针对空间非合作目标的相对轨道设计及高精度姿态指向控制方法
CN105549606A (zh) * 2015-12-21 2016-05-04 北京理工大学 针对失效卫星的超近距离最优防撞接近方法
CN106094565A (zh) * 2016-06-13 2016-11-09 北京航空航天大学 一种航天器自主交会控制系统地面仿真试验方法
CN108181913A (zh) * 2017-12-06 2018-06-19 北京航空航天大学 一种具有指定跟踪性能的航天器自适应容错姿态跟踪控制方法
CN108375904A (zh) * 2018-02-28 2018-08-07 北京航空航天大学 一种非合作目标航天器交会对接最终段饱和控制方法
CN108415443A (zh) * 2018-01-26 2018-08-17 西北工业大学 一种对非合作目标强迫绕飞的控制方法
CN108919649A (zh) * 2018-07-26 2018-11-30 西北工业大学 一种针对故障卫星外包络抓捕的抓捕最优路径设计方法
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN108534784B (zh) * 2018-03-13 2019-06-18 北京控制工程研究所 一种基于空间圆轨迹的非合作航天器自旋角速度估计方法
WO2019126535A1 (en) * 2017-12-21 2019-06-27 The University Of Chicago Combined learned and dynamic control system

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102759358A (zh) * 2012-03-14 2012-10-31 南京航空航天大学 基于失效卫星表面参考点的相对位姿动力学建模方法
CN103438888A (zh) * 2013-07-24 2013-12-11 西北工业大学 一种对空间非合作目标自主交会的相对导航方法
CN104406598A (zh) * 2014-12-11 2015-03-11 南京航空航天大学 一种基于虚拟滑模控制的非合作航天器姿态估计方法
CN104656666A (zh) * 2015-03-11 2015-05-27 哈尔滨工业大学 针对空间非合作目标的相对轨道设计及高精度姿态指向控制方法
CN105549606A (zh) * 2015-12-21 2016-05-04 北京理工大学 针对失效卫星的超近距离最优防撞接近方法
CN106094565A (zh) * 2016-06-13 2016-11-09 北京航空航天大学 一种航天器自主交会控制系统地面仿真试验方法
CN108181913A (zh) * 2017-12-06 2018-06-19 北京航空航天大学 一种具有指定跟踪性能的航天器自适应容错姿态跟踪控制方法
WO2019126535A1 (en) * 2017-12-21 2019-06-27 The University Of Chicago Combined learned and dynamic control system
CN108415443A (zh) * 2018-01-26 2018-08-17 西北工业大学 一种对非合作目标强迫绕飞的控制方法
CN108375904A (zh) * 2018-02-28 2018-08-07 北京航空航天大学 一种非合作目标航天器交会对接最终段饱和控制方法
CN108534784B (zh) * 2018-03-13 2019-06-18 北京控制工程研究所 一种基于空间圆轨迹的非合作航天器自旋角速度估计方法
CN108919649A (zh) * 2018-07-26 2018-11-30 西北工业大学 一种针对故障卫星外包络抓捕的抓捕最优路径设计方法
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王逍等: "非合作目标近距离停靠的自适应位姿联合控制", 《第36届中国控制会议论文集(C)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111596677A (zh) * 2020-05-07 2020-08-28 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111596677B (zh) * 2020-05-07 2021-11-30 北京航空航天大学 一种基于在线学习的航天器临近操作自主控制方法及系统
CN111624886A (zh) * 2020-06-05 2020-09-04 沈阳航空航天大学 一种基于sarsa的变循环航空发动机推力控制方法
CN111624886B (zh) * 2020-06-05 2022-04-08 沈阳航空航天大学 一种基于sarsa的变循环航空发动机推力控制方法
CN112666984A (zh) * 2020-12-29 2021-04-16 北京电子工程总体研究所 一种飞行器追逃博弈方法及系统
CN113139655B (zh) * 2021-03-31 2022-08-19 北京大学 一种基于强化学习的目标追踪的训练方法、追踪方法
CN113139655A (zh) * 2021-03-31 2021-07-20 北京大学 一种基于强化学习的目标追踪的训练方法、追踪方法
CN113311851A (zh) * 2021-04-25 2021-08-27 北京控制工程研究所 航天器追逃智能轨道控制方法、装置和存储介质
CN113325704A (zh) * 2021-04-25 2021-08-31 北京控制工程研究所 航天器逆光抵近智能轨道控制方法、装置和存储介质
CN113325704B (zh) * 2021-04-25 2023-11-10 北京控制工程研究所 航天器逆光抵近智能轨道控制方法、装置和存储介质
CN113282097A (zh) * 2021-06-04 2021-08-20 中国人民解放军战略支援部队航天工程大学 一种geo博弈航天器相对位置非球形摄动误差的控制方法
CN113282097B (zh) * 2021-06-04 2022-07-29 中国人民解放军战略支援部队航天工程大学 一种geo博弈航天器相对位置非球形摄动误差的控制方法
CN114115307A (zh) * 2021-11-09 2022-03-01 北京航空航天大学 一种基于深度学习的航天器反交会逃逸脉冲求解方法
CN114115307B (zh) * 2021-11-09 2024-02-27 北京航空航天大学 一种基于深度学习的航天器反交会逃逸脉冲求解方法
CN114721296A (zh) * 2022-05-18 2022-07-08 伸瑞科技(北京)有限公司 空间非合作目标抓捕与操控及组合体控制试验装置与方法
CN116954075A (zh) * 2023-07-20 2023-10-27 中国人民解放军战略支援部队航天工程大学 非合作连续推力航天器推力参数辨识方法、系统和设备
CN116954075B (zh) * 2023-07-20 2024-04-19 中国人民解放军战略支援部队航天工程大学 非合作连续推力航天器推力参数辨识方法、系统和设备

Also Published As

Publication number Publication date
CN110850719B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110850719B (zh) 一种基于强化学习的空间非合作目标参数自整定追踪方法
CN107490965B (zh) 一种空间自由漂浮机械臂的多约束轨迹规划方法
Wu et al. Mixed fuzzy sliding-mode tracking with backstepping formation control for multi-nonholonomic mobile robots subject to uncertainties: category (3),(5)
Duan et al. ? Hybrid particle swarm optimization and genetic algorithm for multi-UAV formation reconfiguration
Wang et al. Neural adaptive command filtered control for cooperative path following of multiple underactuated autonomous underwater vehicles along one path
CN110083061B (zh) 一种轮式移动机器人控制方法
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
Kapnopoulos et al. A cooperative particle swarm optimization approach for tuning an MPC-based quadrotor trajectory tracking scheme
US20230381956A1 (en) Multi-arm Spacecraft Model Predictive Control Method Based on Mixture of Gaussian Processes, Equipment, and Medium
CN108445768B (zh) 空间机器人操作空间轨迹跟踪的增广自适应模糊控制方法
Imanberdiyev et al. A fast learning control strategy for unmanned aerial manipulators
Hu et al. Proximal policy optimization with an integral compensator for quadrotor control
CN115509251A (zh) 基于mappo算法的多无人机多目标协同跟踪控制方法
Huang et al. Distributed flocking control of quad-rotor UAVs with obstacle avoidance under the parallel-triggered scheme
Wang et al. Intelligent control of air-breathing hypersonic vehicles subject to path and angle-of-attack constraints
Zhang et al. Manipulator-actuated adaptive integrated translational and rotational stabilization for spacecraft in proximity operations with control constraint
CN115431271A (zh) 一种飞行机械臂末端抗干扰指向控制方法
Hou et al. Terminal sliding mode control for quadrotors with chattering reduction and disturbances estimator: Theory and application
Sarrafan et al. High-gain observer-based neural adaptive feedback linearizing control of a team of wheeled mobile robots
Andaluz et al. Coordinated cooperative control of mobile manipulators
CN116360258A (zh) 基于固定时间收敛的高超声速变形飞行器抗干扰控制方法
CN115524969A (zh) 一种提高空间交会对接模型预测控制运算速度的方法
Yan et al. Adaptive and intelligent control of a dual-arm space robot for target manipulation during the post-capture phase
Ma et al. Cooperative game-based optimization of flexible robust constraint following control for spacecraft rendezvous system with uncertainties
CN111552317B (zh) 一种多航天器四维协同轨迹确定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant