CN110850719A

CN110850719A - 一种基于强化学习的空间非合作目标参数自整定追踪方法

Info

Publication number: CN110850719A
Application number: CN201911172906.0A
Authority: CN
Inventors: 师鹏; 王逍; 张冉; 邓忠民; 赵育善; 徐添
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2020-02-28
Anticipated expiration: 2039-11-26
Also published as: CN110850719B

Abstract

本发明涉及一种基于强化学习的空间非合作目标参数自整定追踪方法，包括以下步骤：第一步，建立追踪星与目标星的相对动力学模型，设计控制律；第二步，根据第一步的动力学模型及控制律，建立基于强化学习的参数自整定学习框架；第三步，根据第二步的所述学习框架，与环境交互以迭代优化控制参数，最终实现对情形(a)的初始加速度降低及对情形(b)的终端跟踪误差降低；所述(a)失效卫星(b)带机动非合作目标。

Description

一种基于强化学习的空间非合作目标参数自整定追踪方法

技术领域

本发明涉及一种基于强化学习的空间非合作目标参数自整定追踪方法，属于空间飞行器技术领域。

背景技术

随着人们对空间飞行器研究的不断进展，对航天交会对接提出了更高的需求，对空间合作目标的研究逐渐拓展至对空间非合作目标的研究。空间非合作目标大致包含两类：一类是失效航天器，一般在空间中呈自旋状态。另一类是带有机动能力的非合作航天器，具有不受控且有产生空间对抗可能的特征。对非合作目标的跟踪接近技术进行研究，有利于轨道垃圾清除，回收重要零部件，预警空间威胁等。

对失效航天器的在轨操作，对于航天技术的长远发展意义重大。面向非合作航天器的自主停靠技术是实施对失效目标近距离停靠和对失效卫星跟踪瞄准的基础。在这一过程中，最为核心的步骤就是解决航天器相对运动中的姿轨联合控制问题并考虑处理模型中的不确定性。PAN H以航天器编队飞行为背景，建立了相对姿轨耦合动力学方程，并设计了质量与惯量未知的自适应控制律(参见Haizhou Pan and Vikram Kapila.Adaptivenonlinear control for spacecraft formation flying with coupled translationaland attitude dynamics.In Proceedings of the IEEE Conference on Decision andControl,volume 3,pages2057-2062,02 2001.)。

空间中还有一类非合作目标，即带机动能力的空间目标。随着空间竞争的加剧，对带机动能力非合作目标的跟踪控制技术越来越受到重视。与对失效卫星的逼近不同，对带机动能力目标的跟踪控制更多地体现在追逃问题，也称空间博弈问题。在航空航天追逃问题领域，HORIE K和CONWAY B A以空战对抗为背景，基于双方极值原理，研究了半直接配点法，给出了空战博弈求解方法,CONWAY B A随后继续将半直接配点法拓展到卫星三维空间对抗问题中，并用遗传算法辅助寻找数值解初值(参见Mauro Pontani and BruceA.Conway.Numerical solution of the three-dimensional orbital pursuit evasiongame.Journal of Guidance Control&Dynamics,32(32):474-487,2009.)。

对于第一类非合作目标，过去的研究工作较好地解决了对目标星和追踪星之间的相对位姿建模与控制问题，用多种控制算法及最优控制来对问题进行求解，对于能量消耗及输入受限问题等问题也有所讨论。但是，在众多控制算法中，控制参数的选取问题鲜少被提及，通常学者们采取试错法来选取合适的参数。参数选择不够好，会导致初始控制加速度过大，机构易饱和，虽然有学者从输入受限的角度从理论上优化控制器设计过程，本发明将从另一个角度讨论如何利用强化学习直接对控制参数进行优化，降低初始控制加速度。

对于第二类非合作目标，从追踪星的追踪效果来看，博弈求解方法可以提供一种最糟糕条件下的控制方法，但涉及到复杂的HJB方程求解，使得该方法计算困难，动态性较差且抗模型不确定能力弱。而从反馈控制的角度出发所设计的控制器，尤其针对可能为非线性系统模型时，对固定时间的终端跟踪误差进行控制比较困难。本发明将利用强化学习，对控制参数进行调整，降低固定时间追逃问题中追踪星的终端跟踪误差。

对于空间非合作目标跟踪问题，无论目标为第一种还是第二种，国内外学者都有着不同程度的研究，得出了许多具有实际意义的成果。总的来看，跟踪控制器设计的基本思路还是基于稳定性理论，用以保证跟踪系统的稳定性。但在实际模拟实验中，控制器参数的选择，将极大地影响控制效果，导致跟踪效果不好甚至导致系统不稳定。在过往的文献中，一般作者都直接给定了控制参数，并在该参数的基础上讨论控制性能，并没有深入讨论参数对跟踪效果的作用。而对空间非合作目标的跟踪控制，考虑到燃料成本及控制精度的硬性需求，需要更加精细的控制器。如在对失效慢旋目标的跟踪过程中，由于初始误差较大，往往容易导致初始加速度较大，易使得执行机构饱和；而在对带机动非合作目标跟踪中，控制参数的选取，将对末端跟踪误差产生较大的影响。因此，控制参数在对非合作目标跟踪中有着很大的影响，精细地调节控制参数，将改善跟踪效果或跟踪性能。

强化学习为机器学习的一种，与动态规划理论，最优控制理论等都有较为紧密的联系。Actor-Critic法为目前强化学习中最有活力的分支，在引入神经网络对状态和行为进行泛化后，维数灾的问题被解决，强化学习可以广泛应用在智能体的控制上。目前已公开专利中，涉及强化学习及相学习算法(如深度学习等)在空间非合作目标领域应用的，有来自西安微电子技术研究所的“一种基于深度增强学习的空间非合作目标捕获方法”和来自西北工业大学的“基于深度学习的空间非合作目标姿轨一体化参数估计方法”。

在“一种基于深度增强学习的空间非合作目标捕获方法”中(公开号：CN109625333A)，该发明通过构建卷积神经网络，对控制飞行器的控制力与控制力进行深度增强训练，以获得非合作目标捕获策略。本发明与该发明的主要区别是：(1)本发明包含了两种非合作目标：(2)本发明是对控制参数进行训练，而非直接对控制力及控制力矩。

在“基于深度学习的空间非合作目标姿轨一体化参数估计方法”中(公开号：CN109284530A)，该发明提出了一种神经网络参数估计算法用以对空间非合作目标的相关状态信息进行估算。本发明与该发明的主要区别是：本发明是通过对服务飞行器的控制参数进行训练，用以提升对非合作目标跟踪的性能，该发明是对非合作目标的状态参数进行估算，主要为信息收集功能。

对于情形(a)失效卫星跟踪任务，现有控制策略较少考虑实际执行时控制加速度饱和的情况，虽有部分研究考虑了饱和情况，但设计过程繁琐，推导复杂，不利于应用。对于情形(b)带机动非合作目标跟踪任务，从微分博弈推导的控制算法不具备动态性，而自适应控制又难以在固定时间的终端控制跟踪误差。总之，对于这两种典型的非合作目标跟踪任务场景，现有技术均尚未充分挖掘控制参数对非合作目标跟踪效果影响。

发明内容

本发明的技术解决问题是：为了充分发掘控制参数对非合作目标跟踪效果的作用，避免对于情形(a)失效卫星跟踪中为降低控制加速度而进行的复杂推导，和情形(b)带机动非合作目标固定时间终端跟踪误差难以控制的情况，克服现有技术的不足，提供一种基于强化学习的空间非合作目标参数自整定追踪方法，本发明针对两种空间非合作目标(a)失效卫星(b)带机动非合作目标，降低了情形(a)中的服务星初始控制加速度，提高了情形(b)中的服务星终端跟踪精度。

本发明技术解决方案：一种基于强化学习的空间非合作目标参数自整定追踪方法，包括以下步骤：

第一步，建立追踪星与目标星的相对动力学模型，设计控制律。

第二步，根据第一步的动力学模型及控制律结构，建立基于强化学习的参数自整定学习框架。

第三步，根据第二步的学习框架，与环境交互以迭代优化控制参数，最终实现对情形(a)的初始加速度降低及对情形(b)的终端跟踪误差降低。

所述第一步具体实现如下：

(1)建立追踪星与目标星的相对动力学模型

对于情形(a)：

设追踪星质心C相对于目标星点P的相对位置、相对速度{r_re,v_re}，相对姿态、相对角速度{q_re,ω_re},建立追踪星相对于目标星的相对位置动力学模型。

对于情形(b)：

追逐航天器P需要对非合作逃逸航天器E进行跟踪。建立参考轨道坐标系Ox_oy_oz_o(O系)，可得追踪星相对于目标星的相对位置动力学模型。

(2)设计相应控制律

对于情形(a)：

引入追踪星的质量m、转动惯量J_c和追踪星所受有界干扰力d_f及有界干扰力矩d_τ和目标星的转动惯量J_t可能存在的5种不确定性。根据李雅普诺夫稳定性原理，设计跟踪失效卫星的自适应控制律。

对于情形(b)：

在跟踪带机动的非合作目标时，首先考虑当目标不存在机动能力时，即

时，设计目标无机动时的PD控制。进一步，考虑当目标存在机动时，则该PD控制律进行修正，用以保证闭环系统稳定性。由此可分别得倒x，y和z通道的自适应控制律。

所述第二步具体实现如下：

(1)建立模糊推理系统

由于本发明所提出的控制算法为在连续系统下设计的连续控制律，需要利用泛化技术，解决维数灾问题。因此，用零阶T-S模糊系统作为函数逼近和策略逼近器。通过将预处理后的跟踪误差定义为模糊系统的输入，将模糊推理系统分别用于执行器(Actor)和评价器(Critic)上。

(2)设计单回路参数自整定学习框架

对系统进行通道拆分，各通道独立学习。每个通道具有1个执行器，2个评价器，共有x、y和z三通道，则系统共存在3个执行器和6个评价器用于评价当前的价值。

每个通道中两个评价器分别用来评价当前状态价值V_x(t)和下一个状态的价值V_x(t+1)，执行器根据当前状态给出控制系数k_x1和k_x2，将控制系数带到前述控制律中，可根据环境得到当前回报和下一个时刻的状态。根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δ_t。根据Δ_t可对评价器和执行器的组成参数进行调节。

所述第三步具体实现如下：

(1)与环境交互，优化控制参数

跟踪系统在给定控制参数κ₀作用下，对目标进行跟踪，系统收敛。以κ₀作用下产生各通道产生的最大误差的范数作为基准，则可以对跟踪误差进行预处理。为降低控制器初始加速度，需设计相应的回报函数r(t)。根据梯度下降法，可对第i通道的执行器和评价器进行参数更新，通过执行器，可获得优化后的控制参数集κ。

(2)完成控制参数优化过程

对于情形(a)，通过本发明的学习框架对控制参数进行自整定，可以达到降低初始控制加速度的目的。

对于情形(b)，通过强化学习对控制参数进行整定，不仅可以使得终端偏差渐渐修正，同样可以使得跟踪过程中尽量贴近目标。

本发明基于强化学习理论，结合模糊推理系统，提出非合作目标跟踪过程中的控制参数自整定方法，分别针对失效慢旋空间非合作目标和带机动能力的空间非合作目标进行控制器设计。在对失效慢旋目标跟踪中，通过模糊系统，建立控制参数与跟踪误差之间的关系，使得控制参数随着误差的变化而平稳过渡，从而在可容许的终端误差范围内，大幅降低初始控制加速度，并对控制参数自整定前后对跟踪效果的影响进行了讨论。而在对机动目标的跟踪中，通过控制参数自整定，可降低末端跟踪误差，同时本发明讨论了参数自整定控制律和通过微分博弈求解的控制律的区别，微分博弈控制虽然可在末端达到几乎零误差，但飞行过程中不够贴近目标，而参数自整定控制律则通过对参数进行调节，可在一定末端可容许误差范围内，在跟踪过程中更贴近目标。

本发明在以下几点上作出了改进：(1)针对失效卫星自适应控制律，减缓初始控制加速度，避免机构饱和可能性；(2)针对固定时间段机动非合作目标跟踪问题，降低终端跟踪误差，并使得跟踪过程中追踪星尽量贴近目标。

附图说明

图1为本发明方法实现流程图；

图2为本发明中追踪星与失效卫星相对位置关系示意图；

图3为本发明中失效卫星上特征点位置示意；

图4为本发明中x通道学习逻辑示意图；

图5为本发明中的x通道评价器模糊推理图；

图6为本发明中目标星上特征点与期望悬停位置示意图

图7为本发明中强化学习参数自整定控制下的相对状态变化曲线；

图8为本发明中参数自整定前后控制下的控制加速度对比(a)；

图9为本发明中参数自整定前后控制下的控制加速度对比(b)；

图10为本发明中强化学习过程中各通道最大控制加速度变化曲线；

图11为本发明中强化学习追逃轨迹与博弈最优追逃轨迹；

图12强化学习终端误差修正过程；

图13强化学习过程中x、y通道终端误差修正。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1所示，本发明方法具体实现如下：

1失效慢旋的空间非合作目标跟踪控制

1.1问题描述

在该场景中，目标为失效卫星，在空间中呈慢旋状态。假设有一颗追踪星，需要对目标卫星上的某一特定特征点，进行抓捕或跟踪拍摄。在这一过程中，需要同时对目标与追踪星间的相对位置与相对距离进行控制。控制过程中，同时受到多种不确定性。

为方便问题描述，采取如下坐标系：

1)地心惯性坐标系Ox_iy_iz_i(F_i系)。

2)目标星本体坐标系Ox_bty_btz_bt(F_bt系)。

3)追踪星本体坐标系Ox_bcy_bcz_bc(F_bc系)，假设x_bc轴上搭载有对目标观测的星载敏感器。

4)参考坐标系Ox_dy_dz_d(F_d系)，原点在追踪航天器质心，x_d轴指向目标星特征点，其他两轴与x_d轴的关系与y_bc和z_bc与x_bc的关系一致。

设追踪星的质心为C点，到惯性系原点O的距离表示为r_c，目标星(失效卫星)的质心为T点，到惯性系原点O的距离表示为r_t。S表示目标星上的特征点，其在目标星本体坐标系中的位置为s_t。P点为追踪星的质心C在目标星本体坐标系下的期望停靠点。在目标星本体坐标系下，P点距离惯性系原点O、目标星质心T、目标特征点S的距离分别表示为r_pt、p_t和p_t ^*。追踪星质心C相对期望停靠点P的矢量表示为r_e。则其位置关系如图2所示：

定义[w]^×∈R^3×3，对向量w＝[w₁,w₂,w₃]^T满足：

在F_bc系下，追踪星C满足如下方程：

式中：q_c＝[q_c1,q_c2,q_c3,q_c4]^T，是表示追踪星姿态的四元数，{r_c,v_c,q_c,ω_c}分别为F_bc系下的质心C相对于惯性系的位置、速度、姿态和角速度，{f,d_f}分别为F_bc系下的质心C所受到的控制力和扰动力，{τ,d_τ}分别为F_bc下质心C所受到的控制力矩和扰动力矩，{m,J_c}分别为追踪星的质量和转动惯量；Ω(q_c)为姿态矩阵。

在目标星本体坐标系F_bt下，目标星质心T满足如下方程：

式中：q_t＝[q_t1,q_t2,q_t3,q_t4]^T，{r_t,v_t,q_t,ω_t}分别为F_bt系下的质心T相对于惯性系的位置、速度、姿态和角速度，J_t为目标星的转动惯量。

为实现对目标星上特征点S的悬停与姿态跟瞄，当相对特征点悬停距离p_t ^*确定后，需对追踪星施加控制力与控制力矩，对追踪星的位置和姿态进行控制，将图2中的r_e控制到0，使C点与P点重合，同时，使追踪星本体坐标系的x_bc轴指向目标特征点S。

如图2所示，由于{p_t,p_t ^*,s_t}均在F_bt系下，存在几何关系：p_t＝p_t ^*+s_t。当给定对特征点S的期望悬停距离p_t ^*后，通过该几何关系，可转化为对目标质心T的期望悬停距离p_t。当追踪星C满足对目标T点在F_bt系下的相对距离为p_t时，则自然满足对目标特征点S点在F_bt系下的相对距离为p_t ^*。

为使追踪星上的敏感器对准目标星上特征点S，追踪星本体坐标系中的x_bc轴指向该点，如图3所示。

将p_t ^*转换至F_bc系下记为p_c ^*：

其中，

表示从bt系到bc系的转换矩阵。设

则图2中所示的α、γ分别是p_d在bc系下的投影与x_bc轴的夹角，以及该投影与p_d的夹角。

当x_bc指向点S时，α与γ均应为0。定义从追踪星本体坐标系bc系到参考坐标系d系的转换矩阵为

定义第3个转角恒为0(或可根据任务需求解算第三个转角)，可推导出：

为使相对姿态更清晰的表达，将

转化为误差四元数q_e。则q_e为追踪星从当前姿态到目标姿态的相对姿态，是待消除的相对量。

1.2相对动力学模型

在图2中，用{v_t,v_pt}分别表示bt系下目标星质心T，和P点相对于惯性系原点的速度，则可得：

则追踪星质心C相对于目标星点P的相对位置、相对速度{r_re,v_re}可表示为：

设

{q_re,ω_re}为表示追踪星相对于目标星的相对姿态与相对角速度：

式中：M(q_c)为计算四元数差值的特殊矩阵：

假设目标星是刚体，特征点S同样满足公式(2)中的姿态动力学方程。则结合公式(42)～(48)，并利用关系式

可得bc系下追踪星相对于目标星的相对位置动力学模型：

其中，

1.3自适应控制律设计

设q_e＝[q₁,q_v]^T，q_v＝[q₂,q₃,q₄]^T，为实现对目标星特征点的悬停，同时使追踪星的敏感器指向该特征点，假设每个姿态跟瞄的瞬间是平衡的

则其控制目标为：

假设1：转动惯量J_c和J_t均是对称矩阵。

假设2：d_f和d_τ是有界的。

假设3：各状态量的初始值是已知的。

假设4：变量{r_c,v_c,q_c,ω_c}可通过追踪星上安装的传感器直接得到，变量{r_re,v_re,q_re,ω_re}可通过追踪星上携带的测量设备得到(ω_t可由ω_c和ω_e做差得到)。

假设5：追踪星上搭载的姿态与轨道发动机均为理想的连续变推力发动机。

引入追踪星的质量m、转动惯量J_c和追踪星所受有界干扰力d_f及有界干扰力矩d_τ和目标星的转动惯量J_t可能存在的5种不确定性。定义：a＝||J_t ^-1||||J_t||；b＝||J_c ^-1||||J_c||。基于以上，自适应控制律为：

式中，分别为对追踪星的质量m与转动惯量J_c的估计值，

分别为对追踪星所受的扰动d_f和扰动力矩d_τ最大值{d_f,d_τ}的估计值(d_f≥||d_f||，d_τ≥||d_τ||)，

分别表示对N₂、N₃和N₄的估计值，表示为：

其中，

分别表示对a和b的估计值。

自适应参数更新律如下：

2.带机动空间非合作目标跟踪控制

2.1空间追逃问题

在该场景中，目标为带机动能力的非合作逃逸航天器E，追逐航天器P需要对逃逸航天器进行跟踪。假设追逐航天器P和逃逸航天器E都在近地轨道上，追逐航天器希望接近逃逸航天器，逃逸航天器希望远离追逐航天器。建立参考轨道坐标系Ox_oy_oz_o(O系)，取追逐航天器P和逃逸航天器E附近某一参考轨道上的动点o作为动坐标原点，选取x轴为参考点o和地心的连线方向，y轴为参考点o沿轨道的运动方向与x轴垂直，z轴与x、y轴成右手定则。

追逐航天器P在O系中的位置分量为{x_P,y_P,z_P}，逃逸航天器E在O系中的位置分量为{x_E,y_E,z_E}，用x＝[x_P,x_E]^T，和

分别表示总状态量，追逐航天器状态量和逃逸航天器状态量,和分别表示追逐航天器和逃逸航天器的控制量。为简化表达式，设偏心率e约等于0，设

为o的平均角速度，可得：

定义追逐方P和逃逸方E的相对距离：

则进而可得：

式(56)为经典的航天器相对运动的C-W方程。因本发明主要讨论的重点在于控制参数对跟踪控制的影响，而非轨道偏心率或轨道摄动对控制的影响，因此，此处选用较为经典的C-W模型。

2.3追踪星PD控制律设计

为实现对目标的跟踪控制，其控制目标为：

假设1：变量

可通过追踪星上安装的传感器得到，反馈状态可测；

假设2：追逐航天器上搭载的发动机为理想的连续变推力发动机。

为对式(56)所示的系统设计跟踪控制律，可首先考虑当目标不存在机动能力时，即

时，设计目标无机动时的PD控制：

容易证明式(58)中的控制律是稳定的。

进一步，考虑当目标存在机动时，则需要对式(58)控制律进行修正，用以保证闭环系统稳定性。以x通道为例分析，设x通道的李雅普诺夫函数如下：

对式(59)求导可得：

可见，如要系统稳定，应选取合适的

使得

设

则此可得

设有参数ρ_x，且满足ρ_x≥||η||，则有：

ηa_x-ρ_x||a_x||≤||η||||a_x||-ρ_x||a_x||≤0 (61)

进而可得：

所以：

同理，可得y和z通道的控制量如下：

3.连续系统强化学习

第1和第2部分分别提出了针对失效慢旋空间非合作目标和带机动空间非合作目标的跟踪控制律，所设计的控制器可较好地完成任务，并保证闭环系统稳定。但在这两种控制律中，其核心还是基于反馈控制。因此，控制系数的选择，会较大地影响控制器性能。如果能够改善控制系数，将进一步改善控制器性能，获得更好的跟踪控制律。

强化学习是基于动物心理的智能学习方法，通过“trail-error”法对环境进行感知，通过训练达到学习目标。实际上，许多科研人员在工作中为了选取合适的控制参数，正是“trail-error”法，通过观察控制器性能，反复调节控制参数，以达到期望性能。因此，选用强化学习方法用以训练控制参数，改善控制效果，是十分有前景的。

3.1模糊推理系统

由于所提出的控制算法均为在连续系统下设计的连续控制律，而传统的强化学习是基于表格的离散系统模型进行算法设计。因此，需要利用泛化技术，解决维数灾问题。

为解决强化学习在大规模和连续状态空间中的泛化，此处用零阶T-S模糊系统作为函数逼近和策略逼近器。设模糊系统含有L条规则，每条规则有n个模糊变量，每条规则的输出是一个常数。模糊推理规则如下：

其中，s_i(i＝1,…,n)是模糊系统的第i个输入，n是输入状态变量的个数，F_i ^l表示输入s_i在规则l下的语言值，z_l表示第l条规则的输出，φ_l为表示每条规则对应的输值。

设每个输入s_i有h个隶属度函数，隶属度

可得，模糊系统的输出如下：

其中，s＝(s₁,…s_n)是状态向量，

表示输入状态变量s_i在规则l下的隶属度函数，Ψ_l(s)表示为：

3.2自启发式强化学习

强化学习是一种与环境进行交互的学习方法，智能体通过从环境获得的收益r来优化自身的行为，从而使得总收益最大。在马尔可夫过程下，强化学习的值函数可表示为：

其中，γ∈[0,1)为折扣因子，r_i为智能体从环境获取的即时回报。

为求解连续行为空间Markov决策问题的强化学习算法，一类称为自适应启发评价(AHC)的强化学习算法得到了广泛的研究和应用。在AHC学习算法中，分别对Markov决策过程的值函数和策略函数进行逼近，构成的学习控制结构通常称为Actor-Critic结构。其中，评价器(Critic)用于对值函数进行估计，执行器(Actor)用于决定决策器的决策量。将模糊推理系统分别用于执行器和评价器上。为实现残差迭代，需要2个评价器，分别用于对当前时刻值V_t(s_t)和下一时刻值V_t(s_t+1)的进行评价。时间差分信号可定义为：

Δ_t＝r_t+γV_t(s_t+1)-V_t(s_t) (70)

定义差分信号的方差E如下：

评价器结构采用零阶T-S模糊推理系统，则评价器中的模糊参数自适应更新律如下：

其中，ξ_c是评价器学习速率。进一步，根据梯度法，有：

整理可得：

根据式(68)，上式可以求解。

上述即为评价器的自适应更新算法。对于执行器，设K_t为执行器输出，则其输出参数φ^A的自适应更新算法如下：

其中，ξ_a是执行器学习速率，K_t的偏导数表达如下：

4.基于强化学习参数自整定的非合作目标跟踪控制律

通过第2部分设计的控制器，可以对空间非合作目标进行接近，但很难精细化整个控制过程。虽然有一些学者尝试用最优控制的方法或次优反馈控制的方法对某一类问题的控制算法进行设计，但是，这些方法的适用范围有限，依赖模型的程度较高，且求解困难，不能充分发掘控制参数对控制性能的影响。而通过自启发式强化学习，模仿动物心理法，来找到合适的从跟踪误差到控制参数的映射，可以改善控制效果。与其他的强化学习算法不同，本发明所设计的强化学习算法不直接寻找状态对行为的映射，这是因为航天器飞行过程较为复杂，没有状态与行为间的先验知识，会使得传统强化学习难以进行，因此本发明建立的是跟踪误差与控制参数间的映射，利用了先验知识，不会使得整个学习过程从零探索，而是对可人工设计的控制方法进行精细化设计。

本发明设计的参数整定强化学习过程为单回路学习，单回路学习可以更精确地对每个通道的控制器进行精细调节，使得学习效果更好。虽然由于动力学的一些耦合作用，不同通道之间的控制可能会造成互相影响，但这个影响非常小，本发明忽略了不同通道间的耦合影响作用。

以x通道学习为例，它的示意图如4所示。由图4中可看出，通道中一共存在两个评价器和一个执行器。两个评价器分别用来评价当前状态价值V_x(t)和下一个状态的价值V_x(t+1)，执行器根据当前状态给出控制系数k_x1和k_x2，将控制系数带到前述控制律中，可根据环境得到当前回报和下一个时刻的状态。根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δ_t。根据Δ_t可对评价器和执行器的组成参数进行调节。

评价器和执行器由模糊推理系统(FIS)组成。在单通道(x通道)中，FIS共有两个输入s₁和s₂。s₁和s₂分别与跟踪误差x和

有关。需要说明的是，由于x和

是随着时间不断变化的，其数值没有范围限制。但对于模糊推理系统，如果输入的范围不受限，那么确定模糊规则是非常困难的。因此，为了使模糊推理系统的输入能够在一定范围内变化，需要对x和进行一定预处理，将模糊推理系统的输入固定在[0,1]之间。预处理的方法在下面将会提到。

评价器模糊推理规则如图5所示，其模糊推理规则如下：

在本发明的评价器设计中，分别对两个输入赋予3个模糊函数，一共6个模糊函数，组成9条模糊规则。V_x用来表示x通道评价器的最终输出，如图5所示。由图5可知，s₁和s₂分别对应模糊函数{A₁,A₂,A₃}和{A₄,A₅,A₆}。以{A₁,A₂,A₃}为例，隶属度可表示为：

其中，A₁和A₂为高斯隶属度函数，A₃为S型隶属度函数。第三个隶属度函数取为S型函数的好处在于，可以完全覆盖输入的范围，防止有极端情况出现输入大于1而没有对应隶属度的情况。根据输入的隶属度，可以计算输入对应的输出：

执行器的模糊推理过程与评价器的过程基本完全一致，区别在于每个隶属度对应的参数：

4.1失效慢旋卫星跟踪控制律

在第1部分中，失效慢旋卫星跟踪的自适应控制律设计如式(12)。为了将各通道进行区分，定义κ_i(i＝x,y,z,u,v,w)为第i通道的控制参数组合，κ＝{κ_x,κ_y,κ_z,κ_u,κ_v,κ_w}表示整个控制参数集。

式(12)所设计的控制器可以较好地对失效慢旋卫星上的特征点进行跟踪接近，能够完成任务的基本需要。假设跟踪系统在给定控制参数κ₀作用下，对目标进行跟踪，系统收敛。在κ₀作用下，跟踪误差可以有效衰减，但由于初始误差较大，控制器启动加速度较大，易使得执行机构出现饱和情况，为了缓解控制器启动加速度较大的情况，需要引入模糊推理系统及Actor-Critic强化学习框架。

以κ₀作用下产生各通道产生的最大误差的范数作为基准，则可以对跟踪误差进行预处理。以x通道为例，可由跟踪误差x和

得模糊系统的输入s₁和s₂。

对其他通道的预处理过程也是类似的。

为降低控制器初始加速度，需设计相应的回报函数r(t)。回报函数为整个学习过程的核心，学习系统将根据回报获得的奖励或惩罚情况，对控制参数进行自整定。此处设计的回报函数r(t)如下。

由回报函数结构可知，当控制器输出大于ε时，系统将获得一个负向回报，用以减退当前系统状态下对应的控制参数选取倾向。根据式(74)到式(77)可对第i通道的

和κ_i进行参数更新。

4.2带机动非合作目标跟踪控制律

采用式(63)到式(65)的控制器，可以对带机动非合作目标进行跟踪控制，并且系统是稳定的。这样PD结构的控制形式，使得控制器容易设计，并且鲁棒性高。但是，对于固定追逃时间的问题来说，难以对终端跟踪误差进行把控，尤其是在目标存在机动的情况下。虽然可以用最优控制的思想或其他次优反馈的思路来解决这一问题，但容易面临HJB方程难解问题或模型高度依赖等问题。本发明引入强化学习的方式，可在容易实现的控制器上，对其参数进行自整定，避免了复杂控制器设计问题。

同4.1节一样，建立学习框架之前，需要对系统进行通道拆分，各通道独立学习。每个通道具有1个执行器，2个评价器，共有x、y和z三通道，则系统共存在3个执行器和6个评价器用于评价当前的价值。

为减小跟踪机动非合作目标的终端误差，需要引入模糊推理系统，并且同样需要对模糊推理系统的输入进行预处理。与4.1节不同，此处要选取的参考基准为当全部控制系数全部为0时，整个过程中的最大跟踪误差。以x通道为例，有，

一般情况x_max≠0,

由执行器得到k_x1和k_x2后，可计算得到x通道的控制量：

同理，可得y和z通道的控制量分别为：

根据时间差分，可得到差分量Δ_t，执行器和评价器中的参数可根据Δ_t来对自身的参数进行调节，从而完成整个学习过程。以x通道为例，Δ_t可根据前后两个时刻的评价器和即时回报计算而得，

Δ_t＝r_t+γV_x-V_x (89)

其中，γ为折扣因子，γ∈(0,1)，r_t为采用当前机动下的即时回报。对于x通道，此处设计的即时回报如下，其中，R_x是可以指定的x方向的可接受跟踪间距，

由r_t结构可知，当x方向的跟踪误差还未达到要求时，系统将获得正向回报，以刺激模糊系统给出当前状态下对应的更大的控制系数。由式(74)到式(77)可对执行器和评价器进行参数更新。y和z通道的回报函数设计方法及参数更新方法与x通道的方法一致。

总体来说，通过x、y和z通道的分别学习，可以使得原控制律中的参数得到更好的调节，从而使得跟踪效果更好。采用这种方法，不仅结合了反馈控制的优势，还能够对控制参数进行优化，使得结果更加贴合要求。并且，在整个学习过程中，训练数据是完全来源于环境本身的，而不依赖模型本身。

5.数值仿真

5.1基于强化学习的失效慢旋目标参数自整定追踪算法仿真

假设失效卫星(目标星)在太空中不受干扰且无机动，呈自然旋转状态，初始姿态相对于惯性系为q_t＝[1，0，0，0]^T，并假失效卫星的初始角速度为ω_t＝[0.1，0.1，0.1]^T(rad/s)。在满足安全条件的情况下，追踪星对目标星上一特征点S进行悬停。仿真期望目标为：对目标星特征点进行悬停，同时使追踪星上搭载的敏感器(搭载于x_bc轴上)指向特征点。

值得注意的是，考虑到实际情况下，对特征点S的期望对其悬停的位置应处于对该特征点的可见范围内，如图6所示。因此，假设特征点S位于目标星上的某一面上，在目标星本体坐标系下的位置为：s_t＝[0.5，0.5，0.5]^T(m)，并假设对S点的期望悬停位置在目标星本体坐标系下为p_t ^*＝[3，0，0]^T(m)。

取追踪星与目标星的初始状态相关参数如下：

表1初始状态相关参数

设追踪星和失效卫星的转动惯量(单位kg·m²)分别如下：

设追踪星受如下干扰力和干扰力矩：

自适应更新相关参数如下：

表2自适应更新参数

表3自适应参数初始值

设κ₀中的控制参数全为2，取仿真时间50s，仿真步长0.1s，下标最右的{x,y,z}表示变量在bc系中的分量，模糊系统隶属度函数如下。

由图7可见，在本发明提出的参数自整定算法作用下，位置与姿态跟踪误差都逐渐衰减倒0，控制精度高且反应灵敏。图8-图9对比了参数整定前后各通道控制加速度的变化。由图中可知，在控制初期，控制加速度较大，在本发明所提算法的作用下，初期的控制加速度出现了明显下降，但并未改变整体走势。图10直观的展现了在强化学习过程中，各通道在控制过程中所产生的最大加速度随着学习次数的变化趋势。可以看出，

和都随着学习过程而最大数值产生了显著的下降，其中，

下降43％，

下降67％，下降66％，

下降54％。可见，通过引入强化学习对控制参数进行自整定，可以达到降低初始控制加速度的目的。通过参数自整定方法，在不影响原有控制器结构的基础上，用理论化的参数调节方式替代人工经验手调法，极大地优化了控制效果。

和

数值略微上升的原因是两通道的误差本身就小，产生的控制加速度也小，未达到需要进行整定的条件。，但由于其他通道进行了整定，通道间的耦合作用引起了数值略微上升。

5.2基于强化学习的带机动目标参数自整定追踪算法仿真

假设参考轨道为半长轴为10⁴km的圆轨道，追踪星与目标星在参考轨道附近运动。用x_p0、x_e0分别表示追踪星和逃逸星相对于参考轨道的初始值，向量的前三位表示相对位置，单位为m，后三位为相对速度，单位为m/s，相对状态初值如下。

表4相对参考轨道初始值

对于固定时间的机动目标追踪问题，有航天博弈理论从双方极值原理出发，推导了追踪星和逃逸星的双方最优解。为了对比本发明提出的方法，与博弈论所推导的最优解之间的不同，此处仿真中逃逸星所采取的机动措施，正是基于博弈论推导的逃逸星最优机动策略，并在仿真中对比了博弈论中追踪星机动策略与本发明提出的追踪控制律之间的不同。

当κ₀中的参数全为0时，得到最大状态误差作为模糊系统输入预处理参考基准。

模糊函数隶属度函数参数选取与7.1保持一致，取仿真时间3000s，仿真步长10s，仿真结果如图11-13所示。

由图11分别展示了目标飞行轨迹、追踪星博弈最优飞行轨迹和追踪星参数整定飞行轨迹集合。从图11中可看出从航天博弈所推导出来的最优追逃轨迹与强化学习控制算法下的追逃轨迹之间的关系。其中，长虚线是博弈推导出的追踪星最优机动策略，可以有非常高的终端跟踪精度，这是由于这种机动策略在本身就是以终端误差为零为前提而进行推导的。运用这种机动策略，虽然可以保证终端跟踪误差极小，但中途的跟踪过程中，追踪星与逃逸星间的距离难以保证。且这种方法依赖模型程度较高，抗模型不确定性能力较差，很难具备很好的鲁棒性。图11中的最外层的实线，是追踪星未进行参数整定前的修正PD控制算法下的轨迹。可见通过该控制律，可以基本上跟踪机动目标，但由于没有合适的控制参数，跟踪过程及终端效果都不是最佳的。通过强化学习对控制参数进行整定，不仅可以使得终端偏差渐渐修正，同样可以使得跟踪过程中尽量贴近目标。图12中展示了每一次学习的追踪星轨迹变化。可以清晰的看见，每一次学习过程，追踪星都更加向目标贴近，并逐渐降低终端误差。图13从数值上展示了X和Y通道的终端误差修正过程，可见随着学习次数的不断增加，追踪星终端跟踪误差不断减小。

以上虽然描述了本发明的具体实施方法，但是本领域的技术人员应当理解，这些仅是举例说明，在不背离本发明原理和实现的前提下，可以对这些实施方案做出多种变更或修改，因此，本发明的保护范围由所附权利要求书限定。

Claims

1.一种基于强化学习的空间非合作目标参数自整定追踪方法，其特征在于，包括以下步骤：

第一步，针对(a)失效卫星，(b)带机动非合作目标的两种情形，分别建立追踪星与目标星的相对动力学模型，设计控制律；

第二步，根据第一步的动力学模型及控制律，建立基于强化学习的参数自整定学习框架；

第三步，根据第二步的所述学习框架，通过由模糊系统组成的执行器Actor和评价器Critic部分，分别获取当前控制参数和当前状态对应的值函数，通过与智能体所处环境交互，获取下一状态值函数与回报，基于时间差分法与梯度下降法，通过迭代逐次优化控制参数进行学习；学习结束时，得到优化后的控制参数，最终实现对情形(a)的初始加速度降低和情形对(b)的终端跟踪误差降低。

2.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法，其特征在于：所述第一步具体实现如下：

(1)建立追踪星与目标星的相对动力学模型

对于情形(a)：

设追踪星质心C相对于目标星点P的相对位置、相对速度{r_re,v_re}，相对姿态、相对角速度{q_re,ω_re},建立追踪星相对于目标星的相对位置动力学模型；

其中，ω_c为质心C在追踪星本体坐标系下相对于惯性系的角速度，ω_t为质心T在目标星本体坐标系下相对于惯性系角速度，p_t为追踪星C满足对目标T点在目标星本体坐标系下的相对距离，

表示从目标本体坐标系到追踪星本体坐标系的转换矩阵，J_t为目标星的转动惯量，{f,d_f}分别为目标本体坐标系下的质心C所受到的控制力和扰动力，{τ,d_τ}分别为目标本体坐标系下质心C所受到的控制力矩和扰动力矩，{m,J_c}分别为追踪星的质量和转动惯量，Ω(q_c)为姿态矩阵；

对于情形(b)：

追逐航天器P需要对非合作逃逸航天器E进行跟踪，建立参考轨道坐标系Ox_oy_oz_o，即O系，设偏心率e约等于0，ω^*为轨道角速度，得到追踪星相对于目标星的相对位置动力学模型；

其中，{x,y,z}分别表示追逐方P，和逃逸方E在三个方向上的相对距离,

和

分别表示追逐航天器和逃逸航天器的机动控制量；

(2)基于步骤1(1)中的动力学模型设计相应控制律

对于情形(a)：

基于步骤1(1)中(a)情况中的动力学模型，引入包括追踪星的质量m、转动惯量J_c和追踪星所受有界干扰力d_f及有界干扰力矩d_τ和目标星的转动惯量J_t在内的5种不确定性，根据李雅普诺夫稳定性原理，设计跟踪失效卫星的自适应控制律；

式中，a＝||J_t ^-1|| ||J_t||，b＝||J_c ^-1|| ||J_c||，分别为对追踪星的质量m与转动惯量J_c的估计值，

分别表示对a和b的估计值，{k₁,k₂,k₃,k₄}表示待优化的控制参数；

自适应参数更新律如下：

其中，{γ₁,γ₂,γ₃,γ₄,γ₅,γ₆}表示自适应更新参数；

对于情形(b)：

在跟踪带机动的非合作目标时，首先考虑当目标不存在机动能力时，即时，设计目标无机动时的PD控制，再考虑当目标存在机动时，则该PD控制律进行修正，用以保证闭环系统稳定性，对于x通道，设

得到x通道的自适应控制律：

同理，得到y和z通道的控制量如下：

3.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法，其特征在于：所述第二步具体实现如下：

(1)建立模糊推理系统

采用零阶T-S模糊系统作为函数逼近和策略逼近器，通过将预处理后的跟踪误差s₁和s₂定义为模糊系统的输入，将模糊推理系统分别用于执行器Actor和评价器Critic上；

在评价器设计中，根据输入的隶属度，计算输入对应的输出：

定义差分信号的方差E如下：

其中，ξ_c是评价器学习速率。进一步，根据梯度法，有：

整理得：

上述即为评价器的自适应更新算法。对于执行器，定义K_t是执行器输出，其输出参数φ^A的自适应更新算法如下：

其中，ξ_a是执行器学习速率，K_t的偏导数表达如下：

(2)基于前述步骤(1)中所设计的执行器与评价器部分，设计单回路参数自整定学习框架；

情形(a)：

对追踪星的控制系统进行拆分，共有x、y、z、u、v、w六通道，各通道独立学习，每个通道具有1个执行器，2个评价器，则整个控制系统共存在6个执行器和12个评价器用于评价当前的价值；

对于x通道，通道中两个评价器分别用来评价当前状态价值V_x(t)和下一个状态的价值V_x(t+1)，执行器根据当前状态给出控制系数k_x1和k_x2；对于y通道，通道中两个评价器分别用来评价当前状态价值V_y(t)和下一个状态的价值V_y(t+1)，执行器根据当前状态给出控制系数k_y1和k_y2；对于z通道，通道中两个评价器分别用来评价当前状态价值V_z(t)和下一个状态的价值V_z(t+1)，执行器根据当前状态给出控制系数k_z1和k_z2；对于u通道，通道中两个评价器分别用来评价当前状态价值V_u(t)和下一个状态的价值V_u(t+1)，执行器根据当前状态给出控制系数k_u3和k_u4；对于v通道，通道中两个评价器分别用来评价当前状态价值V_v(t)和下一个状态的价值V_v(t+1)，执行器根据当前状态给出控制系数k_v3和k_v4；对于z通道，通道中两个评价器分别用来评价当前状态价值V_z(t)和下一个状态的价值V_z(t+1)，执行器根据当前状态给出控制系数k_z3和k_z4,设k₁＝[k_x1,k_y1,k_z1]^T,k₂＝[k_x2,k_y2,k_z2]^T,k₃＝[k_u3,k_v3,k_w3]^T,k₄＝[k_u4,k_v4,k_w4]^T,将控制系数带到如下控制律中，

随后，根据智能体所处环境得到当前回报和下一个时刻的状态，根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δ_t，根据Δ_t对评价器和执行器的组成参数进行调节；

情形(b)：

对追踪星的控制系统进行拆分，共有x、y和z三通道，各通道独立学习，每个通道具有1个执行器，2个评价器，则整个控制系统共存在3个执行器和6个评价器用于评价当前的价值；

对于x通道，通道中两个评价器分别用来评价当前状态价值V_x(t)和下一个状态的价值V_x(t+1)，执行器根据当前状态给出控制系数k_x1和k_x2，然后，计算得到x通道的控制量：

同理，得到y和z通道的控制量分别为：

随后，根据智能体所处环境得到当前回报和下一个时刻的状态，根据当前回报、当前状态价值和下个状态价值可计算得到时间差分项Δ_t，根据Δ_t对评价器和执行器的组成参数进行调节。

4.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法，其特征在于：所述第三步具体实现如下：

(1)跟踪误差预处理与回报函数设计

情形(a)：

在给定控制参数κ₀作用下，式(18)所示的控制器对目标进行跟踪，各通道跟踪误差收敛，以κ₀作用下产生各通道产生的最大误差的范数作为基准，则对跟踪误差进行预处理，对于x通道，由跟踪误差x和

得模糊系统x通道的输入s₁和s₂；对于y通道，由跟踪误差y和

得模糊系统y通道的输入s₁和s₂；对于z通道，由跟踪误差z和得模糊系统z通道的输入s₁和s₂；对于u通道，由跟踪误差u和得模糊系统u通道的输入s₁和s₂；对于v通道，由跟踪误差v和

得模糊系统v通道的输入s₁和s₂；对于w通道，由跟踪误差w和w得模糊系统w通道的输入s₁和s₂。

对于x通道，根据时间差分，得到差分量Δ_t，Δ_t根据前后两个时刻的评价器和即时回报计算得到，

Δ_t＝r_t+γV_x-V_x (23)

其中，γ为折扣因子，γ∈(0,1)，r_t为x通道内采用当前机动下的即时回报，此处设计的回报函数r(t)如下：

对于y通道，根据时间差分，得到差分量Δ_t，Δ_t根据前后两个时刻的评价器和即时回报计算得到，

Δ_t＝r_t+γV_y-V_y (25)

其中，γ为折扣因子，γ∈(0,1)，r_t为采用当前机动下的即时回报，此处设计的回报函数r(t)如下：

对于z通道，根据时间差分，得到差分量Δ_t，Δ_t根据前后两个时刻的评价器和即时回报计算得到，

Δ_t＝r_t+γV_z-V_z (27)

对于u通道，根据时间差分，得到差分量Δ_t，Δ_t根据前后两个时刻的评价器和即时回报计算得到，

Δ_t＝r_t+γV_u-V_u (29)

对于v通道，根据时间差分，得到差分量Δ_t，Δ_t根据前后两个时刻的评价器和即时回报计算得到，

Δ_t＝r_t+γV_v-V_v (31)

对于w通道，根据时间差分，得到差分量Δ_t，Δ_t根据前后两个时刻的评价器和即时回报计算得到，

Δ_t＝r_t+γV_w-V_w (33)

由回报函数结构可知，当控制器输出大于ε时，追踪星将获得一个负向回报，用以减退当前系统状态下对应的控制参数选取倾向。由式(74)到式(77)可对执行器和评价器进行参数更新；

情形(b)：

(1)

Δ_t＝r_t+γV_x-V_x (35)

其中，γ为折扣因子，γ∈(0,1)，r_t为采用当前机动下的即时回报；对于x通道，此处设计的即时回报如下，其中，R_x是指定的x方向的可接受跟踪间距，

Δ_t＝r_t+γV_y-V_y (37)

其中，γ为折扣因子，γ∈(0,1)，r_t为采用当前机动下的即时回报；对于y通道，此处设计的即时回报如下，其中，R_y是指定的y方向的可接受跟踪间距，

Δ_t＝r_t+γV_z-V_z (39)

其中，γ为折扣因子，γ∈(0,1)，r_t为采用当前机动下的即时回报；对于z通道，此处设计的即时回报如下，其中，R_z是指定的z方向的可接受跟踪间距，

由r_t结构可知，当某方向的跟踪误差还未达到要求时，系统将获得正向回报，以刺激模糊系统给出当前状态下对应的更大的控制系数；根据梯度下降法可对执行器和评价器进行参数更新；

(2)基于步骤(1)中所设计的回报函数与评价器差分量Δ_t，追踪星与环境交互，优化控制参数，追踪星通过与环境交互，完成控制参数优化过程，具体如下：

①初始化模糊系统；

②计算κ₀作用下的各通道最大跟踪误差；

③对各通道最大跟踪误差进行预处理，各通道的模糊系统输入s₁与s₂；

④基于模糊系统的输入s₁与s₂，通过评价器计算V_t,通过执行器计算K_t；

⑤将K_t代入控制器中，获得控制量u；

⑥智能体在控制量u的作用下与环境交互获得回报r_t，并获得下一时刻V_t+1；

⑦由r_t，V_t与V_t+1，计算差分量Δ_t；

⑧由差分量Δ_t更新模糊推理系统参数φ_C和φ_A；

对于情形(a)，通过学习框架对控制参数进行自整定，达到降低初始控制加速度的目的；

对于情形(b)，通过强化学习对控制参数进行整定，使得仿真时间偏差渐渐修正，同样使得跟踪过程中贴近目标。