CN116331518B

CN116331518B - 一种基于安全自适应动态规划的星群智能编队避碰控制方法

Info

Publication number: CN116331518B
Application number: CN202310040189.6A
Authority: CN
Inventors: 窦立谦; 于卉; 张秀云; 唐艺璠; 张睿隆
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-01-13
Filing date: 2023-01-13
Publication date: 2023-09-26
Anticipated expiration: 2043-01-13
Also published as: CN116331518A

Abstract

本发明公开了一种基于安全自适应动态规划的星群智能编队避碰控制方法，步骤1：建立多卫星编队模型；步骤2：基于安全障碍函数的性能指标函数设计，并依据性能指标函数建立编队避碰控制模型；步骤3：基于自适应动态规划多卫星编队控制器的设计；步骤4：构建评判神经网络以及设计自适应学习算法：针对安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略，采用策略梯度法，对神经网络所有权值的范数进行更新，利用网络输出迭代，最终获得最优控制器。本发明采用上述基于安全自适应动态规划的星群智能编队避碰控制方法，保证多星编队系统的快速稳定，提高自适应动态规划算法的学习效率。

Description

一种基于安全自适应动态规划的星群智能编队避碰控制方法

技术领域

本发明涉及星群编队避碰控制技术领域，尤其是涉及一种基于安全自适应动态规划的星群智能编队避碰控制方法。

背景技术

多卫星编队控制已经成为21世纪航空航天领域的一项重要技术，在军事和民用领域具有广阔的发展空间。随着航空航天技术的不断发展，需要执行的任务和空间环境的复杂度也日益提高，单一飞行器已经无法满足未来的需求。与单颗卫星飞行相比，采用多颗卫星编队飞行完成任务具有可靠性高、可扩展性强、适应性强、自主性强和可重构性强等优势。在实际多颗卫星编队飞行场景中，由于存在卫星之间碰撞以及和空间碎片碰撞的可能，所以设计和实现一种稳定、快速、安全、无碰撞、具有自适应编队和自学习能力的多卫星协同控制器是星群编队控制的研究难点之一。

针对星群自主协同编队控制问题，国内外学者进行了深入的研究，采用了不同的方法，如滑模控制、自抗扰控制、鲁棒控制等，得到了许多不错的成果。例如，2017年，美国斯坦福大学空间交会实验室针对多卫星最优编队控制，采用参考调节器，提出了一种约束卫星编队在任意强扰动轨道上飞行的连续低推力制导控制策略；2018年，西北工业大学的蔡光斌基于有向图设计了一种可消除多跳变时延影响的多航天器编队跟踪控制律，解决了在网络环境中的多航天器编队在跳变时延条件下的一致性问题。值得注意的是，上述方法并未考虑卫星系统的最优控制性能，不能满足卫星机动低燃料消耗的工程需求，且难以自适应应对复杂多变的空间环境，也无法实现观测任务变化时自适应的跟踪控制。针对多智能体最优控制问题，文献N.Zhao,X.Long,andJ.Wang,“A multi-constraint optimalroutingalgorithm in leo satellite networks,”Wireless Netw,2021和文献Q.Zhao,B.Jiang,andX.Yu,“Collaborative mission optimization for ship rapid search by multipleheterogeneous remote sensing satellites,”Journal of Industrial and ManagementOptimization,vol.18,no.4,pp.2805–2826,2022提出了最优编队控制方法，而他们只使用静态系统而不考虑动态系统。因此，这些控制器不能与环境实时交互，缺乏自学习能力，对于复杂的非线性系统例如多卫星系统可能会失效。

基于此，近年来，随着强化学习等人工智能算法的兴起和不断发展，为基于模型的星群自主协同编队控制提供了新的思路。自适应动态规划是一种基于强化学习的算法，在20世纪70年代由Werbos提出。作为一种新的非线性优化方法用于开发最优控制器，自适应动态规划克服了动态规划求解时由于状态信息的增加而导致的维数灾问题。它的主要原理是利用函数近似结构逼近哈密顿-雅可比-贝尔曼(HJB)方程的解，其中函数近似结构主要是指神经网络。在强化学习不断与环境交互进行动作改进的思想下，自适应动态规划通过不断向代价更小的方向更新控制动作并作用于系统，直至获得最小的代价函数，也就是HJB方程的解，此时的控制器可以控制系统实现期望的控制目标。不同于传统控制器中参数预先测试定义的方式，自适应动态规划可以根据系统当前的状态信息在线的学习和调整控制律中的所需参数。

在多卫星编队控制问题中，基于自适应动态规划的研究已经取得了一定的成果。例如，2020年，美国NASA针对在轨航天器控制问题，设计了一种使用双延迟深度确定性策略梯度的自适应航天器姿态控制器，利用强化学习的思想以在不确定动力学环境中实现高精度的多航天器编队控制。同年，同一团队在仿真环境中训练卫星姿态稳定控制器并验证了算法的有效性。2021年，浙江大学的王鑫提出了一种结合深度强化学习和预定义时间稳定性的多卫星编队跟踪控制方法，针对存在外部干扰的情况下，确保在预定义的决策周期内将卫星姿态控制到期望值，验证表明，该算法在跟踪能力和能耗方面具有优势。2022年，北京航空航天大学的胡庆雷提出了一种基于自适应动态规划的领导-跟随卫星编队飞行技术的最优跟踪控制器，并且设计了一种依赖于输入状态的事件触发机制，以确保仅在特定事件发生时开启最优跟踪控制器，显著降低了控制命令的执行频率。

尽管针对卫星编队协同一致性问题已有许多相关的研究，但是伴随着环境复杂性的增加，需要考虑的因素越来越多，例如抵抗空间中存在的多种干扰，提高编队控制的精确程度，以及低能耗的工程需求。此外，当多卫星在近距离进行编队重组时，避碰问题也是一个需要重要考虑的因素。针对避碰问题，现有的避碰方法有人工势场法、障碍函数法、速度障碍法等。例如2019年，哈尔滨工业大学的宋申民针对航天器交互对接问题，基于输入约束下姿态轨道耦合模型，设计非奇异快速终端滑模控制器，并提出了一种安全约束函数方法以满足星间避撞约束；针对空间中的综合干扰问题，2020年，沈阳理工大学的关启学针对航天器编队跟踪问题，通过设计有限时间非线性观测器来在线估计未知扰动，提出一种基于干扰观测器的终端滑模有限时间控制律。2020年，西北工业大学的薛向宏提出一种基于干扰观测器与人工势场法相结合的航天器编队分布式协同控制方法，保证编队航天器之间的队形保持和一致性。然而，在使用上述方法进行多卫星系统编队控制和避免碰撞时存在局限性。首先，这些方法通常用于离散系统，而卫星系统是连续系统；其次，当使用人工势能法时，通常给卫星系统加入一个避碰外力容易影响整个闭环编队系统的稳定性；最后，学习过程中使用的数据不足，导致学习数据不能充分利用。

到目前为止，连续时间多卫星系统在编队最优和避碰控制方面的研究还很少，因此，目前基于自适应动态规划的多卫星编队避碰控制面临的挑战问题如下：

1.如何在连续时间域设计一个能够反映避碰和编队跟踪的性能指标函数，以保证编队系统的稳定性和适应性；

2.为了提高数据的使用效率，在已有的学习算法的基础上，在学习过程中加入经验回放和加入贝尔曼误差外推学习。但是，这些方法不能完全结合历史数据样本和在线更新数据样本，所选样本也有局限性。如何在学习过程中平衡经验回放和外推学习样本也是需要解决的问题。

为解决上述挑战问题，需要提供一种基于自适应动态规划的星群编队避碰控制的研究方法，考虑复杂空间运行环境、具体任务指令以及编队自主避碰需求的综合影响，基于星上传感器等获得的在线状态数据及星间相对距离定义编队误差，设计性能指标函数，保证编队系统的稳定性；结合神经网络的自适应、自学习和映射逼近的优点，构建评判网络和执行器，研究基于自适应动态规划的星群编队控制器设计方法，实现对控制量的在线实时自主优化，以获得星群最优控制器及最优性能指标，提高星群运行的适应性。

发明内容

本发明的目的是提供一种基于安全自适应动态规划的星群智能编队避碰控制方法，通过定义一种全新的性能指标函数和自适应学习方法，保证多卫星编队系统的快速稳定，提高自适应动态规划算法的学习效率。

为实现上述目的，本发明提供了如下技术方案：

一种基于安全自适应动态规划的星群智能编队避碰控制方法，包括以下步骤：

步骤1：建立多卫星编队模型：考虑一个包含n颗从星和一颗领星的多星编队系统，为了进行精确的编队跟踪控制，建立如下所示的第i颗从星的卫星非线性动力学模型：

式中，i＝1,2,···,n表示第i颗从星，p_i＝[x_i,y_i,z_i]^T∈R³为主星到第i颗从星的相对位置矢量，θ为主星的纬度角，为主星距离地心的标量半径，其中a_c为半长轴，e_c为参考轨道的轨道偏心率，μ为万有引力常量，表示第i颗从星与地心的距离，m_i表示第i颗从星的质量，u_i＝[u_ix,u_iy,u_iz]^T为第i颗从星的控制策略，d_i＝[d_ix,d_iy,d_iz]^T为外界干扰；

为了方便表示，将卫星非线性动力学模型写为以下形式：

其中模型矩阵C_i和E_i可以表示为，

定义一个包含n节点的有向图描述多星编队系统的通讯拓扑关系，其中表示非空节点集合，n为节点数，/>表示边的集合，υ₀表示领星节点，有向图/>的邻接矩阵表示为/>a_i0表示第i个从星节点υ_i与领星节点υ₀的连通状况，即从星i是否能获取领星的信息；如果/> 表示边的集合，则a_i0＝1，否则a_i0＝0；第i个从星节点υ_i的所有相邻节点表示为/>

当确定了多星编队系统的通讯拓扑关系，即问题可以转化为实现以下目标：

其中，p_i表示从星i的位置，p_j表示从星i的邻星j的位置，p₀为领星的位置，c_i＝[c_xi,c_yi,c_zi]^T为从星i相对于领星的期望编队位置，编队中的各个从星表示为i,j＝1...n,i≠j，领星表示为0，t表示编队时间，T表示编队终止时间；

定义则跟踪误差模型可以表示为：：

式中，e_pi表示卫星编队位置，e_vi表示速度跟踪误差，p_i和p_j分别表示从星i及邻星j在主星轨道坐标系中的位置，v_i,v_j分别表示从星i及邻星j在主星轨道坐标系中的速度，c_ij表示从星i及邻星j之间的期望相对距离，a_ij表示星间通信拓扑；

因此，基于卫星非线性动力学模型(2)和跟踪误差模型(3)，建立卫星编队跟踪误差动态方程：

定义从星i的编队误差为e_i＝[e_pi ^T,e_vi ^T]^T，那么能够得到以下多卫星编队模型：

其中，系统矩阵系统矩阵/>系统矩阵

步骤2：基于安全障碍函数的性能指标函数设计，并依据性能指标函数建立编队避碰控制模型：通过安全障碍函数解决多星编队系统存在的碰撞问题，将场景下的避碰问题转换为约束问题，设计出一种同时反应编队误差，控制量和避碰作用的性能指标函数，从而实现将多卫星编队避碰控制问题转换为标称编队误差系统的最优稳定控制问题，保证系统的安全性；

步骤3：基于自适应动态规划多卫星编队控制器的设计：在策略迭代和值迭代两种自适应动态规划迭代方法的基础上，将两种迭代方法结合，并且将算法扩展到多卫星系统上，使控制器能够应用到更复杂的场景中，同时在线优化编队中的每颗卫星；

步骤4：构建评判神经网络以及设计自适应学习算法：针对所步骤3提出的安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略，完成评判神经网络设计；并且采用策略梯度法，对神经网络所有权值的范数进行更新，利用网络输出迭代，最终获得最优控制器，完成星群智能最优编队控制器设计。

优选的，步骤1中假设所有从星都存在一条及以上到达领星的有向路径；领星位置的二阶导数可求得，即存在/>和/>有常数界，即/>系统矩阵都存在有上界，即/>且/>卫星的姿态角是一个常数，即θ＝θ_c；卫星模型中外界干扰可以忽略不计，即d_i＝[0,0,0]^T。

优选的，步骤2的具体方法为：针对卫星之间自主避碰的需求，卫星的安全域和障碍函数可以设计为：

安全域D_ij：

D_ij＝{d_ij∈Rⁿ∣d_ij≥r_d} (6)

安全障碍函数μ_ij：

式中，d_ij为编队控制过程中从星i及从星j之间的相对距离，即d_ij＝||p_i-p_j||，r_d表示安全距离，当某一时刻两个卫星之间的距离小于安全距离时，判断此时这两个卫星碰撞，η为一个正实常数，满足η＞1；

接下来设计多星编队系统的性能指标函数，定义从星i的编队误差为e_i＝[e_pi ^T,e_vi ^T]^T，定义性能指标函数为：

式中u_J代表第i星所有邻星的控制策略，瞬时性能指标U_i定义为：

由式9可知瞬时性能指标U_i由三部分组成：第一项代表卫星编队误差代价，第二项代表卫星控制量代价，第三项代表卫星之间的避碰，其中，S,R是正定的斜对称矩阵，e_i ^T,u_i ^T分别表示e_i,u_i的转置；

则最优性能指标函数可以表示为：

为了实现多星编队系统的平稳飞行和安全避碰，控制的目标是找到一组能够最小化性能指标函数并且使系统状态限制在安全域D_ij之内的控制策略u_i(i＝1,2,···,n)，则编队避碰控制模型为：

s.t.e_i∈(5),d_ij∈D_ij i,j＝1,2,...n(11)

优选的，步骤3的具体方法为：当性能指标函数连续可微时，系统的哈密顿函数可以表示为：

式中表示性能指标函数J_i(e_i)关于编队误差e_i的偏导，性能指标函数的初值/>则最优HJB方程可以表示为：

最优的性能指标函数J_i ^*(e_i)通过求解上式的HJB方程获得，则令性能指标函数最优的控制策略可以表示为：

进一步，通过求解得到最优编队控制器，即第i个从星基于最优性能指标函数生成的控制策略可以表示为：

综上所述，安全自适应动态规划算法可以总结为以下步骤：

1.初始化：给定设置t＝0；

2.策略更新：更新第i个从星的控制策略：

3.性能指标函数迭代：根据贝尔曼最优理论求解方程：

其中表示t+1时刻从星的性能指标函数，e_i ^t表示t时刻从星的编队误差，u_i ^t表示t时刻从星的控制策略，u_J ^t表示t时刻邻星的控制策略集合；α_i＝tan(bln(t+1))为平衡参数，0≤α_i＜1,其中参数b是一个常数，b＞0；e_i ^t+1表示t+1时刻从星的编队误差；

4.直到编队控制进程停止之前，回到算法第2步并继续算法。

优选的，步骤3中提出的安全自适应动态规划算法的性能指标函数迭代过程中，为了平衡策略迭代和值迭代两种迭代方式，实现算法在快速迭代的基础上不需要初始的稳定控制策略，在性能指标函数迭代过程中引入平衡参数α_i(0≤α_i＜1)，在算法开始时设置α_i＝0，以避免初始稳定控制策略的要求，并逐渐增加α_i以加速收敛。

优选的，步骤4的具体方法为：针对所步骤3提出的安全自适应动态规划算法构建评判神经网络，表示为：

J_i ^*(e_i)＝W_ci ^Tσ_c(e_i)+ε_ci (18)

式中W_ci∈Rⁿ表示理想的评判神经网络权值向量，上界为λ_Wi，即||W_ci||≤λ_Wi，σ_c(e_i)∈Rⁿ表示评判神经网络的激活函数，ε_ci∈R表示评判神经网络的近似误差；

根据式(18)，可以推导最优性能指标函数的偏导为：

式中分别表示激活函数和近似误差的偏导；

其中，式中l_ε1i表示由于评判神经网络近似导致的残差；

在自适应动态规划的一般框架中，考虑到理想权重未知的事实，通常根据估计的权重向量建立评判神经网络来逼近最优性能指标函数：

式中分别代表评判神经网络的权值估计值，性能指标函数估计值和性能指标函数估计值的偏导；

定义权值估计误差式(20)可变换为:

式中，l_ε2i表示近似哈密顿量；

为了调节评判神经网络的权值，利用策略梯度法使得误差函数最小，因此提出评判神经网络权值调整规则为：

式中λ_1i＞0是评判神经网络的在线学习速率；

学习样本1：优先经验回放

首先，定义一个有限大小的经验数据库：D＝(s₁,s₂,···s_L),L代表数据库容量，在每一时刻，计算数据库中每个样本对应的误差，利用计算出的误差的大小对库中的样本进行排序，通过排序结果计算经验数据库中每个样本的优先级p_k：

其中，rank(k)表示数据库中第k(1≤k≤L)个样本的排序顺位；

通过优先级p_k计算该样本的抽取概率P(k)：

每个样本获得了概率信息后，通过得到的抽取概率P(k)在数据库中进行抽样，在取得相应的样本之后，在每一时刻需要计算抽取到样本的网络误差：

假设取得的样本为(e_ik,u_ik,u_Jk)，则该样本的误差可以表示为：

则根据算法，该部分样本权值调整规则为：

其中λ_ik＞0是学习率，n_k表示每个时刻选择的样本数，满足n_k＜L；

学习样本2：贝尔曼误差外推学习

在以当前卫星位置为中心的半径为R_e的球面上随机选取外推学习样本，利用这些样本建立编队误差，假设取得的样本为(e_im,u_im,u_Jm)，则该样本的误差可以表示为：

则根据算法，该部分样本权值调整规则为：

其中λ_im＞0是学习率，n_m表示每个时刻选择的样本数；

从上面可以看出，学习样本分为两个部分，因为两种样本的侧重点不同，所以需要设计一个连接两者的权重：

首先重新划分各卫星的安全区域：

1.转换区：一旦两颗卫星进入该区域，就要考虑卫星之间的避碰问题，学习样本中开始出现贝尔曼外推样本，表示为:

W _i＝{d_ij∈Rⁿ∣r_d＜d_ij＜R_d}

2.避碰区：任何时候都不允许卫星进入该区域，表示为：

A_i＝{d_ij∈Rⁿ∣d_ij＜r_d}

为了平衡两种样本，定义一种随距离变化的权重为：

根据设计的权重，当卫星之间距离较远的时候，此时不需要考虑卫星之间的避碰作用，权值调整由在线学习和优先经验回放的离线学习两部分组成；当卫星之间的距离小于一定距离的时候，考虑加入外推学习的样本，这是一个连续的过渡过程，因此，进一步推导出评判网络误差为:

则评判网络的权重更新规则调整为:

基于以上四步，就完成了整个多卫星编队避碰控制过程。

优选的，步骤4中学习样本1的样本的概率选取利用轮盘赌选择法即积累概率选择，具体过程如下：在[0,1]内产生一个均匀分布的随机数r，若r≤q₁，则元组1被选中；若q_k-1＜r≤q_k(2≤k≤L),则元组k被选中，q_i为积累概率,其计算公式

本发明采用上述基于安全自适应动态规划的星群智能编队避碰控制方法，采用自适应动态规划算法设计多卫星编队控制器，解决了传统动态规划算法的“维数灾”问题，将两种迭代方法结合，使控制器能够应用到更复杂的场景中，并且实现在线优化；通过设计一个同时反应编队误差，控制量和避碰作用的性能指标函数，将避碰问题转化为约束问题；通过引入距离变化权重，充分利用了历史数据和在线数据，实现了对学习数据的有效利用和系统的快速收敛，最终实现多卫星编队避碰控制。

附图说明

图1为本发明基于安全自适应动态规划的星群智能编队避碰控制方法的框图；

图2为多卫星编队的通信拓扑图；

图3为卫星编队过程中各个卫星的轨迹变化；

图4为基于安全自适应动态规划的星群智能编队避碰控制方法的速度跟踪响应曲线；

图5为编队中4颗从星的编队位置误差响应曲线；

图6表示加入安全障碍函数避碰项之后星间距离变化和未加入安全障碍函数避碰项之后星间距离变化的对比图；

图7为从星2的评判神经网络权值参数的变化过程；

图8三种不同学习方法下卫星编队误差的变化情况对比图；

图9为本发明各卫星的安全区域的划分示意图；

图10为优先经验回放的流程图。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步说明。

如图所示的一种基于安全自适应动态规划的星群智能编队避碰控制方法，包括以下步骤：步骤1：建立多卫星编队模型：考虑一个包含n颗从星和一颗领星的多星编队系统，为了进行精确的编队跟踪控制，建立如下所示的第i颗从星的卫星非线性动力学模型：

为了方便表示，将卫星非线性动力学模型写为以下形式：

其中模型矩阵C_i和E_i可以表示为，

定义则跟踪误差模型可以表示为：

/>

其中，系统矩阵系统矩阵/>系统矩阵

假设所有从星都存在一条及以上到达领星的有向路径；领星位置的二阶导数可求得，即存在/>和/>有常数界，即/>系统矩阵都存在有上界，即且/>卫星的姿态角是一个常数，即θ＝θ_c；卫星模型中外界干扰可以忽略不计，即d_i＝[0,0,0]^T。

步骤2：基于安全障碍函数设计性能指标函数，并依据性能指标函数建立编队避碰控制模型：基于安全障碍函数的性能指标函数设计，并依据性能指标函数建立编队避碰控制模型：通过安全障碍函数解决多星编队系统存在的碰撞问题，将场景下的避碰问题转换为约束问题，设计出一种同时反应编队误差，控制量和避碰作用的性能指标函数，从而实现将多卫星编队避碰控制问题转换为标称编队误差系统的最优稳定控制问题，保证系统的安全性。具体方法为：

多星编队系统飞行过程中，需要令各个卫星能够自主避免碰撞，并实现对空间碎片等威胁的避撞，保证多星编队系统的安全性，基于此，设计一个基于安全障碍函数的避碰函数，为后续性能指标函数中的避碰避撞需求提供基础，进而建立出编队避碰控制模型。针对卫星之间自主避碰的需求，卫星的安全域和障碍函数可以设计为：

安全域D_ij：

D_ij＝{d_ij∈Rⁿ∣d_ij≥r_d} (6)

障碍函数μ_ij：

可以看出，μ_ij是一个安全障碍函数，当系统状态满足d_ij＞r_d时，μ_ij为正，并且在d_ij＝r_d达到无穷大，通过安全障碍函数μ_ij设计相关的性能指标函数，如果初始状态满足d_ij＞r_d，那么当某一时刻两个卫星之间的距离即将到达安全距离时，性能指标函数将会接近无穷大，则下一时刻控制器会朝着最小化性能指标函数的方向改变，所以μ_ij的存在保证了系统状态的安全性；

则最优性能指标函数可以表示为：

s.t.e_i∈(5),d_ij∈D_ij i,j＝1,2,...n(11)

步骤3：基于自适应动态规划多卫星编队控制器的设计：在策略迭代和值迭代两种自适应动态规划迭代方法的基础上，将两种迭代方法结合，并且将算法扩展到多卫星系统上，使控制器能够应用到更复杂的场景中，同时在线优化编队中的每颗卫星。具体方法为：

当性能指标函数连续可微时，系统的哈密顿函数可以表示为：

/>

进一步，通过求解得到最优编队控制器，即第i个从星基于最优性能指标函数生成的控制策略可以表示为:

综上所述，安全自适应动态规划算法可以总结为以下步骤：

1.初始化：给定设置t＝0

2.策略更新：更新第i个从星的控制策略：

3.性能指标函数迭代：根据贝尔曼最优理论求解方程：

4.直到编队控制进程停止之前，回到算法第2步并继续算法。

性能指标函数迭代过程中，为了平衡策略迭代和值迭代两种迭代方式，实现算法在快速迭代的基础上不需要初始的稳定控制策略，在性能指标函数迭代过程中引入平衡参数α_i(0≤α_i＜1)。α_i是一个关于时间的单调递增函数，如果α_i＝1，那么迭代方式为策略迭代，它可以实现快速收敛，同时需要初始稳定控制策略；如果α_i＝0，那么迭代方式为值迭代，它避免了初始稳定控制策略的要求，同时收敛速度较慢。因此，在算法开始时设置α_i＝0，以避免初始稳定控制策略的要求，并逐渐增加α_i以加速收敛。

步骤4：构建评判神经网络以及设计自适应学习算法：针对所步骤3提出的安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略，完成评判神经网络设计；并且采用策略梯度法，对神经网络所有权值的范数进行更新，利用网络输出迭代，最终获得最优控制器，完成星群智能最优编队控制器设计。具体方法为：

为了克服最优HJB方程难以求解的问题，针对所提出的安全自适应动态规划算法，构建评判神经网络以获得最优控制器，利用神经网络的普遍逼近性质，建立一个单隐层前向神经网络逼近最优性能指标函数，并采用策略梯度法实现网络权重的独立优化。针对所步骤3提出的安全自适应动态规划算法构建评判神经网络以获得最优控制器，评判神经网络可以表示为：

J_i ^*(e_i)＝W_ci ^Tσ_c(e_i)+ε_ci (18)

式中W_ci∈Rⁿ表示理想的评判网络权值向量，上界为λ_Wi，即||W_ci||≤λ_Wi，σ_c(e_i)∈Rⁿ表示评判网络的激活函数，ε_ci∈R表示评判网络的近似误差；

根据式(18)，可以推导最优性能指标函数的偏导为：

式中分别表示激活函数和近似误差的偏导。

其中，式中l_ε1i表示由于评判神经网络近似导致的残差；

定义权值估计误差式(20)可变换为:

式中，l_ε2i表示近似哈密顿量；

式中λ_1i＞0是评判神经网络的在线学习速率；

学习样本1：优先经验回放

为了获得更好的学习效果，在已知在线学习的权值调整规则为的基础上，首先建立经验数据库，抽取样本进行学习，学习样本的一部分是优先经验回放样本，其主要思想是创建一个由历史数据样本组成的数据库，在学习时，每次迭代从数据库中随机选取样本，然后逐步计算样本梯度，这样神经网络学习过程可以借鉴过去的学习经验，加速权值的收敛，样本选择过程如图10所示：

其中，rank(k)表示数据库中第k(1≤k≤L)个样本的排序顺位；

通过优先级p_k计算该样本的抽取概率P(k)：

每个样本获得了概率信息后，通过得到的抽取概率P(k)在数据库中进行抽样，样本的概率选取利用轮盘赌选择法即积累概率选择，具体过程如下：在[0,1]内产生一个均匀分布的随机数r，若r≤q₁，则元组1被选中；若q_k-1＜r≤q_k(2≤k≤L),则元组k被选中，q_i为积累概率,其计算公式在取得相应的样本之后，在每一时刻需要计算抽取到样本的网络误差：

则根据算法，该部分样本权值调整规则为：

学习样本2：贝尔曼误差外推学习

使用优先经验回放选择的样本是从卫星轨迹的历史数据中提取的，事实上，当面对两颗卫星之间的距离太近，卫星距离在安全距离内的情况时，卫星编队过程中是无法得到这样的数据的，因此很难获得这些样本，因此，对于优先经验回放，这些学习样本只能从给定的轨迹选择。

为了获得卫星之间距离接近安全距离条件下的虚拟样本，我们采用贝尔曼误差外推的形式允许在外推状态下模拟估计学习误差，即在每颗卫星当前状态周围选取一定的样本，利用这些样本对神经网络进行学习，这种学习样本方法强调卫星之间的避免碰撞，而不是跟踪领星，在以当前卫星位置为中心的半径为R_e的球面上随机选取外推学习样本，利用这些样本建立编队误差。

假设取得的样本为(e_im,u_im,u_Jm)，则该样本的误差可以表示为：

则根据算法，该部分样本权值调整规则为：

其中λ_im＞0是学习率，n_m表示每个时刻选择的样本数；/>

从上面可以看出，学习样本分为两个部分，并且两个部分的侧重点不同，优先经验回放样本产生于实际系统轨迹中，更注重跟踪效果和全局优化；贝尔曼外推样本允许选择虚拟样本，更注重避碰效果和局部优化，因为两种样本的侧重点不同，所以需要设计一个连接两者的权重：

首先重新划分各卫星的安全区域，如图9所示：

W_i＝{d_ij∈Rⁿ∣r_d＜d_ij＜R_d}

2.避碰区：任何时候都不允许卫星之间进入该区域，表示为：

A_i＝{d_ij∈Rⁿ∣d_ij＜r_d}

为了平衡两种样本，定义一种随距离变化的权重为：

则评判网络的权重更新规则调整为:

基于以上四步，就完成了整个多卫星编队避碰控制过程。

为了验证本发明提出的基于安全自适应动态规划的星群智能编队避碰控制方法的有效性，首先将多星编队系统在MATLAB/Simulink中进行集成设计，并进行了仿真实验，主要仿真过程如下：

(1)参数设置

仿真考虑一组由一架虚拟领星和四个从星组成的编队，在每个卫星的学习过程中加入对其他星的安全障碍函数避碰项，多卫星编队的通信拓扑图选取如图2所示，其中0表示虚拟领星，1-4表示4个从星。

主要参数设置如下所示：

1)领星运动轨迹参数

虚拟虚拟领星Leader 0的运动轨迹设置为：

P₀＝[3t,3t,t]^T

2)卫星轨道模型参数

参考轨道半长轴a_c＝7162977m，轨道偏心率e_c＝0.0004262，万有引力常量μ＝6.67×10^-11，表示第i颗卫星的质量m_i＝50kg，主星的纬度角θ＝0.35。

3)评判神经网络参数

评判神经网络的激活函数为σ_i＝[e_Pi ²,e_Vi ²,e_Pi ^Te_Vi,e_Pi ⁴,e_Vi ⁴,e_Pi ³e_Vi,e_Pi ²e_Vi ²,e_Pie_Vi ³]^T,评判神经网络权值初值为W_ci＝[75,60,80,20,90,30,60,50]^T，评判神经网络的学习速率均为λ_1i＝λ_ik＝λ_im＝0.5，b＝4，S＝R＝I，η＝1.5。

4)学习参数

对于优先经验回放学习，经验回放数据库容量为L＝10，抽样样本为n_k＝3；对于外推学习，在当前卫星位置为中心的半径R_e＝0.5的球体中随机选取样本进行外推学习，样本的数量是n_m＝3。每个卫星的安全域设置为R_d＝1.5r_d,r_d＝8。

外推学习的样本选择在以当前卫星位置为中心，一定半径的球体中随机选择，并且随着控制过程不断变化，随着卫星之间的距离变化，样本的权重也随之发生变化，具体表现为在两个卫星之间的距离过近的时候开始引入外推样本，并且随着距离越来越近样本权重越来越高。

5)期望位置和初始位置参数

假设虚拟领星Leader的坐标为编队中心，由c₀表示，编队的期望队形为表1中所示的正方形，各个卫星的初始位置参数如表2所示。其中，初始速度全为0。

表1初始编队队形期望坐标设置

表2各个卫星初始位置设置

(2)结果分析

1)仿真结果

图3表示卫星编队过程中各个卫星的轨迹变化，图中虚线和实线分别表示领星与从星的实际轨迹，从图3可以看出，设计的编队控制器可以使得从星实时准确的跟踪虚拟领星。

图4显示了编队中各个卫星速度坐标实时跟踪参考轨迹的曲线过程，图中虚线和实线分别表示领星与从星的实际速度，由图4可知各个卫星能实时准确追踪上领星的参考速度，并与其保持固定的位置距离，即形成预设的编队队形，从而验证了本发明基于自适应动态规划的多卫星编队控制器的有效性。

图5表示编队中4颗从星的编队位置误差响应曲线，从图中可以看出，四颗卫星的编队位置误差在有限时间内收敛于0，进一步验证了安全自适应动态规划算法的快速稳定性。

图6表示加入安全障碍函数避碰项之后星间距离变化和未加入安全障碍函数避碰项之后星间距离变化的对比图，可以看出，当控制算法中未加入安全函数避碰项时，星1和星4之间的距离在开始时将会达到1.4左右，这明显小于安全距离，视为卫星已发生碰撞，而加入安全障碍函数避碰项的四颗卫星在编队控制过程中可以保证安全距离，说明本发明基于安全自适应动态规划的星群智能编队避碰控制方法的效果。

图7表示了从星2的评判神经网络权值参数的变化过程，由图7可知，评判神经网络权值参数是稳定收敛，经过不断迭代，权重最终逼近各自的最优值。

综上所述，所提出的安全自适应动态规划算法能在多卫星编队飞行中实现避碰，并能快速收敛到最优值。下面进一步验证了本发明的优越性。

2)对比结果

考虑到学习过程中样本抽取的随机性，有必要将本发明与其他控制方法进行横向比较。我们对三种方法进行了数值分析:

方法1：基于自适应动态规划的无经验回放最优控制器；

方法2：基于自适应动态规划的最优控制器，只包含历史数据样本，不使用在线样本。

方法3：基于自适应动态规划的最优控制器，使用本发明的学习算法。

定义两个评价指标进行定量比较分析：首先，在多卫星编队飞行开始后t＝2s处，计算各卫星编队误差欧氏范数|e_i|；然后，分别在有干扰和无干扰的环境下进行了5次重复实验，得到了形成误差的平均值和方差。对比结果如图8三种不同学习方法下卫星编队误差的变化情况对比图和表3三种不同学习方法下重复实验编队误差的平均值和方差，表3如下所示：

图8显示了以上三种不同学习方法下卫星编队误差的变化情况，可以看出，方法2的形成误差收敛速度比方法1快，前者的形成误差在8s内可小于5％，而后者的形成误差约为10s。然而，所提出的安全自适应动态规划算法的编队误差小于5％仅用了4.3s左右。因此，与其他方法相比，本发明收敛时间最短，编队精度最高。

从表3不同学习方法下重复实验编队误差的平均值和方差可以看出，在相同的初始条件下，当t＝2s时，有样本学习的编队误差比无样本学习的编队差小。以卫星1为例，使用方法2和方法3获得的误差平均值要明显小于方法1，具有显著的优势。在此基础上，方法3对算法进行了进一步优化，误差平均值为三种方法最低，并且这一优势在有干扰环境中也得到了验证。

因此，本发明采用上述基于安全自适应动态规划的星群智能编队避碰控制方法，采用自适应动态规划算法设计多卫星编队控制器，解决了传统动态规划算法的“维数灾”问题，将两种迭代方法结合，使控制器能够应用到更复杂的场景中，并且实现在线优化；通过设计一个同时反应编队误差，控制量和避碰作用的性能指标函数，将避碰问题转化为约束问题；通过引入距离变化权重，充分利用了历史数据和在线数据，实现了对学习数据的有效利用和系统的快速收敛，最终实现多卫星编队避碰控制。

以上是本发明的具体实施方式，但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims

1.一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于，包括以下步骤：

式中，i＝1,2,···,n表示第i颗从星，p_i＝[x_i,y_i,z_i]^T∈R³为主星到第i颗从星的相对位置矢量，θ为主星的纬度角，为主星距离地心的标量半径，其中a_c为半长轴，e_c为参考轨道的轨道偏心率，μ为万有引力常量，/>表示第i颗从星与地心的距离，m_i表示第i颗从星的质量，u_i＝[u_ix,u_iy,u_iz]^T为第i颗从星的控制策略，d_i＝[d_ix,d_iy,d_iz]^T为外界干扰；

为了方便表示，将卫星非线性动力学模型写为以下形式：

其中模型矩阵C_i和E_i表示为，

当确定了多星编队系统的通讯拓扑关系，即问题转化为实现以下目标：

定义则跟踪误差模型表示为：

因此，基于卫星非线性动力学模型和跟踪误差模型，建立卫星编队跟踪误差动态方程：

其中，系统矩阵系统矩阵/>系统矩阵

2.根据权利要求1所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于：步骤1中假设所有从星都存在一条及以上到达领星的有向路径；领星位置的二阶导数可求得，即存在/>和/>有常数界，即/>系统矩阵都存在有上界，即/>且/> 卫星的姿态角是一个常数，即θ＝θ_c；卫星模型中外界干扰忽略不计，即d_i＝[0,0,0]^T。

3.根据权利要求2所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于:步骤2的具体方法为：针对卫星之间自主避碰的需求，卫星的安全域和障碍函数设计为：

安全域D_ij：

安全障碍函数μ_ij：

则最优性能指标函数表示为：

4.根据权利要求3所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于：步骤3的具体方法为：当性能指标函数连续可微时，系统的哈密顿函数表示为：

式中表示性能指标函数J_i(e_i)关于编队误差e_i的偏导，性能指标函数的初值/>则最优HJB方程表示为：

最优的性能指标函数J_i ^*(e_i)通过求解上式的HJB方程获得，则令性能指标函数最优的控制策略表示为：

进一步，通过求解得到最优编队控制器，即第i个从星基于最优性能指标函数生成的控制策略表示为：

综上所述，安全自适应动态规划算法总结为以下步骤：

1.初始化：给定设置t＝0；

2.策略更新：更新第i个从星的控制策略：

3.性能指标函数迭代：根据贝尔曼最优理论求解方程：

4.直到编队控制进程停止之前，回到算法第2步并继续算法。

5.根据权利要求4所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于：步骤3中提出的安全自适应动态规划算法的性能指标函数迭代过程中，为了平衡策略迭代和值迭代两种迭代方式，实现算法在快速迭代的基础上不需要初始的稳定控制策略，在性能指标函数迭代过程中引入平衡参数α_i(0≤α_i＜1)，在算法开始时设置α_i＝0，以避免初始稳定控制策略的要求，并逐渐增加α_i以加速收敛。

6.根据权利要求5所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于：步骤4的具体方法为：针对所步骤3提出的安全自适应动态规划算法构建评判神经网络，表示为：

J_i ^*(e_i)＝W_ci ^Tσ_c(e_i)+ε_ci (18)

根据式(18)，推导最优性能指标函数的偏导为：

式中分别表示激活函数和近似误差的偏导；

其中，式中/>表示由于评判神经网络近似导致的残差；

定义权值估计误差式(20)可变换为:

式中，表示近似哈密顿量；

式中λ_1i＞0是评判神经网络的在线学习速率；

学习样本1：优先经验回放

其中，rank(k)表示数据库中第k(1≤k≤L)个样本的排序顺位；

通过优先级p_k计算该样本的抽取概率P(k)：

假设取得的样本为(e_ik,u_ik,u_Jk)，则该样本的误差表示为：

则根据算法，该部分样本权值调整规则为：

学习样本2：贝尔曼误差外推学习

在以当前卫星位置为中心的半径为R_e的球面上随机选取外推学习样本，利用这些样本建立编队误差，假设取得的样本为(e_im,u_im,u_Jm)，则该样本的误差表示为：

则根据算法，该部分样本权值调整规则为：

其中λ_im＞0是学习率，n_m表示每个时刻选择的样本数；

从上面看出，学习样本分为两个部分，因为两种样本的侧重点不同，所以需要设计一个连接两者的权重：

首先重新划分各卫星的安全区域：

2.避碰区：任何时候都不允许卫星进入该区域，表示为：

A_i＝{d_ij∈Rⁿ∣d_ij＜r_d}

为了平衡两种样本，定义一种随距离变化的权重为：

则评判网络的权重更新规则调整为:

基于以上四步，就完成了整个多卫星编队避碰控制过程。

7.根据权利要求6所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法，其特征在于：步骤4中学习样本1的样本的概率选取利用轮盘赌选择法即积累概率选择，具体过程如下：在[0,1]内产生一个均匀分布的随机数r，若r≤q₁，则元组1被选中；若q_k-1＜r≤q_k(2≤k≤L),则元组k被选中，q_i为积累概率,其计算公式