CN116331518A - 一种基于安全自适应动态规划的星群智能编队避碰控制方法 - Google Patents

一种基于安全自适应动态规划的星群智能编队避碰控制方法 Download PDF

Info

Publication number
CN116331518A
CN116331518A CN202310040189.6A CN202310040189A CN116331518A CN 116331518 A CN116331518 A CN 116331518A CN 202310040189 A CN202310040189 A CN 202310040189A CN 116331518 A CN116331518 A CN 116331518A
Authority
CN
China
Prior art keywords
star
formation
satellite
performance index
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310040189.6A
Other languages
English (en)
Other versions
CN116331518B (zh
Inventor
窦立谦
于卉
张秀云
唐艺璠
张睿隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310040189.6A priority Critical patent/CN116331518B/zh
Publication of CN116331518A publication Critical patent/CN116331518A/zh
Application granted granted Critical
Publication of CN116331518B publication Critical patent/CN116331518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/244Spacecraft control systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于安全自适应动态规划的星群智能编队避碰控制方法,步骤1:建立多卫星编队模型;步骤2:基于安全障碍函数的性能指标函数设计,并依据性能指标函数建立编队避碰控制模型;步骤3:基于自适应动态规划多卫星编队控制器的设计;步骤4:构建评判神经网络以及设计自适应学习算法:针对安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略,采用策略梯度法,对神经网络所有权值的范数进行更新,利用网络输出迭代,最终获得最优控制器。本发明采用上述基于安全自适应动态规划的星群智能编队避碰控制方法,保证多星编队系统的快速稳定,提高自适应动态规划算法的学习效率。

Description

一种基于安全自适应动态规划的星群智能编队避碰控制方法
技术领域
本发明涉及星群编队避碰控制技术领域,尤其是涉及一种基于安全自适应动态规划的星群智能编队避碰控制方法。
背景技术
多卫星编队控制已经成为21世纪航空航天领域的一项重要技术,在军事和民用领域具有广阔的发展空间。随着航空航天技术的不断发展,需要执行的任务和空间环境的复杂度也日益提高,单一飞行器已经无法满足未来的需求。与单颗卫星飞行相比,采用多颗卫星编队飞行完成任务具有可靠性高、可扩展性强、适应性强、自主性强和可重构性强等优势。在实际多颗卫星编队飞行场景中,由于存在卫星之间碰撞以及和空间碎片碰撞的可能,所以设计和实现一种稳定、快速、安全、无碰撞、具有自适应编队和自学习能力的多卫星协同控制器是星群编队控制的研究难点之一。
针对星群自主协同编队控制问题,国内外学者进行了深入的研究,采用了不同的方法,如滑模控制、自抗扰控制、鲁棒控制等,得到了许多不错的成果。例如,2017年,美国斯坦福大学空间交会实验室针对多卫星最优编队控制,采用参考调节器,提出了一种约束卫星编队在任意强扰动轨道上飞行的连续低推力制导控制策略;2018年,西北工业大学的蔡光斌基于有向图设计了一种可消除多跳变时延影响的多航天器编队跟踪控制律,解决了在网络环境中的多航天器编队在跳变时延条件下的一致性问题。值得注意的是,上述方法并未考虑卫星系统的最优控制性能,不能满足卫星机动低燃料消耗的工程需求,且难以自适应应对复杂多变的空间环境,也无法实现观测任务变化时自适应的跟踪控制。针对多智能体最优控制问题,文献N.Zhao,X.Long,andJ.Wang,“A multi-constraint optimalroutingalgorithm in leo satellite networks,”Wireless Netw,2021和文献Q.Zhao,B.Jiang,andX.Yu,“Collaborative mission optimization for ship rapid search by multipleheterogeneous remote sensing satellites,”Journal of Industrial and ManagementOptimization,vol.18,no.4,pp.2805–2826,2022提出了最优编队控制方法,而他们只使用静态系统而不考虑动态系统。因此,这些控制器不能与环境实时交互,缺乏自学习能力,对于复杂的非线性系统例如多卫星系统可能会失效。
基于此,近年来,随着强化学习等人工智能算法的兴起和不断发展,为基于模型的星群自主协同编队控制提供了新的思路。自适应动态规划是一种基于强化学习的算法,在20世纪70年代由Werbos提出。作为一种新的非线性优化方法用于开发最优控制器,自适应动态规划克服了动态规划求解时由于状态信息的增加而导致的维数灾问题。它的主要原理是利用函数近似结构逼近哈密顿-雅可比-贝尔曼(HJB)方程的解,其中函数近似结构主要是指神经网络。在强化学习不断与环境交互进行动作改进的思想下,自适应动态规划通过不断向代价更小的方向更新控制动作并作用于系统,直至获得最小的代价函数,也就是HJB方程的解,此时的控制器可以控制系统实现期望的控制目标。不同于传统控制器中参数预先测试定义的方式,自适应动态规划可以根据系统当前的状态信息在线的学习和调整控制律中的所需参数。
在多卫星编队控制问题中,基于自适应动态规划的研究已经取得了一定的成果。例如,2020年,美国NASA针对在轨航天器控制问题,设计了一种使用双延迟深度确定性策略梯度的自适应航天器姿态控制器,利用强化学习的思想以在不确定动力学环境中实现高精度的多航天器编队控制。同年,同一团队在仿真环境中训练卫星姿态稳定控制器并验证了算法的有效性。2021年,浙江大学的王鑫提出了一种结合深度强化学习和预定义时间稳定性的多卫星编队跟踪控制方法,针对存在外部干扰的情况下,确保在预定义的决策周期内将卫星姿态控制到期望值,验证表明,该算法在跟踪能力和能耗方面具有优势。2022年,北京航空航天大学的胡庆雷提出了一种基于自适应动态规划的领导-跟随卫星编队飞行技术的最优跟踪控制器,并且设计了一种依赖于输入状态的事件触发机制,以确保仅在特定事件发生时开启最优跟踪控制器,显著降低了控制命令的执行频率。
尽管针对卫星编队协同一致性问题已有许多相关的研究,但是伴随着环境复杂性的增加,需要考虑的因素越来越多,例如抵抗空间中存在的多种干扰,提高编队控制的精确程度,以及低能耗的工程需求。此外,当多卫星在近距离进行编队重组时,避碰问题也是一个需要重要考虑的因素。针对避碰问题,现有的避碰方法有人工势场法、障碍函数法、速度障碍法等。例如2019年,哈尔滨工业大学的宋申民针对航天器交互对接问题,基于输入约束下姿态轨道耦合模型,设计非奇异快速终端滑模控制器,并提出了一种安全约束函数方法以满足星间避撞约束;针对空间中的综合干扰问题,2020年,沈阳理工大学的关启学针对航天器编队跟踪问题,通过设计有限时间非线性观测器来在线估计未知扰动,提出一种基于干扰观测器的终端滑模有限时间控制律。2020年,西北工业大学的薛向宏提出一种基于干扰观测器与人工势场法相结合的航天器编队分布式协同控制方法,保证编队航天器之间的队形保持和一致性。然而,在使用上述方法进行多卫星系统编队控制和避免碰撞时存在局限性。首先,这些方法通常用于离散系统,而卫星系统是连续系统;其次,当使用人工势能法时,通常给卫星系统加入一个避碰外力容易影响整个闭环编队系统的稳定性;最后,学习过程中使用的数据不足,导致学习数据不能充分利用。
到目前为止,连续时间多卫星系统在编队最优和避碰控制方面的研究还很少,因此,目前基于自适应动态规划的多卫星编队避碰控制面临的挑战问题如下:
1.如何在连续时间域设计一个能够反映避碰和编队跟踪的性能指标函数,以保证编队系统的稳定性和适应性;
2.为了提高数据的使用效率,在已有的学习算法的基础上,在学习过程中加入经验回放和加入贝尔曼误差外推学习。但是,这些方法不能完全结合历史数据样本和在线更新数据样本,所选样本也有局限性。如何在学习过程中平衡经验回放和外推学习样本也是需要解决的问题。
为解决上述挑战问题,需要提供一种基于自适应动态规划的星群编队避碰控制的研究方法,考虑复杂空间运行环境、具体任务指令以及编队自主避碰需求的综合影响,基于星上传感器等获得的在线状态数据及星间相对距离定义编队误差,设计性能指标函数,保证编队系统的稳定性;结合神经网络的自适应、自学习和映射逼近的优点,构建评判网络和执行器,研究基于自适应动态规划的星群编队控制器设计方法,实现对控制量的在线实时自主优化,以获得星群最优控制器及最优性能指标,提高星群运行的适应性。
发明内容
本发明的目的是提供一种基于安全自适应动态规划的星群智能编队避碰控制方法,通过定义一种全新的性能指标函数和自适应学习方法,保证多卫星编队系统的快速稳定,提高自适应动态规划算法的学习效率。
为实现上述目的,本发明提供了如下技术方案:
一种基于安全自适应动态规划的星群智能编队避碰控制方法,包括以下步骤:
步骤1:建立多卫星编队模型:考虑一个包含n颗从星和一颗领星的多星编队系统,为了进行精确的编队跟踪控制,建立如下所示的第i颗从星的卫星非线性动力学模型:
Figure BDA0004050599890000051
式中,i=1,2,···,n表示第i颗从星,pi=[xi,yi,zi]T∈R3为主星到第i颗从星的相对位置矢量,θ为主星的纬度角,
Figure BDA0004050599890000052
为主星距离地心的标量半径,其中ac为半长轴,ec为参考轨道的轨道偏心率,μ为万有引力常量,
Figure BDA0004050599890000053
表示第i颗从星与地心的距离,mi表示第i颗从星的质量,ui=[uix,uiy,uiz]T为第i颗从星的控制策略,di=[dix,diy,diz]T为外界干扰;
为了方便表示,将卫星非线性动力学模型写为以下形式:
Figure BDA0004050599890000054
其中模型矩阵Ci和Ei可以表示为,
Figure BDA0004050599890000055
定义一个包含n节点的有向图
Figure BDA0004050599890000056
描述多星编队系统的通讯拓扑关系,其中
Figure BDA0004050599890000057
表示非空节点集合,n为节点数,/>
Figure BDA0004050599890000058
表示边的集合,υ0表示领星节点,有向图/>
Figure BDA0004050599890000061
的邻接矩阵表示为/>
Figure BDA0004050599890000062
ai0表示第i个从星节点υi与领星节点υ0的连通状况,即从星i是否能获取领星的信息;如果/>
Figure BDA0004050599890000063
Figure BDA0004050599890000064
表示边的集合,则ai0=1,否则ai0=0;第i个从星节点υi的所有相邻节点表示为/>
Figure BDA0004050599890000065
当确定了多星编队系统的通讯拓扑关系,即问题可以转化为实现以下目标:
Figure BDA0004050599890000066
其中,pi表示从星i的位置,pj表示从星i的邻星j的位置,p0为领星的位置,ci=[cxi,cyi,czi]T为从星i相对于领星的期望编队位置,编队中的各个从星表示为i,j=1...n,i≠j,领星表示为0,t表示编队时间,T表示编队终止时间;
定义
Figure BDA0004050599890000067
则跟踪误差模型可以表示为::
Figure BDA0004050599890000068
式中,epi表示卫星编队位置,evi表示速度跟踪误差,pi和pj分别表示从星i及邻星j在主星轨道坐标系中的位置,vi,vj分别表示从星i及邻星j在主星轨道坐标系中的速度,cij表示从星i及邻星j之间的期望相对距离,aij表示星间通信拓扑;
因此,基于卫星非线性动力学模型(2)和跟踪误差模型(3),建立卫星编队跟踪误差动态方程:
Figure BDA0004050599890000069
定义从星i的编队误差为ei=[epi T,evi T]T,那么能够得到以下多卫星编队模型:
Figure BDA0004050599890000071
其中,系统矩阵
Figure BDA0004050599890000072
系统矩阵/>
Figure BDA0004050599890000073
系统矩阵
Figure BDA0004050599890000074
步骤2:基于安全障碍函数的性能指标函数设计,并依据性能指标函数建立编队避碰控制模型:通过安全障碍函数解决多星编队系统存在的碰撞问题,将场景下的避碰问题转换为约束问题,设计出一种同时反应编队误差,控制量和避碰作用的性能指标函数,从而实现将多卫星编队避碰控制问题转换为标称编队误差系统的最优稳定控制问题,保证系统的安全性;
步骤3:基于自适应动态规划多卫星编队控制器的设计:在策略迭代和值迭代两种自适应动态规划迭代方法的基础上,将两种迭代方法结合,并且将算法扩展到多卫星系统上,使控制器能够应用到更复杂的场景中,同时在线优化编队中的每颗卫星;
步骤4:构建评判神经网络以及设计自适应学习算法:针对所步骤3提出的安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略,完成评判神经网络设计;并且采用策略梯度法,对神经网络所有权值的范数进行更新,利用网络输出迭代,最终获得最优控制器,完成星群智能最优编队控制器设计。
优选的,步骤1中假设所有从星都存在一条及以上到达领星的有向路径;领星位置的二阶导数
Figure BDA0004050599890000075
可求得,即存在/>
Figure BDA0004050599890000076
和/>
Figure BDA0004050599890000077
有常数界,即/>
Figure BDA0004050599890000078
系统矩阵都存在有上界,即/>
Figure BDA0004050599890000079
且/>
Figure BDA00040505998900000710
卫星的姿态角是一个常数,即θ=θc;卫星模型中外界干扰可以忽略不计,即di=[0,0,0]T
优选的,步骤2的具体方法为:针对卫星之间自主避碰的需求,卫星的安全域和障碍函数可以设计为:
安全域Dij
Dij={dij∈Rn∣dij≥rd} (6)
安全障碍函数μij
Figure BDA0004050599890000081
式中,dij为编队控制过程中从星i及从星j之间的相对距离,即dij=||pi-pj||,rd表示安全距离,当某一时刻两个卫星之间的距离小于安全距离时,判断此时这两个卫星碰撞,η为一个正实常数,满足η>1;
接下来设计多星编队系统的性能指标函数,定义从星i的编队误差为ei=[epi T,evi T]T,定义性能指标函数为:
Figure BDA0004050599890000082
式中uJ代表第i星所有邻星的控制策略,瞬时性能指标Ui定义为:
Figure BDA0004050599890000083
由式9可知瞬时性能指标Ui由三部分组成:第一项代表卫星编队误差代价,第二项代表卫星控制量代价,第三项代表卫星之间的避碰,其中,S,R是正定的斜对称矩阵,ei T,ui T分别表示ei,ui的转置;
则最优性能指标函数可以表示为:
Figure BDA0004050599890000084
为了实现多星编队系统的平稳飞行和安全避碰,控制的目标是找到一组能够最小化性能指标函数并且使系统状态限制在安全域Dij之内的控制策略ui(i=1,2,···,n),则编队避碰控制模型为:
Figure BDA0004050599890000091
s.t.ei∈(5),dij∈Dij i,j=1,2,...n(11)
优选的,步骤3的具体方法为:当性能指标函数连续可微时,系统的哈密顿函数可以表示为:
Figure BDA0004050599890000092
式中
Figure BDA0004050599890000093
表示性能指标函数Ji(ei)关于编队误差ei的偏导,性能指标函数的初值/>
Figure BDA0004050599890000094
则最优HJB方程可以表示为:
Figure BDA0004050599890000095
最优的性能指标函数Ji *(ei)通过求解上式的HJB方程获得,则令性能指标函数最优的控制策略可以表示为:
Figure BDA0004050599890000096
进一步,通过求解
Figure BDA0004050599890000097
得到最优编队控制器,即第i个从星基于最优性能指标函数生成的控制策略可以表示为:
Figure BDA0004050599890000098
综上所述,安全自适应动态规划算法可以总结为以下步骤:
1.初始化:给定
Figure BDA0004050599890000099
设置t=0;
2.策略更新:更新第i个从星的控制策略:
Figure BDA00040505998900000910
3.性能指标函数迭代:根据贝尔曼最优理论求解方程:
Figure BDA0004050599890000101
其中
Figure BDA0004050599890000102
表示t+1时刻从星的性能指标函数,ei t表示t时刻从星的编队误差,ui t表示t时刻从星的控制策略,uJ t表示t时刻邻星的控制策略集合;αi=tan(bln(t+1))为平衡参数,0≤αi<1,其中参数b是一个常数,b>0;ei t+1表示t+1时刻从星的编队误差;
4.直到编队控制进程停止之前,回到算法第2步并继续算法。
优选的,步骤3中提出的安全自适应动态规划算法的性能指标函数迭代过程中,为了平衡策略迭代和值迭代两种迭代方式,实现算法在快速迭代的基础上不需要初始的稳定控制策略,在性能指标函数迭代过程中引入平衡参数αi(0≤αi<1),在算法开始时设置αi=0,以避免初始稳定控制策略的要求,并逐渐增加αi以加速收敛。
优选的,步骤4的具体方法为:针对所步骤3提出的安全自适应动态规划算法构建评判神经网络,表示为:
Ji *(ei)=Wci Tσc(ei)+εci (18)
式中Wci∈Rn表示理想的评判神经网络权值向量,上界为λWi,即||Wci||≤λWi,σc(ei)∈Rn表示评判神经网络的激活函数,εci∈R表示评判神经网络的近似误差;
根据式(18),可以推导最优性能指标函数的偏导为:
Figure BDA0004050599890000104
式中
Figure BDA0004050599890000105
Figure BDA0004050599890000106
分别表示激活函数和近似误差的偏导;
Figure BDA0004050599890000107
其中,
Figure BDA0004050599890000108
式中lε1i表示由于评判神经网络近似导致的残差;
在自适应动态规划的一般框架中,考虑到理想权重未知的事实,通常根据估计的权重向量
Figure BDA0004050599890000111
建立评判神经网络来逼近最优性能指标函数:
Figure BDA0004050599890000112
Figure BDA0004050599890000113
式中
Figure BDA0004050599890000114
分别代表评判神经网络的权值估计值,性能指标函数估计值和性能指标函数估计值的偏导;
定义权值估计误差
Figure BDA0004050599890000115
式(20)可变换为:
Figure BDA0004050599890000116
式中,
Figure BDA0004050599890000117
lε2i表示近似哈密顿量;
为了调节评判神经网络的权值,利用策略梯度法使得误差函数
Figure BDA0004050599890000118
最小,因此提出评判神经网络权值调整规则为:
Figure BDA0004050599890000119
式中
Figure BDA00040505998900001110
λ1i>0是评判神经网络的在线学习速率;
学习样本1:优先经验回放
首先,定义一个有限大小的经验数据库:D=(s1,s2,···sL),L代表数据库容量,在每一时刻,计算数据库中每个样本对应的误差,利用计算出的误差的大小对库中的样本进行排序,通过排序结果计算经验数据库中每个样本的优先级pk
Figure BDA00040505998900001111
其中,rank(k)表示数据库中第k(1≤k≤L)个样本的排序顺位;
通过优先级pk计算该样本的抽取概率P(k):
Figure BDA0004050599890000121
每个样本获得了概率信息后,通过得到的抽取概率P(k)在数据库中进行抽样,在取得相应的样本之后,在每一时刻需要计算抽取到样本的网络误差:
假设取得的样本为(eik,uik,uJk),则该样本的误差可以表示为:
Figure BDA0004050599890000122
Figure BDA0004050599890000123
则根据算法,该部分样本权值调整规则为:
Figure BDA0004050599890000124
其中
Figure BDA0004050599890000125
λik>0是学习率,nk表示每个时刻选择的样本数,满足nk<L;
学习样本2:贝尔曼误差外推学习
在以当前卫星位置为中心的半径为Re的球面上随机选取外推学习样本,利用这些样本建立编队误差,假设取得的样本为(eim,uim,uJm),则该样本的误差可以表示为:
Figure BDA0004050599890000126
Figure BDA0004050599890000127
则根据算法,该部分样本权值调整规则为:
Figure BDA0004050599890000128
其中
Figure BDA0004050599890000131
λim>0是学习率,nm表示每个时刻选择的样本数;
从上面可以看出,学习样本分为两个部分,因为两种样本的侧重点不同,所以需要设计一个连接两者的权重:
首先重新划分各卫星的安全区域:
1.转换区:一旦两颗卫星进入该区域,就要考虑卫星之间的避碰问题,学习样本中开始出现贝尔曼外推样本,表示为:
W i={dij∈Rn∣rd<dij<Rd}
2.避碰区:任何时候都不允许卫星进入该区域,表示为:
Ai={dij∈Rn∣dij<rd}
为了平衡两种样本,定义一种随距离变化的权重为:
Figure BDA0004050599890000132
根据设计的权重,当卫星之间距离较远的时候,此时不需要考虑卫星之间的避碰作用,权值调整由在线学习和优先经验回放的离线学习两部分组成;当卫星之间的距离小于一定距离的时候,考虑加入外推学习的样本,这是一个连续的过渡过程,因此,进一步推导出评判网络误差为:
Figure BDA0004050599890000133
则评判网络的权重更新规则调整为:
Figure BDA0004050599890000134
基于以上四步,就完成了整个多卫星编队避碰控制过程。
优选的,步骤4中学习样本1的样本的概率选取利用轮盘赌选择法即积累概率选择,具体过程如下:在[0,1]内产生一个均匀分布的随机数r,若r≤q1,则元组1被选中;若qk-1<r≤qk(2≤k≤L),则元组k被选中,qi为积累概率,其计算公式
Figure BDA0004050599890000141
本发明采用上述基于安全自适应动态规划的星群智能编队避碰控制方法,采用自适应动态规划算法设计多卫星编队控制器,解决了传统动态规划算法的“维数灾”问题,将两种迭代方法结合,使控制器能够应用到更复杂的场景中,并且实现在线优化;通过设计一个同时反应编队误差,控制量和避碰作用的性能指标函数,将避碰问题转化为约束问题;通过引入距离变化权重,充分利用了历史数据和在线数据,实现了对学习数据的有效利用和系统的快速收敛,最终实现多卫星编队避碰控制。
附图说明
图1为本发明基于安全自适应动态规划的星群智能编队避碰控制方法的框图;
图2为多卫星编队的通信拓扑图;
图3为卫星编队过程中各个卫星的轨迹变化;
图4为基于安全自适应动态规划的星群智能编队避碰控制方法的速度跟踪响应曲线;
图5为编队中4颗从星的编队位置误差响应曲线;
图6表示加入安全障碍函数避碰项之后星间距离变化和未加入安全障碍函数避碰项之后星间距离变化的对比图;
图7为从星2的评判神经网络权值参数的变化过程;
图8三种不同学习方法下卫星编队误差的变化情况对比图;
图9为本发明各卫星的安全区域的划分示意图;
图10为优先经验回放的流程图。
具体实施方式
以下结合附图和实施例对本发明的技术方案作进一步说明。
如图所示的一种基于安全自适应动态规划的星群智能编队避碰控制方法,包括以下步骤:步骤1:建立多卫星编队模型:考虑一个包含n颗从星和一颗领星的多星编队系统,为了进行精确的编队跟踪控制,建立如下所示的第i颗从星的卫星非线性动力学模型:
Figure BDA0004050599890000151
式中,i=1,2,···,n表示第i颗从星,pi=[xi,yi,zi]T∈R3为主星到第i颗从星的相对位置矢量,θ为主星的纬度角,
Figure BDA0004050599890000152
为主星距离地心的标量半径,其中ac为半长轴,ec为参考轨道的轨道偏心率,μ为万有引力常量,
Figure BDA0004050599890000153
表示第i颗从星与地心的距离,mi表示第i颗从星的质量,ui=[uix,uiy,uiz]T为第i颗从星的控制策略,di=[dix,diy,diz]T为外界干扰;
为了方便表示,将卫星非线性动力学模型写为以下形式:
Figure BDA0004050599890000154
其中模型矩阵Ci和Ei可以表示为,
Figure BDA0004050599890000161
定义一个包含n节点的有向图
Figure BDA0004050599890000162
描述多星编队系统的通讯拓扑关系,其中
Figure BDA0004050599890000163
表示非空节点集合,n为节点数,/>
Figure BDA0004050599890000164
表示边的集合,υ0表示领星节点,有向图/>
Figure BDA0004050599890000165
的邻接矩阵表示为/>
Figure BDA0004050599890000166
ai0表示第i个从星节点υi与领星节点υ0的连通状况,即从星i是否能获取领星的信息;如果/>
Figure BDA0004050599890000167
Figure BDA0004050599890000168
表示边的集合,则ai0=1,否则ai0=0;第i个从星节点υi的所有相邻节点表示为/>
Figure BDA0004050599890000169
当确定了多星编队系统的通讯拓扑关系,即问题可以转化为实现以下目标:
Figure BDA00040505998900001610
其中,pi表示从星i的位置,pj表示从星i的邻星j的位置,p0为领星的位置,ci=[cxi,cyi,czi]T为从星i相对于领星的期望编队位置,编队中的各个从星表示为i,j=1...n,i≠j,领星表示为0,t表示编队时间,T表示编队终止时间;
定义
Figure BDA00040505998900001611
则跟踪误差模型可以表示为:
Figure BDA00040505998900001612
/>
式中,epi表示卫星编队位置,evi表示速度跟踪误差,pi和pj分别表示从星i及邻星j在主星轨道坐标系中的位置,vi,vj分别表示从星i及邻星j在主星轨道坐标系中的速度,cij表示从星i及邻星j之间的期望相对距离,aij表示星间通信拓扑;
因此,基于卫星非线性动力学模型(2)和跟踪误差模型(3),建立卫星编队跟踪误差动态方程:
Figure BDA0004050599890000171
定义从星i的编队误差为ei=[epi T,evi T]T,那么能够得到以下多卫星编队模型:
Figure BDA0004050599890000172
其中,系统矩阵
Figure BDA0004050599890000173
系统矩阵/>
Figure BDA0004050599890000174
系统矩阵
Figure BDA0004050599890000175
假设所有从星都存在一条及以上到达领星的有向路径;领星位置的二阶导数
Figure BDA0004050599890000176
可求得,即存在/>
Figure BDA0004050599890000177
和/>
Figure BDA0004050599890000178
有常数界,即/>
Figure BDA0004050599890000179
系统矩阵都存在有上界,即
Figure BDA00040505998900001710
且/>
Figure BDA00040505998900001711
卫星的姿态角是一个常数,即θ=θc;卫星模型中外界干扰可以忽略不计,即di=[0,0,0]T
步骤2:基于安全障碍函数设计性能指标函数,并依据性能指标函数建立编队避碰控制模型:基于安全障碍函数的性能指标函数设计,并依据性能指标函数建立编队避碰控制模型:通过安全障碍函数解决多星编队系统存在的碰撞问题,将场景下的避碰问题转换为约束问题,设计出一种同时反应编队误差,控制量和避碰作用的性能指标函数,从而实现将多卫星编队避碰控制问题转换为标称编队误差系统的最优稳定控制问题,保证系统的安全性。具体方法为:
多星编队系统飞行过程中,需要令各个卫星能够自主避免碰撞,并实现对空间碎片等威胁的避撞,保证多星编队系统的安全性,基于此,设计一个基于安全障碍函数的避碰函数,为后续性能指标函数中的避碰避撞需求提供基础,进而建立出编队避碰控制模型。针对卫星之间自主避碰的需求,卫星的安全域和障碍函数可以设计为:
安全域Dij
Dij={dij∈Rn∣dij≥rd} (6)
障碍函数μij
Figure BDA0004050599890000181
式中,dij为编队控制过程中从星i及从星j之间的相对距离,即dij=||pi-pj||,rd表示安全距离,当某一时刻两个卫星之间的距离小于安全距离时,判断此时这两个卫星碰撞,η为一个正实常数,满足η>1;
可以看出,μij是一个安全障碍函数,当系统状态满足dij>rd时,μij为正,并且在dij=rd达到无穷大,通过安全障碍函数μij设计相关的性能指标函数,如果初始状态满足dij>rd,那么当某一时刻两个卫星之间的距离即将到达安全距离时,性能指标函数将会接近无穷大,则下一时刻控制器会朝着最小化性能指标函数的方向改变,所以μij的存在保证了系统状态的安全性;
接下来设计多星编队系统的性能指标函数,定义从星i的编队误差为ei=[epi T,evi T]T,定义性能指标函数为:
Figure BDA0004050599890000182
式中uJ代表第i星所有邻星的控制策略,瞬时性能指标Ui定义为:
Figure BDA0004050599890000183
由式9可知瞬时性能指标Ui由三部分组成:第一项代表卫星编队误差代价,第二项代表卫星控制量代价,第三项代表卫星之间的避碰,其中,S,R是正定的斜对称矩阵,ei T,ui T分别表示ei,ui的转置;
则最优性能指标函数可以表示为:
Figure BDA0004050599890000191
为了实现多星编队系统的平稳飞行和安全避碰,控制的目标是找到一组能够最小化性能指标函数并且使系统状态限制在安全域Dij之内的控制策略ui(i=1,2,···,n),则编队避碰控制模型为:
Figure BDA0004050599890000192
s.t.ei∈(5),dij∈Dij i,j=1,2,...n(11)
步骤3:基于自适应动态规划多卫星编队控制器的设计:在策略迭代和值迭代两种自适应动态规划迭代方法的基础上,将两种迭代方法结合,并且将算法扩展到多卫星系统上,使控制器能够应用到更复杂的场景中,同时在线优化编队中的每颗卫星。具体方法为:
当性能指标函数连续可微时,系统的哈密顿函数可以表示为:
Figure BDA0004050599890000193
式中
Figure BDA0004050599890000194
表示性能指标函数Ji(ei)关于编队误差ei的偏导,性能指标函数的初值/>
Figure BDA0004050599890000195
则最优HJB方程可以表示为:
Figure BDA0004050599890000196
/>
最优的性能指标函数Ji *(ei)通过求解上式的HJB方程获得,则令性能指标函数最优的控制策略可以表示为:
Figure BDA0004050599890000197
进一步,通过求解
Figure BDA0004050599890000198
得到最优编队控制器,即第i个从星基于最优性能指标函数生成的控制策略可以表示为:
Figure BDA0004050599890000201
综上所述,安全自适应动态规划算法可以总结为以下步骤:
1.初始化:给定
Figure BDA0004050599890000202
设置t=0
2.策略更新:更新第i个从星的控制策略:
Figure BDA0004050599890000203
3.性能指标函数迭代:根据贝尔曼最优理论求解方程:
Figure BDA0004050599890000204
其中
Figure BDA0004050599890000205
表示t+1时刻从星的性能指标函数,ei t表示t时刻从星的编队误差,ui t表示t时刻从星的控制策略,uJ t表示t时刻邻星的控制策略集合;αi=tan(bln(t+1))为平衡参数,0≤αi<1,其中参数b是一个常数,b>0;ei t+1表示t+1时刻从星的编队误差;
4.直到编队控制进程停止之前,回到算法第2步并继续算法。
性能指标函数迭代过程中,为了平衡策略迭代和值迭代两种迭代方式,实现算法在快速迭代的基础上不需要初始的稳定控制策略,在性能指标函数迭代过程中引入平衡参数αi(0≤αi<1)。αi是一个关于时间的单调递增函数,如果αi=1,那么迭代方式为策略迭代,它可以实现快速收敛,同时需要初始稳定控制策略;如果αi=0,那么迭代方式为值迭代,它避免了初始稳定控制策略的要求,同时收敛速度较慢。因此,在算法开始时设置αi=0,以避免初始稳定控制策略的要求,并逐渐增加αi以加速收敛。
步骤4:构建评判神经网络以及设计自适应学习算法:针对所步骤3提出的安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略,完成评判神经网络设计;并且采用策略梯度法,对神经网络所有权值的范数进行更新,利用网络输出迭代,最终获得最优控制器,完成星群智能最优编队控制器设计。具体方法为:
为了克服最优HJB方程难以求解的问题,针对所提出的安全自适应动态规划算法,构建评判神经网络以获得最优控制器,利用神经网络的普遍逼近性质,建立一个单隐层前向神经网络逼近最优性能指标函数,并采用策略梯度法实现网络权重的独立优化。针对所步骤3提出的安全自适应动态规划算法构建评判神经网络以获得最优控制器,评判神经网络可以表示为:
Ji *(ei)=Wci Tσc(ei)+εci (18)
式中Wci∈Rn表示理想的评判网络权值向量,上界为λWi,即||Wci||≤λWi,σc(ei)∈Rn表示评判网络的激活函数,εci∈R表示评判网络的近似误差;
根据式(18),可以推导最优性能指标函数的偏导为:
Figure BDA0004050599890000211
式中
Figure BDA0004050599890000212
Figure BDA0004050599890000213
分别表示激活函数和近似误差的偏导。
Figure BDA0004050599890000214
其中,
Figure BDA0004050599890000215
式中lε1i表示由于评判神经网络近似导致的残差;
在自适应动态规划的一般框架中,考虑到理想权重未知的事实,通常根据估计的权重向量
Figure BDA0004050599890000216
建立评判神经网络来逼近最优性能指标函数:
Figure BDA0004050599890000217
Figure BDA0004050599890000218
式中
Figure BDA0004050599890000219
分别代表评判神经网络的权值估计值,性能指标函数估计值和性能指标函数估计值的偏导;
定义权值估计误差
Figure BDA0004050599890000221
式(20)可变换为:
Figure BDA0004050599890000222
式中,
Figure BDA0004050599890000223
lε2i表示近似哈密顿量;
为了调节评判神经网络的权值,利用策略梯度法使得误差函数
Figure BDA0004050599890000224
最小,因此提出评判神经网络权值调整规则为:
Figure BDA0004050599890000225
式中
Figure BDA0004050599890000226
λ1i>0是评判神经网络的在线学习速率;
学习样本1:优先经验回放
为了获得更好的学习效果,在已知在线学习的权值调整规则为的基础上,首先建立经验数据库,抽取样本进行学习,学习样本的一部分是优先经验回放样本,其主要思想是创建一个由历史数据样本组成的数据库,在学习时,每次迭代从数据库中随机选取样本,然后逐步计算样本梯度,这样神经网络学习过程可以借鉴过去的学习经验,加速权值的收敛,样本选择过程如图10所示:
首先,定义一个有限大小的经验数据库:D=(s1,s2,···sL),L代表数据库容量,在每一时刻,计算数据库中每个样本对应的误差,利用计算出的误差的大小对库中的样本进行排序,通过排序结果计算经验数据库中每个样本的优先级pk
Figure BDA0004050599890000227
其中,rank(k)表示数据库中第k(1≤k≤L)个样本的排序顺位;
通过优先级pk计算该样本的抽取概率P(k):
Figure BDA0004050599890000228
每个样本获得了概率信息后,通过得到的抽取概率P(k)在数据库中进行抽样,样本的概率选取利用轮盘赌选择法即积累概率选择,具体过程如下:在[0,1]内产生一个均匀分布的随机数r,若r≤q1,则元组1被选中;若qk-1<r≤qk(2≤k≤L),则元组k被选中,qi为积累概率,其计算公式
Figure BDA0004050599890000231
在取得相应的样本之后,在每一时刻需要计算抽取到样本的网络误差:
假设取得的样本为(eik,uik,uJk),则该样本的误差可以表示为:
Figure BDA0004050599890000232
Figure BDA0004050599890000233
则根据算法,该部分样本权值调整规则为:
Figure BDA0004050599890000234
其中
Figure BDA0004050599890000235
λik>0是学习率,nk表示每个时刻选择的样本数,满足nk<L;
学习样本2:贝尔曼误差外推学习
使用优先经验回放选择的样本是从卫星轨迹的历史数据中提取的,事实上,当面对两颗卫星之间的距离太近,卫星距离在安全距离内的情况时,卫星编队过程中是无法得到这样的数据的,因此很难获得这些样本,因此,对于优先经验回放,这些学习样本只能从给定的轨迹选择。
为了获得卫星之间距离接近安全距离条件下的虚拟样本,我们采用贝尔曼误差外推的形式允许在外推状态下模拟估计学习误差,即在每颗卫星当前状态周围选取一定的样本,利用这些样本对神经网络进行学习,这种学习样本方法强调卫星之间的避免碰撞,而不是跟踪领星,在以当前卫星位置为中心的半径为Re的球面上随机选取外推学习样本,利用这些样本建立编队误差。
假设取得的样本为(eim,uim,uJm),则该样本的误差可以表示为:
Figure BDA0004050599890000241
Figure BDA0004050599890000242
则根据算法,该部分样本权值调整规则为:
Figure BDA0004050599890000243
其中
Figure BDA0004050599890000244
λim>0是学习率,nm表示每个时刻选择的样本数;/>
从上面可以看出,学习样本分为两个部分,并且两个部分的侧重点不同,优先经验回放样本产生于实际系统轨迹中,更注重跟踪效果和全局优化;贝尔曼外推样本允许选择虚拟样本,更注重避碰效果和局部优化,因为两种样本的侧重点不同,所以需要设计一个连接两者的权重:
首先重新划分各卫星的安全区域,如图9所示:
1.转换区:一旦两颗卫星进入该区域,就要考虑卫星之间的避碰问题,学习样本中开始出现贝尔曼外推样本,表示为:
Wi={dij∈Rn∣rd<dij<Rd}
2.避碰区:任何时候都不允许卫星之间进入该区域,表示为:
Ai={dij∈Rn∣dij<rd}
为了平衡两种样本,定义一种随距离变化的权重为:
Figure BDA0004050599890000251
根据设计的权重,当卫星之间距离较远的时候,此时不需要考虑卫星之间的避碰作用,权值调整由在线学习和优先经验回放的离线学习两部分组成;当卫星之间的距离小于一定距离的时候,考虑加入外推学习的样本,这是一个连续的过渡过程,因此,进一步推导出评判网络误差为:
Figure BDA0004050599890000252
则评判网络的权重更新规则调整为:
Figure BDA0004050599890000253
基于以上四步,就完成了整个多卫星编队避碰控制过程。
为了验证本发明提出的基于安全自适应动态规划的星群智能编队避碰控制方法的有效性,首先将多星编队系统在MATLAB/Simulink中进行集成设计,并进行了仿真实验,主要仿真过程如下:
(1)参数设置
仿真考虑一组由一架虚拟领星和四个从星组成的编队,在每个卫星的学习过程中加入对其他星的安全障碍函数避碰项,多卫星编队的通信拓扑图选取如图2所示,其中0表示虚拟领星,1-4表示4个从星。
主要参数设置如下所示:
1)领星运动轨迹参数
虚拟虚拟领星Leader 0的运动轨迹设置为:
P0=[3t,3t,t]T
2)卫星轨道模型参数
参考轨道半长轴ac=7162977m,轨道偏心率ec=0.0004262,万有引力常量μ=6.67×10-11,表示第i颗卫星的质量mi=50kg,主星的纬度角θ=0.35。
3)评判神经网络参数
评判神经网络的激活函数为σi=[ePi 2,eVi 2,ePi TeVi,ePi 4,eVi 4,ePi 3eVi,ePi 2eVi 2,ePieVi 3]T,评判神经网络权值初值为Wci=[75,60,80,20,90,30,60,50]T,评判神经网络的学习速率均为λ1i=λik=λim=0.5,b=4,S=R=I,η=1.5。
4)学习参数
对于优先经验回放学习,经验回放数据库容量为L=10,抽样样本为nk=3;对于外推学习,在当前卫星位置为中心的半径Re=0.5的球体中随机选取样本进行外推学习,样本的数量是nm=3。每个卫星的安全域设置为Rd=1.5rd,rd=8。
外推学习的样本选择在以当前卫星位置为中心,一定半径的球体中随机选择,并且随着控制过程不断变化,随着卫星之间的距离变化,样本的权重也随之发生变化,具体表现为在两个卫星之间的距离过近的时候开始引入外推样本,并且随着距离越来越近样本权重越来越高。
5)期望位置和初始位置参数
假设虚拟领星Leader的坐标为编队中心,由c0表示,编队的期望队形为表1中所示的正方形,各个卫星的初始位置参数如表2所示。其中,初始速度全为0。
表1初始编队队形期望坐标设置
Figure BDA0004050599890000261
Figure BDA0004050599890000271
表2各个卫星初始位置设置
Figure BDA0004050599890000272
(2)结果分析
1)仿真结果
图3表示卫星编队过程中各个卫星的轨迹变化,图中虚线和实线分别表示领星与从星的实际轨迹,从图3可以看出,设计的编队控制器可以使得从星实时准确的跟踪虚拟领星。
图4显示了编队中各个卫星速度坐标实时跟踪参考轨迹的曲线过程,图中虚线和实线分别表示领星与从星的实际速度,由图4可知各个卫星能实时准确追踪上领星的参考速度,并与其保持固定的位置距离,即形成预设的编队队形,从而验证了本发明基于自适应动态规划的多卫星编队控制器的有效性。
图5表示编队中4颗从星的编队位置误差响应曲线,从图中可以看出,四颗卫星的编队位置误差在有限时间内收敛于0,进一步验证了安全自适应动态规划算法的快速稳定性。
图6表示加入安全障碍函数避碰项之后星间距离变化和未加入安全障碍函数避碰项之后星间距离变化的对比图,可以看出,当控制算法中未加入安全函数避碰项时,星1和星4之间的距离在开始时将会达到1.4左右,这明显小于安全距离,视为卫星已发生碰撞,而加入安全障碍函数避碰项的四颗卫星在编队控制过程中可以保证安全距离,说明本发明基于安全自适应动态规划的星群智能编队避碰控制方法的效果。
图7表示了从星2的评判神经网络权值参数的变化过程,由图7可知,评判神经网络权值参数是稳定收敛,经过不断迭代,权重最终逼近各自的最优值。
综上所述,所提出的安全自适应动态规划算法能在多卫星编队飞行中实现避碰,并能快速收敛到最优值。下面进一步验证了本发明的优越性。
2)对比结果
考虑到学习过程中样本抽取的随机性,有必要将本发明与其他控制方法进行横向比较。我们对三种方法进行了数值分析:
方法1:基于自适应动态规划的无经验回放最优控制器;
方法2:基于自适应动态规划的最优控制器,只包含历史数据样本,不使用在线样本。
方法3:基于自适应动态规划的最优控制器,使用本发明的学习算法。
定义两个评价指标进行定量比较分析:首先,在多卫星编队飞行开始后t=2s处,计算各卫星编队误差欧氏范数|ei|;然后,分别在有干扰和无干扰的环境下进行了5次重复实验,得到了形成误差的平均值和方差。对比结果如图8三种不同学习方法下卫星编队误差的变化情况对比图和表3三种不同学习方法下重复实验编队误差的平均值和方差,表3如下所示:
Figure BDA0004050599890000291
图8显示了以上三种不同学习方法下卫星编队误差的变化情况,可以看出,方法2的形成误差收敛速度比方法1快,前者的形成误差在8s内可小于5%,而后者的形成误差约为10s。然而,所提出的安全自适应动态规划算法的编队误差小于5%仅用了4.3s左右。因此,与其他方法相比,本发明收敛时间最短,编队精度最高。
从表3不同学习方法下重复实验编队误差的平均值和方差可以看出,在相同的初始条件下,当t=2s时,有样本学习的编队误差比无样本学习的编队差小。以卫星1为例,使用方法2和方法3获得的误差平均值要明显小于方法1,具有显著的优势。在此基础上,方法3对算法进行了进一步优化,误差平均值为三种方法最低,并且这一优势在有干扰环境中也得到了验证。
因此,本发明采用上述基于安全自适应动态规划的星群智能编队避碰控制方法,采用自适应动态规划算法设计多卫星编队控制器,解决了传统动态规划算法的“维数灾”问题,将两种迭代方法结合,使控制器能够应用到更复杂的场景中,并且实现在线优化;通过设计一个同时反应编队误差,控制量和避碰作用的性能指标函数,将避碰问题转化为约束问题;通过引入距离变化权重,充分利用了历史数据和在线数据,实现了对学习数据的有效利用和系统的快速收敛,最终实现多卫星编队避碰控制。
以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims (7)

1.一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于,包括以下步骤:
步骤1:建立多卫星编队模型:考虑一个包含n颗从星和一颗领星的多星编队系统,为了进行精确的编队跟踪控制,建立如下所示的第i颗从星的卫星非线性动力学模型:
Figure FDA0004050599880000011
式中,i=1,2,···,n表示第i颗从星,pi=[xi,yi,zi]T∈R3为主星到第i颗从星的相对位置矢量,θ为主星的纬度角,
Figure FDA0004050599880000012
为主星距离地心的标量半径,其中ac为半长轴,ec为参考轨道的轨道偏心率,μ为万有引力常量,/>
Figure FDA0004050599880000013
表示第i颗从星与地心的距离,mi表示第i颗从星的质量,ui=[uix,uiy,uiz]T为第i颗从星的控制策略,di=[dix,diy,diz]T为外界干扰;
为了方便表示,将卫星非线性动力学模型写为以下形式:
Figure FDA0004050599880000014
其中模型矩阵Ci和Ei可以表示为,
Figure FDA0004050599880000015
定义一个包含n节点的有向图
Figure FDA0004050599880000016
描述多星编队系统的通讯拓扑关系,其中
Figure FDA0004050599880000017
表示非空节点集合,n为节点数,/>
Figure FDA0004050599880000018
表示边的集合,υ0表示领星节点,有向图/>
Figure FDA0004050599880000019
的邻接矩阵表示为/>
Figure FDA00040505998800000110
ai0表示第i个从星节点υi与领星节点υ0的连通状况,即从星i是否能获取领星的信息;如果/>
Figure FDA0004050599880000021
Figure FDA0004050599880000022
表示边的集合,则ai0=1,否则ai0=0;第i个从星节点υi的所有相邻节点表示为/>
Figure FDA0004050599880000023
当确定了多星编队系统的通讯拓扑关系,即问题可以转化为实现以下目标:
Figure FDA0004050599880000024
其中,pi表示从星i的位置,pj表示从星i的邻星j的位置,p0为领星的位置,ci=[cxi,cyi,czi]T为从星i相对于领星的期望编队位置,编队中的各个从星表示为i,j=1...n,i≠j,领星表示为0,t表示编队时间,T表示编队终止时间;
定义
Figure FDA0004050599880000025
则跟踪误差模型可以表示为::
Figure FDA0004050599880000026
式中,epi表示卫星编队位置,evi表示速度跟踪误差,pi和pj分别表示从星i及邻星j在主星轨道坐标系中的位置,vi,vj分别表示从星i及邻星j在主星轨道坐标系中的速度,cij表示从星i及邻星j之间的期望相对距离,aij表示星间通信拓扑;
因此,基于卫星非线性动力学模型(2)和跟踪误差模型(3),建立卫星编队跟踪误差动态方程:
Figure FDA0004050599880000027
定义从星i的编队误差为ei=[epi T,evi T]T,那么能够得到以下多卫星编队模型:
Figure FDA0004050599880000031
其中,系统矩阵
Figure FDA0004050599880000032
系统矩阵/>
Figure FDA0004050599880000033
系统矩阵
Figure FDA0004050599880000034
步骤2:基于安全障碍函数的性能指标函数设计,并依据性能指标函数建立编队避碰控制模型:通过安全障碍函数解决多星编队系统存在的碰撞问题,将场景下的避碰问题转换为约束问题,设计出一种同时反应编队误差,控制量和避碰作用的性能指标函数,从而实现将多卫星编队避碰控制问题转换为标称编队误差系统的最优稳定控制问题,保证系统的安全性;
步骤3:基于自适应动态规划多卫星编队控制器的设计:在策略迭代和值迭代两种自适应动态规划迭代方法的基础上,将两种迭代方法结合,并且将算法扩展到多卫星系统上,使控制器能够应用到更复杂的场景中,同时在线优化编队中的每颗卫星;
步骤4:构建评判神经网络以及设计自适应学习算法:针对所步骤3提出的安全自适应动态规划算法构建评判网络去近似最优性能指标函数并求解最优控制策略,完成评判神经网络设计;并且采用策略梯度法,对神经网络所有权值的范数进行更新,利用网络输出迭代,最终获得最优控制器,完成星群智能最优编队控制器设计。
2.根据权利要求1所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于:步骤1中假设所有从星都存在一条及以上到达领星的有向路径;领星位置的二阶导数
Figure FDA0004050599880000035
可求得,即存在/>
Figure FDA0004050599880000036
和/>
Figure FDA0004050599880000037
有常数界,即/>
Figure FDA0004050599880000038
系统矩阵都存在有上界,即/>
Figure FDA0004050599880000039
且/>
Figure FDA00040505998800000310
卫星的姿态角是一个常数,即θ=θc;卫星模型中外界干扰可以忽略不计,即di=[0,0,0]T
3.根据权利要求2所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于:步骤2的具体方法为:针对卫星之间自主避碰的需求,卫星的安全域和障碍函数可以设计为:
安全域Dij
Dij={dij∈Rn∣dij≥rd} (6)
安全障碍函数μij
Figure FDA0004050599880000041
式中,dij为编队控制过程中从星i及从星j之间的相对距离,即dij=||pi-pj||,rd表示安全距离,当某一时刻两个卫星之间的距离小于安全距离时,判断此时这两个卫星碰撞,η为一个正实常数,满足η>1;
接下来设计多星编队系统的性能指标函数,定义从星i的编队误差为ei=[epi T,evi T]T,定义性能指标函数为:
Figure FDA0004050599880000042
式中uJ代表第i星所有邻星的控制策略,瞬时性能指标Ui定义为:
Figure FDA0004050599880000043
由式9可知瞬时性能指标Ui由三部分组成:第一项代表卫星编队误差代价,第二项代表卫星控制量代价,第三项代表卫星之间的避碰,其中,S,R是正定的斜对称矩阵,ei T,ui T分别表示ei,ui的转置;
则最优性能指标函数可以表示为:
Figure FDA0004050599880000051
为了实现多星编队系统的平稳飞行和安全避碰,控制的目标是找到一组能够最小化性能指标函数并且使系统状态限制在安全域Dij之内的控制策略ui(i=1,2,···,n),则编队避碰控制模型为:
Figure FDA0004050599880000052
s.t.ei∈(5),dij∈Dij i,j=1,2,...n(11)
4.根据权利要求3所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于:步骤3的具体方法为:当性能指标函数连续可微时,系统的哈密顿函数可以表示为:
Figure FDA0004050599880000053
式中
Figure FDA0004050599880000054
表示性能指标函数Ji(ei)关于编队误差ei的偏导,性能指标函数的初值/>
Figure FDA0004050599880000055
则最优HJB方程可以表示为:
Figure FDA0004050599880000056
最优的性能指标函数Ji *(ei)通过求解上式的HJB方程获得,则令性能指标函数最优的控制策略可以表示为:
ui *=argminH(ei,▽Ji *,ui,uJ)(14)
进一步,通过求解
Figure FDA0004050599880000057
得到最优编队控制器,即第i个从星基于最优性能指标函数生成的控制策略可以表示为:
Figure FDA0004050599880000058
综上所述,安全自适应动态规划算法可以总结为以下步骤:
1.初始化:给定
Figure FDA0004050599880000059
设置t=0;
2.策略更新:更新第i个从星的控制策略:
Figure FDA0004050599880000061
3.性能指标函数迭代:根据贝尔曼最优理论求解方程:
Figure FDA0004050599880000062
其中
Figure FDA0004050599880000063
表示t+1时刻从星的性能指标函数,ei t表示t时刻从星的编队误差,ui t表示t时刻从星的控制策略,uJ t表示t时刻邻星的控制策略集合;αi=tan(bln(t+1))为平衡参数,0≤αi<1,其中参数b是一个常数,b>0;ei t+1表示t+1时刻从星的编队误差;
4.直到编队控制进程停止之前,回到算法第2步并继续算法。
5.根据权利要求4所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于:步骤3中提出的安全自适应动态规划算法的性能指标函数迭代过程中,为了平衡策略迭代和值迭代两种迭代方式,实现算法在快速迭代的基础上不需要初始的稳定控制策略,在性能指标函数迭代过程中引入平衡参数αi(0≤αi<1),在算法开始时设置αi=0,以避免初始稳定控制策略的要求,并逐渐增加αi以加速收敛。
6.根据权利要求5所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于:步骤4的具体方法为:针对所步骤3提出的安全自适应动态规划算法构建评判神经网络,表示为:
Ji *(ei)=Wci Tσc(ei)+εci(18)
式中Wci∈Rn表示理想的评判神经网络权值向量,上界为λWi,即||Wci||≤λWi,σc(ei)∈Rn表示评判神经网络的激活函数,εci∈R表示评判神经网络的近似误差;
根据式(18),可以推导最优性能指标函数的偏导为:
▽Ji *(ei)=Wci T▽σc(ei)+▽εci(19)
式中
Figure FDA0004050599880000071
▽εci分别表示激活函数和近似误差的偏导;
Figure FDA0004050599880000072
其中,
Figure FDA0004050599880000073
式中lε1i表示由于评判神经网络近似导致的残差;
在自适应动态规划的一般框架中,考虑到理想权重未知的事实,通常根据估计的权重向量
Figure FDA0004050599880000074
建立评判神经网络来逼近最优性能指标函数:
Figure FDA0004050599880000075
Figure FDA0004050599880000076
式中
Figure FDA0004050599880000077
分别代表评判神经网络的权值估计值,性能指标函数估计值和性能指标函数估计值的偏导;
定义权值估计误差
Figure FDA0004050599880000078
式(20)可变换为:
Figure FDA0004050599880000079
式中,
Figure FDA00040505998800000710
lε2i表示近似哈密顿量;
为了调节评判神经网络的权值,利用策略梯度法使得误差函数
Figure FDA00040505998800000711
最小,因此提出评判神经网络权值调整规则为:
Figure FDA00040505998800000712
式中
Figure FDA00040505998800000713
λ1i>0是评判神经网络的在线学习速率;
学习样本1:优先经验回放
首先,定义一个有限大小的经验数据库:D=(s1,s2,···sL),L代表数据库容量,在每一时刻,计算数据库中每个样本对应的误差,利用计算出的误差的大小对库中的样本进行排序,通过排序结果计算经验数据库中每个样本的优先级pk
Figure FDA0004050599880000081
其中,rank(k)表示数据库中第k(1≤k≤L)个样本的排序顺位;
通过优先级pk计算该样本的抽取概率P(k):
Figure FDA0004050599880000082
每个样本获得了概率信息后,通过得到的抽取概率P(k)在数据库中进行抽样,在取得相应的样本之后,在每一时刻需要计算抽取到样本的网络误差:
假设取得的样本为(eik,uik,uJk),则该样本的误差可以表示为:
Figure FDA0004050599880000083
Figure FDA0004050599880000084
则根据算法,该部分样本权值调整规则为:
Figure FDA0004050599880000085
其中
Figure FDA0004050599880000086
λik>0是学习率,nk表示每个时刻选择的样本数,满足nk<L;
学习样本2:贝尔曼误差外推学习
在以当前卫星位置为中心的半径为Re的球面上随机选取外推学习样本,利用这些样本建立编队误差,假设取得的样本为(eim,uim,uJm),则该样本的误差可以表示为:
Figure FDA0004050599880000087
Figure FDA0004050599880000088
则根据算法,该部分样本权值调整规则为:
Figure FDA0004050599880000091
其中
Figure FDA0004050599880000092
λim>0是学习率,nm表示每个时刻选择的样本数;
从上面可以看出,学习样本分为两个部分,因为两种样本的侧重点不同,所以需要设计一个连接两者的权重:
首先重新划分各卫星的安全区域:
1.转换区:一旦两颗卫星进入该区域,就要考虑卫星之间的避碰问题,学习样本中开始出现贝尔曼外推样本,表示为:
W i={dij∈Rn∣rd<dij<Rd}
2.避碰区:任何时候都不允许卫星进入该区域,表示为:
Ai={dij∈Rn∣dij<rd}
为了平衡两种样本,定义一种随距离变化的权重为:
Figure FDA0004050599880000093
根据设计的权重,当卫星之间距离较远的时候,此时不需要考虑卫星之间的避碰作用,权值调整由在线学习和优先经验回放的离线学习两部分组成;当卫星之间的距离小于一定距离的时候,考虑加入外推学习的样本,这是一个连续的过渡过程,因此,进一步推导出评判网络误差为:
Figure FDA0004050599880000094
则评判网络的权重更新规则调整为:
Figure FDA0004050599880000101
基于以上四步,就完成了整个多卫星编队避碰控制过程。
7.根据权利要求6所述的一种基于安全自适应动态规划的星群智能编队避碰控制方法,其特征在于:步骤4中学习样本1的样本的概率选取利用轮盘赌选择法即积累概率选择,具体过程如下:在[0,1]内产生一个均匀分布的随机数r,若r≤q1,则元组1被选中;若qk-1<r≤qk(2≤k≤L),则元组k被选中,qi为积累概率,其计算公式
Figure FDA0004050599880000102
CN202310040189.6A 2023-01-13 2023-01-13 一种基于安全自适应动态规划的星群智能编队避碰控制方法 Active CN116331518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310040189.6A CN116331518B (zh) 2023-01-13 2023-01-13 一种基于安全自适应动态规划的星群智能编队避碰控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310040189.6A CN116331518B (zh) 2023-01-13 2023-01-13 一种基于安全自适应动态规划的星群智能编队避碰控制方法

Publications (2)

Publication Number Publication Date
CN116331518A true CN116331518A (zh) 2023-06-27
CN116331518B CN116331518B (zh) 2023-09-26

Family

ID=86879736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310040189.6A Active CN116331518B (zh) 2023-01-13 2023-01-13 一种基于安全自适应动态规划的星群智能编队避碰控制方法

Country Status (1)

Country Link
CN (1) CN116331518B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116700012A (zh) * 2023-07-19 2023-09-05 合肥工业大学 一种多智能体的避撞编队合围控制器的设计方法
CN117111620A (zh) * 2023-10-23 2023-11-24 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102040008A (zh) * 2010-12-13 2011-05-04 北京航空航天大学 一种用于编队卫星在轨运行安全的防碰控制方法
US20130292517A1 (en) * 2012-05-07 2013-11-07 Robert Briskman Autonomous satellite orbital debris avoidance system and method
CN105138010A (zh) * 2015-08-31 2015-12-09 哈尔滨工业大学 一种编队卫星分布式有限时间跟踪控制方法
CN109062243A (zh) * 2018-10-31 2018-12-21 长光卫星技术有限公司 一种多约束下航天器能量最优的自主碰撞规避方法
US20200354089A1 (en) * 2019-05-10 2020-11-12 The United States Of America, As Represented By The Secretary Of The Navy System and Method for Automated Intercept Avoidance for Spacecraft
CN113885570A (zh) * 2021-10-25 2022-01-04 天津大学 基于旋转势场的卫星编队重构控制方法
CN114815872A (zh) * 2022-06-14 2022-07-29 哈尔滨工业大学 一种针对碰撞规避的星座智能自主轨道控制方法
KR20220129218A (ko) * 2021-03-16 2022-09-23 한국전자통신연구원 장애물에 관한 비행 상황을 인지하여 무인 이동체의 속도 제어 방법 및 무인 이동체
CN115108053A (zh) * 2022-07-08 2022-09-27 中南大学 基于事件触发的空间多星协同编队控制方法
CN115509248A (zh) * 2022-10-09 2022-12-23 哈尔滨工业大学 一种基于序列凸优化和模型预测控制的卫星集群重构控制方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102040008A (zh) * 2010-12-13 2011-05-04 北京航空航天大学 一种用于编队卫星在轨运行安全的防碰控制方法
US20130292517A1 (en) * 2012-05-07 2013-11-07 Robert Briskman Autonomous satellite orbital debris avoidance system and method
CN104520914A (zh) * 2012-05-07 2015-04-15 罗伯特·布里斯克曼 自主卫星轨道碎片避让系统和方法
CN105138010A (zh) * 2015-08-31 2015-12-09 哈尔滨工业大学 一种编队卫星分布式有限时间跟踪控制方法
CN109062243A (zh) * 2018-10-31 2018-12-21 长光卫星技术有限公司 一种多约束下航天器能量最优的自主碰撞规避方法
US20200354089A1 (en) * 2019-05-10 2020-11-12 The United States Of America, As Represented By The Secretary Of The Navy System and Method for Automated Intercept Avoidance for Spacecraft
KR20220129218A (ko) * 2021-03-16 2022-09-23 한국전자통신연구원 장애물에 관한 비행 상황을 인지하여 무인 이동체의 속도 제어 방법 및 무인 이동체
CN113885570A (zh) * 2021-10-25 2022-01-04 天津大学 基于旋转势场的卫星编队重构控制方法
CN114815872A (zh) * 2022-06-14 2022-07-29 哈尔滨工业大学 一种针对碰撞规避的星座智能自主轨道控制方法
CN115108053A (zh) * 2022-07-08 2022-09-27 中南大学 基于事件触发的空间多星协同编队控制方法
CN115509248A (zh) * 2022-10-09 2022-12-23 哈尔滨工业大学 一种基于序列凸优化和模型预测控制的卫星集群重构控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116700012A (zh) * 2023-07-19 2023-09-05 合肥工业大学 一种多智能体的避撞编队合围控制器的设计方法
CN116700012B (zh) * 2023-07-19 2024-03-01 合肥工业大学 一种多智能体的避撞编队合围控制器的设计方法
CN117111620A (zh) * 2023-10-23 2023-11-24 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法
CN117111620B (zh) * 2023-10-23 2024-03-29 山东省科学院海洋仪器仪表研究所 一种异构无人系统任务分配自主决策方法

Also Published As

Publication number Publication date
CN116331518B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Chai et al. Review of advanced guidance and control algorithms for space/aerospace vehicles
Duan et al. ? Hybrid particle swarm optimization and genetic algorithm for multi-UAV formation reconfiguration
CN116331518B (zh) 一种基于安全自适应动态规划的星群智能编队避碰控制方法
CN111240345B (zh) 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
Lin et al. A gated recurrent unit-based particle filter for unmanned underwater vehicle state estimation
Zhao et al. Distributed three-dimensional cooperative guidance via receding horizon control
Zhang et al. A globally fixed-time solution of distributed formation control for multiple hypersonic gliding vehicles
CN115509248B (zh) 一种基于序列凸优化和模型预测控制的卫星集群重构控制方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
Zhou et al. Terminal-time synchronization of multivehicle systems under sampled-data communications
Wang et al. Decentralized MPC-based trajectory generation for multiple quadrotors in cluttered environments
Yan et al. Robust control strategy for multi-UAVs system using MPC combined with Kalman-consensus filter and disturbance observer
Yang et al. Three-dimensional UAV cooperative path planning based on the MP-CGWO algorithm
Yao et al. Nonsingular fixed-time tracking guidance for mars aerocapture with neural compensation
Bai et al. Formation control of quad-rotor UAV via PIO
Glida et al. Trajectory tracking control of a coaxial rotor drone: Time-delay estimation-based optimal model-free fuzzy logic approach
Zhang et al. Orbital containment control algorithm and complex information topology design for large-scale cluster of spacecraft
Kong et al. Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments
CN116142490A (zh) 复杂约束下基于势函数的航天器姿态重定向控制方法
Xia et al. Prescribed intelligent elliptical pursuing by UAVs: A reinforcement learning policy
Chu et al. Obstacle Avoidance Trajectory Planning and Trajectory Tracking Control for Autonomous Underwater Vehicles
Zhou et al. Multi-UAVs formation autonomous control method based on RQPSO-FSM-DMPC
Liu et al. Multi-Quadrotor Formation Tracking with Mixed Constraints: A Hierarchical Rolling Optimization Approach
Sprague et al. Learning a family of optimal state feedback controllers
Li et al. Decentralized fuzzy fault tolerant control for multiple satellites attitude synchronization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant