CN112937918A - 一种基于强化学习的多约束下的卫星姿态机动规划方法 - Google Patents

一种基于强化学习的多约束下的卫星姿态机动规划方法 Download PDF

Info

Publication number
CN112937918A
CN112937918A CN202110162955.7A CN202110162955A CN112937918A CN 112937918 A CN112937918 A CN 112937918A CN 202110162955 A CN202110162955 A CN 202110162955A CN 112937918 A CN112937918 A CN 112937918A
Authority
CN
China
Prior art keywords
satellite
strategy
iteration
sun
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110162955.7A
Other languages
English (en)
Other versions
CN112937918B (zh
Inventor
华冰
孙胜刚
郑墨泓
吴云华
陈志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202110162955.7A priority Critical patent/CN112937918B/zh
Publication of CN112937918A publication Critical patent/CN112937918A/zh
Application granted granted Critical
Publication of CN112937918B publication Critical patent/CN112937918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/244Spacecraft control systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • B64G1/244Spacecraft control systems
    • B64G1/245Attitude control algorithms for spacecraft attitude control

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明针对复杂多约束条件下卫星姿态机动规划问题,提出了一种基于强化学习的多约束下的卫星姿态机动规划方法,属于涉及卫星姿态控制的控制、调节技术领域。首先,基于姿态约束和姿态定向要求,建立姿态规划的强化学习模型,根据目标姿态建立数据库并计算强化学习所需参数;然后,以卫星的三个姿态角为策略进行策略迭代,策略收敛后更新姿态角,在进行完设定次数的迭代后输出多组姿态,设计筛选指标筛选出所需姿态并平滑处理。本发明的模型简单直接,贴合工程实际,计算量较小,在满足卫星对地对日精度要求的情况下实现多个强制指向约束和禁忌指向约束下的卫星姿态机动规划。

Description

一种基于强化学习的多约束下的卫星姿态机动规划方法
技术领域
本发明涉及卫星姿态机动规划技术,具体而言涉及一种基于强化学习的多约束下的卫星姿态机动规划方法,属于涉及卫星姿态控制的控制、调节技术领域。
背景技术
微小卫星在轨运行时面临着许多姿态约束,卫星必须时刻满足保持光伏电池阵列始终面对太阳的位姿要求以获取能量,卫星天线需满足对地定向姿态要求以实现不中断通信。同时,卫星往往配置许多精密的敏感器件和光学器件,精密器件在受到强光照射后会故障。虽然在安装时已经避免精密器件与光伏电池阵列同一朝向,但是在姿态机动规划时还需避免太阳光照射到这些器件上。除了上述姿态约束之外,还需要考虑抑制杂光、规避空间碎片等姿态约束。综上各种因素,航天器在轨运行过程中面临多个强制指向约束以及禁止指向约束。微小卫星由于自身条件限制,携带的燃料有限、机动能力有限,这就要求在多约束条件下对卫星姿态机动进行规划。
目前,对于姿态机动规划的研究较少,且大多数使用势函数的方法,势函数方法的一大弊端是模型物理意义不明确,传统势函数方法极易陷入局部最小值。一旦设计成功某一个势函数,后续添加约束条件,将要重新设计新的势函数,不利于问题模型的拓展。此外,目前国内外对于姿态机动问题的研究停留在二维空间内的静态指向约束,卫星主动规避的指向约束的种类仅仅限于1-2种,数量也仅限于2-3个,并且大多是在虚构的二维平面内,与卫星在轨运行的实际情况相去甚远,脱离实际应用。然而,卫星实际工作在三维空间,在轨道中所处的位置和面对的各种姿态约束是时刻变化的。要指定姿态机动策略,首先应该建立合适的数学模型来描述卫星自身的结构约束和外部约束,该约束模型不应过于繁琐复杂,应该有较为明确的物理意义,并且便于随时添加可能出现的新约束,便于工程人员使用。
对于高维度的连续策略机动问题,无论是针对线性系统建立的黎卡提方程,还是针对非线性系统建立的哈密尔顿-雅可比-贝尔曼(HJB)方程,在求解过程中都需要已知系统的全部动态。然而系统动态的获取不仅需要复杂的建模及化简过程,同时在非线性问题中也难以求解。
强化学习算法吸收了最优控制和自适应控制两者的优点并且互补:不需要复杂繁琐的问题建模过程,不需要系统完全可知,便于解决非线性问题,而且可以在线实时规划,求得问题的最优解。复杂多约束条件下航天器姿态机动规划问题属于非线性高维度的连续时变最优化问题,适合运用强化学习方法求解。
复杂多约束条件下卫星姿态机动问题属于在连续高维动作空间内的规划问题。相比之下,策略梯度强化学习算法计算简单,而且策略总是朝着好的方向在改善,具有更好的收敛性。因此,本发明旨在采用基于有限差分策略梯度的强化学习方法来优化姿态机动策略。
发明内容
本发明的发明目的是针对现有姿态机动规划研究的问题过于理想化、简单化、工程实用价值低且模型复杂、通用性较差、求解容易陷入局部最优、精度较差等问题,提出了一种基于强化学习的多约束下的卫星姿态机动规划方法,模型简单,物理意义明确,通用性拓展性强,求解精度较好。
本发明为实现上述发明目的采用如下技术方案:
一种基于强化学习的多约束下的卫星姿态机动规划方法,
在卫星本体坐标系下建立强制指向约束和禁止指向约束,卫星本体坐标系为理想条件下zB轴指向地心、-yB轴指向日心、xB轴正方向根据右手定则确定的笛卡尔坐标系;
以翻滚角、俯仰角和偏航角为策略建立强化学习模型,强化学习模型通过内层迭代更新每个时刻的策略梯度且通过外层迭代更新各时刻的策略,更新策略梯度的总回报函数根据卫星对地对日定向精度以及禁止指向约束建立;
从卫星满足对地定向精度或对日定向精度的姿态解集中抽取与参考目标姿态相关的姿态解生成数据库;
根据数据库初始化强化学习模型,通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度直至策略梯度收敛,对内层迭代中止得到的策略梯度进行修正后得到更新每个时刻策略的最终策略梯度;
从强化学习模型每次外层迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略,对筛选出的策略进行平滑处理得到每个时刻的最终姿态规划结果。
进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中,强制指向约束包括卫星对日的能量获取约束和卫星对地指向约束。
进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中,禁止指向约束包括直射太阳光对敏感器的约束和反射太阳光对敏感器的约束。
更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中,卫星对日的能量获取约束为卫星本体坐标系中-yB轴和太阳位置矢量Rsun的夹角小于θq1,即,
Figure BDA0002936235610000031
更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法,卫星对地指向约束为卫星本体坐标系中zB轴和地球位置矢量Rearth的夹角小于θq2,即,
Figure BDA0002936235610000032
更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法,直射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量
Figure BDA0002936235610000033
和卫星本体坐标系下第j个反射光区域中心轴相对于卫星的位置矢量
Figure BDA0002936235610000034
的夹角大于θj1,即,
Figure BDA0002936235610000035
更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中,反射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量
Figure BDA0002936235610000036
和太阳位置矢量Rsun的夹角大于θj2,即,
Figure BDA0002936235610000037
更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中,总回报函数为:
Figure BDA0002936235610000041
其中,x1,k(m)、x2,k(m)和x3,k(m)分别为卫星在第k次迭代中当前时刻m的翻滚角
Figure BDA0002936235610000042
俯仰角θk(m)和偏航角,
Figure BDA0002936235610000043
Rd,k(m)为第k次外层迭代中当前时刻m的策略下与对地和对日定向精度相关的回报函数,zB,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系zB轴,μearth为卫星本体坐标系zB轴对地夹角的权重,zO,k(m)为第k次外层迭代中当前时刻m下的质心轨道坐标系zO轴,μsun为质心轨道坐标系zO轴对日夹角的权重,yB,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系yB轴,Rsun,k(m)为第k次外层迭代中当前时刻m下的太阳矢量,Rm-i-j,k(m)是第k次外层迭代中当前时刻m的策略下与第i个敏感器视场中心轴和第j个反射光区域中心轴夹角相关的回报函数,μf-j-i为第i个敏感器视场中心轴和第j个反射光区域中心轴相对于卫星位置矢量的夹角的回报函数的权重系数,
Figure BDA0002936235610000044
为第k次外层迭代中当前时刻m下第i个敏感器的视场中心轴,
Figure BDA0002936235610000045
为第k次外层迭代中当前时刻m下第j个反射光区域中心轴相对于卫星的位置矢量,NO代表敏感器个数,NJ为反射光区域总数,Rs,k(m)为第k次外层迭代中当前时刻m的策略下太阳位置矢量与所有敏感器视场中心轴的夹角相关的回报函数,μsun-i为与太阳位置矢量和第i个敏感器视场中心轴夹角相关的回报函数的权重系数。
进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中,通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度的方法为:
计算第k次外层迭代中第kG次内层迭代时当前时刻m的策略差
Figure BDA0002936235610000051
q=1时表示翻滚角差值,q=2时表示俯仰角差值,q=3时表示偏航角差值,
Figure BDA0002936235610000052
xq,k-2(m)为第k-2次外层迭代中当前时刻m的策略,xq,k-1(m)为第k-1次外层迭代中当前时刻m的策略,η为学习步长;
根据第k次外层迭代中每次内层迭代计算的当前时刻m的策略差及修正策略的期望价值更新第k次外层迭代中当前时刻m的策略梯度Gq,k(m),
Figure BDA0002936235610000053
Figure BDA0002936235610000054
Figure BDA0002936235610000055
为第k次外层迭代中第0次、第1次内层迭代时当前时刻m的策略差,
Figure BDA0002936235610000056
为第k次外层迭代中第1次、第2次、第kG次内层迭代修正策略的期望价值,
Figure BDA0002936235610000057
进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法,从强化学习模型每次迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略的指标为:
Figure BDA0002936235610000058
χ(k)为关于第k次外层迭代得到的所有策略的函数,〈zB,k(m),zO,k(m)>为第k次外层迭代中当前时刻m下卫星本体坐标系zB轴和质心轨道坐标系zO轴的夹角,<-yB,k(m),Rsun,k(m)>为第k次外层迭代中当前时刻m下卫星本体坐标系-yB轴和太阳位置矢量Rsun的夹角,
Figure BDA0002936235610000059
为第k次外层迭代中当前时刻m下翻滚角
Figure BDA00029362356100000510
的均方差,σ(θk(m))为第k次外层迭代中当前时刻m下俯仰角θk(m)的均方差,σ(ψk(m))为第k次外层迭代中当前时刻m下偏航角的均方差,υ1、υ2、υ3为权重系数。
本发明采用上述技术方案,具有以下有益效果:针对卫星能量获取、天线对地指向要求和规避多个禁止指向区域的问题,使用基于欧拉角的姿态空间,物理意义简单明确,便于描述时变的相对姿态关系。一方面,针对卫星对日和对地定向设计目标姿态,以目标姿态为基础建立数据库,大大降低了强化学习算法的计算时间;另一方面,在三维空间内对姿态约束进行建模,更加贴合工程实际情况,并且便于在此基础上增减约束。最终选用的基于策略梯度的强化学习算法进行姿态规划,用户可以根据所需的对日对地精度要求进行调整,规划结果使得卫星成功规避复多个复杂的时变约束。上述较好的效果并没有以较大的姿态机动为代价,规划结果所得的三个欧拉角的变化过程都平滑且缓慢,符合微小航天器的机动能力,可以被控制机构顺利执行。
附图说明
图1为坐标系的示意图。
图2为辅助坐标系与卫星本体坐标系的位置关系示意图。
图3为密集朝向示意图。
图4为姿态机动规划结果。
图5为姿态角机动角速度的仿真波形图。
图6为姿态角机动角加速度的仿真波形图。
图7为对地精度的仿真波形图。
图8为对日精度的仿真波形图。
图9为反射光区域1中心轴与所有敏感器视场中心轴夹角的仿真波形图。
图10为反射光区域2中心轴与所有敏感器视场中心轴夹角的仿真波形图。
图11为反射光区域3中心轴与所有敏感器视场中心轴夹角的仿真波形图。
图12为反射光区域4中心轴与所有敏感器视场中心轴夹角的仿真波形图。
图13为反射光区域5中心轴与所有敏感器视场中心轴夹角的仿真波形图。
图14为所有敏感器视场中心轴与太阳位置矢量夹角的仿真波形图。
图15为姿态规划流程图。
图16为基于策略梯度强化学习算法的姿态规划的流程图。
具体实施方式
下面结合附图对发明的技术方案进行详细说明。
一种基于强化学习算法的卫星低可见性姿态机动规划方法,如图15所示,包括以下5个步骤。
(1)建立姿态规划的强化学习模型步骤
步骤1.1:描述约束
地心惯性坐标系OXIYIZI:坐标系原点位于地球质心,XI轴指向春分点,ZI轴与地球公转角速率矢量一致,YI轴由XI轴和ZI轴根据右手规则定义。
地球固连坐标系OXEYEZE:坐标系原点位于地球质心,XE轴指向基本平面与格林尼治子午平面的交线方向,ZE轴与地球自转轴重合指向北极YE轴由XE轴和ZE轴根据右手规则定义;该坐标系相对于地心惯性坐标系以地球自转角速度旋转,两坐标系之间相差一个地球自转角。
质心轨道坐标系OxOyOzO:坐标系原点位于卫星质心,zO轴指向地心,xO轴在轨道平面内与zO轴垂直并且指向卫星飞行的方向,yO轴由xO轴和zO轴根据右手规则定义。
卫星本体坐标系OxByBzB:坐标系原点位于卫星质心,坐标系三轴xB轴、yB轴、zB轴分别与卫星的三个惯性主轴重合,当欧拉角为(0,0,0)°时,卫星本体坐标系与质心轨道坐标系OxOyOzO重合。
上述各坐标系的关系如图1所示。
定义参考目标姿态为:在仅考虑满足卫星对地和对日定向精度要求的前提下,分别以不同权重考虑对地和对日定向精度得到的一组目标姿态。使用对地定向精度或对日定向精度权重,将得到不同的参考目标姿态。当卫星处于参考目标姿态时,理想条件下为卫星本体坐标系的zB轴指向地心,-yB轴指向日心,但由于太阳矢量Rsun和卫星与地心的连线通常不严格垂直,不能直接定义参考目标姿态为zB轴和卫星与地心的连线重合,-yB轴与太阳矢量Rsun重合。因此,当位于参考目标姿态时,只有卫星本体坐标系xB轴的方向是唯一的:
Figure BDA0002936235610000071
为了计算卫星本体坐标系的yB和zB轴,定义两个辅助坐标系Oxearthyearthzearth和Oxsunysunzsun,如图2所示:
Figure BDA0002936235610000081
其中,xsun=xearth=xB。显然,当优先考虑对地定向的精度时,卫星本体坐标系和Oxearthyearthzearth重合;当优先考虑对日定向的精度时,卫星本体坐标系和Oxsunysunzsun重合。
为了同时考虑对地和对日定向的精度,当位于参考目标姿态时,卫星本体坐标系的yB和zB轴为:
Figure BDA0002936235610000082
其中,κearth∈[0,1]和κsun∈[0,1]为权重系数。
综上所述,可得到参考目标姿态
Figure BDA0002936235610000083
Figure BDA0002936235610000084
其中,xO和yO为质心轨道坐标系的x轴和y轴矢量。
特别地,为了直观地显示卫星对地定向的精度,引入卫星本体坐标系zB轴和轨道坐标系zO轴的夹角:
cos<zB,zO>=zB·zO (5)。
在定义了卫星本体坐标系后,下面定义姿态约束,包括强制指向约束和禁止指向约束。强制指向约束包括航天器对日的能量获取约束和对地指向约束。禁止指向约束指敏感器姿态约束,包括直射和反射太阳光对敏感器的姿态约束。
能量获取约束为要求太阳光照角和太阳能电池阵列的夹角小于θq1,即要求卫星本体坐标系中-yB轴和太阳位置矢量Rsun的夹角小于θq1
Figure BDA0002936235610000091
对地指向约束要求卫星本体坐标系中zB轴和地球位置矢量Rearth的夹角小于θq2
Figure BDA0002936235610000092
禁止指向约束中,在卫星本体系zB轴对地情况下,尽量避免敏感器的锥形视场范围内出现太阳反射光区域。设第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量为
Figure BDA0002936235610000093
第j个反射光区域的中心轴相对于卫星的位置矢量在卫星本体坐标系下表示为
Figure BDA0002936235610000094
禁止指向约束要求
Figure BDA0002936235610000095
Figure BDA0002936235610000096
的夹角大于θj1
Figure BDA0002936235610000097
与Rsun的夹角大于θj2,即:
Figure BDA0002936235610000098
Figure BDA0002936235610000099
步骤1.2:建立强化学习模型
基于有限差分策略梯度迭代的强化学习方法的目的是基于策略价值函数J[xk(m)]对第k次迭代中当前时刻m的策略xk(m)进行优化:
Figure BDA00029362356100000910
其中,γ(m)为当前时刻m的折扣因子,rk(m)是第k次迭代中当前时刻m的策略的回报函数,mmax是总时刻数。
则第k次迭代中当前时刻m的策略xk(m)被更新为xk+1(m):
Figure BDA00029362356100000911
其中,η为学习步长,G为策略梯度。
下面针对姿态规划建立其强化学习模型,策略与欧拉角相关:
Figure BDA0002936235610000101
x1,k(m)、x2,k(m)和x3,k(m)分别代表卫星在第k次迭代中当前时刻m的翻滚角
Figure BDA0002936235610000102
俯仰角θk(m)和偏航角ψk(m)。
回报函数与卫星对地对日定向精度和禁止指向约束相关:
Figure BDA0002936235610000103
其中,Rd,k(m)为第k次外层迭代中当前时刻m的策略下与对地和对日定向精度相关的回报函数,zB,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系zB轴,μearth为卫星本体坐标系zB轴对地夹角的权重,zO,k(m)为第k次外层迭代中当前时刻m下质心轨道坐标系zO轴,μsun为质心轨道坐标系zO轴对日夹角的权重,yB,k(m)为第k次外层迭代中当前时刻m下卫星本体坐标系yB轴,Rsun,k(m)为第k次外层迭代中当前时刻m下的太阳矢量,Rm-i-j,k(m)是第k次外层迭代中当前时刻m的策略下与第i个敏感器视场中心轴和第j个反射光区域中心轴夹角相关的回报函数,μf-j-i为第i个敏感器视场中心轴和第j个反射光区域中心轴相对于卫星位置矢量的夹角的回报函数的权重系数,
Figure BDA0002936235610000104
为第k次外层迭代中当前时刻m下第i个敏感器的视场中心轴,
Figure BDA0002936235610000105
为第k次外层迭代中当前时刻m下第j个反射光区域中心轴相对于卫星的位置矢量,NO代表敏感器个数,NJ为反射光区域总数,Rs,k(m)为第k次外层迭代中当前时刻m的策略下太阳位置矢量与所有敏感器视场中心轴的夹角相关的回报函数,μsun-i为与太阳位置矢量和第i个敏感器视场中心轴夹角相关的回报函数的权重系数,当相关夹角满足姿态约束要求时,μsun-i可设为0,即无需进行优化。
由于姿态禁区的规避能通过绕卫星本体坐标系的任意两个轴完成,设策略总回报函数为:
Figure BDA0002936235610000111
(2)生成数据库
数据库可由卫星仅满足对地和对日定向的姿态解集的子集构成,设数据库包括N组数据,强化学习使用数据库中的数据作为迭代初始值。在参考目标姿态的基础上进行姿态规划,能减少计算量和迭代收敛的时间。数据库可以选择为与参考目标姿态相关的量,本发明设定N=20,故数据库为
Figure BDA0002936235610000112
(3)计算数据库相关物理量
第k次外层迭代当前时刻m的策略xq,k(m)(q=1,2,3)的价值函数为:
Figure BDA0002936235610000113
其中,当未开始迭代时,满足n≤N,当迭代开始时,当完成第k次外层迭代,满足n≤N+k;γ(m)和Rq,k(m)分别是当前时刻m的折扣因子和回报函数,Rq,k(m)=R[xq,k(m)]。
计算策略xq,n(m)即翻滚角
Figure BDA0002936235610000114
俯仰角θk(m)和偏航角ψk(m)与参考姿态之间的误差:
Figure BDA0002936235610000115
(4)基于强化学习进行姿态规划
如图16所示,整个姿态规划过程包括步骤4.1至步骤4.8八个步骤。
步骤4.1:开始强化学习过程,外层迭代(更新策略)开始,设当前第k次外层迭代次数,此时k=1、时刻m=1。
步骤4.2:为了更新策略梯度需要设置内层迭代,设当前为第kG次内层迭代,此时kG=0,
策略梯度Gq,k(m)的计算采用内层迭代完成采取上一组数据该时刻的策略为本次内层迭代的初始策略
Figure BDA0002936235610000121
Figure BDA0002936235610000122
计算
Figure BDA0002936235610000123
的参考期望价值函数
Figure BDA0002936235610000124
Figure BDA0002936235610000125
其中,E[·]为[·]的期望,
Figure BDA0002936235610000126
满足
Figure BDA0002936235610000127
ε为一个大于0的较小值,即根据数据库估计初始策略
Figure BDA0002936235610000128
的价值函数。
步骤4.3:计算第k次外层迭代当前时刻m下的策略差
Figure BDA0002936235610000129
及期望价值函数
Figure BDA00029362356100001210
策略差为
Figure BDA00029362356100001211
Figure BDA00029362356100001212
计算策略
Figure BDA00029362356100001213
的期望价值函数
Figure BDA00029362356100001214
Figure BDA00029362356100001215
步骤4.4:更新策略梯度Gq,k(m),
策略梯度Gq,k(m)为:
Figure BDA00029362356100001216
其中:
Figure BDA00029362356100001217
步骤4.5:判断是否结束内层迭代,
假如内迭代中Gq,k(m)收敛,重置kG=0,用下式计算最终选取的策略梯度Gq,k(m)为:
Figure BDA0002936235610000131
其中,μe≥0为权重系数,
更新Gq,k(m)后进入步骤4.6,假如内迭代中Gq,k(m)不收敛,kG=kG+1,进入步骤4.3。
步骤4.6:更新时刻,
假如完成当前外层迭代所有时刻的策略梯度计算,进入步骤4.7,否则,时刻更新为m=m+1,进入步骤4.2。
步骤4.7:更新策略,
策略更新为:
xq,k(m)=xq,k-1(m)+Gq,k(m),m=1,2,… (24),
步骤4.8:判断是否结束外层迭代,
假如k<ktol,取k=k+1,m=1,并进入步骤4.2,否则,结束外层迭代。
(5)筛选结果并平滑处理
在步骤(4)基于强化学习进行策略规划后,将得到N+ktol组姿态轨迹,其需要注意的是,策略梯度迭代强化学习算法会使欧拉角沿着满足所有约束条件的方向更新,但无法保证最终N+ktol组姿态轨迹均能满足姿态约束要求,并且不同组的姿态轨迹对地和对日定向的精度有所差异。因此,需要对获得的姿态轨迹进行筛选。
进行筛选时,需要定义姿态规划结果筛选指标,下面为一个可选的姿态规划结果筛选指标:
Figure BDA0002936235610000132
k表示当前外层迭代次数,υ1、υ2、υ3表示权重系数,σ(*)表示*的均方差,翻滚角
Figure BDA0002936235610000133
俯仰角θk(m)和偏航角ψk(m)是航天器当前迭代次数的三个欧拉角。χ(k)不是唯一的,可根据实际需求设计。
最终选择的姿态规划结果为第kopt组姿态规划结果:
Figure BDA0002936235610000134
筛选后的姿态规划结果可能存在振颤等问题,将提高姿态控制执行的难度。因此,需要对姿态规划结果进行平滑处理。数据平滑处理方法不唯一,但要注意平滑处理后的姿态规划结果依旧满足姿态约束要求。
实施例1
本申请中,太阳光经5个地表反射点反射会形成5个反射光区域,在姿态机动规划过程中,反射光区域的位置随地球自转而改变。所有敏感器视场中心轴在航天器本体坐标系中的方向矢量分别为:
Figure BDA0002936235610000141
其中,Cz(α)和Cy(α)分别为绕zB轴和yB轴的方向余弦矩阵。
经过STK软件初步分析2021年1年的情况,航天器与反射光区域之间的相对位置关系呈周期性变化。由分析可知,航天器的所有敏感器视场有时不会朝向任何一个反射光区域,有时朝向多个反射光区域。航天器面临的最大的威胁如图3所示,在较短的时间内,不同的敏感器视场陆续朝向了反射光区域;并且存在两个反射光区域同时朝向同一个敏感器视场的情况。接下来针对图3所示的最“危险”的密集朝向情况(2021年5月26日23:00:26~23:03:51),制定姿态机动策略。仿真参数如表1所示,反射光区域中心轴位置矢量和太阳位置矢量均为地心惯性系下的单位矢量。
表1仿真参数
Figure BDA0002936235610000142
Figure BDA0002936235610000151
本申请要求航天器本体坐标系-yB轴与太阳矢量的夹角均小于20°。在本体系下,敏感器视场中心轴和反射光区域中心轴的夹角大于30°;所有敏感器视场中心轴和太阳位置矢量的夹角大于40°。
采用基于策略梯度强化学习的姿态机动规划算法进行姿态机动规划,以式(25)为筛选指标,对强化学习算法得到的多组结果进行筛选,最终得到了如图4所示的航天器三个姿态角机动规划结果。需要注意的是,本申请的姿态机动规划结果留出了10秒的时间余量,即在所有仿真图中实际需要姿态规划的时间是从第10秒开始。由于姿态调整只需要绕航天器本体系的两个轴完成,从图4可以看到俯仰角θ机动角速度基本为0;在整个规划时间内,翻滚角φ的变化范围是20.37°(第10秒)~25.19°(第220秒),变化很小;偏航角ψ变化较大,最小是21.86°(第10秒),最大是30.12°(第46秒),变化幅度仅仅只有8.26°。
图5中姿态角机动的角速度w和角加速度a沿着本体系三坐标轴的分量如图6所示。从第10秒开始,角速度的三个分量的最大值是第10秒的wz,大小为0.55°/sec,角加速度的最大绝对值是第20秒的az,为-0.021°/sec2。可以看到在规划时间内,角速度和角加速度的幅值都很小,并且变化缓慢且曲线可导,便于微小航天器的执行机构进行姿态控制。
在整个仿真时间内,航天器虽然姿态机动的角度不大,但是保持了较高的对地对日精度。如图7所示,航天本体系zB轴对地夹角在整个仿真时间内都大于20°。如图8所示,航天器本体系-yB轴对日夹角在大多数情况下均在10°以下,满足了航天器获取太阳能的需要。5个反射光区域中心轴与5个航天器敏感器视场中心轴的夹角分别如图9至图13所示。所有敏感器视场均与反射光区域保持了较远的距离,最小夹角是41.69°(敏感器2视场中心轴与反射光区域2夹角),仍远远大于本实施例要求的30°。另外,如图14所示,所有敏感器视场中心轴与太阳位置矢量的夹角均大于40°,有效避免了太阳光出现在敏感器视场内。
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,
在卫星本体坐标系下建立强制指向约束和禁止指向约束,所述卫星本体坐标系为理想条件下zB轴指向地心、-yB轴指向日心、xB轴正方向根据右手定则确定的笛卡尔坐标系;
以翻滚角、俯仰角和偏航角为策略建立强化学习模型,所述强化学习模型通过内层迭代更新每个时刻的策略梯度且通过外层迭代更新各时刻的策略,更新策略梯度的总回报函数根据卫星对地对日定向精度以及禁止指向约束建立;
从卫星满足对地定向精度或对日定向精度的姿态解集中抽取与参考目标姿态相关的姿态解生成数据库;
根据数据库初始化强化学习模型,通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度直至策略梯度收敛,对内层迭代中止得到的策略梯度进行修正后得到更新每个时刻策略的最终策略梯度;
从强化学习模型每次外层迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略,对筛选出的策略进行平滑处理得到每个时刻的最终姿态规划结果。
2.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述强制指向约束包括卫星对日的能量获取约束和卫星对地指向约束。
3.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述禁止指向约束包括直射太阳光对敏感器的约束和反射太阳光对敏感器的约束。
4.根据权利要求2所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述卫星对日的能量获取约束为卫星本体坐标系中-yB轴和太阳位置矢量Rsun的夹角小于θq1,即,
Figure FDA0002936235600000011
5.根据权利要求2所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述卫星对地指向约束为卫星本体坐标系中zB轴和地球位置矢量Rearth的夹角小于θq2,即,
Figure FDA0002936235600000021
6.根据权利要求3所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述直射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量
Figure FDA0002936235600000022
和卫星本体坐标系下第j个反射光区域中心轴相对于卫星的位置矢量
Figure FDA0002936235600000023
的夹角大于θj1,即,
Figure FDA0002936235600000024
7.根据权利要求3所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述反射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量
Figure FDA0002936235600000025
和太阳位置矢量Rsun的夹角大于θj2,即,
Figure FDA0002936235600000026
8.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,所述总回报函数为:
Figure FDA0002936235600000027
和x3,k(m)分别为卫星在第k次迭代中当前时刻m的翻滚角
Figure FDA0002936235600000028
俯仰角θk(m)和偏航角,
Figure FDA0002936235600000029
Rd,k(m)为第k次外层迭代中当前时刻m的策略下与对地和对日定向精度相关的回报函数,zB,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系zB轴,μearth为卫星本体坐标系zB轴对地夹角的权重,zO,k(m)为第k次外层迭代中当前时刻m下的质心轨道坐标系zO轴,μsun为质心轨道坐标系zO轴对日夹角的权重,yB,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系yB轴,Rsun,k(m)为第k次外层迭代中当前时刻m下的太阳矢量,Rm-i-j,k(m)是第k次外层迭代中当前时刻m的策略下与第i个敏感器视场中心轴和第j个反射光区域中心轴夹角相关的回报函数,μf-j-i为第i个敏感器视场中心轴和第j个反射光区域中心轴相对于卫星位置矢量的夹角的回报函数的权重系数,
Figure FDA0002936235600000031
为第k次外层迭代中当前时刻m下第i个敏感器的视场中心轴,
Figure FDA0002936235600000032
为第k次外层迭代中当前时刻m下第j个反射光区域中心轴相对于卫星的位置矢量,NO为敏感器个数,NJ为反射光区域总数,Rs,k(m)为第k次外层迭代中当前时刻m的策略下太阳位置矢量与所有敏感器视场中心轴的夹角相关的回报函数,μsun-i为与太阳位置矢量和第i个敏感器视场中心轴夹角相关的回报函数的权重系数。
9.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度的方法为:
计算第k次外层迭代中第kG次内层迭代时当前时刻m的策略差
Figure FDA0002936235600000033
q=1时表示翻滚角差值,q=2时表示俯仰角差值,q=3时表示偏航角差值,
Figure FDA0002936235600000034
xq,k-2(m)为第k-2次外层迭代中当前时刻m的策略,xq,k-1(m)为第k-1次外层迭代中当前时刻m的策略,η为学习步长;
根据第k次外层迭代中每次内层迭代计算的当前时刻m的策略差及修正策略的期望价值更新第k次外层迭代中当前时刻m的策略梯度Gq,k(m),
Figure FDA0002936235600000035
Figure FDA0002936235600000036
Figure FDA0002936235600000037
为第k次外层迭代中第0次、第1次内层迭代时当前时刻m的策略差,
Figure FDA0002936235600000041
为第k次外层迭代中第1次、第2次、第kG次内层迭代修正策略的期望价值,
Figure FDA0002936235600000042
10.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法,其特征在于,从强化学习模型每次迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略的指标为:
Figure FDA0002936235600000043
χ(k)为关于第k次外层迭代得到的所有策略的函数,〈zB,k(m),zO,k(m)>为第k次外层迭代中当前时刻m下卫星本体坐标系zB轴和质心轨道坐标系zO轴的夹角,<-yB,k(m),Rsun,k(m)>为第k次外层迭代中当前时刻m下卫星本体坐标系-yB轴和太阳位置矢量Rsun的夹角,
Figure FDA0002936235600000044
为第k次外层迭代中当前时刻m下翻滚角
Figure FDA0002936235600000045
的均方差,σ(θk(m))为第k次外层迭代中当前时刻m下俯仰角θk(m)的均方差,σ(ψk(m))为第k次外层迭代中当前时刻m下偏航角的均方差,υ1、υ2、υ3为权重系数。
CN202110162955.7A 2021-02-05 2021-02-05 一种基于强化学习的多约束下的卫星姿态机动规划方法 Active CN112937918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110162955.7A CN112937918B (zh) 2021-02-05 2021-02-05 一种基于强化学习的多约束下的卫星姿态机动规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110162955.7A CN112937918B (zh) 2021-02-05 2021-02-05 一种基于强化学习的多约束下的卫星姿态机动规划方法

Publications (2)

Publication Number Publication Date
CN112937918A true CN112937918A (zh) 2021-06-11
CN112937918B CN112937918B (zh) 2022-06-17

Family

ID=76242761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110162955.7A Active CN112937918B (zh) 2021-02-05 2021-02-05 一种基于强化学习的多约束下的卫星姿态机动规划方法

Country Status (1)

Country Link
CN (1) CN112937918B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676635A (zh) * 2022-03-31 2022-06-28 香港中文大学(深圳) 一种基于强化学习的光学谐振腔反向设计和优化的方法
CN114879709A (zh) * 2022-05-06 2022-08-09 浙江大学 一种面向运动目标跟踪观测的卫星姿态控制方法及装置
CN115057006A (zh) * 2022-06-15 2022-09-16 中国科学院软件研究所 一种基于强化学习的蒸馏策略评估的方法、装置及介质
CN116424573A (zh) * 2023-02-16 2023-07-14 哈尔滨工业大学(深圳) 一种未知复杂环境下无拖曳卫星控制方法
CN116975501A (zh) * 2023-09-20 2023-10-31 中科星图测控技术股份有限公司 一种优化卫星载荷对地面目标覆盖计算的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880246B1 (en) * 2012-08-22 2014-11-04 United States Of America As Represented By The Secretary Of The Navy Method and apparatus for determining spacecraft maneuvers
CN106909161A (zh) * 2017-01-05 2017-06-30 浙江大学 一种敏捷卫星零偏流角成像的最优姿态机动规划方法
CN107329485A (zh) * 2017-07-12 2017-11-07 北京理工大学 一种快速的多约束航天器姿态路径递归规划方法
CN108052759A (zh) * 2017-12-25 2018-05-18 航天恒星科技有限公司 一种基于遗传算法的敏捷多星任务观测计划求解方法及系统
CN108388958A (zh) * 2018-01-31 2018-08-10 中国地质大学(武汉) 一种二维姿态机动卫星任务规划技术研究的方法及装置
CN109343341A (zh) * 2018-11-21 2019-02-15 北京航天自动控制研究所 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN109521763A (zh) * 2017-09-18 2019-03-26 百度(美国)有限责任公司 用于自动驾驶车辆的基于约束平滑样条的路径优化
CN110262537A (zh) * 2019-06-28 2019-09-20 北京理工大学 多约束下航天器快速姿态机动参数化确定性规划方法
CN112180722A (zh) * 2020-09-11 2021-01-05 中国空间技术研究院 一种航天器姿态机动路径的规划方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8880246B1 (en) * 2012-08-22 2014-11-04 United States Of America As Represented By The Secretary Of The Navy Method and apparatus for determining spacecraft maneuvers
CN106909161A (zh) * 2017-01-05 2017-06-30 浙江大学 一种敏捷卫星零偏流角成像的最优姿态机动规划方法
CN107329485A (zh) * 2017-07-12 2017-11-07 北京理工大学 一种快速的多约束航天器姿态路径递归规划方法
CN109521763A (zh) * 2017-09-18 2019-03-26 百度(美国)有限责任公司 用于自动驾驶车辆的基于约束平滑样条的路径优化
CN108052759A (zh) * 2017-12-25 2018-05-18 航天恒星科技有限公司 一种基于遗传算法的敏捷多星任务观测计划求解方法及系统
CN108388958A (zh) * 2018-01-31 2018-08-10 中国地质大学(武汉) 一种二维姿态机动卫星任务规划技术研究的方法及装置
CN109343341A (zh) * 2018-11-21 2019-02-15 北京航天自动控制研究所 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110262537A (zh) * 2019-06-28 2019-09-20 北京理工大学 多约束下航天器快速姿态机动参数化确定性规划方法
CN112180722A (zh) * 2020-09-11 2021-01-05 中国空间技术研究院 一种航天器姿态机动路径的规划方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
苏抗等: "微小卫星低可观测外形飞行姿态规划", 《航空学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676635A (zh) * 2022-03-31 2022-06-28 香港中文大学(深圳) 一种基于强化学习的光学谐振腔反向设计和优化的方法
CN114676635B (zh) * 2022-03-31 2022-11-11 香港中文大学(深圳) 一种基于强化学习的光学谐振腔反向设计和优化的方法
CN114879709A (zh) * 2022-05-06 2022-08-09 浙江大学 一种面向运动目标跟踪观测的卫星姿态控制方法及装置
CN115057006A (zh) * 2022-06-15 2022-09-16 中国科学院软件研究所 一种基于强化学习的蒸馏策略评估的方法、装置及介质
CN116424573A (zh) * 2023-02-16 2023-07-14 哈尔滨工业大学(深圳) 一种未知复杂环境下无拖曳卫星控制方法
CN116424573B (zh) * 2023-02-16 2024-07-19 哈尔滨工业大学(深圳) 一种未知复杂环境下无拖曳卫星控制方法
CN116975501A (zh) * 2023-09-20 2023-10-31 中科星图测控技术股份有限公司 一种优化卫星载荷对地面目标覆盖计算的方法
CN116975501B (zh) * 2023-09-20 2023-12-15 中科星图测控技术股份有限公司 一种优化卫星载荷对地面目标覆盖计算的方法

Also Published As

Publication number Publication date
CN112937918B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN112937918B (zh) 一种基于强化学习的多约束下的卫星姿态机动规划方法
CN106970530B (zh) 空间非合作目标自主视线交会的无模型预设性能控制方法
CN104527994A (zh) 异面交叉快变轨道固定时间稳定姿态指向跟踪控制方法
CN111367314B (zh) 一种基于多航天器编队的空间非合作目标协同抓捕方法
Jiang et al. An adaptive backstepping sliding mode method for flight attitude of quadrotor UAVs
CN109164822B (zh) 一种基于具有混合执行机构的航天器姿态控制方法
CN111338368B (zh) 一种航天器快速机动姿态跟踪自适应鲁棒控制方法
CN112572835B (zh) 一种具有姿态切换的卫星在轨角动量管理及控制方法
CN109343550A (zh) 一种基于滚动时域估计的航天器角速度的估计方法
CN108663936B (zh) 模型不确定航天器无退绕姿态跟踪有限时间控制方法
CN112660423A (zh) 一种视频卫星对运动目标的凝视跟踪控制方法及系统
Jiao et al. Analysis and design the controller for quadrotors based on PID control method
CN107655485A (zh) 一种巡航段自主导航位置偏差修正方法
CN112629543A (zh) 一种大椭圆轨道及小倾角圆轨道的轨道规划方法
CN113867143A (zh) 地外天体安全软着陆解析避障制导方法
CN112016187A (zh) 一种基于混合动力的近地小行星交会任务轨道优化方法
CN113361013A (zh) 一种基于时间同步稳定的航天器姿态鲁棒控制方法
CN111207773B (zh) 一种用于仿生偏振光导航的姿态无约束优化求解方法
CN114485672A (zh) 小天体附着的面状探测器耦合约束轨迹规划方法
Ye et al. Fuzzy sliding mode control of nonparallel-ground-track imaging satellite with high precision
CN116692030A (zh) 基于事件触发机制的航天器重定向控制方法
CN113815903B (zh) 一种用于遥感卫星的飞轮过零规避方法
CN114879709A (zh) 一种面向运动目标跟踪观测的卫星姿态控制方法及装置
CN113091753B (zh) 用于星敏视场保护的卫星姿态导引方法及其系统
CN112329202B (zh) 一种火星车对环绕器天线指向算法的优化实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant