CN112937918A

CN112937918A - 一种基于强化学习的多约束下的卫星姿态机动规划方法

Info

Publication number: CN112937918A
Application number: CN202110162955.7A
Authority: CN
Inventors: 华冰; 孙胜刚; 郑墨泓; 吴云华; 陈志明
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-11
Anticipated expiration: 2041-02-05
Also published as: CN112937918B

Abstract

本发明针对复杂多约束条件下卫星姿态机动规划问题，提出了一种基于强化学习的多约束下的卫星姿态机动规划方法，属于涉及卫星姿态控制的控制、调节技术领域。首先，基于姿态约束和姿态定向要求，建立姿态规划的强化学习模型，根据目标姿态建立数据库并计算强化学习所需参数；然后，以卫星的三个姿态角为策略进行策略迭代，策略收敛后更新姿态角，在进行完设定次数的迭代后输出多组姿态，设计筛选指标筛选出所需姿态并平滑处理。本发明的模型简单直接，贴合工程实际，计算量较小，在满足卫星对地对日精度要求的情况下实现多个强制指向约束和禁忌指向约束下的卫星姿态机动规划。

Description

一种基于强化学习的多约束下的卫星姿态机动规划方法

技术领域

本发明涉及卫星姿态机动规划技术，具体而言涉及一种基于强化学习的多约束下的卫星姿态机动规划方法，属于涉及卫星姿态控制的控制、调节技术领域。

背景技术

微小卫星在轨运行时面临着许多姿态约束，卫星必须时刻满足保持光伏电池阵列始终面对太阳的位姿要求以获取能量，卫星天线需满足对地定向姿态要求以实现不中断通信。同时，卫星往往配置许多精密的敏感器件和光学器件，精密器件在受到强光照射后会故障。虽然在安装时已经避免精密器件与光伏电池阵列同一朝向，但是在姿态机动规划时还需避免太阳光照射到这些器件上。除了上述姿态约束之外，还需要考虑抑制杂光、规避空间碎片等姿态约束。综上各种因素，航天器在轨运行过程中面临多个强制指向约束以及禁止指向约束。微小卫星由于自身条件限制，携带的燃料有限、机动能力有限，这就要求在多约束条件下对卫星姿态机动进行规划。

目前，对于姿态机动规划的研究较少，且大多数使用势函数的方法，势函数方法的一大弊端是模型物理意义不明确，传统势函数方法极易陷入局部最小值。一旦设计成功某一个势函数，后续添加约束条件，将要重新设计新的势函数，不利于问题模型的拓展。此外，目前国内外对于姿态机动问题的研究停留在二维空间内的静态指向约束，卫星主动规避的指向约束的种类仅仅限于1-2种，数量也仅限于2-3个，并且大多是在虚构的二维平面内，与卫星在轨运行的实际情况相去甚远，脱离实际应用。然而，卫星实际工作在三维空间，在轨道中所处的位置和面对的各种姿态约束是时刻变化的。要指定姿态机动策略，首先应该建立合适的数学模型来描述卫星自身的结构约束和外部约束，该约束模型不应过于繁琐复杂，应该有较为明确的物理意义，并且便于随时添加可能出现的新约束，便于工程人员使用。

对于高维度的连续策略机动问题，无论是针对线性系统建立的黎卡提方程，还是针对非线性系统建立的哈密尔顿-雅可比-贝尔曼(HJB)方程，在求解过程中都需要已知系统的全部动态。然而系统动态的获取不仅需要复杂的建模及化简过程，同时在非线性问题中也难以求解。

强化学习算法吸收了最优控制和自适应控制两者的优点并且互补：不需要复杂繁琐的问题建模过程，不需要系统完全可知，便于解决非线性问题，而且可以在线实时规划，求得问题的最优解。复杂多约束条件下航天器姿态机动规划问题属于非线性高维度的连续时变最优化问题，适合运用强化学习方法求解。

复杂多约束条件下卫星姿态机动问题属于在连续高维动作空间内的规划问题。相比之下，策略梯度强化学习算法计算简单，而且策略总是朝着好的方向在改善，具有更好的收敛性。因此，本发明旨在采用基于有限差分策略梯度的强化学习方法来优化姿态机动策略。

发明内容

本发明的发明目的是针对现有姿态机动规划研究的问题过于理想化、简单化、工程实用价值低且模型复杂、通用性较差、求解容易陷入局部最优、精度较差等问题，提出了一种基于强化学习的多约束下的卫星姿态机动规划方法，模型简单，物理意义明确，通用性拓展性强，求解精度较好。

本发明为实现上述发明目的采用如下技术方案：

一种基于强化学习的多约束下的卫星姿态机动规划方法，

在卫星本体坐标系下建立强制指向约束和禁止指向约束，卫星本体坐标系为理想条件下z_B轴指向地心、-y_B轴指向日心、x_B轴正方向根据右手定则确定的笛卡尔坐标系；

以翻滚角、俯仰角和偏航角为策略建立强化学习模型，强化学习模型通过内层迭代更新每个时刻的策略梯度且通过外层迭代更新各时刻的策略，更新策略梯度的总回报函数根据卫星对地对日定向精度以及禁止指向约束建立；

从卫星满足对地定向精度或对日定向精度的姿态解集中抽取与参考目标姿态相关的姿态解生成数据库；

根据数据库初始化强化学习模型，通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度直至策略梯度收敛，对内层迭代中止得到的策略梯度进行修正后得到更新每个时刻策略的最终策略梯度；

从强化学习模型每次外层迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略，对筛选出的策略进行平滑处理得到每个时刻的最终姿态规划结果。

进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中，强制指向约束包括卫星对日的能量获取约束和卫星对地指向约束。

进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中，禁止指向约束包括直射太阳光对敏感器的约束和反射太阳光对敏感器的约束。

更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中，卫星对日的能量获取约束为卫星本体坐标系中-y_B轴和太阳位置矢量R_sun的夹角小于θ_q1，即，

更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法，卫星对地指向约束为卫星本体坐标系中z_B轴和地球位置矢量R_earth的夹角小于θ_q2，即，

更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法，直射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量

和卫星本体坐标系下第j个反射光区域中心轴相对于卫星的位置矢量

的夹角大于θ_j1，即，

更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中，反射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量

和太阳位置矢量R_sun的夹角大于θ_j2，即，

更进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中，总回报函数为：

其中,x_1,k(m)、x_2,k(m)和x_3,k(m)分别为卫星在第k次迭代中当前时刻m的翻滚角

俯仰角θ_k(m)和偏航角，

R_d,k(m)为第k次外层迭代中当前时刻m的策略下与对地和对日定向精度相关的回报函数，z_B,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系z_B轴，μ_earth为卫星本体坐标系z_B轴对地夹角的权重，z_O,k(m)为第k次外层迭代中当前时刻m下的质心轨道坐标系z_O轴，μ_sun为质心轨道坐标系z_O轴对日夹角的权重，y_B,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系y_B轴，R_sun,k(m)为第k次外层迭代中当前时刻m下的太阳矢量，R_m-i-j,k(m)是第k次外层迭代中当前时刻m的策略下与第i个敏感器视场中心轴和第j个反射光区域中心轴夹角相关的回报函数，μ_f-j-i为第i个敏感器视场中心轴和第j个反射光区域中心轴相对于卫星位置矢量的夹角的回报函数的权重系数，

为第k次外层迭代中当前时刻m下第i个敏感器的视场中心轴，

为第k次外层迭代中当前时刻m下第j个反射光区域中心轴相对于卫星的位置矢量，N_O代表敏感器个数，N_J为反射光区域总数，R_s,k(m)为第k次外层迭代中当前时刻m的策略下太阳位置矢量与所有敏感器视场中心轴的夹角相关的回报函数，μ_sun-i为与太阳位置矢量和第i个敏感器视场中心轴夹角相关的回报函数的权重系数。

进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法中，通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度的方法为：

计算第k次外层迭代中第k_G次内层迭代时当前时刻m的策略差

q＝1时表示翻滚角差值，q＝2时表示俯仰角差值，q＝3时表示偏航角差值，

x_q,k-2(m)为第k-2次外层迭代中当前时刻m的策略，x_q,k-1(m)为第k-1次外层迭代中当前时刻m的策略，η为学习步长；

根据第k次外层迭代中每次内层迭代计算的当前时刻m的策略差及修正策略的期望价值更新第k次外层迭代中当前时刻m的策略梯度G_q,k(m)，

为第k次外层迭代中第0次、第1次内层迭代时当前时刻m的策略差，

为第k次外层迭代中第1次、第2次、第k_G次内层迭代修正策略的期望价值，

进一步地,一种基于强化学习的多约束下的卫星姿态机动规划方法，从强化学习模型每次迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略的指标为：

χ(k)为关于第k次外层迭代得到的所有策略的函数，〈z_B,k(m),z_O,k(m)>为第k次外层迭代中当前时刻m下卫星本体坐标系z_B轴和质心轨道坐标系z_O轴的夹角，<-y_B,k(m),R_sun,k(m)>为第k次外层迭代中当前时刻m下卫星本体坐标系-y_B轴和太阳位置矢量R_sun的夹角，

为第k次外层迭代中当前时刻m下翻滚角

的均方差，σ(θ_k(m))为第k次外层迭代中当前时刻m下俯仰角θ_k(m)的均方差，σ(ψ_k(m))为第k次外层迭代中当前时刻m下偏航角的均方差，υ₁、υ₂、υ₃为权重系数。

本发明采用上述技术方案，具有以下有益效果：针对卫星能量获取、天线对地指向要求和规避多个禁止指向区域的问题，使用基于欧拉角的姿态空间，物理意义简单明确，便于描述时变的相对姿态关系。一方面，针对卫星对日和对地定向设计目标姿态，以目标姿态为基础建立数据库，大大降低了强化学习算法的计算时间；另一方面，在三维空间内对姿态约束进行建模，更加贴合工程实际情况，并且便于在此基础上增减约束。最终选用的基于策略梯度的强化学习算法进行姿态规划，用户可以根据所需的对日对地精度要求进行调整，规划结果使得卫星成功规避复多个复杂的时变约束。上述较好的效果并没有以较大的姿态机动为代价，规划结果所得的三个欧拉角的变化过程都平滑且缓慢，符合微小航天器的机动能力，可以被控制机构顺利执行。

附图说明

图1为坐标系的示意图。

图2为辅助坐标系与卫星本体坐标系的位置关系示意图。

图3为密集朝向示意图。

图4为姿态机动规划结果。

图5为姿态角机动角速度的仿真波形图。

图6为姿态角机动角加速度的仿真波形图。

图7为对地精度的仿真波形图。

图8为对日精度的仿真波形图。

图9为反射光区域1中心轴与所有敏感器视场中心轴夹角的仿真波形图。

图10为反射光区域2中心轴与所有敏感器视场中心轴夹角的仿真波形图。

图11为反射光区域3中心轴与所有敏感器视场中心轴夹角的仿真波形图。

图12为反射光区域4中心轴与所有敏感器视场中心轴夹角的仿真波形图。

图13为反射光区域5中心轴与所有敏感器视场中心轴夹角的仿真波形图。

图14为所有敏感器视场中心轴与太阳位置矢量夹角的仿真波形图。

图15为姿态规划流程图。

图16为基于策略梯度强化学习算法的姿态规划的流程图。

具体实施方式

下面结合附图对发明的技术方案进行详细说明。

一种基于强化学习算法的卫星低可见性姿态机动规划方法，如图15所示，包括以下5个步骤。

(1)建立姿态规划的强化学习模型步骤

步骤1.1：描述约束

地心惯性坐标系OX_IY_IZ_I：坐标系原点位于地球质心，X_I轴指向春分点，Z_I轴与地球公转角速率矢量一致，Y_I轴由X_I轴和Z_I轴根据右手规则定义。

地球固连坐标系OX_EY_EZ_E：坐标系原点位于地球质心，X_E轴指向基本平面与格林尼治子午平面的交线方向，Z_E轴与地球自转轴重合指向北极Y_E轴由X_E轴和Z_E轴根据右手规则定义；该坐标系相对于地心惯性坐标系以地球自转角速度旋转，两坐标系之间相差一个地球自转角。

质心轨道坐标系Ox_Oy_Oz_O：坐标系原点位于卫星质心，z_O轴指向地心，x_O轴在轨道平面内与z_O轴垂直并且指向卫星飞行的方向，y_O轴由x_O轴和z_O轴根据右手规则定义。

卫星本体坐标系Ox_By_Bz_B：坐标系原点位于卫星质心，坐标系三轴x_B轴、y_B轴、z_B轴分别与卫星的三个惯性主轴重合，当欧拉角为(0,0,0)°时，卫星本体坐标系与质心轨道坐标系Ox_Oy_Oz_O重合。

上述各坐标系的关系如图1所示。

定义参考目标姿态为：在仅考虑满足卫星对地和对日定向精度要求的前提下，分别以不同权重考虑对地和对日定向精度得到的一组目标姿态。使用对地定向精度或对日定向精度权重，将得到不同的参考目标姿态。当卫星处于参考目标姿态时，理想条件下为卫星本体坐标系的z_B轴指向地心，-y_B轴指向日心，但由于太阳矢量R_sun和卫星与地心的连线通常不严格垂直，不能直接定义参考目标姿态为z_B轴和卫星与地心的连线重合，-y_B轴与太阳矢量R_sun重合。因此，当位于参考目标姿态时，只有卫星本体坐标系x_B轴的方向是唯一的：

为了计算卫星本体坐标系的y_B和z_B轴，定义两个辅助坐标系Ox_earthy_earthz_earth和Ox_suny_sunz_sun，如图2所示：

其中，x_sun＝x_earth＝x_B。显然，当优先考虑对地定向的精度时，卫星本体坐标系和Ox_earthy_earthz_earth重合；当优先考虑对日定向的精度时，卫星本体坐标系和Ox_suny_sunz_sun重合。

为了同时考虑对地和对日定向的精度，当位于参考目标姿态时，卫星本体坐标系的y_B和z_B轴为：

其中，κ_earth∈[0,1]和κ_sun∈[0,1]为权重系数。

综上所述，可得到参考目标姿态

其中，x_O和y_O为质心轨道坐标系的x轴和y轴矢量。

特别地，为了直观地显示卫星对地定向的精度，引入卫星本体坐标系z_B轴和轨道坐标系z_O轴的夹角：

cos<z_B,z_O>＝z_B·z_O (5)。

在定义了卫星本体坐标系后，下面定义姿态约束，包括强制指向约束和禁止指向约束。强制指向约束包括航天器对日的能量获取约束和对地指向约束。禁止指向约束指敏感器姿态约束，包括直射和反射太阳光对敏感器的姿态约束。

能量获取约束为要求太阳光照角和太阳能电池阵列的夹角小于θ_q1，即要求卫星本体坐标系中-y_B轴和太阳位置矢量R_sun的夹角小于θ_q1：

对地指向约束要求卫星本体坐标系中z_B轴和地球位置矢量R_earth的夹角小于θ_q2：

禁止指向约束中，在卫星本体系z_B轴对地情况下，尽量避免敏感器的锥形视场范围内出现太阳反射光区域。设第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量为

第j个反射光区域的中心轴相对于卫星的位置矢量在卫星本体坐标系下表示为

禁止指向约束要求

和

的夹角大于θ_j1，

与R_sun的夹角大于θ_j2，即：

步骤1.2：建立强化学习模型

基于有限差分策略梯度迭代的强化学习方法的目的是基于策略价值函数J[x_k(m)]对第k次迭代中当前时刻m的策略x_k(m)进行优化：

其中，γ(m)为当前时刻m的折扣因子，r_k(m)是第k次迭代中当前时刻m的策略的回报函数，m_max是总时刻数。

则第k次迭代中当前时刻m的策略x_k(m)被更新为x_k+1(m)：

其中，η为学习步长，G为策略梯度。

下面针对姿态规划建立其强化学习模型，策略与欧拉角相关：

x_1,k(m)、x_2,k(m)和x_3,k(m)分别代表卫星在第k次迭代中当前时刻m的翻滚角

俯仰角θ_k(m)和偏航角ψ_k(m)。

回报函数与卫星对地对日定向精度和禁止指向约束相关：

其中，R_d,k(m)为第k次外层迭代中当前时刻m的策略下与对地和对日定向精度相关的回报函数，z_B,k(m)为第k次外层迭代中当前时刻m下的卫星本体坐标系z_B轴，μ_earth为卫星本体坐标系z_B轴对地夹角的权重，z_O,k(m)为第k次外层迭代中当前时刻m下质心轨道坐标系z_O轴，μ_sun为质心轨道坐标系z_O轴对日夹角的权重，y_B,k(m)为第k次外层迭代中当前时刻m下卫星本体坐标系y_B轴，R_sun,k(m)为第k次外层迭代中当前时刻m下的太阳矢量，R_m-i-j,k(m)是第k次外层迭代中当前时刻m的策略下与第i个敏感器视场中心轴和第j个反射光区域中心轴夹角相关的回报函数，μ_f-j-i为第i个敏感器视场中心轴和第j个反射光区域中心轴相对于卫星位置矢量的夹角的回报函数的权重系数，

为第k次外层迭代中当前时刻m下第i个敏感器的视场中心轴，

为第k次外层迭代中当前时刻m下第j个反射光区域中心轴相对于卫星的位置矢量，N_O代表敏感器个数，N_J为反射光区域总数，R_s,k(m)为第k次外层迭代中当前时刻m的策略下太阳位置矢量与所有敏感器视场中心轴的夹角相关的回报函数，μ_sun-i为与太阳位置矢量和第i个敏感器视场中心轴夹角相关的回报函数的权重系数，当相关夹角满足姿态约束要求时，μ_sun-i可设为0，即无需进行优化。

由于姿态禁区的规避能通过绕卫星本体坐标系的任意两个轴完成，设策略总回报函数为：

(2)生成数据库

数据库可由卫星仅满足对地和对日定向的姿态解集的子集构成，设数据库包括N组数据，强化学习使用数据库中的数据作为迭代初始值。在参考目标姿态的基础上进行姿态规划，能减少计算量和迭代收敛的时间。数据库可以选择为与参考目标姿态相关的量，本发明设定N＝20，故数据库为

(3)计算数据库相关物理量

第k次外层迭代当前时刻m的策略x_q,k(m)(q＝1,2,3)的价值函数为：

其中，当未开始迭代时，满足n≤N，当迭代开始时，当完成第k次外层迭代，满足n≤N+k；γ(m)和R_q,k(m)分别是当前时刻m的折扣因子和回报函数，R_q,k(m)＝R[x_q,k(m)]。

计算策略x_q,n(m)即翻滚角

俯仰角θ_k(m)和偏航角ψ_k(m)与参考姿态之间的误差：

(4)基于强化学习进行姿态规划

如图16所示，整个姿态规划过程包括步骤4.1至步骤4.8八个步骤。

步骤4.1：开始强化学习过程，外层迭代(更新策略)开始，设当前第k次外层迭代次数，此时k＝1、时刻m＝1。

步骤4.2：为了更新策略梯度需要设置内层迭代，设当前为第k_G次内层迭代，此时k_G＝0，

策略梯度G_q,k(m)的计算采用内层迭代完成采取上一组数据该时刻的策略为本次内层迭代的初始策略

计算

的参考期望价值函数

其中，E[·]为[·]的期望，

满足

ε为一个大于0的较小值，即根据数据库估计初始策略

的价值函数。

步骤4.3：计算第k次外层迭代当前时刻m下的策略差

及期望价值函数

策略差为

计算策略

的期望价值函数

步骤4.4：更新策略梯度G_q,k(m)，

策略梯度G_q,k(m)为：

其中：

步骤4.5：判断是否结束内层迭代，

假如内迭代中G_q,k(m)收敛，重置k_G＝0，用下式计算最终选取的策略梯度G_q,k(m)为：

其中，μ_e≥0为权重系数，

更新G_q,k(m)后进入步骤4.6，假如内迭代中G_q,k(m)不收敛，k_G＝k_G+1，进入步骤4.3。

步骤4.6：更新时刻，

假如完成当前外层迭代所有时刻的策略梯度计算，进入步骤4.7，否则，时刻更新为m＝m+1，进入步骤4.2。

步骤4.7：更新策略，

策略更新为：

x_q,k(m)＝x_q,k-1(m)+G_q,k(m),m＝1,2,… (24)，

步骤4.8：判断是否结束外层迭代，

假如k＜k_tol，取k＝k+1，m＝1，并进入步骤4.2，否则，结束外层迭代。

(5)筛选结果并平滑处理

在步骤(4)基于强化学习进行策略规划后，将得到N+k_tol组姿态轨迹，其需要注意的是，策略梯度迭代强化学习算法会使欧拉角沿着满足所有约束条件的方向更新，但无法保证最终N+k_tol组姿态轨迹均能满足姿态约束要求，并且不同组的姿态轨迹对地和对日定向的精度有所差异。因此，需要对获得的姿态轨迹进行筛选。

进行筛选时，需要定义姿态规划结果筛选指标，下面为一个可选的姿态规划结果筛选指标：

k表示当前外层迭代次数，υ₁、υ₂、υ₃表示权重系数，σ(*)表示*的均方差，翻滚角

俯仰角θ_k(m)和偏航角ψ_k(m)是航天器当前迭代次数的三个欧拉角。χ(k)不是唯一的，可根据实际需求设计。

最终选择的姿态规划结果为第k_opt组姿态规划结果：

筛选后的姿态规划结果可能存在振颤等问题，将提高姿态控制执行的难度。因此，需要对姿态规划结果进行平滑处理。数据平滑处理方法不唯一，但要注意平滑处理后的姿态规划结果依旧满足姿态约束要求。

实施例1

本申请中，太阳光经5个地表反射点反射会形成5个反射光区域，在姿态机动规划过程中，反射光区域的位置随地球自转而改变。所有敏感器视场中心轴在航天器本体坐标系中的方向矢量分别为：

其中，C_z(α)和C_y(α)分别为绕z_B轴和y_B轴的方向余弦矩阵。

经过STK软件初步分析2021年1年的情况，航天器与反射光区域之间的相对位置关系呈周期性变化。由分析可知，航天器的所有敏感器视场有时不会朝向任何一个反射光区域，有时朝向多个反射光区域。航天器面临的最大的威胁如图3所示，在较短的时间内，不同的敏感器视场陆续朝向了反射光区域；并且存在两个反射光区域同时朝向同一个敏感器视场的情况。接下来针对图3所示的最“危险”的密集朝向情况(2021年5月26日23:00:26～23:03:51)，制定姿态机动策略。仿真参数如表1所示，反射光区域中心轴位置矢量和太阳位置矢量均为地心惯性系下的单位矢量。

表1仿真参数

本申请要求航天器本体坐标系-y_B轴与太阳矢量的夹角均小于20°。在本体系下，敏感器视场中心轴和反射光区域中心轴的夹角大于30°；所有敏感器视场中心轴和太阳位置矢量的夹角大于40°。

采用基于策略梯度强化学习的姿态机动规划算法进行姿态机动规划，以式(25)为筛选指标，对强化学习算法得到的多组结果进行筛选，最终得到了如图4所示的航天器三个姿态角机动规划结果。需要注意的是，本申请的姿态机动规划结果留出了10秒的时间余量，即在所有仿真图中实际需要姿态规划的时间是从第10秒开始。由于姿态调整只需要绕航天器本体系的两个轴完成，从图4可以看到俯仰角θ机动角速度基本为0；在整个规划时间内，翻滚角φ的变化范围是20.37°(第10秒)～25.19°(第220秒)，变化很小；偏航角ψ变化较大，最小是21.86°(第10秒)，最大是30.12°(第46秒)，变化幅度仅仅只有8.26°。

图5中姿态角机动的角速度w和角加速度a沿着本体系三坐标轴的分量如图6所示。从第10秒开始，角速度的三个分量的最大值是第10秒的w_z，大小为0.55°/sec，角加速度的最大绝对值是第20秒的a_z，为-0.021°/sec²。可以看到在规划时间内，角速度和角加速度的幅值都很小，并且变化缓慢且曲线可导，便于微小航天器的执行机构进行姿态控制。

在整个仿真时间内，航天器虽然姿态机动的角度不大，但是保持了较高的对地对日精度。如图7所示，航天本体系z_B轴对地夹角在整个仿真时间内都大于20°。如图8所示，航天器本体系-y_B轴对日夹角在大多数情况下均在10°以下，满足了航天器获取太阳能的需要。5个反射光区域中心轴与5个航天器敏感器视场中心轴的夹角分别如图9至图13所示。所有敏感器视场均与反射光区域保持了较远的距离，最小夹角是41.69°(敏感器2视场中心轴与反射光区域2夹角)，仍远远大于本实施例要求的30°。另外，如图14所示，所有敏感器视场中心轴与太阳位置矢量的夹角均大于40°，有效避免了太阳光出现在敏感器视场内。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，

在卫星本体坐标系下建立强制指向约束和禁止指向约束，所述卫星本体坐标系为理想条件下z_B轴指向地心、-y_B轴指向日心、x_B轴正方向根据右手定则确定的笛卡尔坐标系；

以翻滚角、俯仰角和偏航角为策略建立强化学习模型，所述强化学习模型通过内层迭代更新每个时刻的策略梯度且通过外层迭代更新各时刻的策略，更新策略梯度的总回报函数根据卫星对地对日定向精度以及禁止指向约束建立；

2.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述强制指向约束包括卫星对日的能量获取约束和卫星对地指向约束。

3.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述禁止指向约束包括直射太阳光对敏感器的约束和反射太阳光对敏感器的约束。

4.根据权利要求2所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述卫星对日的能量获取约束为卫星本体坐标系中-y_B轴和太阳位置矢量R_sun的夹角小于θ_q1，即，

5.根据权利要求2所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述卫星对地指向约束为卫星本体坐标系中z_B轴和地球位置矢量R_earth的夹角小于θ_q2，即，

6.根据权利要求3所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述直射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量

的夹角大于θ_j1，即，

7.根据权利要求3所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述反射太阳光对敏感器的约束为第i个敏感器视场中心轴在卫星本体坐标系下的位置矢量

和太阳位置矢量R_sun的夹角大于θ_j2，即，

8.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，所述总回报函数为：

和x_3，k(m)分别为卫星在第k次迭代中当前时刻m的翻滚角

俯仰角θ_k(m)和偏航角，

为第k次外层迭代中当前时刻m下第i个敏感器的视场中心轴，

为第k次外层迭代中当前时刻m下第j个反射光区域中心轴相对于卫星的位置矢量，N_O为敏感器个数，N_J为反射光区域总数，R_s,k(m)为第k次外层迭代中当前时刻m的策略下太阳位置矢量与所有敏感器视场中心轴的夹角相关的回报函数，μ_sun-i为与太阳位置矢量和第i个敏感器视场中心轴夹角相关的回报函数的权重系数。

9.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，通过内层迭代根据各时刻的策略差及修正策略的期望价值函数更新策略梯度的方法为：

计算第k次外层迭代中第k_G次内层迭代时当前时刻m的策略差

10.根据权利要求1所述一种基于强化学习的多约束下的卫星姿态机动规划方法，其特征在于，从强化学习模型每次迭代结束得到的策略中筛选出每个时刻满足卫星对地对日定向精度以及姿态约束的策略的指标为：

为第k次外层迭代中当前时刻m下翻滚角