CN116853523A

CN116853523A - 航天器轨迹优化方法、系统、介质及设备

Info

Publication number: CN116853523A
Application number: CN202310715373.6A
Authority: CN
Inventors: 孔祥龙; 张剑桥; 李青昱; 张小满; 韩静雯; 马广富
Original assignee: Shanghai Institute of Satellite Engineering
Current assignee: Shanghai Institute of Satellite Engineering
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-10-10

Abstract

本发明提供了一种航天器轨迹优化方法、系统、介质及设备，包括如下步骤：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；采用Lie群变分积分方法，并基于群特性，对动力学模型进行离散化处理，得到离散化动力学模型；建立性能指标函数，将优化控制问题转换为求解有约束下目标函数的极值问题；构建有限时域强化学习预测控制器，通过预测控制器解决上述优化问题；构建动态事件触发策略，修正预测控制器。本发明通过引入动态事件触发控制策略减少系统计算负担，有效解决了有约束下六自由度航天器轨迹优化控制问题。

Description

航天器轨迹优化方法、系统、介质及设备

技术领域

本发明涉及航天器控制技术领域，具体地，涉及一种航天器轨迹优化方法、系统、介质及设备，尤其是一种基于强化学习预测的SE(3)上航天器轨迹优化方法。

背景技术

航天器姿轨一体化轨迹优化控制是解决交会对接、在轨维修服务、行星软着陆、空间站在轨装配等航天任务的关键技术。传统的建模和控制方法将姿态和轨道运动分开考虑，且忽略姿轨耦合影响，只实现了形式上的姿轨一体化控制，影响了控制精度。随着航天技术的迅猛发展，任务需求变得愈发复杂，为满足这些任务需求，航天器姿态和轨道运动需要具有更高的控制精度。与传统建模方法相比，采用Lie群SE(3)或对偶四元数的建模方法，不仅实现了真正意义上的一体化建模，还由于充分考虑了姿轨耦合影响，保证了更高的建模和控制精度。然而，需要指出的是，基于对偶四元数的建模方法由于使用四元数描述姿态，退绕问题不可避免。因此，探索Lie群SE(3)上姿轨一体化建模与优化控制方法在航天器轨迹优化控制领域的应用，对于推动航天器姿轨一体化建模与控制技术的发展具有十分重要的意义。

关于Lie群SE(3)上航天器姿轨一体化建模与优化控制方法，文章[Wang Yulin,Shang Wei,Hong Haichao,“Sub-optimal fixed-finite-horizon spacecraftconfiguration control on SE(3)”,Chinese Journal of Aeronautics,2022]。该文章基于论文[Ye Dong,Zhang Jianqiao,Sun Zhaowei,“Extended state observer-basedfinite-time controller design for coupled spacecraft formation with actuatorsaturation”,Advances in Mechanical Engineering,2017,9(4):1-17]中的基于Lie群SE(3)建立的连续时域姿轨一体化动力学模型，采用Lie群变分积分方法并基于群特性得到离散化动力学模型，利用模型预测静态规划方法，并考虑航天器力和力矩输出受限这一约束，解决了有限时域六自由度航天器轨迹优化控制问题。对于在轨运行航天器来说，一般搭载有相机、红外干涉仪等光学仪器，这些仪器在使用过程中都需要使其视线避免直接对准强光，以保护仪器中对光敏感的器件，这就要求在航天器轨迹规划过程中要考虑姿态视线角约束。

模型预测控制由于其处理约束和实现高性能优化目标的能力在航天器轨迹优化领域得到了大量应用。公开号为CN108536014A的专利文献公开了一种考虑飞轮动态特性的航天器姿态规避的模型预测控制方法，基于建立的航天器姿态动力学预测模型，并考虑飞轮动态特性和仪器视线角约束，设计面向不同任务的性能指标函数，并通过求解目标函数极值，得到姿态的优化轨迹。公开号为CN113859589A的专利文献公开了一种基于模型预测控制与滑模控制的航天器姿态控制方法，基于航天器姿态动力学模型设计复合递增控制器完成航天器姿态控制，姿态跟踪的目标轨迹通过模型预测控制得到，保证在存在系统不确定性情况下，三轴姿态具有优越的跟踪性能。但是上述专利文献不适用于解决本申请解决的航天器轨迹优化问题。

对于传统的非线性优化控制问题，一般需要求解目标函数的汉米尔顿—雅各比—贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程，但是对于复杂系统来说，一般很难得到方程的解析解，强化学习可以有效地解决上述问题，并以高精度得到HJB方程的近似解，近年来，强化学习理论在最优控制领域得到了广泛使用。公开号为CN114036631A的专利文献公开了一种基于强化学习的航天器自主交会对接制导策略生成方法，主要利用马尔科夫决策过程对航天器交会对接过程进行建模，并基于神经网络学习训练数据、构建决策表，从而生成最优制导策略，完成航天器自主交会对接任务。公开号为CN112357120A的专利文献公开了一种考虑执行机构安装偏差的强化学习姿态约束控制方法，主要利用强化学习实时学习训练控制器参数，使控制器从一个简单的控制策略逐步进化为一个次优控制器，从而提升航天器在轨任务的执行效力。但是上述专利文献不适用于解决本申请解决的航天器轨迹优化问题。

事件驱动控制可以有效地降低星上计算负担。公开号为CN113722821A的专利文献公开了一种航天器交会对接轨迹规划事件约束的凸化方法，主要在不采用序列近似方法的前提下，等价地将事件约束转化为凸形式，进而在不改变问题解空间的前提下提升带有事件约束的航天器交会对接轨迹规划的收敛性和效率，从而解决现有方法进行轨迹规划事件约束凸化时计算效率低、收敛性差的问题。但是上述专利文献不适用于解决本申请解决的航天器轨迹优化问题。

公开号为CN112084581A的专利文献公开了一种小推力摄动交会轨迹优化方法及系统，包括：给定航天器和目标在起始和交会时刻的轨道根数，计算四脉冲速度增量；假设小推力开关策略为开-关-开，估算出小推力的两个开机时长；根据两个小推力开机时长，将小推力中点时刻作为等效脉冲时刻，重新计算新的四脉冲速度增量；直到前后两次计算的脉冲增量大小变化小于预设值，则输出小推力开机时长；将估计出的小推力开机时长作为约束输入间接法优化模型中求解，得到最优控制率和转移轨迹以及质量变化量；计算最优控制率对应速度增量与脉冲速度增量的增量百分比δ，如果δ大于阈值，则重新对步骤5进行求解，如果δ小于阈值，输出最优控制率和转移轨迹。但是该专利文献在航天器轨迹规划过程中未考虑姿态视线角约束。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种航天器轨迹优化方法、系统、介质及设备。

根据本发明提供的一种上航天器轨迹优化方法，包括如下步骤：

步骤1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

步骤2：采用Lie群变分积分方法，并基于群特性，对步骤1中的动力学模型进行离散化处理，得到离散化动力学模型；

步骤3：通过步骤2中的离散化动力学模型，建立性能指标函数，将优化控制问题转换为求解有约束下目标函数的极值问题；

步骤4：通过步骤2中的离散化动力学模型，构建有限时域强化学习预测控制器，通过预测控制器解决步骤3中的转换后的优化控制问题；

步骤5：通过步骤2中的离散化动力学模型，构建动态事件触发策略，修正步骤4中的预测控制器。

本发明还提供一种航天器轨迹优化系统，包括如下模块：

模块M1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

模块M2：采用Lie群变分积分方法，并基于群特性，对模块M1中的动力学模型进行离散化处理，得到离散化动力学模型；

模块M3：通过模块M2中的离散化动力学模型，建立性能指标函数，将优化控制问题转换为求解有约束下目标函数的极值问题；

模块M4：通过模块M2中的离散化动力学模型，构建有限时域强化学习预测控制器，通过预测控制器解决模块M3中的转换后的优化控制问题；

模块M5：通过模块M2中的离散化动力学模型，构建动态事件触发策略，修正模块M4中的预测控制器。

本发明还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的航天器轨迹优化方法的步骤。

本实施例还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被处理器执行时实现上述的航天器轨迹优化方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明主要探索基于Lie群SE(3)的航天器姿轨一体化动力学建模方法，强化学习与模型预测控制相结合的最优控制方法并解决六自由度航天器轨迹优化控制问题，同时通过引入动态事件触发控制策略可以有效地减少系统计算负担，大大增加了所设计的控制方法的工程应用潜力；

2、本发明基于Lie群与Lie代数知识，推导建立了Lie群SE(3)上航天器姿轨一体化动力学模型，所得到的模型与传统的姿轨一体化模型相比，实现了真正意义上的一体化建模，且由于充分考虑了姿轨耦合影响，提高了建模精度，此外，与基于对偶四元数的建模方法相比，有效避免了四元数表示姿态运动存在的退绕问题；

3、本发明通过强化学习在线得到每一个预测区间的优化策略，与传统的模型预测控制方法相比，不仅提高了HJB方程解的精度，还有效提高了计算效率；

4、本发明通过设计动态事件触发策略对得到的最优控制序列进行修正，在不影响系统稳定性的前提下，有效解决了控制信号更新、传输对航天器总线通信资源的占用，此外，在事件触发条件中引入动态变量，使得系统状态发生变化时，能快速调节触发条件，进一步改善了系统的控制性能；

5、本发明提出的航天器姿轨一体化轨迹优化方法适用于交会对接、在轨维修服务、行星软着陆、空间站在轨装配等航天任务的在轨智能任务规划，事件触发控制理论的应用大大减少了系统在轨计算压力，这两个优势增加了本发明提出的轨迹优化方法应用于未来天基智能系统的工程潜力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的航天器轨迹优化方法的流程图；

图2为本发明定义的地球赤道惯性坐标系和航天器轨道坐标系示意图；

图3为基于Lie群SE(3)描述的连续时域姿轨一体化动力学模型，进行模型离散化处理的求解过程；

图4为通过强化学习训练求解HJB方程得到目标函数优化解的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1：

如图1～4所示，本实施例提供一种航天器轨迹优化方法，包括如下步骤：

步骤1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

步骤1是基于Lie群SE(3)建立基本的六自由度航天器动力学模型，但是用于轨迹优化算法设计的需要是离散的动力学方程，所以步骤2利用Lie群变分积分方法对模型进行了离散化处理，后面的步骤3、步骤4、步骤5则是进行具体的优化算法设计，使用的模型都是基于步骤2的离散化模型。步骤3是设计优化控制算法，步骤4是基于强化学习预测控制器求解步骤3的优化问题，步骤5则是为了减少系统计算量引入了动态事件触发策略，对控制器进行修改。

本实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的航天器轨迹优化方法的步骤。

实施例2：

本实施例提供一种航天器轨迹优化系统，包括如下模块：

模块M1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

实施例3：

本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。

本实施例提供一种基于强化学习预测的SE(3)上航天器轨迹优化方法，包括：

步骤1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

步骤2：采用Lie群变分积分方法并基于群特性得到离散化预测模型；

步骤3：设计性能指标函数，将优化控制问题转换为求解有约束下目标函数的极值问题；

步骤4：设计有限时域强化学习预测控制器解决上述优化问题；

步骤5：设计动态事件触发策略修正预测控制器，并保证闭环系统的稳态性能。

进一步的，所述步骤1包括：

定义两个坐标系：地球赤道惯性坐标系F_I(x_I,y_I,z_I)和航天器本体坐标系F_b(x_b,y_b,z_b)，C为航天器从坐标系F_b转到坐标系F_I的方向余弦矩阵，即航天器姿态，为Lie群SO(3)的一个元素，SO(3)为特殊正交集合，满足：SO(3)＝{C∈R^3×3:C^TC＝I_3×3,det(C)＝1}，R为实数集合，R^3×3为3×3的实数矩阵构成的空间，不同的上角标表示相应的矩阵或向量维度，()^T为求矩阵的转置，I_3×3为3×3的单位矩阵，det()为求一个矩阵的行列式，则航天器的姿态运动学方程可以表示为：

其中，ω＝[ω₁,ω₂,ω₃]^T∈R^3×1表示在航天器本体系下坐标系F_b相对于坐标系F_I的姿态角速度，下脚标1,2,3表示ω在航天器三个惯性主轴方向上的角速度分量，()^×:表示三维向量构成的反对称矩阵，为SO(3)的李代数。

记航天器在惯性系F_I下的位置坐标为R，在本体系F_b下的轨道速度为v，则航天器的轨道运动学方程可以表示为：

为了一体化描述航天器的姿态和轨道运动，引入Lie群SE(3)这一数学工具。SE(3)为由半直积SO(3)×R³以4×4齐次形式张成的群空间，其元素g具有如下形式

其中，g为航天器的位姿构型，0_1×3为1×3的零向量，则用Lie群SE(3)一体化描述的航天器姿轨一体化运动学方程表示为：

其中，为航天器构型的一阶导数，ξ＝[ω^T,v^T]^T∈R^6×1为姿态角速度和轨道速度构成的六维速度向量，()^ν:定义为：

其中，为SE(3)的李代数，与R^6×1同构；

本体系F_b下航天器姿态和轨道动力学方程为：

其中，J∈R^3×3为航天器的转动惯量；为角速度的一阶导数，τ_c为航天器执行机构产生的控制力矩，d_τ为航天器所受的外部干扰力矩；m为航天器的质量，f_c为航天器执行机构产生的控制力，d_f为航天器所受的外部干扰力。

对于Lie群SE(3)来说，其存在伴随映射：

ad_XY＝[X,Y]＝XY-YX (7)

其中，X和Y为具有相应维度的矩阵。通过代数运算，上述伴随算子可以表示成矩阵的形式：

两个元素定义在SE(3)上的左不变内积定义为：

上的李括号为：

公式(10)定义的算子ad表示了李代数与SE(3)之间的线性运算，其反伴随算子可以通过李代数的对偶运算得到，具有以下形式：

基于公式(6)和(11)，航天器姿轨一体化动力学方程可以一体化表示为：

其中，Ξ＝diag(J,mI_3×3)∈R^6×6为由转动惯量J和质量m构成的航天器质量特性矩阵，diag()为对角矩阵运算，为速度的一阶导数，为控制力和力矩构成的控制向量，为干扰力和力矩构成的干扰向量。

进一步的，所述步骤2包括：

对于航天器运动来说，姿态角变化范围一般在正负π以内，但是轨道运动的变化幅度却比较大，为了保证轨道和姿态运动的轨迹变化在同一量级，对轨道运动进行归一化处理，定义：

R′＝R/R_m,v′＝v/v_m (13)

其中，R′∈R^3×1,v′∈R^3×1表示归一化处理后的位置和速度，R_m,v_m为常数，表示归一化参数。然后，得到归一化处理后的航天器运动学与动力学方程表达式：

采用Lie群变分积分方法对公式(14)进行离散化处理，得到离散后的动力学模型，其表达式如下：

其中，k为时间序列，各参数下脚标k、k+1表示对应离散时刻的相应参数值，h为离散化时间间隔，f_k∈SO(3)为C_k的群变化量，J_d＝0.5tr(J)I_3×3-J，tr()为求矩阵的迹。在离散化过程中，忽略了系统所受的外部干扰力和力矩。定义f_c′_k＝f_ck/v_m为系统经过归一化处理后的轨道部分输出，系统的状态以及输入输出定义为：

由于C_k,f_k∈SO(3)，群SO(3)中每个元素，都包括9个子元素，并满足6个约束，且公式(15)的雅各比矩阵很难求解，因此很多优化方法很难直接应用。下面，利用变分方法和Lie群特性，处理姿轨一体化动力学模型，得到易于强化学习预测控制器设计的离散化动力学模型。

对于预测控制来说，在T₀时刻，航天器初始轨道和姿态运动状态为X₀，经过控制序列U_k(k＝0,1,2,…)作用，在T₀+kt_p时刻(t_p为预测时间间隔)，系统输出状态为Y_k(g_k，ξ_k)。记系统输出误差(即Y_k与Y_dk的误差，Y_dk(g_dk，ξ_dk)为该时刻航天器的目标轨迹)为dY_k＝[dC_kdR′_k dω_k dv′_k]，其中，分别为该时刻实际的航天器位姿构型和速度，分别为该时刻航天器的目标位姿构型和速度，C_dk和R_d′_k分别为航天器的目标姿态和目标轨道位置，d()为相应参数的变分，dY_k中每一个元素的连续时域表达形式为：

其中，φ∈R^3×1为用来表示dC的中间变量，其导数满足公式(17)的右侧公式。由于dC可以用φ来等效表示，因此，对公式(16)中的系统状态、输入以及输出定义如下的离散变分形式：

得到下面的易于强化学习预测控制器设计的离散化动力学模型：

其中，f为利普希茨函数，T₀为初始时刻，x₀为初始状态。A_k,B_k为具有相应维度的矩阵，其具体表达式如下：

进一步的，所述步骤3包括：待优化目标函数设计为：

其中，N为预测时间长度，Q,H,P∈R^12×12为正定对称权重矩阵。目标函数包括两部分：第一部分为在有限时域内经过预测控制后的代价函数，当Q＞H时，优化目标侧重于稳定时间；当Q＜H时，优化目标侧重于能量消耗；第二部分用来评估经过有限时域预测控制后的航天器最后轨迹优化跟踪精度，且满足：

其中，K∈R^6×12为线性反馈控制增益，P为预测终点惩罚矩阵，Ω_α为包含预测终点的一个区域，α＞0，且u_k＝Kx_k能保证闭环系统的渐近稳定性，P,Ω_α离线计算得到。

航天器轨迹优化面临的约束问题主要考虑(但不限于)：航天器执行机构的最大输出力和力矩约束，航天器姿态指向的视线角约束。约束的数学表达式如公式(27)和公式(28)所示：

其中，τ_max,f_max分别为控制力矩和控制力的输出上限。

航天器姿态指向的视线角约束以光学相机视场不能指向太阳为例，视线约束可以定义为：在航天器本体坐标系F_b上的一个视线轴，其单位矢量为l_b，航天器与太阳连线的单位位置矢量为r_b，视线约束角为θ，则三者之间满足下述关系式：

(l_b,r_b)≤cosθ (28)

将六自由度航天器轨迹优化控制问题转换为如下数学问题进行描述，即在预测区间[T₀,T₀+Nt_p]内，解决下述优化问题：

s.t.(15),(22),(26)-(28)

其中，E{}为期望算子。

进一步的，所述步骤4包括：

定义步长[kt_p,(k+1)t_p]内的代价函数为

下面简写为r(k)。优化问题重新改写为：

其中，

根据贝尔曼优化理论，存在最优目标函数满足下述汉米尔顿—雅各比—贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程：

解上述方程，可以得到最优控制具体形式为：

由于很难得到HJB方程的解析解，因此，采用有限时域强化学习方法训练得到该方程的数值解。在预测控制区间[k,N-1]，定义起始的目标函数值为J^i＝0()＝0，然后，对于i＝0,1,…和τ∈[k,N-1]，采用公式(35)，迭代学习计算

目标函数通过下式进行更新：

进一步的，所述步骤5包括：

基于动态事件触发的预测控制，定义为在时刻t_i，根据系统状态进行预测控制，得到一个控制向量直到下一个触发时刻t_i+1到来前，不会进行新的预测控制更新，即在区间[t_i,t_i+1)内，控制向量保持不变，且两个触发时刻满足下述关系：

从中可以看出，n的动态变化可以大大节省航天器系统的计算资源。

定义状态误差：

其中，然后，设计如下的动态事件触发规则：

其中，β≥0，σ∈(0,1)，ρ,γ为K_∞函数，δ满足：

其中，μ∈(0,1)，δ₀≥0，||e||为计算向量的二范数。

当公式(39)不被满足时，计算此时的值，并进行赋值t_i+1＝t_i+nt_p，k＝k+n然后通过强化学习预测控制进行新的预测控制序列更新。

实施例4：

本实施例提供一种基于强化学习预测的SE(3)上航天器轨迹优化系统，包括如下模块：

模块M1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

模块M2：采用Lie群变分积分方法并基于群特性得到离散化预测模型；

模块M3：设计性能指标函数，将优化控制问题转换为求解有约束下目标函数的极值问题；

模块M4：设计有限时域强化学习预测控制器解决上述优化问题；

模块M5：设计动态事件触发策略修正预测控制器，并保证闭环系统的稳态性能。

进一步的，所述模块M1执行如下过程：

其中，为SE(3)的李代数，与R^6×1同构；

本体系F_b下航天器姿态和轨道动力学方程为：

对于Lie群SE(3)来说，其存在伴随映射：

ad_XY＝[X,Y]＝XY-YX (47)

两个元素定义在SE(3)上的左不变内积定义为：

上的李括号为：

公式(50)定义的算子ad表示了李代数与SE(3)之间的线性运算，其反伴随算子可以通过李代数的对偶运算得到，具有以下形式：

基于公式(46)和(51)，航天器姿轨一体化动力学方程可以一体化表示为：

进一步的，所述模块M2执行如下过程：

R′＝R/R_m,v′＝v/v_m (53)

采用Lie群变分积分方法对公式(54)进行离散化处理，得到离散后的动力学模型，其表达式如下：

由于C_k,f_k∈SO(3)，群SO(3)中每个元素，都包括9个子元素，并满足6个约束，且公式(55)的雅各比矩阵很难求解，因此很多优化方法很难直接应用。下面，利用变分方法和Lie群特性，处理姿轨一体化动力学模型，得到易于强化学习预测控制器设计的离散化动力学模型。

对于预测控制来说，在T₀时刻，航天器初始轨道和姿态运动状态为X₀，经过控制序列U_k(k＝0,1,2,…)作用，在T₀+kt_p时刻(t_p为预测时间间隔)，系统输出状态为Y_k(g_k，ξ_k)。记系统输出误差(即Y_k与Y_dk的误差，Y_dk(g_dk，ξ_dk)为该时刻航天器的目标轨迹)为dY_k＝[dC_kdR′_k dω_k dv′_k]，其中，分别为该时刻实际的航天器位姿构型和速度，分别为该时刻航天器的目标位姿构型和速度，C_dk和R′_dk分别为航天器的目标姿态和目标轨道位置，d()为相应参数的变分，dY_k中每一个元素的连续时域表达形式为：

其中，φ∈R^3×1为用来表示dC的中间变量，其导数满足公式(57)的右侧公式。由于dC可以用φ来等效表示，因此，对公式(56)中的系统状态、输入以及输出定义如下的离散变分形式：

进一步的，所述模块M3执行如下过程：

待优化目标函数设计为：

航天器轨迹优化面临的约束问题主要考虑(但不限于)：航天器执行机构的最大输出力和力矩约束，航天器姿态指向的视线角约束。约束的数学表达式如公式(67)和公式(68)所示：

其中，τ_max,f_max分别为控制力矩和控制力的输出上限。

(l_b,r_b)≤cosθ (68)

s.t.(55),(62),(66)-(68)

其中，E{}为期望算子。

进一步的，所述模块M4执行如下过程：

定义步长[kt_p,(k+1)t_p]内的代价函数为

下面简写为r(k)。优化问题重新改写为：

其中，

解上述方程，可以得到最优控制具体形式为：

由于很难得到HJB方程的解析解，因此，采用有限时域强化学习方法训练得到该方程的数值解。在预测控制区间[k,N-1]，定义起始的目标函数值为J^i＝0()＝0，然后，对于i＝0,1,…和τ∈[k,N-1]，采用公式(75)，迭代学习计算

目标函数通过下式进行更新：

进一步的，所述模块M5执行如下过程：

定义状态误差：

其中，然后，设计如下的动态事件触发规则：

其中，β≥0，σ∈(0,1)，ρ,γ为K_∞函数，δ满足：

其中，μ∈(0,1)，δ₀≥0，||e||为计算向量的二范数。

当公式(79)不被满足时，计算此时的值，并进行赋值t_i+1＝t_i+nt_p，k＝k+n然后通过强化学习预测控制进行新的预测控制序列更新。

实施例5：

本实施例提供了一种基于强化学习预测的SE(3)上航天器轨迹优化方法，包括：

步骤1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

步骤3：设计性能指标函数，将优化控制问题转换为求解有约束下目标函数极值问题；

本实施例采用将强化学习与模型预测控制相结合的控制器设计思想，合理设计目标函数实现时间和能量的综合最优，通过引入动态事件触发控制策略减少系统计算负担，有效解决了有约束下六自由度航天器轨迹优化控制问题。

如图1所示，本实施例的具体实现步骤如下：

步骤1：基于Lie群SE(3)推导建立六自由度航天器姿轨一体化动力学模型。

定义两个坐标系：地球赤道惯性坐标系F_I(x_I,y_I,z_I)和航天器本体坐标系F_b(x_b,y_b,z_b)，如图2所示。惯性坐标系原点为地球质心，O_Ix_I指向春分点，O_Iz_I与地球自转轴重合，指向北极，O_Iy_I通过右手定则得到；航天器本体坐标系原点为其质心，三个坐标轴与其惯性主轴重合，构成右手坐标系。C为航天器从坐标系F_b转到F_I的方向余弦矩阵，即航天器姿态，为Lie群SO(3)的一个元素，SO(3)为特殊正交集合，满足：SO(3)＝{C∈R^3×3:C^TC＝I_3×3,det(C)＝1}，R为实数集合，R^3×3为3×3的实数矩阵构成的空间，不同的上角标表示相应的矩阵或向量维度，()^T为矩阵的转置，I_3×3为3×3的单位矩阵，det()为求一个矩阵的行列式，则航天器的姿态运动学方程可以表示为：

其中，为SE(3)的李代数，与R^6×1同构；

本体系F_b下航天器姿态和轨道动力学方程为：

对于Lie群SE(3)来说，其存在伴随映射：

ad_XY＝[X,Y]＝XY-YX (87)

两个元素定义在SE(3)上的左不变内积定义为：

上的李括号为：

公式(90)定义的算子ad表示了李代数与SE(3)之间的线性运算，其反伴随算子可以通过李代数的对偶运算得到，具有以下形式：

基于公式(86)和(91)，航天器姿轨一体化动力学方程可以一体化表示为：

步骤2：采用Lie群变分积分方法离散化姿轨一体化动力学模型，基于群特性将姿轨一体化动力学模型转化为易于强化学习预测控制器设计的形式。

R′＝R/R_m,v′＝v/v_m (93)

采用Lie群变分积分方法对公式(94)进行离散化处理，得到离散后的动力学模型，其表达式如下：

其中，k为时间序列，各参数下脚标k、k+1表示对应离散时刻的相应参数值，h为离散化时间间隔，f_k∈SO(3)为C_k的群变化量，J_d＝0.5tr(J)I_3×3-J，tr()为求矩阵的迹。在离散化过程中，忽略了系统所受的外部干扰力和力矩。模型离散化求解过程的流程图如图3所示。

定义f_c′_k＝f_ck/v_m为系统经过归一化处理后的轨道部分输出，系统的状态以及输入输出定义为：

由于C_k,f_k∈SO(3)，群SO(3)中每个元素，都包括9个子元素，并满足6个约束，且公式(95)的雅各比矩阵很难求解，因此很多优化方法很难直接应用。下面，利用变分方法和Lie群特性，处理姿轨一体化动力学模型，得到易于强化学习预测控制器设计的离散化动力学模型。

其中，φ∈R^3×1为用来表示dC的中间变量，其导数满足公式(97)的右侧公式。由于dC可以用φ来等效表示，因此，对公式(96)中的系统状态、输入以及输出定义如下的离散变分形式：

步骤3：建立约束的数学模型，设计优化指标函数，将优化问题转化为求解有约束下目标函数的极值问题。

待优化目标函数设计为：

其中，K∈R^6×12为线性反馈控制增益，P为预测终点惩罚矩阵，Ω_α为包含预测终点的一个区域，α＞0，且u_k＝Kx_k能保证闭环系统的渐近稳定性，P,Ω_α离线计算得到。具体计算方式如下：

闭环系统在有限时域预测控制器作用下，经过Nt_p时间长度后，运动到区域Ω_α内，此时，离散化系统误差动力学方程为公式(102)的形式，x_k＝0为系统的平衡点。考虑系统所受干扰为f(d_k)，当控制器设计为u_k＝Kx_k时，可以得到闭环系统为：

预测终点惩罚矩阵P设计为：

其中，Q^*＝Q+K^THK∈R^12×12为正定对称矩阵，λ_max(·)为求矩阵的最大特征值。

选定Lyapunov函数

对上式求导，并将公式(107)和(108)代入，可以得到：

其中，则通过公式(110)可知，闭环系统在区域Ω_α内为渐近稳定的。

航天器轨迹优化面临的约束问题主要考虑(但不限于)：航天器执行机构的最大输出力和力矩约束，航天器姿态指向的视线角约束。约束的数学表达式如公式(111)和公式(112)所示：

其中，τ_max,f_max分别为控制力矩和控制力的输出上限。

s.t.(95),(102),(106),(111),(112)

其中，E{}为期望算子。

步骤4：设计有限时域强化学习预测控制器解决上述优化问题，并保证闭环系统的稳定性。

定义步长]kt_p,(k+1)t_p]内的代价函数为

下面简写为r(k)。优化问题重新改写为：

其中，

解上述方程，可以得到最优控制具体形式为：

由于很难得到HJB方程的解析解，因此，采用有限时域强化学习方法训练得到该方程的数值解，求解流程如图4所示。

第一步，初始化参数值，设置i＝0，选择一个合适的小的正数ε＞0，并定义对于目标函数值为

第二步，对于i＝0,1,…和τ∈[k,N-1]，采用公式(119)，迭代学习计算

第三步，根据离散化动力学模型(95)，计算下一时刻的系统状态x_τ+1。

第四步，通过下式更新目标函数

第五步，计算如果则说明通过强化学习训练得到的目标函数已经收敛到优化状态，结束迭代。否则，回到第二步继续进行强化学习训练，直至得到方程(117)的解。

步骤5：设计动态事件触发策略修正预测控制器，在保证闭环系统稳态性能的前提下，有效降低系统计算负担。

基于动态事件触发的预测控制，定义为在时刻t_i，根据系统状态进行预测控制，得到一个控制向量U_ti，直到下一个触发时刻t_i+1到来前，不会进行新的预测控制更新，即在区间[t_i,t_i+1)内，控制向量保持不变，且两个触发时刻满足下述关系：

定义状态误差：

其中，然后，设计如下的动态事件触发规则：

其中，β≥0，σ∈(0,1)，ρ,γ为K_∞函数，δ满足：

其中，μ∈(0,1)，δ₀≥0，||e||为计算向量的二范数。

对于闭环系统来说，如果该系统是输入到状态稳定的，那么存在一个选定的Lyapunov函数满足：

其中，为大于零的正数。

在引入事件触发策略完成对强化学习预测控制器的修正后，考虑下面的Lyapunov函数，来证明事件触发策略的引入，不影响闭环系统的稳定性。

如果β＝0，那么由公式(123)可知，δ≥0；如果β≠0，由公式(123)可以得到：

将公式(127)代入公式(124)，可以得到

因此，可以得到，对于都满足δ≥0。因此，Lyapunov函数V₂≥0。

对公式(127)进行求导，并将公式(123)、(124)、(126)代入，可以得到：

因此，在引入动态事件触发策略后，闭环系统仍然是稳定的。

当公式(123)不被满足时，计算此时的值，并进行赋值t_i+1＝t_i+nt_p，k＝k+n然后通过强化学习预测控制进行新的预测控制序列更新。

本发明通过引入动态事件触发控制策略减少系统计算负担，有效解决了有约束下六自由度航天器轨迹优化控制问题。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种上航天器轨迹优化方法，其特征在于，包括如下步骤：

步骤1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

2.根据权利要求1所述的航天器轨迹优化方法，其特征在于，所述步骤1具体为：

定义两个坐标系：地球赤道惯性坐标系F_I(x_I,y_I,z_I)和航天器本体坐标系F_b(x_b,y_b,z_b)，C为航天器从坐标系F_b转到坐标系F_I的方向余弦矩阵，为Lie群SO(3)的一个元素，SO(3)为特殊正交集合，满足：SO(3)＝{C∈R^3×3:C^TC＝I_3×3,det(C)＝1}，R为实数集合，R^3×3为3×3的实数矩阵构成的空间，不同的上角标表示相应的矩阵或向量维度，()^T为求矩阵的转置，I_3×3为3×3的单位矩阵，det()为求一个矩阵的行列式，则航天器的姿态运动学方程表示为：

其中，ω＝[ω₁,ω₂,ω₃]^T∈R^3×1表示在航天器本体系下坐标系F_b相对于坐标系F_I的姿态角速度，下脚标1、2、3表示ω在航天器三个惯性主轴方向上的角速度分量，()^×:表示三维向量构成的反对称矩阵，为SO(3)的李代数；

记航天器在惯性系F_I下的位置坐标为R，在本体系F_b下的轨道速度为v，则航天器的轨道运动学方程表示为：

通过Lie群SE(3)一体化描述航天器的姿态和轨道运动，SE(3)为由半直积SO(3)×R³以4×4齐次形式张成的群空间，其元素g具有如下形式：

其中，为SE(3)的李代数，与R^6×1同构；

本体系F_b下航天器姿态和轨道动力学方程为：

其中，J∈R^3×3为航天器的转动惯量；为角速度的一阶导数，τ_c为航天器执行机构产生的控制力矩，d_τ为航天器所受的外部干扰力矩；m为航天器的质量，f_c为航天器执行机构产生的控制力，d_f为航天器所受的外部干扰力；

Lie群SE(3)存在的伴随映射为：

ad_XY＝[X,Y]＝XY-YX (7)

其中，X和Y为具有相应维度的矩阵，通过代数运算，上述伴随算子表示成矩阵的形式：

两个元素(ω,v),定义在SE(3)上的左不变内积定义为：

上的李括号为：

公式(10)定义的算子ad表示了李代数与SE(3)之间的线性运算，其反伴随算子通过李代数的对偶运算得到，具有以下形式：

基于公式(6)和公式(11)，航天器姿轨一体化动力学方程一体化表示为：

3.根据权利要求2所述的航天器轨迹优化方法，其特征在于，所述步骤2具体为：

使轨道和姿态运动的轨迹变化在同一量级，对轨道运动进行归一化处理，定义：

R′＝R/R_m,v′＝v/v_m (13)

其中，R′∈R^3×1,v′∈R^3×1表示归一化处理后的位置和速度，R_m,v_m为常数，表示归一化参数，得到归一化处理后的航天器运动学与动力学方程表达式：

采用Lie群变分积分方法对公式(14)进行离散化处理，得到离散后的动力学模型，其表达式为：

其中，k为时间序列，各参数下脚标k、k+1表示对应离散时刻的相应参数值，h为离散化时间间隔，f_k∈SO(3)为C_k的群变化量，J_d＝0.5tr(J)I_3×3-J，tr()为求矩阵的迹，定义f′_ck＝f_ck/v_m为系统经过归一化处理后的轨道部分输出，系统的状态以及输入输出定义为：

利用变分方法和Lie群特性处理姿轨一体化动力学模型，得到离散化动力学模型；

预测控制中，在T₀时刻，航天器初始轨道和姿态运动状态为X₀，经过控制序列U_k(k＝0,1,2,…)作用，在T₀+kt_p时刻，t_p为预测时间间隔，系统输出状态为Y_k(g_k，ξ_k)记系统输出误差为：

dY_k＝[dC_k dR′_k dω_k dv′_k]

其中，分别为该时刻实际的航天器位姿构型和速度，分别为该时刻航天器的目标位姿构型和速度，C_dk和R′_dk分别为航天器的目标姿态和目标轨道位置，d()为相应参数的变分，dY_k中每一个元素的连续时域表达形式为：

其中，φ∈R^3×1为用来表示dC的中间变量，其导数满足公式(17)等号右侧公式，dC用φ来等效表示，对公式(16)中的系统状态、输入以及输出定义如下的离散变分形式：

得到如下易于强化学习预测控制器设计的离散化动力学模型：

其中，f为利普希茨函数，T₀为初始时刻，x₀为初始状态，A_k,B_k为具有相应维度的矩阵，其具体表达式如下：

4.根据权利要求3所述的航天器轨迹优化方法，其特征在于，所述步骤3具体为：

将待优化目标函数设计为：

其中，N为预测时间长度，Q,H,P∈R^12×12为正定对称权重矩阵，目标函数包括两部分：

第一部分为在有限时域内经过预测控制后的代价函数，当Q＞H时，优化目标侧重于稳定时间；当Q＜H时，优化目标侧重于能量消耗；

第二部分用来评估经过有限时域预测控制后的航天器最后轨迹优化跟踪精度，且满足：

其中，K∈R^6×12为线性反馈控制增益，P为预测终点惩罚矩阵，Ω_α为包含预测终点的一个区域，α＞0，且u_k＝Kx_k；

航天器轨迹优化面临的约束问题包括：航天器执行机构的最大输出力、航天器执行机构的力矩约束以及航天器姿态指向的视线角约束，约束的数学表达式如公式(27)和公式(28)所示：

其中，τ_max,f_max分别为控制力矩和控制力的输出上限；

视线约束为：在航天器本体坐标系F_b上的一个视线轴，其单位矢量为l_b，航天器与太阳连线的单位位置矢量为r_b，视线约束角为θ，则三者之间满足下述关系式：

(l_b,r_b)≤cosθ (28)

将航天器轨迹优化控制问题转换为如下数学问题进行描述，在预测区间[T₀,T₀+Nt_p]内，解决下述优化问题：

其中，E{}为期望算子。

5.根据权利要求4所述的航天器轨迹优化方法，其特征在于，所述步骤4具体为：

定义步长[kt_p,(k+1)t_p]内的代价函数为：

将公式(30)简写为r(k)，优化问题重新改写为：

其中，

根据贝尔曼优化理论，存在最优目标函数满足下述汉米尔顿—雅各比—贝尔曼方程：

解上述方程，得到最优控制具体形式为：

采用有限时域强化学习方法训练得到该方程的数值解，在预测控制区间[k,N-1]，定义起始的目标函数值为J^i＝0()＝0，对于i＝0,1,…和τ∈[k,N-1]，采用公式(35)，迭代学习计算

目标函数通过下式进行更新：

6.根据权利要求5所述的航天器轨迹优化方法，其特征在于，所述步骤5具体为：

基于动态事件触发的预测控制，定义为在时刻t_i，根据系统状态进行预测控制，得到一个控制向量直到下一个触发时刻t_i+1到来前，不会进行新的预测控制更新，在区间[t_i,t_i+1)内，控制向量保持不变，且两个触发时刻满足下述关系：

定义状态误差：

其中，设计如下的动态事件触发规则：

其中，β≥0，σ∈(0,1)，ρ,γ为K_∞函数，δ满足：

其中，μ∈(0,1)，δ₀≥0，||e||为计算向量的二范数；

当公式(39)不被满足时，计算此时的值，并进行赋值t_i+1＝t_i+nt_p，k＝k+n通过强化学习预测控制进行新的预测控制序列更新。

7.一种航天器轨迹优化系统，其特征在于，包括如下模块：

模块M1：基于Lie群SE(3)建立航天器姿轨一体化动力学模型；

8.根据权利要求7所述的航天器轨迹优化系统，其特征在于，所述模块M1执行如下过程：

其中，为SE(3)的李代数，与R^6×1同构；

本体系F_b下航天器姿态和轨道动力学方程为：

Lie群SE(3)存在的伴随映射为：

ad_XY＝[X,Y]＝XY-YX (47)

两个元素(ω,v),定义在SE(3)上的左不变内积定义为：

上的李括号为：

公式(50)定义的算子ad表示了李代数与SE(3)之间的线性运算，其反伴随算子通过李代数的对偶运算得到，具有以下形式：

基于公式(46)和公式(51)，航天器姿轨一体化动力学方程一体化表示为：

其中，Ξ＝diag(J,mI_3×3)∈R^6×6为由转动惯量J和质量m构成的航天器质量特性矩阵，diag()为对角矩阵运算，为速度的一阶导数，为控制力和力矩构成的控制向量，为干扰力和力矩构成的干扰向量；

所述模块M2执行如下过程：

R′＝R/R_m,v′＝v/v_m (53)

采用Lie群变分积分方法对公式(54)进行离散化处理，得到离散后的动力学模型，其表达式为：

dY_k＝[dC_k dR′_k dω_k dv′_k]

其中，φ∈R^3×1为用来表示dC的中间变量，其导数满足公式(57)等号右侧公式，dC用φ来等效表示，对公式(56)中的系统状态、输入以及输出定义如下的离散变分形式：

所述模块M3执行如下过程：

将待优化目标函数设计为：

航天器轨迹优化面临的约束问题包括：航天器执行机构的最大输出力、航天器执行机构的力矩约束以及航天器姿态指向的视线角约束，约束的数学表达式如公式(67)和公式(68)所示：

其中，τ_max,f_max分别为控制力矩和控制力的输出上限；

(l_b,r_b)≤cosθ (68)

其中，E{}为期望算子；

所述模块M4执行如下过程：

定义步长[kt_p,(k+1)t_p]内的代价函数为：

将公式(70)简写为r(k)，优化问题重新改写为：

其中，

解上述方程，得到最优控制具体形式为：

采用有限时域强化学习方法训练得到该方程的数值解，在预测控制区间[k,N-1]，定义起始的目标函数值为J^i＝0()＝0，对于i＝0,1,…和τ∈[k,N-1]，采用公式(75)，迭代学习计算

目标函数通过下式进行更新：

所述模块M5执行如下过程：

基于动态事件触发的预测控制，定义为在时刻t_i，根据系统状态进行预测控制，得到一个控制向量直到下一个触发时刻t_i+1到来前，不会进行新的预测控制更新，在区间[t_i,t_i+1)内，控制向量U_ti保持不变，且两个触发时刻满足下述关系：

定义状态误差：

其中，设计如下的动态事件触发规则：

其中，β≥0，σ∈(0,1)，ρ,γ为K_∞函数，δ满足：

其中，μ∈(0,1)，δ₀≥0，||e||为计算向量的二范数；

当公式(79)不被满足时，计算此时的值，并进行赋值t_i+1＝t_i+nt_p，k＝k+n通过强化学习预测控制进行新的预测控制序列更新。

9.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的航天器轨迹优化方法的步骤。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的航天器轨迹优化方法的步骤。