CN107608208A

CN107608208A - 一种面向任务约束的航天器姿态控制系统在轨重构方法

Info

Publication number: CN107608208A
Application number: CN201710733959.XA
Authority: CN
Inventors: 程月华; 姜斌; 陈嘉文; 陆宁云; 李欢
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2018-01-19
Anticipated expiration: 2037-08-24
Also published as: CN107608208B

Abstract

本发明公开了一种面向任务约束的航天器姿态控制系统在轨重构方法，属于航天器姿态控制系统重构的技术领域。本发明将任务约束条件纳入效用函数以及性能指标函数的设计，根据效用函数以及性能指标函数确定HJB方程形式的迭代控制律，在ADP框架下训练神经网络以拟合迭代控制律的目标函数进而确定最优重构策略，在故障情形下作出尽量保证既定任务顺利执行的最优重构决策，提高了航天器的任务完成能力以及故障应对能力。

Description

一种面向任务约束的航天器姿态控制系统在轨重构方法

技术领域

本发明公开了一种面向任务约束的航天器姿态控制系统在轨重构方法，属于航天器姿态控制系统重构的技术领域。

背景技术

在轨航天器一旦发生故障，即使只有几分钟、十几分钟，都可能会导致整个飞行任务的失败。由于航天器距离地面遥远，故障往往无法得到地面测控人员的及时处理，航天器应具有在轨自主重构的能力。目前的系统重构方法主要聚焦于容错控制器的设计，通过主动容错或者被动容错的方式实现故障后的系统稳定，然而，主动容错或者被动容错的方式没有考虑任务约束条件，重构后的控制系统不能保证满足任务执行要求。

Werbos于1977年提出的自适应动态规划(Adaptive Dynamic Programming,ADP)方法是一种解决高维复杂系统最优控制问题的有效方法。ADP方法基于增强学习(Reinforcement Learning,RL)的思想并采用迭代学习算法训练人工神经网络以近似求解哈密顿-雅可比-贝尔曼(Hamilton-Jacobian-Bellman,HJB)方程，避免了传统动态规划方法“维数灾难”的问题，在解决高维复杂系统最优控制问题中展现出了独特的优势。本发明中旨在针对任务约束设计满足HJB方程形式且适合在ADP框架中进行求解的最优重构策略。

发明内容

本发明的发明目的是针对上述背景技术的不足，提供了一种面向任务约束的航天器姿态控制系统在轨重构方法，将任务约束条件纳入效用函数以及性能指标函数的设计，在故障情形下作出尽量保证既定任务顺利执行的最优重构决策，解决了现有重构方法重构后的控制系统不能保证满足任务执行要求的技术问题。

本发明为实现上述发明目的采用如下技术方案：

一种面向任务约束的航天器姿态控制系统在轨重构方法，以系统故障信息、系统状态信息以及任务约束信息为决策因素，在ADP框架下通过近似求解HJB方程的方式确定最优重构策略。

进一步的，一种面向任务约束的航天器姿态控制系统在轨重构方法中，任务约束信息包含但不限于控制能耗、控制精度、任务优先级。

进一步的，一种面向任务约束的航天器姿态控制系统在轨重构方法中，系统故障信息包含但不限于故障位置、故障类型、故障程度。

进一步的，一种面向任务约束的航天器姿态控制系统在轨重构方法中，系统状态信息包含但不限于姿态角和角速度、当前系统配置、电池电量。

作为一种面向任务约束的航天器姿态控制系统在轨重构方法的进一步优化方案，在ADP框架下通过近似求解HJB方程的方式确定最优重构策略的具体方法为：根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数，通过在时间维度上折扣效用函数后并累加的方式确定性能指标函数，由效用函数及最优性能指标函数得到HJB方程形式的迭代控制律，采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略。

作为一种面向任务约束的航天器姿态控制系统在轨重构方法的再进一步优化方案，根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数的方法为：根据k时刻的状态量s_k、k时刻的重构动作a_k构建体现了k时刻任务约束信息的k时刻的效用函数U(s_k,a_k)，k时刻的状态量s_k通过加权处理k时刻的系统故障信息、系统状态信息得到。

作为一种面向任务约束的航天器姿态控制系统在轨重构方法的更进一步优化方案，通过在时间维度上折扣效用函数后并累加的方式确定的性能指标函数为：J(s_k+1)为k+1时刻的性能指标值，s_k+1为加权处理k+1时刻系统故障信息、系统状态信息得到的k+1时刻的状态量，s_k+1+j为加权处理k+1+j时刻系统故障信息、系统状态信息得到的k+1+j时刻的状态量，a_k+1+j为k+1+j时刻的重构动作，U(s_k+1+j,a_k+1+j)为体现了k+1+j时刻任务约束信息的k+1+j时刻的效用函数，γ为折扣因子，0<γ≤1，N为正整数。

再进一步的，一种面向任务约束的航天器姿态控制系统在轨重构方法中，由效用函数及最优性能指标函数得到的HJB方程形式的迭代控制律为：其中，π^*(s_k)为k时刻的最优重构策略，J^*(s_k+1)为k+1时刻的最优性能指标，J^*(s_k+1)＝minJ(s_k+1)，记所述迭代控制律的目标函数为Q函数，Q(s_k,a_k)＝U(s_k,a_k)+γJ^*(s_k+1)，Q(s_k,a_k)为k时刻迭代控制律的目标函数值。

更进一步的，一种面向任务约束的航天器姿态控制系统在轨重构方法中，采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略的方法为：采用神经网络算法将k时刻的状态量及其对应的最优重构动作映射为k时刻迭代控制律的目标函数值，采集执行k时刻最优重构动作后系统在k+1时刻的状态量并确定k+1时刻状态量对应的最优重构动作，根据k+1时刻的状态量及其对应的的最优重构动作计算k+1时刻迭代控制律的目标函数值，折扣k+1时刻迭代控制律的目标函数值后累加k时刻的效用函数得到Q函数目标值，根据k时刻迭代控制律的目标函数值与Q函数目标值的误差修正神经网络的权值后进行下一次迭代训练，周而复始地，直至训练次数达到最大迭代次数时输出k时刻迭代控制律的目标函数值。

本发明采用上述技术方案，具有以下有益效果：

(1)重构决策考虑任务约束条件，将任务约束条件纳入效用函数以及性能指标函数的设计，根据效用函数以及性能指标函数确定HJB方程形式的迭代控制律，在ADP框架下训练神经网络以拟合迭代控制律的目标函数进而确定最优重构策略，在故障情形下作出尽量保证既定任务顺利执行的最优重构决策，提高了航天器的任务完成能力以及故障应对能力；

(2)通过训练神经网络以拟合迭代控制律目标函数的过程是对HJB方程的近似求解，本发明提出的重构方法在计算机运算能力范围内获得近似的最优重构策略，避免了传统方法计算量过大的问题，是一种解决传统动态规划方法“维数灾难”问题的切实可行的方法。

附图说明

图1为在轨重构方法流程图。

图2为在轨重构系统结构图。

图3为在轨重构模块设计流程图。

图4为ADP方法结构图。

图5为简化设计的执行网络输出流程图。

图6为评价网络映射方式示意图。

图7为评价网络训练流程图。

具体实施方式

下面结合附图对发明的技术方案进行详细说明。

面向任务约束的航天器姿态控制系统在轨重构方法如图1所示。该方法不仅基于系统状态和故障信息还考虑了任务约束条件进行在轨重构。故障诊断模块提供故障位置、故障类型、故障程度等信息。系统状态载入模块提供姿态角、角速度、当前配置、电池电量等信息。任务约束包括控制能耗约束、控制精度约束、任务优先级约束等约束条件，通过设定不同的权值调节不同约束条件所占的权重比例。

本发明的在轨重构系统如图2所示，故障诊断模块根据控制器输出信号和传感器输出信号进行故障诊断并在姿态控制系统发生故障时发送系统状态和故障信息到在轨重构模块，在轨重构决策模块根据系统状态和故障信息、任务约束条件做出最优决策，在轨重构执行模块将最优决策编译为控制器所能理解的重构指令，由控制器完成在轨重构。

本发明的在轨重构模块设计流程如图3所示。详细叙述如下：

1)基于任务约束、系统状态和故障信息三方面的决策因素设计效用函数U(s_k,a_k)，其中，s_k为加权处理k时刻系统故障信息、系统状态信息得到的k时刻状态量，a_k为k时刻的重构动作，效用函数U(s_k,a_k)体现了任务约束信息；

2)将效用函数以折扣的方式在时间维度进行累加得到性能指标函数：

其中，J(s_k)为k时刻的性能指标函数值，s_k+j为加权处理k+j时刻系统故障信息、系统状态信息得到的k+j时刻状态量，a_k+j为k+j时刻的重构动作，U(s_k+j,a_k+j)为体现了k+j时刻任务约束信息的k+j时刻的效用函数，γ为折扣因子，满足0<γ≤1；

3)由性能指标函数得到HJB方程形式的迭代控制律：

π^*(s_k)为k时刻的最优重构策略，J^*(s_k+1)为k+1时刻的最优性能指标，J^*(s_k+1)＝minJ(s_k+1)；

4)定义ADP方法中迭代控制律的目标函数为Q函数，k时刻迭代控制律的目标函数为：

Q(s_k,a_k)＝U(s_k,a_k)+γJ^*(s_k+1)，

并且对执行网络进行简化设计，设计用于训练评价网络的迭代训练算法；

5)通过迭代训练方法近似Q函数获得最优重构策略。

本发明的ADP方法结构如图4所示。其主要包含三个部分：评价网络(CriticNetwork)、执行网络(Action Network)和系统模型。评价网络用于近似Q函数，执行网络用于输出最优重构策略π^*(s_k)，系统模型用于对系统状态s_k+j进行估计。在故障情况下，系统状态为s_k，通过采取重构策略执行动作a_k，系统转移到状态s_k+1。迭代更新执行网络的权值，使得评价网络输出Q(s_k,a_k)最小。当对于任意时刻k，评价网络输出误差均足够小，执行网络输出获得最优重构策略。

本发明的执行网络输出流程如图5所示。由于航天器可用配置一般只有十几个或者几十个，可以利用穷举遍历的方式对执行网络进行简化设计。简化的执行网络输出流程详细叙述如下：

1)遍历可用的系统配置，对于每一种配置，通过执行网络获得其Q值；

2)输出Q值最小的重构动作作为最优重构策略。

本发明的评价网络映射方式示意图如图6所示。评价网络映射方式一般有两种：第一种是以系统状态作为输入，输出不同重构策略对应的Q值；第二种是以系统状态和重构动作作为输入，输出在该状态下执行该重构策略对应的Q值。第二种方式使用的是一种单输出网络，其设计更加简单；同时考虑到在训练过程中，评价网络不必输出所有动作的Q值，本发明采用第二种映射方式，该种方式更加简单，同时还可以避免不必要的计算，大大较少计算量。

本发明的评价网络训练流程如图7所示，详细叙述如下：

1)通过执行网络获得当前时刻系统状态下的最优重构动作；

2)计算当前系统状态下，采用当前重构动作所对应的效用函数值；

3)执行重构决策动作，由系统模型获得下一时刻的系统状态；

4)通过执行网络获得下一时刻系统状态下的最优重构动作；

5)通过评价网络获得下一时刻系统状态下执行最优重构动作对应的Q值，其与效用函数值相加求和得到目标Q值；

6)通过评价网络获得当前时刻当前系统状态下执行最优重构动作对应的Q值；

7)通过当前Q值和目标Q值得到评价网络训练误差；

8)利用训练误差更新评价网络权值；

判断训练迭代次数是否达到设定的最大迭代次数。若没有达到最大迭代次数，重复步骤5到8；否则，结束k时刻的训练。

Claims

1.一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，以系统故障信息、系统状态信息以及任务约束信息为决策因素，在ADP框架下通过近似求解HJB方程的方式确定最优重构策略。

2.根据权利要求1所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，所述任务约束信息包含但不限于控制能耗、控制精度、任务优先级。

3.根据权利要求1所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，所述系统故障信息包含但不限于故障位置、故障类型、故障程度。

4.根据权利要求1所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，所述系统状态信息包含但不限于姿态角和角速度、当前系统配置、电池电量。

5.根据权利要求1至4中任意一项所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，在ADP框架下通过近似求解HJB方程的方式确定最优重构策略的具体方法为：根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数，通过在时间维度上折扣效用函数后并累加的方式确定性能指标函数，由效用函数及最优性能指标函数得到HJB方程形式的迭代控制律，采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略。

6.根据权利要求5所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，根根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数的方法为：根据k时刻的状态量s_k、k时刻的重构动作a_k构建体现了k时刻任务约束信息的k时刻的效用函数U(s_k,a_k)，k时刻的状态量s_k通过加权处理k时刻的系统故障信息、系统状态信息得到。

7.根据权利要求6所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，通过在时间维度上折扣效用函数后并累加的方式确定的性能指标函数为：J(s_k+1)为k+1时刻的性能指标值，s_k+1为加权处理k+1时刻系统故障信息、系统状态信息得到的k+1时刻的状态量，s_k+1+j为加权处理k+1+j时刻系统故障信息、系统状态信息得到的k+1+j时刻的状态量，a_k+1+j为k+1+j时刻的重构动作，U(s_k+1+j,a_k+1+j)为体现了k+1+j时刻任务约束信息的k+1+j时刻的效用函数，γ为折扣因子，0<γ≤1，N为正整数。

8.根据权利要求7所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，由效用函数及最优性能指标函数得到的HJB方程形式的迭代控制律为：其中，π^*(s_k)为k时刻的最优重构策略，J^*(s_k+1)为k+1时刻的最优性能指标，J^*(s_k+1)＝minJ(s_k+1)，记所述迭代控制律的目标函数为Q函数，Q(s_k,a_k)＝U(s_k,a_k)+γJ^*(s_k+1)，Q(s_k,a_k)为k时刻迭代控制律的目标函数值。

9.根据权利要求7所述一种面向任务约束的航天器姿态控制系统在轨重构方法，其特征在于，采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略的方法为：采用神经网络算法将k时刻的状态量及其对应的最优重构动作映射为k时刻迭代控制律的目标函数值，采集执行k时刻最优重构动作后系统在k+1时刻的状态量并确定k+1时刻状态量对应的最优重构动作，根据k+1时刻的状态量及其对应的的最优重构动作计算k+1时刻迭代控制律的目标函数值，折扣k+1时刻迭代控制律的目标函数值后累加k时刻的效用函数得到Q函数目标值，根据k时刻迭代控制律的目标函数值与Q函数目标值的误差修正神经网络的权值后进行下一次迭代训练，周而复始地，直至训练次数达到最大迭代次数时输出k时刻迭代控制律的目标函数值。