CN107608208A - 一种面向任务约束的航天器姿态控制系统在轨重构方法 - Google Patents
一种面向任务约束的航天器姿态控制系统在轨重构方法 Download PDFInfo
- Publication number
- CN107608208A CN107608208A CN201710733959.XA CN201710733959A CN107608208A CN 107608208 A CN107608208 A CN 107608208A CN 201710733959 A CN201710733959 A CN 201710733959A CN 107608208 A CN107608208 A CN 107608208A
- Authority
- CN
- China
- Prior art keywords
- moment
- function
- optimal
- iteration
- spacecraft attitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种面向任务约束的航天器姿态控制系统在轨重构方法,属于航天器姿态控制系统重构的技术领域。本发明将任务约束条件纳入效用函数以及性能指标函数的设计,根据效用函数以及性能指标函数确定HJB方程形式的迭代控制律,在ADP框架下训练神经网络以拟合迭代控制律的目标函数进而确定最优重构策略,在故障情形下作出尽量保证既定任务顺利执行的最优重构决策,提高了航天器的任务完成能力以及故障应对能力。
Description
技术领域
本发明公开了一种面向任务约束的航天器姿态控制系统在轨重构方法,属于航天器姿态控制系统重构的技术领域。
背景技术
在轨航天器一旦发生故障,即使只有几分钟、十几分钟,都可能会导致整个飞行任务的失败。由于航天器距离地面遥远,故障往往无法得到地面测控人员的及时处理,航天器应具有在轨自主重构的能力。目前的系统重构方法主要聚焦于容错控制器的设计,通过主动容错或者被动容错的方式实现故障后的系统稳定,然而,主动容错或者被动容错的方式没有考虑任务约束条件,重构后的控制系统不能保证满足任务执行要求。
Werbos于1977年提出的自适应动态规划(Adaptive Dynamic Programming,ADP)方法是一种解决高维复杂系统最优控制问题的有效方法。ADP方法基于增强学习(Reinforcement Learning,RL)的思想并采用迭代学习算法训练人工神经网络以近似求解哈密顿-雅可比-贝尔曼(Hamilton-Jacobian-Bellman,HJB)方程,避免了传统动态规划方法“维数灾难”的问题,在解决高维复杂系统最优控制问题中展现出了独特的优势。本发明中旨在针对任务约束设计满足HJB方程形式且适合在ADP框架中进行求解的最优重构策略。
发明内容
本发明的发明目的是针对上述背景技术的不足,提供了一种面向任务约束的航天器姿态控制系统在轨重构方法,将任务约束条件纳入效用函数以及性能指标函数的设计,在故障情形下作出尽量保证既定任务顺利执行的最优重构决策,解决了现有重构方法重构后的控制系统不能保证满足任务执行要求的技术问题。
本发明为实现上述发明目的采用如下技术方案:
一种面向任务约束的航天器姿态控制系统在轨重构方法,以系统故障信息、系统状态信息以及任务约束信息为决策因素,在ADP框架下通过近似求解HJB方程的方式确定最优重构策略。
进一步的,一种面向任务约束的航天器姿态控制系统在轨重构方法中,任务约束信息包含但不限于控制能耗、控制精度、任务优先级。
进一步的,一种面向任务约束的航天器姿态控制系统在轨重构方法中,系统故障信息包含但不限于故障位置、故障类型、故障程度。
进一步的,一种面向任务约束的航天器姿态控制系统在轨重构方法中,系统状态信息包含但不限于姿态角和角速度、当前系统配置、电池电量。
作为一种面向任务约束的航天器姿态控制系统在轨重构方法的进一步优化方案,在ADP框架下通过近似求解HJB方程的方式确定最优重构策略的具体方法为:根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数,通过在时间维度上折扣效用函数后并累加的方式确定性能指标函数,由效用函数及最优性能指标函数得到HJB方程形式的迭代控制律,采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略。
作为一种面向任务约束的航天器姿态控制系统在轨重构方法的再进一步优化方案,根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数的方法为:根据k时刻的状态量sk、k时刻的重构动作ak构建体现了k时刻任务约束信息的k时刻的效用函数U(sk,ak),k时刻的状态量sk通过加权处理k时刻的系统故障信息、系统状态信息得到。
作为一种面向任务约束的航天器姿态控制系统在轨重构方法的更进一步优化方案,通过在时间维度上折扣效用函数后并累加的方式确定的性能指标函数为:J(sk+1)为k+1时刻的性能指标值,sk+1为加权处理k+1时刻系统故障信息、系统状态信息得到的k+1时刻的状态量,sk+1+j为加权处理k+1+j时刻系统故障信息、系统状态信息得到的k+1+j时刻的状态量,ak+1+j为k+1+j时刻的重构动作,U(sk+1+j,ak+1+j)为体现了k+1+j时刻任务约束信息的k+1+j时刻的效用函数,γ为折扣因子,0<γ≤1,N为正整数。
再进一步的,一种面向任务约束的航天器姿态控制系统在轨重构方法中,由效用函数及最优性能指标函数得到的HJB方程形式的迭代控制律为:其中,π*(sk)为k时刻的最优重构策略,J*(sk+1)为k+1时刻的最优性能指标,J*(sk+1)=minJ(sk+1),记所述迭代控制律的目标函数为Q函数,Q(sk,ak)=U(sk,ak)+γJ*(sk+1),Q(sk,ak)为k时刻迭代控制律的目标函数值。
更进一步的,一种面向任务约束的航天器姿态控制系统在轨重构方法中,采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略的方法为:采用神经网络算法将k时刻的状态量及其对应的最优重构动作映射为k时刻迭代控制律的目标函数值,采集执行k时刻最优重构动作后系统在k+1时刻的状态量并确定k+1时刻状态量对应的最优重构动作,根据k+1时刻的状态量及其对应的的最优重构动作计算k+1时刻迭代控制律的目标函数值,折扣k+1时刻迭代控制律的目标函数值后累加k时刻的效用函数得到Q函数目标值,根据k时刻迭代控制律的目标函数值与Q函数目标值的误差修正神经网络的权值后进行下一次迭代训练,周而复始地,直至训练次数达到最大迭代次数时输出k时刻迭代控制律的目标函数值。
本发明采用上述技术方案,具有以下有益效果:
(1)重构决策考虑任务约束条件,将任务约束条件纳入效用函数以及性能指标函数的设计,根据效用函数以及性能指标函数确定HJB方程形式的迭代控制律,在ADP框架下训练神经网络以拟合迭代控制律的目标函数进而确定最优重构策略,在故障情形下作出尽量保证既定任务顺利执行的最优重构决策,提高了航天器的任务完成能力以及故障应对能力;
(2)通过训练神经网络以拟合迭代控制律目标函数的过程是对HJB方程的近似求解,本发明提出的重构方法在计算机运算能力范围内获得近似的最优重构策略,避免了传统方法计算量过大的问题,是一种解决传统动态规划方法“维数灾难”问题的切实可行的方法。
附图说明
图1为在轨重构方法流程图。
图2为在轨重构系统结构图。
图3为在轨重构模块设计流程图。
图4为ADP方法结构图。
图5为简化设计的执行网络输出流程图。
图6为评价网络映射方式示意图。
图7为评价网络训练流程图。
具体实施方式
下面结合附图对发明的技术方案进行详细说明。
面向任务约束的航天器姿态控制系统在轨重构方法如图1所示。该方法不仅基于系统状态和故障信息还考虑了任务约束条件进行在轨重构。故障诊断模块提供故障位置、故障类型、故障程度等信息。系统状态载入模块提供姿态角、角速度、当前配置、电池电量等信息。任务约束包括控制能耗约束、控制精度约束、任务优先级约束等约束条件,通过设定不同的权值调节不同约束条件所占的权重比例。
本发明的在轨重构系统如图2所示,故障诊断模块根据控制器输出信号和传感器输出信号进行故障诊断并在姿态控制系统发生故障时发送系统状态和故障信息到在轨重构模块,在轨重构决策模块根据系统状态和故障信息、任务约束条件做出最优决策,在轨重构执行模块将最优决策编译为控制器所能理解的重构指令,由控制器完成在轨重构。
本发明的在轨重构模块设计流程如图3所示。详细叙述如下:
1)基于任务约束、系统状态和故障信息三方面的决策因素设计效用函数U(sk,ak),其中,sk为加权处理k时刻系统故障信息、系统状态信息得到的k时刻状态量,ak为k时刻的重构动作,效用函数U(sk,ak)体现了任务约束信息;
2)将效用函数以折扣的方式在时间维度进行累加得到性能指标函数:
其中,J(sk)为k时刻的性能指标函数值,sk+j为加权处理k+j时刻系统故障信息、系统状态信息得到的k+j时刻状态量,ak+j为k+j时刻的重构动作,U(sk+j,ak+j)为体现了k+j时刻任务约束信息的k+j时刻的效用函数,γ为折扣因子,满足0<γ≤1;
3)由性能指标函数得到HJB方程形式的迭代控制律:
π*(sk)为k时刻的最优重构策略,J*(sk+1)为k+1时刻的最优性能指标,J*(sk+1)=minJ(sk+1);
4)定义ADP方法中迭代控制律的目标函数为Q函数,k时刻迭代控制律的目标函数为:
Q(sk,ak)=U(sk,ak)+γJ*(sk+1),
并且对执行网络进行简化设计,设计用于训练评价网络的迭代训练算法;
5)通过迭代训练方法近似Q函数获得最优重构策略。
本发明的ADP方法结构如图4所示。其主要包含三个部分:评价网络(CriticNetwork)、执行网络(Action Network)和系统模型。评价网络用于近似Q函数,执行网络用于输出最优重构策略π*(sk),系统模型用于对系统状态sk+j进行估计。在故障情况下,系统状态为sk,通过采取重构策略执行动作ak,系统转移到状态sk+1。迭代更新执行网络的权值,使得评价网络输出Q(sk,ak)最小。当对于任意时刻k,评价网络输出误差均足够小,执行网络输出获得最优重构策略。
本发明的执行网络输出流程如图5所示。由于航天器可用配置一般只有十几个或者几十个,可以利用穷举遍历的方式对执行网络进行简化设计。简化的执行网络输出流程详细叙述如下:
1)遍历可用的系统配置,对于每一种配置,通过执行网络获得其Q值;
2)输出Q值最小的重构动作作为最优重构策略。
本发明的评价网络映射方式示意图如图6所示。评价网络映射方式一般有两种:第一种是以系统状态作为输入,输出不同重构策略对应的Q值;第二种是以系统状态和重构动作作为输入,输出在该状态下执行该重构策略对应的Q值。第二种方式使用的是一种单输出网络,其设计更加简单;同时考虑到在训练过程中,评价网络不必输出所有动作的Q值,本发明采用第二种映射方式,该种方式更加简单,同时还可以避免不必要的计算,大大较少计算量。
本发明的评价网络训练流程如图7所示,详细叙述如下:
1)通过执行网络获得当前时刻系统状态下的最优重构动作;
2)计算当前系统状态下,采用当前重构动作所对应的效用函数值;
3)执行重构决策动作,由系统模型获得下一时刻的系统状态;
4)通过执行网络获得下一时刻系统状态下的最优重构动作;
5)通过评价网络获得下一时刻系统状态下执行最优重构动作对应的Q值,其与效用函数值相加求和得到目标Q值;
6)通过评价网络获得当前时刻当前系统状态下执行最优重构动作对应的Q值;
7)通过当前Q值和目标Q值得到评价网络训练误差;
8)利用训练误差更新评价网络权值;
判断训练迭代次数是否达到设定的最大迭代次数。若没有达到最大迭代次数,重复步骤5到8;否则,结束k时刻的训练。
Claims (9)
1.一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,以系统故障信息、系统状态信息以及任务约束信息为决策因素,在ADP框架下通过近似求解HJB方程的方式确定最优重构策略。
2.根据权利要求1所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,所述任务约束信息包含但不限于控制能耗、控制精度、任务优先级。
3.根据权利要求1所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,所述系统故障信息包含但不限于故障位置、故障类型、故障程度。
4.根据权利要求1所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,所述系统状态信息包含但不限于姿态角和角速度、当前系统配置、电池电量。
5.根据权利要求1至4中任意一项所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,在ADP框架下通过近似求解HJB方程的方式确定最优重构策略的具体方法为:根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数,通过在时间维度上折扣效用函数后并累加的方式确定性能指标函数,由效用函数及最优性能指标函数得到HJB方程形式的迭代控制律,采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略。
6.根据权利要求5所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,根根据系统故障信息、系统状态信息确定体现了任务约束信息的效用函数的方法为:根据k时刻的状态量sk、k时刻的重构动作ak构建体现了k时刻任务约束信息的k时刻的效用函数U(sk,ak),k时刻的状态量sk通过加权处理k时刻的系统故障信息、系统状态信息得到。
7.根据权利要求6所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,通过在时间维度上折扣效用函数后并累加的方式确定的性能指标函数为:J(sk+1)为k+1时刻的性能指标值,sk+1为加权处理k+1时刻系统故障信息、系统状态信息得到的k+1时刻的状态量,sk+1+j为加权处理k+1+j时刻系统故障信息、系统状态信息得到的k+1+j时刻的状态量,ak+1+j为k+1+j时刻的重构动作,U(sk+1+j,ak+1+j)为体现了k+1+j时刻任务约束信息的k+1+j时刻的效用函数,γ为折扣因子,0<γ≤1,N为正整数。
8.根据权利要求7所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,由效用函数及最优性能指标函数得到的HJB方程形式的迭代控制律为:其中,π*(sk)为k时刻的最优重构策略,J*(sk+1)为k+1时刻的最优性能指标,J*(sk+1)=minJ(sk+1),记所述迭代控制律的目标函数为Q函数,Q(sk,ak)=U(sk,ak)+γJ*(sk+1),Q(sk,ak)为k时刻迭代控制律的目标函数值。
9.根据权利要求7所述一种面向任务约束的航天器姿态控制系统在轨重构方法,其特征在于,采用迭代算法近似拟合迭代控制律的目标函数进而确定最优重构策略的方法为:采用神经网络算法将k时刻的状态量及其对应的最优重构动作映射为k时刻迭代控制律的目标函数值,采集执行k时刻最优重构动作后系统在k+1时刻的状态量并确定k+1时刻状态量对应的最优重构动作,根据k+1时刻的状态量及其对应的的最优重构动作计算k+1时刻迭代控制律的目标函数值,折扣k+1时刻迭代控制律的目标函数值后累加k时刻的效用函数得到Q函数目标值,根据k时刻迭代控制律的目标函数值与Q函数目标值的误差修正神经网络的权值后进行下一次迭代训练,周而复始地,直至训练次数达到最大迭代次数时输出k时刻迭代控制律的目标函数值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710733959.XA CN107608208B (zh) | 2017-08-24 | 2017-08-24 | 一种面向任务约束的航天器姿态控制系统在轨重构方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710733959.XA CN107608208B (zh) | 2017-08-24 | 2017-08-24 | 一种面向任务约束的航天器姿态控制系统在轨重构方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107608208A true CN107608208A (zh) | 2018-01-19 |
CN107608208B CN107608208B (zh) | 2020-03-24 |
Family
ID=61065770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710733959.XA Active CN107608208B (zh) | 2017-08-24 | 2017-08-24 | 一种面向任务约束的航天器姿态控制系统在轨重构方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107608208B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563131A (zh) * | 2018-07-12 | 2018-09-21 | 南京航空航天大学 | 一种卫星姿态控制系统执行器失控故障的自适应补偿方法 |
CN108594638A (zh) * | 2018-03-27 | 2018-09-28 | 南京航空航天大学 | 面向多任务多指标优化约束的航天器acs在轨重构方法 |
CN109557933A (zh) * | 2018-11-27 | 2019-04-02 | 浙江工业大学 | 一种基于龙伯格观测器的刚性飞行器状态约束控制方法 |
CN109669354A (zh) * | 2018-11-19 | 2019-04-23 | 北京理工大学 | 状态空间下快速高效的航天器自主任务规划修复方法 |
CN109919359A (zh) * | 2019-02-01 | 2019-06-21 | 陕西科技大学 | 一种基于adp算法的车辆路径规划方法 |
CN110297423A (zh) * | 2019-05-27 | 2019-10-01 | 北京航天自动控制研究所 | 一种飞行器长期在轨多模智能集成系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6568638B1 (en) * | 2000-11-07 | 2003-05-27 | Lockheed Martin Corporation | Modular spacecraft structure |
CN104950900A (zh) * | 2015-06-23 | 2015-09-30 | 南京航空航天大学 | 卫星姿态控制系统执行器驱动符号不确定性的自适应补偿方法 |
CN105790314A (zh) * | 2016-03-08 | 2016-07-20 | 南京邮电大学 | 一种基于自适应动态规划的分布式发电机协调控制方法 |
CN106227043A (zh) * | 2016-09-09 | 2016-12-14 | 中国科学院自动化研究所 | 自适应最优控制方法 |
-
2017
- 2017-08-24 CN CN201710733959.XA patent/CN107608208B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6568638B1 (en) * | 2000-11-07 | 2003-05-27 | Lockheed Martin Corporation | Modular spacecraft structure |
CN104950900A (zh) * | 2015-06-23 | 2015-09-30 | 南京航空航天大学 | 卫星姿态控制系统执行器驱动符号不确定性的自适应补偿方法 |
CN105790314A (zh) * | 2016-03-08 | 2016-07-20 | 南京邮电大学 | 一种基于自适应动态规划的分布式发电机协调控制方法 |
CN106227043A (zh) * | 2016-09-09 | 2016-12-14 | 中国科学院自动化研究所 | 自适应最优控制方法 |
Non-Patent Citations (2)
Title |
---|
刘德荣等: "基于数据的自学习优化控制: 研究进展与展望", 《自动化学报》 * |
胡宇桑: "卫星姿控系统可重构性综合评价方法研究", 《宇航学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108594638A (zh) * | 2018-03-27 | 2018-09-28 | 南京航空航天大学 | 面向多任务多指标优化约束的航天器acs在轨重构方法 |
CN108594638B (zh) * | 2018-03-27 | 2020-07-24 | 南京航空航天大学 | 面向多任务多指标优化约束的航天器acs在轨重构方法 |
CN108563131A (zh) * | 2018-07-12 | 2018-09-21 | 南京航空航天大学 | 一种卫星姿态控制系统执行器失控故障的自适应补偿方法 |
CN108563131B (zh) * | 2018-07-12 | 2021-06-15 | 南京航空航天大学 | 一种卫星姿态控制系统执行器失控故障的自适应补偿方法 |
CN109669354A (zh) * | 2018-11-19 | 2019-04-23 | 北京理工大学 | 状态空间下快速高效的航天器自主任务规划修复方法 |
CN109557933A (zh) * | 2018-11-27 | 2019-04-02 | 浙江工业大学 | 一种基于龙伯格观测器的刚性飞行器状态约束控制方法 |
CN109557933B (zh) * | 2018-11-27 | 2021-08-03 | 浙江工业大学 | 一种基于龙伯格观测器的刚性飞行器状态约束控制方法 |
CN109919359A (zh) * | 2019-02-01 | 2019-06-21 | 陕西科技大学 | 一种基于adp算法的车辆路径规划方法 |
CN109919359B (zh) * | 2019-02-01 | 2024-06-04 | 武汉天之然知识产权运营有限公司 | 一种基于adp算法的车辆路径规划方法 |
CN110297423A (zh) * | 2019-05-27 | 2019-10-01 | 北京航天自动控制研究所 | 一种飞行器长期在轨多模智能集成系统 |
CN110297423B (zh) * | 2019-05-27 | 2022-08-12 | 北京航天自动控制研究所 | 一种飞行器长期在轨多模智能集成系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107608208B (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107608208A (zh) | 一种面向任务约束的航天器姿态控制系统在轨重构方法 | |
Liang et al. | A deep reinforcement learning network for traffic light cycle control | |
CN106599580B (zh) | 基于可重构度的卫星在轨健康状态评估方法及评估系统 | |
CN108594638A (zh) | 面向多任务多指标优化约束的航天器acs在轨重构方法 | |
CN101908172B (zh) | 一种采用多种智能代理算法的电力市场混合仿真方法 | |
CN104376389A (zh) | 基于负载均衡的主从式微电网功率负荷预测系统及其方法 | |
EP3719603A1 (en) | Action control method and apparatus | |
CN107705556A (zh) | 一种基于支持向量机和bp神经网络结合的交通流预测方法 | |
CN104750979A (zh) | 面向体系结构的综合化风险优先数计算方法 | |
CN106499656B (zh) | 一种风扇风速智能控制方法 | |
CN113705922B (zh) | 一种改进的超短期风电功率预测算法及模型建立方法 | |
CN102645894B (zh) | 模糊自适应动态规划方法 | |
CN108122048A (zh) | 一种运输路径调度方法及其系统 | |
CN108594793A (zh) | 一种改进的rbf飞控系统故障诊断网络训练方法 | |
CN113239884A (zh) | 电梯轿厢内人体行为识别方法 | |
Highley et al. | Load forecasting by ANN | |
CN104656439A (zh) | 一种基于故障可重构性约束的卫星控制系统方案优选方法 | |
Jang et al. | Offline-online reinforcement learning for energy pricing in office demand response: lowering energy and data costs | |
CN201716727U (zh) | 基于遥感与gis的地理模拟系统 | |
Peng et al. | Model-based actor-critic with chance constraint for stochastic system | |
CN103781108A (zh) | 一种基于神经网络的无线传感器网络数据预测方法 | |
CN109726849A (zh) | 一种花授粉算法优化神经网络的楼宇微网负荷预测方法 | |
CN114755926A (zh) | 一种基于强化学习的多智能体系统最优一致性的控制方法 | |
Liang et al. | Balance control of two-wheeled robot based on reinforcement learning | |
Jenkins et al. | Self-Organizing Maps for Anatomical Joint Constraint Modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |