CN114036631A - 一种基于强化学习的航天器自主交会对接制导策略生成方法 - Google Patents
一种基于强化学习的航天器自主交会对接制导策略生成方法 Download PDFInfo
- Publication number
- CN114036631A CN114036631A CN202111231850.9A CN202111231850A CN114036631A CN 114036631 A CN114036631 A CN 114036631A CN 202111231850 A CN202111231850 A CN 202111231850A CN 114036631 A CN114036631 A CN 114036631A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- spacecraft
- decision table
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000003032 molecular docking Methods 0.000 title claims abstract description 40
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 238000003062 neural network model Methods 0.000 claims abstract description 51
- 230000009471 action Effects 0.000 claims abstract description 50
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 230000001133 acceleration Effects 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000012795 verification Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64G—COSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
- B64G1/00—Cosmonautic vehicles
- B64G1/22—Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
- B64G1/24—Guiding or controlling apparatus, e.g. for attitude control
- B64G1/242—Orbits and trajectories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Remote Sensing (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Radar, Positioning & Navigation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习的航天器自主交会对接制导策略生成方法,包括:将航天器交会对接过程建模为马尔科夫决策过程模型;采用动态规划算法对马尔科夫决策过程模型进行求解,得到所有状态采取不同动作的得分,生成决策表;将决策表中的所有状态作为训练数据特征,将决策表中所有状态在每个动作下的得分作为训练数据标签,以此构建训练数据;构建神经网络模型,并采用训练数据对神经网络模型进行训练,得到作为决策表的近似表示的神经网络模型;对于某一个状态,通过得到的神经网络模型计算该状态下所有动作的得分,选择得分最大的动作作为最优制导策略;基于最优制导策略,航天器进行自主交会对接。
Description
技术领域
本发明属于航空航天技术领域,具体涉及一种基于强化学习的航天器自主交会对接制导策略生成方法。
背景技术
随着航天任务的复杂度增加,航天器自主交会对接成为富有挑战性的问题。传统解决方案是使用最优化控制方法,该方法或者对动态模型做了大量简化假设,或者需要冗余的计算资源。近年来,强化学习方法在诸如机器人系统、自动汽车和物联网等工业应用中被广泛使用。于是,在复杂航天制导任务的推动下,一些研究引入强化学习技术以增强航天器自主交会对接制导能力。大量已有的工作表明无模型的强化学习方法适用于仿真环境下制导策略学习,例如PPO(Proximal Policy Optimization)、DDPG(Deep DeterministicPolicy Gradient)、D4PG(Distributed Distributional Deep Deterministic PolicyGradient)等。然而,无模型的强化学习需要大量的环境交互,而且训练随机性大,在实时性要求高、计算资源受限的真实物理系统中不易使用;与之相反,基于模型的强化学习能够充分利用先验知识,与环境的交互更少,而且易于收敛,在真实物理场景中可以更加高效。
基于已有的航天器动力知识与航天工业经验,可以考虑将基于模型的强化学习方法应用于航天器自主交会对接,因此,如何对航天器自主交会对接过程进行建模是需要解决的关键问题;基于模型的强化学习求解的最优制导策略往往由一张决策表表示,决策表所需内存体积巨大而航天电子设备内存受限,如何压缩决策表所需内存体积是一个重要问题;另外,如何验证策略表压缩后的有效性与鲁棒性对于航天器自主交会对接也是至关重要的。
发明内容
发明目的:为实现对航天器自主交会对接过程进行建模、为解决如何压缩决策表所需内存体积的问题,以及解决如何验证策略表压缩后的有效性与鲁棒性的问题,本发明提出了一种基于强化学习的航天器自主交会对接制导策略生成方法。
技术方案:一种基于强化学习的航天器自主交会对接制导策略生成方法,包括以下步骤:
S100:将航天器交会对接过程建模为马尔科夫决策过程模型;
S200:采用动态规划算法对构建的马尔科夫决策过程模型进行求解,得到所有状态采取不同动作的得分;将某一状态下采用某一个动作的得分作为决策表中的一元素,以此生成决策表;
S300:将决策表中的所有状态作为训练数据特征,将决策表中所有状态在每个动作下的得分作为训练数据标签,以此构建训练数据;
S400:构建神经网络模型,并采用训练数据对神经网络模型进行训练,得到作为决策表的近似表示的神经网络模型;
S500:对于某一个状态,通过S400得到的神经网络模型计算该状态下所有动作的得分,选择得分最大的动作作为最优制导策略;
S600:基于最优制导策略,航天器进行自主交会对接。
进一步的,S100具体实现步骤为:
将航天器交会对接过程分解为x-y平面上的相对运动和z方向上的相对运动,相对运动模型遵循Clohessy-Wiltshire方程;
取六个变量,分别为:x方向距离x、y方向距离y、z方向距离z、x方向速度y方向速度和z方向速度一个状态代表所述六个变量的一种取值,以此构建状态集;基于x方向加速度ux、y方向加速度uy、z方向加速度uz,每个方向的加速度分为正向加速度、负向加速度、零加速度三种类型,每个类型的取值范围用区间表示,共二十七个动作组合,以此构建动作集;
对状态集中的状态数据与动作集中的动作数据进行离散化处理;
取离散化处理后的状态集和动作集,通过定义状态转移方程、设计奖励函数和定义折扣因子,建模得到马尔科夫决策过程模型。
进一步的,所述状态转移方程为Clohessy-Wiltshire方程。
进一步的,所述奖励函数表示为:
式中,第一个分式项用于减少不必要的推力,其中,umax表示为可能的最大的总加速度;第二项用于鼓励航天器靠近目标,第三项-1用于加速收敛过程;第四项用于保证航天器能够靠近目标,add随着dist的减小而增加。
进一步的,所述动态规划算法为Gauss–Seidel迭代法。
进一步的,所述S400具体实现步骤为:
构建一个全连接的神经网络模型,其包括:输入层、隐含层、输出层;其中,输入层的节点数等于状态集的变量数,输出层的节点数等于动作集的动作数,隐含层的层数与节点数可自行定义;
定义神经网络激活函数为ReLU函数,定义损失函数为非对称均方误差函数,使用回归算法与Adam优化器,采用训练数据对神经网络模型进行训练,得到作为决策表的近似表示的神经网络模型。
进一步的,当得到作为决策表的近似表示的神经网络模型后,对得到的神经网络模型的鲁棒性进行验证,对验证通过的神经网络模型参与S500的计算,对验证不通过的神经网络模型进行调整,调整后的神经网络模型重新进行鲁棒性验证;
所述的对得到的神经网络模型的鲁棒性进行验证,具体实施步骤包括:
可视化S200得到的决策表和S400得到的作为决策表的近似表示的神经网络模型;
在可视化决策表与神经网络模型的基础上,将输入空间分割为若干格子,在远离决策边界的区域内的格子尺寸大于在靠近决策边界的区域内的格子尺寸;
对于每一个格子,使用神经网络形式化验证工具,验证在该格子代表的输入空间内,有且只有一个动作,该动作作为神经网络模型的最优策略输出;
对于每一个格子,对比决策表与神经网络模型的最优策略输出,以此判断神经网络模型的鲁棒性。
有益效果:本发明与现有技术相比,具有以下优点:
(1)本发明从已有的航天器动力知识与航天工业经验出发,使用基于模型的强化学习方法,将航天器交会对接过程建模为马尔科夫决策过程,通过动态规划算法求解马尔科夫决策过程模型的最优策略,生成决策表,相比于无模型的强化学习方法,具有采样少、收敛速度快、训练过程稳定等优点;
(2)本发明提出使用神经网络模型压缩决策表,能够显著减少决策策略所需的内存体积,适用于内存资源受限的航天电子设备;
(3)本发明提出的形式化验证神经网络方法,能够有效验证神经网络鲁棒性,检查神经网络与决策表策略的一致性。
附图说明
图1为航天器自主交会对接过程图;
图2为本发明方法框架;
图3为一种具体实施的神经网络模型设计;
图4为一种具体实施的决策表与神经网络策略图的对比;
图5为验证神经网络鲁棒性而分割输入空间;
图6为具体实施本方法后的航天器自主交会对接运动轨迹图。
具体实施方式
下面结合附图进一步阐述本发明方法。
图1为航天器自主交会对接过程,即追踪航天器自主制导接近目标航天器,本发明的基于强化学习的航天器自主交会对接制导策略生成方法,目的是在交会对接过程中为追踪航天器生成最优制导策略。航天器交会对接过程可分解为x-y平面上的相对运动和z方向上的相对运动,相对运动模型遵循Clohessy-Wiltshire方程。
现以百米内航天器自主交会对接为例,现结合图2至图6对本发明方法做进一步说明。
步骤1:将航天器交会对接过程建模为马尔科夫决策过程模型,该马尔科夫决策过程模型包括:状态集、动作集、状态转移方程、奖励函数和折扣因子;
表1百米内航天器状态变量的取值设计表
动作集包括x方向加速度ux、y方向加速度uy、z方向加速度uz,每个方向的加速度分为正向加速度、负向加速度、零加速度三种类型,每个类型的取值范围用区间表示,共二十七个动作组合。表2是一种百米内航天器动作变量的取值设计。
表2百米内航天器动作变量的取值设计表
状态集与动作集变量进行离散化处理。
状态转移方程为Clohessy-Wiltshire方程,定义转移概率:动作变量取区间中值的概率为0.5,取区间上下界极值的概率为0.25。
奖励函数设计为:
式中,第一个分式项用于减少不必要的推力,其中,umax表示为可能的最大的总加速度;第二项用于鼓励航天器靠近目标,第三项-1用于加速收敛过程;第四项用于保证航天器能够靠近目标,add需要分段取值,随着dist的减小而增加;表3为add的一种取值设计表。
表3add的一种取值设计表
dist | 0.5 | 0.1 | 0.05 | 0.01 | 0.005 | 0.001 |
add | 10 | 40 | 90 | 190 | 390 | 500 |
定义折扣因子等于0.95。
在建立马尔科夫决策过程模型后,使用Gauss–Seidel迭代法求解所有状态采取不同动作的得分,生成决策表,决策表中的元素为航天器在某一个状态下采取某一个动作的得分。航天器在交会对接过程中,在任意一个状态,查询决策表,选择该状态下得分最大的动作作为最优制导策略。
步骤2:为了压缩决策表所需内存体积,本发明在生成决策表后,将决策表作为训练数据,训练数据包括训练数据特征与训练数据标签;训练数据特征为决策表的所有状态,训练数据标签为决策表中所有状态在每一个动作下的得分;采用该训练数据,训练神经网络模型作为决策表的近似表示形式,具体操作为:
设计一个全连接的神经网络模型,输入层的节点数等于状态集的变量数,即输入变量为六个状态变量;输出层的节点数等于动作集的动作数,即输出变量为二十七个动作的得分。隐含层的层数与节点数可自行定义,此处设计五层隐含层,每层隐含层包含二十五个节点。采用决策表作为训练数据,定义神经网络激活函数为ReLU函数,定义损失函数为非对称均方误差函数,使用回归算法与Adam优化器,训练得到一个充分逼近决策表的神经网络模型。图3为使用本发明方法实现百米内航天器自主交会对接制导而设计的神经网络模型。
步骤3:航天器在交会对接过程中,对于某一个状态,通过步骤2训练得到的神经网络计算该状态下所有动作的得分,选择得分最大的动作作为最优制导策略。
为了确认神经网络模型的有效性,可计算神经网络模型的准确率,以及同时可视化决策表与神经网络模型的策略图,将两者的策略图进行比较,确认神经网络策略压缩效果。图4为使用本发明方法实现百米内航天器自主交会对接制导后的策略图比较,不同的灰度代表不同的动作。
为了验证神经网络模型的鲁棒性,在可视化决策表与神经网络策略的基础上,将输入空间分割为若干格子,在远离决策边界的区域可以将格子分割得较大,在靠近决策边界的区域可以将格子分割得较小;在分割输入空间后,对于每一个格子,使用神经网络进行形式化验证,验证在该格子代表的输入空间内,有且只有一个动作将作为神经网络最优策略输出;在形式化验证神经网络之后,对于每一个格子,对比决策表与神经网络产生的最优策略,检验决策表与神经网络策略的一致性。图5为使用本发明方法实现百米内航天器自主交会对接制导后,分割输入空间的示意图。
仿真航天器在神经网络策略下的运动轨迹。图6为使用本发明方法实现百米内航天器自主交会对接制导后的仿真运动轨迹图。目标航天器位于原点,图6显示追踪航天器最终准确接近目标航天器。
Claims (7)
1.一种基于强化学习的航天器自主交会对接制导策略生成方法,其特征在于:包括以下步骤:
S100:将航天器交会对接过程建模为马尔科夫决策过程模型;
S200:采用动态规划算法对构建的马尔科夫决策过程模型进行求解,得到所有状态采取不同动作的得分;将某一状态下采用某一个动作的得分作为决策表中的一元素,以此生成决策表;
S300:将决策表中的所有状态作为训练数据特征,将决策表中所有状态在每个动作下的得分作为训练数据标签,以此构建训练数据;
S400:构建神经网络模型,并采用训练数据对神经网络模型进行训练,得到作为决策表的近似表示的神经网络模型;
S500:对于某一个状态,通过S400得到的神经网络模型计算该状态下所有动作的得分,选择得分最大的动作作为最优制导策略;
S600:基于最优制导策略,航天器进行自主交会对接。
2.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法,其特征在于:S100具体实现步骤为:
将航天器交会对接过程分解为x-y平面上的相对运动和z方向上的相对运动,相对运动模型遵循Clohessy-Wiltshire方程;
取六个变量,分别为:x方向距离x、y方向距离y、z方向距离z、x方向速度y方向速度和z方向速度一个状态代表所述六个变量的一种取值,以此构建状态集;基于x方向加速度ux、y方向加速度uy、z方向加速度uz,每个方向的加速度分为正向加速度、负向加速度、零加速度三种类型,每个类型的取值范围用区间表示,共二十七个动作组合,以此构建动作集;
对状态集中的状态数据与动作集中的动作数据进行离散化处理;
取离散化处理后的状态集和动作集,通过定义状态转移方程、设计奖励函数和定义折扣因子,建模得到马尔科夫决策过程模型。
3.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法,其特征在于:所述状态转移方程为Clohessy-Wiltshire方程。
5.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法,其特征在于:所述动态规划算法为Gauss–Seidel迭代法。
6.根据权利要求2所述的一种基于强化学习的航天器自主交会对接制导策略生成方法,其特征在于:所述S400具体实现步骤为:
构建一个全连接的神经网络模型,其包括:输入层、隐含层、输出层;其中,输入层的节点数等于状态集的变量数,输出层的节点数等于动作集的动作数,隐含层的层数与节点数可自行定义;
定义神经网络激活函数为ReLU函数,定义损失函数为非对称均方误差函数,使用回归算法与Adam优化器,采用训练数据对神经网络模型进行训练,得到作为决策表的近似表示的神经网络模型。
7.根据权利要求1所述的一种基于强化学习的航天器自主交会对接制导策略生成方法,其特征在于:当得到作为决策表的近似表示的神经网络模型后,对得到的神经网络模型的鲁棒性进行验证,对验证通过的神经网络模型参与S500的计算,对验证不通过的神经网络模型进行调整,调整后的神经网络模型重新进行鲁棒性验证;
所述的对得到的神经网络模型的鲁棒性进行验证,具体实施步骤包括:
可视化S200得到的决策表和S400得到的作为决策表的近似表示的神经网络模型;
在可视化决策表与神经网络模型的基础上,将输入空间分割为若干格子,在远离决策边界的区域内的格子尺寸大于在靠近决策边界的区域内的格子尺寸;
对于每一个格子,使用神经网络形式化验证工具,验证在该格子代表的输入空间内,有且只有一个动作,该动作作为神经网络模型的最优策略输出;
对于每一个格子,对比决策表与神经网络模型的最优策略输出,以此判断神经网络模型的鲁棒性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111231850.9A CN114036631B (zh) | 2021-10-22 | 2021-10-22 | 一种基于强化学习的航天器自主交会对接制导策略生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111231850.9A CN114036631B (zh) | 2021-10-22 | 2021-10-22 | 一种基于强化学习的航天器自主交会对接制导策略生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114036631A true CN114036631A (zh) | 2022-02-11 |
CN114036631B CN114036631B (zh) | 2024-09-20 |
Family
ID=80135195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111231850.9A Active CN114036631B (zh) | 2021-10-22 | 2021-10-22 | 一种基于强化学习的航天器自主交会对接制导策略生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036631B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115407664A (zh) * | 2022-11-01 | 2022-11-29 | 北京航天自动控制研究所 | 一种基于神经网络训练的非程序制导方法 |
CN116385627A (zh) * | 2022-12-06 | 2023-07-04 | 星智航天科技有限公司 | 模块化平台的可视化展示系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180197083A1 (en) * | 2017-01-11 | 2018-07-12 | International Business Machines Corporation | Neural network reinforcement learning |
CN109213188A (zh) * | 2017-06-29 | 2019-01-15 | 波音公司 | 自主操作飞行器的方法和系统 |
CN112141369A (zh) * | 2020-10-09 | 2020-12-29 | 哈尔滨理工大学 | 一种航天器平移靠拢段自主交会对接的决策与控制方法 |
CN112455723A (zh) * | 2020-11-12 | 2021-03-09 | 大连理工大学 | 一种火箭推力下降故障下基于rbfnn的救援轨道决策方法 |
CN113196308A (zh) * | 2019-01-14 | 2021-07-30 | 赫尔实验室有限公司 | 基于求解的内省来增强强化学习智能体的训练以对机器人和自主载具进行控制和规划 |
-
2021
- 2021-10-22 CN CN202111231850.9A patent/CN114036631B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180197083A1 (en) * | 2017-01-11 | 2018-07-12 | International Business Machines Corporation | Neural network reinforcement learning |
CN109213188A (zh) * | 2017-06-29 | 2019-01-15 | 波音公司 | 自主操作飞行器的方法和系统 |
CN113196308A (zh) * | 2019-01-14 | 2021-07-30 | 赫尔实验室有限公司 | 基于求解的内省来增强强化学习智能体的训练以对机器人和自主载具进行控制和规划 |
CN112141369A (zh) * | 2020-10-09 | 2020-12-29 | 哈尔滨理工大学 | 一种航天器平移靠拢段自主交会对接的决策与控制方法 |
CN112455723A (zh) * | 2020-11-12 | 2021-03-09 | 大连理工大学 | 一种火箭推力下降故障下基于rbfnn的救援轨道决策方法 |
Non-Patent Citations (3)
Title |
---|
ABRAHAM P. VINOD: ""Affine controller synthesis for stochastic reachability via difference of convex programming"", 《2019 IEEE 58TH CONFERENCE ON DECISION AND CONTROL (CDC)》, 12 March 2020 (2020-03-12), pages 7273 - 7280 * |
ZHIBIN YANG: ""Model-Based Reinforcement Learning and Neural-Network-Based Policy Compression for Spacecraft Rendezvous on Resource-Constrained Embedded Systems"", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》, vol. 19, no. 1, 18 July 2022 (2022-07-18), pages 1107 - 1116, XP011926515, DOI: 10.1109/TII.2022.3192085 * |
朱疆成: ""空中机器人的层次化决策与控制系统研究"", 《中国博士学位论文全文数据库 信息科技辑》, no. 2019, 15 August 2019 (2019-08-15), pages 140 - 44 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115407664A (zh) * | 2022-11-01 | 2022-11-29 | 北京航天自动控制研究所 | 一种基于神经网络训练的非程序制导方法 |
CN115407664B (zh) * | 2022-11-01 | 2023-02-03 | 北京航天自动控制研究所 | 一种基于神经网络训练的非程序制导方法 |
CN116385627A (zh) * | 2022-12-06 | 2023-07-04 | 星智航天科技有限公司 | 模块化平台的可视化展示系统 |
CN116385627B (zh) * | 2022-12-06 | 2023-09-05 | 星智航天科技有限公司 | 模块化平台的可视化展示系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114036631B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Review of design optimization methods for turbomachinery aerodynamics | |
Köker et al. | A study of neural network based inverse kinematics solution for a three-joint robot | |
Jin et al. | A framework for evolutionary optimization with approximate fitness functions | |
CN114036631B (zh) | 一种基于强化学习的航天器自主交会对接制导策略生成方法 | |
Thirumalainambi et al. | Training data requirement for a neural network to predict aerodynamic coefficients | |
Kyriacou et al. | Efficient PCA-driven EAs and metamodel-assisted EAs, with applications in turbomachinery | |
CN114638048A (zh) | 三维喷管流场快速预测与敏感性参数分析方法及装置 | |
CN113673027A (zh) | 一种基于代理模型的高超声速飞行器气动载荷优化设计方法 | |
Chiba et al. | High-fidelity multidisciplinary design optimization of aerostructural wing shape for regional jet | |
He et al. | Aerodynamic optimisation of a high-speed train head shape using an advanced hybrid surrogate-based nonlinear model representation method | |
CN111027250B (zh) | 一种基于网格变形技术的异形曲面加筋壳建模方法 | |
Durasov et al. | Debosh: Deep bayesian shape optimization | |
CN106408649A (zh) | 一种基于规则的体结构演化设计方法 | |
Massegur Sampietro et al. | Recurrent Multi-Mesh Convolutional Autoencoder Framework for Spatio-Temporal Aerodynamic Modelling. | |
Couchot et al. | Active MEMS-based flow control using artificial neural network | |
Trad et al. | Airfoils generation using neural networks, CST curves and aerodynamic coefficients | |
Selvan | On the effect of shape parameterization on aerofoil shape optimization | |
Nikolos | On the use of multiple surrogates within a differential evolution procedure for high-lift airfoil design | |
Thinakaran et al. | Predicting the 2-dimensional airfoil by using machine learning methods | |
Xiang et al. | A Manifold-Based Airfoil Geometric-Feature Extraction and Discrepant Data Fusion Learning Method | |
Tartaruga et al. | Flutter uncertainty quantification for the S4T model | |
Chen | Active learning over dnn: Automated engineering design optimization for fluid dynamics based on self-simulated dataset | |
Sabouri et al. | Construction of lyapunov functions using multi-objective genetic algorithm | |
Ye et al. | Reducing flow fluctuation using deep reinforcement learning with a CNN-based flow feature model | |
Garrelts et al. | A straightforward approach to the derivation of topologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |