CN115437406A - 基于强化学习算法的飞行器再入跟踪制导方法 - Google Patents
基于强化学习算法的飞行器再入跟踪制导方法 Download PDFInfo
- Publication number
- CN115437406A CN115437406A CN202211130234.9A CN202211130234A CN115437406A CN 115437406 A CN115437406 A CN 115437406A CN 202211130234 A CN202211130234 A CN 202211130234A CN 115437406 A CN115437406 A CN 115437406A
- Authority
- CN
- China
- Prior art keywords
- network
- aircraft
- representing
- state
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 9
- 230000002787 reinforcement Effects 0.000 title claims abstract description 6
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 239000003795 chemical substances by application Substances 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 31
- 238000011156 evaluation Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 238000013178 mathematical model Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000011084 recovery Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 20
- 206010048669 Terminal state Diseases 0.000 description 11
- 230000000694 effects Effects 0.000 description 11
- 238000005457 optimization Methods 0.000 description 9
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 230000010355 oscillation Effects 0.000 description 6
- 239000000126 substance Substances 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003054 catalyst Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/12—Target-seeking control
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64G—COSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
- B64G1/00—Cosmonautic vehicles
- B64G1/22—Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
- B64G1/24—Guiding or controlling apparatus, e.g. for attitude control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于强化学习算法的飞行器再入跟踪制导方法,用于解决现有技术中对系统模型依赖性较大和适应性及制导性能差的问题。其实现方案为建立半速度坐标系下飞行器再入连续最优控制问题;将飞行器再入连续最优控制问题转化为序列凸最优控制问题;将序列凸最优控制问题转化为序列二阶锥规划问题;对序列二阶锥规划问题进行求解,获取飞行器最优倾侧角;对最优倾侧角轨迹采样得到参考轨迹训练数据集;构建神经网络和奖励函数;利用训练数据集对神经网络进行离线训练,直到累计奖励收敛到最大值,得到制导网络;通过制导网络在线获取飞行器再入制导指令,实时跟踪目标高度。本发明适应性强,制导精度高,可用于火箭回收。
Description
技术领域
本发明属于飞行器制导控制技术领域,涉及一种飞行器再入跟踪制导方法,可用于火箭回收。
背景技术
作为飞行器总体与控制系统的核心技术,轨迹与制导设计对于飞行器来说至关重要,且二者逐渐呈现出融合趋势。轨迹优化技术的研究早期来自协调总体参数设计、最大化资源利用率、降低任务运营成本等顶层设计需求。传统制导设计的主要任务是通过离线设计固定的参考轨迹并在线跟踪,确保完成飞行任务。由于传统的跟踪制导方案是建立在简化运动模型基础上,因而存在的对模型依赖性较大和适应性较差的问题,当建模偏差、外部扰动较大时,制导性能会严重恶化。例如“阿波罗”号再入过程的标称轨迹制导方案。该方案的飞行器再入飞行环境非常复杂,其要历经外太空、稀薄大气层以及稠密大气层,由于在此过程中机械能迅速转化为热能,机体会剧烈升温,同时面临着巨大动压及过载的严苛考验。且由于再入过程呈现出多约束、强耦合、快时变、强非线性、强不确定性、大包络、长航时的特点,为制导控制系统设计带来了极大挑战,极大地制约了行器应有的飞行性能。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提出一种基于强化学习算法的飞行器再入跟踪制导方法,以根据实时飞行状态快速生成攻角增量指令,通过跟踪期望的高度曲线,有效增强飞行器的任务执行能力,减小对飞行器模型的依赖、提高适应性及制导性能。
为实现上述目的,本发明的技术方案包括如下:
(1)将飞行器再入段轨迹优化描述为由数学模型、边界条件、容许控制、性能指标、过程约束构成的连续最优控制问题P0;
(2)对P0进行更换形式、松弛变量、软化约束、逐次线性化方法的凸化处理,得到序列凸最优控制问题P1,采用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2;
(3)采用内点法求解序列二阶锥规划问题P2,得最优参考轨迹;
(4)对最优参考轨迹进行采样得到参考轨迹训练数据集;
(5)构建神经网络Actor网络:
(5a)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络 Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;
(5b)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;
(5c)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;
(6)构建神经网络Critic网络:
(6a)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络 Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;
(6b)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络 Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_target输出的攻角增量指令,该第四输出层输出信息为智能体下一状态采取指令后产生的目标累计奖励;
(6c)将价值评估子网络Critic_eval网络和价值目标子网络Critic_target网络并联,构成Critic网络,用于接受经验回放池的状态信息和Actor网络输出的攻角增量指令信息,并输出智能体采取指令后产生的累计奖励信息;
(7)设计Actor网络和Critic网络的奖励函数R均为:
R=R1+R2,其中R1为目标奖励,R2为约束奖励;
(8)利用(4)中所得到的参考轨迹训练数据集使用深度确定性策略梯度算法DDPG,对Actor网络和Critic网络进行并行离线训练,当智能体的累计奖励收敛于一个最大值时,得到训练好的制导网络;
(9)在线获取飞行器再入段制导指令并实时跟踪:
飞行器在飞行期间,机载计算机读取飞行器导航系统测得的实时飞行状态量,将实时飞行的状态量作为制导网络的输入进行前向传播,得到实时的制导指令;飞行器根据指令将产生攻角变化实时跟踪预定高度曲线。
本发明与现有技术相比,具有如下优点:
1)本发明由于构建了神经网络模型,并将大量优化计算转移到离线训练过程中,减小了在线运算量,提高了生成制导指令的速度,使得飞行器能够实时对环境做出反应。
2)本发明由于设计了关于目标高度和攻角增量的奖励函数,提高了制导精度,使得飞行器能够适应复杂的环境并实现对高度的精细跟踪。
附图说明
图1为本发明的实现流程图;
图2为本发明中在构建飞行器最优轨迹中使用的原始非凸集;
图3为本发明中在凸化飞行器最优轨迹中得到的凸容许控制集;
图4为本发明中求解飞行器最优轨迹得到的再入段倾侧角的参考轨迹;
图5为用本发明对气动参数正向固定拉偏的累计收益曲线图;
图6为用本发明对气动参数正向固定拉偏的跟踪效果图;
图7为用本发明对气动参数正向随机拉偏的跟踪效果图;
图8为用本发明对气动参数正向随机拉偏时的奖励曲线图;
图9为用本发明对气动参数反向固定拉偏的累计收益曲线图;
图10为用本发明对气动参数反向固定拉偏的跟踪效果图;
图11为用本发明对气动参数反向随机拉偏的跟踪效果图;
图12为用本发明对气动参数反向随机拉偏的奖励曲线图。
具体实施方式
以下结合附图对本发明具体实施例和效果作进一步详细说明。
参照图1,本实例的实现步骤如下:
步骤1,建立飞行器运动模型。
飞行器质心运动方程是研究其运动特性的基础,本实例以无动力可重复使用运载器 RLV为研究对象,在半速度系下建立其再入质心运动方程。轨迹优化问题通常不考虑控制力作用,并且由于附加哥氏力量级较小,忽略其影响,RLV再入过程主要依靠空气动力和地球引力改变飞行状态,假设地球为理想圆球,在半速度坐标系下,建立RLV的状态微分方程f1如下:
其中,r为RLV无量纲地心距,为RLV无量纲速度,Ω为地球自转角速率,R0为地球半径,γ为航迹角,ψ为航向角,σ为倾侧角,L=0.5R0ρV2SCL/m为升力加速度,D=0.5R0ρV2SCD/m为阻力加速度;e为RLV的无量纲能量,CD与CL分别为阻力系数与升力系数,这两个系数均为攻角α和马赫数Ma的函数,S为RLV参考面积,ρ=ρ0exp(-(r-1)/H)表示大气密度,其是地心距r的函数,ρ0为海平面大气密度,H为无量纲标高。
对于状态微分方程,本实施例选择状态量为s=(r,θ,φ,γ,ψ),控制量为倾侧角u=σ。
步骤2,建立飞行器约束条件和性能指标。
2.1)建立飞行器的约束条件:
2.1.1)建立过程约束K:
2.1.2)建立初始状态约束L和终端状态约束Φ1:
根据RLV的飞行任务可以确定RLV的初始状态信息和终端状态信息,进而对RLV的初始状态和终端状态施加约束:
初始状态约束L:
终端状态约束Φ1:
2.1.3)建立容许控制C:
在RLV飞行过程中,为确保RLV不会进行大角度的翻转,还应当对控制量倾侧角加以限制,因此建立容许控制约束C来约束倾侧角的幅值;
容许控制C:
C:σmin≤|σ|≤σmax
其中,σmin和σmax分别表示倾侧角的下限和上限。
2.2)建立性能指标J
在飞行器再入的轨迹优化中,通常对飞行器的期望要求包含飞行器再入时间最短,终端速度最大,飞行航程最长,消耗能量最小,本实例中性能指标J为再入时间最短,即:
步骤3,构建RLV再入段轨迹优化模型的最优控制问题P0。
根据上述状态微分方程f1、过程约束K、初始约束L、终端约束Φ1、容许控制C和性能指标J,将RLV再入段的轨迹优化模型描述为包括这些参数的最优控制问题P0:
步骤4,将飞行器再入连续最优控制问题P0转化为序列凸最优控制问题P1。
4.1)过程约束K的形式转换:
将过程约束K重新描述为关于状态变量r的线性不等式形式,满足凸问题的要求:
上式等价于
4.2)控制约束的松弛:
4.2.1)转换控制变量
由于选择倾侧角σ为控制量时,在对微分方程组进行逐次线性化时易产生不良震荡,因此需要更换控制变量来消除这种不良震荡,详细说明如下:
首先,根据选择倾侧角σ为控制量时,质心运动方程f1关于状态量x和控制量u=σ都是非凸的性质,采用逐次线性化方法凸化方程f1,逐次求解过程中第k次的解包含状态变量解x(k)(e)和控制量解u(k)(e),记为{x(k)(e);u(k)(e)};
其次,根据第k次迭代得到的解,将第k+1次迭代将方程线性化为:
x′=Fx(x(k),u(k),e)x+Fu(x(k),u(k),e)u+b(x(k),u(k),e)
其中,x′表示五个状态变量对无量纲能量e的导数,表示微分方程组f对x的雅可比矩阵、表示微分方程组f对u的雅可比矩阵,b(x(k),u(k),e)=f(x(k),u(k),e)-Fx(x(k),u(k),e)x(k)-Fu(x(k),u(k),e)u(k)表示余矢量。
接着,根据上述系数矩阵Fx、Fu以及余矢量b与u(k)有关,在迭代过程中控制量u(k)易产生震荡的情况,即在迭代过程中通过控制量u(k)的振荡控制第k+1次迭代得到的控制量 u(k+1),随着迭代不断进行,振荡可能会进一步放大。这些振荡不是问题的解所固有的,是数值求解过程不稳定的表现,为消除线性化动力学方程与u(k)的关系,引入如下控制变量替换原控制量:其中,u1表示倾侧角余弦值,u2表示倾侧角正弦值,将替换后的控制变量从质心运动方程中分离出来,依据新的控制变量对微分方程组进行线性化,其雅可比系数矩阵近似为0矩阵,可消除不良的震荡传递。
4.2.2)建立新的控制变量约束
控制变量转换后,控制约束表示为:cosσmax≤u1≤cosσmin,由于控制量u1和u2不是相互独立的,还需要满足如下等式:
该等式约束是一个二次约束,约束确定的原始容许控制集如图2所示,该原始容许控制集是单位圆上在u1=ωl=cosσmax和u1=ωh=cosσmin之间的两段圆弧,这两段圆弧构成的集合是非凸的,需要进行凸化处理,即对约束进行松弛处理,将原约束松弛为如下二阶锥不等式约束:
通过松弛约束后确定的集合扩大了原始容许控制集,使得原非凸集合变为凸集,如图 3阴影区域所示。
4.3)性能指标的逐次线性化:
4.3.1)将阻力加速度表达式代入性能指标,将性能指标表示为如下状态量的函数:
其中,,D=0.5R0ρV2SCD/m为阻力加速度,系数不含任何状态量,为RLV无量纲速度,m为飞行器质量,Ω为地球自转角速率,R0为地球半径,e为RLV的无量纲能量,CD为阻力系数,其为攻角α和马赫数Ma的函数,S为RLV 参考面积,ρ=ρ0exp(-(r-1)/H)表示大气密度,其是地心距r的函数,ρ0为海平面大气密度,H为无量纲标高。
4.3.2)线性化处理性能指标
性能指标式中的大气密度ρ是唯一可优化的量,相关状态分量为地心距r。大气密度近似采用指数模型,该性能指标的被积函数是关于r的凸函数,但为最终得到二阶锥规划问题,需将其转化为关于r的线性函数,为此,在前一次迭代的解r(k)(e)附近,对该性能指标的被积函数进行一阶泰勒展开:
4.3.3)引入正则化项确保约束不变
其中,εψ≠0是一个常量,为确保得到的解近似于原问题的解,需要将εψ的量级设置的足够小。
4.4)终端约束的松弛:
终端约束虽然均为线性等式约束,但在初期寻优过程中,由于经、纬度两个硬约束可能难以满足,为此,在性能指标中引入如下惩罚项替代这两个终端约束:
其中,d(θ(ef),φ(ef))表示惩罚项,cθ>0和cφ>0为给定常量,
将性能指标更新为:
4.5)质心运动方程的逐次线性化:
根据更换后的控制量,质心运动方程可表示为:
其中,f1(x,e)为原微分方程组中不含控制量的项系数矩阵,B(x,e)为原微分方程组中含有控制量的项系数矩阵;
采用逐次线性化方法凸化质心运动方程,逐次求解过程中第k次的解包含状态变量解 x(k)(e)和控制量解u(k)(e),记为{x(k)(e);u(k)(e)};
根据第k次迭代得到的解,将第k+1次迭代将方程线性化为:
x′=Fx(x(k),u(k),e)x+B(x(k),e)u+b(x(k),u(k),e)
b(x(k),u(k),e)=f1(x(k),e)-Fx(x(k),u(k),e)x(k)表示余矢量;
L/D=CL/CD,其与V均可看作能量e的单变量函数,因此矩阵B(x,e)中与状态量x相关的元素只有cosγ,导致中存在一非零项,由于飞行器再入过程中,航迹角|γ|很小,即该非零项很小,因此线性化方程可简化为:
x′=Fx(x(k),e)x+B(x(k),e)u+b(x(k),e);
进一步,从质心运动方程中分离出量级很小的地球自转相关项,将质心运动方程更新为如下简洁形式:
x′=f1(x,e)+B(x,e)u=f0(x,e)+fΩ(x,e)+B(x,e)u
再进一步,将更新过的质心运动方程进行逐次线性化处理,并省略符号中的无量纲能量e,根据第k次迭代得到的解,将第k+1次迭代将方程线性化为:
x′=A(x(k))x+B(x(k))u+b(x(k))
其中,b(x(k))=f0(x(k))-A(x(k))x(k)+fΩ(x(k))表示余矢量,A(x(k))和B(x(k))分别表示f0(x(k))对x和u的雅可比矩阵,f0(x(k))表示f0(x,e)第k次迭代得到的状态微分方程, fΩ(x(k))表示fΩ(x,e)第k次迭代得到的状态微分方程;
为确保逐次线性化的局部有效性,施加信赖域约束:|x-x(k)|≤δ,其中,δ为给定五维常矢量。
4.6)根据步骤4.1)到步骤4.5)中对约束和性能指标的凸化处理,将RLV再入段的轨迹优化模型重新描述为序列凸最优控制问题P1:
步骤5,将序列凸最优控制问题P1转化为序列二阶锥规划问题P2。
根据Gauss伪谱法的原理,将序列凸最优控制问题P1离散参数化为序列凸规划问题 P2,其实现步骤如下:
5.1)设置配点和离散点:
将能量自变量e转换为伪能量自变量Ε∈[-1,1]:
其中,e0、ef分别表示飞行器的初始无量纲能量和终端无量纲能量;
设置离散点,包括伪能量自变量的两端点Ε0、Εf和所有区间内部的LG点,即共计N+2个离散点Ε0,Ε1,…,Εn,…,ΕN+1,其中n=0,1,…,N+1,表示每一个离散点,ΕN+1=Εf表示伪能量自变量的右端点。
5.2)质心运动微分方程的离散:
5.2.1)利用拉格朗日插值多项式表示伪能量自变量Ε∈[-1,1)的质心运动微分方程约束:
5.2.2)利用Gauss积分估计伪能量自变量右端点质心运动微分方程约束:
由于状态变量近似表达式对应的伪能量区间为[-1,1),未包含终端状态变量xN+1,因此采用Gauss积分来估计xN+1,即终端状态xN+1需满足的质心运动微分方程约束:
其中,wm表示LG积分权重。
5.3)设置离散后的其他约束条件:
5.3.1)信赖域约束:
5.3.2)控制约束:
其中,(u1)m和(u2)m分别表示控制量u1和u2在第m个LG点的值,ωl和ωh分别代表倾侧角余弦值的最小值和最大值;
5.3.3)过程约束:
5.3.4)边界条件:
其中,表示飞行器状态变量设定的初始值,rN+1表示飞行器无量纲地心距的终端状态,θN+1表示飞行器经度的终端状态,φN+1表示飞行器纬度的终端状态,γN+1表示飞行器航迹角的终端状态,ψN+1表示飞行器航向角的终端状态,分别表示飞行器终端无量纲地心距、经度、纬度、航迹角和航向角,和分别表示经度和纬度的松弛变量;
5.3.5)性能指标:
性能指标函数通过Gauss积分近似为:
5.4)根据步骤5.1)到步骤5.3)中对各约束和性能指标的离散化处理,将RLV再入段的轨迹优化模型重新描述为序列凸最优控制问题P2:
其中,n=0,1,2...N+1表示每一个离散点,m=1,2,3...N表示每一个LG点。
步骤6,对无动力可重复使用运载器RLV再入段序列二阶锥规划问题P2进行离线求解,其流程如下:
若不满足,则令x(k)=x(k+1),返回步骤6.2;
最终,根据最优解中的u(k+1)得到再入段控制量倾侧角的参考轨迹,如图4所示。
步骤7,对步骤6所得最优参考轨迹进行采样得到参考轨迹训练数据集。
步骤8,构建神经网络Actor和神经网络Critic。
8.1)构建Actor网络:
8.1.1)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络 Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;
8.1.2)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络 Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;
8.1.3)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;
8.2)构建Critic网络:
8.2.1)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络 Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及动作评估子网络Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;
8.2.2)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络 Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及动作目标子网络Actor_target输出的攻角增量指令,该第四输出层输出信息为智能体下一状态采取指令后产生的目标累计奖励;
8.2.3)将价值评估子网络Critic_eval网络和价值目标子网络Critic_target网络并联,构成Critic网络,用于接受经验回放池的状态信息和Actor网络输出的攻角增量指令信息,并输出智能体采取指令后产生的累计奖励信息;
8.3)将Actor网络和Critic网络中的所有隐藏层均设置为100个神经元,且隐藏层的激活函数均使用relu函数,输出层均使用tanh函数。
步骤9,设置神经网络Actor和神经网络Critic的奖励函数。
奖励函数包括目标奖励和约束奖励,其设置如下:
9.1)根据任务目标,设置目标奖励R1:
其中,设hnext表示执行完动作Δα后下一时间步的高度,Δα表示攻角增量指令,h0表示下一时间步对应标称高度;
9.2)根据攻角增量大小,设置约束奖励R2:
R2=-10|Δα|
9.3)将目标奖励R1与约束奖励R2相加,得到神经网络Actor和神经网络Critic的奖励函数为:R=R1+R2。
步骤10,对神经网络Actor和神经网络Critic进行同步离线训练,获得训练好的制导网络。
10.1)参数初始化:
随机初始化Actor_eval网络参数θμ、Actor_target网络参数θμ′;
随机初始化Critic_eval网络参数θQ、Critic_target网络参数θQ′;
初始化训练过程的相关超参数:即设置目标网络代替更新频率参数为τ、目标网络更新周期回合数T、经验回放池大小为M、每个时间步从经验回放池采样得到的转移过程总数为batch、奖励折扣率为λ;
10.2)使用马尔科夫决策过程MDP模型描述智能体的单步状态转移过程:
10.2.1)结合再入运动模型描述单步转移过程:
根据步骤1中构建的飞行器再入运动模型,设智能体的环境状态为轨迹状态变量S=[r,θ,φ,γ,ψ],智能体的动作为攻角增量Δα;
在每次状态转移过程中,智能体首先接收到一个当前环境状态信息St=[rt,θt,φt,γt,ψt],而后做出相应的动作At=Δαt,模型在执行该动作后,根据步骤7得到的参考轨迹训练数据集和St、At,通过龙格库塔积分将当前状态St转移为下一个状态St+1,同时智能体将收到一个收益Rt+1,其中,t表示智能体当前状态,t+1表示智能体执行动作后转移到的下一个状态;
10.2.2)在智能体动作中添加随机噪声并抽取新动作替代原动作:
为使智能体能够探索到更多的动作,具备更强的环境适应能力,在智能体所选择的动作At=Δαt中添加随机噪声;
设置参数var作为标准差,并以强化学习算法选择出来的原动作At作为平均值,构造一个正态分布函数,然后从正态分布函数中随机抽取一个新的动作at代替At。
10.3)将步骤10.2中的单步转移过程以(St,at,Rt+1,St+1)的形式存储进经验回放池,其中,St表示当前时刻状态、at表示当前时刻采取的攻角增量动作、Rt+1表示执行动作之后得到的奖励值、St+1表示下一时刻状态;
10.4)从经验回放池中随机抽取一些样本输入进Actor网络和Critic网络中,通过性能指标的策略梯度最大化累计奖励来更新Actor网络中的Actor_eval子网络参数,通过最小化损失函数即当前累计奖励与目标累计奖励的均方误差来更新Critic网络中的Critic_eval子网络参数,每过T 回合根据τ和原网络参数进行加权更新Actor网络中的Actor_target 子网络参数和Critic网络中的Critic_target子网络参数,
其中,N表示从经验回放池中采样的样本数量,si为当前状态量,ai为神经网络根据当前状态量选择出的攻角增量指令,yi=Ri+1+λQ′(si+1,μ′(si+1|wμ′)wQ′),表示目标累计奖励,Q(si,ai|wQ)表示Critic_eval网络的输出值,w表示网络的权重和阈值参数,w的上标表示此参数的归属网络,上标Q表示Critic_eval网络,上标Q′表示Critic_target网络,上标μ表示Actor_eval网络,上标μ′表示Actor_target网络,μ′(si+1|wμ′)表示Actor_target 网络的输出值;Q′(si+1,μ′(si+1|wμ′)|wQ′)表示Critic_target网络的输出值,Actor_eval网络的输出值为μ(si|wμ)。
10.5)重复步骤10.4),当智能体的累计奖励收敛于一个最大值时,得到训练好的Actor 网络和Critic网络,将Actor网络中的动作评估子网络Actor_eval网络作为制导网络。
步骤11,在线获取飞行器再入段制导指令。
飞行器在飞行期间,机载计算机读取飞行器导航系统测得的实时飞行状态量,将实时飞行的状态量作为制导网络的输入进行前向传播,得到实时的制导指令,根据指令飞行器将产生攻角变化实时跟踪预定高度曲线。
以下结合仿真实验对本实施例的技术效果进一步说明:
一、仿真条件
飞行器初始条件为:
飞行器终端条件为:
所有数值仿真均在CPU为I7-8700F(3.20GHz)的PC上进行,软件环境为MATLAB 和PYCHARM。
二、仿真内容
仿真实验1:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在正向拉偏20%,测试本发明的收敛性,结果如图5所示。从图5可见,本发明的累计奖励曲线在200回合以内收敛到一个最大值,保证了在正向拉偏情况下的收敛性和数据的的准确性;
仿真实验2:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在正向拉偏20%,测试本发明的制导网络在正向拉偏情况下对高度的跟踪效果,结果如图6所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线。根据图6可计算出本发明的制导网络在正向拉偏情况下的终端高度制导精度为0.52%。
仿真实验3:
由于RLV的飞行环境复杂多变,为模拟更加真实的飞行环境,在上述仿真条件下,将本发明中每个离散时间步的气动系数在[0,20%]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明的制导网络在正向随机拉偏的复杂环境情况下对高度的跟踪效果,结果如图7所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线。根据图7可计算出本发明的制导网络在正向随机拉偏的复杂环境下的终端高度制导精度为0.1%。
仿真实验4:
在上述仿真条件下,将本发明中每个离散时间步的气动系数在[0,20%]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明中飞行器在正向随机拉偏的复杂环境下追踪高度的难易程度,结果如图8所示。从图8可见,本发明的奖励曲线在-1000到-1150 之间波动,轨迹末端的奖励下降较快,表示本发明中在正向随机拉偏的复杂情况下飞行器在轨迹末端的跟踪难度较大。
仿真实验5:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在反向拉偏20%,测试本发明的收敛性,结果如图9所示。从图9可见,本发明的累计奖励曲线在200回合以内收敛到一个最大值,保证了反向拉偏情况的收敛性和数据的准确性。
仿真实验6:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在反向拉偏20%,测试本发明的制导网络在反向拉偏情况下对高度的跟踪效果,结果如图10所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线,根据图10可计算出本发明的制导网络在反向拉偏情况下的终端高度制导精度为2.9%。
仿真实验7:
在上述仿真条件下,将本发明中每个离散时间步的气动系数在[-20%,0]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明的制导网络在反向随机拉偏的复杂环境情况下对高度的跟踪效果,结果如图11所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线,根据图11可计算出本发明的制导网络在反向随机拉偏的复杂情况下的终端高度制导精度为2.4%。
仿真实验8:
在上述仿真条件下,将本发明中每个离散时间步的气动系数在[-20%,0]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明飞行器在反向随机拉偏的复杂环境下追踪高度的难易程度,结果如图12所示。从图12可见,本发明的奖励曲线在-1000到-1025 之间波动,轨迹末端的奖励略有上升,表示本发明中在反向随机拉偏的复杂情况下飞行器在轨迹末端的跟踪难度较小。
从上述随机拉偏条件下的仿真实验可以看出,本发明所提出的方案对在飞行器处于复杂环境下时对高度的跟踪效果好、精度高,且训练得到的制导网络能够较好地适应气动参数偏差。
Claims (8)
1.一种基于强化学习算法的飞行器再入跟踪制导方法,其特征在于,包括如下步骤:
(1)将飞行器再入段轨迹优化描述为由数学模型、边界条件、容许控制、性能指标、过程约束构成的连续最优控制问题P0;
(2)对P0进行更换形式、松弛变量、软化约束、逐次线性化方法的凸化处理,得到序列凸最优控制问题P1,采用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2;
(3)采用内点法求解序列二阶锥规划问题P2,得最优参考轨迹;
(4)对最优参考轨迹进行采样得到参考轨迹训练数据集;
(5)构建神经网络Actor网络:
(5a)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;
(5b)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;
(5c)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;
(6)构建神经网络Critic网络:
(6a)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;
(6b)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_target输出的攻角增量指令,该第四输出层输出信息为智能体下一状态采取指令后产生的目标累计奖励;
(6c)将价值评估子网络Critic_eval网络和价值目标子网络Critic_target网络并联,构成Critic网络,用于接受经验回放池的状态信息和Actor网络输出的攻角增量指令信息,并输出智能体采取指令后产生的累计奖励信息;
(7)设计Actor网络和Critic网络的奖励函数R均为:
R=R1+R2,其中R1为目标奖励,R2为约束奖励;
(8)利用(4)中所得到的参考轨迹训练数据集使用深度确定性策略梯度算法DDPG,对Actor网络和Critic网络进行并行离线训练,当智能体的累计奖励收敛于一个最大值时,得到训练好的制导网络;
(9)在线获取飞行器再入段制导指令并实时跟踪:
飞行器在飞行期间,机载计算机读取飞行器导航系统测得的实时飞行状态量,将实时飞行的状态量作为制导网络的输入进行前向传播,得到实时的制导指令;飞行器根据指令将产生攻角变化,实时跟踪预定高度曲线。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中连续最优控制问题P0表示为:
其中,f1为状态微分方程,表示为:
3.据权利要求1所述的方法,其特征在于:步骤(2)中得到的序列凸最优控制问题P1,表示为:
s.t.x′=A(x(k))x+B(x(k))u+b(x(k))
|x(e)-x(k)(e)|≤δ
其中,u=[u1,u2]=[cosσ,sinσ]表示控制量,r、V分别为无量纲的地心距、速度,J表示连续最优控制问题的性能指标,x表示飞行器的五个状态变量,表示飞行器的无量纲初状态,e表示飞行器所具有的无量纲能量,e0和ef分别表示飞行器的初末无量纲能量,θ、φ分别为经度和纬度,γ为航迹角,ψ为航向角,σ为倾侧角,σmin和σmax分别为倾侧角的下限和上限,分别表示经度和纬度的松弛变量,上标的(k)表示变量处于第k次迭代中,k表示迭代计数,A(x(k))、B(x(k))分别表示状态量和控制量的系数矩阵,b(x(k))表示余矢量矩阵,cθ、分别表示经度和纬度的惩罚系数,c1、c0分别表示性能指标逐次线性化过程中关于无量纲地心距r的一阶项和余项,εψ表示航向角正则化项系数,δ表示信赖域约束向量,表示凸化后的过程约束,ωl、ωh分别表示倾侧角上限和下限对应的余弦值,分别表示飞行器末状态的无量纲地心距、经度、纬度、航迹角和航向角。
4.据权利要求1所述的方法,其特征在于:步骤(2)中用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2表示为:
其中,u=[u1,u2]=[cosσ,sinσ]表示控制量,r、V分别为无量纲的地心距、速度,J表示连续最优控制问题的性能指标,x表示飞行器的五个状态变量,表示飞行器的无量纲初状态,e表示飞行器所具有的无量纲能量,e0和ef分别表示飞行器的初末无量纲能量,θ、φ分别为经度和纬度,γ为航迹角,ψ为航向角,σ为倾侧角,σmin和σmax分别为倾侧角的下限和上限,分别表示经度和纬度的松弛变量,上标的(k)表示变量处于第k次迭代中,k表示迭代计数,A(x(k))、B(x(k))分别表示状态量和控制量的系数矩阵,b(x(k))表示余矢量矩阵,cθ、分别表示经度和纬度的惩罚系数,c1、c0分别表示性能指标逐次线性化过程中关于无量纲地心距r的一阶项和余项,εψ表示航向角正则化项系数,δ表示信赖域约束向量,表示凸化后的过程约束,ωl、ωh分别表示倾侧角上限和下限对应的余弦值,分别表示飞行器末状态的无量纲地心距、经度、纬度、航迹角和航向角,n=0,1,2...N+1表示每一个离散点,m=1,2,3...N表示每一个LG点,N表示表示选取的LG点数,w表示每一个LG点对应的积分权重,Di表示基函数在LG点的导数。
5.据权利要求1所述的方法,其特征在于:步骤(3)采用内点法求解序列二阶锥规划问题P2,实现如下:
若不满足,则令x(k)=x(k+1),返回(3b);
6.据权利要求1所述的方法,其特征在于:Actor网络和Critic网络中的隐藏层均包含100个神经元,且隐藏层的激活函数均使用relu函数,输出层均使用tanh函数。
8.据权利要求1所述的方法,其特征在于:步骤(8)中使用DDPG算法对Actor网络和Critic网络进行并行离线训练,实现如下:
(8a)参数初始化:
随机初始化Actor_eval网络参数θμ、Actor_target网络参数θμ′;
随机初始化Critic_eval网络参数θQ、Critic_target网络参数θQ′;
初始化训练过程的相关超参数:设置目标网络代替更新频率参数为τ、目标网络更新周期回合数T、经验回放池大小为M、每个时间步从经验回放池采样得到的转移过程总数为batch、奖励折扣率为λ;
(8b)使用马尔科夫决策过程MDP模型描述智能体的单步状态转移过程,即智能体接收到当前环境状态信息St,依据St执行攻角增量αt动作之后转移至新环境状态St+1,同时智能体接收到一个标量奖励Rt+1;
(8c)将(8b)中的单步转移过程以(St,at,Rt+1,St+1)的形式存储进经验回放池;
其中,St表示当前时刻状态、at表示当前时刻采取的攻角增量动作、Rt+1表示执行动作之后得到的奖励值、St+1表示下一时刻状态;
(8d)每次训练的过程中,都从经验回放池中随机抽取一些样本输入进Actor网络和Critic网络中,通过性能指标的策略梯度最大化累计奖励来更新Actor网络中的Actor_eval子网络参数,通过最小化当前累计奖励与目标累计奖励的均方误差来更新Critic网络中的Critic_eval子网络参数,每过T回合根据τ进行加权更新Actor网络中的Actor_target子网络参数和Critic网络中的Critic_target子网络参数;
(8e)重复步骤(8d),当智能体的累计奖励收敛于一个最大值时,得到训练好的制导网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211130234.9A CN115437406A (zh) | 2022-09-16 | 2022-09-16 | 基于强化学习算法的飞行器再入跟踪制导方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211130234.9A CN115437406A (zh) | 2022-09-16 | 2022-09-16 | 基于强化学习算法的飞行器再入跟踪制导方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115437406A true CN115437406A (zh) | 2022-12-06 |
Family
ID=84248410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211130234.9A Pending CN115437406A (zh) | 2022-09-16 | 2022-09-16 | 基于强化学习算法的飞行器再入跟踪制导方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115437406A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116520281A (zh) * | 2023-05-11 | 2023-08-01 | 兰州理工大学 | 一种基于ddpg的扩展目标跟踪优化方法和装置 |
CN116738923A (zh) * | 2023-04-04 | 2023-09-12 | 暨南大学 | 一种基于带约束强化学习的芯片布局优化方法 |
CN117234070A (zh) * | 2023-11-13 | 2023-12-15 | 西安现代控制技术研究所 | 一种基于角度控制指令的btt分配方法 |
CN117289709A (zh) * | 2023-09-12 | 2023-12-26 | 中南大学 | 基于深度强化学习的高超声速变外形飞行器姿态控制方法 |
CN117518836A (zh) * | 2024-01-04 | 2024-02-06 | 中南大学 | 变体飞行器鲁棒深度强化学习制导控制一体化方法 |
-
2022
- 2022-09-16 CN CN202211130234.9A patent/CN115437406A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738923A (zh) * | 2023-04-04 | 2023-09-12 | 暨南大学 | 一种基于带约束强化学习的芯片布局优化方法 |
CN116738923B (zh) * | 2023-04-04 | 2024-04-05 | 暨南大学 | 一种基于带约束强化学习的芯片布局优化方法 |
CN116520281A (zh) * | 2023-05-11 | 2023-08-01 | 兰州理工大学 | 一种基于ddpg的扩展目标跟踪优化方法和装置 |
CN116520281B (zh) * | 2023-05-11 | 2023-10-24 | 兰州理工大学 | 一种基于ddpg的扩展目标跟踪优化方法和装置 |
CN117289709A (zh) * | 2023-09-12 | 2023-12-26 | 中南大学 | 基于深度强化学习的高超声速变外形飞行器姿态控制方法 |
CN117234070A (zh) * | 2023-11-13 | 2023-12-15 | 西安现代控制技术研究所 | 一种基于角度控制指令的btt分配方法 |
CN117234070B (zh) * | 2023-11-13 | 2024-03-19 | 西安现代控制技术研究所 | 一种基于角度控制指令的btt分配方法 |
CN117518836A (zh) * | 2024-01-04 | 2024-02-06 | 中南大学 | 变体飞行器鲁棒深度强化学习制导控制一体化方法 |
CN117518836B (zh) * | 2024-01-04 | 2024-04-09 | 中南大学 | 变体飞行器鲁棒深度强化学习制导控制一体化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115437406A (zh) | 基于强化学习算法的飞行器再入跟踪制导方法 | |
Li et al. | Stochastic gradient particle swarm optimization based entry trajectory rapid planning for hypersonic glide vehicles | |
Han et al. | Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles | |
Shahbazi et al. | Robust constrained attitude control of spacecraft formation flying in the presence of disturbances | |
Jin et al. | Development and validation of linear covariance analysis tool for atmospheric entry | |
Xu et al. | Adaptive neural control of a hypersonic vehicle in discrete time | |
Qin et al. | Robust parameter dependent receding horizon H∞ control of flexible air‐breathing hypersonic vehicles with input constraints | |
Tang et al. | Model predictive control of hypersonic vehicles accommodating constraints | |
Bu et al. | Robust tracking control of hypersonic flight vehicles: A continuous model-free control approach | |
Wang et al. | Optimal trajectory-tracking guidance for reusable launch vehicle based on adaptive dynamic programming | |
CN114721261A (zh) | 一种火箭子级姿态翻转着陆在线制导方法 | |
CN113377121A (zh) | 一种基于深度强化学习的飞行器智能抗扰动控制方法 | |
Peng et al. | Research on hover control of AUV uncertain stochastic nonlinear system based on constructive backstepping control strategy | |
Kim et al. | TOAST: trajectory optimization and simultaneous tracking using shared neural network dynamics | |
Hu et al. | Integrated fault‐tolerant control system design based on continuous model predictive control for longitudinal manoeuvre of hypersonic vehicle with actuator faults | |
CN114611416A (zh) | 导弹非线性非定常气动特性ls-svm建模方法 | |
Zheng et al. | Constrained trajectory optimization with flexible final time for autonomous vehicles | |
Baier et al. | Hybrid physics and deep learning model for interpretable vehicle state prediction | |
Zhang et al. | On-line ascent phase trajectory optimal guidance algorithm based on pseudo-spectral method and sensitivity updates | |
Cui et al. | Finite‐time trajectory tracking control for autonomous airships with uncertainties and external disturbances | |
CN115390456A (zh) | 基于神经网络的飞行器再入段轨迹优化方法 | |
CN116620566A (zh) | 非合作目标附着多节点智能协同制导方法 | |
Zhao et al. | Endoatmospheric ascent optimal guidance with analytical nonlinear trajectory prediction | |
CN113985732B (zh) | 针对飞行器系统的自适应神经网络控制方法及装置 | |
Tang et al. | Trajectory Tracking Control for Fixed-Wing UAV Based on DDPG |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |