CN114237268A - 一种基于深度强化学习的无人机强鲁棒姿态控制方法 - Google Patents
一种基于深度强化学习的无人机强鲁棒姿态控制方法 Download PDFInfo
- Publication number
- CN114237268A CN114237268A CN202111398855.0A CN202111398855A CN114237268A CN 114237268 A CN114237268 A CN 114237268A CN 202111398855 A CN202111398855 A CN 202111398855A CN 114237268 A CN114237268 A CN 114237268A
- Authority
- CN
- China
- Prior art keywords
- aircraft
- neural network
- attitude
- model
- angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 claims abstract description 68
- 238000013531 bayesian neural network Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 230000000694 effects Effects 0.000 claims abstract description 15
- 230000009471 action Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims 2
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000002054 transplantation Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 230000005653 Brownian motion process Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
- G05D1/0816—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
- G05D1/0833—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using limited authority control
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于深度强化学习的无人机强鲁棒姿态控制方法,提出利用贝叶斯概率模型更好地模拟真实飞行环境中的干扰与不确定性,将拟合的飞行器动力学模型作为基于DDPG算法的强化学习框架的输入,并通过与飞行器数字模型随机抽取以及飞行器真实飞行数据采集的多样的飞行数据交互更新神行网络参数;输出为飞行器舵机构,包括方向舵、升降舵以及副翼。本发明的贝叶斯神经网络能够提高飞行器模型的精确度,使之更加逼近真实飞行环境;并基于神经网络的控制系统能够利用泛化能力提高在飞行器在各种干扰环境下的控制效果;而且离线训练完成的控制器能够快速移植到各种机载平台,具有很高的实用价值。
Description
技术领域
本发明属于无人机姿态控制技术领域,涉及一种基于深度强化学习的无人机强鲁棒姿 态控制方法。
背景技术
近年来,固定翼无人机控制技术趋于成熟。传统的无人机姿态控制系统,如PID/滑模控制及其优化变量等方法,在许多仅处于稳定状态的情况下,都表现出了优异的性能。例如:CN113485437A使用神经网络调节PID参数以适应不同飞行环境,但当无人机处于 动态变化环境中时控制器将出现抖动甚至发散;CN111857171B利用状态方程构造神经网 络求解最优解,但在某些非线性的复杂环境中对于惯性强对象时控制效果欠佳;CN113359440A利用隐式动力学将无人机控制问题转化为求解时变二阶系统的控制输入 参数,但该方法理论复杂,计算量大,且当环境出现强烈时变特性时,控制效果可能产生 严重的滞后震荡现象。因此,多数传统控制均算法基于数字六自由度模型设计控制器,但 由于数字模型与真实环境之间存在环境误差,传统算法的可迁移性以及控制效果大打折扣。
随着任务复杂性的增加、恶劣多变的环境以及无人机参数的变化(机身故障、有效载 荷、电压下降等),无人机控制系统仍然需要更加智能化,这意味着控制器需要在参数或环境是不确定的飞行环境中实现对无人机的稳定控制以确保控制器的鲁棒性。
发明内容
本发明解决的问题在于提供一种基于深度强化学习的无人机强鲁棒姿态控制方法,利 用深度强化学习框架与贝叶斯神经网络概率动力学模型结合实现对于固定翼无人机飞行 姿态的强鲁棒控制。
本发明是通过以下技术方案来实现:
一种基于深度强化学习的无人机强鲁棒姿态控制方法,包括以下操作:
1)采集飞行器飞行数据及仿真飞行数据,其中包括飞行器状态st与动作at对应状态 st+1的数据流;
在真实飞行数据与仿真飞行数据中分别加入设定权重,构成飞行器的数字模型;
然后将将数字模型中飞行器各状态量归一化预处理为0~1之间的无量纲数值;
2)将预处理之后的飞行器数字模型作为贝叶斯神经网络的输入,随机初始化网络权 重分布,由其拟合引入环境不确定性的飞行器动力学模型;
3)将拟合的飞行器动力学模型作为基于DDPG算法的强化学习框架的输入,并通过与飞行器数字模型随机抽取以及飞行器真实飞行数据采集的多样的飞行数据交互更新神行网络参数;输出为飞行器舵机构,包括方向舵、升降舵以及副翼;
其中,飞行器姿态控制器的训练任务通过控制舵偏角及力矩使得飞行器的姿态角到达 预设的目标值且保持稳定;奖励函数设置为:
4)在基准模型中训练收敛后,使用离线控制器测试神经网络控制模型测试在标称状 态、飞行包络外姿态初始化、固定突变干扰、高斯噪声干扰以及ou噪声干扰下的控制效果。
所述飞行器的数字模型中,真实飞行数据数量初始权重为0.9,数字模型数量权重为 0.1,随着神经网络训练时长的增加,真实飞行数据权重值递减至0.1,数字模型采集权重 值增大至0.9;
还采用min-max归一化方法,将数字模型中包括实时位置信息、速度信息、相对距离在内的数据整合为无量纲标量。
所述飞行器数字模型作为贝叶斯神经网络的输入,其包括飞行器状态与执行机构的以 下变量:飞行器状态包括滚转角,俯仰角、偏航角以及对应的角速度;飞行器执行机构为 三个气动舵机构;
贝叶斯神经网络拟合后的输出为下一时刻飞行器各状态量的增量,即下一时间步后姿 态角与姿态角速度的增量;
所述真实飞行数据,由飞手随机操作生成;
仿真飞行数据,基于数字模型采集20000条数据流,执行机构指令均在约束范围内; 攻角和侧滑角为小量,都设为定值:α=1°,β=1°。
所述的贝叶斯神经网络为双层各64节点的小型贝叶斯神经网络,其搭建包括以下操 作:
21)提取神经网络参数,包括各节点中权重与偏置构成的高斯分布模型以及神经网络 层数和各层神经元个数;
22)构造双层神经网络,每层神经元个数为64;
23)将神经网络参数导入双层神经网络;神经网络在层与层之间均采用ReLU激活函 数,神经网络梯度下降采用Adam优化器来优化神经网络;并采用dropout正则化拟合现象的发生;
23)飞行器各通道姿态与期望姿态指令的差构成输入数据向量,控制模型产生飞行器 执行机构,即三个控制舵的控制指令。
所述对DDPG算法结构的部分参数做出调整:扩大经验池容量R以使初期探索更加充分;减小学习率使算法不易收敛至较差的局部最优;减小软更新参数τ使网络参数θ配 合较小的学习率缓慢变化。
所述将DNN神经网络构建的姿态控制器的输入参数设置为误差量能够提高模型的泛 化能力,训练单个目标状态至收敛后,神经网络能够在训练数据包含的飞行包络中实现全 局收敛;训练完成后的神经网络模型将直接开环对飞行器姿态进行控制。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供的基于深度强化学习的无人机强鲁棒姿态控制方法,提出了利用贝叶斯神 经网络(BNN),将切向风、飞行器执行机构误差等环境误差引入基于强化学习的飞行器 姿态控制决策序列(马尔科夫决策链),模拟真实飞行环境中的不确定性,使得之后的学习、训练更贴近于真实环境,克服数字模型与真实环境之间存在环境误差;
进一步,本发明将深度强化学习框架与贝叶斯神经网络概率动力学模型结合,利用强 化学习交互框架构建飞行姿态与执行机构的端到端的动态映射关系,每一组[滚转、俯仰、 偏航]飞行器姿态误差对应一组飞行器舵机构[副翼、升降舵、方向舵]的数值指令以消除姿 态误差;
本发明通过强化学习交互框架端对端的解决飞行器姿态控制问题,不考虑飞行器模型 本身的运行方式,只关心控制端到姿态端的直观数据,并不对模型本身为基础做任何求解 性质的处理计算,能够弱化模型耦合带来的控制器量化问题,利用神经网络的泛化能力提 升控制效果。
本发明提高了控制器在环境不确定情形下的适应能力和响应速度,拓展飞行包络以适 应更加复杂的飞行任务。
附图说明
图1为本发明的流程示意图;
图2为贝叶斯神经网络示意图;
图3为数字模型构建示意图;
图4为动作策略网络添加噪声示意图;
图5为DDPG算法示意图;
图6a为标称模型下姿态角变化曲线,图6b为标称模型下角速度变化曲线;
图7a为大初始角度姿态角变化曲线,图7b为大初始角度角速度变化曲线;
图8a为常值噪声干扰下姿态角变化曲线,图8b为常值噪声干扰下角速度变化曲线;
图9a为高斯噪声干扰下姿态角变化曲线,图9b为高斯噪声干扰下角速度变化曲线;
图10a为OU噪声干扰下姿态角变化曲线,图10b为OU噪声干扰下角速度变化曲线;
图11a为气动参数扰动时姿态角变化曲线,图11b为气动参数扰动时角速度变化曲线。
具体实施方式
下面结合实施例对本发明做进一步详细描述,所述是对本发明的解释而不是限定。
本发明提供了一种基于深度强化学习的无人机强鲁棒姿态控制方法,包括以下操作:
1)采集飞行器飞行数据及仿真飞行数据,其中包括飞行器状态st与动作at对应状态 st+1的数据流;
在真实飞行数据与仿真飞行数据中分别加入设定权重,构成飞行器的数字模型;
然后将将数字模型中飞行器各状态量归一化预处理为0~1之间的无量纲数值;
2)将预处理之后的飞行器数字模型作为贝叶斯神经网络的输入,随机初始化网络权 重分布,由其拟合引入环境不确定性的飞行器动力学模型;
3)将拟合的飞行器动力学模型作为基于DDPG算法的强化学习框架的输入,并通过与飞行器数字模型随机抽取以及飞行器真实飞行数据采集的多样的飞行数据交互更新神行网络参数;输出为飞行器舵机构,包括方向舵、升降舵以及副翼;
其中,飞行器姿态控制器的训练任务通过控制舵偏角及力矩使得飞行器的姿态角到达 预设的目标值且保持稳定;奖励函数设置为:
4)在基准模型中训练收敛后,使用离线控制器测试神经网络控制模型测试在标称状 态、飞行包络外姿态初始化、固定突变干扰、高斯噪声干扰以及ou噪声干扰下的控制效果。
下面对各部分进行详细的说明。
1、贝叶斯神经网络模拟真实飞行环境
a、本发明使用贝叶斯神经网络(BNN)拟合飞行器动力学模型,通过利用BNN的 不确定性量化能力将确定的六自由度模型概率化,模拟真实飞行环境中的不确定性。
贝叶斯神经网络是利用高斯分布为神经网络的权重引入不确定性进行正则化,集成各 节点权重分布上的无穷多组神经网络进行预测,该模型能够使设计的控制器的控制效果更 加贴近真实环境,以便于将训练好的离线控制器迁移至嵌入式等平台并保持强鲁棒性能。
b、采集飞行器飞行数据,即飞行器状态st与动作at对应状态st+1的数据流。
由于真机数据有限,无法完整描述飞行器状态转换关系,因此本发明引入飞行器参数 相同的数字模型,在真实飞行数据与仿真数据中分别加入不同的权重:真实飞行数据初始 权重为0.9,数字模型权重为0.1,随着神经网络训练的时长增加,真实飞行数据权重值递 减至0.1以避免出现网络过拟合现象,数字模型采集权重逐渐增大至0.9以增加数据多样 性;这样既能够补偿真实飞行数据的局限性,也能够保持数据的真实度,尽可能完整描述 飞行器状态转换过程。
c、数据预处理过程为:将飞行器姿态以及姿态角速度等状态变量根据变量自身变化 范围归一化为0~1之间的无量纲数据以便计算网络梯度。
d、使用全连接网络来拟合数据,相当于使用多个全连接网络。BNN把概率建模和神经网络结合起来,并能够给出预测结果的置信度。但是神经网络容易过拟合,泛化性差; 并且对预测的结果无法给出置信度。因此,先验预先得到的飞行数据将用来描述关键参数,并作为神经网络的输入。神经网络的输出用来描述特定的概率分布的似然,通过采样或者变分推断来计算后验分布。同时,和神经网络不同,贝叶斯神经网络权重不再是一个确定的值,而是一个概率分布。
神经网络在层与层之间均采用ReLU激活函数,神经网络梯度下降采用Adam优化器来优化神经网络。由于数据集较大,所以神经网络采用dropout正则化来防止过拟合现象的发生。为避免网络梯度的爆炸风险,采用min-max归一化方法,将实时位置信息、速 度信息、相对距离等数据输入整合为无量纲标量。
本发明采用双层神经网络,每层神经元个数为64。随机初始化网络权重分布,拟合真实飞行环境。
2、深度强化学习框架
DDPG(Deep Deterministic Policy Gradient)算法使用Actor-Critic结构,采用神经网 络来表示策略网络和评价网络,但其策略网络输出的是一个确定的动作,而不是值函数, 并且输出的动作是一个连续量。
Actor来选择动作,Critic判断选择的动作是否合适。在这一过程中Actor不断迭代, Critic也不断迭代,设θμ为策略网络Actor的神经网络参数,θQ为评价网络Critic的神经 网络参数,根据策略梯度更新Actor的参数:
其中,N为批处理数量,Q(s,a|θQ)为状态s下选择动作a的动作值函数,μ(s|θμ)为动作策略网络,μ输出的动作;
策略网络和评价网络都各自由两个神经网络组成,设Actor和Critic的目标网络参数 分别为μ′和Q′,Critic的更新参数以及损失函数为:
Actor和Critic的目标网路和现实网络的参数更新采用软更新的方式:
其中τ为更新速率,由于是软更新,所以τ一般设置为靠近0的数,这样目标网络的参数 θ在每次训练的时候不会发生太大的变化,只会受训练模型的小幅影响。
另外DDPG算法采用的是离线学习(off-policy)方法,针对连续动作控制问题,需要 给初始动作策略添加噪声来进行探索,探索噪声示意图如图4,范围更广的探索过程可以 使得应用DDPG算法的智能体在训练初期尝试更多的动作来获取有效的学习反馈。
DDPG算法常采用呈正态分布的高斯噪声ε~N(0,σ2),这种方法简单易行,添加高斯噪声后的执行策略为:
πθ,new(st)=πθ(st)+N(πθ(st),σ2) (4)
Ornstein-Uhlenbeck噪声为一种新的随机噪声,也称OU过程。OU过程是一种贯序相 关的过程,特别适合于惯性系统,尤其是时间离散化粒度较小的情况。OU noise是自相关的,后一步的噪声受前一步的影响,可以提高在惯性系统中的控制任务的探索效率。
OU过程满足如下微分方程:
dxt=-θ(xt-μ)dt+σdWt (5)
其中μ为均值,θ>0,σ>0均为参数,Wt为维纳过程,也是服从高斯分布的。
设置噪声随着训练回合数的增加而不断减小,训练前期的探索幅度会大一点,在后期 会回归正常的DDPG探索过程,添加噪声后的动作μnew为:
μnew(st)=μ(st)+Nt (6)
整个DDPG的算法流程图如图5所示;
其中,神经网络超参数设置如表1所示。
表1 DDPG参数设置
姿态控制模型的状态参数依旧为三个姿态角及三个转动角速度,动作参数为三个舵偏角 (δx,δy,δz)考虑到飞行器的控制舵偏实际偏转限幅,将动作参数的取值范围设为(-18°,18°)。
3、奖励函数的设定及归一化
飞行器姿态控制器的最终训练任务是通过控制舵偏角及力矩使得飞行器的姿态角到 达预设的目标值且保持稳定,理论上的奖励函数应该为:
其中eps是设定的误差精度,rd为达到姿态角精度之后的正数奖励值,si+1和sd分别为当 前状态和期望状态。
但是考虑到稀疏奖励是不利于强化学习算法的,且实际训练过程中确实无法收敛。所 以给奖励函数添加一个连续的单步回报,设置为当前姿态角与目标姿态角误差值的绝对值 之和,添加负号作为惩罚项:
合适的奖励函数是DDPG算法能够成功收敛的前提。由于奖励函数直接参与评估网络 的梯度更新,因此奖励函数的数值解限幅将影响神经网络的更新收敛速度。
在工程实践中通常采用归一化处理的方式对原始数据进行预处理,在进行归一化之前, 首先要对状态参数以及控制参数进行合理的限幅,具体的数值如表2所示。
表2状态参数限幅
参数 | 参数意义 | 参数大小或范围 | 参数单位 |
(ω<sub>min</sub>,ω<sub>max</sub>) | 角速度范围 | (-180,180) | 度 |
(θ<sub>min</sub>,θ<sub>max</sub>) | 姿态角限幅范围 | (-180,180) | 度/秒 |
利用状态参数的最大值来进行奖励函数的归一化,使得单步奖励回报处于0到1的范 围,以避免神经网络梯度爆炸的问题。归一化后的单步奖励如下:
完整的奖励函数为:
其中eps是设定的误差精度,rd为达到姿态角精度之后的正数奖励值,si+1和sd分别为当 前状态和期望状态。
4、神经网络移植
神经网络控制器相对于传统实时解算方法的优势在于利用真实飞行数据拟合收敛的 神经网络具有强大的泛化性能,该特性能够帮助控制器适应突发状况,保证在恶劣环境下 的稳定控制。另外,大多传统控制模型在仿真环境中表现良好,但由于真实世界与数字模 拟环境存在真实偏差,且实时计算复杂,无法实现快速移植。
下面给出具体的实施例。
本发明使用的贝叶斯神经网络利用多维高斯分布原理将环境不确定性纳入控制器的 长期规划中以便于实现快速在嵌入式等机载平台中搭建且保持良好的控制效果。
本发明采用双层各64节点的小型贝叶斯神经网络,能够便于多种嵌入式芯片快速移 植。具体做法是:
■提取离线训练好的神经网络参数,包括各节点中权重与偏置构成的高斯分布模型 以及神经网络层数和各层神经元个数;
■利用C语言构造相同的双层神经网络;
■导入神经网络参数;
■根据飞行器姿态以及姿态指令生成输入数据,控制模型产生执行机构的控制指令;
■将该过程打包为模块嵌入飞控系统。
真实飞行数据与数字模型的权重分别设置为0.7,0.3;构建双层贝叶斯神经网络模型。 模型参数以及超参数设置如表3所示。
表3贝叶斯神经网络结构参数
贝叶斯神经网络的输入设置为飞行器状态与执行机构共9个变量。其中,飞行器状态 选择为滚转角,俯仰角、偏航角以及对应的角速度;飞行器执行机构为三个气动舵机构。网络输出为下一时刻飞行器各状态量的增量,即下一时间步后姿态角与姿态角速度的增量。
原始数据为采集到的真实飞行数据,约为40000条,飞行轨迹由飞手随机操作生成; 仿真数字模型采集20000条数据流,执行机构指令均在约束范围内。取气动参数如表5-2 所示,为了简化模型,考虑到攻角和侧滑角为小量,都设为定值:α=1°,β=1°。其余的 飞行器的飞行状态参数设置具体见表4、表5。
表4飞行器的气动参数设置
表5飞行器的飞行状态参数设置
参数 | 参数意义 | 参数大小或范围 | 参数单位 |
J | 飞行器转动惯量 | diag(73038,157925,252272) | kg·m<sup>2</sup> |
Mach | 飞行马赫数 | 5 | 马赫 |
H | 飞行高度 | 12000 | 米 |
S | 参考面积 | 49.42 | 平方米 |
L | 平均气动弦长 | 5.02 | 米 |
姿态控制模型的状态参数为三个姿态角误差及三个转动角速度,算法的动作参数为三 个舵偏角(δx,δy,δz),考虑到飞行器的控制舵偏实际偏转限幅,将动作参数的取值范围设 为(-18°,18°)。
由于强化学习框架通过与多样的飞行数据交互更新神行网络参数,因此将输入参数设 置为误差量能够提高模型的泛化能力,只需要训练单个目标状态至收敛后,神经网络就能 够在训练数据包含的飞行包络中实现全局收敛。而训练完成后的神经网络模型将直接开环 对飞行器姿态进行控制,则无需搭建DDPG框架再次训练。
由于力矩表达式存在角速度及舵偏角的耦合项,对DDPG算法结构的部分参数做出调 整:扩大经验池容量R以使初期探索更加充分;减小学习率使算法不易收敛至较差的局部最优;减小软更新参数τ使网络参数θ配合较小的学习率缓慢变化。调整之后的DDPG 算法参数及神经网络参数如表6、表7所示:
表6舵偏控制训练模型DDPG参数设置
参数 | 数值 |
输入层状态维度 | 6 |
输出层动作维度 | 3 |
累积回报折扣因子γ | 0.99 |
经验池大(Memorysize) | 80000 |
批次训练样(Batchsize) | 64 |
表7舵偏控制训练模型神经网络参数设置
训练收敛后,使用离线控制器测试神经网络控制模型测试在标称状态、飞行包络外姿 态初始化、固定突变干扰、高斯噪声干扰以及ou噪声干扰下的控制效果。
验证在不同干扰环境下基准控制器的控制效果,如图6a-11图b所示,测试结果说明 利用基准模型训练出来的神经网络控制器能够在不同干扰环境下泛化控制效果,快速跟随 姿态指令,该控制器具有较强的鲁棒性。
综上,本发明提出的基于深度强化学习框架的飞行器姿态控制算法利用贝叶斯概率模 型能够更好地模拟真实飞行环境中的干扰与不确定性,比起只粗略考虑大气环境并忽略飞 行器自身机械结构误差的飞行器数字模型,贝叶斯神经网络能够提高飞行器模型的精确度, 使之更加逼近真实飞行环境;并基于神经网络的控制系统能够利用泛化能力提高在飞行器 在各种干扰环境下的控制效果;而且离线训练完成的控制器能够快速移植到各种机载平台, 具有很高的实用价值。
以上给出的实施例是实现本发明较优的例子,本发明不限于上述实施例。本领域的技 术人员根据本发明技术方案的技术特征所做出的任何非本质的添加、替换,均属于本发明 的保护范围。
Claims (6)
1.一种基于深度强化学习的无人机强鲁棒姿态控制方法,其特征在于,包括以下操作:
1)采集飞行器飞行数据及仿真飞行数据,其中包括飞行器状态st与动作at对应状态st+1的数据流;
在真实飞行数据与仿真飞行数据中分别加入设定权重,构成飞行器的数字模型;
然后将将数字模型中飞行器各状态量归一化预处理为0~1之间的无量纲数值;
2)将预处理之后的飞行器数字模型作为贝叶斯神经网络的输入,随机初始化网络权重分布,由其拟合引入环境不确定性的飞行器动力学模型;
3)将拟合的飞行器动力学模型作为基于DDPG算法的强化学习框架的输入,并通过与飞行器数字模型随机抽取以及飞行器真实飞行数据采集的多样的飞行数据交互更新神行网络参数;输出为飞行器舵机构,包括方向舵、升降舵以及副翼;
其中,飞行器姿态控制器的训练任务通过控制舵偏角及力矩使得飞行器的姿态角到达预设的目标值且保持稳定;奖励函数设置为:
其中eps是设定的误差精度,rd为达到姿态角精度之后的正数奖励值,si+1和sd分别为当前状态和期望状态;ψ,γ为当前姿态角,ψt,γt为目标姿态角,θmax为姿态角限幅最大值,θmin为姿态角限幅最小值;
4)在基准模型中训练收敛后,使用离线控制器测试神经网络控制模型测试在标称状态、飞行包络外姿态初始化、固定突变干扰、高斯噪声干扰以及ou噪声干扰下的控制效果。
2.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法,其特征在于,所述飞行器的数字模型中,真实飞行数据数量初始权重为0.9,数字模型数量权重为0.1,随着神经网络训练时长的增加,真实飞行数据权重值递减至0.1,数字模型采集权重值增大至0.9;
还采用min-max归一化方法,将数字模型中包括实时位置信息、速度信息、相对距离在内的数据整合为无量纲标量。
3.如权利要求1或2所述的基于深度强化学习的无人机强鲁棒姿态控制方法,其特征在于,所述飞行器数字模型作为贝叶斯神经网络的输入,其包括飞行器状态与执行机构的以下变量:飞行器状态包括滚转角,俯仰角、偏航角以及对应的角速度;飞行器执行机构为三个气动舵机构;
贝叶斯神经网络拟合后的输出为下一时刻飞行器各状态量的增量,即下一时间步后姿态角与姿态角速度的增量;
所述真实飞行数据,由飞手随机操作生成;
仿真飞行数据,基于数字模型采集20000条数据流,执行机构指令均在约束范围内;攻角和侧滑角为小量,都设为定值:α=1°,β=1°。
4.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法,其特征在于,所述的贝叶斯神经网络为双层各64节点的小型贝叶斯神经网络,其搭建包括以下操作:
21)提取神经网络参数,包括各节点中权重与偏置构成的高斯分布模型以及神经网络层数和各层神经元个数;
22)构造双层神经网络,每层神经元个数为64;
23)将神经网络参数导入双层神经网络;神经网络在层与层之间均采用ReLU激活函数,神经网络梯度下降采用Adam优化器来优化神经网络;并采用dropout正则化拟合现象的发生;
23)飞行器各通道姿态与期望姿态指令的差构成输入数据向量,控制模型产生飞行器执行机构,即三个控制舵的控制指令。
5.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法,其特征在于,对DDPG算法结构的部分参数做出调整:扩大经验池容量R以使初期探索更加充分;减小学习率使算法不易收敛至较差的局部最优;减小软更新参数τ使网络参数θ配合较小的学习率缓慢变化。
6.如权利要求1所述的基于深度强化学习的无人机强鲁棒姿态控制方法,其特征在于,将DNN神经网络构建的姿态控制器的输入参数设置为误差量能够提高模型的泛化能力,训练单个目标状态至收敛后,神经网络能够在训练数据包含的飞行包络中实现全局收敛;训练完成后的神经网络模型将直接开环对飞行器姿态进行控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111398855.0A CN114237268A (zh) | 2021-11-24 | 2021-11-24 | 一种基于深度强化学习的无人机强鲁棒姿态控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111398855.0A CN114237268A (zh) | 2021-11-24 | 2021-11-24 | 一种基于深度强化学习的无人机强鲁棒姿态控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114237268A true CN114237268A (zh) | 2022-03-25 |
Family
ID=80750726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111398855.0A Withdrawn CN114237268A (zh) | 2021-11-24 | 2021-11-24 | 一种基于深度强化学习的无人机强鲁棒姿态控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114237268A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995468A (zh) * | 2022-06-06 | 2022-09-02 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
CN117707207A (zh) * | 2024-02-06 | 2024-03-15 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
-
2021
- 2021-11-24 CN CN202111398855.0A patent/CN114237268A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114995468A (zh) * | 2022-06-06 | 2022-09-02 | 南通大学 | 一种基于贝叶斯深度强化学习的水下机器人智能控制方法 |
CN117707207A (zh) * | 2024-02-06 | 2024-03-15 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
CN117707207B (zh) * | 2024-02-06 | 2024-04-19 | 中国民用航空飞行学院 | 基于深度强化学习的无人机对地目标跟踪与避障规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
Han et al. | Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles | |
CN111351488B (zh) | 飞行器智能轨迹重构再入制导方法 | |
Hu et al. | Fuzzy controller design of micro-unmanned helicopter relying on improved genetic optimization algorithm | |
Clarke et al. | Deep reinforcement learning control for aerobatic maneuvering of agile fixed-wing aircraft | |
CN114237268A (zh) | 一种基于深度强化学习的无人机强鲁棒姿态控制方法 | |
CN113759979B (zh) | 基于事件驱动的无人机吊挂系统在线轨迹规划方法 | |
CN113377121B (zh) | 一种基于深度强化学习的飞行器智能抗扰动控制方法 | |
Hu et al. | Proximal policy optimization with an integral compensator for quadrotor control | |
Dally et al. | Soft actor-critic deep reinforcement learning for fault tolerant flight control | |
CN111007724A (zh) | 一种基于区间ii型模糊神经网络的高超音速飞行器指定性能量化跟踪控制方法 | |
CN114003052B (zh) | 一种基于动态补偿系统的固定翼无人机纵向运动鲁棒自适应控制方法 | |
CN113885549B (zh) | 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法 | |
Elbatal et al. | Intelligent autopilot design based on adaptive neuro-fuzzy technique and genetic algorithm | |
Fletcher et al. | Improvements in learning to control perched landings | |
CN117289709A (zh) | 基于深度强化学习的高超声速变外形飞行器姿态控制方法 | |
Perez et al. | Neuro-evolutionary control for optimal dynamic soaring | |
Kwad et al. | Development of system identification from traditional concepts to real-time soft computing based | |
Ferdaus et al. | Redpac: A simple evolving neuro-fuzzy-based intelligent control framework for quadcopter | |
Wang et al. | Event-Triggered Finite-Time Fuzzy Tracking Control for a Time-Varying State Constrained Quadrotor System based on Disturbance Observer | |
Xian et al. | An Intelligent Attitude Control Method for UAV Based on DDPG Algorithm | |
Abouheaf et al. | An online reinforcement learning wing-tracking mechanism for flexible wing aircraft | |
Zhu et al. | A model-free flat spin recovery scheme for miniature fixed-wing unmanned aerial vehicle | |
Abozeid et al. | A Comprehensive Assessment to the Potential Of Reinforcement Learning In Dynamic Soaring | |
Ming et al. | Morphing aircraft acceleration and deceleration task morphing strategy using a reinforcement learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220325 |