CN112286218A - 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 - Google Patents
基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 Download PDFInfo
- Publication number
- CN112286218A CN112286218A CN202011585596.8A CN202011585596A CN112286218A CN 112286218 A CN112286218 A CN 112286218A CN 202011585596 A CN202011585596 A CN 202011585596A CN 112286218 A CN112286218 A CN 112286218A
- Authority
- CN
- China
- Prior art keywords
- aircraft
- angle
- depth
- rock
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000001629 suppression Effects 0.000 title claims description 14
- 238000005096 rolling process Methods 0.000 claims abstract description 33
- 239000011435 rock Substances 0.000 claims abstract description 26
- 230000002787 reinforcement Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000011217 control strategy Methods 0.000 claims abstract description 9
- 238000005070 sampling Methods 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 17
- 230000006399 behavior Effects 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 3
- 230000000452 restraining effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 9
- 230000005764 inhibitory process Effects 0.000 abstract description 7
- 238000005728 strengthening Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
- G05D1/0816—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability
- G05D1/0825—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft to ensure stability using mathematical models
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于深度确定性策略算法的飞行器大迎角摇滚抑制方法,包括搭建摇滚抑制问题强化学习环境和针对控制目标设计深度确定性策略智能体两部分,将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,根据滚转单自由度释放机构采集到的数据和智能体输送进来的舵机控制指令生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令。本发明采用深度确定性策略梯度方法,实现不依赖于模型的飞行器大迎角摇滚最优控制器设计。
Description
技术领域
本发明属于大迎角飞行控制技术领域,特别是一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。
背景技术
飞行器在大迎角机动情况下,非常容易产生摇滚非指令运动,对于细长三角翼而言(后掠角≥75°),通常表现为以零度滚转角为中心的极限环振荡,对于非细长三角翼而言(后掠角≤65°),摇滚通常伴随有非零滚转中心角。这种摇滚运动对于高机动飞行器而言非常危险,但是为了完成某些机动动作,有时候必须要进入大迎角区域。
飞行器大迎角情况下的气动特性表现出高度非定常非线性现象。一方面,由于其气动特性复杂,致使传统的基于精确模型的PID等控制方法在这一特定迎角范围控制效果表现糟糕;另一方面,在大迎角下,为飞行器建立精确的气动模型本身就是非常困难的一项工作,所以很多基于模型的现代先进控制设计方法,如鲁棒控制等,也因为这一问题难以开展。
发明内容
本发明基于深度确定性策略梯度,结合低速风洞实验,提出一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。
为实现上述目的,本发明采用的技术方案如下:一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,该方法包括:
通过虚拟飞行技术搭建强化学习环境:将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,将滚转单自由度释放机构采集到的数据作为观测量,将智能体输送进来的舵机控制指令作为动作量,基于观测量和动作量,计算此动作产生的奖励信号,并组合观测量,动作量以及奖励信号生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;
构建摇滚抑制深度确定性策略梯度算法智能体:在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令。
与现有技术相比,本发明的显著优点为:(1)常规的控制方法需要提供一个相对准确的动力学模型,在此基础上进行控制律的设计,而大迎角建模是一个很复杂的问题,本发明绕开了非线性气动力难以精确建模的困境,采用深度确定性策略梯度方法,实现不依赖于模型的飞行器大迎角摇滚最优控制器设计;(2)由于大迎角情况下,飞行器的动力学特性极度非线性,故其最优控制策略往往是关于观测量的非线性函数,本发明由于采用了神经网络来表达策略,神经网络具有表达任何一种非线性函数的能力,故智能体可以自学习出任何一种非线性的控制律。
附图说明
图1为风洞实验滚转单自由度释放机构示意图。
图2为强化学习环境结构示意图。
图3为针对摇滚抑制的DDPG算法流程图。
具体实施方式
将强化学习应用于解决飞行器大迎角非指令运动是新颖可行的思路,强化学习起源于生物对于自身行为的学习过程。生物通过对过往行为所获得回报的多少来评估自己行为的正确性,通过尝试和犯错学习正确的行为方式。对于生物来说,所处的世界一开始对于他们是未知的,但是它们却可以通过不断地尝试学会很多有益的行为。具体而言,一个典型的强化学习系统由两部分组成,一是智能体,二是环境。智能体并不是一个实体,可以把它理解为一个具有自学习功能的控制器,环境的动态特性对于智能体来说是未知的,但是智能体可以观测环境,并根据观测做出行动。在行动之后,智能体获得奖励,强化学习通过与环境的交互来学习,实现最大化累积奖励。强化学习完全通过数据来驱动最优(智能体长期累积奖励最大化)控制器的形成,所以说,强化学习为完全不依赖模型的最优控制器设计提供了一种思路。
本发明基于强化学习思想,利用深度确定性策略梯度算法,设计一种完全不依赖模型的摇滚抑制控制律设计方法,旨在抑制飞行器大迎角摇滚非指令运动。
一种基于深度确定性策略算法的飞行器大迎角摇滚抑制控制器设计方法,该方法包括:
通过虚拟飞行技术搭建强化学习环境:将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,将滚转单自由度释放机构采集到的数据作为观测量,将智能体输送进来的舵机控制指令作为动作量,基于观测量和动作量,根据自定义的合理的奖励信号,计算此动作产生的奖励信号,并组合观测量,动作量以及奖励信号生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;
构建摇滚抑制深度确定性策略梯度算法智能体:在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令,对飞行器模型的姿态数据产生影响。
进一步的,通过虚拟飞行技术搭建的强化学习环境中,观测量是一个四维向量,分别由滚转角、滚转角速度、侧滑角、侧滑角速度组成。
进一步的,通过虚拟飞行技术搭建的强化学习环境,奖励信号由四项组成,分别用于惩罚飞行器滚转角偏离零度的行为、惩罚飞行器控制量过大的行为、惩罚飞行器观测量或者控制量超出限定条件的行为以及奖励飞行器将滚转角控制在精度要求以内的行为。
进一步的,滚转单自由度释放机构上安装有高精度磁编码器,运营获取飞行器实时的滚转角和滚转角速度数据,并通过采集板卡传输到工作站;在安装时,滚转单自由度释放机构轴线的方向穿过飞行器模型的重心位置,飞行器实验模型上安装舵机用以控制飞行器的舵面。
进一步的,飞行器摇滚抑制深度确定性策略梯度算法智能体包括四个深度神经网络,其中,执行者和目标执行者网络以观测量为输入,以舵机控制量为输出,两个网络结构一致;评论者和目标评论者网络以观测量和舵机控制量的组合量为输入,以在当前时刻观测量、当前时刻策略及当前输出控制量条件下所估计的智能体未来累积折扣奖励值为输出,两个网络结构一致。
进一步的,摇滚抑制深度确定性策略梯度算法智能体,无需为飞行器建立任何模型,通过向强化学习环境输送舵机控制指令,产生经验数据,基于经验数据构造经验缓存区,用于学习最优控制策略,使得飞行器在采用执行者网络输出舵机控制指令的时候,能够获得最大化的长期累积折扣奖励。
所述强化学习环境基于搭建的硬件在环虚拟飞行技术实验平台。在低速风洞中,将飞行器缩比实验模型安装在带有高精度磁编码器的滚转单自由度释放机构上,将磁编码器与计算机上通过无线方式进行连接,实时获取状态观测量,并通过状态观测量和智能体输出的控制量数据,通过本发明中定义的深度确定性策略奖励形式,计算实时的奖励,将这些数据整合,存入到经验池之中,以供智能体学习更优的摇滚抑制策略;所述深度确定性策略智能体,在每一时间步上,从经验池采样特定大小的经验数据,基于监督式学习中的神经网络训练方式来训练智能体中的评论者网络和目标评论者网络,基于确定性策略梯度的方式来训练执行者网络和目标执行者网络,最终使执行者网络获取使得长期累积折扣奖励最大化的控制策略。本发明的优点:针对飞行器大迎角非线性气动力难以精确建模的困境,采用深度确定性策略梯度方法,实现不依赖于模型的飞行器大迎角摇滚最优控制器设计。
下面结合实施例对本发明进行详细说明。
实施例
本实施例提出一种飞行器大迎角摇滚抑制控制器的设计方法,包括:
(一)强化学习环境
在风洞中,将飞行器模型固定在滚转单自由度释放机构上,风洞实验滚转单自由度释放机构如图1所示,滚转单自由度释放机构上安装有高精度磁编码器,可以获取飞行器实时的滚转角和滚转角速度数据,并通过采集板卡传输到工作站。在安装时,自由度释放机构轴线的方向穿过飞行器模型的重心位置,飞行器实验模型上安装舵机用以控制飞行器的舵面。强化学习环境结构如图2所示。
对于强化学习中的环境而言,最关键的是要定义好观测空间O,以及奖励函数r。对于本实施例针对的大迎角摇滚抑制问题而言,定义t时刻的一组观测量为:,是t时刻飞行器的滚转角和滚转角速度,由磁编码器获得,是模型在风洞中的侧滑角和侧滑角速度,其数值由以下公式计算得到:
其中θ为模型的安装角度,在实验过程中保持不变。这里引入了这两个维度,是因为虽然我们最终的目标是使滚转角稳定在0度,但是在大迎角下飞行器的滚转气动特性和侧滑角存在很强的联系,这里引入这两个维度,相当于为算法注入了先验知识,这样做可以加快强化学习的过程。
另外定义奖励函数形式:
rt = r1t + r2t + r3t + r4t
r1t = a1*ϕt 2
r2t = a2*ut-1 2
r3t = a3*B
在r1t中,将a1设定为负数,用此项来惩罚模型滚转角度偏离零度的行为;在r2t中,将a2设定为负数,用此项来减少控制系统的控制代价,以保持控制系统的高效;在r3t中,定义一个布尔类型数据B,来确定模型是否超出所限定的边界,例如如果认为滚转角超过70°非常危险,可以规定B = |ϕt| > 70°,同时将a3设定为一个负值(其量级需针对具体问题进行调整),用来惩罚这种无法容忍的行为;在r4t中,我们定义了n个控制精度级别,分别对应n个布尔类型数据Bk, 用来提升控制器的控制精度,例如可以定义n精度= 2,B1 = |ϕt| < 0.5°,B2= |ϕt| < 0.1°,同时合理设定正数a4,1,a4,2,用来奖励飞行器滚转角进入这两个控制精度内的行为,从而将飞行器的滚转角限定在指定的精度范围内。
(二)深度确定性策略梯度智能体(DDPG Agent)
如图3所示,一个深度确定性策略梯度(DDPG)智能体包含四个深度神经网络,分别为执行者网络 (actor) ,目标执行者网络(target actor),评论家网络(critic),目标评论家网络(target critic)。和以状态观测量作为网络的输入,输出确定性的舵机控制量u,两个网络的结构相同;和以状态观测量和舵机控制量u的组合向量为输入,输出在观测量o采取控制u之后,未来将得到的折扣累加奖励的估计值,两个网络结构一致。
这里说明一下,之所以引入目标网络,是因为在强化学习中,已被证明,当训练的算法同时出现异策(off-policy)、自举(bootstrap)和函数近似的时候,无法保证收敛性。这里引入目标网络用于估计后续折扣奖励的累加和,即避免将学习到的评论家网络参数马上用于估计,这一方式稳定了算法。
DDPG智能体使用以下的训练算法,在每个时间步中更新四个神经网络的模型参数。
(2)对于每一个时间步,训练过程如下:
①对于现在的观测量o,根据u = μ(o) + N 选择动作,N是一个随机信号,这里加入N以促使智能体加强探索;
②执行动作u,得到回报r和下一时间步的观测量o’;
③把一组经验(o, u, r, o’) 保存在经验池(一个数据缓存区)中;
④从经验池中随机采样M组经验,M为神经网络单次训练的样本数;
⑤计算评论家网络训练的目标值yi(label),如果o’是终止状态(超出边界),把值函数目标yi设置为ri,否则将其设置为:,值函数的目标是经验中ri和未来长期累积奖励期望值之和,这里利用了强化学习中经典的自举(bootstrap)思想,注意这里的γ是一个折扣系数,0<γ<1,用来表示智能体的远见程度,越接近1代表智能体越重视长远的奖励,取为0则表示智能体只关注当前时刻的奖励。在计算时,首先把经验中的o’传给目标决策者网络μ'(o),由μ'(o)算出下一步的动作u’,这时候有了(o’, u’),然后将这一组数据传给目标评论家网络Q'(o,u),算出未来奖励累计和的估计值,这样值函数目标yi就算好了;
⑥针对M组经验数据,通过最小化损失L来更新评论家网络的参数;
⑦使用下列的采样策略梯度来更新执行者网络的参数,使得期望的折扣回报最大化,其中J是算法中的优化目标函数;
其中,τ是指平滑系数,如果取1,则立即更新目标网络参数和对应网络相同,一般取0到1中间的一个数。
在具体实现过程中,先在计算机上定义好超参数,如隐藏层结构、学习率、噪声N,保持单自由度释放机构上磁编码器和计算机通信正常,运行程序,执行者网络接收环境输出的观测量数据o,输出带噪声的舵机控制指令到飞行器模型,模型收到指令偏转舵机,产生奖励以及并观测到下一时刻的观测数据,将这组数据保存在经验缓存区中,用以训练智能体中的四个深度神经网络,使得评论家网络对于累积折扣奖励值的估计更准,使得执行者网络能够学习到使得长期奖励最大化的控制策略。这里值得注意的是,由于智能体在真实的情况下,采取的动作是带噪声N的,所以可能会表现得不那么理想,但是即便如此,整体的奖励回报还是会往增大的方向发展。最后将执行者网络嵌入到模型的飞行控制设备上,验证控制器的控制效果。
Claims (6)
1.一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,该方法包括:
通过虚拟飞行技术搭建强化学习环境:将目标飞行器模型安装在风洞中的滚转单自由度释放机构上,在每一个时间步上,将滚转单自由度释放机构采集到的数据作为观测量,将智能体输送进来的舵机控制指令作为动作量,基于观测量和动作量,计算此动作产生的奖励信号,并组合观测量,动作量以及奖励信号生成一组经验数据,并将这组经验数据添加到经验缓存区,以供智能体采样进行控制策略自学习;
构建摇滚抑制深度确定性策略梯度算法智能体:在每一个时间步上,通过从经验数据缓存区采样得到的经验数据,基于深度确定性策略梯度算法,调节四个深度网络的参数,通过向强化学习环境输送舵机控制指令。
2.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,通过虚拟飞行技术搭建的强化学习环境,观测量是一个四维向量,由滚转角、滚转角速度、侧滑角、侧滑角速度组成。
3.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,通过虚拟飞行技术搭建的强化学习环境,奖励信号由四项组成,分别用于惩罚飞行器滚转角偏离零度的行为、惩罚飞行器控制量过大的行为、惩罚飞行器观测量或者控制量超出限定条件的行为以及奖励飞行器将滚转角控制在精度要求以内的行为。
4.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,滚转单自由度释放机构上安装有高精度磁编码器,运营获取飞行器实时的滚转角和滚转角速度数据,并通过采集板卡传输到工作站;在安装时,滚转单自由度释放机构轴线的方向穿过飞行器模型的重心位置,飞行器实验模型上安装舵机用以控制飞行器的舵面。
5.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,摇滚抑制深度确定性策略梯度算法智能体包括四个深度神经网络,其中,执行者和目标执行者网络以观测量为输入,以舵机控制量为输出,两个网络结构一致;评论者和目标评论者网络以观测量和舵机控制量的组合量为输入,以在当前时刻观测量、当前时刻策略及当前输出控制量条件下所估计的智能体未来累积折扣奖励值为输出,两个网络结构一致。
6.根据权利要求1所述的基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法,其特征在于,摇滚抑制深度确定性策略梯度算法智能体,无需为飞行器建立任何模型,通过向强化学习环境输送舵机控制指令,产生经验数据,基于经验数据构造经验缓存区,用于学习最优控制策略,使得飞行器在采用执行者网络输出舵机控制指令的时候,能够获得最大化的长期累积折扣奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585596.8A CN112286218B (zh) | 2020-12-29 | 2020-12-29 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011585596.8A CN112286218B (zh) | 2020-12-29 | 2020-12-29 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112286218A true CN112286218A (zh) | 2021-01-29 |
CN112286218B CN112286218B (zh) | 2021-03-26 |
Family
ID=74426585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011585596.8A Active CN112286218B (zh) | 2020-12-29 | 2020-12-29 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112286218B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801290A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN113340324A (zh) * | 2021-05-27 | 2021-09-03 | 东南大学 | 一种基于深度确定性策略梯度的视觉惯性自校准方法 |
CN113759902A (zh) * | 2021-08-17 | 2021-12-07 | 中南民族大学 | 多智能体局部交互路径规划方法、装置、设备及存储介质 |
CN113985924A (zh) * | 2021-12-27 | 2022-01-28 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机程序产品 |
CN114489107A (zh) * | 2022-01-29 | 2022-05-13 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN114594793A (zh) * | 2022-03-07 | 2022-06-07 | 四川大学 | 一种基站无人机的路径规划方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502033A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
-
2020
- 2020-12-29 CN CN202011585596.8A patent/CN112286218B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502033A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN110673620A (zh) * | 2019-10-22 | 2020-01-10 | 西北工业大学 | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 |
CN111667513A (zh) * | 2020-06-01 | 2020-09-15 | 西北工业大学 | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 |
Non-Patent Citations (2)
Title |
---|
ZHOUBINZHENG: "Self-Adaptive Double Bootstrapped DDPG", 《IJCAI-18》 * |
赵忠良等: "某典型飞行器模型俯仰/滚转两自由度耦合动态气动特性", 《航空学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801290A (zh) * | 2021-02-26 | 2021-05-14 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN112801290B (zh) * | 2021-02-26 | 2021-11-05 | 中国人民解放军陆军工程大学 | 一种多智能体深度强化学习方法、系统及应用 |
CN113340324A (zh) * | 2021-05-27 | 2021-09-03 | 东南大学 | 一种基于深度确定性策略梯度的视觉惯性自校准方法 |
CN113759902A (zh) * | 2021-08-17 | 2021-12-07 | 中南民族大学 | 多智能体局部交互路径规划方法、装置、设备及存储介质 |
CN113759902B (zh) * | 2021-08-17 | 2023-10-27 | 中南民族大学 | 多智能体局部交互路径规划方法、装置、设备及存储介质 |
CN113985924A (zh) * | 2021-12-27 | 2022-01-28 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机程序产品 |
CN113985924B (zh) * | 2021-12-27 | 2022-04-08 | 中国科学院自动化研究所 | 飞行器控制方法、装置、设备及计算机可读存储介质 |
CN114489107A (zh) * | 2022-01-29 | 2022-05-13 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN114489107B (zh) * | 2022-01-29 | 2022-10-25 | 哈尔滨逐宇航天科技有限责任公司 | 一种飞行器双延迟深度确定性策略梯度姿态控制方法 |
CN114594793A (zh) * | 2022-03-07 | 2022-06-07 | 四川大学 | 一种基站无人机的路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112286218B (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN107102644B (zh) | 基于深度强化学习的水下机器人轨迹控制方法及控制系统 | |
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
CN111240345B (zh) | 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN113534668B (zh) | 基于最大熵的演员-评论家框架的auv运动规划方法 | |
CN114115262B (zh) | 基于方位角信息的多auv执行器饱和协同编队控制系统和方法 | |
CN111783994A (zh) | 强化学习的训练方法和装置 | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN113268074B (zh) | 一种基于联合优化的无人机航迹规划方法 | |
CN108267952A (zh) | 一种水下机器人自适应有限时间控制方法 | |
CN114077258B (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN112540614B (zh) | 一种基于深度强化学习的无人艇航迹控制方法 | |
Fletcher et al. | Improvements in learning to control perched landings | |
CN116430718A (zh) | 一种基于ddpg算法的水下机器人推进器故障容错控制方法 | |
CN115542733A (zh) | 基于深度强化学习的自适应动态窗口法 | |
CN116227622A (zh) | 基于深度强化学习的多智能体地标覆盖方法及系统 | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
CN111413974B (zh) | 一种基于学习采样式的汽车自动驾驶运动规划方法及系统 | |
Jin et al. | End-to-end trajectory tracking algorithm for unmanned surface vehicle using reinforcement learning | |
CN114396949A (zh) | 一种基于ddpg的移动机器人无先验地图导航决策方法 | |
Sola et al. | Evaluation of a deep-reinforcement-learning-based controller for the control of an autonomous underwater vehicle | |
CN113093739A (zh) | 一种多无人艇编队避碰的优化控制器及其结构、设计方法 | |
CN115046433B (zh) | 基于深度强化学习的飞行器时间协同制导方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |