CN111338375B - 基于混合策略的四旋翼无人机移动降落的控制方法及系统 - Google Patents
基于混合策略的四旋翼无人机移动降落的控制方法及系统 Download PDFInfo
- Publication number
- CN111338375B CN111338375B CN202010123243.XA CN202010123243A CN111338375B CN 111338375 B CN111338375 B CN 111338375B CN 202010123243 A CN202010123243 A CN 202010123243A CN 111338375 B CN111338375 B CN 111338375B
- Authority
- CN
- China
- Prior art keywords
- aerial vehicle
- unmanned aerial
- landing
- mobile platform
- state information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- 230000002787 reinforcement Effects 0.000 claims description 9
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 13
- 230000006872 improvement Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Abstract
本发明公开了基于混合策略的四旋翼无人机移动降落的控制方法及系统,所述方法包括:获取当前时刻无人机与地面移动平台的状态信息;其中状态信息包括:位置信息与速度信息;根据地面移动平台的运动轨迹,从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型;将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型,输出无人机的速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度;重复上述步骤,直至无人机降落到地面移动平台上。本发明的控制方法能够实现四旋翼无人机对随机运动的地面移动平台的稳定跟踪及移动降落,在高测量噪声及间断性测量下仍能实现对移动平台的稳定跟踪。
Description
技术领域
本发明涉及无人机控制、机器学习领域,具体涉及基于混合策略的四旋翼无人机移动降落的控制方法及系统。
背景技术
随着无人机技术的飞速发展,无人机已广泛应用于军事和民用领域,例如搜救,探索和监视。无人机自主完成任务的关键之一,便是可以准确、高效的自主降落到移动平台上。对于无人机移动降落过程中的控制方法,常用的包括PID控制,模糊控制,非线性控制以及最优控制。这些方法有的对系统模型的依赖性小,但参数优化困难,系统模型变化时自适应性较弱;有的不依赖系统的动力学模型,具有自适应和学习能力强等优点,但需要解决专家信号设计的问题;有的能够在一定模型假设的离线情况下保证系统的稳定性,但存在对模型的依赖性大,难以实现在线学习和自适应的缺点。
对于无人机移动降落过程来说,无人机自身具有高度耦合的非线性动力学,现有的控制方法在随机运动的移动平台上降落时性能不佳,此外由于缺少精确的传感器并且传感器自身的运动特性受到限制,上述方法在高测量噪声和间断性测量时效果不理想。
发明内容
本发明的目的在于克服上述技术缺陷,提出了一种针对随机运动平台,基于混合策略的四旋翼无人机移动降落的控制方法。
为实现上述目的,本发明提出了一种基于混合策略的四旋翼无人机移动降落的控制方法,所述方法包括:
获取当前时刻无人机的状态信息与地面移动平台的状态信息;所述状态信息包括:位置信息与速度信息;
根据地面移动平台的运动轨迹,从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型;
将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型,输出无人机的速度控制参数;
根据无人机的速度控制参数控制无人机下一时刻的运动速度;
重复上述步骤,直至无人机降落到地面移动平台上。
作为上述方法的一种改进,所述基于混合策略的移动降落模型组包括多个移动降落模型,分别对应不同的地面移动平台的运动轨迹。
作为上述方法的一种改进,所述移动降落模型包括跟踪模块和降落模块;
所述跟踪模块基于深度强化学习框架,采用端到端的决策网络,输出无人机水平速度控制参数Vx和Vy,控制无人机水平方向动作;
所述降落模块基于启发式规则,输出无人机在竖直方向上的速度Vz,控制无人机竖直方向动作。
作为上述方法的一种改进,所述跟踪模块基于深度强化学习框架,采用端到端的决策网络,输出无人机水平速度控制参数Vx和Vy,控制无人机水平方向动作,具体包括:
采用Actor-Critic的异策略学习方法,所述Actor网络包括第一全连接层、第二全连接层和Scale模块,其中第一全连接层的隐层个数为30个,激活函数为relu;第二全连接层的隐层个数为2个,激活函数为tanh,所述Scale模块将第二全连接层输出的二维值域连续变量转换成一定范围内的水平速度控制参数Vx和Vy。
作为上述方法的一种改进,所述降落模块基于启发式规则,输出无人机在竖直方向上的速度Vz,控制无人机竖直方向动作,具体包括:
当无人机与地面移动平台之间的距离介于第一阈值和第二阈值时,则无人机在稳定目标跟踪的同时逐渐降低高度;
当无人机与地面移动平台之间的距离大于第二阈值时,无人机将逐渐恢复初始高度,重新规划降落轨迹。
作为上述方法的一种改进,所述方法还包括对决策网络进行训练的步骤,具体包括:
所述决策网络采用Actor-Critic架构,所述Critic网络在训练中使用,为一个全连接层网络,隐层个数为30,激活函数为relu,用于输出当前确定性策略的值函数;
将无人机与地面移动平台在当前时刻Ti的状态信息Si输入Actor网络,输出无人机的水平速度ai,并在无人机的水平速度上添加随时间衰减的高斯噪声得到水平速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度,从而更新系统下一时刻Ti+1的状态信息Si+1,并根据预先定义好的奖赏函数获得当前系统状态下的回报函数ri;将(Si,ai,ri,Si+1)作为一次经验元组存储在经验池中;
通过均匀随机采样的方法从经验池抽取经验元组输入决策网络,对Actor-Critic网络参数进行更新。
作为上述方法的一种改进,所述无人机降落到地面移动平台上的判断准则为:当无人机与地面移动平台之间的距离小于第一阈值,并且水平方向相对移动平台的距离误差小于第三阈值时,则认为无人机降落到地面移动平台上。
本发明提出了一种基于混合策略的四旋翼无人机移动降落的控制系统,所述系统包括:训练好的基于混合策略的移动降落模型组、状态获取模块和控制模块;
所述状态获取模块,用于获取当前时刻无人机的状态信息与地面移动平台的状态信息;所述状态信息包括:位置信息与速度信息;
所述控制模块,用于根据地面移动平台的运动轨迹,从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型;将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型,输出无人机的速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度;重复上述步骤,直至无人机降落到地面移动平台上。
与现有技术相比,本发明的优势在于:
1、本发明解决无人机在随机运动的地面平台的移动降落控制问题,能够实现四旋翼无人机对随机运动的地面移动平台的稳定跟踪以及移动降落,同时在高测量噪声以及间断性测量下仍能实现对移动平台的稳定跟踪;
2、现有的无人机移动降落方法主要通过建立先验模型并使用启发式规则来解决无人机最优控制问题,本发明通过考虑测量噪声,间歇性测量和无人机运动的随机性,建立了基于部分可观测的马尔科夫决策过程(POMDP)的无人机动力学模型来描述无人机着陆的自主过程;然后,使用端到端神经网络来近似自主无人机着陆的动作控制器,并采用基于深度强化学习的算法训练神经网络学习降落经验。因此,本发明所提出的无人机移动降落控制方法在高测量噪声,间断性测量以及地面移动平台进行随机运动的情况下表现良好。
附图说明
图1是本发明技术实施例的无人机移动降落流程图;
图2是本发明的混合策略示意图。
具体实施方式
下面结合附图对本发明的技术方案进行详细的说明。
本发明的基本原理是:将无人机移动降落问题建模为部分可观测的马尔科夫决策过程(POMDP),由此,在无人机降落过程中的每一时刻,无人机都要根据当前系统状态做出最优控制决策,具体的决策过程可以分为三个步骤:获取当前系统的状态信息,基于混合策略输出无人机最优控制决策,更新系统状态信息。该过程将一直持续,直到无人机降落成功或达到终止状态。其中,系统的状态信息仅包含当前时刻和历史时刻无人机与地面移动平台的位置信息与速度信息,这些状态信息可能伴随有高测量噪声与间断性测量的问题。同时,输出无人机最优控制决策包括训练阶段和测试阶段两个部分。
实施例1
如图1所示,本发明提出了基于混合策略的四旋翼无人机移动降落的控制方法,包括:
1、通过传感器获得无人机与地面移动平台在当前时刻的位置信息与速度信息;
2、无人机根据当前状态信息,做出最优控制决策,并输出速度控制参数。本发明所提出的无人机移动降落过程的最优控制策略基于一种混合策略的方法,如图2所示,该策略包含跟踪模块与降落模块两部分,其中跟踪模块采用深度强化学习的方法调整无人机在水平方向的速度值,旨在将移动平台保持在无人机视野中央,实现对移动平台的稳定跟踪。降落模块基于固定规则调整无人机在竖直方向的高度,以完成降落任务。具体的决策原理如下:
1)在跟踪模块中,引入强化学习方法求解无人机移动平台的跟踪问题。在每个时刻,无人机获取当前无人机移动降落系统的状态信息,然后输出当前最优速度控制参数,使得系统下一时刻的状态发生变化并反馈即时回报。经过数次迭代学习后,无人机获得决策经验,并根据经验修改自身的动作策略,从而使整个任务序列达到最优。
2)具体到求解无人机最优跟踪动作策略问题中,本发明引入深度策略性梯度算法(Deep Deterministic Policy Gradient,DDPG)。该算法学习框架采用AC(Actor-CriticAlgorithm)结构,具体见图2。在Actor网络中使用两层全连接层网络,其中FC1的隐层个数为30个,激活函数为relu,FC2的隐层个数为2个,激活函数为tanh,Actor网络输出二维值域在(0,1)的连续变量,经过Scale模块转换成(-10,10)的速度值,从而输出无人机水平方向的速度值。Critic网络使用一层全连接层网络,隐层个数为30,激活函数为relu输出当前确定性策略的值函数,对环境的当前状态进行评估,从而对神经网络参数进行更新。Critic网络在模型训练时使用,一旦模型训练完成,在模型的测试阶段不使用。
3)在无人机移动降落的训练阶段,每个时刻无人机都要观察当前无人机移动降落系统的状态信息,输出当前最优控制参数并且更新状态信息,本发明将这些信息记做一组经验元组(Si,ai,ri,Si+1)。具体是:将无人机与地面移动平台在当前时刻Ti的状态信息Si输入Actor网络,输出无人机的水平速度ai,并在无人机的水平速度上添加随时间衰减的高斯噪声得到速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度,从而更新系统下一时刻Ti+1的状态信息Si+1,并根据预先定义好的奖赏函数获得当前系统状态下的回报函数ri;将(Si,ai,ri,Si+1)作为一次经验元组存储在经验池中。在对神经网络训练过程中,要求数据之间是独立同分布的。而在无人机移动降落过程中,不同时刻所产生的经验元组之间存在相关性,为打破关联,本发明采用经验回放机制,将训练网络所需的经验元组存储在经验池中,通过均匀随机采样的方法抽取经验池中的经验元组对神经网络进行训练,并对网络参数进行更新。同时,为了保证训练过程中无人机对环境进行充分的探索,无人机输出随机动作,即输出的速度控制参数中添加随时间衰减的高斯噪声。降落模块:无人机在竖直方向上的速度依赖于无人机与移动平台之间的距离,当无人机与地面移动平台之间的距离小于4m时,则无人机应在稳定目标跟踪的同时逐渐降低高度,当竖直方向与移动平台之间的相对高度小于0.1m,以及水平方向相对移动平台的距离误差小于0.8m时,则认为降落成功;在降落过程中发现目标丢失,无人机将停止降落,并逐渐恢复初始高度,重新规划降落轨迹。
3、无人机输出相应的控制动作后,按照预先设定好的频率对系统下一时刻的状态进行观察,当无人机成功降落或无人机与地面移动平台的距离大于一定阈值时,则认为降落成功或失败,应停止本次降落任务。
针对地面移动平台,不同的运动轨迹对应不同的移动降落模型,训练方法相同。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于混合策略的四旋翼无人机移动降落的控制方法,所述方法包括:
获取当前时刻无人机的状态信息与地面移动平台的状态信息;所述状态信息包括:位置信息与速度信息;
根据地面移动平台的运动轨迹,从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型;
将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型,输出无人机的速度控制参数;
根据无人机的速度控制参数控制无人机下一时刻的运动速度;
重复上述步骤,直至无人机降落到地面移动平台上;
所述移动降落模型包括跟踪模块和降落模块;
所述跟踪模块基于深度强化学习框架,采用端到端的决策网络,输出无人机水平速度控制参数Vx和Vy,控制无人机水平方向动作;
所述降落模块基于启发式规则,输出无人机在竖直方向上的速度Vz,控制无人机竖直方向动作;
所述跟踪模块基于深度强化学习框架,采用端到端的决策网络,输出无人机水平速度控制参数Vx和Vy,控制无人机水平方向动作,具体包括:
采用Actor-Critic的异策略学习方法,所述Actor网络包括第一全连接层、第二全连接层和Scale模块,其中第一全连接层的隐层个数为30个,激活函数为relu;第二全连接层的隐层个数为2个,激活函数为tanh,所述Scale模块将第二全连接层输出的二维值域连续变量转换成一定范围内的水平速度控制参数Vx和Vy;
所述方法还包括对决策网络进行训练的步骤,包括:
所述Critic网络在训练中使用,为一个全连接层网络,隐层个数为30,激活函数为relu,用于输出当前确定性策略的值函数;
将无人机与地面移动平台在当前时刻Ti的状态信息Si输入Actor网络,输出无人机的水平速度ai,并在无人机的水平速度上添加随时间衰减的高斯噪声得到水平速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度,从而更新系统下一时刻Ti+1的状态信息Si+1,并根据预先定义好的奖赏函数获得当前系统状态下的回报函数ri;将(Si,ai,ri,Si+1)作为一次经验元组存储在经验池中;
通过均匀随机采样的方法从经验池抽取经验元组输入决策网络,对Actor-Critic网络参数进行更新。
2.根据权利要求1所述的基于混合策略的四旋翼无人机移动降落的控制方法,其特征在于,所述基于混合策略的移动降落模型组包括多个移动降落模型,分别对应不同的地面移动平台的运动轨迹。
3.根据权利要求1所述的基于混合策略的四旋翼无人机移动降落方法,其特征在于,所述降落模块基于启发式规则,输出无人机在竖直方向上的速度Vz,控制无人机竖直方向动作,具体包括:
当无人机与地面移动平台之间的距离介于第一阈值和第二阈值时,则无人机在稳定目标跟踪的同时逐渐降低高度;
当无人机与地面移动平台之间的距离大于第二阈值时,无人机将逐渐恢复初始高度,重新规划降落轨迹。
4.根据权利要求1所述的基于混合策略的四旋翼无人机移动降落的控制方法,其特征在于,所述无人机降落到地面移动平台上的判断准则为:当无人机与地面移动平台之间的距离小于第一阈值,并且水平方向相对移动平台的距离误差小于第三阈值时,则认为无人机降落到地面移动平台上。
5.一种基于混合策略的四旋翼无人机移动降落的控制系统,其特征在于,所述系统包括:训练好的基于混合策略的移动降落模型组、状态获取模块和控制模块;
所述状态获取模块,用于获取当前时刻无人机的状态信息与地面移动平台的状态信息;所述状态信息包括:位置信息与速度信息;
所述控制模块,用于根据地面移动平台的运动轨迹,从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型;将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型,输出无人机的速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度;重复上述步骤,直至无人机降落到地面移动平台上;
所述移动降落模型包括跟踪模块和降落模块;
所述跟踪模块基于深度强化学习框架,采用端到端的决策网络,输出无人机水平速度控制参数Vx和Vy,控制无人机水平方向动作;
所述降落模块基于启发式规则,输出无人机在竖直方向上的速度Vz,控制无人机竖直方向动作;
所述跟踪模块基于深度强化学习框架,采用端到端的决策网络,输出无人机水平速度控制参数Vx和Vy,控制无人机水平方向动作,具体包括:
采用Actor-Critic的异策略学习方法,所述Actor网络包括第一全连接层、第二全连接层和Scale模块,其中第一全连接层的隐层个数为30个,激活函数为relu;第二全连接层的隐层个数为2个,激活函数为tanh,所述Scale模块将第二全连接层输出的二维值域连续变量转换成一定范围内的水平速度控制参数Vx和Vy;
所述决策网络的训练步骤包括:
所述Critic网络在训练中使用,为一个全连接层网络,隐层个数为30,激活函数为relu,用于输出当前确定性策略的值函数;
将无人机与地面移动平台在当前时刻Ti的状态信息Si输入Actor网络,输出无人机的水平速度ai,并在无人机的水平速度上添加随时间衰减的高斯噪声得到水平速度控制参数;根据无人机的速度控制参数控制无人机下一时刻的运动速度,从而更新系统下一时刻Ti+1的状态信息Si+1,并根据预先定义好的奖赏函数获得当前系统状态下的回报函数ri;将(Si,ai,ri,Si+1)作为一次经验元组存储在经验池中;
通过均匀随机采样的方法从经验池抽取经验元组输入决策网络,对Actor-Critic网络参数进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123243.XA CN111338375B (zh) | 2020-02-27 | 2020-02-27 | 基于混合策略的四旋翼无人机移动降落的控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010123243.XA CN111338375B (zh) | 2020-02-27 | 2020-02-27 | 基于混合策略的四旋翼无人机移动降落的控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111338375A CN111338375A (zh) | 2020-06-26 |
CN111338375B true CN111338375B (zh) | 2024-02-23 |
Family
ID=71182030
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010123243.XA Active CN111338375B (zh) | 2020-02-27 | 2020-02-27 | 基于混合策略的四旋翼无人机移动降落的控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111338375B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113359843B (zh) * | 2021-07-02 | 2023-06-20 | 成都睿沿芯创科技有限公司 | 一种无人机自主降落方法、装置、电子设备及存储介质 |
CN114594783B (zh) * | 2021-12-21 | 2023-03-31 | 北京理工大学 | 基于全过程约束的四旋翼实时轨迹规划及降落控制方法 |
CN114428517B (zh) * | 2022-01-26 | 2023-07-21 | 海南大学 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
CN115524964B (zh) * | 2022-08-12 | 2023-04-11 | 中山大学 | 一种基于强化学习的火箭着陆实时鲁棒制导方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0724640D0 (en) * | 2006-12-21 | 2008-01-30 | Boeing Co | System and method for automatic dependent surveillance collection and analysis |
WO2017031697A1 (zh) * | 2015-08-25 | 2017-03-02 | 深圳市大疆创新科技有限公司 | 模式控制系统及方法,及使用其的手持云台、可移动平台 |
CN108873930A (zh) * | 2018-05-31 | 2018-11-23 | 苏州市启献智能科技有限公司 | 基于移动平台的无人机起降方法及系统 |
US10181152B1 (en) * | 2016-09-02 | 2019-01-15 | Sanjay K. Rao | Drone based package delivery system |
WO2019100353A1 (zh) * | 2017-11-25 | 2019-05-31 | 深圳市大疆创新科技有限公司 | 一种任务执行方法、移动装置、系统及存储介质 |
CN110231829A (zh) * | 2019-06-20 | 2019-09-13 | 上海大学 | 基于数据增融的强化学习小型无人旋翼机自主着陆方法 |
-
2020
- 2020-02-27 CN CN202010123243.XA patent/CN111338375B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0724640D0 (en) * | 2006-12-21 | 2008-01-30 | Boeing Co | System and method for automatic dependent surveillance collection and analysis |
WO2017031697A1 (zh) * | 2015-08-25 | 2017-03-02 | 深圳市大疆创新科技有限公司 | 模式控制系统及方法,及使用其的手持云台、可移动平台 |
US10181152B1 (en) * | 2016-09-02 | 2019-01-15 | Sanjay K. Rao | Drone based package delivery system |
WO2019100353A1 (zh) * | 2017-11-25 | 2019-05-31 | 深圳市大疆创新科技有限公司 | 一种任务执行方法、移动装置、系统及存储介质 |
CN108873930A (zh) * | 2018-05-31 | 2018-11-23 | 苏州市启献智能科技有限公司 | 基于移动平台的无人机起降方法及系统 |
CN110231829A (zh) * | 2019-06-20 | 2019-09-13 | 上海大学 | 基于数据增融的强化学习小型无人旋翼机自主着陆方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111338375A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111338375B (zh) | 基于混合策略的四旋翼无人机移动降落的控制方法及系统 | |
US11914376B2 (en) | USV formation path-following method based on deep reinforcement learning | |
CN112286203B (zh) | 一种基于蚁群算法的多智能体强化学习路径规划方法 | |
CN111580544B (zh) | 一种基于强化学习ppo算法的无人机目标跟踪控制方法 | |
CN108803321A (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN110471444A (zh) | 基于自主学习的无人机智能避障方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN112433525A (zh) | 基于模仿学习及深度强化学习的移动机器人导航方法 | |
CN112698646B (zh) | 一种基于强化学习的航行器路径规划方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN110502034A (zh) | 一种基于深度强化学习的固定翼无人机群集控制方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN114253274B (zh) | 基于数据驱动的网联混合车辆编队滚动优化控制方法 | |
CN116400726A (zh) | 一种基于强化学习的旋翼无人机逃逸方法及系统 | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN116954258A (zh) | 未知扰动下多四旋翼无人机编队的分层控制方法及装置 | |
CN116755323A (zh) | 一种基于深度强化学习的多旋翼无人机pid自整定方法 | |
CN112800546B (zh) | 一种火箭垂直回收状态可控性分析方法和装置 | |
CN116126023A (zh) | 一种多机协同动态障碍穿越方法及系统 | |
Ma et al. | Strategy generation based on reinforcement learning with deep deterministic policy gradient for ucav | |
CN115097861A (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN114609925A (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 | |
Chung et al. | A new utility function for smooth transition between exploration and exploitation of a wind energy field | |
Wang et al. | Autonomous obstacle avoidance algorithm of UAVs for automatic terrain following application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |