CN111338375B

CN111338375B - 基于混合策略的四旋翼无人机移动降落的控制方法及系统

Info

Publication number: CN111338375B
Application number: CN202010123243.XA
Authority: CN
Inventors: 彭晓东; 解靖怡; 牛文龙
Original assignee: National Space Science Center of CAS
Current assignee: National Space Science Center of CAS
Priority date: 2020-02-27
Filing date: 2020-02-27
Publication date: 2024-02-23
Anticipated expiration: 2040-02-27
Also published as: CN111338375A

Abstract

本发明公开了基于混合策略的四旋翼无人机移动降落的控制方法及系统，所述方法包括：获取当前时刻无人机与地面移动平台的状态信息；其中状态信息包括：位置信息与速度信息；根据地面移动平台的运动轨迹，从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型；将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型，输出无人机的速度控制参数；根据无人机的速度控制参数控制无人机下一时刻的运动速度；重复上述步骤，直至无人机降落到地面移动平台上。本发明的控制方法能够实现四旋翼无人机对随机运动的地面移动平台的稳定跟踪及移动降落，在高测量噪声及间断性测量下仍能实现对移动平台的稳定跟踪。

Description

基于混合策略的四旋翼无人机移动降落的控制方法及系统

技术领域

本发明涉及无人机控制、机器学习领域，具体涉及基于混合策略的四旋翼无人机移动降落的控制方法及系统。

背景技术

随着无人机技术的飞速发展，无人机已广泛应用于军事和民用领域，例如搜救，探索和监视。无人机自主完成任务的关键之一，便是可以准确、高效的自主降落到移动平台上。对于无人机移动降落过程中的控制方法，常用的包括PID控制，模糊控制，非线性控制以及最优控制。这些方法有的对系统模型的依赖性小，但参数优化困难，系统模型变化时自适应性较弱；有的不依赖系统的动力学模型，具有自适应和学习能力强等优点，但需要解决专家信号设计的问题；有的能够在一定模型假设的离线情况下保证系统的稳定性，但存在对模型的依赖性大，难以实现在线学习和自适应的缺点。

对于无人机移动降落过程来说，无人机自身具有高度耦合的非线性动力学，现有的控制方法在随机运动的移动平台上降落时性能不佳，此外由于缺少精确的传感器并且传感器自身的运动特性受到限制，上述方法在高测量噪声和间断性测量时效果不理想。

发明内容

本发明的目的在于克服上述技术缺陷，提出了一种针对随机运动平台，基于混合策略的四旋翼无人机移动降落的控制方法。

为实现上述目的，本发明提出了一种基于混合策略的四旋翼无人机移动降落的控制方法，所述方法包括：

获取当前时刻无人机的状态信息与地面移动平台的状态信息；所述状态信息包括：位置信息与速度信息；

根据地面移动平台的运动轨迹，从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型；

将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型，输出无人机的速度控制参数；

根据无人机的速度控制参数控制无人机下一时刻的运动速度；

重复上述步骤，直至无人机降落到地面移动平台上。

作为上述方法的一种改进，所述基于混合策略的移动降落模型组包括多个移动降落模型，分别对应不同的地面移动平台的运动轨迹。

作为上述方法的一种改进，所述移动降落模型包括跟踪模块和降落模块；

所述跟踪模块基于深度强化学习框架，采用端到端的决策网络，输出无人机水平速度控制参数Vx和Vy，控制无人机水平方向动作；

所述降落模块基于启发式规则，输出无人机在竖直方向上的速度Vz，控制无人机竖直方向动作。

作为上述方法的一种改进，所述跟踪模块基于深度强化学习框架，采用端到端的决策网络，输出无人机水平速度控制参数Vx和Vy，控制无人机水平方向动作，具体包括：

采用Actor-Critic的异策略学习方法，所述Actor网络包括第一全连接层、第二全连接层和Scale模块，其中第一全连接层的隐层个数为30个，激活函数为relu；第二全连接层的隐层个数为2个，激活函数为tanh，所述Scale模块将第二全连接层输出的二维值域连续变量转换成一定范围内的水平速度控制参数Vx和Vy。

作为上述方法的一种改进，所述降落模块基于启发式规则，输出无人机在竖直方向上的速度Vz，控制无人机竖直方向动作，具体包括：

当无人机与地面移动平台之间的距离介于第一阈值和第二阈值时，则无人机在稳定目标跟踪的同时逐渐降低高度；

当无人机与地面移动平台之间的距离大于第二阈值时，无人机将逐渐恢复初始高度，重新规划降落轨迹。

作为上述方法的一种改进，所述方法还包括对决策网络进行训练的步骤，具体包括：

所述决策网络采用Actor-Critic架构，所述Critic网络在训练中使用，为一个全连接层网络，隐层个数为30，激活函数为relu，用于输出当前确定性策略的值函数；

将无人机与地面移动平台在当前时刻T_i的状态信息S_i输入Actor网络，输出无人机的水平速度a_i，并在无人机的水平速度上添加随时间衰减的高斯噪声得到水平速度控制参数；根据无人机的速度控制参数控制无人机下一时刻的运动速度，从而更新系统下一时刻T_i+1的状态信息S_i+1，并根据预先定义好的奖赏函数获得当前系统状态下的回报函数r_i；将(S_i,a_i,r_i,S_i+1)作为一次经验元组存储在经验池中；

通过均匀随机采样的方法从经验池抽取经验元组输入决策网络，对Actor-Critic网络参数进行更新。

作为上述方法的一种改进，所述无人机降落到地面移动平台上的判断准则为：当无人机与地面移动平台之间的距离小于第一阈值，并且水平方向相对移动平台的距离误差小于第三阈值时，则认为无人机降落到地面移动平台上。

本发明提出了一种基于混合策略的四旋翼无人机移动降落的控制系统，所述系统包括：训练好的基于混合策略的移动降落模型组、状态获取模块和控制模块；

所述状态获取模块，用于获取当前时刻无人机的状态信息与地面移动平台的状态信息；所述状态信息包括：位置信息与速度信息；

所述控制模块，用于根据地面移动平台的运动轨迹，从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型；将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型，输出无人机的速度控制参数；根据无人机的速度控制参数控制无人机下一时刻的运动速度；重复上述步骤，直至无人机降落到地面移动平台上。

与现有技术相比，本发明的优势在于：

1、本发明解决无人机在随机运动的地面平台的移动降落控制问题，能够实现四旋翼无人机对随机运动的地面移动平台的稳定跟踪以及移动降落，同时在高测量噪声以及间断性测量下仍能实现对移动平台的稳定跟踪；

2、现有的无人机移动降落方法主要通过建立先验模型并使用启发式规则来解决无人机最优控制问题，本发明通过考虑测量噪声，间歇性测量和无人机运动的随机性，建立了基于部分可观测的马尔科夫决策过程(POMDP)的无人机动力学模型来描述无人机着陆的自主过程；然后，使用端到端神经网络来近似自主无人机着陆的动作控制器，并采用基于深度强化学习的算法训练神经网络学习降落经验。因此，本发明所提出的无人机移动降落控制方法在高测量噪声，间断性测量以及地面移动平台进行随机运动的情况下表现良好。

附图说明

图1是本发明技术实施例的无人机移动降落流程图；

图2是本发明的混合策略示意图。

具体实施方式

下面结合附图对本发明的技术方案进行详细的说明。

本发明的基本原理是：将无人机移动降落问题建模为部分可观测的马尔科夫决策过程(POMDP)，由此，在无人机降落过程中的每一时刻，无人机都要根据当前系统状态做出最优控制决策，具体的决策过程可以分为三个步骤：获取当前系统的状态信息，基于混合策略输出无人机最优控制决策，更新系统状态信息。该过程将一直持续，直到无人机降落成功或达到终止状态。其中，系统的状态信息仅包含当前时刻和历史时刻无人机与地面移动平台的位置信息与速度信息，这些状态信息可能伴随有高测量噪声与间断性测量的问题。同时，输出无人机最优控制决策包括训练阶段和测试阶段两个部分。

实施例1

如图1所示，本发明提出了基于混合策略的四旋翼无人机移动降落的控制方法，包括：

1、通过传感器获得无人机与地面移动平台在当前时刻的位置信息与速度信息；

2、无人机根据当前状态信息，做出最优控制决策，并输出速度控制参数。本发明所提出的无人机移动降落过程的最优控制策略基于一种混合策略的方法，如图2所示，该策略包含跟踪模块与降落模块两部分，其中跟踪模块采用深度强化学习的方法调整无人机在水平方向的速度值，旨在将移动平台保持在无人机视野中央，实现对移动平台的稳定跟踪。降落模块基于固定规则调整无人机在竖直方向的高度，以完成降落任务。具体的决策原理如下：

1)在跟踪模块中，引入强化学习方法求解无人机移动平台的跟踪问题。在每个时刻，无人机获取当前无人机移动降落系统的状态信息，然后输出当前最优速度控制参数，使得系统下一时刻的状态发生变化并反馈即时回报。经过数次迭代学习后，无人机获得决策经验，并根据经验修改自身的动作策略，从而使整个任务序列达到最优。

2)具体到求解无人机最优跟踪动作策略问题中，本发明引入深度策略性梯度算法(Deep Deterministic Policy Gradient,DDPG)。该算法学习框架采用AC(Actor-CriticAlgorithm)结构，具体见图2。在Actor网络中使用两层全连接层网络，其中FC1的隐层个数为30个，激活函数为relu，FC2的隐层个数为2个，激活函数为tanh，Actor网络输出二维值域在(0,1)的连续变量，经过Scale模块转换成(-10,10)的速度值，从而输出无人机水平方向的速度值。Critic网络使用一层全连接层网络，隐层个数为30，激活函数为relu输出当前确定性策略的值函数,对环境的当前状态进行评估，从而对神经网络参数进行更新。Critic网络在模型训练时使用，一旦模型训练完成，在模型的测试阶段不使用。

3)在无人机移动降落的训练阶段，每个时刻无人机都要观察当前无人机移动降落系统的状态信息，输出当前最优控制参数并且更新状态信息，本发明将这些信息记做一组经验元组(S_i,a_i,r_i,S_i+1)。具体是：将无人机与地面移动平台在当前时刻T_i的状态信息S_i输入Actor网络，输出无人机的水平速度a_i，并在无人机的水平速度上添加随时间衰减的高斯噪声得到速度控制参数；根据无人机的速度控制参数控制无人机下一时刻的运动速度，从而更新系统下一时刻T_i+1的状态信息S_i+1，并根据预先定义好的奖赏函数获得当前系统状态下的回报函数r_i；将(S_i,a_i,r_i,S_i+1)作为一次经验元组存储在经验池中。在对神经网络训练过程中，要求数据之间是独立同分布的。而在无人机移动降落过程中，不同时刻所产生的经验元组之间存在相关性，为打破关联，本发明采用经验回放机制，将训练网络所需的经验元组存储在经验池中，通过均匀随机采样的方法抽取经验池中的经验元组对神经网络进行训练，并对网络参数进行更新。同时，为了保证训练过程中无人机对环境进行充分的探索，无人机输出随机动作，即输出的速度控制参数中添加随时间衰减的高斯噪声。降落模块：无人机在竖直方向上的速度依赖于无人机与移动平台之间的距离，当无人机与地面移动平台之间的距离小于4m时，则无人机应在稳定目标跟踪的同时逐渐降低高度，当竖直方向与移动平台之间的相对高度小于0.1m，以及水平方向相对移动平台的距离误差小于0.8m时，则认为降落成功；在降落过程中发现目标丢失，无人机将停止降落，并逐渐恢复初始高度，重新规划降落轨迹。

3、无人机输出相应的控制动作后，按照预先设定好的频率对系统下一时刻的状态进行观察，当无人机成功降落或无人机与地面移动平台的距离大于一定阈值时，则认为降落成功或失败，应停止本次降落任务。

针对地面移动平台，不同的运动轨迹对应不同的移动降落模型，训练方法相同。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于混合策略的四旋翼无人机移动降落的控制方法，所述方法包括：

重复上述步骤，直至无人机降落到地面移动平台上；

所述移动降落模型包括跟踪模块和降落模块；

所述降落模块基于启发式规则，输出无人机在竖直方向上的速度Vz，控制无人机竖直方向动作；

所述跟踪模块基于深度强化学习框架，采用端到端的决策网络，输出无人机水平速度控制参数Vx和Vy，控制无人机水平方向动作，具体包括：

采用Actor-Critic的异策略学习方法，所述Actor网络包括第一全连接层、第二全连接层和Scale模块，其中第一全连接层的隐层个数为30个，激活函数为relu；第二全连接层的隐层个数为2个，激活函数为tanh，所述Scale模块将第二全连接层输出的二维值域连续变量转换成一定范围内的水平速度控制参数Vx和Vy；

所述方法还包括对决策网络进行训练的步骤，包括：

所述Critic网络在训练中使用，为一个全连接层网络，隐层个数为30，激活函数为relu，用于输出当前确定性策略的值函数；

2.根据权利要求1所述的基于混合策略的四旋翼无人机移动降落的控制方法，其特征在于，所述基于混合策略的移动降落模型组包括多个移动降落模型，分别对应不同的地面移动平台的运动轨迹。

3.根据权利要求1所述的基于混合策略的四旋翼无人机移动降落方法，其特征在于，所述降落模块基于启发式规则，输出无人机在竖直方向上的速度Vz，控制无人机竖直方向动作，具体包括：

4.根据权利要求1所述的基于混合策略的四旋翼无人机移动降落的控制方法，其特征在于，所述无人机降落到地面移动平台上的判断准则为：当无人机与地面移动平台之间的距离小于第一阈值，并且水平方向相对移动平台的距离误差小于第三阈值时，则认为无人机降落到地面移动平台上。

5.一种基于混合策略的四旋翼无人机移动降落的控制系统，其特征在于，所述系统包括：训练好的基于混合策略的移动降落模型组、状态获取模块和控制模块；

所述控制模块，用于根据地面移动平台的运动轨迹，从预先训练好的基于混合策略的移动降落模型组中选取一个对应的移动降落模型；将当前时刻无人机的状态信息与地面移动平台的状态信息输入选取的移动降落模型，输出无人机的速度控制参数；根据无人机的速度控制参数控制无人机下一时刻的运动速度；重复上述步骤，直至无人机降落到地面移动平台上；

所述移动降落模型包括跟踪模块和降落模块；

所述决策网络的训练步骤包括：