CN113110547A

CN113110547A - 一种微型航空飞行器的飞行控制方法、装置及设备

Info

Publication number: CN113110547A
Application number: CN202110429734.1A
Authority: CN
Inventors: 谭婧炜佳; 李奔; 阎凯歌
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-04-21
Filing date: 2021-04-21
Publication date: 2021-07-13
Anticipated expiration: 2041-04-21
Also published as: CN113110547B

Abstract

本申请公开了一种微型航空飞行器的飞行控制方法，能够在一定情况下增大单步的执行时间，相当于减少了自主飞行过程中的总飞行步数，即减少整个自主飞行过程中的计算量和决策耗时，降低微型航空飞行器的计算能耗和机械能耗，提升微型航空飞行器的续航能力。此外，本申请还提供了一种微型航空飞行器的飞行控制装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应。

Description

一种微型航空飞行器的飞行控制方法、装置及设备

技术领域

本申请涉及计算机技术领域，特别涉及一种微型航空飞行器的飞行控制方法、装置、设备及可读存储介质。

背景技术

MAV(Micro Aerial Vehicle，微型航空飞行器)通常是一个集传感器、飞行控制计算机以及驱动于一体的轻量级的无人飞行系统。它既可以受远程控制器操控飞行，也能根据内置程序来进行自主飞行。

DRL(Deep Reinforcement Learning，深度强化学习)算法是目前广泛用于实现微型航空飞行器自主飞行的方案之一，而DQN(Deep Q-Network，深度Q网络)算法是最具代表性的一种DRL算法。DQN是一个包含多个卷积层与多个全连接层，输出空间离散的神经网络，是Q-Learning算法的一种改进方案。Q-Learning算法的核心是一个关于状态s-动作a的Q值表，每个(s,a)对应一个Q值。每次决策时，智能体(如微型航空飞行器)根据当前状态信息去查Q值表，得到该状态下各动作的Q值，根据贪婪策略选取具有最大Q值的行动。然而，在复杂环境下，状态空间往往很大，而Q值表往往是有限的，因此Q-leaning算法此时并不适用。DQN是利用一个神经网络作为近似函数来替代Q值表，将获取到的信息进行初步处理，然后作为输入传输到神经网络中，经过神经网络的处理，可以得到n个Q值(n是该网络的输出空间大小)，最终，基于某种策略来选择最终的行动方案。

微型航空飞行器由于其轻量级、低成本的特点被广泛应用于灾难救援、包裹传递等方面。然而，作为一个移动机器，其板载电池容量极为有限，使得续航能力低下。目前，大多数的研究致力于设计更好的路径规划算法来提高能效，极少的工作从微型航空飞行器的飞行特点以及算法本身的特性出发，来设计优化方案。

综上，如何根据微型航空飞行器的飞行特点，减少微型航空飞行器的能耗，提升续航能力，是亟待本领域技术人员解决的问题。

发明内容

本申请的目的是提供一种微型航空飞行器的飞行控制方法、装置、设备及可读存储介质，用以解决微型航空飞行器电池容量有限，续航能力差的问题。其具体方案如下：

第一方面，本申请提供了一种微型航空飞行器的飞行控制方法，包括：

确定当前步的感知信息；

将所述当前步的感知信息输入DQN模型，得到多个Q值；

确定所述多个Q值中最大Q值对应的飞行策略；

计算所述多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；判断所述当前步的Q值差值是否大于上一步的Q值差值；若大于，则记录所述当前步的Q值差值；若小于等于，则增大当前步的执行时间；

根据所述飞行策略和所述当前步的飞行时间，控制微型航空飞行器飞行一步。

优选的，所述确定当前步的感知信息，包括：

若上一步采取的动作类型为前进，则根据上一步的感知信息预估当前步的感知信息；

若上一步采取的动作类型为偏转，则利用机载传感器采集当前步的感知信息。

优选的，所述根据上一步的感知信息预估当前步的感知信息，包括：

根据上一步的感知信息、飞行速度、单步执行时间，预估当前步的感知信息。

优选的，所述感知信息包括周围环境信息和运动学状态信息；

其中，所述周围环境信息的存储格式为深度图像，所述深度图像中的像素值表示像素点与微型航空飞行器之间的距离；

所述运动学状态信息包括位置信息，所述位置信息的存储格式为坐标向量(x,y,d)，其中x、y分别表示微型航空飞行器在x轴和y轴的位置坐标，d表示微型航空飞行器与终点坐标的距离。

优选的，在所述感知信息为所述周围环境信息时，所述根据上一步的感知信息、飞行速度、单步的执行时间，预估当前步的感知信息，包括：

对于上一步的深度图像中的每个像素点，确定所述像素点相对于微型航空飞行器的偏角；根据所述偏角、飞行速度、单步执行时间，对所述像素点的像素值进行更新，得到转换矩阵；

根据上一步的深度图像和所述转换矩阵，生成当前步的深度图像。

优选的，在所述感知信息为所述运动学状态信息中的位置信息时，所述根据上一步的感知信息、飞行速度、单步的执行时间，预估当前步的感知信息，包括：

根据上一步的位置信息、飞行速度在x轴上的分量、单步的执行时间，预估当前步在x轴的位置坐标；

根据上一步的位置信息、飞行速度在y轴上的分量、单步的执行时间，预估当前步在y轴的位置坐标；

根据所述当前步在x轴的位置坐标和所述当前步在y轴的位置坐标，预估微型航空飞行器与终点坐标的距离。

优选的，所述若大于，则记录所述当前步的Q值差值；若小于等于，则增大当前步的执行时间，包括：

若大于，则记录所述当前步的Q值差值，并控制计数器数值加一；

若小于等于，则将当前步的执行时间更新为单步执行时间的n倍，其中n等于所述计数器数值。

第二方面，本申请提供了一种微型航空飞行器的飞行控制装置，包括：

感知信息确定模块，用于确定当前步的感知信息；

神经网络模块，用于将所述当前步的感知信息输入DQN模型，得到多个Q值；

飞行策略确定模块，用于确定所述多个Q值中最大Q值对应的飞行策略；

执行时间更新模块，用于计算所述多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；判断所述当前步的Q值差值是否大于上一步的Q值差值；若大于，则记录所述当前步的Q值差值；若小于等于，则增大当前步的执行时间；

飞行控制模块，用于根据所述飞行策略和所述当前步的飞行时间，控制微型航空飞行器飞行一步。

第三方面，本申请提提供了一种微型航空飞行器的飞行控制设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如上所述的微型航空飞行器的飞行控制方法。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上所述的微型航空飞行器的飞行控制方法。

本申请所提供的一种微型航空飞行器的飞行控制方法，包括：确定当前步的感知信息；将当前步的感知信息输入DQN模型，得到多个Q值；确定多个Q值中最大Q值对应的飞行策略；计算多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；判断当前步的Q值差值是否大于上一步的Q值差值；若大于，则记录当前步的Q值差值；若小于等于，则增大当前步的执行时间；根据飞行策略和当前步的飞行时间，控制微型航空飞行器飞行一步。

微型航空飞行器在自主飞行过程中，每飞行一步都需要做一次决策，在每次决策过程中都需要通过繁琐的计算确定下一步的飞行动作，可以简单理解为，自主飞行过程中的计算量与总步数(总决策次数)成正比。一般情况下，单步的执行时间是固定值，而该方法能够在一定情况下增大单步的执行时间，相当于减少了自主飞行过程中的总飞行步数，即减少整个自主飞行过程中的计算量和决策耗时，降低微型航空飞行器的计算能耗和机械能耗，提升微型航空飞行器的续航能力。具体的，该方法增大单步的执行时间的策略如下：

由于微型航空飞行器一步的执行时间通常固定并且极小，这就使得相邻两步之间微型航空飞行器获取到的感知信息之间具有巨大的相似性，所以，相邻两步的感知信息输入DQN模型所得到的Q值也具有极大的相似性。已知，飞行策略与Q值一一对应，Q值用于描述相应飞行策略的可取程度，在飞行过程中每个飞行策略对应的Q值是渐变的，而非突变的。因此，在上一步的最大Q值远大于其他Q值时，下一步采取的飞行策略往往与上一步相同。因此，本申请在每一步计算DQN模型输出的最大Q值和次大Q值之间的差值，得到Q值差值，并比较相邻两步的Q值差值的大小，若当前步的Q值差值大于上一步的Q值差值，说明当前步更加倾向于延续上一步的飞行策略，相反，如果当前步的Q值差值小于上一步的Q值差值，则说明当前步延续上一步的飞行策略的倾向程度开始减弱。考虑到微型航空飞行器的飞行过程呈现周期性，所以，当前步延续上一步的飞行策略的倾向程度开始减弱就表明开始进入一个周期的下半段，此时，这个周期下半段的飞行过程与该周期上半段呈现对称性，所以下半段的飞行策略是可以预见的，为了节省计算量，本申请在这种情况下加大当前步的执行时间，从而达到减少单个飞行周期的飞行步数的目的。

此外，本申请还提供了一种微型航空飞行器的飞行控制装置、设备及可读存储介质，其技术效果与上述方法的技术效果相对应，这里不再赘述。

附图说明

为了更清楚的说明本申请实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请所提供的微型航空飞行器的飞行控制方法实施例一的流程图；

图2为本申请所提供的微型航空飞行器的飞行控制方法实施例二的流程图；

图3为本申请所提供的微型航空飞行器的飞行控制方法实施例二中周围环境信息预估过程的流程图；

图4为本申请所提供的微型航空飞行器的飞行控制方法实施例二中运动学状态信息预估过程的流程图；

图5为本申请所提供的微型航空飞行器的飞行控制方法实施例二中转换矩阵的示意图；

图6为本申请所提供的微型航空飞行器的飞行控制方法实施例二中执行时间更新过程的示意图；

图7为本申请所提供的微型航空飞行器的飞行控制装置实施例的功能框图；

图8为本申请所提供的微型航空飞行器的飞行控制设备实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面对本申请提供的微型航空飞行器的飞行控制方法实施例一进行介绍，参见图1，实施例一包括：

S11、确定当前步的感知信息；

S12、将当前步的感知信息输入DQN模型，得到多个Q值；

S13、确定多个Q值中最大Q值对应的飞行策略；

S14、计算多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；判断当前步的Q值差值是否大于上一步的Q值差值；若大于，则记录当前步的Q值差值；若小于等于，则增大当前步的执行时间；

S15、根据飞行策略和当前步的飞行时间，控制微型航空飞行器飞行一步。

对于微型航空飞行器来说，一个回合(episode)是指微型航空飞行器从起点出发，经过若干步(step)后，达到终止条件或终点的过程。通常，一个回合是由多个步组成。而一步是指微型航空飞行器经过了一次完整的感知、计划和行动控制的过程。本实施例用于控制微型航空飞行器在自主飞行过程中飞行一步。

自主飞行的过程为，微型航空飞行器首先获取感知信息，然后利用对这些感知信息进行提取、处理，进而将其输入DQN模型。DQN模型利用神经网络作为近似函数来替代Q值表，感知信息经过神经网络的处理，可以得到x个Q值(x是该网络的输出空间大小)，每个Q值与唯一的飞行策略相对应，Q值越大表明相应的飞行策略越可取。最终，基于某种策略来选择最终的飞行策略。对于DQN模型的训练过程，通常采用ε-贪婪策略，以ε的概率随机选择最终飞行策略；而对于测试过程，则采用贪婪策略，选择具有最大Q值的飞行策略。本实施例不考虑模型训练的情况，选择最大Q值对应的飞行策略，最后，将相应的控制命令传输到驱动来控制微型航空飞行器的实际动作。

具体的，上述感知信息可以包括周围环境信息(如景深图像)以及自身的运动学状态信息(如飞行速度和位置)。上述确定当前步的感知信息的过程，具体可以为：微型航空飞行器通过机载传感器和景深相机采集周围环境信息以及自身的运动学状态信息。

如前文所述，本实施例在每一步计算DQN模型输出的最大Q值和次大Q值之间的差值，得到Q值差值，并比较相邻两步的Q值差值的大小，若当前步的Q值差值小于上一步的Q值差值，则表明开始进入一个周期的下半段。此时，这个周期下半段的飞行过程与该周期上半段的飞行过程呈现对称性，所以下半段的飞行策略是可以预见的，本实施例在这种情况下加大当前步的执行时间，从而达到节省计算量的目的。

作为一种具体的实施方式，可以通过计数器测量该周期上半段的步数，假设上半段的步数为n，直接将当前步的执行时间设置为单步执行时间的n倍，从而一步完成该周期的下半段，直接减少了几乎半个周期的计算量和计算耗时。当然，直接设置为n倍可能会带来误差，所以也可以将当前步的执行时间设置为m倍的单步执行时间，其中m为大于1且小于n的任意数值。总之，本实施例对增大后的当前步的执行时间不做具体限制，只要保证能够减少下半周期的步数即可。

本实施例所提供的微型航空飞行器的飞行控制方法，包括：确定当前步的感知信息；将当前步的感知信息输入DQN模型，得到多个Q值；确定多个Q值中最大Q值对应的飞行策略；计算多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；判断当前步的Q值差值是否大于上一步的Q值差值；若大于，则记录当前步的Q值差值；若小于等于，则增大当前步的执行时间；根据飞行策略和当前步的飞行时间，控制微型航空飞行器飞行一步。

可见，该方法能够在一定情况下增大单步的执行时间，相当于减少了自主飞行过程中的总飞行步数，从而节省微型航空飞行器所耗的能量，提升飞行控制效率和续航能力。值得一提的是，这里节省的能耗一方面包括多余计算量带来的能耗，另一方面还包括决策过程中微型航空飞行器的的机械耗能。本实施例中，微型航空飞行器的在决策时可以近似认为是悬停的，实际可能是减速状态。

下面开始详细介绍本申请提供的微型航空飞行器的飞行控制方法实施例二，实施例二基于前述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

由于微型航空飞行器一步的执行时间通常固定并且极小，这就使得相邻两步之间微型航空飞行器获取到的感知信息之间具有巨大的相似性。因此，没必要每次都通过机载传感器采集这些数据，为了节省能耗，可以考虑根据上一步的感知数据预估当前步的感知数据。考虑到微型航空飞行器的飞行类型主要包括前进和偏转两种，而在动作类型为偏转时感知数据的预估难度较大，容易得出偏差过大的感知数据，因此，本实施例只在上一步采取的动作类型为前进时，才根据上一步的感知数据预估当前步的感知数据。

如图2所示，实施例二具体包括以下步骤：

S21、若上一步采取的动作类型为前进，则根据上一步的感知信息预估当前步的感知信息。

如前文所述，感知信息包括周围环境信息以及运动学状态信息。也就是说，当微型航空飞行器上一步采取的飞行策略是向前移动一段距离时，本实施例可以根据上一步的周围环境信息来近似当前步的周围环境信息，同理，根据上一步的运动学状态信息近似出当前步的运动学状态信息。

S22、若上一步采取的动作类型为偏转，则利用机载传感器采集当前步的感知信息。

S23、将当前步的感知信息输入DQN模型，得到多个Q值。

S24、确定多个Q值中最大Q值对应的飞行策略。

S25、计算所述多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；

S26、判断当前步的Q值差值是否大于上一步的Q值差值；若是，进入S27，否则进入28。

S27、记录所述当前步的Q值差值，并控制计数器数值加一。

S28、将当前步的执行时间更新为单步执行时间的n倍，其中n等于所述计数器数值；重置所述计数器数值，清空历史记录的Q值差值。

S29、根据所述飞行策略和所述当前步的飞行时间，控制微型航空飞行器飞行一步。

本实施例中，微型航空飞行器的飞行过程可以分为三个阶段：感知、计划和行动。整体实施过程如下所示：在一个回合开始，也就是第一步，微型航空飞行器首先利用机载传感器，如相机，IMU(Inertial Measurement Unit，惯性测量单元)等，获取所需的周围环境信息以及自身的运动学状态信息，然后飞行控制计算机对这些信息先进行预处理，之后作为DQN模型的输入，得到一系列的Q值，每个Q值对应一种预定义的飞行策略，微型航空飞行器最大Q值对应的飞行策略。此外，记录此次决策的最大Q值与次大Q值之间的差值。

对于下一步的执行，需要根据上一步做出的决策分以下两种情况：(1)如果上一步采取的动作是前进，那么在接下来的一步中采用预估方法，利用上一步的感知信息与某些参数(微型航空飞行器速度，单步执行时间)来近似地计算出当前步的感知信息。(2)如果上一步采取的动作是偏转，那么在接下来的一步中，正常执行，调用传感器进行采集感知数据，然后计划，进而微型航空飞行器采取行动。

作为一种具体的实施方式，上述根据上一步的感知信息预估当前步的感知信息的过程，具体为：根据上一步的感知信息、飞行速度、单步执行时间，预估当前步的感知信息。其中，飞行速度是预先设置的一个向量，代表微型航空飞行器在x,y,z三个方向的速度。

如前文所述，所述感知信息包括周围环境信息。具体的，周围环境信息的存储格式为深度图像，深度图像中的像素值表示像素点与微型航空飞行器之间的距离。在S21中的感知信息为周围环境信息时，上述根据上一步的感知信息预估当前步的感知信息的过程，如图3所示：

S31、对于上一步的深度图像中的每个像素点，确定所述像素点相对于微型航空飞行器的偏角；

S32、根据所述偏角、飞行速度、单步执行时间，对所述像素点的像素值进行更新，得到转换矩阵；

S33、根据上一步的深度图像和转换矩阵，生成当前步的深度图像。

如前文所述，感知信息还包括运动学状态信息。具体的，运动学状态信息包括位置信息，位置信息的存储格式为坐标向量(x,y,d)，其中x、y分别表示微型航空飞行器在x轴和y轴的位置坐标，d表示微型航空飞行器与终点坐标的距离。在S21中的感知信息为运动学状态信息中的位置信息时，上述根据上一步的感知信息预估当前步的感知信息的过程，如图4所示：

S41、根据上一步的位置信息、飞行速度在x轴上的分量、单步的执行时间，预估当前步在x轴的位置坐标；

S42、根据上一步的位置信息、飞行速度在y轴上的分量、单步的执行时间，预估当前步在y轴的位置坐标；

S43、根据当前步在x轴的位置坐标和当前步在y轴的位置坐标，预估微型航空飞行器与终点坐标的距离。

综上，感知信息的预估过程如下：以深度图像，飞行速度，位置信息作为DQN模型的输入。由于速度是预先确定的，因此，感知信息的近似主要是指深度图像的近似和位置信息的近似：(1)对于深度图像的近似，本实施例仅考虑像素值的映射而不考虑像素坐标的映射。图5表示了转换矩阵的形式，对于像素矩阵中心的那个点，其值变化量D_[m/2],[n/2]是微型航空飞行器在一个前进动作所移动的距离，近似等于微型航空飞行器速度乘以一个动作的执行时间；对于其余像素点(i，j)，计算该像素点相对于相机的偏角θ，那么D_i,j＝D_[m/2],[n/2]/cos(θ)。求出转换矩阵的所有值后，用上一步的图像矩阵减去该转换矩阵即为当前的图像矩阵。(2)对于位置信息的近似，x值和y值可以根据上一步的位置信息以及微型航空飞行器在各个方向上移动的距离来求得；d值可以根据当前近似出的x值、y值和终点坐标求得。

本实施例在将感知信息输入DQN模型之后，得到一系列Q值。本实施例不仅仅确定最大Q值对应的飞行策略，还会计算最大Q值与次大Q值的差值，得到当前步的Q值差值。然后执行如图6所示的过程：

将上一步的Q值差值与当前步的Q值差值进行比较，若当前步的Q值差值大于上一步的Q值差值，则计数器的数值加一，记录当前步的Q值差值；若当前步的Q值差值小于等于上一步的Q值差值，则认为Q值差值达到了峰值，增大当前步的执行时间，重置计数器的数值，清空历史记录的Q值差值。本实施例具体将当前步的执行时间增大为单步执行时间的n倍，其中n为计数器数值。

每步结束后，查看当前是否满足终止状态或者达到终点。若是，飞行任务结束，否则，循环执行上述过程。

本实施例所提供的微型航空飞行器的飞行控制方法，并没有额外的添加硬件设备，只是引入了少量的其他方面的开销。首先，申请额外的空间来存储上一步的状态信息以及某些参数。其次，根据之前状态近似当前状态，进行额外的计算。从整体而言，本实施例能够减少微型航空飞行器在飞行过程中的能耗，提升微型航空飞行器的续航能力。

下面对本申请提供的微型航空飞行器的飞行控制装置进行介绍，下文描述的微型航空飞行器的飞行控制装置与上文描述的微型航空飞行器的飞行控制方法可相互对应参照。

如图7所示，微型航空飞行器的飞行控制装置，包括：

感知信息确定模块71，用于确定当前步的感知信息；

神经网络模块72，用于将所述当前步的感知信息输入DQN模型，得到多个Q值；

飞行策略确定模块73，用于确定所述多个Q值中最大Q值对应的飞行策略；

执行时间更新模块74，用于计算所述多个Q值中最大Q值和次大Q值的差值，以作为当前步的Q值差值；判断所述当前步的Q值差值是否大于上一步的Q值差值；若大于，则记录所述当前步的Q值差值；若小于等于，则增大当前步的执行时间；

飞行控制模块75，用于根据所述飞行策略和所述当前步的飞行时间，控制微型航空飞行器飞行一步。

本实施例的微型航空飞行器的飞行控制装置用于实现前述的微型航空飞行器的飞行控制方法，因此该装置的具体实施方式可见前文中的微型航空飞行器的飞行控制方法的实施例部分，例如，感知信息确定模块71，神经网络模块72，飞行策略确定模块73，执行时间更新模块74，飞行控制模块75，分别用于实现上述微型航空飞行器的飞行控制装置中步骤S11，S12，S13，S14，S15。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的微型航空飞行器的飞行控制装置用于实现前述的微型航空飞行器的飞行控制方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本申请还提供了一种微型航空飞行器的飞行控制设备，如图8所示，包括：

存储器100，用于存储计算机程序；

处理器200，用于执行所述计算机程序，以实现如上文所述的微型航空飞行器的飞行控制方法。

最后，本申请提供了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如上文所述的微型航空飞行器的飞行控制方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种微型航空飞行器的飞行控制方法，其特征在于，包括：

确定当前步的感知信息；

将所述当前步的感知信息输入DQN模型，得到多个Q值；

确定所述多个Q值中最大Q值对应的飞行策略；

2.如权利要求1所述的方法，其特征在于，所述确定当前步的感知信息，包括：

3.如权利要求2所述的方法，其特征在于，所述根据上一步的感知信息预估当前步的感知信息，包括：

4.如权利要求3所述的方法，其特征在于，所述感知信息包括周围环境信息和运动学状态信息；

5.如权利要求4所述的方法，其特征在于，在所述感知信息为所述周围环境信息时，所述根据上一步的感知信息、飞行速度、单步的执行时间，预估当前步的感知信息，包括：

6.如权利要求4所述的方法，其特征在于，在所述感知信息为所述运动学状态信息中的位置信息时，所述根据上一步的感知信息、飞行速度、单步的执行时间，预估当前步的感知信息，包括：

7.如权利要求1至6任意一项所述的方法，其特征在于，所述若大于，则记录所述当前步的Q值差值；若小于等于，则增大当前步的执行时间，包括：

8.一种微型航空飞行器的飞行控制装置，其特征在于，包括：

感知信息确定模块，用于确定当前步的感知信息；

9.一种微型航空飞行器的飞行控制设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任意一项所述的微型航空飞行器的飞行控制方法。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时用于实现如权利要求1至7任意一项所述的微型航空飞行器的飞行控制方法。