CN114115350A

CN114115350A - 飞行器的控制方法、装置及设备

Info

Publication number: CN114115350A
Application number: CN202111460294.2A
Authority: CN
Inventors: 李清; 蔡宗羲; 程农
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-01
Anticipated expiration: 2041-12-02
Also published as: CN114115350B

Abstract

本申请提供一种飞行器的控制方法、装置及设备，涉及自动化控制技术，该方法包括：通过传感器获取飞行器的当前飞行信息；利用预设的动作分析模型对当前飞行信息进行分析，得到与当前飞行信息对应的动作控制指令；其中，动作分析模型为根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项；根据动作控制指令控制飞行器飞行。本申请的方法，通过奖励函数包括的速度惩罚项、安全距离惩罚项及航向角惩罚项，可以训练得到动作分析模型，使得飞行器可以根据动作分析模型对当前飞行信息进行准确有效的分析，解决了飞行器根据飞行信息规划飞行的可行性轨迹的准确率较低的技术问题。

Description

飞行器的控制方法、装置及设备

技术领域

本申请涉及自动化控制技术，尤其涉及一种飞行器的控制方法、装置及设备。

背景技术

随着科技的发展，飞行器已经应用到了很多场景中。在未知环境内飞行器需要根据观测到的飞行信息，对飞行的可行性轨迹进行规划。

现有技术中，飞行器对飞行的可行性轨迹进行规划时，是将观测到的飞行信息输入动作分析模型中，得到对应的控制序列，控制序列为动作控制指令，再由控制器将动作控制指令转换为作动器的控制讯号，根据控制讯号实时控制自身飞行。其中，动作分析模型是由奖励函数引导，以观测到的多个飞行信息作为观测值，在训练过程中对神经网络模型进行不断优化得到的，奖励函数包括安全距离惩罚项。

然而现有技术中，由于根据奖励函数训练神经网络模型时，奖励函数只包括安全距离惩罚项，所以奖励函数只针对安全距离进行计算，不能满足飞行器的多种飞行信息，进而造成得到的动作分析模型不能对多种飞行信息进行准确有效的分析，导致飞行器根据多种飞行信息规划飞行的可行性轨迹的准确率较低。

发明内容

本申请提供一种飞行器的控制方法、装置及设备，用以解决飞行器根据飞行信息规划飞行的可行性轨迹的准确率较低的技术问题。

第一方面，本申请提供一种飞行器的控制方法，所述方法应用于飞行器，所述飞行器中设置有传感器；所述方法包括：

通过所述传感器获取所述飞行器的当前飞行信息；

利用预设的动作分析模型对所述当前飞行信息进行分析，得到与所述当前飞行信息对应的动作控制指令；其中，所述动作分析模型为根据奖励函数对神经网络模型训练得到的，所述奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项；

根据所述动作控制指令控制所述飞行器飞行。

进一步地，利用预设的动作分析模型对所述当前飞行信息进行分析，得到与所述当前飞行信息对应的动作控制指令，包括：

将所述当前飞行信息输入预设的动作分析模型中，确定所述当前飞行信息对应的移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值；

确定所述移动奖励值、所述速度惩罚值、所述安全距离惩罚值及所述航向角惩罚值四者之间的差值信息，并在预设的动作集合中得到与所述差值信息对应的动作控制指令。

进一步地，所述传感器包括多个激光雷达；通过所述传感器获取所述飞行器的当前飞行信息，包括：

通过所述激光雷达向所述飞行器的周围发射激光；

通过所述激光雷达接收反射回的激光，并利用每个所述激光雷达对应的发射出的激光及反射回的激光，确定所述飞行器的多个当前安全距离，并根据多个所述当前安全距离生成安全距离集合；其中，所述当前安全距离为在实际飞行环境中所述飞行器与障碍物之间的距离，所述当前安全距离为当前飞行信息。

进一步地，所述当前飞行信息还包括所述飞行器的当前飞行位置、当前飞行速度、当前夹角信息，所述当前夹角信息为飞行航向角与预设目标点之间的夹角。

进一步地，所述方法还包括：

获取所述飞行器的多个飞行任务；其中，每个所述飞行任务包括多个时间段及每个时间段内的飞行信息；所述飞行信息包括：飞行位置、安全距离、飞行速度、以及夹角信息，所述夹角信息为飞行航向角与预设目标点之间的夹角；

基于奖励函数，根据每个时间段内的飞行信息对神经网络模型进行训练，直至所述神经网络模型收敛，得到动作分析模型；所述奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，所述动作分析模型包括由飞行信息组成的信息集合，以及根据所述飞行信息生成的动作控制指令组成的动作集合。

进一步地，基于奖励函数，根据每个时间段内的飞行信息对神经网络模型进行训练，直至所述神经网络模型收敛，得到动作分析模型，包括：

根据每个时间段内的飞行信息，确定所述飞行器在每个时间段内的飞行情况；

当所述飞行情况为发生碰撞时，根据奖励函数生成负奖励值，并再次执行获取所述飞行器的多个飞行任务的步骤；

当所述飞行情况为飞达目标点时，根据奖励函数生成正奖励值，并再次执行获取所述飞行器的多个飞行任务的步骤；

当所述飞行情况为未发生碰撞且未飞达目标点时，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值；

当所述移动奖励值、所述安全距离惩罚值、所述速度惩罚值及所述航向角惩罚值均收敛时，生成动作分析模型。

进一步地，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值，包括：

根据在任一时间段所述飞行器的飞行位置与目标点之间的第一距离、在任一时间段的前一时间段所述飞行器的飞行位置与目标点之间的第二距离、以及预设第一系数，确定移动奖励值；

根据每一时间段对应的安全距离集合以及预设第二系数，确定安全距离惩罚值；

根据每一时间段内的飞行速度、预设的速度阈值以及预设第三系数，确定速度惩罚值；

根据每一时间段内的飞行航向角、预设目标点的航向角以及预设第四系数，确定航向角惩罚值。

进一步地，当所述移动奖励值、所述安全距离惩罚值、所述速度惩罚值及所述航向角惩罚值均收敛时，生成动作分析模型，包括：

确定每一时间段内的所述移动奖励值、所述安全距离惩罚值、所述速度惩罚值与所述航向角惩罚值四者之间的差值信息，并根据所述差值信息生成动作控制指令；

当所述差值信息收敛时，根据所述动作控制指令与所述差值信息之间的对应关系，生成动作分析模型。

第二方面，本申请提供一种飞行器的控制装置，所述装置应用于飞行器，所述飞行器中设置有传感器；所述装置包括：

第一获取单元，用于通过所述传感器获取所述飞行器的当前飞行信息；

分析单元，用于利用预设的动作分析模型对所述当前飞行信息进行分析，得到与所述当前飞行信息对应的动作控制指令；其中，所述动作分析模型为根据奖励函数对神经网络模型训练得到的，所述奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项；

控制单元，用于根据所述动作控制指令控制所述飞行器飞行。

进一步地，所述分析单元，包括：

第一确定模块，用于将所述当前飞行信息输入预设的动作分析模型中，确定所述当前飞行信息对应的移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值；

第二确定模块，用于确定所述移动奖励值、所述速度惩罚值、所述安全距离惩罚值及所述航向角惩罚值四者之间的差值信息，并在预设的动作集合中得到与所述差值信息对应的动作控制指令。

进一步地，所述传感器包括多个激光雷达；所述第一获取单元，包括：

发射模块，用于通过所述激光雷达向所述飞行器的周围发射激光；

接收模块，用于通过所述激光雷达接收反射回的激光；

第一生成模块，用于利用每个所述激光雷达对应的发射出的激光及反射回的激光，确定所述飞行器的多个当前安全距离，并根据多个所述当前安全距离生成安全距离集合；其中，所述当前安全距离为在实际飞行环境中所述飞行器与障碍物之间的距离，所述当前安全距离为当前飞行信息。

进一步地，所述装置还包括：

第二获取单元，用于获取所述飞行器的多个飞行任务；其中，每个所述飞行任务包括多个时间段及每个时间段内的飞行信息；所述飞行信息包括：飞行位置、安全距离、飞行速度、以及夹角信息，所述夹角信息为飞行航向角与预设目标点之间的夹角；

训练单元，用于基于奖励函数，根据每个时间段内的飞行信息对神经网络模型进行训练，直至所述神经网络模型收敛，得到动作分析模型；所述奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，所述动作分析模型包括由飞行信息组成的信息集合，以及根据所述飞行信息生成的动作控制指令组成的动作集合。

进一步地，所述训练单元，包括：

第三确定模块，用于根据每个时间段内的飞行信息，确定所述飞行器在每个时间段内的飞行情况；

第二生成模块，用于当所述飞行情况为发生碰撞时，根据奖励函数生成负奖励值，并再次执行获取所述飞行器的多个飞行任务的步骤；

第三生成模块，用于当所述飞行情况为飞达目标点时，根据奖励函数生成正奖励值，并再次执行获取所述飞行器的多个飞行任务的步骤；

第四生成模块，用于当所述飞行情况为未发生碰撞且未飞达目标点时，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值；

第五生成模块，用于当所述移动奖励值、所述安全距离惩罚值、所述速度惩罚值及所述航向角惩罚值均收敛时，生成动作分析模型。

进一步地，所述第四生成模块，包括：

第一生成子模块，用于根据在任一时间段所述飞行器的飞行位置与目标点之间的第一距离、在任一时间段的前一时间段所述飞行器的飞行位置与目标点之间的第二距离、以及预设第一系数，确定移动奖励值；

第二生成子模块，用于根据每一时间段对应的安全距离集合以及预设第二系数，确定安全距离惩罚值；

第三生成子模块，用于根据每一时间段内的飞行速度、预设的速度阈值以及预设第三系数，确定速度惩罚值；

第四生成子模块，用于根据每一时间段内的飞行航向角、预设目标点的航向角以及预设第四系数，确定航向角惩罚值。

进一步地，所述第五生成模块，包括：

第五生成子模块，用于确定每一时间段内的所述移动奖励值、所述安全距离惩罚值、所述速度惩罚值与所述航向角惩罚值四者之间的差值信息，并根据所述差值信息生成动作控制指令；

第六生成子模块，用于当所述差值信息收敛时，根据所述动作控制指令与所述差值信息之间的对应关系，生成动作分析模型。

第三方面，本申请提供一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现第一方面所述的方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法。

本申请提供的飞行器的控制方法、装置及设备，通过传感器获取所述飞行器的当前飞行信息；利用预设的动作分析模型对当前飞行信息进行分析，得到与当前飞行信息对应的动作控制指令；其中，动作分析模型为根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项；根据动作控制指令控制飞行器飞行。本方案中，可以利用动作分析模型分析当前飞行信息，由于动作分析模型是根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，所以可以得到与当前飞行信息对应的动作控制指令，进而可以根据动作控制指令控制飞行器飞行，因此，通过奖励函数包括的速度惩罚项、安全距离惩罚项及航向角惩罚项，可以训练得到动作分析模型，使得飞行器可以根据动作分析模型对当前飞行信息进行准确有效的分析，解决了飞行器根据飞行信息规划飞行的可行性轨迹的准确率较低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的一种飞行器的控制方法的流程示意图；

图2为本申请实施例提供的另一种飞行器的控制方法的流程示意图；

图3为本申请实施例提供的一种飞行器的控制装置的结构示意图；

图4为本申请实施例提供的另一种飞行器的控制装置的结构示意图；

图5为本申请实施例提供的一种电子设备的结构示意图；

图6为本申请实施例提供的一种电子设备的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

一个示例中，随着科技的发展，飞行器已经应用到了很多场景中。在未知环境内飞行器需要根据观测到的飞行信息，对飞行的可行性轨迹进行规划。现有技术中，飞行器对飞行的可行性轨迹进行规划时，是将观测到的飞行信息输入动作分析模型中，得到对应的控制序列，控制序列为动作控制指令，再由控制器将动作控制指令转换为作动器的控制讯号，根据控制讯号实时控制自身飞行。其中，动作分析模型是由奖励函数引导，以观测到的多个飞行信息作为观测值，在训练过程中对神经网络模型进行不断优化得到的，奖励函数包括安全距离惩罚项。然而现有技术中，由于根据奖励函数训练神经网络模型时，奖励函数只包括安全距离惩罚项，所以奖励函数只针对安全距离进行计算，不能满足飞行器的多种飞行信息，进而造成得到的动作分析模型不能对多种飞行信息进行准确有效的分析，导致飞行器根据多种飞行信息规划飞行的可行性轨迹的准确率较低。

本申请提供的飞行器的控制方法、装置及设备，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1为本申请实施例提供的一种飞行器的控制方法的流程示意图，如图1所示，该方法应用于飞行器，飞行器中设置有传感器；该方法包括：

101、通过传感器获取飞行器的当前飞行信息。

示例性地，本实施例的执行主体可以为飞行器，飞行器包括四旋翼、飞机等，对此不做限制。

首先，飞行器需要通过传感器获取自身的当前飞行信息，当前飞行信息包括飞行器的当前飞行位置、当前安全距离、当前飞行速度、当前夹角信息，当前夹角信息为飞行航向角与预设目标点之间的夹角。

102、利用预设的动作分析模型对当前飞行信息进行分析，得到与当前飞行信息对应的动作控制指令；其中，动作分析模型为根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项。

示例性地，预设的动作分析模型为根据奖励函数对神经网络模型训练得到的，其中，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，飞行器可以利用预设的动作分析模型对当前飞行信息进行分析，进而得到与当前飞行信息对应的动作控制指令。

103、根据动作控制指令控制飞行器飞行。

示例性地，将动作控制指令转换为控制讯号给制动器，进而实时的控制飞行器飞行。

本申请实施例中，通过传感器获取飞行器的当前飞行信息。利用预设的动作分析模型对当前飞行信息进行分析，得到与当前飞行信息对应的动作控制指令；其中，动作分析模型为根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项。根据动作控制指令控制飞行器飞行。本方案中，可以利用动作分析模型分析当前飞行信息，由于动作分析模型是根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，所以可以得到与当前飞行信息对应的动作控制指令，进而可以根据动作控制指令控制飞行器飞行，因此，通过奖励函数包括的速度惩罚项、安全距离惩罚项及航向角惩罚项，可以训练得到动作分析模型，使得飞行器可以根据动作分析模型对当前飞行信息进行准确有效的分析，解决了飞行器根据飞行信息规划飞行的可行性轨迹的准确率较低的技术问题。

图2为本申请实施例提供的另一种飞行器的控制方法的流程示意图，如图2所示，该方法包括：

201、获取飞行器的多个飞行任务；其中，每个飞行任务包括多个时间段及每个时间段内的飞行信息；飞行信息包括：飞行位置、安全距离、飞行速度、以及夹角信息，夹角信息为飞行航向角与预设目标点之间的夹角。

示例性地，可以获取飞行器的多个飞行任务，飞行任务可以以离散的时间序列表示，并根据预设的时间间隔对飞行任务进行拆分，得到N个时间段，时间段的集合记为T＝{t₀，t₁，t₂，...，t_N}，其中，时间段可以为秒、分钟或小时等时间单位，t₀对应的是初始时刻，t₁是第一段时间…t_N是第N段时间，初始时间对应的是初始飞行信息，第一段时间对应的是第一段时间的飞行信息，第N段时间对应的是第N段时间的飞行信息。飞行信息包括：飞行位置、安全距离、飞行速度、以及夹角信息，夹角信息为飞行航向角与预设目标点之间的夹角。

示例性的，时间段相当于步长(timestep)，飞行位置记为p_t＝[x_t，y_t]，为一维阵列，纪录当前时刻飞行器于大地坐标系的飞行位置；飞行速度记为

为一维阵列，纪录当前时刻飞行器于大地坐标系的绝对速度；激光雷达的信息记为l_t＝[k₁，k₂，…，k_n]，为一维阵列，纪录激光雷达量测的数值，下标1至n代表激光束的编号；飞行航向角与目标点之间的夹角信息记为h_t，为一维阵列。

202、根据每个时间段内的飞行信息，确定飞行器在每个时间段内的飞行情况。

示例性地，可以根据每个时间段内的飞行信息，确定飞行器在每个时间段内的具体飞行情况。

203、当飞行情况为发生碰撞时，根据奖励函数生成负奖励值，并再次执行获取飞行器的多个飞行任务的步骤。

示例性地，在每一时间段内，可以预先设置飞行器与障碍物之间的距离记为r_t，碰撞阈值为m_obstacle，若飞行器与障碍物之间的距离r_t小于m_obstacle，则判定为发生碰撞，此时可以根据奖励函数生成负奖励值，记为r_collision，并重置环境，再次执行步骤201。

204、当飞行情况为飞达目标点时，根据奖励函数生成正奖励值，并再次执行获取飞行器的多个飞行任务的步骤。

示例性地，在每一时间段内，可以预先设置飞行器与目标点之间的距离记为dt，距离阈值为m_goal，若飞行器与障碍物之间的距离dt小于m_goal，则判定为飞达目标点，此时可以根据奖励函数生成正奖励值，记为r_goal，并重置环境，再次执行步骤201。所以，可以将发生碰撞或飞达目标点表示为：

205、当飞行情况为未发生碰撞且未飞达目标点时，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值；其中，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项。

一个示例中，步骤205具体包括：根据在任一时间段飞行器的飞行位置与目标点之间的第一距离、在任一时间段的前一时间段飞行器的飞行位置与目标点之间的第二距离、以及预设第一系数，确定移动奖励值；根据每一时间段对应的安全距离集合以及预设第二系数，确定安全距离惩罚值；根据每一时间段内的飞行速度、预设的速度阈值以及预设第三系数，确定速度惩罚值；根据每一时间段内的飞行航向角、预设目标点的航向角以及预设第四系数，确定航向角惩罚值。

示例性地，根据在任一时间段飞行器的飞行位置与目标点之间的第一距离d_t、在任一时间段的前一时间段飞行器的飞行位置与目标点之间的第二距离d_t-1、以及预设第一系数c_d，可以计算并确定移动奖励值c_d·f_d(d_t，d_t-1)，对应的公式为：

c_d·f_d(d_t，d_t-1)＝c_d(d_t-1-d_t)

其中，由函数f_d计算与前一时间段相比，飞行器是接近或远离目标点，并以此给予正或负的奖励值，可以将其表示为：

c_d·f_d(d_t，d_t-1)＝c_d(d_t-1-d_t)

示例性地，可以根据每一时间段对应的安全距离集合l_t＝[k₁，k₂，...k_n]，以及预设第二系数c_l，确定安全距离惩罚值c_l·f_l(l_t)，对应的公式为：

其中，安全距离记为l_safe，安全局值记为m_laser，若l_t的激光束量测出的安全距离值小于l_safe的个数大于m_laser，则计算并确定安全距离惩罚值，并随超出m_laser的个数增加。

示例性地，可以根据每一时间段内的飞行速度v_t、预设的速度阈值m_speed以及预设第三系数c_v，确定速度惩罚值c_v·f_v(v_t)，对应的公式为：

c_vf_v(v_t)＝c_v(|min{(‖v_t‖-m_speed)，0}|)

其中，当飞行速度小于m_speed，则给予对应的惩罚值，并随速度的下降增加惩罚值。

示例性地，可以根据每一时间段内的飞行航向角、预设目标点的航向角以及预设第四系数c_h，确定航向角惩罚值，对应的公式为：

c_h·f_h(h_t)＝c_h(|h_t|/90)

其中，h_t表示飞行航向角与预设目标点的航向角之间的夹角信息，夹角信息是根据每一时间段内的飞行航向角、预设目标点的航向角得到的。

206、当移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值均收敛时，生成动作分析模型；其中，动作分析模型包括由飞行信息组成的信息集合，以及根据飞行信息生成的动作控制指令组成的动作集合。

一个示例中，步骤206具体包括：确定每一时间段内的移动奖励值、安全距离惩罚值、速度惩罚值与航向角惩罚值四者之间的差值信息，并根据差值信息生成动作控制指令；当差值信息收敛时，根据动作控制指令与差值信息之间的对应关系，生成动作分析模型。

示例性地，由于每一时间段均包括移动奖励值、安全距离惩罚值、速度惩罚值与航向角惩罚值，所以，飞行器可以计算出每一时间段内的移动奖励值、安全距离惩罚值、速度惩罚值与航向角惩罚值四者之间的差值信息，差值信息相当于每一时间段内的奖励讯号r_navigate，计算奖励讯号r_navigate的公式为：

r_navigate＝c_df_d(d_t，t_d-1)-c_hf_h(h_t)-c_lf_l(l_t)-c_vf_v(v_t)

然后可以根据差值信息生成动作控制指令，当差值信息收敛时，根据动作控制指令与差值信息之间的对应关系，生成动作分析模型，动作分析模型包括的奖励函数可以记为G_t(s_t，u_t)，策略函数记为π^θ(a|o)，策略函数用于将飞行信息转换为动作控制指令，动作策略转换为控制输入的函数记为μ，则可以将训练神经网络模型的过程表示成方程式：

u_t＝μ(π^θ(a|o))

s_t+1＝f_t(s_t，u_t)

207、传感器包括多个激光雷达；通过激光雷达向飞行器的周围发射激光。

示例性地，传感器包括多个激光雷达，在此对激光雷达的数量不做限定，激光雷达的数量越多，发射的激光越多，根据发射的激光确定出的安全距离会更加准确。所以，可以通过多个激光雷达分别向飞行器的周围发射激光。

208、通过激光雷达接收反射回的激光，并利用每个激光雷达对应的发射出的激光及反射回的激光，确定飞行器的多个当前安全距离，并根据多个当前安全距离生成安全距离集合；其中，当前安全距离为在实际飞行环境中飞行器与障碍物之间的距离，当前安全距离为当前飞行信息。

一个示例中，当前飞行信息还包括飞行器的当前飞行位置、当前飞行速度、当前夹角信息，当前夹角信息为飞行航向角与预设目标点之间的夹角。

示例性地，飞行器可以通过激光雷达接收反射回的激光，并利用每个激光雷达对应的发射出的激光及反射回的激光，确定飞行器的多个当前安全距离，并根据多个当前安全距离生成安全距离集合，飞行器还可以获取自身的当前飞行位置、当前飞行速度、当前夹角信息，当前夹角信息为飞行航向角与预设目标点之间的夹角。其中，当前安全距离为在实际飞行环境中飞行器与障碍物之间的距离，当前安全距离为当前飞行信息。

209、将当前飞行信息输入预设的动作分析模型中，确定当前飞行信息对应的移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值。

示例性的，由于动作分析模型为根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，所以将当前飞行信息输入预设的动作分析模型中后，可以确定当前飞行信息对应的移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值。

210、确定移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值四者之间的差值信息，并在预设的动作集合中得到与差值信息对应的动作控制指令。

示例性地，飞行器可以确定移动奖励值c_d·f_d(d_t，d_t-1)、速度惩罚值c_v·f_v(v_t)、安全距离惩罚值c_l·f_l(l_t)及航向角惩罚值四者之间的差值信息，确定差值信息r_navigate的公式为：

r_navigate＝c_df_d(d_t，d_t-1)-c_hf_h(h_t)-c_lf_l(l_t)-c_vf_v(v_t)

然后可以在预设的动作集合中得到与差值信息对应的动作控制指令。

211、根据动作控制指令控制飞行器飞行。

本申请实施例中，获取飞行器的多个飞行任务；根据每个时间段内的飞行信息，确定飞行器在每个时间段内的飞行情况。当飞行情况为发生碰撞时，根据奖励函数生成负奖励值，并再次执行获取飞行器的多个飞行任务的步骤。当飞行情况为飞达目标点时，根据奖励函数生成正奖励值，并再次执行获取飞行器的多个飞行任务的步骤。当飞行情况为未发生碰撞且未飞达目标点时，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值；当移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值均收敛时，生成动作分析模型；传感器包括多个激光雷达；通过激光雷达向飞行器的周围发射激光。通过激光雷达接收反射回的激光，并利用每个激光雷达对应的发射出的激光及反射回的激光，确定飞行器的多个当前安全距离，并根据多个当前安全距离生成安全距离集合；将当前飞行信息输入预设的动作分析模型中，确定当前飞行信息对应的移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值。确定移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值四者之间的差值信息，并在预设的动作集合中得到与差值信息对应的动作控制指令。根据动作控制指令控制飞行器飞行。因此，通过奖励函数包括的速度惩罚项、安全距离惩罚项及航向角惩罚项，可以训练得到动作分析模型，使得飞行器可以根据动作分析模型对当前飞行信息进行准确有效的分析，解决了飞行器根据飞行信息规划飞行的可行性轨迹的准确率较低的技术问题。

图3为本申请实施例提供的一种飞行器的控制装置的结构示意图，如图3所示，该装置应用于飞行器，飞行器中设置有传感器；该装置包括：

第一获取单元31，用于通过传感器获取飞行器的当前飞行信息。

分析单元32，用于利用预设的动作分析模型对当前飞行信息进行分析，得到与当前飞行信息对应的动作控制指令；其中，动作分析模型为根据奖励函数对神经网络模型训练得到的，奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项。

控制单元33，用于根据动作控制指令控制飞行器飞行。

本实施例的装置，可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

图4为本申请实施例提供的另一种飞行器的控制装置的结构示意图，在图3所示实施例的基础上，如图4所示，分析单元32，包括：

第一确定模块321，用于将当前飞行信息输入预设的动作分析模型中，确定当前飞行信息对应的移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值。

第二确定模块322，用于确定移动奖励值、速度惩罚值、安全距离惩罚值及航向角惩罚值四者之间的差值信息，并在预设的动作集合中得到与差值信息对应的动作控制指令。

一个示例中，传感器包括多个激光雷达；第一获取单元31，包括：

发射模块311，用于通过激光雷达向飞行器的周围发射激光。

接收模块312，用于通过激光雷达接收反射回的激光。

第一生成模块313，用于利用每个激光雷达对应的发射出的激光及反射回的激光，确定飞行器的多个当前安全距离，并根据多个当前安全距离生成安全距离集合；其中，当前安全距离为在实际飞行环境中飞行器与障碍物之间的距离，当前安全距离为当前飞行信息。

一个示例中，该装置还包括：

第二获取单元41，用于获取飞行器的多个飞行任务；其中，每个飞行任务包括多个时间段及每个时间段内的飞行信息；飞行信息包括：飞行位置、安全距离、飞行速度、以及夹角信息，夹角信息为飞行航向角与预设目标点之间的夹角。

训练单元42，用于基于奖励函数，根据每个时间段内的飞行信息对神经网络模型进行训练，直至神经网络模型收敛，得到动作分析模型；奖励函数包括速度惩罚项、安全距离惩罚项及航向角惩罚项，动作分析模型包括由飞行信息组成的信息集合，以及根据飞行信息生成的动作控制指令组成的动作集合。

一个示例中，训练单元42，包括：

第三确定模块421，用于根据每个时间段内的飞行信息，确定飞行器在每个时间段内的飞行情况。

第二生成模块422，用于当飞行情况为发生碰撞时，根据奖励函数生成负奖励值，并再次执行获取飞行器的多个飞行任务的步骤。

第三生成模块423，用于当飞行情况为飞达目标点时，根据奖励函数生成正奖励值，并再次执行获取飞行器的多个飞行任务的步骤。

第四生成模块424，用于当飞行情况为未发生碰撞且未飞达目标点时，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值。

第五生成模块425，用于当移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值均收敛时，生成动作分析模型。

一个示例中，第四生成模块424，包括：

第一生成子模块4241，用于根据在任一时间段飞行器的飞行位置与目标点之间的第一距离、在任一时间段的前一时间段飞行器的飞行位置与目标点之间的第二距离、以及预设第一系数，确定移动奖励值。

第二生成子模块4242，用于根据每一时间段对应的安全距离集合以及预设第二系数，确定安全距离惩罚值。

第三生成子模块4243，用于根据每一时间段内的飞行速度、预设的速度阈值以及预设第三系数，确定速度惩罚值。

第四生成子模块4244，用于根据每一时间段内的飞行航向角、预设目标点的航向角以及预设第四系数，确定航向角惩罚值。

一个示例中，第五生成模块425，包括：

第五生成子模块4251，用于确定每一时间段内的移动奖励值、安全距离惩罚值、速度惩罚值与航向角惩罚值四者之间的差值信息，并根据差值信息生成动作控制指令。

第六生成子模块4252，用于当差值信息收敛时，根据动作控制指令与差值信息之间的对应关系，生成动作分析模型。

图5为本申请实施例提供的一种电子设备的结构示意图，如图5所示，电子设备包括：存储器51，处理器52；

存储器51中存储有可在处理器52上运行的计算机程序。

处理器52被配置为执行如上述实施例提供的方法。

电子设备还包括接收器53和发送器54。接收器53用于接收外部设备发送的指令和数据，发送器54用于向外部设备发送指令和数据。

图6是本申请实施例提供的一种电子设备的框图，该电子设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)接口612，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理系统，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口612为处理组件602和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到装置600的打开/关闭状态，组件的相对定位，例如组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由装置600的处理器620执行以完成上述方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种非临时性计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述实施例提供的方法。

本申请实施例还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种飞行器的控制方法，其特征在于，所述方法应用于飞行器，所述飞行器中设置有传感器；所述方法包括：

通过所述传感器获取所述飞行器的当前飞行信息；

根据所述动作控制指令控制所述飞行器飞行。

2.根据权利要求1所述的方法，其特征在于，利用预设的动作分析模型对所述当前飞行信息进行分析，得到与所述当前飞行信息对应的动作控制指令，包括：

3.根据权利要求1所述的方法，其特征在于，所述传感器包括多个激光雷达；通过所述传感器获取所述飞行器的当前飞行信息，包括：

通过所述激光雷达向所述飞行器的周围发射激光；

4.根据权利要求3所述的方法，其特征在于，所述当前飞行信息还包括所述飞行器的当前飞行位置、当前飞行速度、当前夹角信息，所述当前夹角信息为飞行航向角与预设目标点之间的夹角。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，基于奖励函数，根据每个时间段内的飞行信息对神经网络模型进行训练，直至所述神经网络模型收敛，得到动作分析模型，包括：

7.根据权利要求6所述的方法，其特征在于，根据奖励函数生成移动奖励值、安全距离惩罚值、速度惩罚值及航向角惩罚值，包括：

8.根据权利要求6所述的方法，其特征在于，当所述移动奖励值、所述安全距离惩罚值、所述速度惩罚值及所述航向角惩罚值均收敛时，生成动作分析模型，包括：

9.一种飞行器的控制装置，其特征在于，所述装置应用于飞行器，所述飞行器中设置有传感器；所述装置包括：

10.根据权利要求9所述的装置，其特征在于，所述分析单元，包括：

11.根据权利要求9所述的装置，其特征在于，所述传感器包括多个激光雷达；所述第一获取单元，包括：

接收模块，用于通过所述激光雷达接收反射回的激光；

12.根据权利要求11所述的装置，其特征在于，所述当前飞行信息还包括所述飞行器的当前飞行位置、当前飞行速度、当前夹角信息，所述当前夹角信息为飞行航向角与预设目标点之间的夹角。

13.根据权利要求9所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述训练单元，包括：

15.根据权利要求14所述的装置，其特征在于，所述第四生成模块，包括：

16.根据权利要求14所述的装置，其特征在于，所述第五生成模块，包括：