CN111045445B

CN111045445B - 一种基于强化学习的飞行器智能避撞方法、设备、介质

Info

Publication number: CN111045445B
Application number: CN201911012471.3A
Authority: CN
Inventors: 曾晖
Original assignee: Haoya Information Technology Co ltd
Current assignee: Haoya Information Technology Co ltd
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-11-28
Anticipated expiration: 2039-10-23
Also published as: CN111045445A

Abstract

本发明提供一种基于强化学习的飞行器智能避撞方法，包括步骤：查询状态，接收数据，计算位置，接收结果。本发明涉及电子设备与可读存储介质，用于执行一种基于强化学习的飞行器智能避撞方法。本发明通过获取航路、飞行器静态和动态数据，计算未来n个时刻点飞行器的空间位置，若飞行器之间距离达到危险阈值，则运用强化学习方法学习避撞策略，输出飞行器飞行调整指令，飞行器执行指令，更新飞行器航向，计算并返回效果评估值，通过效果评估值更新强化学习算法，使得算法在不断的迭代学习中不断优化，实现智能体自主学习与改进，自主避免碰撞的危险情况，解决多飞行器同时飞行时飞行器与飞行器之间的碰撞问题。

Description

一种基于强化学习的飞行器智能避撞方法、设备、介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于强化学习的飞行器智能避撞方法、设备、介质。

背景技术

近年来我国飞行器行业发展迅速，飞行器已经被广泛地应用于军用、民用等各个领域。为了保障飞行安全，需要发展飞行器飞行避撞控制技术。

现有技术中的飞行器避撞控制方法，通过获取飞行器在当前状态下与静态障碍物之间的距离，并判断所述距离是否满足预设值，进而在所述距离不满足预设值时，根据所述距离控制飞行器调节飞行高度，以避免飞行器与所述静态状态障碍物发生碰撞，仅能够避免飞行器与静态障碍物发生碰撞，不能够避免多飞行器同时飞行时飞行器与飞行器之间发生碰撞的情况。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种基于强化学习的飞行器智能避撞方法，解决了现有技术中的飞行器避撞控制方法不能够避免多飞行器同时飞行时飞行器与飞行器之间发生碰撞的问题。

本发明提供一种基于强化学习的飞行器智能避撞方法，包括以下步骤：

查询状态，指令智能体发出查询空间智能体内各飞行器状态的指令；

接收数据，所述指令智能体接收所述空间智能体内各飞行器的规划航路、静态数据和动态数据；

计算位置，所述指令智能体通过所述规划航路、静态数据和动态数据计算各飞行器的空间位置，若飞行器之间距离达到危险阈值，则通过强化学习算法学习避撞策略，输出飞行器飞行调整指令；

接收结果，所述指令智能体接收所述空间智能体发送的评估结果和飞行器状态，返回奖励值，并跳转至所述计算位置步骤。

进一步地，所述接收数据步骤中，所述飞行器的静态数据和动态数据包括空间内所有飞行器信息、根据飞行计划、导航信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹、经纬度信息、航向、飞行速度、飞行高度、剩余燃油、剩余燃油飞行时间、飞行优先级、飞机机尾号。

进一步地，所述飞行计划包括飞行时间、航线、航路信息、飞行高度、目的地。

进一步地，所述计算位置步骤中，所述通过强化学习算法学习避撞策略包括以下步骤；

准备训练数据，收集各飞行器历史数据信息，对数据进行清洗，将数据按空间和时间维度划分；

设置参数，设置强化学习算法模型和参数，设置安全规则，所述安全规则包括纵向间隔、垂直间隔、横向间隔；

输入数据，将训练数据输入强化学习算法模型，输出飞行调整指令；

优化模型，不断更新所述强化学习算法模型的Q值函数，直到Q函数收敛，得到最好的模型。

进一步地，所述接收结果步骤中，所述奖励值包括安全和效率指标，所述安全和效率指标包括飞行效率、安全标准，奖励指标与短期执行效果和长期执行效果相关，所述短期执行效果的权重高于所述长期执行效果的权重，若所述飞行调整指令产生安全威胁，则产生惩罚指标，所述避撞策略的优劣取决于长期执行所述避撞策略后得到的累积奖赏，所述避撞策略在训练的过程中经过若干次迭代和训练后，当代表奖赏的Q值收敛到最大值时不断得到优化。

进一步地，所述接收结果步骤中，通过安全检查规则引擎按照现有的生产安全标准制定不同区域和飞行阶段飞行器安全间隔规则，计算所述奖励值的安全指标，以及对所述飞行调整指令进行安全标准检查，当所述飞行调整指令通过安全检查时，将所述飞行调整指令作为生产指令输出。

一种基于强化学习的飞行器智能避撞方法，包括以下步骤：

接收指令，空间智能体接收指令智能体发送的查询指令；

发送数据，所述空间智能体将当前空间内各飞行器的规划航路、静态数据和动态数据发送至所述指令智能体；

评估效果，所述空间智能体获取空间内飞行器的四维飞行轨迹，对执行飞行调整指令后的飞行器飞行状态进行评估，将评估结果和飞行器状态返回至所述指令智能体。

一种基于强化学习的飞行器智能避撞方法，包括以下步骤：

规划航路，初始化环境，各飞行器根据飞行计划规划航路；

执行指令，飞行器执行飞行调整指令，更新航向、航速、高度层。

一种电子设备，包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行上述一种基于强化学习的飞行器智能避撞方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述一种基于强化学习的飞行器智能避撞方法。

相比现有技术，本发明的有益效果在于：

本发明提供一种基于强化学习的飞行器智能避撞方法，包括以下步骤：查询状态，指令智能体发出查询空间智能体内各飞行器状态的指令；接收数据，指令智能体接收空间智能体内各飞行器的规划航路、静态数据和动态数据；计算位置，指令智能体计算各飞行器的空间位置，若飞行器之间距离达到危险阈值，则通过强化学习算法学习避撞策略，输出飞行器飞行调整指令；接收结果，指令智能体接收空间智能体发送的评估结果和飞行器状态，返回奖励值，并跳转至计算位置步骤。本发明涉及电子设备与可读存储介质，用于执行一种基于强化学习的飞行器智能避撞方法。本发明通过获取航路、飞行器静态和动态数据，计算未来n个时刻点飞行器的空间位置，若飞行器之间距离达到危险阈值，则运用强化学习方法学习避撞策略，输出飞行器飞行调整指令，飞行器执行指令，更新飞行器航向，计算并返回效果评估值，通过效果评估值更新强化学习算法，使得算法在不断的迭代学习中不断优化，实现智能体自主学习与改进，自主避免碰撞的危险情况，解决多飞行器同时飞行时飞行器与飞行器之间的碰撞问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的一种基于强化学习的飞行器智能避撞方法流程图；

图2为本发明实施例的强化学习算法学习避撞策略流程图；

图3为本发明实施例的智能体执行逻辑示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

一种基于强化学习的飞行器智能避撞方法，如图1所示，包括以下步骤：

规划航路，初始化环境，各飞行器根据飞行计划规划航路；飞行器可以是民航飞机、通航飞机或无人机。飞行器根据飞行计划、出发城市、目的地城市、导航信息、航路信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹。它能够接收执行管控指令信息，改变飞行的航向、航速、高度层，输出多个梯时间后的飞行位置和航向。

查询状态，指令智能体发出查询空间智能体内各飞行器状态的指令；指令智能体可以获取空间智能体的内飞行器信息，同时负责向飞行器下达飞行指令，指令智能体将飞行指令发给飞行器进行接收和执行。

接收指令，空间智能体接收指令智能体发送的查询指令；

发送数据，空间智能体将当前空间内各飞行器的规划航路、静态数据和动态数据发送至指令智能体；具体的，通过飞行计划系统、飞行器自有监视系统、空管监视系统数据获取航路、飞行器静态和动态数据；

接收数据，指令智能体接收空间智能体内各飞行器的规划航路、静态数据和动态数据；优选的，接收数据步骤中，飞行器的静态数据和动态数据包括空间内所有飞行器信息、根据飞行计划、导航信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹、经纬度信息、航向、飞行速度、飞行高度、剩余燃油、剩余燃油飞行时间、飞行优先级(特殊保障航班优先级)、飞机机尾号。飞行计划包括飞行时间、航线、航路信息、飞行高度、目的地。

计算位置，指令智能体通过规划航路、静态数据和动态数据计算未来n个时刻点各飞行器的空间位置，若飞行器之间距离达到危险阈值，则通过强化学习算法学习避撞策略，输出飞行器飞行调整指令；如图2所示，优选的，通过强化学习算法学习避撞策略包括以下步骤；

准备训练数据，收集各飞行器历史数据信息，对数据进行清洗，数据预处理包括但不限于将数据按空间和时间维度划分；

设置参数，设置强化学习算法模型和参数，设置安全规则，安全规则包括但不限于纵向间隔、垂直间隔、横向间隔；

输入数据，将训练数据输入强化学习算法模型DQN，模型输出飞行调整指令；

优化模型，不断更新强化学习算法模型的Q值函数，直到Q函数收敛，得到最好的模型。

评估效果，空间智能体获取空间内飞行器的四维飞行轨迹，具体为t0、t1、t2、t3四个时刻的四维飞行轨迹，对执行飞行调整指令后的飞行器飞行状态进行评估，综合考虑安全指标和效果指标，将评估结果和飞行器状态返回至指令智能体。

接收结果，如图3所示，指令智能体接收空间智能体发送的评估结果和飞行器状态，通过评估结果更新强化学习算法，使得强化学习算法在不断的迭代学习中不断优化，返回奖励值，并跳转至计算位置步骤，进行下一轮t+1时刻指令的运算，若有冲突预警信息则推送给客户端。本实施例中，奖励值包括安全和效率指标，安全和效率指标包括但不限于飞行效率、安全标准，奖励指标同时需要考虑短期执行效果和长期执行效果，短期执行效果的权重高于长期执行效果的权重，训练过程模型返回的指令如果产生安全威胁，系统将产生较大的惩罚指标，避撞策略的优劣取决于长期执行避撞策略后得到的累积奖赏，避撞策略在训练的过程中经过若干次迭代和训练后，当代表奖赏的Q值收敛到最大值时不断得到优化。通过安全检查规则引擎按照现有的生产安全标准制定不同区域和飞行阶段飞行器安全间隔等规则，在训练过程的奖励值计算中起到安全指标的计算作用，以及在生产过程中，对强化学习算法模型DQN输出的指令进行安全标准检查，当飞行调整指令通过安全检查时，将飞行调整指令作为生产指令输出。

一种电子设备，包括：处理器；

存储器；以及程序，其中程序被存储在存储器中，并且被配置成由处理器执行，程序包括用于执行上述一种基于强化学习的飞行器智能避撞方法。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行上述一种基于强化学习的飞行器智能避撞方法。

以上，仅为本发明的较佳实施例而已，并非对本发明作任何形式上的限制；凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明；但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内，利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等，均仍属于本发明的技术方案的保护范围之内。

Claims

1.一种基于强化学习的飞行器智能避撞方法，其特征在于包括以下步骤：

接收结果，所述指令智能体接收所述空间智能体发送的评估结果和飞行器状态，返回奖励值，并跳转至所述计算位置步骤；所述奖励值包括安全和效率指标，所述安全和效率指标包括飞行效率、安全标准，奖励指标与短期执行效果和长期执行效果相关，所述短期执行效果的权重高于所述长期执行效果的权重，若所述飞行调整指令产生安全威胁，则产生惩罚指标，所述避撞策略的优劣取决于长期执行所述避撞策略后得到的累积奖赏，所述避撞策略在训练的过程中经过若干次迭代和训练后，当代表奖赏的Q值收敛到最大值时不断得到优化；

所述计算位置步骤中，所述通过强化学习算法学习避撞策略包括以下步骤：

优化模型，不断更新所述强化学习算法模型的Q值函数，直到Q函数收敛，得到最好的模型；

所述接收结果步骤中，通过安全检查规则引擎按照现有的生产安全标准制定不同区域和飞行阶段飞行器安全间隔规则，计算所述奖励值的安全指标，以及对所述飞行调整指令进行安全标准检查，当所述飞行调整指令通过安全检查时，将所述飞行调整指令作为生产指令输出。

2.如权利要求1所述的一种基于强化学习的飞行器智能避撞方法，其特征在于：所述接收数据步骤中，所述飞行器的静态数据和动态数据包括空间内所有飞行器信息、根据飞行计划、导航信息、气象信息、自身性能信息、飞行高度层信息生成飞行器的四维计划飞行轨迹、经纬度信息、航向、飞行速度、飞行高度、剩余燃油、剩余燃油飞行时间、飞行优先级、飞机机尾号。

3.如权利要求2所述的一种基于强化学习的飞行器智能避撞方法，其特征在于：所述飞行计划包括飞行时间、航线、航路信息、飞行高度、目的地。

4.一种电子设备，其特征在于包括：处理器；

存储器；以及程序，其中所述程序被存储在所述存储器中，并且被配置成由处理器执行，所述程序包括用于执行权利要求1-3任意一项所述的方法。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行如权利要求1-3任意一项所述的方法。