CN114115340A

CN114115340A - 一种基于强化学习的空域协同控制方法

Info

Publication number: CN114115340A
Application number: CN202111345782.9A
Authority: CN
Inventors: 刘智奇; 杨毅; 南英; 谢如恒
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-03-01

Abstract

本发明提供了一种基于强化学习的空域协同控制方法，根据人民航空出行需求以及现有航路网规划的实际状况，基于地球网格剖分模型对全球空域进行数字化建模；根据数学模型描述的空域网格在空间离散性特点，建立网格状态集合以及对飞行器控制动作集合，然后将两种集合关联并建立基于网格的控制动作集；设计空域协同控制算法，得到基于强化学习的飞行器空域协同控制算法；最后对同一空域内的多架飞行器使用空域协同控制算法、并利用网格控制动作集得出网格指引动作，使每架飞行器绕开可能存在飞行冲突的网格、实现多飞行器飞行轨迹的冲突解脱，提高飞行安全系数，满足未来空域日趋增长的容量要求。

Description

一种基于强化学习的空域协同控制方法

技术领域

本发明涉及一种空域协同控制方法，特别是一种基于强化学习的空域协同控制方法。

背景技术

空域作为我国重要战略资源之一，关乎我国国防、经济、民生多方面发展，作为军民航共同的国家基础性资源，如何充分发挥好空域资源的使用效率，解决好空域资源的利用问题，是军民深度融合的典型应用，对于保证国家空防安全、发挥民用航空运输潜力具有重要的战略意义与经济价值。

随着信息化时代以及民航事业的快速发展，当前航空器在某些热点空域越来越密集，传统的点、线、面二维几何表征方式和以人为主的空域静态管控模式已无法满足上万个航空器在有限空域同时运行的管控需求，针对多类型航空器不同的空域使用需求，需要研究面向不同任务要求和不同约束环境下的空域协同管控技术，围绕航空器特征参数和飞行任务，构建基于统一数学描述与计算模型，提出空域多飞行器协同管控算法，解决多机协同用空场景下的空域协同解耦控制问题，提升空域规划效率，保障空域使用安全。因此，需要考虑将人工智能技术应用于空中交通管理系统领域，将空域剖分形成立体空间区块，并利用飞行器在控制过程中高效地对众多航空器提供高可靠性的决策，以促进空域交通安全，保障空域畅通，提高空域管控效率，消解空域冲突。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于强化学习的空域协同控制方法。

本发明提供了一种基于强化学习的空域协同控制方法，包括如下步骤：

步骤1，将几何全球空域表述为一系列剖分网格构成的空域网格表征系统，建立空域网格数字模型；

步骤2，依据空域网格数字模型中的空域网格在空间上的离散性特点，建立基于网格的控制动作集，即网格控制动作集；

步骤3，设计空域协同控制算法，通过利用强化学习算法选择网格控制动作集得到指引动作，同时对空域中的飞行器进行飞行路径指引管控。

本发明中，步骤1包括：

步骤1-1，将几何全球空域按照剖分网格原理进行划分，形成网格化的空域并进行数学描述，将基本空域概念抽象成一个数学模型，即空域网格数字模型；

步骤1-2，将地球表面空间的经度和纬度方向，进行正轴圆柱等距投影，同时将地球的球面投影长宽比例设定为1:1，形成经纬间隔相等的正方形平面，并对经纬投影平面按照长宽各八份的六十四等分逐层进行剖分，形成在各不同层级都可以相互包含且不存在缝隙的经纬投影平面网格系统；

步骤1-3，将高度空间按照7个等级逐层进行等分剖分，在经纬平面进行第1层级的剖分时，高度方向不剖分，即第1层级高度不剖分；在经纬平面进行第2层级的剖分时，高度方向进行八等分剖分形成第2层级高度网格，继续对下一级进行高度方向剖分，最终形成高度网格系统；

步骤1-4，空域网格数字模型由步骤1-2中所述经纬平面网格系统与步骤1-3中的高度网格系统相结合而构成，将空域进行离散化表示；

步骤1-5、在空域网格数字模型中，定义一个网格g∈G(V)为某空域中的一个网格，其具备以下属性参数：网格唯一编码N_g；起始点经纬度和高度坐标

网格的剖分所属层级r；网格分别在经度、纬度和高度三个维度上的空间跨度：Δθ、

和Δh。

本发明中，步骤2包括：

步骤2-1，基于空域网格数字模型中的网格，设计针对飞行器的网格控制动作集，将管控的主体由航空器变为空域网格数字模型中的网格，由网格获取航空器信息并给飞行器提供控制动作，实现航向指引；

步骤2-2，飞行器在受网格指引飞行的状态下，任一时刻所受控制由两个网格的控制状态决定，分别是飞行器当前所在的网格即所在网格的控制状态和飞行器将要飞入的下一个相邻的网格即目标网格的控制状态；

步骤2-3，定义一架飞行器f∈F(V)在空域中受网格指引进行飞行，其具有以下飞行参数：飞行器唯一编号N_f、飞行器当前所在的网格编码、飞行器当前的目标网格编码、飞行器当前经纬度及高度坐标

和飞行器空速v_f。

本发明中，步骤3包括：

步骤3-1，采用强化学习算法获得空域协同控制的算法，强化学习选取的训练模型包含四个要素：训练环境的状态S、飞行器采取的动作A、训练环境反馈给飞行器的奖励R和贪婪算法的探索率∈；

步骤3-2、训练环境的状态S由价值函数的近似表示方法得出，采用神经网络的方法获得价值函数的近似表示；

步骤3-3、空域网格对飞行器的指引，由强化学习算法利用空域网格控制动作集得到；

步骤3-4、基于强化学习的DQN算法构造飞行器训练模型，DQN的输入是训练环境的状态S对应的状态向量φ(s)，输出是所有动作在该状态下的动作价值函数Q，使用经验回放将每次和环境交互得到的奖励与状态更新情况都保存起来，用于之后目标Q值的更新，DQN的算法输入还包含以下参数：算法迭代轮数T、训练环境状态的特征维度n、飞行器动作集A、贪婪算法的探索率∈、Q网络结构和批量梯度下降的样本数m。

本发明中，步骤1-2包括：

经纬投影平面网格系统的剖分层级最高为8级。

本发明中，步骤1-3包括：

高度网格系统的剖分层级最高为8级。

本发明中，步骤3-3包括：

步骤3-3-1，飞行器飞往目标网格之前，由强化学习算法根据当前所在网格的控制状态和周围网格的控制状态得出目标网格的信息；

步骤3-3-2，由强化学习算法根据当前网格的控制状态和目标网格的控制状态从网格的控制动作集中选定网格状态；

步骤3-3-3，根据网格控制动作集导出的状态获得飞行器实际飞行应采取的动作。

本发明中，步骤1-5包括：

网格唯一编码N_g为网格的实际ID名，每个网格的唯一编码不会重复；

网格起始点经纬度和高度坐标

在网格剖分过程中被记作计算网格其他几何参数的原点；

网格剖分所属层级r在网格剖分过程中被用来计算该网格的长宽高(即三维跨度)；

网格经、纬和高度三个维度上空间跨度：Δθ、

和Δh在网格剖分过程中被记作相对于网格起始点的东侧距离、北侧距离、高程上侧距离。

本发明中，步骤2-3包括：

飞行器唯一编号N_f为飞行器的实际ID名，每个飞行器的唯一编号不会重复；

飞行器当前所在的网格编码为飞行器受网格指引时的当前网格位置；

飞行器当前的目标网格编码为飞行器受网格指引时接下来要飞去的目标网格位置；

用飞行器当前经纬度和高度坐标

计算飞行器在受网格指引时，由当前网格和目标网格这两个网格相拼接形成的通道中的应遵守的精确航向，即该精确航向为一条空间中的有向线段，其从飞行器当前所在网格的几何中心出发，指向飞行器当前的目标网格的几何中心，由于任何一个网格均是长方体，因此各个网格的几何中心也就是网格体对角线的交点，该交点经纬度和高度坐标可表示为

飞行器空速v_f即飞行器受网格指引时飞行器的精确空速。

本发明中，步骤3-4包括：

飞行器动作集A由网格控制动作集中的动作得到，A中包含的动作有：上升至下一个网格、下降至下一个网格、左转至下一个网格、右转至下一个网格、直行至下一个网格；

训练环境状态的特征维度n是训练环境的状态S对应的状态向量φ(s)的维度。

本发明根据人民航空出行需求以及现有航路网规划的实际状况，基于地球网格剖分模型对全球空域进行数字化建模；根据数学模型描述的空域网格在空间离散性特点，建立网格状态集合以及对飞行器控制动作集合，然后将两种集合关联并建立基于网格的控制动作集；设计空域协同控制算法，得到基于强化学习的飞行器空域协同控制算法；最后对同一空域内的多架飞行器使用空域协同控制算法、并利用网格控制动作集得出网格指引动作，使每架飞行器绕开可能存在飞行冲突的网格、实现多飞行器飞行轨迹的冲突解脱，提高飞行安全系数，满足未来空域日趋增长的容量要求。

有益效果：本发明通过空域网格剖分对空域进行数字化建模，根据模型离散性特点建立网格航向指引方法控制集合，设计空域协同控制算法使多架飞行器绕开可能存在飞行冲突的空域网格，从而实现多飞行器飞行轨迹的冲突解脱。本发明方法为航空器空域协同控制和规划提供了一种基于强化学习的离散化、数字化模型与算法，能够辅助解决当前多架航空器航迹冲突情况复杂导致航迹冲突解脱困难等问题。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是基于强化学习的空域协同控制方法流程图。

图2是全球空域网格剖分示意图。

图3是网格控制动作集说明图。

图4是飞行轨迹冲突解脱示意图。

具体实施方式

本发明公开了一种基于强化学习的空域协同控制方法，步骤如下：

步骤1、将几何全球空域表述为一系列剖分网格构成的空域网格表征系统，即将地表以上空间按不同等级进行剖分，使得原有的连续性几何体空域转化为离散化、网格化的空域系统并对其进行数学描述，将基本空域概念完全抽象成为数学概念，建立空域的网格数字模型；

步骤1-1、将几何全球空域按照剖分网格原理进行划分，形成网格化的空域并进行数学描述。在这一基本原理的基础上，任意空间形状或结构都可以被一系列空间网格经过拼接或组合来表示，基本空域的几何概念也被抽象成一个由空间网格的全部数字信息代替的数学模型；

步骤1-2、将地球表面以经度、纬度两个方向为两条相邻边，进行正轴圆柱等距投影，同时将地球的球面投影长宽比例设定为1:1，形成经纬间隔相等的正方形平面，并对经纬投影平面按照长宽各八份的六十四等分逐层进行剖分，形成在各不同层级都能相互包含且不存在缝隙的经纬投影平面网格系统，剖分层级最高达到8级；

步骤1-3、将高度空间按照7个等级逐层进行等分剖分，在经纬平面进行第1层级的剖分时，高度方向不剖分，即第1层级高度不剖分；在经纬平面进行第2层级的剖分时，高度方向进行八等分剖分形成第2层级高度网格……以此类推进行高度方向的逐层剖分，最终形成高度网格系统，剖分层级最高达到8级；

步骤1-4、空域网格表征系统由步骤1-2中的经纬平面网格系统与步骤1-3中的高度网格系统相结合而构成，该表征系统使得空域可以进行离散化表示；

步骤1-5、定义一个网格g∈G(V)是某空域中的一个网格，其具备以下属性参数：

网格唯一编码N_g；

网格起始点经纬度和高度坐标

网格的剖分所属层级r；

网格分别在经、纬、高度三个维度上的空间跨度：Δθ、

Δh。

步骤2、依据网格化空域的离散性空间特征，利用空域网格对飞行器实施阶段性的航向指引：飞行器飞行时会先获取当前所在网格的信息，然后依据算法判断接下来飞往哪一个相邻的网格，而这两个网格间连接形成的通路实际起到了对飞行器进行指引的作用，即网格指引；针对网格指引的特点，则需要先设计出任意一个网格都适用的一系列状态以及网格对飞行器的控制动作，然后将这些状态和动作进行关联和索引建立一套基于网格的控制动作集，使得参与网格指引的网格可以从控制动作集中选择对飞行器提供的动作指示，但需要注意的是，这种指示应由飞行器来执行。

步骤2-1、针对实际飞行器航向指引的情况，设计出专门的网格控制动作集。将管控的主体由航空器变为空域网格，由网格实现航向指引；

步骤2-2、飞行器在受网格指引飞行的状态下，其任一时刻所受控制由两个网格的状态决定，分别是飞行器当前所在网格和飞行器将要飞入的下一个相邻的目标网格的状态；

步骤2-3、定义一架飞行器f∈F(V)在空域中受网格指引进行飞行，其具有以下飞行参数：

飞行器唯一编号N_f；

飞行器当前所在的网格编码；

飞行器当前的目标网格编码；

飞行器当前经纬度和高度坐标

飞行器空速：v_f。

步骤3、设计空域协同控制算法，设定强化学习基本的训练要素并设计飞行器模型。然后利用深度Q网络(Deep Q Network，DQN，一种融合了神经网络和Q-learning的强化学习方法)算法对输入数据进行训练，得到飞行器在网格中通过(网格)环境状态选择飞行动作的强化学习训练结果，即基于强化学习的空域协同控制算法。

步骤3-1、采用强化学习算法获得空域协同控制的算法，强化学习选取的训练模型包含四个要素：

训练环境的状态S；

飞行器采取的动作A；

训练环境反馈给飞行器的奖励R；

贪婪算法的探索率∈；

步骤3-2、环境的状态S由价值函数的近似表示方法得出，采用神经网络的方法获得价值函数的近似表示；

步骤3-3、基于强化学习的深度Q网络(Deep Q Network，DQN，一种融合了神经网络和Q-learning的强化学习方法)模型构造算法。DQN的输入是训练环境的状态S对应的状态向量φ(s)，输出是所有动作在该状态下的动作价值函数Q，使用经验回放将每次和环境交互得到的奖励与状态更新情况都保存起来，用于之后目标Q值的更新。DQN的算法输入由以下参数构成：

算法迭代轮数T；

训练状态的特征维度n；

飞行器动作集A；

Q网络结构；

批量梯度下降的样本数m。

DQN的算法在初始化Q网络的所有参数、初始化所有的状态和动作对应的价值Q、清空经验回放的集合并设定好迭代轮数T后，进行迭代过程如下：

①初始化S为当前状态序列的第一个状态,拿到其特征向量φ(S)；

②在Q网络中使用φ(S)作为输入，得到Q网络的所有动作对应的Q值输出。用∈-贪婪法在当前Q值输出中选择对应的动作A；

③在状态S执行当前动作A,得到新状态S’对应的特征向量φ(S’)和奖励R(S’)，以及是否是终止状态，若不终止则继续下一步；

④将上一步的参数按组存入经验回放集合；

⑤令S’的值赋给S；

⑥从经验回放集合中采样m个样本，计算当前目标Q值；

⑦使用均方差损失函数，通过神经网络的梯度反向传播来更新Q网络的所有参数；

⑧如果S’是终止状态，则当前轮迭代完毕。

步骤3-4、指引动作由强化学习算法利用空域网格控制动作集得到。飞行器飞往目标网格之前，先由算法根据当前所在网格和周围网格的状态得出目标网格的信息，以确定目标网格具体是哪一个相邻网格。之后算法根据当前网格和目标网格的状态从网格的控制集中选定网格状态，再根据控制集导出的状态获得飞行器应采取的动作。

实施例

结合图1，本发明提供一种基于强化学习的空域协同控制方法。该过程首先利用空域剖分网格将全球空域表述为网格构成的表征系统，得出空域网格数字模型；然后基于该模型使用协同控制算法，利用强化学习得出飞行时的网格选择方法；最后依照网格控制动作集，指示出飞行器的航向，实现对空域中的多架飞行器进行飞行路径指引控制。相应的具体步骤如下：

第一步，空域剖分网格。

将几何全球空域按照剖分网格原理进行划分，形成网格化的空域并进行数学描述，而基本空域的几何概念也被抽象成一个由空间网格的全部数字信息代替的数学模型。

该过程如图2所示，将地球表面以经度、纬度两个方向为两条相邻边，进行正轴圆柱等距投影，同时将地球的球面投影长宽比例设定为1:1，形成经纬间隔相等的正方形描述面，并对经纬投影平面按照长宽各八份的六十四等分逐层进行剖分，形成在各不同层级都能相互包含且不存在缝隙的经纬投影面网格系统，其剖分层级最高达到8级；同时将高度空间按照7个等级逐层进行等分剖分，在经纬平面进行第1层级的剖分时，高度方向不剖分，即第1层级高度不剖分；在经纬平面进行第2层级的剖分时，高度方向进行八等分剖分形成第2层级高度网格……以此类推进行高度方向的逐层剖分，最终形成高度网格系统，剖分层级最高达到8级；

将经纬平面网格系统与高度网格系统相结合而构成，得到空域基本离散模型。

第二步，网格参数绑定。

依据空域剖分网格方法，将每个网格的固有信息与该空域网格进行绑定。

选取一空域为例，该空域空间结构为正棱柱体，底面为地球水平面四边形，四顶点地理坐标分别是(118.9°E，32.1°N)(118.9°E，31.6°N)(119.4°E，31.6°N)(119.4°E，32.1°N)，空域占空间高度为海拔0米至45000米。对于该空域内唯一海平面高度上、坐标(118.9°E，31.6°N)的点所在的网格绑定了以下属性参数：

网格唯一编码Ng：f11_c68_N000；

网格起始点经纬度和高度坐标

(118.828125，31.58203125，0)；

网格的剖分所属层级r：5；

网格分别在经、纬、高度三个维度上的空间跨度Δθ、

Δh：0.087890625°、0.029296875°、1875m。

其他网格也均具有以上各种参数。

第三步，选定网格控制动作集。

针对实际飞行器航向指引的情况，设计针对飞行器的网格控制动作集。将管控的主体由航空器变为空域网格，由网格获取航空器信息并进行航向指引。飞行器在受网格指引飞行的状态下，其任一时刻所受控制应由两个网格的控制状态决定，其分别是飞行器当前所在网格和飞行器将要飞入的下一个相邻的目标网格的状态。具体方法见发明内容中步骤2，网格控制动作集如图3所示。

第四步，飞行器-网格状态输入。

定义一架飞行器在空域中受网格指引进行飞行，其具有以下飞行参数：

飞行器唯一编号N_f：c07_p02；

飞行器当前所在的网格编码:f11_c68_N000；

飞行器当前经纬和高度坐标

(118.8720703125，31.5966796875，937.5)；

飞行器空速v_f：100m/s。

第四步，算法生成飞行器动作策略。

空域协同控制算法在接收到飞行器-网格状态的输入之后，直接调用强化学习算法生成的控制模型对飞行器的下一个网格数据进行决策并产生网格数据、同时根据网格控制动作集得到飞行器下一步应该执行的飞行导引动作。

以上述编号为c07_p02的飞行器为例，其在网格f11_c68_N000处获得的动作策略包含如下要素：

飞行器当前的目标网格编码：f11_c68_N001；

目标网格起始点经纬度和高度坐标

(118.916015625，31.58203125，0)；

飞行器动作执行的参考时长t：15s；

第五步，飞行器指引动作执行。

实际飞行器飞行过程中，应当按照网格给出的指引，从当前所在网格飞进目标网格内部。

第六步，多飞行器冲突解脱。

对于多飞行器在同一空域内的飞行轨迹可能存在的交叉及冲突，应对每一架飞行器使用空域协同控制算法得出其具体的网格指引动作，而经空域协同控制算法生成的网格指引动作可以使飞行器绕开可能存在飞行冲突的网格、实现多飞行器飞行轨迹的冲突解脱。

该步骤将最终实现如图4所示效果，该图表示了两架飞行器(飞行器二和飞行器三)对一架飞行器(飞行器一)的飞行冲突规避效果，两飞行器在探测到一定距离外的一架飞行器后，根据协同控制算法得到了使用网格表示的规避通道，并在通道内按照实际的曲线轨迹完成了飞行。

本发明提供了一种基于强化学习的空域协同控制方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。