CN111882047A

CN111882047A - 一种基于强化学习与线性规划的快速空管防冲突方法

Info

Publication number: CN111882047A
Application number: CN202011040999.4A
Authority: CN
Inventors: 李辉; 文瀚; 王壮
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2020-11-03
Anticipated expiration: 2040-09-28
Also published as: CN111882047B

Abstract

本发明公开了一种基于强化学习与线性规划的快速空管防冲突方法，该方法包括以下步骤：步骤一，设置扇区内外飞机的数量，并获取飞机的位置信息；步骤二，获取飞机的动态参数并做规则化处理，利用这些参数构建飞机深度强化学习模型；步骤三，使用DDPG算法训练该神经网络，用线性规划优化输出的偏转角；步骤四，将飞机的位置信息作为神经网络的输入，得到控制飞机的偏转角；步骤五，控制飞机按偏转后的角度飞行，并判断该飞机能否进行偏转，若是则偏转到达目的地，否则继续更新位置信息。本发明通过线性规划优化神经网络输出的偏转角，加快了收敛速度且具有较好的鲁棒性。

Description

一种基于强化学习与线性规划的快速空管防冲突方法

技术领域

本发明涉及空中交通管理领域，具体而言，特别涉及一种基于强化学习与线性规划的快速空管防冲突方法。

背景技术

近年来，随着空中交通领域的快速发展，空中交通流量与日俱增与有限的空域资源矛盾日益突出。为此美国联邦航空管理局提出了自由飞行，自由飞行是未来空中交通发展的必然模式，为了保证自由飞行的安全性，当飞机由一个扇区飞往另一个扇区时必须设计出摆脱飞行冲突的最优策略，避免与扇区内的飞机发生冲突。现有的一些算法已经能够生成最优解或次优解，但这些最优解或次优解并不能满足空中交通实时性的要求。基于实时性和安全性的考虑，本发明提出了一种基于强化学习与线性规划的快速空管防冲突方法，该方法能够迅速地规划出安全路径，大大减轻空管员的压力，满足实时性和安全性。

发明内容

本发明的目的在于，为了解决现有的方案效率不够高的问题，提出了一种基于强化学习与线性规划的快速空管防冲突方法，能够更好更快的完成安全路径的规划，大大减轻空管员的压力。

本发明所提供的技术方案为

一种基于强化学习与线性规划的快速空管防冲突方法，包括以下步骤：

步骤一，设置扇区内外飞机的数量，并对所有的飞机进行编号，获取所有飞机在开始时刻的坐标以及朝向角；

步骤二，获取所有飞机的动态参数并将其中的一些参数做规则化处理，利用这些参数来构建飞机深度强化学习模型，将所有飞机的坐标和朝向角作为该深度强化学习模型的输入，控制飞机的偏转角作为该深度强化学习模型的输出；

步骤三，使用DDPG算法训练该深度强化学习模型，在训练过程中利用线性规划对神经网络的输出进行选择，优化输出结果，最后经过海量的训练得到训练好的深度神经网络；

步骤四，将所有飞机的坐标和朝向角作为训练好的深度神经网络的输入，得到控制飞机的偏转角度；

步骤五，根据步骤四中所得偏转角，控制飞机按照偏转后的方向继续飞行，更新当前时刻控制飞机的坐标以及朝向角，根据当前时刻所有飞机的坐标和朝向角，判断控制飞机是否可以进行第二次偏转，如果可以进行第二次偏转则偏转到达目的地，否则继续更新飞机的坐标及朝向角；

进一步地，所述步骤一中，扇区内外的飞机数量可根据实际情况设置，控制飞机是在扇区外，剩余飞机在扇区内，并对扇区内外的飞机进行编号。

进一步地，所述步骤二中，根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以及飞机的数量，获取飞机速度的约束集和偏转方向的约束集。将每架飞机的信息规则化为一个二元组，该二元组包含的信息为：飞机编号、飞机状态；其中飞机状态又分为飞机的坐标和朝向角。搭建DDPG算法中两对结构相同但参数不同的神经网络：策略网络

以及它的目标网络

，价值网络

以及它的目标网络

。策略网络

用于计算当前状态s下所采用的动作a，动作a表示为控制飞机偏转的角度，价值网络

是用来计算在状态s下采取动作a的Q值，并用这个Q 值来更新策略网络的参数

；神经网络的输入层为飞机的坐标信息以及朝向角，即

，其中

分别为飞机在二维坐标系中的坐标及朝向角，n为扇区内外飞机的数量；神经网络的输出为当前状态s下所采用的动作a；飞机的偏转角度

，其中

分别为飞机偏转角度的最小值与最大值。

进一步地，所述步骤三中，对神经网络输出的优化应当满足以下八个条件之一：

1)

，

，

2)

，

，

，

3)

，

，

4)

，

，

，

5)

，

，

6)

，

，，

7)

，

，

8)

，

，

，

其中, q_a/b是飞机a与飞机b的相对航向角，q_b/a是飞机b与飞机a的相对航向角，其定义为：

这里的

是飞机a与飞机b之间的连线与横坐标轴之间的夹角，

是飞机a、b 的朝向角，T_ab和T_ba是只取0或1的变量，目的是控制q_a/b与q_b/a的取值范围在

之间，

是飞机a与飞机b之间的最小安全角度，其定义为：

其中，r是飞机的安全半径，D为飞机a与飞机b距离。

其中对深度神经网络的训练包括以下步骤：

01)采集开始时刻所有飞机的坐标以及朝向角信息

，其中n为飞机的数量；数据的储存形式为

；

02)把当前状态

，即

，作为策略神经网络

的输入，计算在当前状态

下所采取的动作

，即偏转角度，再运用上述线性规划的方法来判断该动作

是否满足不冲突的条件，若满足不冲突的条件，则得到采取该动作后的回报值

，然后观察得到的下一个状态

，并按时间步长更新所有飞机的坐标及朝向角，并判断是否可进行第二次偏转，如果可以偏转则偏转到达目的地，若不能偏转则继续按时间步长更新坐标及朝向角信息，回报值

，其中

是控制飞机的第一次偏转角与第二偏转角；若不满足不冲突的条件，则获得采用该动作下的回报值

，然后观察得到的下一个状态

，然后把

存储下来，作为经验回放的数据；

03)从存储下来的数据里随机抽取一定数量的样本，表示为

，进行小批量的学习。计算

，其中

分别代表了目标网络的权重，

代表折扣因子；根据最小损失函数

来更新评价网络的权重

；

04)通过梯度

来更新

策略网络的权重

；

05)通过

更新目标网络的权重；

进一步地，所述步骤四中，将当前时刻所有飞机的坐标以及朝向角信息

，输入到训练好的神经网络中，用当前神经网络计算当前状态s下的动作a，并执行动作a，即计算出控制飞机的偏转角，并根据控制飞机的偏转角，使其向偏转后的角度飞行。

进一步地，所述步骤五中，控制飞机按偏转后的方向飞行时，根据控制飞机的坐标与终点坐标生成一条运动轨迹，判断此轨迹是否与其他飞机的运动轨迹是否重合，若不重合则使控制飞机偏转到达目的地，若重合则按时间步长更新所有飞机的坐标及朝向角，然后再次重复上述过程。

有益效果：

本发明采用线性规划与强化学习相结合来计算控制飞机的偏转角度，系统能够自主学习相关参数，完成飞机的冲突避免过程；相比于传统方法，本发明计算效率更高能在300ms之内生成最优路径，极大提高了飞机避免冲突的能力。本发明能够更好更快的完成冲突避免过程，大大减轻空管员的负担，也提高了效率。

附图说明

图1为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的流程图；

图2为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的扇区空管示意图；

图3为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的偏转角度优化示意图；

图4为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的飞机冲突解脱轨迹图。

具体实施方式

以下将结合附图和具体实施实例对本发明内容进行详细具体的说明。

参照图1所示的流程，一种基于强化学习与线性规划的快速空管防冲突方法，包括以下几个步骤：

步骤五，根据步骤四中所得偏转角，控制飞机按照偏转后的方向继续飞行，更新当前时刻控制飞机的坐标以及朝向角，根据当前时刻飞机的坐标和朝向角，判断控制飞机是否可以进行第二次偏转，如果可以进行第二次偏转则偏转到达目的地，否则继续更新飞机的坐标及朝向角。

接着，对步骤一进行详细描述。

假设场景中共有五架飞机，控制飞机在扇区外，其余飞机在扇区内，并对这五架飞机进行编号，然后飞机通过ADS-B来获取其他飞机的速度和位置等信息，ADS-B的数据更新速度较快，能每秒获取目标飞机的坐标信息，计算出目标飞机相对于自身飞机的速度和航向等信息，如图2所示。

然后在所述步骤二中，根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以及飞机的数量，获取飞机速度的约束集和偏转方向的约束集。将每架飞机的信息规则化为一个二元组，该二元组包含的信息为：飞机编号、飞机状态；其中飞机状态又分为飞机的坐标和朝向角。搭建DDPG算法中两对结构相同但参数不同的神经网络：策略网络

以及它的目标网络

，价值网络

以及它的目标网络

。策略网络

是用来计算在状态s下采取动作a的Q值，并用这个Q值来更新策略网络的参数

；神经网络的输入层为飞机的坐标信息以及朝向角，即

，其中

，其中

分别为飞机偏转角度的最小值与最大值；

在所述步骤三中，训练深度神经网络时使用线性规划方法对神经网络输出进行选择应当满足以下八个条件之一，如图3所示，其过程如下：

1)

，

，

2)

，

，

，

3)

，

，

4)

，

，

，

5)

，

，

6)

，

，

，

7)

，

，

8)

，

，

，

其中, q_a/b是飞机a与飞机b的相对航向角，其定义为：

这里的

是飞机a与飞机b之间的连线与横坐标轴之间的夹角，

之间，

是飞机a与飞机b之间的最小安全角度，其定义为：

其中，r是飞机的安全半径，D为飞机a与飞机b距离。

其中对深度神经网络的训练包括以下步骤：

01)采集开始时刻所有飞机的坐标以及朝向角信息

，其中n为飞机的数量；数据的储存形式为

；

02)把当前状态

，即

，作为策略神经网络

的输入，计算在当前状态

下所采取的动作

，即偏转角度，再运用上述线性规划的方法来判断该动作

，然后观察得到的下一个状态

，其中

，然后观察得到的下一个状态

，然后把

存储下来，作为经验回放的数据；

03)从存储下来的数据里随机抽取一定数量的样本，表示为

，进行小批量的学习。计算

，其中

分别代表了目标网络的权重，

代表折扣因子；根据最小损失函数

来更新评价网络的权重

；

04)通过梯度

来更新策略网络的权重

；

05)通过

更新目标网络的权重；

所述步骤四中，实例中神经网络的输入为所有飞机的坐标与朝向角，即为

，n为飞机数量，i为飞机的编号；神经网络的输出为当前状态

下所采取的动作

，本发明中动作

表示飞机偏转的角度；根据初始所定义的参数，本实施实例中飞机的偏转角

，其中

。

所述步骤五中，根据控制飞机的坐标与终点坐标生成一条运动轨迹，判断此轨迹是否与其他飞机的运动轨迹是否重合，若不重合则使控制飞机偏转到达目的地，若重合则按时间步长更新所有飞机的坐标及朝向角，然后再次重复上述过程。

在本实施例中，根据状态的输入，可在300ms内快速生成不冲突的最短路径，效率明显优于现有方法，如图4所示。

最后应当说明的是，上述实例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应该理解：依然可以对本发明的具体实施方式进行修改或等同替换，都不脱离本发明技术方案的精神和范围，其都应包含在本发明的权利要求范围内。

Claims

1.一种基于强化学习与线性规划的快速空管防冲突方法，其特征在于，包含以下步骤：

步骤五，根据步骤四中所得偏转角，控制飞机按照偏转后的方向继续飞行，更新当前时刻控制飞机的坐标以及朝向角，根据当前时刻所有飞机的坐标和朝向角，判断控制飞机是否可以进行第二次偏转，如果可以进行第二次偏转则偏转到达目的地，否则继续更新飞机的坐标及朝向角。

2.根据权利要求1所述的基于强化学习与线性规划的快速空管防冲突方法，其特征在于，所述步骤二中，根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以及飞机的数量，获取飞机速度的约束集和偏转方向的约束集；将每架飞机的信息规则化为一个二元组，该二元组包含的信息为：飞机编号、飞机状态；其中飞机状态又分为飞机的坐标和朝向角；搭建DDPG算法中两对结构相同但参数不同的神经网络：策略网络