CN111047917B

CN111047917B - 一种基于改进dqn算法的航班着陆调度方法

Info

Publication number: CN111047917B
Application number: CN201911309141.0A
Authority: CN
Inventors: 李辉; 卢锐轩; 王壮; 陈希亮
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-01-15
Anticipated expiration: 2039-12-18
Also published as: CN111047917A

Abstract

本发明公开一种基于改进DQN(深度Q网络)算法和的航班着陆调度方法，属于航班调度技术领域。本发明解决了传统航班着陆调度算法中飞机着陆成本过大的问题以及传统DQN动作空间有限的问题。包括以下步骤：步骤一，根据待着陆的飞机信息构建适用于深度强化学习学习的着陆成本模型；步骤二，建立深度强化学习智能体；步骤三，用改进的算法计算出以该顺序进行着陆的具体着陆时间序列和最小成本；步骤四，将飞机着陆顺序和对应的最小成本传递给着陆成本模型并计算一个回报返回给智能体。利用DQN网络输出一组飞机的顺序，再通过改进算法计算出一组飞机中每架飞机的具体着陆时间和总着陆成本。

Description

一种基于改进DQN算法的航班着陆调度方法

技术领域

本发明属于智能航班着陆调度技术领域，特别设计一种基于改进DQN算法的航班着陆调度方法。

背景技术

伴随着空中交通流量的飞速增长，终端区枢纽机场的有限资源与激增的空中流量的的矛盾日益尖锐。原有的空管系统难以满足逐渐增长的交通需要，致使部分机场发生波峰段的流量，造成大量航班延误，给航空公司和乘客造成较大经济损失。因此，提高终端区机场调度能力和自动化水平是民航业需要解决的问题。在传统调度算法的基础上，改进DQN算法的航班着陆调度方法，在算法效果上好于FCFS(先来先服务)等传统调度算法，同时解决了普通DQN算法中动作空间有限的问题。在最终效果上使得总着陆成本更低，机场终端调度更方便。

发明内容

本发明的目的在于，为了解决现有着陆调度中着陆成本过高，人为介入程度过大的问题，提出一种基于改进DQN的航班着陆调度方法，能够更好地完成着陆调度过程，减少机场的着陆成本。

本发明所提供的技术方案为

一种基于改进DQN算法的航班着陆调度方法，包括以下步骤：

步骤一，根据待着陆的飞机的最佳着陆时间、最晚着陆时间、提前着陆成本、延误着陆成本等飞机着陆相关信息构建着陆成本模型；

步骤二，建立深度强化学习智能体，用来计算可行的飞机着陆顺序；

步骤三，用改进算法中的防碰撞算法计算出以该顺序进行着陆的具体着陆时间序列和总着陆成本；

步骤四，将飞机着陆顺序和对应的总着陆成本传递给着陆成本模型并计算回报返回给智能体。

进一步地，所述步骤一中，在构建的着陆成本模型中，飞机着陆相关的属性包括最佳着陆时间、最晚着陆时间、提前着陆成本、延误着陆成本，飞机本身相关属性包括飞机类型(轻，中，重)和不同类型的飞机与之前着陆的飞机之间最小的安全着陆时间间隔。

进一步地，所述步骤二中：

首先，建立深度强化学习智能体；深度强化学习智能体中包括两个结构相同但是参数不同的神经网络—目标神经网络及当前神经网络，当前神经网络用于计算当前状态，即当前状态s_t下每一个动作a的Q值Q(s_t,a)，一个动作a表示飞机的着陆相对顺序，目标神经网络计算用于下一个状态s_t+1下每一个动作a的Q值Q(s_t+1,a)；神经网络的输入层为飞机着陆信息，其中包括飞机最佳着陆时间、最早着陆时间、最迟着陆时间等信息；神经网络输出为当前状态s_t下每一个动作a的Q值Q(s_t,a)；

然后，将神经网络输出的着陆顺序结合飞机着陆属性通过防碰撞算法转化为确切的着陆时间序列；

接着，将着陆时间序列传递给飞机着陆模型，计算其最小着陆成本和回报；

最后，结合以上步骤，对所述神经网络进行深度强化学习训练，即首先让着陆成本模型传递状态信息(飞机着陆信息)给智能体，计算当前状态下每个动作(飞机着陆顺序)的Q值并根据据ε-greedy策略选择动作，执行动作后得到下一步状态和回报。

进一步地，所述ε-greedy策略是指：设置一个固定值ε，其中ε是一个介于0-1之间的数，在选择动作的过程中，产生一个随机数r，只有当r<ε时，才选择最大Q值对应的动作，避免训练出的神经网络陷入局部最优解。

进一步地，所述回报与着陆成本成反比，即若能按照更小的着陆成本进行着陆，则该组飞机以该着陆顺序进行着陆的回报就会更高。

本发明方法是在一组飞机按先后顺序进入机场终端区，且飞机之间不存在相对优先级的情况下进行的。

本发明采用改进DQN算法计算期望飞机着陆时间和成本，通过智能体自主的学习能力完成更好的着陆调度，减少了人为干预的同时降低了着陆成本，因为改进算法的加入而避免了过于复杂的计算过程。

附图说明

图1为基于改进DQN算法和的航班着陆调度方法流程图

图2为每架飞机与之前着陆飞机最小安全时间距离表

图3为滑动防碰撞处理算法原理的展示图

图4为深度强化学习算法中的DQN算法模型图

具体实施方法

以上实例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实例对本发明进行详细的讲解，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应包含在本发明的权利要求范围内。

具体实施方法：本实施方法使用改进DQN算法来对一组飞机进行调度，如图1，具体实施步骤：

步骤一：对飞机着陆最小安全距离建表，纵轴代表当前着陆飞机类型,其中飞机类型包括三种：轻H，中L，重S，横轴代表之前着陆飞机类型，表格中对应值为时间间隔，单位为分钟，不同机型之间最小着陆安全间隔在1.0-3.0分钟范围内，如图2；

步骤二：对飞机着陆成本建表，纵轴为飞机类型，横轴为延误或提前，表格中对应值为分均成本，单位为元每分钟，不同机型延误着陆成本在90-500元/分钟范围内，提前着陆成本在50-250元/分钟范围内；

步骤三：随机生成一组飞机着陆数据。其中每架飞机的最佳着陆时间会集中在某一时间段，这样就会导致所有飞机无法都按照最佳着陆时间着陆，而每架飞机的着陆时间范围都足够大，以保证每架飞机都能在着陆时间范围内着陆；

步骤四：构建深度强化学习智能体，其中神经网络的输入为飞机的着陆信息，输出为每架飞机的着陆顺序，神经网络的层数以及每层神经元数量可以根据待着陆飞机的数量进行调整；

步骤五：使用DQN算法对飞机进行着陆调度，获取飞机着陆顺序，在通过防碰撞算法计算每架飞机的具体着陆时间和总着陆成本，如果遇到着陆时间不满足最小安全时间距离的飞机，则根据防碰撞算法对发生冲突的两架飞机(例如P1，P2)进行防碰撞处理，防碰撞算法原理如图3。

Claims

1.基于改进DQN算法的航班着陆调度方法，其特征在于将传统DQN算法的输出转化为具体的飞机着陆时间，该方法包括以下步骤：

步骤一：构建着陆成本模型，该模型包括各飞机的机型、最佳着陆时间、最迟着陆时间、最早着陆时间、实际着陆时间、延误着陆成本、提前着陆成本；

步骤二：构建深度强化学习的智能体，包含用来预测的Q神经网络与用来当做训练目标的targetQ神经网络，两个网络的输入都为各个飞机的机型、最佳着陆时间、最迟着陆时间；

步骤三:根据上一步的输出，使用防碰撞算法计算出每架飞机的具体着陆时间，并按上述计算的具体着陆时间计算着陆总成本；

首先针对飞机及机场信息建立着陆成本模型，为智能体提供训练环境：

步骤一中的着陆成本模型中包括飞机编号PN、飞机类型PT、最佳着陆时间MF、最迟着陆时间ML、最早着陆时间ME、实际着陆时间AL、提前着陆成本EC、延误着陆成本LC；

着陆总成本的计算方法为：每架飞机实际着陆时间AL与最佳着陆时间MF的差与单位时间提前着陆成本EC和单位时间延误着陆成本LC的乘积和；

计算公式：

其中i表示各架提前着陆的飞机序号，j表示各架延误着陆飞机序号，时间的单位是分钟min，成本的单位是元每分钟￥/min；步骤四：根据上一步的输出，将着陆顺序和总成本传递给着陆成本模型，着陆成本模型根据着陆顺序和总成本返回一个回报给智能体；

所述步骤二中：

首先，本方法选择深度强化学习算法DQN，在DQN中状态和动作被当做神经网络的输入，然后通过神经网络输出后得到动作的Q值。

2.根据权利要求1所述基于改进DQN算法的航班着陆调度方法，其改进之处在于利用防碰撞算法将DQN算法的输出转化为具体着陆时间，具体过程如下：

在改进DQN算法中使用DQN输出飞机排序的序号，然后对已排好序的飞机进行防碰撞处理；按照排好序的飞机逐个计算实际着陆时间，对于顺序在第一位的飞机，直接将其最佳着陆时间赋值给实际着陆时间，其后的每架飞机P1也先尝试将其最佳着陆时间赋值给实际着陆时间t1；

如果P1与之前计算过着陆时间的某飞机P2着陆时间t2不符合最小安全距离的规则，则按如下规则调整P1、P2两架飞机的具体着陆时间，假设此时t1<t2且(t2-t1)<d1，其中d1为P2先着陆情况下P1与P2的最小安全着陆时间距离，d2则为P1先着陆情况下P1与P2的最小安全着陆时间距离；

A:首先确定P1、P2两架飞机着陆时间的可调整范围，即P1、P2飞机在不触犯与其他飞机最小安全距离的情况下的可行的着陆时间范围；

B:计算四种情况下的P1、P2两架飞机着陆成本和：情况1:P1着陆时间不变，P2按照最小安全着陆时间距离d2向后推迟，即t1＝t1，t2＝t1+d2；情况2:P2着陆时间不变，P1按最小安全着陆时间距离d1向后推迟，即t2＝t2，t1＝t2+d1；情况3:P1着陆时间推迟同时P2着陆时间提前，此时t1＝Max(T,E,t2-d2),t2＝t1+d2，其中T为在P1、P2之前最近着陆飞机着陆安全完成后的时间，E为P1最早着陆时间；情况4:P2提前着陆同时P1延迟着陆，此时t2＝Max(T,E,t1-d1),t1＝t2+d1；

C:取上述四种情况下，两架飞机着陆成本最小的情况，即Min(S_1,S_2,S_3,S_4)；

如果按照以上四种方式安排后仍然出现与其他飞机不满足最小安全距离的情况，则将后来的飞机安排在已安排的飞机安全着陆时间后降落，即实际着陆时间依次往后顺延。