CN114819760B

CN114819760B - 一种基于强化学习的机场飞行区道面风险智能决策系统

Info

Publication number: CN114819760B
Application number: CN202210732498.5A
Authority: CN
Inventors: 石潇竹; 姜志乾; 张明伟; 鲍帆
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-30
Anticipated expiration: 2042-06-27
Also published as: CN114819760A

Abstract

本发明提供了一种基于强化学习的机场飞行区道面风险智能决策系统，包括1）状态采集模块，采集机场运行和跑道道面破损状态；2）数据筛选模块，根据道面风险决策的需求选择部分状态值作为智能决策模块的输入；3）智能决策模块，采用强化学习算法根据状态进行起降航班的跑道选择；4）决策评估模块，从运行安全和效率两方面对决策结果进行评价。本发明的目的是解决机场飞行区道面风险决策效率低的问题，突破传统方法单一固定的决策模式，在保障运行安全的前提下提高运行效率。

Description

一种基于强化学习的机场飞行区道面风险智能决策系统

技术领域

本发明涉及一种机场飞行区道面风险智能决策系统，特别是一种基于强化学习的机场飞行区道面风险智能决策系统。

背景技术

民用机场作为保障民航运输系统安全、高效运转的至关重要一环，在民航业长远规划布局的推动下，全国民用机场规模取得了长足的发展。截止2018年，我国的民用机场数量达235个，较2017年增长 2.6%，我国民用机场数量一直保持平稳增长。

民用机场规模不断增长，加上民用机场的吞吐量、起降架次、值机安检等运行繁忙程度不断增加，对民用机场的安全运行管理工作提出了更高的要求。受制于现有民用机场安全运行监管体制局限和监管现状等因素，在监管过程中出现监管不到位的现象。其次，民用机场的旅客及货邮吞吐量不断增多，多数民用机场长期处于超负荷运行，使得运行安全保障和运行安全监管工作难度增大。机场原因导致的不安全事故和事故征候俨然已经成为民航不安全事件的主要原因之一，民用机场作为民航运输中的重要节点，是保障整个民航系统安全、高效、可持续发展的重要环节，这不仅肯定了民用机场在整个民航运输系统中的特殊地位，同时也对机场的安全运行管监管工作提出了更高的要求。

然而，现有的机场安全管理模式着眼于规章，发生事故后进行事故调查并采取改正措施，无疑为保障民航安全起到了很大的作用，但这种事后的、被动的安全管理模式存在两个问题，已不能适应当今民航业的发展。首先，安全工作处于“亡羊补牢”的状态与民航界提倡的“安全第一，预防为主”的主导思想是不一致。其次，这种模式优先保障机场安全，缺乏对机场运行效率的考量，将会影响机场的正常运行。

作为民航机场重要组成部分之一的跑道，在机场运行中起着承上启下的重要作用。因此跑道安全问题成为整个民航运输系统安全的基础，对跑道运行工作加以系统管理，对于提高整个行业安全水平具有重要意义。目前针对跑道运行安全的研究主要集中于对跑道状态的检测以及道面破损风险演化的预测研究，缺少基于道面破损风险的有效决策方法。

强化学习作为一种重要的人工智能方法，目前已在游戏、自动驾驶等领域得到了广泛的应用。强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习解决了传统优化决策方法无法解决的无模型的动态规划问题，是一种可以应用于风险决策的有效方法。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于强化学习的机场飞行区道面风险智能决策系统。

为了解决上述技术问题，本发明公开了一种基于强化学习的机场飞行区道面风险智能决策系统，包括：状态采集模块、数据筛选模块、智能决策模块以及决策评估模块；

所述状态采集模块用于采集当前跑道道面状态、机场运行状态数据，并将数据传输到数据筛选模块；

所述数据筛选模块对从状态采集模块接收得到的数据进行筛选，选择部分采集状态的历史数据作为智能决策模块的输入状态值；

所述智能决策模块分为训练阶段和实际应用阶段；其中，训练阶段包括：根据输入状态值采用基于强化学习的决策技术生成输出值，即对起降飞机的跑道选择，并根据决策评估模块的反馈信息，训练决策模型，优化决策模型的网络参数；实际应用阶段包括：在决策模型参数训练完成后不再改变决策模型的参数，根据输入状态值采用基于强化学习的决策技术直接对起降飞机进行跑道选择；

所述决策评估模块评估智能决策模块输出值对机场运行环境和跑道道面状态的影响结果，并生成反馈信息反馈给智能决策模块。

所述智能决策模块包括三种运行方式：一种为离线训练决策模型的方式，构建机场运行状态以及跑道道面破损演化过程的模拟环境，并根据智能决策模块的输出值，计算模拟环境的变化状态，获得决策评估结果；第二种为在线训练决策模型的方式，与机场实际运行状态进行交互，采集运行状态的变化情况，获得评估结果；第三种为离线训练结合在线优化的方式，通过离线训练决策模型，再根据与机场实际运行状态进行交互得到的评估结果，优化决策模型。

一种基于强化学习的机场飞行区道面风险智能决策系统，执行如下步骤：

步骤S1，状态采集模块实时采集机场运行状态和跑道道面破损状态；

步骤S2，数据筛选模块根据机场道面风险决策的需求，对实时采集的数据进行筛选，选择反映机场运行效率和运行安全的指标，所述指标包括：道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间，作为智能决策模块的输入；

步骤S3，智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择；

步骤S4，决策评估模块根据智能决策模块输出值对机场运行状态以及跑道道面破损情况的影响，从机场运行效率和安全两个方面评估此次决策，即从安全和效率两个角度定义决策评估指标；

步骤S5，返回执行步骤S2，直到评估结果满足对机场运行安全和效率的要求。

其中，步骤S1中所述的机场运行状态，包括：航班延误时间、待起降航班数量以及起降航班的型号。

步骤S1中所述的跑道道面破损状态，包括：破损跑道编号、跑道破损位置和跑道破损等级。

步骤S3包括：

采用优势演员-评论员A2C算法进行道面风险智能决策；所述优势演员-评论员A2C算法包括演员网络和价值网络两部分：

演员网络用于产生风险决策；演员网络的网络结构包括输入层、中间层和输出层，其中，输入层为全连接层，输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间；中间层为全连接层；输出层为softmax层，输出值为选择某一跑道作为起降跑道的概率；

价值网络用于产生道面风险智能决策的值函数；网络结构包括输入层、中间层和输出层，其中，输入层为全连接层，输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间；中间层为全连接层；输出层为linear层，输出值是在当前状态下的价值函数的评估值。

步骤S3中，演员网络的参数根据如下公式进行更新：

(1)

其中，

表示演员网络参数，

表示对网络参数求偏导数，

表示在状态s下选择动作a的策略，

表示在状态 s下选择动作 a的优势函数；

优势函数根据如下公式近似得到：

(2)

其中，

表示即时奖励，由决策评估模块反馈得到，

为一个不大于1的参数，

表示在状态

下的值函数，

表示在状态

下的值函数，由价值网络的输出产生。

步骤S3中，价值网络参数根据如下公式进行更新：

(3)

其中，

表示价值网络参数，

表示即时奖励，

为一个不大于1的参数，

表示在状态

下的值函数，

表示在状态

下的值函数。

步骤S4中，从安全和效率两个角度定义决策评估指标；

其中，从安全角度定义决策评估指标的方法包括：从安全角度考虑道面破损等级及其演变过程，从安全角度定义的决策评估指标的计算方法如下：

(4)

其中，

为从安全角度定义的决策评估指标，p _acn为根据航班机型以及道面破损位置确定该航班对道面造成的压力，p为与道面破损等级相关的参数。

步骤S4中，从安全和效率两个角度定义决策评估指标；

其中，从效率角度定义决策评估指标的方法包括：反映运行效率的指标采用航班的延误时间进行评估：

(5)

其中，

为从效率角度定义的决策评估指标，t _r为航班实际起飞时间，t _p为航班计划起飞时间；

最终决策评估结果

为两项评价指标的加权之和：

(6)

其中，

、

和

为反映指标的权重，t _l为本日最后一个航班的计划起飞时间，t _c为根据运行情况计算得到的该航班的实际起飞时间；Th为阈值，当道面破损等级超过该阈值时关闭相应的跑道。

有益效果：

1，在增加了跑道道面风险的灵活性，不再单纯的以道面破损情况选择继续或关闭跑道，而是根据机场运行状态、跑道破损情况、起降机型等灵活地安排各起降航班的跑道，延长破损跑道的使用时长。

2，在保障安全的前提下提高了机场的运行效率。在进行智能决策时，不仅考虑运行安全因素，也将机场运行效率作为决策的重要指标。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明系统框架示意图。

图2是本发明A2C网络架构中演员网络示意图。

图3是本发明A2C网络架构中价值网络示意图。

图4是本发明模拟仿真的流程示意图。

图5是智能决策模块的训练阶段中训练迭代次数与奖励值的变化关系示意图。

图6是延误时间和道面状态对比示意图。

图7是奖励函数的累积概率分布示意图。

图8是实施例2的A2C网络架构中的演员网络示意图。

图9是实施例2的智能决策模块的训练阶段中训练迭代次数与奖励值的变化关系示意图。

图10是实施例2的延误时间和道面状态对比示意图。

图11是实施例2的奖励函数的累积概率分布示意图。

图12是实施例3的A2C网络架构中的演员网络示意图。

图13是实施例3的智能决策模块的训练阶段中训练迭代次数与奖励值的变化关系示意图。

图14是实施例3的延误时间和道面状态对比示意图。

图15是实施例3的奖励函数的累积概率分布示意图。

具体实施方式

本发明提供了一种基于强化学习的机场飞行区道面风险智能决策系统，包括状态采集模块、数据筛选模块、智能决策模块以及决策评估模块，如图1所示。

所述状态采集模块采集当前跑道道面状态、机场运行状态等数据，并将数据传输到数据筛选模块；

所述数据筛选模块对采集的数据进行筛选，选择的状态值包括：道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。

所述智能决策模块分为训练阶段和实际应用阶段，其中训练阶段根据输入的状态值采用强化学习算法中的优势演员-评论员算法进行指定航班起降飞机的跑道选择，并根据决策评估模块的反馈信息，训练决策模型，优化模型的网络参数，实际应用阶段则是在模型参数训练完成后不再改变模型的参数，根据输入状态值采用基于强化学习的决策技术直接对起降飞机的跑道选择；

所述决策评估模块从运行安全和运行效率对智能决策结果进行评估，并反馈给智能决策模块。

本发明提供5个实施例，分别针对不同机场场景和决策评价方式，以实现对道面风险的最优决策结果。

实施例1：

本实施例针对双跑道机场跑道破损风险决策，采用离线的方式训练模型，包括以下步骤：

步骤S1：状态采集模块实时采集机场运行状态包括：航班延误时间、待起降航班数量、起降航班的型号等，以及跑道道面破损状态包括：破损跑道编号、跑道破损位置、跑道破损等级等；

步骤S2：数据筛选层根据机场道面风险决策的需求，对实时采集的数据进行筛选，选择能够反映机场运行效率和运行安全的指标作为智能决策模块的输入；

具体地，输入状态值包括：道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。

步骤S3：智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择；

具体地，采用优势演员-评论员（A2C）算法进行道面风险智能决策。A2C算法包括两部分：演员网络用于产生风险决策，网络结构如图2所示，输入层为全连接层，其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间，网络的中间层为全连接层，最后的输出层为softmax层，输出值为选择某一跑道作为起降跑道的概率，价值网络用于产生该次决策的值函数，网络结构如图3所示，输入层为全连接层，其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间，网络的中间层为全连接层，最后的输出层为linear层，输出值是在该状态下的价值函数的评估值。其中，演员网络参数根据如下公式进行更新：

(1)

其中，

表示演员网络参数，

表示对网络参数求偏导数，

表示在状态s下选择动作a的策略，

表示在状态 s下选择动作 a的优势函数，优势函数可以根据如下公式近似得到：

(2)

其中，

表示即时奖励，由决策评估模块反馈得到，

为一个不大于1的参数，本实施例中取值为1，V(s _t )表示在状态s _t下的值函数，其由价值网络的输出产生。

而价值网络参数根据如下公式更新：

(3)

其中，

表示价值网络参数，

表示即时奖励，

为一个不大于1的参数，

表示在状态

下的值函数，

表示在状态

下的值函数。

步骤S4：决策评估模块构建机场运行状态以及跑道道面破损演化过程的模拟环境，根据智能决策模块输出值对机场运行状态以及跑道道面破损情况进行计算，得到决策的评估值。

具体地，模拟环境流程如图4所示。从安全和效率两个角度定义了决策评估指标。其中安全考虑了道面破损等级及其演变过程，具体评价指标计算方法如下所示：

(4)

其中，p _acn根据航班机型以及道面破损位置确定该航班对道面造成的压力，p与道面破损等级相关。

反映运行效率的指标采用航班的延误时间进行评估，如下所示：

(5)

其中，t _r为航班实际起飞时间，t _p为航班计划起飞时间。

最终对决策评估结果为两项评价指标的加权之和，如下所示：

(6)

其中，

、

和

为反映指标的权重，可以根据实际运行需求进行调整，本实施例中取值分别为-1.0、1.0和2.0。t _l为本日最后一个航班的计划起飞时间，t _c为根据运行情况计算得到的该航班的实际起飞时间。Th为阈值，当道面破损等级超过该阈值时关闭相应的跑道，本实施例中取值为4。

步骤S5：返回执行步骤S2，直到评估结果满足对机场运行安全和效率的要求。

在智能决策模块训练阶段，训练迭代次数与奖励值的变化关系如图5所示：由图中结果可得，在训练初始阶段，由于决策模型采取随机策略，此时得到的奖励值较低且波动较大，随着训练迭代次数增加，决策模型输出结果稳定在一个较高的奖励值。在此模型的基础上，比较基于强化学习的道面风险决策和基于风险预案的道面风险决策。其中，基于风险预案的道面风险决策在道面破损等级为4级时关闭跑道，其他情况下，所有跑道正常运行。两种方法在500组双跑道机场运行模拟数据下的延误时间、道面状态和奖励函数的累积概率分布分别如图6和图7所示。如图6所示，纵坐标为延误时间和道面破损等级归一化后的结果，由结果可以得到，基于强化学习的道面风险决策相比于基于风险预案的道面风险决策道面破损等级提高了约16.3%，但平均延误时间下降了约40.8%。如图7所示，为累积概率分布对比，曲线靠近右侧说明累积奖励值越高，从图中可以看出，基于强化学习的道面风险决策大多数情况下累积奖励函数高于基于风险预案的道面风险决策，平均累积奖励函数提高了约71.24%。在500组数据中选择部分数据的实际运行状态如表1和表2所示（延误时间单位是分钟，道面状态表示道面的破损等级，数值越高破损越严重）：

表1 道面破损场景1下的实际运行状态示意表

其中，表1的跑道2发生破损，破损位置为跑道的83m处，破损等级为3级。由结果可得，基于强化学习的道面风险决策大多情况下，优先选择小型机在破损跑道上降落或选择大型机在该跑道上起飞，从而在保证运行效率的情况下，最大限度地延长破损跑道的使用时间，降低由于跑道关闭而导致的航班延误；

表2 道面破损场景2下的实际运行状态示意表

表2的跑道1发生破损，破损位置为跑道的3027m处，破损等级为2级。由结果可得，由于跑道破损位置处于跑道末端，且破损等级较低，基于强化学习的道面风险决策以降低延误时间为更高优先级进行起降跑道的分配。

实施例2:

本实施例针对三跑道机场跑道破损风险决策，采用离线的方式训练模型，包括以下步骤：

具体地，采用优势演员-评论员（A2C）算法进行道面风险智能决策。A2C算法包括两部分：演员网络用于产生风险决策，网络结构如图8所示，输入层为全连接层，其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间，网络的中间层为全连接层，最后的输出层为softmax层，针对三跑道场景输出层共有3个输出值，输出值为选择某一跑道作为起降跑道的概率，价值网络用于产生该次决策的值函数，网络结构如图3所示，输入层为全连接层，其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间，网络的中间层为全连接层，最后的输出层为linear层，输出值是在该状态下的价值函数的评估值。其中，演员网络参数根据如下公式进行更新：

(1)

其中，

表示演员网络参数，

表示对网络参数求偏导数，

表示在状态s下选择动作a的策略，

表示在状态 s下选择动作 a的优势函数；优势函数可以根据如下公式近似得到：

(2)

其中，r _t表示即时奖励，由决策评估模块反馈得到，

而价值网络参数根据如下公式更新：

(3)

其中，

表示价值网络参数，

表示即时奖励，由决策评估模块反馈得到，

为一个不大于1的参数，

表示在状态

下的值函数，

表示在状态

下的值函数，由价值网络的输出产生。

(4)

(5)

其中，t _r为航班实际起飞时间，t _p为航班计划起飞时间。

(6)

其中，

、

和

为反映指标的权重，可以根据实际运行需求进行调整，本实施例中取值分别为-1.0、2.0和2.0。t _l为本日最后一个航班的计划起飞时间，t _c为根据运行情况计算得到的该航班的实际起飞时间。Th为阈值，当道面破损等级超过该阈值时关闭相应的跑道，本实施例中取值为4。

在智能决策模块训练阶段，训练迭代次数与奖励值的变化关系如图9所示：由图中结果可得，在训练初始阶段，由于决策模型采取随机策略，此时得到的奖励值较低且波动较大，随着训练迭代次数增加，决策模型输出结果稳定在一个较高的奖励值。在此模型的基础上，比较基于强化学习的道面风险决策和基于风险预案的道面风险决策。其中，基于风险预案的道面风险决策在道面破损等级为4级时关闭跑道，其他情况下，所有跑道正常运行。两种方法在500组三跑道机场运行模拟数据下的延误时间、道面状态和奖励函数的累积概率分布分别如图10和图11所示。如图10所示，纵坐标为延误时间和道面破损等级归一化后的结果，由结果可以得到，基于强化学习的道面风险决策相比于基于风险预案的道面风险决策在道面破损可接受的前提下，平均延误时间下降了约20.05%。如图11所示，为累积概率分布对比，曲线靠近右侧说明累积奖励值越高，从图中可以看出，基于强化学习的道面风险决策大多数情况下累积奖励函数高于基于风险预案的道面风险决策，平均累积奖励函数提高了约27.61%。

实施例3:

本实施例针对双跑道机场双向起降的跑道破损风险决策，采用离线的方式训练模型，包括以下步骤：

具体地，采用优势演员-评论员（A2C）算法进行道面风险智能决策。A2C算法包括两部分：演员网络用于产生风险决策，网络结构如图12所示，输入层为全连接层，其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间，网络的中间层为全连接层，最后的输出层为softmax层，针对双跑道双向起降场景输出层共有4个输出值，输出值为选择某一跑道并选择起降方向的概率，价值网络用于产生该次决策的值函数，网络结构如图3所示，输入层为全连接层，其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间，网络的中间层为全连接层，最后的输出层为linear层，输出值是在该状态下的价值函数的评估值。其中，演员网络参数根据如下公式进行更新：

(1)

其中，

表示演员网络参数，

表示对网络参数求偏导数，

表示在状态s下选择动作a的策略，

(2)

其中，r _t表示即时奖励，由决策评估模块反馈得到，

而价值网络参数根据如下公式更新：

(3)

其中，

表示价值网络参数，

表示即时奖励，由决策评估模块反馈得到，

为一个不大于1的参数，

表示在状态

下的值函数，

表示在状态

下的值函数，由价值网络的输出产生。

(4)

(5)

其中，t _r为航班实际起飞时间，t _p为航班计划起飞时间。

(6)

其中，

、

和

在智能决策模块训练阶段，训练迭代次数与奖励值的变化关系如图13所示：由图中结果可得，在训练初始阶段，由于决策模型采取随机策略，此时得到的奖励值较低且波动较大，随着训练迭代次数增加，决策模型输出结果稳定在一个较高的奖励值。在此模型的基础上，比较基于强化学习的道面风险决策和基于风险预案的道面风险决策。其中，基于风险预案的道面风险决策在道面破损等级为4级时关闭跑道，其他情况下，所有跑道正常运行。两种方法在500组双跑道机场双向起降运行模拟数据下的延误时间、道面状态和奖励函数的累积概率分布分别如图14和图15所示。如图14所示，纵坐标为延误时间和道面破损等级归一化后的结果，由结果可以得到，由于采用双向起降的方式，基于强化学习的道面风险决策相比于基于风险预案的道面风险决策对道面的破损影响更小，道面破损等级降低了约11.6%，同时平均延误时间下降了约27.8%。如图15所示，为累积概率分布对比，曲线靠近右侧说明累积奖励值越高，从图中可以看出，基于强化学习的道面风险决策累积奖励函数明显高于基于风险预案的道面风险决策，平均累积奖励函数提高了约50.47%。

实施例4：

本实施例针对机场跑道破损风险决策，采用在线的方式训练模型，包括以下步骤：

具体地，采用优势演员-评论员（A2C）算法进行道面风险智能决策。A2C算法包括两部分：演员网络用于产生风险决策，网络结构如图2所示，价值网络用于产生该次决策的值函数，网络结构如图3所示。其中，演员网络参数根据公式(1)进行更新，而价值网络参数根据公式(3)更新。

步骤S4：决策评估模块将产生的决策直接与机场实际运行环境进行交互，得到当前航班的实际延误时间和道面破损状态，并根据评价公式(6)进行决策评估。

实施例5:

本实施例针对机场跑道破损风险决策，采用离线-在线结合的方式训练模型，包括以下步骤：

具体地，模拟环境流程如图4所示：首先获取每个跑道可用于起降的时间，并获取每个待起降航班的起降时间、机型等信息。当跑道道面未发生破损时，此时无需启用跑道道面风险智能决策，根据起降航班的起降跑道更新每个跑道的可用于起降的时间，当此时的起降航班为当天的末班时，结束流程。当跑道道面发生破损时，启动跑道道面风险智能决策，根据机场运行状态和道面破损状态选择起降航班的起降跑道，若选择的跑道为未破损跑道，则根据航班的起降时间更新跑道的可用时间，并计算航班的延误时间，而跑道道面破损不变。若选择的跑道为破损跑道，则根据航班机型、起降状态以及道面破损状态和位置计算道面破损变化情况，并更新该跑道的可用时间，最后计算航班的延误时间和该航班起降后的道面破损状态。若该航班为末班航班，则结束流程。

从安全和效率两个角度定义了决策评估指标。其中安全考虑了道面破损等级及其演变过程，具体评价指标如公式(4)所示。反映运行效率的指标采用航班的延误时间进行评估，如公式(5)所示。最终对决策评估结果为两项评价指标的加权之和，如公式(6)所示：

步骤S6：将得到的智能决策模型直接与机场实际运行环境进行交互，得到当前航班的实际延误时间和道面破损状态，并根据评价公式(6)进行决策评估。

步骤S7：返回执行步骤S2、S3、S6，直到评估结果满足对机场运行安全和效率的要求。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于强化学习的机场飞行区道面风险智能决策系统的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（read-onlymemory，ROM）或随机存储记忆体（random access memory，RAM）等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备（可以是个人计算机，服务器，单片机。MUU或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种基于强化学习的机场飞行区道面风险智能决策系统的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于强化学习的机场飞行区道面风险智能决策系统，其特征在于，包括：状态采集模块、数据筛选模块、智能决策模块以及决策评估模块；

所述决策评估模块评估智能决策模块输出值对机场运行环境和跑道道面状态的影响结果，并生成反馈信息反馈给智能决策模块；

所述基于强化学习的机场飞行区道面风险智能决策系统执行如下步骤：

步骤S5，返回执行步骤S2，直到评估结果满足对机场运行安全和效率的要求；

步骤S1中所述的机场运行状态，包括：航班延误时间、待起降航班数量以及起降航班的型号；

步骤S1中所述的跑道道面破损状态，包括：破损跑道编号、跑道破损位置和跑道破损等级；

步骤S3包括：

价值网络用于产生道面风险智能决策的值函数；网络结构包括输入层、中间层和输出层，其中，输入层为全连接层，输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间；中间层为全连接层；输出层为linear层，输出值是在当前状态下的价值函数的评估值；

步骤S3中，演员网络的参数根据如下公式进行更新：

(1)

其中，

表示演员网络参数，

表示对网络参数求偏导数，

表示在状态s下选择动作a的策略，

表示在状态 s下选择动作 a的优势函数；

优势函数根据如下公式近似得到：

(2)

其中，

表示即时奖励，由决策评估模块反馈得到，

为一个不大于1的参数，

表示在状态

下的值函数，

表示在状态

下的值函数，由价值网络的输出产生；

步骤S3中，价值网络参数根据如下公式进行更新：

(3)

其中，

表示价值网络参数。

2.根据权利要求1所述的一种基于强化学习的机场飞行区道面风险智能决策系统，其特征在于，所述智能决策模块包括三种运行方式：一种为离线训练决策模型的方式，构建机场运行状态以及跑道道面破损演化过程的模拟环境，并根据智能决策模块的输出值，计算模拟环境的变化状态，获得决策评估结果；第二种为在线训练决策模型的方式，与机场实际运行状态进行交互，采集运行状态的变化情况，获得评估结果；第三种为离线训练结合在线优化的方式，通过离线训练决策模型，再根据与机场实际运行状态进行交互得到的评估结果，优化决策模型。

3.根据权利要求2所述的一种基于强化学习的机场飞行区道面风险智能决策系统，其特征在于，步骤S4中，从安全和效率两个角度定义决策评估指标；