CN114819760B - 一种基于强化学习的机场飞行区道面风险智能决策系统 - Google Patents
一种基于强化学习的机场飞行区道面风险智能决策系统 Download PDFInfo
- Publication number
- CN114819760B CN114819760B CN202210732498.5A CN202210732498A CN114819760B CN 114819760 B CN114819760 B CN 114819760B CN 202210732498 A CN202210732498 A CN 202210732498A CN 114819760 B CN114819760 B CN 114819760B
- Authority
- CN
- China
- Prior art keywords
- decision
- state
- runway
- flight
- airport
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims abstract description 84
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 38
- 230000010006 flight Effects 0.000 claims description 27
- 239000000126 substance Substances 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 14
- 230000001186 cumulative effect Effects 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001494479 Pecora Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于强化学习的机场飞行区道面风险智能决策系统,包括1)状态采集模块,采集机场运行和跑道道面破损状态;2)数据筛选模块,根据道面风险决策的需求选择部分状态值作为智能决策模块的输入;3)智能决策模块,采用强化学习算法根据状态进行起降航班的跑道选择;4)决策评估模块,从运行安全和效率两方面对决策结果进行评价。本发明的目的是解决机场飞行区道面风险决策效率低的问题,突破传统方法单一固定的决策模式,在保障运行安全的前提下提高运行效率。
Description
技术领域
本发明涉及一种机场飞行区道面风险智能决策系统,特别是一种基于强化学习的机场飞行区道面风险智能决策系统。
背景技术
民用机场作为保障民航运输系统安全、高效运转的至关重要一环,在民航业长远规划布局的推动下,全国民用机场规模取得了长足的发展。截止2018年,我国的民用机场数量达235个,较2017年增长 2.6%,我国民用机场数量一直保持平稳增长。
民用机场规模不断增长,加上民用机场的吞吐量、起降架次、值机安检等运行繁忙程度不断增加,对民用机场的安全运行管理工作提出了更高的要求。受制于现有民用机场安全运行监管体制局限和监管现状等因素,在监管过程中出现监管不到位的现象。其次,民用机场的旅客及货邮吞吐量不断增多,多数民用机场长期处于超负荷运行,使得运行安全保障和运行安全监管工作难度增大。机场原因导致的不安全事故和事故征候俨然已经成为民航不安全事件的主要原因之一,民用机场作为民航运输中的重要节点,是保障整个民航系统安全、高效、可持续发展的重要环节,这不仅肯定了民用机场在整个民航运输系统中的特殊地位,同时也对机场的安全运行管监管工作提出了更高的要求。
然而,现有的机场安全管理模式着眼于规章,发生事故后进行事故调查并采取改正措施,无疑为保障民航安全起到了很大的作用,但这种事后的、被动的安全管理模式存在两个问题,已不能适应当今民航业的发展。首先,安全工作处于“亡羊补牢”的状态与民航界提倡的“安全第一,预防为主”的主导思想是不一致。其次,这种模式优先保障机场安全,缺乏对机场运行效率的考量,将会影响机场的正常运行。
作为民航机场重要组成部分之一的跑道,在机场运行中起着承上启下的重要作用。因此跑道安全问题成为整个民航运输系统安全的基础,对跑道运行工作加以系统管理,对于提高整个行业安全水平具有重要意义。目前针对跑道运行安全的研究主要集中于对跑道状态的检测以及道面破损风险演化的预测研究,缺少基于道面破损风险的有效决策方法。
强化学习作为一种重要的人工智能方法,目前已在游戏、自动驾驶等领域得到了广泛的应用。强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习解决了传统优化决策方法无法解决的无模型的动态规划问题,是一种可以应用于风险决策的有效方法。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于强化学习的机场飞行区道面风险智能决策系统。
为了解决上述技术问题,本发明公开了一种基于强化学习的机场飞行区道面风险智能决策系统,包括:状态采集模块、数据筛选模块、智能决策模块以及决策评估模块;
所述状态采集模块用于采集当前跑道道面状态、机场运行状态数据,并将数据传输到数据筛选模块;
所述数据筛选模块对从状态采集模块接收得到的数据进行筛选,选择部分采集状态的历史数据作为智能决策模块的输入状态值;
所述智能决策模块分为训练阶段和实际应用阶段;其中,训练阶段包括:根据输入状态值采用基于强化学习的决策技术生成输出值,即对起降飞机的跑道选择,并根据决策评估模块的反馈信息,训练决策模型,优化决策模型的网络参数;实际应用阶段包括:在决策模型参数训练完成后不再改变决策模型的参数,根据输入状态值采用基于强化学习的决策技术直接对起降飞机进行跑道选择;
所述决策评估模块评估智能决策模块输出值对机场运行环境和跑道道面状态的影响结果,并生成反馈信息反馈给智能决策模块。
所述智能决策模块包括三种运行方式:一种为离线训练决策模型的方式,构建机场运行状态以及跑道道面破损演化过程的模拟环境,并根据智能决策模块的输出值,计算模拟环境的变化状态,获得决策评估结果;第二种为在线训练决策模型的方式,与机场实际运行状态进行交互,采集运行状态的变化情况,获得评估结果;第三种为离线训练结合在线优化的方式,通过离线训练决策模型,再根据与机场实际运行状态进行交互得到的评估结果,优化决策模型。
一种基于强化学习的机场飞行区道面风险智能决策系统,执行如下步骤:
步骤S1,状态采集模块实时采集机场运行状态和跑道道面破损状态;
步骤S2,数据筛选模块根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择反映机场运行效率和运行安全的指标,所述指标包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间,作为智能决策模块的输入;
步骤S3,智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
步骤S4,决策评估模块根据智能决策模块输出值对机场运行状态以及跑道道面破损情况的影响,从机场运行效率和安全两个方面评估此次决策,即从安全和效率两个角度定义决策评估指标;
步骤S5,返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求。
其中,步骤S1中所述的机场运行状态,包括:航班延误时间、待起降航班数量以及起降航班的型号。
步骤S1中所述的跑道道面破损状态,包括:破损跑道编号、跑道破损位置和跑道破损等级。
步骤S3包括:
采用优势演员-评论员A2C算法进行道面风险智能决策;所述优势演员-评论员A2C算法包括演员网络和价值网络两部分:
演员网络用于产生风险决策;演员网络的网络结构包括输入层、中间层和输出层,其中,输入层为全连接层,输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间;中间层为全连接层;输出层为softmax层,输出值为选择某一跑道作为起降跑道的概率;
价值网络用于产生道面风险智能决策的值函数;网络结构包括输入层、中间层和输出层,其中,输入层为全连接层,输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间;中间层为全连接层;输出层为linear层,输出值是在当前状态下的价值函数的评估值。
步骤S3中,演员网络的参数根据如下公式进行更新:
优势函数根据如下公式近似得到:
步骤S3中,价值网络参数根据如下公式进行更新:
步骤S4中,从安全和效率两个角度定义决策评估指标;
其中,从安全角度定义决策评估指标的方法包括:从安全角度考虑道面破损等级及其演变过程,从安全角度定义的决策评估指标的计算方法如下:
步骤S4中,从安全和效率两个角度定义决策评估指标;
其中,从效率角度定义决策评估指标的方法包括:反映运行效率的指标采用航班的延误时间进行评估:
有益效果:
1,在增加了跑道道面风险的灵活性,不再单纯的以道面破损情况选择继续或关闭跑道,而是根据机场运行状态、跑道破损情况、起降机型等灵活地安排各起降航班的跑道,延长破损跑道的使用时长。
2,在保障安全的前提下提高了机场的运行效率。在进行智能决策时,不仅考虑运行安全因素,也将机场运行效率作为决策的重要指标。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明系统框架示意图。
图2是本发明A2C网络架构中演员网络示意图。
图3是本发明A2C网络架构中价值网络示意图。
图4是本发明模拟仿真的流程示意图。
图5是智能决策模块的训练阶段中训练迭代次数与奖励值的变化关系示意图。
图6是延误时间和道面状态对比示意图。
图7是奖励函数的累积概率分布示意图。
图8是实施例2的A2C网络架构中的演员网络示意图。
图9是实施例2的智能决策模块的训练阶段中训练迭代次数与奖励值的变化关系示意图。
图10是实施例2的延误时间和道面状态对比示意图。
图11是实施例2的奖励函数的累积概率分布示意图。
图12是实施例3的A2C网络架构中的演员网络示意图。
图13是实施例3的智能决策模块的训练阶段中训练迭代次数与奖励值的变化关系示意图。
图14是实施例3的延误时间和道面状态对比示意图。
图15是实施例3的奖励函数的累积概率分布示意图。
具体实施方式
本发明提供了一种基于强化学习的机场飞行区道面风险智能决策系统,包括状态采集模块、数据筛选模块、智能决策模块以及决策评估模块,如图1所示。
所述状态采集模块采集当前跑道道面状态、机场运行状态等数据,并将数据传输到数据筛选模块;
所述数据筛选模块对采集的数据进行筛选,选择的状态值包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。
所述智能决策模块分为训练阶段和实际应用阶段,其中训练阶段根据输入的状态值采用强化学习算法中的优势演员-评论员算法进行指定航班起降飞机的跑道选择,并根据决策评估模块的反馈信息,训练决策模型,优化模型的网络参数,实际应用阶段则是在模型参数训练完成后不再改变模型的参数,根据输入状态值采用基于强化学习的决策技术直接对起降飞机的跑道选择;
所述决策评估模块从运行安全和运行效率对智能决策结果进行评估,并反馈给智能决策模块。
本发明提供5个实施例,分别针对不同机场场景和决策评价方式,以实现对道面风险的最优决策结果。
实施例1:
本实施例针对双跑道机场跑道破损风险决策,采用离线的方式训练模型,包括以下步骤:
步骤S1:状态采集模块实时采集机场运行状态包括:航班延误时间、待起降航班数量、起降航班的型号等,以及跑道道面破损状态包括:破损跑道编号、跑道破损位置、跑道破损等级等;
步骤S2:数据筛选层根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择能够反映机场运行效率和运行安全的指标作为智能决策模块的输入;
具体地,输入状态值包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。
步骤S3:智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
具体地,采用优势演员-评论员(A2C)算法进行道面风险智能决策。A2C算法包括两部分:演员网络用于产生风险决策,网络结构如图2所示,输入层为全连接层,其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间,网络的中间层为全连接层,最后的输出层为softmax层,输出值为选择某一跑道作为起降跑道的概率,价值网络用于产生该次决策的值函数,网络结构如图3所示,输入层为全连接层,其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间,网络的中间层为全连接层,最后的输出层为linear层,输出值是在该状态下的价值函数的评估值。其中,演员网络参数根据如下公式进行更新:
而价值网络参数根据如下公式更新:
步骤S4:决策评估模块构建机场运行状态以及跑道道面破损演化过程的模拟环境,根据智能决策模块输出值对机场运行状态以及跑道道面破损情况进行计算,得到决策的评估值。
具体地,模拟环境流程如图4所示。从安全和效率两个角度定义了决策评估指标。其中安全考虑了道面破损等级及其演变过程,具体评价指标计算方法如下所示:
其中,p acn 根据航班机型以及道面破损位置确定该航班对道面造成的压力,p与道面破损等级相关。
反映运行效率的指标采用航班的延误时间进行评估,如下所示:
其中,t r 为航班实际起飞时间,t p 为航班计划起飞时间。
最终对决策评估结果为两项评价指标的加权之和,如下所示:
其中, 、和为反映指标的权重,可以根据实际运行需求进行调整,本实施例中取值分别为-1.0、1.0和2.0。t l 为本日最后一个航班的计划起飞时间,t c 为根据运行情况计算得到的该航班的实际起飞时间。Th为阈值,当道面破损等级超过该阈值时关闭相应的跑道,本实施例中取值为4。
步骤S5:返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求。
在智能决策模块训练阶段,训练迭代次数与奖励值的变化关系如图5所示:由图中结果可得,在训练初始阶段,由于决策模型采取随机策略,此时得到的奖励值较低且波动较大,随着训练迭代次数增加,决策模型输出结果稳定在一个较高的奖励值。在此模型的基础上,比较基于强化学习的道面风险决策和基于风险预案的道面风险决策。其中,基于风险预案的道面风险决策在道面破损等级为4级时关闭跑道,其他情况下,所有跑道正常运行。两种方法在500组双跑道机场运行模拟数据下的延误时间、道面状态和奖励函数的累积概率分布分别如图6和图7所示。如图6所示,纵坐标为延误时间和道面破损等级归一化后的结果,由结果可以得到,基于强化学习的道面风险决策相比于基于风险预案的道面风险决策道面破损等级提高了约16.3%,但平均延误时间下降了约40.8%。如图7所示,为累积概率分布对比,曲线靠近右侧说明累积奖励值越高,从图中可以看出,基于强化学习的道面风险决策大多数情况下累积奖励函数高于基于风险预案的道面风险决策,平均累积奖励函数提高了约71.24%。在500组数据中选择部分数据的实际运行状态如表1和表2所示(延误时间单位是分钟,道面状态表示道面的破损等级,数值越高破损越严重):
表1 道面破损场景1下的实际运行状态示意表
其中,表1的跑道2发生破损,破损位置为跑道的83m处,破损等级为3级。由结果可得,基于强化学习的道面风险决策大多情况下,优先选择小型机在破损跑道上降落或选择大型机在该跑道上起飞,从而在保证运行效率的情况下,最大限度地延长破损跑道的使用时间,降低由于跑道关闭而导致的航班延误;
表2 道面破损场景2下的实际运行状态示意表
表2的跑道1发生破损,破损位置为跑道的3027m处,破损等级为2级。由结果可得,由于跑道破损位置处于跑道末端,且破损等级较低,基于强化学习的道面风险决策以降低延误时间为更高优先级进行起降跑道的分配。
实施例2:
本实施例针对三跑道机场跑道破损风险决策,采用离线的方式训练模型,包括以下步骤:
步骤S1:状态采集模块实时采集机场运行状态包括:航班延误时间、待起降航班数量、起降航班的型号等,以及跑道道面破损状态包括:破损跑道编号、跑道破损位置、跑道破损等级等;
步骤S2:数据筛选层根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择能够反映机场运行效率和运行安全的指标作为智能决策模块的输入;
具体地,输入状态值包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。
步骤S3:智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
具体地,采用优势演员-评论员(A2C)算法进行道面风险智能决策。A2C算法包括两部分:演员网络用于产生风险决策,网络结构如图8所示,输入层为全连接层,其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间,网络的中间层为全连接层,最后的输出层为softmax层,针对三跑道场景输出层共有3个输出值,输出值为选择某一跑道作为起降跑道的概率,价值网络用于产生该次决策的值函数,网络结构如图3所示,输入层为全连接层,其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间,网络的中间层为全连接层,最后的输出层为linear层,输出值是在该状态下的价值函数的评估值。其中,演员网络参数根据如下公式进行更新:
而价值网络参数根据如下公式更新:
步骤S4:决策评估模块构建机场运行状态以及跑道道面破损演化过程的模拟环境,根据智能决策模块输出值对机场运行状态以及跑道道面破损情况进行计算,得到决策的评估值。
具体地,模拟环境流程如图4所示。从安全和效率两个角度定义了决策评估指标。其中安全考虑了道面破损等级及其演变过程,具体评价指标计算方法如下所示:
其中,p acn 根据航班机型以及道面破损位置确定该航班对道面造成的压力,p与道面破损等级相关。
反映运行效率的指标采用航班的延误时间进行评估,如下所示:
其中,t r 为航班实际起飞时间,t p 为航班计划起飞时间。
最终对决策评估结果为两项评价指标的加权之和,如下所示:
其中, 、和为反映指标的权重,可以根据实际运行需求进行调整,本实施例中取值分别为-1.0、2.0和2.0。t l 为本日最后一个航班的计划起飞时间,t c 为根据运行情况计算得到的该航班的实际起飞时间。Th为阈值,当道面破损等级超过该阈值时关闭相应的跑道,本实施例中取值为4。
步骤S5:返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求。
在智能决策模块训练阶段,训练迭代次数与奖励值的变化关系如图9所示:由图中结果可得,在训练初始阶段,由于决策模型采取随机策略,此时得到的奖励值较低且波动较大,随着训练迭代次数增加,决策模型输出结果稳定在一个较高的奖励值。在此模型的基础上,比较基于强化学习的道面风险决策和基于风险预案的道面风险决策。其中,基于风险预案的道面风险决策在道面破损等级为4级时关闭跑道,其他情况下,所有跑道正常运行。两种方法在500组三跑道机场运行模拟数据下的延误时间、道面状态和奖励函数的累积概率分布分别如图10和图11所示。如图10所示,纵坐标为延误时间和道面破损等级归一化后的结果,由结果可以得到,基于强化学习的道面风险决策相比于基于风险预案的道面风险决策在道面破损可接受的前提下,平均延误时间下降了约20.05%。如图11所示,为累积概率分布对比,曲线靠近右侧说明累积奖励值越高,从图中可以看出,基于强化学习的道面风险决策大多数情况下累积奖励函数高于基于风险预案的道面风险决策,平均累积奖励函数提高了约27.61%。
实施例3:
本实施例针对双跑道机场双向起降的跑道破损风险决策,采用离线的方式训练模型,包括以下步骤:
步骤S1:状态采集模块实时采集机场运行状态包括:航班延误时间、待起降航班数量、起降航班的型号等,以及跑道道面破损状态包括:破损跑道编号、跑道破损位置、跑道破损等级等;
步骤S2:数据筛选层根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择能够反映机场运行效率和运行安全的指标作为智能决策模块的输入;
具体地,输入状态值包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。
步骤S3:智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
具体地,采用优势演员-评论员(A2C)算法进行道面风险智能决策。A2C算法包括两部分:演员网络用于产生风险决策,网络结构如图12所示,输入层为全连接层,其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间,网络的中间层为全连接层,最后的输出层为softmax层,针对双跑道双向起降场景输出层共有4个输出值,输出值为选择某一跑道并选择起降方向的概率,价值网络用于产生该次决策的值函数,网络结构如图3所示,输入层为全连接层,其输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间,网络的中间层为全连接层,最后的输出层为linear层,输出值是在该状态下的价值函数的评估值。其中,演员网络参数根据如下公式进行更新:
而价值网络参数根据如下公式更新:
步骤S4:决策评估模块构建机场运行状态以及跑道道面破损演化过程的模拟环境,根据智能决策模块输出值对机场运行状态以及跑道道面破损情况进行计算,得到决策的评估值。
具体地,模拟环境流程如图4所示。从安全和效率两个角度定义了决策评估指标。其中安全考虑了道面破损等级及其演变过程,具体评价指标计算方法如下所示:
其中,p acn 根据航班机型以及道面破损位置确定该航班对道面造成的压力,p与道面破损等级相关。
反映运行效率的指标采用航班的延误时间进行评估,如下所示:
其中,t r 为航班实际起飞时间,t p 为航班计划起飞时间。
最终对决策评估结果为两项评价指标的加权之和,如下所示:
其中,、和为反映指标的权重,可以根据实际运行需求进行调整,本实施例中取值分别为-1.0、2.0和2.0。t l 为本日最后一个航班的计划起飞时间,t c 为根据运行情况计算得到的该航班的实际起飞时间。Th为阈值,当道面破损等级超过该阈值时关闭相应的跑道,本实施例中取值为4。
步骤S5:返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求。
在智能决策模块训练阶段,训练迭代次数与奖励值的变化关系如图13所示:由图中结果可得,在训练初始阶段,由于决策模型采取随机策略,此时得到的奖励值较低且波动较大,随着训练迭代次数增加,决策模型输出结果稳定在一个较高的奖励值。在此模型的基础上,比较基于强化学习的道面风险决策和基于风险预案的道面风险决策。其中,基于风险预案的道面风险决策在道面破损等级为4级时关闭跑道,其他情况下,所有跑道正常运行。两种方法在500组双跑道机场双向起降运行模拟数据下的延误时间、道面状态和奖励函数的累积概率分布分别如图14和图15所示。如图14所示,纵坐标为延误时间和道面破损等级归一化后的结果,由结果可以得到,由于采用双向起降的方式,基于强化学习的道面风险决策相比于基于风险预案的道面风险决策对道面的破损影响更小,道面破损等级降低了约11.6%,同时平均延误时间下降了约27.8%。如图15所示,为累积概率分布对比,曲线靠近右侧说明累积奖励值越高,从图中可以看出,基于强化学习的道面风险决策累积奖励函数明显高于基于风险预案的道面风险决策,平均累积奖励函数提高了约50.47%。
实施例4:
本实施例针对机场跑道破损风险决策,采用在线的方式训练模型,包括以下步骤:
步骤S1:状态采集模块实时采集机场运行状态包括:航班延误时间、待起降航班数量、起降航班的型号等,以及跑道道面破损状态包括:破损跑道编号、跑道破损位置、跑道破损等级等;
步骤S2:数据筛选层根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择能够反映机场运行效率和运行安全的指标作为智能决策模块的输入;
具体地,输入状态值包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。
步骤S3:智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
具体地,采用优势演员-评论员(A2C)算法进行道面风险智能决策。A2C算法包括两部分:演员网络用于产生风险决策,网络结构如图2所示,价值网络用于产生该次决策的值函数,网络结构如图3所示。其中,演员网络参数根据公式(1)进行更新,而价值网络参数根据公式(3)更新。
步骤S4:决策评估模块将产生的决策直接与机场实际运行环境进行交互,得到当前航班的实际延误时间和道面破损状态,并根据评价公式(6)进行决策评估。
步骤S5:返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求。
实施例5:
本实施例针对机场跑道破损风险决策,采用离线-在线结合的方式训练模型,包括以下步骤:
步骤S1:状态采集模块实时采集机场运行状态包括:航班延误时间、待起降航班数量、起降航班的型号等,以及跑道道面破损状态包括:破损跑道编号、跑道破损位置、跑道破损等级等;
步骤S2:数据筛选层根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择能够反映机场运行效率和运行安全的指标作为智能决策模块的输入;
具体地,输入状态值包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数、跑道的延误时间。
步骤S3:智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
具体地,采用优势演员-评论员(A2C)算法进行道面风险智能决策。A2C算法包括两部分:演员网络用于产生风险决策,网络结构如图2所示,价值网络用于产生该次决策的值函数,网络结构如图3所示。其中,演员网络参数根据公式(1)进行更新,而价值网络参数根据公式(3)更新。
步骤S4:决策评估模块构建机场运行状态以及跑道道面破损演化过程的模拟环境,根据智能决策模块输出值对机场运行状态以及跑道道面破损情况进行计算,得到决策的评估值。
具体地,模拟环境流程如图4所示:首先获取每个跑道可用于起降的时间,并获取每个待起降航班的起降时间、机型等信息。当跑道道面未发生破损时,此时无需启用跑道道面风险智能决策,根据起降航班的起降跑道更新每个跑道的可用于起降的时间,当此时的起降航班为当天的末班时,结束流程。当跑道道面发生破损时,启动跑道道面风险智能决策,根据机场运行状态和道面破损状态选择起降航班的起降跑道,若选择的跑道为未破损跑道,则根据航班的起降时间更新跑道的可用时间,并计算航班的延误时间,而跑道道面破损不变。若选择的跑道为破损跑道,则根据航班机型、起降状态以及道面破损状态和位置计算道面破损变化情况,并更新该跑道的可用时间,最后计算航班的延误时间和该航班起降后的道面破损状态。若该航班为末班航班,则结束流程。
从安全和效率两个角度定义了决策评估指标。其中安全考虑了道面破损等级及其演变过程,具体评价指标如公式(4)所示。反映运行效率的指标采用航班的延误时间进行评估,如公式(5)所示。最终对决策评估结果为两项评价指标的加权之和,如公式(6)所示:
步骤S5:返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求。
步骤S6:将得到的智能决策模型直接与机场实际运行环境进行交互,得到当前航班的实际延误时间和道面破损状态,并根据评价公式(6)进行决策评估。
步骤S7:返回执行步骤S2、S3、S6,直到评估结果满足对机场运行安全和效率的要求。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于强化学习的机场飞行区道面风险智能决策系统的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,ROM)或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于强化学习的机场飞行区道面风险智能决策系统的思路及方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (4)
1.一种基于强化学习的机场飞行区道面风险智能决策系统,其特征在于,包括:状态采集模块、数据筛选模块、智能决策模块以及决策评估模块;
所述状态采集模块用于采集当前跑道道面状态、机场运行状态数据,并将数据传输到数据筛选模块;
所述数据筛选模块对从状态采集模块接收得到的数据进行筛选,选择部分采集状态的历史数据作为智能决策模块的输入状态值;
所述智能决策模块分为训练阶段和实际应用阶段;其中,训练阶段包括:根据输入状态值采用基于强化学习的决策技术生成输出值,即对起降飞机的跑道选择,并根据决策评估模块的反馈信息,训练决策模型,优化决策模型的网络参数;实际应用阶段包括:在决策模型参数训练完成后不再改变决策模型的参数,根据输入状态值采用基于强化学习的决策技术直接对起降飞机进行跑道选择;
所述决策评估模块评估智能决策模块输出值对机场运行环境和跑道道面状态的影响结果,并生成反馈信息反馈给智能决策模块;
所述基于强化学习的机场飞行区道面风险智能决策系统执行如下步骤:
步骤S1,状态采集模块实时采集机场运行状态和跑道道面破损状态;
步骤S2,数据筛选模块根据机场道面风险决策的需求,对实时采集的数据进行筛选,选择反映机场运行效率和运行安全的指标,所述指标包括:道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间,作为智能决策模块的输入;
步骤S3,智能决策模块根据输入的状态值采用强化学习的方法对起降的航班进行起降跑道的选择;
步骤S4,决策评估模块根据智能决策模块输出值对机场运行状态以及跑道道面破损情况的影响,从机场运行效率和安全两个方面评估此次决策,即从安全和效率两个角度定义决策评估指标;
步骤S5,返回执行步骤S2,直到评估结果满足对机场运行安全和效率的要求;
步骤S1中所述的机场运行状态,包括:航班延误时间、待起降航班数量以及起降航班的型号;
步骤S1中所述的跑道道面破损状态,包括:破损跑道编号、跑道破损位置和跑道破损等级;
步骤S3包括:
采用优势演员-评论员A2C算法进行道面风险智能决策;所述优势演员-评论员A2C算法包括演员网络和价值网络两部分:
演员网络用于产生风险决策;演员网络的网络结构包括输入层、中间层和输出层,其中,输入层为全连接层,输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间;中间层为全连接层;输出层为softmax层,输出值为选择某一跑道作为起降跑道的概率;
价值网络用于产生道面风险智能决策的值函数;网络结构包括输入层、中间层和输出层,其中,输入层为全连接层,输入层的输入状态值包括道面破损等级、道面破损位置、航班型号、航班起降状态、待起降航班数以及跑道的延误时间;中间层为全连接层;输出层为linear层,输出值是在当前状态下的价值函数的评估值;
步骤S3中,演员网络的参数根据如下公式进行更新:
优势函数根据如下公式近似得到:
步骤S3中,价值网络参数根据如下公式进行更新:
2.根据权利要求1所述的一种基于强化学习的机场飞行区道面风险智能决策系统,其特征在于,所述智能决策模块包括三种运行方式:一种为离线训练决策模型的方式,构建机场运行状态以及跑道道面破损演化过程的模拟环境,并根据智能决策模块的输出值,计算模拟环境的变化状态,获得决策评估结果;第二种为在线训练决策模型的方式,与机场实际运行状态进行交互,采集运行状态的变化情况,获得评估结果;第三种为离线训练结合在线优化的方式,通过离线训练决策模型,再根据与机场实际运行状态进行交互得到的评估结果,优化决策模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210732498.5A CN114819760B (zh) | 2022-06-27 | 2022-06-27 | 一种基于强化学习的机场飞行区道面风险智能决策系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210732498.5A CN114819760B (zh) | 2022-06-27 | 2022-06-27 | 一种基于强化学习的机场飞行区道面风险智能决策系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114819760A CN114819760A (zh) | 2022-07-29 |
CN114819760B true CN114819760B (zh) | 2022-09-30 |
Family
ID=82521813
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210732498.5A Active CN114819760B (zh) | 2022-06-27 | 2022-06-27 | 一种基于强化学习的机场飞行区道面风险智能决策系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114819760B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426331A (zh) * | 2013-08-22 | 2013-12-04 | 南京莱斯信息技术股份有限公司 | 多机场协同放行系统航班排序决策方法 |
CN107704949A (zh) * | 2017-09-12 | 2018-02-16 | 中国船舶重工集团公司第七0九研究所 | 基于历史数据驱动的航班进离场调度优化方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016462B (zh) * | 2017-04-05 | 2018-08-03 | 张玉州 | 一种基于混合遗传算法的多跑道机场航班起降协同优化方法 |
CN113593308A (zh) * | 2021-06-30 | 2021-11-02 | 四川大学 | 一种民航飞机智能化进场方法 |
CN114141062B (zh) * | 2021-11-30 | 2022-11-01 | 中国电子科技集团公司第二十八研究所 | 一种基于深度强化学习的航空器间隔管理决策方法 |
-
2022
- 2022-06-27 CN CN202210732498.5A patent/CN114819760B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103426331A (zh) * | 2013-08-22 | 2013-12-04 | 南京莱斯信息技术股份有限公司 | 多机场协同放行系统航班排序决策方法 |
CN107704949A (zh) * | 2017-09-12 | 2018-02-16 | 中国船舶重工集团公司第七0九研究所 | 基于历史数据驱动的航班进离场调度优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114819760A (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740839B (zh) | 一种突发事件下的列车动态调整方法及系统 | |
CN109785618B (zh) | 一种基于组合逻辑的短时交通流预测方法 | |
DE102012111194A1 (de) | System und Verfahren zur Steuerung des Betriebs einer Fluggesellschaft | |
CN110210648B (zh) | 基于灰色长短期记忆网络的管制空域战略流量预测方法 | |
CN111007874B (zh) | 无人机与车辆协同的电力巡检方法和装置 | |
CN105278400A (zh) | 生成符合噪声消减限制的飞机离场剖面 | |
CN110378537A (zh) | 一种机场停机位智能分配的方法及系统 | |
CN110083058A (zh) | 基于时序qar参数的重着陆分类方法 | |
CN113610282A (zh) | 航班滑行时间预测方法 | |
Zhao et al. | Designing two-level rescue depot location and dynamic rescue policies for unmanned vehicles | |
CN104218571A (zh) | 一种风力发电设备的运行状态评估方法 | |
CN114819760B (zh) | 一种基于强化学习的机场飞行区道面风险智能决策系统 | |
CN113706931B (zh) | 空域的流控策略推荐方法、装置、电子设备及存储介质 | |
CN112396105B (zh) | 一种基于贝叶斯网络的飞行训练科目智能生成方法 | |
CN117196296A (zh) | 铁路气象灾害风险防控方法及系统 | |
CN108446202A (zh) | 一种机房设备的安全状况的判断方法 | |
CN104318328B (zh) | 一种电网设备检修决策优化方法 | |
Nordmann et al. | Neural network forecasting of service problems for aircraft structural component groupings | |
CN116011813A (zh) | 城市轨道交通应急监控方法、装置、电子设备及存储介质 | |
Janakiraman et al. | Using ADOPT algorithm and operational data to discover precursors to aviation adverse events | |
CN113867391A (zh) | 基于数字孪生的无人机低空安全预警与监控方法及系统 | |
CN113139344A (zh) | 一种面向多重失效模式的民用飞机运行风险评估方法 | |
Shmelova et al. | Models of decision-making operators of socio-technical system | |
Manikar et al. | A hybrid approach of machine learning and expert knowledge for projection of aircraft operability | |
Lovato et al. | A hybrid approach for detecting and resolving conflicts in air traffic routes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |