CN113987928A - 基于态势表示和行为模仿的管制指令智能生成方法及系统 - Google Patents
基于态势表示和行为模仿的管制指令智能生成方法及系统 Download PDFInfo
- Publication number
- CN113987928A CN113987928A CN202111226683.9A CN202111226683A CN113987928A CN 113987928 A CN113987928 A CN 113987928A CN 202111226683 A CN202111226683 A CN 202111226683A CN 113987928 A CN113987928 A CN 113987928A
- Authority
- CN
- China
- Prior art keywords
- network
- control instruction
- representation
- learning
- perception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 8
- 230000001105 regulatory effect Effects 0.000 claims description 16
- 230000002787 reinforcement Effects 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 230000010006 flight Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 claims 5
- 239000013604 expression vector Substances 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000013486 operation strategy Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G5/00—Traffic control systems for aircraft, e.g. air-traffic control [ATC]
- G08G5/0073—Surveillance aids
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B9/00—Simulators for teaching or training purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Educational Administration (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Educational Technology (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于态势表示和行为模仿的管制指令智能生成方法及系统,包括:构建飞机表示向量的状态空间;构建对综合态势自感知表示学习的数据集;构建综合态势自感知表示学习网络;构建管制指令生成网络的主干网络;采用两阶段训练策略对管制指令生成网络进行训练;级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。本发明通过对真实扇区综合态势下管制行为的重演数据进行模仿学习,充分利用了人类已有的优秀经验策略指导指令生成网络的训练,弥补了模拟环境中人为定义奖励函数的局限性。
Description
技术领域
本发明属于空中交通管理和人工智能领域,具体涉及一种基于态势表示和行为模仿的管制指令智能生成方法及系统。
背景技术
在现行的空中交通管理系统中,航空器飞行需在规定的固定航路上开展,航空器间隔保持任务由空中交通管制员完成。若遭遇冲突、禁航区、危险区、极端恶劣天气等特殊情况下需要改变飞行航迹,必须严格遵守空中交通管制员的指令进行。
然而,日益增长的航空运输需求将带来空中交通流量的持续增加,从而导致飞行航路更加拥挤,增加航空器的冲突风险,威胁航空飞行安全,更对空中交通管制员水平提出了更高的要求。事实上,空中交通管制员将难以应付未来十年甚至更久的空中交通流量激增。因此,业内专家呼吁开发智能助手,以支持飞行员和管制员进行实时决策,实现航空器为主、管制员监控的智能方式。
在高级自动化等级的空管系统中,一个关键挑战是设计一个空管指令智能生成系统,为飞机提供实时咨询,以确保航行途中及交叉口的安全隔离。这对减轻管制人员工作负荷,提升空中交通管制安全系数,降低空管服务运行成本,都具有重要意义,是未来世界空管领域研究的一个重要发展方向。
随着深度学习和人工智能技术的发展,针对ATC(AIR TRAFFIC CONTROL)智能自治的研究开始倾向于采用深度强化学习的方法。已有的研究对空管管制决策领域具体问题的强化学习建模进行了诸多探索,包括智能体环境状态设计、动作空间设计、系统奖励函数设计等等。但是基于人工智能技术的管制自治目前仍处于简单场景的模拟实验阶段,缺乏实际应用场景下的研究,具体的问题可以概括如下:
1、对问题过于简化,例如动作空间只有对飞机的速度进行控制;
2、强化学习的互动环境采用简单的模拟环境,与真实的自动化系统差异较大;
3、未利用人类已积累的优秀经验策略;
4、对冲突的解决偏于迟滞,导致飞机躲避冲突的动作比较突兀,不够平滑。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于态势表示和行为模仿的管制指令智能生成方法及系统,以解决现有技术中基于人工智能技术的管制自治所带来的缺陷问题。
本发明通过对综合态势的自感知表示学习和空中交通管制员指挥行为的模仿学习,实现了管制指令的智能生成,从而实现ATC系统对管制扇区内不确定性冲突的自治性管理。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种基于态势表示和行为模仿的管制指令智能生成方法,步骤如下:
1)构建飞机表示向量的状态空间;
2)构建对综合态势自感知表示学习的数据集;
3)构建综合态势自感知表示学习网络;
4)构建管制指令生成网络的主干网络;
5)采用两阶段训练策略对管制指令生成网络进行训练;
6)级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。
进一步地,所述步骤1)具体包括:依据民航管制规则,提取出综合态势中与管制决策行为的强关联项(例如气象指标x1、尾流等级x2,经度x3、维度x4、高度x5、速度x6、航向x7、机型x8、目标机场x9、到下一航路点距离x10等),信息经过数值化处理后,得到第i个飞机的表示向量,如下:
进一步地,所述综合态势包含:航班对应的飞行计划、经过自动化系统综合处理后反馈的综合航迹以及航路点的气象态势。
进一步地,所述步骤2)具体包括:综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本,及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点ID的标注信息构成。
进一步地,所述步骤2)中的标注通过对历史数据中管制员的操作记录(如距离度量、调高调速等),或通过4D轨迹预测推演、冲突检测来完成,以实现自动标注。
进一步地,所述模拟情景剧本是人为设定的空域中航班飞行场景,包括飞行计划,和整个管制扇区内的飞行态势信息。
进一步地,所述步骤3)具体包括:综合态势自感知表示学习网络为:
φ(Vo)→f,C1(vo i,vo j,...),C2(vo k,vo d,...),...CN(vo m,vo n,...)
式中,Vo表示网络的输入,即管制扇区内飞机表示向量的集合;网络的输出包含两部分:第一部分为当下综合态势的隐式表达,记为向量f;第二部分为基于f给出的分类结果,记为C1(vo i,vo j,...),C2(vo k,vo d,...),...CN(vo m,vo n,...),其中,N为管制扇区航路交叉点个数,表示第i个飞机的表示向量,vo j表示第j个飞机的表示向量,vo k表示第k个飞机的表示向量,vo d表示第d个飞机的表示向量,vo m表示第m个飞机的表示向量,vo n表示第n个飞机的表示向量;网络主干由多层神经网络构成,利用所述步骤2)中构建的综合态势自感知表示学习数据集,对综合态势自感知表示学习网络进行训练,得到其主干网络神经节点的参数值。
进一步地,所述步骤4)具体包括:以步骤3)中综合态势自感知表示学习网络的输出,作为管制指令生成网络的输入;管制指令生成网络的输出为管制指令动作的概率;管制指令生成网络的主干网络包含底层的图神经网络和高层的管制指令动作概率预测网络;底层的图神经网络计算子问题的图表示,记为:subgraph{(vi,vj,...),(vk,vd,...),...(vm,vn,...)},其中,concat为向量拼接算子,高层的管制指令动作概率预测网络采用多层全连接神经网络,输入输出管制指令动作的概率。
进一步地,所述步骤5)具体包括:第一阶段采用强化学习算法进行训练,其结果用于网络模型参数初始化;第二阶段采用模仿学习进行网络参数调优(finetune)。
进一步地,所述强化学习算法采用近端策略优化算法(Proximal PolicyOptimization,PPO)。
进一步地,所述步骤5)中强化学习的管制指令的动作空间具体为:[上高度,下高度,保持高度,加速,减速,保持速度]。
进一步地,所述步骤5)中强化学习的系统奖励函数r(st,at)具体为:对给定的状态和动作(st,at)给出相应的奖励值r;
其中,d为当下飞机到附近最近飞机距离。
进一步地,所述步骤5)中强化学习的模拟环境具体为:空管主用自动化系统配套的训练模拟机及其训练剧本。
进一步地,所述步骤5)中模仿学习具体包含:建立行为模仿学习数据集,从空管中心自动化系统重演数据中提取出管制历史重演数据,包含历史综合态势和对应的管制指令,构成数据集。
进一步地,所述步骤5)中采用模仿学习进行网络参数调优具体为:以模仿学习数据集为训练数据集,利用专家策略(模仿学习数据集中管制人员的真实操作策略)与第一阶段训练得到的管制指令生成网络输出策略,训练系统奖励函数判别器;判别器和管制指令生成网络进行对抗训练,从而对管制指令生成网络进行参数调优。
本发明还提供一种基于态势表示和行为模仿的管制指令智能生成系统,包括:
状态空间构建模块,用于构建飞机表示向量的状态空间;
数据集构建模块,用于构建对综合态势自感知表示学习的数据集;
感知网络构建模块,用于构建综合态势自感知表示学习网络;
生成网络构建模块,用于构建管制指令生成网络的主干网络;
训练模块,用于采用两阶段训练策略对管制指令生成网络进行训练;
管制指令生成模块,用于级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。
本发明的有益效果:
本发明通过对真实扇区综合态势下管制行为的重演数据进行模仿学习,充分利用了人类已有的优秀经验策略指导指令生成网络的训练,弥补了模拟环境中人为定义奖励函数的局限性。
本发明通过建立综合态势的自感知表示学习,为进一步智能生成提供去冗余且完备的输入向量,增强了网络对环境的编码能力,解决了对问题建模过于简化的问题。同时通过对综合态势的自感知,而非直接进行冲突预测与冲突解脱,可以有效避免飞机躲避冲突的动作突兀,不够平滑的问题。
附图说明
图1为本发明方法的流程图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
参照图1所示,本发明的一种基于态势表示和行为模仿的管制指令智能生成方法,步骤如下:
1)基于先验规则构建飞机表示向量的状态空间;
优选示例中,所述步骤1)具体包括:依据民航管制规则,提取出综合态势中与管制决策行为的强关联项;例如:气象指标x1、尾流等级x2,经度x3、维度x4、高度x5、速度x6、航向x7、机型x8、目标机场x9、到下一航路点距离x10等,信息经过数值化处理后,得到第i个飞机的表示向量如下:
其中,所述综合态势包含:航班对应的飞行计划、经过自动化系统综合处理后反馈的综合航迹以及航路点的气象态势。
2)构建对综合态势自感知表示学习的数据集;
其中,所述步骤2)具体包括:综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本,及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点ID等标注信息构成。
其中,所述步骤2)中的标注通过对历史数据中管制员的操作记录(如距离度量、调高调速等),或通过4D轨迹预测推演、冲突检测等来完成,以实现自动标注;
其中,所述模拟情景剧本是人为设定的空域中航班飞行场景,包括飞行计划,和整个管制扇区内的飞行态势等信息。
3)构建综合态势自感知表示学习网络φ;
优选示例中,所述步骤3)具体包括:综合态势自感知表示学习网络为:
φ(Vo)→f,C1(vo i,vo j,...),C2(vo k,vo d,...),...CN(vo m,vo n,...)
式中,Vo表示网络的输入,即管制扇区内飞机表示向量的集合;网络的输出包含两部分:第一部分为当下综合态势的隐式表达,记为向量f;第二部分为基于f给出的分类结果,记为C1(vo i,vo j,...),C2(vo k,vo d,...),...CN(vo m,vo n,...),其中,N为管制扇区航路交叉点个数,表示第i个飞机的表示向量,vo j表示第j个飞机的表示向量,以此类推;网络主干由多层神经网络构成,利用所述步骤2)中构建的综合态势自感知表示学习数据集,对综合态势自感知表示学习网络进行训练,得到其主干网络神经节点的参数值。
4)构建管制指令生成网络的主干网络;
优选示例中,所述步骤4)具体包括:以步骤3)中综合态势自感知表示学习网络的输出,作为管制指令生成网络的输入;管制指令生成网络的输出为管制指令动作的概率;管制指令生成网络的主干网络包含底层的图神经网络和高层的管制指令动作概率预测网络;底层的图神经网络计算子问题的图表示,记为:subgraph{(vi,vj,...),(vk,vd,...),...(vm,vn,...)},其中,concat为向量拼接算子,高层的管制指令动作概率预测网络采用多层全连接神经网络,输入输出管制指令动作的概率。
5)采用两阶段(two-stage)训练策略对管制指令生成网络进行训练;
其中,所述步骤5)具体包括:第一阶段采用强化学习算法进行训练,其结果用于网络模型参数初始化;第二阶段采用模仿学习进行网络参数调优(finetune)。
其中,所述强化学习算法采用近端策略优化算法(Proximal PolicyOptimization,PPO)。
其中,所述步骤5)中强化学习的管制指令的动作空间具体为:[上高度,下高度,保持高度,加速,减速,保持速度]。
其中,所述步骤5)中强化学习的系统奖励函数r(st,at)具体为:对给定的状态和动作(st,at)给出相应的奖励值r;
其中,d为当下飞机到附近最近飞机距离。
其中,所述步骤5)中强化学习的模拟环境具体为:空管主用自动化系统配套的训练模拟机及其训练剧本。
其中,所述步骤5)中模仿学习具体包含:建立行为模仿学习数据集,从空管中心自动化系统重演数据中提取出管制历史重演数据,包含历史综合态势和对应的管制指令,构成数据集。
其中,所述步骤5)中采用模仿学习进行网络参数调优具体为:以模仿学习数据集为训练数据集,利用专家策略(模仿学习数据集中管制人员的真实操作策略)与第一阶段训练得到的管制指令生成网络输出策略,训练系统奖励函数判别器;判别器和管制指令生成网络进行对抗训练,从而对管制指令生成网络进行参数调优。
6)级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。
本发明还提供一种基于态势表示和行为模仿的管制指令智能生成系统,包括:
状态空间构建模块,用于构建飞机表示向量的状态空间;
数据集构建模块,用于构建对综合态势自感知表示学习的数据集;
感知网络构建模块,用于构建综合态势自感知表示学习网络;
生成网络构建模块,用于构建管制指令生成网络的主干网络;
训练模块,用于采用两阶段训练策略对管制指令生成网络进行训练;
管制指令生成模块,用于级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也应视为本发明的保护范围。
Claims (10)
1.一种基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,步骤如下:
1)构建飞机表示向量的状态空间;
2)构建对综合态势自感知表示学习的数据集;
3)构建综合态势自感知表示学习网络;
4)构建管制指令生成网络的主干网络;
5)采用两阶段训练策略对管制指令生成网络进行训练;
6)级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。
3.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,所述步骤2)具体包括:综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本,及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点ID的标注信息构成。
4.根据权利要求3所述的基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,所述步骤2)中的标注通过对历史数据中管制员的操作记录,或通过4D轨迹预测推演、冲突检测来完成,以实现自动标注。
5.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,所述步骤3)具体包括:综合态势自感知表示学习网络为:
φ(Vo)→f,C1(vo i,vo j,...),C2(vo k,vo d,...),...CN(vo m,vo n,...)
式中,Vo表示网络的输入,即管制扇区内飞机表示向量的集合;网络的输出包含两部分:第一部分为当下综合态势的隐式表达,记为向量f;第二部分为基于f给出的分类结果,记为C1(vo i,vo j,...),C2(vo k,vo d,...),...CN(vo m,vo n,...),其中,N为管制扇区航路交叉点个数,表示第i个飞机的表示向量,表示第j个飞机的表示向量,vo k表示第k个飞机的表示向量,vo d表示第d个飞机的表示向量,vo m表示第m个飞机的表示向量,vo n表示第n个飞机的表示向量;网络主干由多层神经网络构成,利用所述步骤2)中构建的综合态势自感知表示学习数据集,对综合态势自感知表示学习网络进行训练,得到其主干网络神经节点的参数值。
7.根据权利要求6所述的基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,所述步骤5)具体包括:第一阶段采用强化学习算法进行训练,其结果用于网络模型参数初始化;第二阶段采用模仿学习进行网络参数调优。
8.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,所述步骤5)中模仿学习具体包含:建立行为模仿学习数据集,从空管中心自动化系统重演数据中提取出管制历史重演数据,包含历史综合态势和对应的管制指令,构成数据集。
9.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法,其特征在于,所述步骤5)中采用模仿学习进行网络参数调优具体为:以模仿学习数据集为训练数据集,利用专家策略与第一阶段训练得到的管制指令生成网络输出策略,训练系统奖励函数判别器;判别器和管制指令生成网络进行对抗训练,从而对管制指令生成网络进行参数调优。
10.一种基于态势表示和行为模仿的管制指令智能生成系统,其特征在于,包括:
状态空间构建模块,用于构建飞机表示向量的状态空间;
数据集构建模块,用于构建对综合态势自感知表示学习的数据集;
感知网络构建模块,用于构建综合态势自感知表示学习网络;
生成网络构建模块,用于构建管制指令生成网络的主干网络;
训练模块,用于采用两阶段训练策略对管制指令生成网络进行训练;
管制指令生成模块,用于级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络,输入民航自动化系统数据,依据管制指令生成网络输出的指令动作概率,进行采样,输出管制指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111226683.9A CN113987928A (zh) | 2021-10-21 | 2021-10-21 | 基于态势表示和行为模仿的管制指令智能生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111226683.9A CN113987928A (zh) | 2021-10-21 | 2021-10-21 | 基于态势表示和行为模仿的管制指令智能生成方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987928A true CN113987928A (zh) | 2022-01-28 |
Family
ID=79739945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111226683.9A Pending CN113987928A (zh) | 2021-10-21 | 2021-10-21 | 基于态势表示和行为模仿的管制指令智能生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987928A (zh) |
-
2021
- 2021-10-21 CN CN202111226683.9A patent/CN113987928A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3065617C (en) | Method for predicting car-following behavior under apollo platform | |
Julian et al. | Validation of image-based neural network controllers through adaptive stress testing | |
Dong et al. | Deep learning in aircraft design, dynamics, and control: Review and prospects | |
CN106340209A (zh) | 基于4d航迹运行的空中交通管制系统的管制方法 | |
Dong et al. | Study on the resolution of multi-aircraft flight conflicts based on an IDQN | |
US11710412B1 (en) | Method and device for flight path planning considering both the flight trajectory and the visual images from air traffic control systems for air traffic controllers | |
CN115481638A (zh) | 一种基于管制意图表示的航空器轨迹补齐方法 | |
Hu et al. | UAS conflict resolution in continuous action space using deep reinforcement learning | |
Yang et al. | Improved reinforcement learning for collision-free local path planning of dynamic obstacle | |
Deniz et al. | A multi-agent reinforcement learning approach to traffic control at future urban air mobility intersections | |
CN115164890A (zh) | 一种基于模仿学习的群体无人机自主运动规划方法 | |
Zhang et al. | Tactical conflict resolution in urban airspace for unmanned aerial vehicles operations using attention-based deep reinforcement learning | |
Deniz et al. | A Multi-Agent Reinforcement Learning Approach to Traffic Control at Merging Point of Urban Air Mobility | |
Sarkar et al. | A data-driven approach for performance evaluation of autonomous evtols | |
Kumar et al. | Graph learning based decision support for multi-aircraft take-off and landing at urban air mobility vertiports | |
CN113987928A (zh) | 基于态势表示和行为模仿的管制指令智能生成方法及系统 | |
Granger et al. | The influence of uncertainties on traffic control using speed adjustments | |
Rahman et al. | Multi-label Classification of Aircraft Heading Changes using Neural Network to Resolve Conflicts. | |
Al-Mahadin et al. | Automatic identification of wake vortex traverse by transport aircraft using fuzzy logic | |
Juntama | Large Scale Adaptive 4D Trajectory Planning | |
CN118506619B (zh) | 一种基于空域网格化的航空器动态地理信息围栏划设方法 | |
Chen | Goal-Oriented Control Systems (GOCS): From HOW to WHAT | |
Baherian | An Intelligent technology for predicting aircraft trajectories at the airfield | |
CN113962031B (zh) | 一种基于图神经网络强化学习的异质平台冲突消解方法 | |
Zhu et al. | Algorithmic design of autonomous housekeeping robots through imitation learning and model predictive control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |