CN113987928A

CN113987928A - 基于态势表示和行为模仿的管制指令智能生成方法及系统

Info

Publication number: CN113987928A
Application number: CN202111226683.9A
Authority: CN
Inventors: 詹伶俐; 沈德仁; 邬秋香; 李翠霞; 王蓓蓓; 张翰文
Original assignee: Nanjing LES Information Technology Co. Ltd
Current assignee: Nanjing LES Information Technology Co. Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-28

Abstract

本发明公开了一种基于态势表示和行为模仿的管制指令智能生成方法及系统，包括：构建飞机表示向量的状态空间；构建对综合态势自感知表示学习的数据集；构建综合态势自感知表示学习网络；构建管制指令生成网络的主干网络；采用两阶段训练策略对管制指令生成网络进行训练；级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络，输入民航自动化系统数据，依据管制指令生成网络输出的指令动作概率，进行采样，输出管制指令。本发明通过对真实扇区综合态势下管制行为的重演数据进行模仿学习，充分利用了人类已有的优秀经验策略指导指令生成网络的训练，弥补了模拟环境中人为定义奖励函数的局限性。

Description

基于态势表示和行为模仿的管制指令智能生成方法及系统

技术领域

本发明属于空中交通管理和人工智能领域，具体涉及一种基于态势表示和行为模仿的管制指令智能生成方法及系统。

背景技术

在现行的空中交通管理系统中，航空器飞行需在规定的固定航路上开展，航空器间隔保持任务由空中交通管制员完成。若遭遇冲突、禁航区、危险区、极端恶劣天气等特殊情况下需要改变飞行航迹，必须严格遵守空中交通管制员的指令进行。

然而，日益增长的航空运输需求将带来空中交通流量的持续增加，从而导致飞行航路更加拥挤，增加航空器的冲突风险，威胁航空飞行安全，更对空中交通管制员水平提出了更高的要求。事实上，空中交通管制员将难以应付未来十年甚至更久的空中交通流量激增。因此，业内专家呼吁开发智能助手，以支持飞行员和管制员进行实时决策，实现航空器为主、管制员监控的智能方式。

在高级自动化等级的空管系统中，一个关键挑战是设计一个空管指令智能生成系统，为飞机提供实时咨询，以确保航行途中及交叉口的安全隔离。这对减轻管制人员工作负荷，提升空中交通管制安全系数，降低空管服务运行成本，都具有重要意义，是未来世界空管领域研究的一个重要发展方向。

随着深度学习和人工智能技术的发展，针对ATC(AIR TRAFFIC CONTROL)智能自治的研究开始倾向于采用深度强化学习的方法。已有的研究对空管管制决策领域具体问题的强化学习建模进行了诸多探索，包括智能体环境状态设计、动作空间设计、系统奖励函数设计等等。但是基于人工智能技术的管制自治目前仍处于简单场景的模拟实验阶段，缺乏实际应用场景下的研究，具体的问题可以概括如下：

1、对问题过于简化，例如动作空间只有对飞机的速度进行控制；

2、强化学习的互动环境采用简单的模拟环境，与真实的自动化系统差异较大；

3、未利用人类已积累的优秀经验策略；

4、对冲突的解决偏于迟滞，导致飞机躲避冲突的动作比较突兀，不够平滑。

发明内容

针对于上述现有技术的不足，本发明的目的在于提供一种基于态势表示和行为模仿的管制指令智能生成方法及系统，以解决现有技术中基于人工智能技术的管制自治所带来的缺陷问题。

本发明通过对综合态势的自感知表示学习和空中交通管制员指挥行为的模仿学习，实现了管制指令的智能生成，从而实现ATC系统对管制扇区内不确定性冲突的自治性管理。

为达到上述目的，本发明采用的技术方案如下：

本发明的一种基于态势表示和行为模仿的管制指令智能生成方法，步骤如下：

1)构建飞机表示向量的状态空间；

2)构建对综合态势自感知表示学习的数据集；

3)构建综合态势自感知表示学习网络；

4)构建管制指令生成网络的主干网络；

5)采用两阶段训练策略对管制指令生成网络进行训练；

6)级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络，输入民航自动化系统数据，依据管制指令生成网络输出的指令动作概率，进行采样，输出管制指令。

进一步地，所述步骤1)具体包括：依据民航管制规则，提取出综合态势中与管制决策行为的强关联项(例如气象指标x1、尾流等级x2，经度x3、维度x4、高度x5、速度x6、航向x7、机型x8、目标机场x9、到下一航路点距离x10等)，信息经过数值化处理后，得到第i个飞机的表示向量

，如下：

进一步地，所述综合态势包含：航班对应的飞行计划、经过自动化系统综合处理后反馈的综合航迹以及航路点的气象态势。

进一步地，所述步骤2)具体包括：综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本，及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点ID的标注信息构成。

进一步地，所述步骤2)中的标注通过对历史数据中管制员的操作记录(如距离度量、调高调速等)，或通过4D轨迹预测推演、冲突检测来完成，以实现自动标注。

进一步地，所述模拟情景剧本是人为设定的空域中航班飞行场景，包括飞行计划，和整个管制扇区内的飞行态势信息。

进一步地，所述步骤3)具体包括：综合态势自感知表示学习网络为：

φ(V^o)→f，C₁(v^o _i，v^o _j，...)，C₂(v^o _k，v^o _d，...)，...C_N(v^o _m，v^o _n，...)

式中，V^o表示网络的输入，即管制扇区内飞机表示向量的集合；网络的输出包含两部分：第一部分为当下综合态势的隐式表达，记为向量f；第二部分为基于f给出的分类结果，记为C₁(v^o _i，v^o _j，...)，C₂(v^o _k，v^o _d，...)，...C_N(v^o _m，v^o _n，...)，其中，N为管制扇区航路交叉点个数，

表示第i个飞机的表示向量，v^o _j表示第j个飞机的表示向量，v^o _k表示第k个飞机的表示向量，v^o _d表示第d个飞机的表示向量，v^o _m表示第m个飞机的表示向量，v^o _n表示第n个飞机的表示向量；网络主干由多层神经网络构成，利用所述步骤2)中构建的综合态势自感知表示学习数据集，对综合态势自感知表示学习网络进行训练，得到其主干网络神经节点的参数值。

进一步地，所述步骤4)具体包括：以步骤3)中综合态势自感知表示学习网络的输出，作为管制指令生成网络的输入；管制指令生成网络的输出为管制指令动作的概率；管制指令生成网络的主干网络包含底层的图神经网络和高层的管制指令动作概率预测网络；底层的图神经网络计算子问题的图表示，记为：subgraph{(v_i，v_j，...)，(v_k，v_d，...)，...(v_m，v_n，...)}，其中，

concat为向量拼接算子，高层的管制指令动作概率预测网络采用多层全连接神经网络，输入

输出管制指令动作的概率。

进一步地，所述步骤5)具体包括：第一阶段采用强化学习算法进行训练，其结果用于网络模型参数初始化；第二阶段采用模仿学习进行网络参数调优(finetune)。

进一步地，所述强化学习算法采用近端策略优化算法(Proximal PolicyOptimization，PPO)。

进一步地，所述步骤5)中强化学习的管制指令的动作空间具体为：[上高度，下高度，保持高度，加速，减速，保持速度]。

进一步地，所述步骤5)中强化学习的系统奖励函数r(s_t，a_t)具体为：对给定的状态和动作(s_t，a_t)给出相应的奖励值r；

其中，d为当下飞机到附近最近飞机距离。

进一步地，所述步骤5)中强化学习的模拟环境具体为：空管主用自动化系统配套的训练模拟机及其训练剧本。

进一步地，所述步骤5)中模仿学习具体包含：建立行为模仿学习数据集，从空管中心自动化系统重演数据中提取出管制历史重演数据，包含历史综合态势和对应的管制指令，构成数据集。

进一步地，所述步骤5)中采用模仿学习进行网络参数调优具体为：以模仿学习数据集为训练数据集，利用专家策略(模仿学习数据集中管制人员的真实操作策略)与第一阶段训练得到的管制指令生成网络输出策略，训练系统奖励函数判别器；判别器和管制指令生成网络进行对抗训练，从而对管制指令生成网络进行参数调优。

本发明还提供一种基于态势表示和行为模仿的管制指令智能生成系统，包括：

状态空间构建模块，用于构建飞机表示向量的状态空间；

数据集构建模块，用于构建对综合态势自感知表示学习的数据集；

感知网络构建模块，用于构建综合态势自感知表示学习网络；

生成网络构建模块，用于构建管制指令生成网络的主干网络；

训练模块，用于采用两阶段训练策略对管制指令生成网络进行训练；

管制指令生成模块，用于级联综合态势自感知表示学习的主干网络和管制指令生成的主干网络，输入民航自动化系统数据，依据管制指令生成网络输出的指令动作概率，进行采样，输出管制指令。

本发明的有益效果：

本发明通过对真实扇区综合态势下管制行为的重演数据进行模仿学习，充分利用了人类已有的优秀经验策略指导指令生成网络的训练，弥补了模拟环境中人为定义奖励函数的局限性。

本发明通过建立综合态势的自感知表示学习，为进一步智能生成提供去冗余且完备的输入向量，增强了网络对环境的编码能力，解决了对问题建模过于简化的问题。同时通过对综合态势的自感知，而非直接进行冲突预测与冲突解脱，可以有效避免飞机躲避冲突的动作突兀，不够平滑的问题。

附图说明

图1为本发明方法的流程图。

具体实施方式

为了便于本领域技术人员的理解，下面结合实施例与附图对本发明作进一步的说明，实施方式提及的内容并非对本发明的限定。

参照图1所示，本发明的一种基于态势表示和行为模仿的管制指令智能生成方法，步骤如下：

1)基于先验规则构建飞机表示向量的状态空间；

优选示例中，所述步骤1)具体包括：依据民航管制规则，提取出综合态势中与管制决策行为的强关联项；例如：气象指标x1、尾流等级x2，经度x3、维度x4、高度x5、速度x6、航向x7、机型x8、目标机场x9、到下一航路点距离x10等，信息经过数值化处理后，得到第i个飞机的表示向量

如下：

其中，所述综合态势包含：航班对应的飞行计划、经过自动化系统综合处理后反馈的综合航迹以及航路点的气象态势。

2)构建对综合态势自感知表示学习的数据集；

其中，所述步骤2)具体包括：综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本，及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点ID等标注信息构成。

其中，所述步骤2)中的标注通过对历史数据中管制员的操作记录(如距离度量、调高调速等)，或通过4D轨迹预测推演、冲突检测等来完成，以实现自动标注；

其中，所述模拟情景剧本是人为设定的空域中航班飞行场景，包括飞行计划，和整个管制扇区内的飞行态势等信息。

3)构建综合态势自感知表示学习网络φ；

优选示例中，所述步骤3)具体包括：综合态势自感知表示学习网络为：

表示第i个飞机的表示向量，v^o _j表示第j个飞机的表示向量，以此类推；网络主干由多层神经网络构成，利用所述步骤2)中构建的综合态势自感知表示学习数据集，对综合态势自感知表示学习网络进行训练，得到其主干网络神经节点的参数值。

4)构建管制指令生成网络的主干网络；

优选示例中，所述步骤4)具体包括：以步骤3)中综合态势自感知表示学习网络的输出，作为管制指令生成网络的输入；管制指令生成网络的输出为管制指令动作的概率；管制指令生成网络的主干网络包含底层的图神经网络和高层的管制指令动作概率预测网络；底层的图神经网络计算子问题的图表示，记为：subgraph{(v_i，v_j，...)，(v_k，v_d，...)，...(v_m，v_n，...)}，其中，

输出管制指令动作的概率。

5)采用两阶段(two-stage)训练策略对管制指令生成网络进行训练；

其中，所述步骤5)具体包括：第一阶段采用强化学习算法进行训练，其结果用于网络模型参数初始化；第二阶段采用模仿学习进行网络参数调优(finetune)。

其中，所述强化学习算法采用近端策略优化算法(Proximal PolicyOptimization，PPO)。

其中，所述步骤5)中强化学习的管制指令的动作空间具体为：[上高度，下高度，保持高度，加速，减速，保持速度]。

其中，所述步骤5)中强化学习的系统奖励函数r(s_t，a_t)具体为：对给定的状态和动作(s_t，a_t)给出相应的奖励值r；

其中，d为当下飞机到附近最近飞机距离。

其中，所述步骤5)中强化学习的模拟环境具体为：空管主用自动化系统配套的训练模拟机及其训练剧本。

其中，所述步骤5)中模仿学习具体包含：建立行为模仿学习数据集，从空管中心自动化系统重演数据中提取出管制历史重演数据，包含历史综合态势和对应的管制指令，构成数据集。

其中，所述步骤5)中采用模仿学习进行网络参数调优具体为：以模仿学习数据集为训练数据集，利用专家策略(模仿学习数据集中管制人员的真实操作策略)与第一阶段训练得到的管制指令生成网络输出策略，训练系统奖励函数判别器；判别器和管制指令生成网络进行对抗训练，从而对管制指令生成网络进行参数调优。

状态空间构建模块，用于构建飞机表示向量的状态空间；

本发明具体应用途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，步骤如下：

1)构建飞机表示向量的状态空间；

2)构建对综合态势自感知表示学习的数据集；

3)构建综合态势自感知表示学习网络；

4)构建管制指令生成网络的主干网络；

5)采用两阶段训练策略对管制指令生成网络进行训练；

2.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤1)具体包括：依据民航管制规则，提取出综合态势中与管制决策行为的强关联项，经过数值化处理后，得到第i个飞机的表示向量

如下：

3.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤2)具体包括：综合态势自感知表示学习的数据集由民航管制模拟机中提取出管制训练的模拟情景剧本，及模拟情景剧本中潜在冲突航班及冲突发生位置所在航路点ID的标注信息构成。

4.根据权利要求3所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤2)中的标注通过对历史数据中管制员的操作记录，或通过4D轨迹预测推演、冲突检测来完成，以实现自动标注。

5.根据权利要求1所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤3)具体包括：综合态势自感知表示学习网络为：

表示第i个飞机的表示向量，

表示第j个飞机的表示向量，v^o _k表示第k个飞机的表示向量，v^o _d表示第d个飞机的表示向量，v^o _m表示第m个飞机的表示向量，v^o _n表示第n个飞机的表示向量；网络主干由多层神经网络构成，利用所述步骤2)中构建的综合态势自感知表示学习数据集，对综合态势自感知表示学习网络进行训练，得到其主干网络神经节点的参数值。

6.根据权利要求5所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤4)具体包括：以步骤3)中综合态势自感知表示学习网络的输出，作为管制指令生成网络的输入；管制指令生成网络的输出为管制指令动作的概率；管制指令生成网络的主干网络包含底层的图神经网络和高层的管制指令动作概率预测网络；底层的图神经网络计算子问题的图表示，记为：subgraph{(v_i,v_j,...),(v_k,v_d,...),...(v_m,v_n,...)}，其中，

输出管制指令动作的概率。

7.根据权利要求6所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤5)具体包括：第一阶段采用强化学习算法进行训练，其结果用于网络模型参数初始化；第二阶段采用模仿学习进行网络参数调优。

8.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤5)中模仿学习具体包含：建立行为模仿学习数据集，从空管中心自动化系统重演数据中提取出管制历史重演数据，包含历史综合态势和对应的管制指令，构成数据集。

9.根据权利要求7所述的基于态势表示和行为模仿的管制指令智能生成方法，其特征在于，所述步骤5)中采用模仿学习进行网络参数调优具体为：以模仿学习数据集为训练数据集，利用专家策略与第一阶段训练得到的管制指令生成网络输出策略，训练系统奖励函数判别器；判别器和管制指令生成网络进行对抗训练，从而对管制指令生成网络进行参数调优。

10.一种基于态势表示和行为模仿的管制指令智能生成系统，其特征在于，包括：

状态空间构建模块，用于构建飞机表示向量的状态空间；