CN113962031A

CN113962031A - 一种基于图神经网络强化学习的异质平台冲突消解方法

Info

Publication number: CN113962031A
Application number: CN202111557745.4A
Authority: CN
Inventors: 李宇萌; 张云赫; 郭通; 杜文博
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-01-21
Anticipated expiration: 2041-12-20
Also published as: CN113962031B

Abstract

本发明提供了一种基于图神经网络强化学习的异质平台冲突消解方法，包括以下步骤：首先根据各异质飞行器的具体类型和特征设置相应的状态矢量，动作空间矢量；接下来初始化各异质飞行器的起始位置，目标点位置和相关状态信息，根据状态以及环境信息建立冲突网络图结构，建立冲突程度评价函数；然后建立图神经网络结构，并进行训练；最后使用训练后的图神经网络模型完成异质平台的冲突消解。本发明的图神经网络结构通过状态信息编码模块将异质飞行器的状态矢量编码为相同维度的状态矢量，图卷积网络模块提取特征向量，动作选择模块得到状态‑动作值，结合强化学习训练各异质飞行器，为异质平台的冲突消解问题提供了一种有效可行的解决方案。

Description

一种基于图神经网络强化学习的异质平台冲突消解方法

技术领域

本发明属于飞行器技术领域，涉及一种基于图神经网络强化学习的异质多飞行器冲突消解方法。

背景技术

临空平台是指在航空领域空间和航天领域空间之间的部分，其高度范围在20-100km之间，临空平台飞行器是指在临空平台飞行并执行相关任务的飞行器，其不同的类型可以完成侦察、环境监测、电子对抗、物资投送、军事打击等任务，对于社会民生，国家安全都有十分重要的战略价值。近年来，由于科技的进步和各国政府对临空平台的重视，临空平台飞行器的研制得到了广泛的关注。随着人工智能技术的发展，基于机器学习的飞行器自主控制方法得到了越来越多研究人员的重视。

对于飞行器的自主控制飞行，避免飞行冲突是非常重要的。在目前的空中飞行器交通管制工作中，管制员主要依靠雷达提供的航空器位置、高度和速度信息检测冲突，根据管制规则和个人经验进行调配，这往往会花费大量的人力物力。因此，亟需一种飞行器自主调配从而消解飞行冲突的方法。现有的研究工作大多是基于优化算法或者最优控制理论构建的模型进行求解，得到飞行器的最优航路或者飞行动作。但是上述方法存在几个问题，一是对扇区航空器的飞行态势感知不足，导致调配策略会对其他飞行器造成影响，从而引发二次冲突；二是算法的约束往往较多，求解复杂，甚至无法求解。深度强化学习技术则用智能体模拟飞行器，基于从环境中感知得到的状态信息，做出动作，然后从环境中得到动作的收益反馈，不断地训练神经网络，从而使得飞行器能够做出一系列的动作来达到收益最大化，也就是尽可能地避免飞行冲突。深度强化学习不需要建立具体的飞行器动力学模型，也不需要建立真实世界的模型，通过对飞行器进行大量样本的训练，就可以使其学习到消解冲突的策略。

临空平台飞行器种类繁多，各自执行不同类型的任务，而飞行器强化学习只能处理同质飞行器之间的冲突消解，因为需要给每个飞行器设置同样维度的状态空间，且处理的飞行器的数量是固定的。这显然是不适用于临空平台复杂多样的飞行器来进行冲突消解的。本发明针对深度强化学习方法很难解决异质平台飞行器冲突消解问题，基于图神经网络强化学习提出了一种可以解决异质平台的冲突消解方法。

发明内容

针对传统多智能体强化学习方法难以解决异质平台飞行器的冲突消解问题，本发明提供了一种基于图神经网络强化学习的异质平台冲突消解方法。在本方法中，我们依据各架异质飞行器的飞行状态和之间的关系建立了一个冲突网络，然后建立一个图神经网络结构，分成状态信息编码、图卷积网络、动作选择三个模块，将冲突网络图结构中各异质飞行器的状态信息输入到图神经网络结构中进行训练学习，输出相应的动作，从而进行飞行器之间的冲突消解。本发明采用以下技术方案：

一种基于图神经网络强化学习的异质平台冲突消解方法，包括以下步骤：

步骤一、根据各异质飞行器的具体类型和特征设置相应的状态向量，动作空间向量，神经网络最大迭代次数T；

步骤二、初始化各异质飞行器的起始位置、目标点位置和相关状态信息，根据状态以及环境信息建立冲突网络图结构G，建立冲突程度评价函数

，设置冲突程度阈值

；

步骤三、建立图神经网络结构，包括状态信息编码模块、图卷积网络模块、动作选择模块；

步骤四、对步骤三中建立的图神经网络结构进行训练，根据各异质飞行器的具体特征设置各自的收益函数，计算飞行器采取动作所获取的收益；应用两个结构完全相同参数不同的神经网络—PolicyNet和TargetNet，其中TargetNet用来产生稳定的目标值

，PolicyNet则输出预测值

，每个更新周期L用PolicyNet网络的参数来更新TargetNet网络；

步骤五、使用训练后的图神经网络结构完成异质飞行器的冲突消解，对于每个飞行时刻，根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构G，根据冲突程度评价函数

评估冲突网络，如果冲突程度C大于等于阈值

，则将该冲突网络输入训练后的图神经网络结构，提取各异质飞行器的状态信息，经过状态信息编码模块、图卷积网络模块、动作选择模块输出各异质飞行器的动作决策A；如果冲突程度C小于阈值

，各异质飞行器保持当前飞行动作；

步骤六、各异质飞行器反复执行步骤五，并根据步骤五中得到的动作决策A执行相应的飞行操作，直到各异质飞行器到达各自目标点。

所述步骤二中，所述冲突网络图结构G包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E，其中各异质飞行器的位置作为冲突网络图结构G的点序列

，冲突连边E通过速度障碍模型判断两个飞行器之间是否存在潜在冲突，如果存在潜在冲突，则两个飞行器之间存在连边，否则，两个飞行器之间没有连边。

所述步骤三中，所述状态信息编码模块为多层感知机，输入异质平台飞行器的不同维度的状态信息向量S，输出维度同为m的定长状态向量；所述图卷积网络模块为多层图注意力网络，输入组合在一起的维度m的状态向量，输出维度为m的特征向量u；所述动作选择模块为状态-动作值函数，即输入提取的状态特征向量u，输出各异质飞行器选择不同动作对应的Q值，各异质飞行器分别选择各自Q值最大所对应的动作。

所述步骤四中，图神经网络结构进行训练包括以下步骤：

步骤401、初始化动作所对应的Q值，随机初始化步骤三中建立图神经网络中PolicyNet的所有参数

，初始化Target网络的所有参数

，建立经验回放集合ExperienceReplay；

步骤402、时间步t从1到最大迭代次数T，进行迭代，重复执行步骤403-410；

步骤403、图神经网络输入各异质飞行器当前状态S，得到动作选择模块输出的Q值输出；用

在当前Q值输出中选择对应的动作集合A;

步骤404、在状态S执行该动作集合A，得到新状态

和收益R，各飞行器是否到达目标点terminal；

步骤405、将

元组存入经验集合Experience Replay；

步骤406、更新当前状态，

；

步骤407、从经验回放集合Experience Replay中随机采样w个样本

；

步骤408、利用如下损失函数计算loss：

其中，M+N表示所有飞行器的数量，

表示第i架飞行器获取收益，

表示折扣因子，

表示状态S下采取动作A对应的Q值，通过神经网络梯度反向传播来更新网络的所有参数

；

步骤409、如果

，则更新目标网络参数：

，其中t代表当前时间步，L代表网络参数更新周期；

步骤410、判断各异质飞行器是否到达目标点，到达则结束迭代，否则转到步骤403。

本发明与现有技术相比，具有以下优势：

（1）传统的多智能体强化学习只能解决同质飞行器的冲突消解问题，因为需要给每个飞行器设置同样维度的状态空间，且处理的飞行器的数量是固定的。本发明采用的图神经网络结构中的编码模块可以将不同维度的状态向量编码提取为相同维度的状态特征向量，经过图网络进行训练学习，可以根据不同类型的飞行器来选择不同的动作决策空间，更适合解决临空平台飞行器的冲突消解问题。

（2）现有技术考虑的冲突消解问题往往会基于一对一、一对多的冲突消解问题来设计解决策略，这样虽然可以解决局部的飞行冲突问题，但是没有考虑对其他未被考虑的飞行器以及整个航空网络的影响，从而引发二次冲突。本发明中将各异质飞行器的飞行状态和飞行器之间的冲突关系表示成冲突网络，可以更加直观地看到整个航空网络的飞行态势，将该冲突网络作为图神经网络训练学习的对象，可以从整体的角度来决策每个飞行的动作，从而得到更加合理的冲突消解策略。

附图说明

图1为本发明所适用的场景示意图；

图2为本发明的整体流程图；

图3为速度障碍模型；

图4为冲突网络；

图5为图神经网络结构；

图6为训练流程图。

具体实施方式

为使本发明实施的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细和深入描述。

本发明提供一种针对异质平台的冲突消解方法，考虑的问题为：对于指定空域，存在M个a类飞行器和N个b类飞行器，需要保证各飞行器能够安全地从起始点到达目标点，并尽可能地减少飞行器之间的冲突数量。如图1所示，为该问题的一个场景示意图。

所述异质平台冲突消解方法，如图2所示，具体步骤如下：

异质平台飞行器往往有不同的状态向量和动作向量，对于a类飞行器，根据其具体特征设置状态向量

，其中可包含飞行器的位置、速度、航向角、目标位置等状态信息，设置动作空间向量

，其中可包含飞行器的速度变化量、航向角变化量、高度变化量等动作信息。同理，对于b类飞行器，根据其具体特征设置状态向量

，设置动作空间向量

。神经网络最大迭代次数T可根据实际需要自行设定。

步骤二、初始化各异质飞行器的起始位置，目标点位置和相关状态信息，根据状态以及环境信息建立冲突网络图结构G，其中包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E，建立冲突程度评价函数

，设置冲突程度阈值

；

获取各异质飞行器的起始位置和目标位置，按照步骤一中不同种类飞行器的状态向量格式分别初始化各自的状态向量。根据状态及环境信息建立冲突网络图结构G，其中各飞行器的位置作为图G的点序列

，冲突连边E则需要通过速度障碍模型来判断两个飞行器之间有没有潜在冲突，如果存在潜在冲突，则两个飞行器之间存在连边，否则，两飞行器之间没有连边。

图3所示为速度障碍模型，图中A点和B点分别表示两个飞行器的位置，

和

分别表示飞行器的速度向量，

表示飞行器a对于飞行器b的相对速度，当相对速度

落在速度障碍锥中时表示飞行器a和b存在潜在冲突，此时两飞行器之间存在冲突连边。因此可以建立如图4所示的冲突网络，图4的冲突网络中存在4个a类节点，3个b类节点，其中

表示a类的1号节点。

冲突评估函数和冲突阈值

可以根据实际问题背景自行进行设置，此处评估函数设置为冲突网络中连边的数量：

步骤三、建立图神经网络结构，如图5所示，具体分为状态信息编码、图卷积网络、动作选择三个模块。其中状态信息编码模块为多层感知机，输入异质平台飞行器的不同维度的状态信息向量S，输出维度同为m的定长状态向量；图卷积网络模块为多层图注意力网络，输入组合在一起的维度m的状态向量，输出维度为m的特征向量u；动作选择模块为状态-动作值函数，即输入提取的状态特征向量u，输出各异质飞行器选择不同动作对应的Q值。各异质飞行器分别选择各自Q值最大所对应的动作，其中Q函数为强化学习算法中的状态-动作函数，

表示飞行器在当前时刻状态s下采取动作a能够获得奖励的期望，因此各异质飞行器需要在每个当前时刻下选择预期奖励最大，也就是Q值最大对应的动作；

首先，状态信息编码模块采用一个多层感知机来将不同维度的状态向量编码为相同维度的特征向量，该多层感知机为一个全连接神经网络，有两个隐藏层，每层有128个神经单元，输出层有64个神经单元；图卷积网络模块由4层图注意力单元组成，输入层和输出层均为64个神经单元，隐层均为128个神经单元，图注意力单元具体情况此处不再赘述；最后，动作选择模块同样为类似状态信息编码模块的全连接神经网络，接收图卷积网络输出的特征向量，对于a类飞行器，神经网络的输出层为p个神经单元，对于b类飞行器，神经网络的输出层为q个神经单元，输入层均为64个神经单元，均包含两个128神经单元的隐层。

步骤四、对步骤三中建立的图神经网络结构进行训练。其中，应用两个结构完全相同参数不同的神经网络—TargetNet和PolicyNet，其中TargetNet用来产生稳定的目标值

，PolicyNet则输出预测值

。每个更新周期L用PolicyNet网络的参数来更新TargetNet网络；

预测

的网络PolicyNet使用的是最新的网络参数而预测

的网络TargetNet的参数则是旧的参数。

是当前网络PolicyNet的输出，用来评估当前state-action对应的值函数；

则表示网络TargetNet的输出。每过一定的步数则会用PolicyNet的参数来更新一次TargetNet。

如图6所示，具体的训练步骤如下：

，初始化TargetNet网络的所有参数

，建立经验回放集合Experience Replay；

步骤403、图神经网络输入各异质飞行器当前状态S，得到动作选择模块输出的Q值输出。用

在当前Q值输出中选择对应的动作A(包含了a类飞行器和b类飞行器的动作集合);

步骤404、在状态S执行该动作集合A，得到新状态

和收益R，各飞行器是否到达目标点terminal；

步骤405、将

元组存入经验集合Experience Replay；

步骤406、更新当前状态，

；

步骤407、从经验回放集合Experience Replay中随机采样w个样本

；

步骤408、利用如下损失函数计算loss：

其中，M+N表示所有飞行器的数量，

表示第i架飞行器获取收益，

表示折扣因子，此处可取为0.99，

表示状态S下采取动作A对应的Q值。通过神经网络梯度反向传播来更新网络的所有参数

。

步骤409、如果

，则更新目标网络参数：

，其中t代表当前时间步，L代表网络参数更新周期；

步骤410、判断各异质飞行器是否到达目标点，到达则结束迭代，否则转到步骤403；

步骤五、使用训练后的图神经网络结构完成异质飞行器的冲突消解。对于每个飞行时刻，根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构，根据冲突程度评价函数

评估冲突网络，如果冲突程度C大于等于阈值

，则将该冲突网络输入训练后的图神经网络结构，提取各异质飞行器的状态信息，经过状态信息编码、图卷积网络、动作选择三个模块输出各异质飞行器的动作决策A；如果冲突程度C小于阈值，各异质飞行器则保持当前飞行动作。

步骤六、重复执行步骤五，各飞行器执行网络得出的动作决策指令，直到所有异质飞行器到达目标点位置，冲突消解完成。

以上所述仅为本发明的具体实施方式，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，包括以下步骤：

，设置冲突程度阈值

；

，PolicyNet则输出预测值

，每个更新周期L用PolicyNet网络的参数来更新TargetNet网络；

评估冲突网络，如果冲突程度C大于等于阈值

，各异质飞行器保持当前飞行动作；

2.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，所述步骤二中，所述冲突网络图结构G包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E，其中各异质飞行器的位置作为冲突网络图结构G的点序列

3.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，所述步骤三中，所述状态信息编码模块为多层感知机，输入异质平台飞行器的不同维度的状态信息向量S，输出维度同为m的定长状态向量；所述图卷积网络模块为多层图注意力网络，输入组合在一起的维度m的状态向量，输出维度为m的特征向量u；所述动作选择模块为状态-动作值函数，即输入提取的状态特征向量u，输出各异质飞行器选择不同动作对应的Q值，各异质飞行器分别选择各自Q值最大所对应的动作。

4.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，所述步骤四中，图神经网络结构进行训练包括以下步骤：

步骤401、初始化动作所对应的Q值，随机初始化步骤三中建立图神经网络中PolicyNet的所有参数，初始化TargetNet网络的所有参数