CN113962031A - 一种基于图神经网络强化学习的异质平台冲突消解方法 - Google Patents

一种基于图神经网络强化学习的异质平台冲突消解方法 Download PDF

Info

Publication number
CN113962031A
CN113962031A CN202111557745.4A CN202111557745A CN113962031A CN 113962031 A CN113962031 A CN 113962031A CN 202111557745 A CN202111557745 A CN 202111557745A CN 113962031 A CN113962031 A CN 113962031A
Authority
CN
China
Prior art keywords
heterogeneous
conflict
neural network
aircrafts
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111557745.4A
Other languages
English (en)
Other versions
CN113962031B (zh
Inventor
李宇萌
张云赫
郭通
杜文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111557745.4A priority Critical patent/CN113962031B/zh
Publication of CN113962031A publication Critical patent/CN113962031A/zh
Application granted granted Critical
Publication of CN113962031B publication Critical patent/CN113962031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明提供了一种基于图神经网络强化学习的异质平台冲突消解方法,包括以下步骤:首先根据各异质飞行器的具体类型和特征设置相应的状态矢量,动作空间矢量;接下来初始化各异质飞行器的起始位置,目标点位置和相关状态信息,根据状态以及环境信息建立冲突网络图结构,建立冲突程度评价函数;然后建立图神经网络结构,并进行训练;最后使用训练后的图神经网络模型完成异质平台的冲突消解。本发明的图神经网络结构通过状态信息编码模块将异质飞行器的状态矢量编码为相同维度的状态矢量,图卷积网络模块提取特征向量,动作选择模块得到状态‑动作值,结合强化学习训练各异质飞行器,为异质平台的冲突消解问题提供了一种有效可行的解决方案。

Description

一种基于图神经网络强化学习的异质平台冲突消解方法
技术领域
本发明属于飞行器技术领域,涉及一种基于图神经网络强化学习的异质多飞行器冲突消解方法。
背景技术
临空平台是指在航空领域空间和航天领域空间之间的部分,其高度范围在20-100km之间,临空平台飞行器是指在临空平台飞行并执行相关任务的飞行器,其不同的类型可以完成侦察、环境监测、电子对抗、物资投送、军事打击等任务,对于社会民生,国家安全都有十分重要的战略价值。近年来,由于科技的进步和各国政府对临空平台的重视,临空平台飞行器的研制得到了广泛的关注。随着人工智能技术的发展,基于机器学习的飞行器自主控制方法得到了越来越多研究人员的重视。
对于飞行器的自主控制飞行,避免飞行冲突是非常重要的。在目前的空中飞行器交通管制工作中,管制员主要依靠雷达提供的航空器位置、高度和速度信息检测冲突,根据管制规则和个人经验进行调配,这往往会花费大量的人力物力。因此,亟需一种飞行器自主调配从而消解飞行冲突的方法。现有的研究工作大多是基于优化算法或者最优控制理论构建的模型进行求解,得到飞行器的最优航路或者飞行动作。但是上述方法存在几个问题,一是对扇区航空器的飞行态势感知不足,导致调配策略会对其他飞行器造成影响,从而引发二次冲突;二是算法的约束往往较多,求解复杂,甚至无法求解。深度强化学习技术则用智能体模拟飞行器,基于从环境中感知得到的状态信息,做出动作,然后从环境中得到动作的收益反馈,不断地训练神经网络,从而使得飞行器能够做出一系列的动作来达到收益最大化,也就是尽可能地避免飞行冲突。深度强化学习不需要建立具体的飞行器动力学模型,也不需要建立真实世界的模型,通过对飞行器进行大量样本的训练,就可以使其学习到消解冲突的策略。
临空平台飞行器种类繁多,各自执行不同类型的任务,而飞行器强化学习只能处理同质飞行器之间的冲突消解,因为需要给每个飞行器设置同样维度的状态空间,且处理的飞行器的数量是固定的。这显然是不适用于临空平台复杂多样的飞行器来进行冲突消解的。本发明针对深度强化学习方法很难解决异质平台飞行器冲突消解问题,基于图神经网络强化学习提出了一种可以解决异质平台的冲突消解方法。
发明内容
针对传统多智能体强化学习方法难以解决异质平台飞行器的冲突消解问题,本发明提供了一种基于图神经网络强化学习的异质平台冲突消解方法。在本方法中,我们依据各架异质飞行器的飞行状态和之间的关系建立了一个冲突网络,然后建立一个图神经网络结构,分成状态信息编码、图卷积网络、动作选择三个模块,将冲突网络图结构中各异质飞行器的状态信息输入到图神经网络结构中进行训练学习,输出相应的动作,从而进行飞行器之间的冲突消解。本发明采用以下技术方案:
一种基于图神经网络强化学习的异质平台冲突消解方法,包括以下步骤:
步骤一、根据各异质飞行器的具体类型和特征设置相应的状态向量,动作空间向量,神经网络最大迭代次数T;
步骤二、初始化各异质飞行器的起始位置、目标点位置和相关状态信息,根据状态以及环境信息建立冲突网络图结构G,建立冲突程度评价函数
Figure 18523DEST_PATH_IMAGE001
,设置冲突程度阈值
Figure 686265DEST_PATH_IMAGE002
步骤三、建立图神经网络结构,包括状态信息编码模块、图卷积网络模块、动作选择模块;
步骤四、对步骤三中建立的图神经网络结构进行训练,根据各异质飞行器的具体特征设置各自的收益函数,计算飞行器采取动作所获取的收益;应用两个结构完全相同参数不同的神经网络—PolicyNet和TargetNet,其中TargetNet用来产生稳定的目标值
Figure 292826DEST_PATH_IMAGE003
,PolicyNet则输出预测值
Figure 20611DEST_PATH_IMAGE004
,每个更新周期L用PolicyNet网络的参数来更新TargetNet网络;
步骤五、使用训练后的图神经网络结构完成异质飞行器的冲突消解,对于每个飞行时刻,根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构G,根据冲突程度评价函数
Figure 243782DEST_PATH_IMAGE005
评估冲突网络,如果冲突程度C大于等于阈值
Figure 246373DEST_PATH_IMAGE002
,则将该冲突网络输入训练后的图神经网络结构,提取各异质飞行器的状态信息,经过状态信息编码模块、图卷积网络模块、动作选择模块输出各异质飞行器的动作决策A;如果冲突程度C小于阈值
Figure 973020DEST_PATH_IMAGE002
,各异质飞行器保持当前飞行动作;
步骤六、各异质飞行器反复执行步骤五,并根据步骤五中得到的动作决策A执行相应的飞行操作,直到各异质飞行器到达各自目标点。
所述步骤二中,所述冲突网络图结构G包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E,其中各异质飞行器的位置作为冲突网络图结构G的点序列
Figure 871706DEST_PATH_IMAGE006
,冲突连边E通过速度障碍模型判断两个飞行器之间是否存在潜在冲突,如果存在潜在冲突,则两个飞行器之间存在连边,否则,两个飞行器之间没有连边。
所述步骤三中,所述状态信息编码模块为多层感知机,输入异质平台飞行器的不同维度的状态信息向量S,输出维度同为m的定长状态向量;所述图卷积网络模块为多层图注意力网络,输入组合在一起的维度m的状态向量,输出维度为m的特征向量u;所述动作选择模块为状态-动作值函数,即输入提取的状态特征向量u,输出各异质飞行器选择不同动作对应的Q值,各异质飞行器分别选择各自Q值最大所对应的动作。
所述步骤四中,图神经网络结构进行训练包括以下步骤:
步骤401、初始化动作所对应的Q值,随机初始化步骤三中建立图神经网络中PolicyNet的所有参数
Figure 316594DEST_PATH_IMAGE007
,初始化Target网络的所有参数
Figure 122876DEST_PATH_IMAGE008
,建立经验回放集合ExperienceReplay;
步骤402、时间步t从1到最大迭代次数T,进行迭代,重复执行步骤403-410;
步骤403、图神经网络输入各异质飞行器当前状态S,得到动作选择模块输出的Q值输出;用
Figure 235189DEST_PATH_IMAGE009
在当前Q值输出中选择对应的动作集合A;
步骤404、在状态S执行该动作集合A,得到新状态
Figure 773617DEST_PATH_IMAGE010
和收益R,各飞行器是否到达目标点terminal;
步骤405、将
Figure 971381DEST_PATH_IMAGE011
元组存入经验集合Experience Replay;
步骤406、更新当前状态,
Figure 315774DEST_PATH_IMAGE012
步骤407、从经验回放集合Experience Replay中随机采样w个样本
Figure 17014DEST_PATH_IMAGE013
步骤408、利用如下损失函数计算loss:
Figure 991923DEST_PATH_IMAGE014
其中,M+N表示所有飞行器的数量,
Figure 473720DEST_PATH_IMAGE015
表示第i架飞行器获取收益,
Figure 825067DEST_PATH_IMAGE016
表示折扣因子,
Figure 380813DEST_PATH_IMAGE017
表示状态S下采取动作A对应的Q值,通过神经网络梯度反向传播来更新网络的所有参数
Figure 789273DEST_PATH_IMAGE018
步骤409、如果
Figure 492787DEST_PATH_IMAGE019
,则更新目标网络参数:
Figure 382246DEST_PATH_IMAGE020
,其中t代表当前时间步,L代表网络参数更新周期;
步骤410、判断各异质飞行器是否到达目标点,到达则结束迭代,否则转到步骤403。
本发明与现有技术相比,具有以下优势:
(1)传统的多智能体强化学习只能解决同质飞行器的冲突消解问题,因为需要给每个飞行器设置同样维度的状态空间,且处理的飞行器的数量是固定的。本发明采用的图神经网络结构中的编码模块可以将不同维度的状态向量编码提取为相同维度的状态特征向量,经过图网络进行训练学习,可以根据不同类型的飞行器来选择不同的动作决策空间,更适合解决临空平台飞行器的冲突消解问题。
(2)现有技术考虑的冲突消解问题往往会基于一对一、一对多的冲突消解问题来设计解决策略,这样虽然可以解决局部的飞行冲突问题,但是没有考虑对其他未被考虑的飞行器以及整个航空网络的影响,从而引发二次冲突。本发明中将各异质飞行器的飞行状态和飞行器之间的冲突关系表示成冲突网络,可以更加直观地看到整个航空网络的飞行态势,将该冲突网络作为图神经网络训练学习的对象,可以从整体的角度来决策每个飞行的动作,从而得到更加合理的冲突消解策略。
附图说明
图1为本发明所适用的场景示意图;
图2为本发明的整体流程图;
图3为速度障碍模型;
图4为冲突网络;
图5为图神经网络结构;
图6为训练流程图。
具体实施方式
为使本发明实施的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细和深入描述。
本发明提供一种针对异质平台的冲突消解方法,考虑的问题为:对于指定空域,存在M个a类飞行器和N个b类飞行器,需要保证各飞行器能够安全地从起始点到达目标点,并尽可能地减少飞行器之间的冲突数量。如图1所示,为该问题的一个场景示意图。
所述异质平台冲突消解方法,如图2所示,具体步骤如下:
步骤一、根据各异质飞行器的具体类型和特征设置相应的状态向量,动作空间向量,神经网络最大迭代次数T;
异质平台飞行器往往有不同的状态向量和动作向量,对于a类飞行器,根据其具体特征设置状态向量
Figure 58078DEST_PATH_IMAGE021
,其中可包含飞行器的位置、速度、航向角、目标位置等状态信息,设置动作空间向量
Figure 374790DEST_PATH_IMAGE022
,其中可包含飞行器的速度变化量、航向角变化量、高度变化量等动作信息。同理,对于b类飞行器,根据其具体特征设置状态向量
Figure 565600DEST_PATH_IMAGE023
,设置动作空间向量
Figure 258749DEST_PATH_IMAGE024
。神经网络最大迭代次数T可根据实际需要自行设定。
步骤二、初始化各异质飞行器的起始位置,目标点位置和相关状态信息,根据状态以及环境信息建立冲突网络图结构G,其中包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E,建立冲突程度评价函数
Figure 789087DEST_PATH_IMAGE025
,设置冲突程度阈值
Figure 542280DEST_PATH_IMAGE026
获取各异质飞行器的起始位置和目标位置,按照步骤一中不同种类飞行器的状态向量格式分别初始化各自的状态向量。根据状态及环境信息建立冲突网络图结构G,其中各飞行器的位置作为图G的点序列
Figure 220386DEST_PATH_IMAGE027
,冲突连边E则需要通过速度障碍模型来判断两个飞行器之间有没有潜在冲突,如果存在潜在冲突,则两个飞行器之间存在连边,否则,两飞行器之间没有连边。
图3所示为速度障碍模型,图中A点和B点分别表示两个飞行器的位置,
Figure 451647DEST_PATH_IMAGE028
Figure 836492DEST_PATH_IMAGE029
分别表示飞行器的速度向量,
Figure 760586DEST_PATH_IMAGE030
表示飞行器a对于飞行器b的相对速度,当相对速度
Figure 925988DEST_PATH_IMAGE030
落在速度障碍锥中时表示飞行器a和b存在潜在冲突,此时两飞行器之间存在冲突连边。因此可以建立如图4所示的冲突网络,图4的冲突网络中存在4个a类节点,3个b类节点,其中
Figure 960940DEST_PATH_IMAGE031
表示a类的1号节点。
冲突评估函数和冲突阈值
Figure 465871DEST_PATH_IMAGE033
可以根据实际问题背景自行进行设置,此处评估函数设置为冲突网络中连边的数量:
Figure 295286DEST_PATH_IMAGE034
步骤三、建立图神经网络结构,如图5所示,具体分为状态信息编码、图卷积网络、动作选择三个模块。其中状态信息编码模块为多层感知机,输入异质平台飞行器的不同维度的状态信息向量S,输出维度同为m的定长状态向量;图卷积网络模块为多层图注意力网络,输入组合在一起的维度m的状态向量,输出维度为m的特征向量u;动作选择模块为状态-动作值函数,即输入提取的状态特征向量u,输出各异质飞行器选择不同动作对应的Q值。各异质飞行器分别选择各自Q值最大所对应的动作,其中Q函数为强化学习算法中的状态-动作函数,
Figure 947985DEST_PATH_IMAGE035
表示飞行器在当前时刻状态s下采取动作a能够获得奖励的期望,因此各异质飞行器需要在每个当前时刻下选择预期奖励最大,也就是Q值最大对应的动作;
首先,状态信息编码模块采用一个多层感知机来将不同维度的状态向量编码为相同维度的特征向量,该多层感知机为一个全连接神经网络,有两个隐藏层,每层有128个神经单元,输出层有64个神经单元;图卷积网络模块由4层图注意力单元组成,输入层和输出层均为64个神经单元,隐层均为128个神经单元,图注意力单元具体情况此处不再赘述;最后,动作选择模块同样为类似状态信息编码模块的全连接神经网络,接收图卷积网络输出的特征向量,对于a类飞行器,神经网络的输出层为p个神经单元,对于b类飞行器,神经网络的输出层为q个神经单元,输入层均为64个神经单元,均包含两个128神经单元的隐层。
步骤四、对步骤三中建立的图神经网络结构进行训练。其中,应用两个结构完全相同参数不同的神经网络—TargetNet和PolicyNet,其中TargetNet用来产生稳定的目标值
Figure 521048DEST_PATH_IMAGE036
,PolicyNet则输出预测值
Figure 880485DEST_PATH_IMAGE037
。每个更新周期L用PolicyNet网络的参数来更新TargetNet网络;
预测
Figure 146382DEST_PATH_IMAGE038
的网络PolicyNet使用的是最新的网络参数而预测
Figure 20797DEST_PATH_IMAGE036
的网络TargetNet的参数则是旧的参数。
Figure 660201DEST_PATH_IMAGE038
是当前网络PolicyNet的输出,用来评估当前state-action对应的值函数;
Figure 874145DEST_PATH_IMAGE036
则表示网络TargetNet的输出。每过一定的步数则会用PolicyNet的参数来更新一次TargetNet。
如图6所示,具体的训练步骤如下:
步骤401、初始化动作所对应的Q值,随机初始化步骤三中建立图神经网络中PolicyNet的所有参数
Figure 310942DEST_PATH_IMAGE039
,初始化TargetNet网络的所有参数
Figure 672653DEST_PATH_IMAGE040
,建立经验回放集合Experience Replay;
步骤402、时间步t从1到最大迭代次数T,进行迭代,重复执行步骤403-410;
步骤403、图神经网络输入各异质飞行器当前状态S,得到动作选择模块输出的Q值输出。用
Figure 321941DEST_PATH_IMAGE041
在当前Q值输出中选择对应的动作A(包含了a类飞行器和b类飞行器的动作集合);
步骤404、在状态S执行该动作集合A,得到新状态
Figure 921549DEST_PATH_IMAGE010
和收益R,各飞行器是否到达目标点terminal;
步骤405、将
Figure 325986DEST_PATH_IMAGE042
元组存入经验集合Experience Replay;
步骤406、更新当前状态,
Figure 378255DEST_PATH_IMAGE043
步骤407、从经验回放集合Experience Replay中随机采样w个样本
Figure 831234DEST_PATH_IMAGE044
步骤408、利用如下损失函数计算loss:
Figure 285349DEST_PATH_IMAGE045
其中,M+N表示所有飞行器的数量,
Figure 860686DEST_PATH_IMAGE046
表示第i架飞行器获取收益,
Figure 400252DEST_PATH_IMAGE047
表示折扣因子,此处可取为0.99,
Figure 656921DEST_PATH_IMAGE048
表示状态S下采取动作A对应的Q值。通过神经网络梯度反向传播来更新网络的所有参数
Figure 965543DEST_PATH_IMAGE039
步骤409、如果
Figure 711782DEST_PATH_IMAGE049
,则更新目标网络参数:
Figure 473064DEST_PATH_IMAGE050
,其中t代表当前时间步,L代表网络参数更新周期;
步骤410、判断各异质飞行器是否到达目标点,到达则结束迭代,否则转到步骤403;
步骤五、使用训练后的图神经网络结构完成异质飞行器的冲突消解。对于每个飞行时刻,根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构,根据冲突程度评价函数
Figure 533424DEST_PATH_IMAGE051
评估冲突网络,如果冲突程度C大于等于阈值
Figure 696552DEST_PATH_IMAGE052
,则将该冲突网络输入训练后的图神经网络结构,提取各异质飞行器的状态信息,经过状态信息编码、图卷积网络、动作选择三个模块输出各异质飞行器的动作决策A;如果冲突程度C小于阈值,各异质飞行器则保持当前飞行动作。
步骤六、重复执行步骤五,各飞行器执行网络得出的动作决策指令,直到所有异质飞行器到达目标点位置,冲突消解完成。
以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于图神经网络强化学习的异质平台冲突消解方法,其特征在于,包括以下步骤:
步骤一、根据各异质飞行器的具体类型和特征设置相应的状态向量,动作空间向量,神经网络最大迭代次数T;
步骤二、初始化各异质飞行器的起始位置、目标点位置和相关状态信息,根据状态以及环境信息建立冲突网络图结构G,建立冲突程度评价函数
Figure 275539DEST_PATH_IMAGE001
,设置冲突程度阈值
Figure 446757DEST_PATH_IMAGE002
步骤三、建立图神经网络结构,包括状态信息编码模块、图卷积网络模块、动作选择模块;
步骤四、对步骤三中建立的图神经网络结构进行训练,根据各异质飞行器的具体特征设置各自的收益函数,计算飞行器采取动作所获取的收益;应用两个结构完全相同参数不同的神经网络—PolicyNet和TargetNet,其中TargetNet用来产生稳定的目标值
Figure 11730DEST_PATH_IMAGE003
,PolicyNet则输出预测值
Figure 988914DEST_PATH_IMAGE004
,每个更新周期L用PolicyNet网络的参数来更新TargetNet网络;
步骤五、使用训练后的图神经网络结构完成异质飞行器的冲突消解,对于每个飞行时刻,根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构G,根据冲突程度评价函数
Figure 322943DEST_PATH_IMAGE005
评估冲突网络,如果冲突程度C大于等于阈值
Figure 930642DEST_PATH_IMAGE002
,则将该冲突网络输入训练后的图神经网络结构,提取各异质飞行器的状态信息,经过状态信息编码模块、图卷积网络模块、动作选择模块输出各异质飞行器的动作决策A;如果冲突程度C小于阈值
Figure 717332DEST_PATH_IMAGE002
,各异质飞行器保持当前飞行动作;
步骤六、各异质飞行器反复执行步骤五,并根据步骤五中得到的动作决策A执行相应的飞行操作,直到各异质飞行器到达各自目标点。
2.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法,其特征在于,所述步骤二中,所述冲突网络图结构G包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E,其中各异质飞行器的位置作为冲突网络图结构G的点序列
Figure 435890DEST_PATH_IMAGE006
,冲突连边E通过速度障碍模型判断两个飞行器之间是否存在潜在冲突,如果存在潜在冲突,则两个飞行器之间存在连边,否则,两个飞行器之间没有连边。
3.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法,其特征在于,所述步骤三中,所述状态信息编码模块为多层感知机,输入异质平台飞行器的不同维度的状态信息向量S,输出维度同为m的定长状态向量;所述图卷积网络模块为多层图注意力网络,输入组合在一起的维度m的状态向量,输出维度为m的特征向量u;所述动作选择模块为状态-动作值函数,即输入提取的状态特征向量u,输出各异质飞行器选择不同动作对应的Q值,各异质飞行器分别选择各自Q值最大所对应的动作。
4.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法,其特征在于,所述步骤四中,图神经网络结构进行训练包括以下步骤:
步骤401、初始化动作所对应的Q值,随机初始化步骤三中建立图神经网络中PolicyNet的所有参数,初始化TargetNet网络的所有参数
Figure 199763DEST_PATH_IMAGE009
,建立经验回放集合Experience Replay;
步骤402、时间步t从1到最大迭代次数T,进行迭代,重复执行步骤403-410;
步骤403、图神经网络输入各异质飞行器当前状态S,得到动作选择模块输出的Q值输出;用
Figure 739329DEST_PATH_IMAGE010
在当前Q值输出中选择对应的动作集合A;
步骤404、在状态S执行该动作集合A,得到新状态
Figure 58315DEST_PATH_IMAGE011
和收益R,各飞行器是否到达目标点terminal;
步骤405、将
Figure 387444DEST_PATH_IMAGE012
元组存入经验集合Experience Replay;
步骤406、更新当前状态,
Figure 336946DEST_PATH_IMAGE013
步骤407、从经验回放集合Experience Replay中随机采样w个样本
Figure 832649DEST_PATH_IMAGE014
步骤408、利用如下损失函数计算loss:
Figure 955326DEST_PATH_IMAGE015
其中,M+N表示所有飞行器的数量,
Figure 118454DEST_PATH_IMAGE016
表示第i架飞行器获取收益,
Figure 973278DEST_PATH_IMAGE017
表示折扣因子,
Figure 487436DEST_PATH_IMAGE018
表示状态S下采取动作A对应的Q值,通过神经网络梯度反向传播来更新网络的所有参数
Figure 351486DEST_PATH_IMAGE019
步骤409、如果
Figure 165859DEST_PATH_IMAGE020
,则更新目标网络参数:
Figure 457163DEST_PATH_IMAGE021
,其中t代表当前时间步,L代表网络参数更新周期;
步骤410、判断各异质飞行器是否到达目标点,到达则结束迭代,否则转到步骤403。
CN202111557745.4A 2021-12-20 2021-12-20 一种基于图神经网络强化学习的异质平台冲突消解方法 Active CN113962031B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557745.4A CN113962031B (zh) 2021-12-20 2021-12-20 一种基于图神经网络强化学习的异质平台冲突消解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557745.4A CN113962031B (zh) 2021-12-20 2021-12-20 一种基于图神经网络强化学习的异质平台冲突消解方法

Publications (2)

Publication Number Publication Date
CN113962031A true CN113962031A (zh) 2022-01-21
CN113962031B CN113962031B (zh) 2022-03-29

Family

ID=79473259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557745.4A Active CN113962031B (zh) 2021-12-20 2021-12-20 一种基于图神经网络强化学习的异质平台冲突消解方法

Country Status (1)

Country Link
CN (1) CN113962031B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191923A (zh) * 2018-09-25 2019-01-11 中国人民解放军国防科技大学 一种无人机飞行冲突解脱方法及解脱系统
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110084414A (zh) * 2019-04-18 2019-08-02 成都蓉奥科技有限公司 一种基于k次控制深度强化学习的空管防冲突方法
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
US20200342612A1 (en) * 2019-04-24 2020-10-29 The Boeing Company Machine learning based object range detection
CN111857184A (zh) * 2020-07-31 2020-10-30 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机群集控制避碰方法及装置
CN111897316A (zh) * 2020-06-22 2020-11-06 北京航空航天大学 一种场景快变条件下的多飞行器自主决策方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109191923A (zh) * 2018-09-25 2019-01-11 中国人民解放军国防科技大学 一种无人机飞行冲突解脱方法及解脱系统
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法
CN109870162A (zh) * 2019-04-04 2019-06-11 北京航空航天大学 一种基于竞争深度学习网络的无人机飞行路径规划方法
CN110084414A (zh) * 2019-04-18 2019-08-02 成都蓉奥科技有限公司 一种基于k次控制深度强化学习的空管防冲突方法
US20200342612A1 (en) * 2019-04-24 2020-10-29 The Boeing Company Machine learning based object range detection
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111897316A (zh) * 2020-06-22 2020-11-06 北京航空航天大学 一种场景快变条件下的多飞行器自主决策方法
CN111857184A (zh) * 2020-07-31 2020-10-30 中国人民解放军国防科技大学 基于深度强化学习的固定翼无人机群集控制避碰方法及装置
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAIDI, R.等: ""Neural Network Apply to predict aircraft trajectory for conflict resolution"", 《2014 9TH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS: THEORIES AND APPLICATIONS (SITA"14)》 *
魏纯洁 等: ""飞行冲突解脱方法研究综述"", 《中国民航飞行学院院报》 *

Also Published As

Publication number Publication date
CN113962031B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
Yan et al. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments
CN102402712B (zh) 基于神经网络的机器人强化学习初始化方法
Liu et al. Multi-UAV path planning based on fusion of sparrow search algorithm and improved bioinspired neural network
Duan et al. Non-linear dual-mode receding horizon control for multiple unmanned air vehicles formation flight based on chaotic particle swarm optimisation
Brittain et al. Autonomous aircraft sequencing and separation with hierarchical deep reinforcement learning
CN110514206A (zh) 一种基于深度学习的无人机飞行路径预测方法
Julian et al. Validation of image-based neural network controllers through adaptive stress testing
US20210103295A1 (en) Machine learning for mission system
Kersandt et al. Self-training by reinforcement learning for full-autonomous drones of the future
CN112733251B (zh) 一种多无人飞行器协同航迹规划方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Wu et al. Heterogeneous mission planning for multiple uav formations via metaheuristic algorithms
Qiming et al. A review of intelligent optimization algorithm applied to unmanned aerial vehicle swarm search task
Xin et al. DRL-based improvement for autonomous UAV motion path planning in unknown environments
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
CN113255893B (zh) 一种多智能体行动策略自演进生成方法
Kong et al. Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments
Zhang et al. Design of the fruit fly optimization algorithm based path planner for UAV in 3D environments
Yu et al. Collision-free trajectory generation for UAVs using Markov decision process
CN113962031B (zh) 一种基于图神经网络强化学习的异质平台冲突消解方法
CN113110101A (zh) 一种生产线移动机器人聚集式回收入库仿真方法及系统
CN116698037A (zh) 一种无人机航迹规划方法
Munnangi et al. Improving Wildlife Monitoring using a Multi-criteria Cooperative Target Observation Approach.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant