CN111882047A - 一种基于强化学习与线性规划的快速空管防冲突方法 - Google Patents

一种基于强化学习与线性规划的快速空管防冲突方法 Download PDF

Info

Publication number
CN111882047A
CN111882047A CN202011040999.4A CN202011040999A CN111882047A CN 111882047 A CN111882047 A CN 111882047A CN 202011040999 A CN202011040999 A CN 202011040999A CN 111882047 A CN111882047 A CN 111882047A
Authority
CN
China
Prior art keywords
airplane
airplanes
angle
coordinates
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011040999.4A
Other languages
English (en)
Other versions
CN111882047B (zh
Inventor
李辉
文瀚
王壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202011040999.4A priority Critical patent/CN111882047B/zh
Publication of CN111882047A publication Critical patent/CN111882047A/zh
Application granted granted Critical
Publication of CN111882047B publication Critical patent/CN111882047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G5/00Traffic control systems for aircraft, e.g. air-traffic control [ATC]
    • G08G5/04Anti-collision systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于强化学习与线性规划的快速空管防冲突方法,该方法包括以下步骤:步骤一,设置扇区内外飞机的数量,并获取飞机的位置信息;步骤二,获取飞机的动态参数并做规则化处理,利用这些参数构建飞机深度强化学习模型;步骤三,使用DDPG算法训练该神经网络,用线性规划优化输出的偏转角;步骤四,将飞机的位置信息作为神经网络的输入,得到控制飞机的偏转角;步骤五,控制飞机按偏转后的角度飞行,并判断该飞机能否进行偏转,若是则偏转到达目的地,否则继续更新位置信息。本发明通过线性规划优化神经网络输出的偏转角,加快了收敛速度且具有较好的鲁棒性。

Description

一种基于强化学习与线性规划的快速空管防冲突方法
技术领域
本发明涉及空中交通管理领域,具体而言,特别涉及一种基于强化学习与线性规划的快速空管防冲突方法。
背景技术
近年来,随着空中交通领域的快速发展,空中交通流量与日俱增与有限的空域资源矛盾日益突出。为此美国联邦航空管理局提出了自由飞行,自由飞行是未来空中交通发展的必然模式,为了保证自由飞行的安全性,当飞机由一个扇区飞往另一个扇区时必须设计出摆脱飞行冲突的最优策略,避免与扇区内的飞机发生冲突。现有的一些算法已经能够生成最优解或次优解,但这些最优解或次优解并不能满足空中交通实时性的要求。基于实时性和安全性的考虑,本发明提出了一种基于强化学习与线性规划的快速空管防冲突方法,该方法能够迅速地规划出安全路径,大大减轻空管员的压力,满足实时性和安全性。
发明内容
本发明的目的在于,为了解决现有的方案效率不够高的问题,提出了一种基于强化学习与线性规划的快速空管防冲突方法,能够更好更快的完成安全路径的规划,大大减轻空管员的压力。
本发明所提供的技术方案为
一种基于强化学习与线性规划的快速空管防冲突方法,包括以下步骤:
步骤一,设置扇区内外飞机的数量,并对所有的飞机进行编号,获取所有飞机在开始时刻的坐标以及朝向角;
步骤二,获取所有飞机的动态参数并将其中的一些参数做规则化处理,利用这些参数来构建飞机深度强化学习模型,将所有飞机的坐标和朝向角作为该深度强化学习模型的输入,控制飞机的偏转角作为该深度强化学习模型的输出;
步骤三,使用DDPG算法训练该深度强化学习模型,在训练过程中利用线性规划对神经网络的输出进行选择,优化输出结果,最后经过海量的训练得到训练好的深度神经网络;
步骤四,将所有飞机的坐标和朝向角作为训练好的深度神经网络的输入,得到控制飞机的偏转角度;
步骤五,根据步骤四中所得偏转角,控制飞机按照偏转后的方向继续飞行,更新当前时刻控制飞机的坐标以及朝向角,根据当前时刻所有飞机的坐标和朝向角,判断控制飞机是否可以进行第二次偏转,如果可以进行第二次偏转则偏转到达目的地,否则继续更新飞机的坐标及朝向角;
进一步地,所述步骤一中,扇区内外的飞机数量可根据实际情况设置,控制飞机是在扇区外,剩余飞机在扇区内,并对扇区内外的飞机进行编号。
进一步地,所述步骤二中,根据飞机的飞行速度、飞机的最大偏转角和最小偏转角 以及飞机的数量,获取飞机速度的约束集和偏转方向的约束集。将每架飞机的信息规则化 为一个二元组,该二元组包含的信息为:飞机编号、飞机状态;其中飞机状态又分为飞机的 坐标和朝向角。搭建DDPG算法中两对结构相同但参数不同的神经网络:策略网络
Figure 646572DEST_PATH_IMAGE002
以及它的目标网络
Figure 734352DEST_PATH_IMAGE004
,价值网络
Figure 186193DEST_PATH_IMAGE006
以及它的目标网络
Figure 846981DEST_PATH_IMAGE008
。策略网络
Figure 67878DEST_PATH_IMAGE009
用于计算当前状态s下所采用的动作a,动作a表示为控制 飞机偏转的角度,价值网络
Figure 421499DEST_PATH_IMAGE010
是用来计算在状态s下采取动作a的Q值,并用这个Q 值来更新策略网络的参数
Figure 891795DEST_PATH_IMAGE012
;神经网络的输入层为飞机的坐标信息以及朝向角,即
Figure 995755DEST_PATH_IMAGE014
,其中
Figure 195792DEST_PATH_IMAGE016
分别为飞机在二维坐标系中的坐标及朝向 角,n为扇区内外飞机的数量;神经网络的输出为当前状态s下所采用的动作a;飞机的偏转 角度
Figure 330101DEST_PATH_IMAGE018
,其中
Figure 287693DEST_PATH_IMAGE020
分别为飞机偏转角度的最小值与最大值。
进一步地,所述步骤三中,对神经网络输出的优化应当满足以下八个条件之一:
1)
Figure 555863DEST_PATH_IMAGE022
Figure 485773DEST_PATH_IMAGE024
Figure 446776DEST_PATH_IMAGE025
2)
Figure 327882DEST_PATH_IMAGE026
Figure 134164DEST_PATH_IMAGE027
Figure 184159DEST_PATH_IMAGE029
Figure 722588DEST_PATH_IMAGE031
3)
Figure 982668DEST_PATH_IMAGE021
Figure 468007DEST_PATH_IMAGE032
Figure 497143DEST_PATH_IMAGE033
4)
Figure 908271DEST_PATH_IMAGE021
Figure 390068DEST_PATH_IMAGE032
Figure 679098DEST_PATH_IMAGE034
Figure 562740DEST_PATH_IMAGE035
5)
Figure 708551DEST_PATH_IMAGE036
Figure 553010DEST_PATH_IMAGE023
Figure 504785DEST_PATH_IMAGE037
6)
Figure 894134DEST_PATH_IMAGE038
Figure 538741DEST_PATH_IMAGE023
Figure 360384DEST_PATH_IMAGE040
7)
Figure 625143DEST_PATH_IMAGE038
Figure 50439DEST_PATH_IMAGE032
Figure 368026DEST_PATH_IMAGE041
8)
Figure 5812DEST_PATH_IMAGE038
Figure 452974DEST_PATH_IMAGE032
Figure 344444DEST_PATH_IMAGE042
Figure 650792DEST_PATH_IMAGE043
其中, qa/b是飞机a与飞机b的相对航向角,qb/a是飞机b与飞机a的相对航向角,其定义为:
Figure 482481DEST_PATH_IMAGE045
Figure 190674DEST_PATH_IMAGE047
这里的
Figure 82407DEST_PATH_IMAGE049
是飞机a与飞机b之间的连线与横坐标轴之间的夹角,
Figure 876051DEST_PATH_IMAGE051
是飞机a、b 的朝向角,Tab和Tba是只取0或1的变量,目的是控制qa/b与qb/a的取值范围在
Figure 947650DEST_PATH_IMAGE053
之间 ,
Figure 369404DEST_PATH_IMAGE055
是飞机a与飞机b之间的最小安全角度,其定义为:
Figure 572983DEST_PATH_IMAGE057
其中,r是飞机的安全半径,D为飞机a与飞机b距离。
其中对深度神经网络的训练包括以下步骤:
01)采集开始时刻所有飞机的坐标以及朝向角信息
Figure 712977DEST_PATH_IMAGE059
, 其中n为飞机的数量;数据的储存形式为
Figure 292994DEST_PATH_IMAGE061
02)把当前状态
Figure 834834DEST_PATH_IMAGE063
,即
Figure 209315DEST_PATH_IMAGE064
,作为策略神经网络
Figure 836605DEST_PATH_IMAGE065
的输入,计算在当前状态
Figure 453269DEST_PATH_IMAGE066
下所采取的动作
Figure 52878DEST_PATH_IMAGE068
,即偏转角度,再运用上述线性 规划的方法来判断该动作
Figure 722894DEST_PATH_IMAGE069
是否满足不冲突的条件,若满足不冲突的条件,则得到采取该 动作后的回报值
Figure 712846DEST_PATH_IMAGE071
,然后观察得到的下一个状态
Figure 493721DEST_PATH_IMAGE073
,并按时间步长更新所有飞机的坐标 及朝向角,并判断是否可进行第二次偏转,如果可以偏转则偏转到达目的地,若不能偏转则 继续按时间步长更新坐标及朝向角信息,回报值
Figure 151098DEST_PATH_IMAGE075
,其中
Figure 992015DEST_PATH_IMAGE077
是 控制飞机的第一次偏转角与第二偏转角;若不满足不冲突的条件,则获得采用该动作下的 回报值
Figure 469264DEST_PATH_IMAGE070
,然后观察得到的下一个状态
Figure 53829DEST_PATH_IMAGE078
,然后把
Figure 798669DEST_PATH_IMAGE080
存储下来,作为经验 回放的数据;
03)从存储下来的数据里随机抽取一定数量的样本,表示为
Figure 810487DEST_PATH_IMAGE081
,进行小批量 的学习。计算
Figure 509453DEST_PATH_IMAGE083
,其中
Figure 897709DEST_PATH_IMAGE084
分别代表了目标网络 的权重,
Figure 998520DEST_PATH_IMAGE085
代表折扣因子;根据最小损失函数
Figure 384502DEST_PATH_IMAGE087
来更新评价网络 的权重
Figure 960977DEST_PATH_IMAGE089
04)通过梯度
Figure 762711DEST_PATH_IMAGE091
来更新
策略网络的权重
Figure 842662DEST_PATH_IMAGE011
05)通过
Figure 835764DEST_PATH_IMAGE093
更新目标网络的权 重;
进一步地,所述步骤四中,将当前时刻所有飞机的坐标以及朝向角信息
Figure 899535DEST_PATH_IMAGE094
,输入到训练好的神经网络中,用当前神经网络计算当前 状态s下的动作a,并执行动作a,即计算出控制飞机的偏转角,并根据控制飞机的偏转角,使 其向偏转后的角度飞行。
进一步地,所述步骤五中,控制飞机按偏转后的方向飞行时,根据控制飞机的坐标与终点坐标生成一条运动轨迹,判断此轨迹是否与其他飞机的运动轨迹是否重合,若不重合则使控制飞机偏转到达目的地,若重合则按时间步长更新所有飞机的坐标及朝向角,然后再次重复上述过程。
有益效果:
本发明采用线性规划与强化学习相结合来计算控制飞机的偏转角度,系统能够自主学习相关参数,完成飞机的冲突避免过程;相比于传统方法,本发明计算效率更高能在300ms之内生成最优路径,极大提高了飞机避免冲突的能力。本发明能够更好更快的完成冲突避免过程,大大减轻空管员的负担,也提高了效率。
附图说明
图1为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的流程图;
图2为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的扇区空管示意图;
图3为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的偏转角度优化示意图;
图4为本实施例的一种基于强化学习与线性规划的快速空管防冲突方法的飞机冲突解脱轨迹图。
具体实施方式
以下将结合附图和具体实施实例对本发明内容进行详细具体的说明。
参照图1所示的流程,一种基于强化学习与线性规划的快速空管防冲突方法,包括以下几个步骤:
步骤一,设置扇区内外飞机的数量,并对所有的飞机进行编号,获取所有飞机在开始时刻的坐标以及朝向角;
步骤二,获取所有飞机的动态参数并将其中的一些参数做规则化处理,利用这些参数来构建飞机深度强化学习模型,将所有飞机的坐标和朝向角作为该深度强化学习模型的输入,控制飞机的偏转角作为该深度强化学习模型的输出;
步骤三,使用DDPG算法训练该深度强化学习模型,在训练过程中利用线性规划对神经网络的输出进行选择,优化输出结果,最后经过海量的训练得到训练好的深度神经网络;
步骤四,将所有飞机的坐标和朝向角作为训练好的深度神经网络的输入,得到控制飞机的偏转角度;
步骤五,根据步骤四中所得偏转角,控制飞机按照偏转后的方向继续飞行,更新当前时刻控制飞机的坐标以及朝向角,根据当前时刻飞机的坐标和朝向角,判断控制飞机是否可以进行第二次偏转,如果可以进行第二次偏转则偏转到达目的地,否则继续更新飞机的坐标及朝向角。
接着,对步骤一进行详细描述。
假设场景中共有五架飞机,控制飞机在扇区外,其余飞机在扇区内,并对这五架飞机进行编号,然后飞机通过ADS-B来获取其他飞机的速度和位置等信息,ADS-B的数据更新速度较快,能每秒获取目标飞机的坐标信息,计算出目标飞机相对于自身飞机的速度和航向等信息,如图2所示。
然后在所述步骤二中,根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以 及飞机的数量,获取飞机速度的约束集和偏转方向的约束集。将每架飞机的信息规则化为 一个二元组,该二元组包含的信息为:飞机编号、飞机状态;其中飞机状态又分为飞机的坐 标和朝向角。搭建DDPG算法中两对结构相同但参数不同的神经网络:策略网络
Figure 504960DEST_PATH_IMAGE001
以及它的目标网络
Figure 173838DEST_PATH_IMAGE003
,价值网络
Figure 839306DEST_PATH_IMAGE005
以及它的目标网 络
Figure 390373DEST_PATH_IMAGE007
。策略网络
Figure 533910DEST_PATH_IMAGE001
用于计算当前状态s下所采用的动作a,动作a表示 为控制飞机偏转的角度,价值网络
Figure 588453DEST_PATH_IMAGE005
是用来计算在状态s下采取动作a的Q值,并 用这个Q值来更新策略网络的参数
Figure 657778DEST_PATH_IMAGE011
;神经网络的输入层为飞机的坐标信息以及朝向 角,即
Figure 164983DEST_PATH_IMAGE013
,其中
Figure 908948DEST_PATH_IMAGE095
分别为飞机在二维坐标系中的 坐标及朝向角,n为扇区内外飞机的数量;神经网络的输出为当前状态s下所采用的动作a; 飞机的偏转角度
Figure 958944DEST_PATH_IMAGE017
,其中
Figure 825268DEST_PATH_IMAGE019
分别为飞机偏转角度的最小值与最大值;
在所述步骤三中,训练深度神经网络时使用线性规划方法对神经网络输出进行选择应当满足以下八个条件之一,如图3所示,其过程如下:
1)
Figure 960715DEST_PATH_IMAGE021
Figure 305108DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE096
2)
Figure 235627DEST_PATH_IMAGE021
Figure 272853DEST_PATH_IMAGE023
Figure 895595DEST_PATH_IMAGE097
Figure 309259DEST_PATH_IMAGE030
3)
Figure 802688DEST_PATH_IMAGE021
Figure 276395DEST_PATH_IMAGE032
Figure 416127DEST_PATH_IMAGE098
4)
Figure 977690DEST_PATH_IMAGE021
Figure 981418DEST_PATH_IMAGE032
Figure 32550DEST_PATH_IMAGE099
Figure DEST_PATH_IMAGE100
5)
Figure 629885DEST_PATH_IMAGE038
Figure 759253DEST_PATH_IMAGE023
Figure 617487DEST_PATH_IMAGE101
6)
Figure 308363DEST_PATH_IMAGE038
Figure 924152DEST_PATH_IMAGE023
Figure 217730DEST_PATH_IMAGE102
Figure 805837DEST_PATH_IMAGE040
7)
Figure 792248DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE103
Figure 128289DEST_PATH_IMAGE104
8)
Figure 100924DEST_PATH_IMAGE038
Figure 402592DEST_PATH_IMAGE103
Figure DEST_PATH_IMAGE105
Figure 966429DEST_PATH_IMAGE043
其中, qa/b是飞机a与飞机b的相对航向角,其定义为:
Figure 760073DEST_PATH_IMAGE044
Figure 395453DEST_PATH_IMAGE046
这里的
Figure 456688DEST_PATH_IMAGE048
是飞机a与飞机b之间的连线与横坐标轴之间的夹角,
Figure 457005DEST_PATH_IMAGE050
是飞机a、b 的朝向角,Tab和Tba是只取0或1的变量,目的是控制qa/b与qb/a的取值范围在
Figure 596999DEST_PATH_IMAGE052
之间 ,
Figure 177016DEST_PATH_IMAGE054
是飞机a与飞机b之间的最小安全角度,其定义为:
Figure 718856DEST_PATH_IMAGE106
其中,r是飞机的安全半径,D为飞机a与飞机b距离。
其中对深度神经网络的训练包括以下步骤:
01)采集开始时刻所有飞机的坐标以及朝向角信息
Figure DEST_PATH_IMAGE107
, 其中n为飞机的数量;数据的储存形式为
Figure 827757DEST_PATH_IMAGE060
02)把当前状态
Figure 455048DEST_PATH_IMAGE062
,即
Figure 806133DEST_PATH_IMAGE013
,作为策略神经网络
Figure DEST_PATH_IMAGE108
的输入,计算在当前状态
Figure 874583DEST_PATH_IMAGE062
下所采取的动作
Figure DEST_PATH_IMAGE109
,即偏转角度,再运用上述线性规 划的方法来判断该动作
Figure 216702DEST_PATH_IMAGE109
是否满足不冲突的条件,若满足不冲突的条件,则得到采取该动 作后的回报值
Figure DEST_PATH_IMAGE110
,然后观察得到的下一个状态
Figure DEST_PATH_IMAGE111
,并按时间步长更新所有飞机的坐标及 朝向角,并判断是否可进行第二次偏转,如果可以偏转则偏转到达目的地,若不能偏转则继 续按时间步长更新坐标及朝向角信息,回报值
Figure DEST_PATH_IMAGE112
,其中
Figure DEST_PATH_IMAGE113
是控制 飞机的第一次偏转角与第二偏转角;若不满足不冲突的条件,则获得采用该动作下的回报 值
Figure 174032DEST_PATH_IMAGE070
,然后观察得到的下一个状态
Figure 954906DEST_PATH_IMAGE072
,然后把
Figure DEST_PATH_IMAGE114
存储下来,作为经验回 放的数据;
03)从存储下来的数据里随机抽取一定数量的样本,表示为
Figure 877863DEST_PATH_IMAGE081
,进行小批量 的学习。计算
Figure 922042DEST_PATH_IMAGE082
,其中
Figure DEST_PATH_IMAGE115
分别代表了目标网 络的权重,
Figure DEST_PATH_IMAGE116
代表折扣因子;根据最小损失函数
Figure DEST_PATH_IMAGE117
来更新评价网 络的权重
Figure DEST_PATH_IMAGE118
04)通过梯度
Figure DEST_PATH_IMAGE119
来更新策略网络的权 重
Figure 976455DEST_PATH_IMAGE011
05)通过
Figure DEST_PATH_IMAGE120
更新目标网 络的权重;
所述步骤四中,实例中神经网络的输入为所有飞机的坐标与朝向角,即为
Figure 701965DEST_PATH_IMAGE013
,n为飞机数量,i为飞机的编号;神经网络的输出 为当前状态
Figure DEST_PATH_IMAGE121
下所采取的动作
Figure DEST_PATH_IMAGE122
,本发明中动作
Figure DEST_PATH_IMAGE123
表示飞机偏转的角度;根据初始所定 义的参数,本实施实例中飞机的偏转角
Figure DEST_PATH_IMAGE124
,其中
Figure DEST_PATH_IMAGE125
所述步骤五中,根据控制飞机的坐标与终点坐标生成一条运动轨迹,判断此轨迹是否与其他飞机的运动轨迹是否重合,若不重合则使控制飞机偏转到达目的地,若重合则按时间步长更新所有飞机的坐标及朝向角,然后再次重复上述过程。
在本实施例中,根据状态的输入,可在300ms内快速生成不冲突的最短路径,效率明显优于现有方法,如图4所示。
最后应当说明的是,上述实例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应该理解:依然可以对本发明的具体实施方式进行修改或等同替换,都不脱离本发明技术方案的精神和范围,其都应包含在本发明的权利要求范围内。

Claims (3)

1.一种基于强化学习与线性规划的快速空管防冲突方法,其特征在于,包含以下步骤:
步骤一,设置扇区内外飞机的数量,并对所有的飞机进行编号,获取所有飞机在开始时刻的坐标以及朝向角;
步骤二,获取所有飞机的动态参数并将其中的一些参数做规则化处理,利用这些参数来构建飞机深度强化学习模型,将所有飞机的坐标和朝向角作为该深度强化学习模型的输入,控制飞机的偏转角作为该深度强化学习模型的输出;
步骤三,使用DDPG算法训练该深度强化学习模型,在训练过程中利用线性规划对神经网络的输出进行选择,优化输出结果,最后经过海量的训练得到训练好的深度神经网络;
步骤四,将所有飞机的坐标和朝向角作为训练好的深度神经网络的输入,得到控制飞机的偏转角度;
步骤五,根据步骤四中所得偏转角,控制飞机按照偏转后的方向继续飞行,更新当前时刻控制飞机的坐标以及朝向角,根据当前时刻所有飞机的坐标和朝向角,判断控制飞机是否可以进行第二次偏转,如果可以进行第二次偏转则偏转到达目的地,否则继续更新飞机的坐标及朝向角。
2.根据权利要求1所述的基于强化学习与线性规划的快速空管防冲突方法,其特征在 于,所述步骤二中,根据飞机的飞行速度、飞机的最大偏转角和最小偏转角以及飞机的数 量,获取飞机速度的约束集和偏转方向的约束集;将每架飞机的信息规则化为一个二元组, 该二元组包含的信息为:飞机编号、飞机状态;其中飞机状态又分为飞机的坐标和朝向角; 搭建DDPG算法中两对结构相同但参数不同的神经网络:策略网络
Figure 945110DEST_PATH_IMAGE001
以及它的目标 网络
Figure 518043DEST_PATH_IMAGE002
,价值网络
Figure 94518DEST_PATH_IMAGE003
以及它的目标网络
Figure 145519DEST_PATH_IMAGE004
,策略网络
Figure 22209DEST_PATH_IMAGE001
用于计算当前状态s下所采用的动作a,动作a表示为控制飞机偏转的角度,价值 网络
Figure 113180DEST_PATH_IMAGE005
是用来计算在状态s下采取动作a的Q值,并用这个Q值来更新策略网络的参 数
Figure 504847DEST_PATH_IMAGE006
;神经网络的输入层为飞机的坐标信息以及朝向角,即
Figure 359540DEST_PATH_IMAGE007
, 其中
Figure 621894DEST_PATH_IMAGE008
分别为飞机在二维坐标系中的坐标及朝向角,n为扇区内外飞机的数量;神经 网络的输出为当前状态s下所采用的动作a;飞机的偏转角度
Figure 677574DEST_PATH_IMAGE009
,其中
Figure 780308DEST_PATH_IMAGE010
分别 为飞机偏转角度的最小值与最大值。
3.根据权利要求1所述的基于强化学习与线性规划的快速空管防冲突方法,其特征在 于,所述步骤四中,将当前时刻所有飞机的坐标以及朝向角信息
Figure 845216DEST_PATH_IMAGE011
, 输入到训练好的神经网络中,用当前神经网络计算当前状态s下的动作a,并执行动作a,即 计算出控制飞机的偏转角,并根据控制飞机的偏转角,使其向偏转后的角度飞行。
CN202011040999.4A 2020-09-28 2020-09-28 一种基于强化学习与线性规划的快速空管防冲突方法 Active CN111882047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040999.4A CN111882047B (zh) 2020-09-28 2020-09-28 一种基于强化学习与线性规划的快速空管防冲突方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040999.4A CN111882047B (zh) 2020-09-28 2020-09-28 一种基于强化学习与线性规划的快速空管防冲突方法

Publications (2)

Publication Number Publication Date
CN111882047A true CN111882047A (zh) 2020-11-03
CN111882047B CN111882047B (zh) 2021-01-15

Family

ID=73199820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040999.4A Active CN111882047B (zh) 2020-09-28 2020-09-28 一种基于强化学习与线性规划的快速空管防冲突方法

Country Status (1)

Country Link
CN (1) CN111882047B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113406957A (zh) * 2021-05-19 2021-09-17 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113485103A (zh) * 2021-06-29 2021-10-08 四川大学 一种基于深度强化学习的航空器冲突解脱方法
CN114114898A (zh) * 2022-01-27 2022-03-01 北京航空航天大学 空空弹pid参数整定方法、装置、电子设备及存储介质
CN114141062A (zh) * 2021-11-30 2022-03-04 中国电子科技集团公司第二十八研究所 一种基于深度强化学习的航空器间隔管理决策方法
CN116580602A (zh) * 2023-07-13 2023-08-11 四川大学 一种场面飞机滑行冲突预测与可视化方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9132913B1 (en) * 2013-09-26 2015-09-15 Rockwell Collins, Inc. Simplified auto-flight system coupled with a touchscreen flight control panel
CN107168380A (zh) * 2017-06-28 2017-09-15 西安电子科技大学 一种基于蚁群算法的无人机群区域覆盖的多步寻优方法
US20180005531A1 (en) * 2016-06-30 2018-01-04 The Mitre Corporation Systems and methods for departure routing
CN109407705A (zh) * 2018-12-14 2019-03-01 厦门理工学院 一种无人机躲避障碍物的方法、装置、设备和存储介质
CN109983180A (zh) * 2016-12-13 2019-07-05 韩国航空宇宙研究院 无人机起降系统
CN110084414A (zh) * 2019-04-18 2019-08-02 成都蓉奥科技有限公司 一种基于k次控制深度强化学习的空管防冲突方法
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN111026157A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111278704A (zh) * 2018-03-20 2020-06-12 御眼视觉技术有限公司 用于导航车辆的系统和方法
CN111353606A (zh) * 2020-02-29 2020-06-30 中国电子科技集团公司第五十二研究所 一种基于模糊决策树的深度强化学习空战博弈解释方法和系统
CN111368383A (zh) * 2018-12-07 2020-07-03 上海航空电器有限公司 一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法
EP3693948A1 (en) * 2019-02-08 2020-08-12 Honeywell International Inc. Detect and avoid integration with controller pilot data link communications (cpdlc)

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9132913B1 (en) * 2013-09-26 2015-09-15 Rockwell Collins, Inc. Simplified auto-flight system coupled with a touchscreen flight control panel
US20180005531A1 (en) * 2016-06-30 2018-01-04 The Mitre Corporation Systems and methods for departure routing
CN109983180A (zh) * 2016-12-13 2019-07-05 韩国航空宇宙研究院 无人机起降系统
CN107168380A (zh) * 2017-06-28 2017-09-15 西安电子科技大学 一种基于蚁群算法的无人机群区域覆盖的多步寻优方法
CN111278704A (zh) * 2018-03-20 2020-06-12 御眼视觉技术有限公司 用于导航车辆的系统和方法
CN111368383A (zh) * 2018-12-07 2020-07-03 上海航空电器有限公司 一种基于深度强化学习的战斗机自动近地防撞系统碰撞评估方法
CN109407705A (zh) * 2018-12-14 2019-03-01 厦门理工学院 一种无人机躲避障碍物的方法、装置、设备和存储介质
EP3693948A1 (en) * 2019-02-08 2020-08-12 Honeywell International Inc. Detect and avoid integration with controller pilot data link communications (cpdlc)
CN110084414A (zh) * 2019-04-18 2019-08-02 成都蓉奥科技有限公司 一种基于k次控制深度强化学习的空管防冲突方法
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN111026157A (zh) * 2019-12-18 2020-04-17 四川大学 一种基于奖励重塑强化学习的飞行器智能引导方法
CN111353606A (zh) * 2020-02-29 2020-06-30 中国电子科技集团公司第五十二研究所 一种基于模糊决策树的深度强化学习空战博弈解释方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A. ALONSO-AYUSO等: "On modeling the air traffic control coordination in the collision avoidance problem by mixed integer linear optimization", 《ANNALS OF OPERATIONS RESEARCH》 *
HAN WEN等: "Application of DDPG-based Collision Avoidance Algorithm in Air Traffic Control", 《2019 12TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113406957A (zh) * 2021-05-19 2021-09-17 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113406957B (zh) * 2021-05-19 2022-07-08 成都理工大学 基于免疫深度强化学习的移动机器人自主导航方法
CN113485103A (zh) * 2021-06-29 2021-10-08 四川大学 一种基于深度强化学习的航空器冲突解脱方法
CN114141062A (zh) * 2021-11-30 2022-03-04 中国电子科技集团公司第二十八研究所 一种基于深度强化学习的航空器间隔管理决策方法
CN114141062B (zh) * 2021-11-30 2022-11-01 中国电子科技集团公司第二十八研究所 一种基于深度强化学习的航空器间隔管理决策方法
CN114114898A (zh) * 2022-01-27 2022-03-01 北京航空航天大学 空空弹pid参数整定方法、装置、电子设备及存储介质
CN116580602A (zh) * 2023-07-13 2023-08-11 四川大学 一种场面飞机滑行冲突预测与可视化方法
CN116580602B (zh) * 2023-07-13 2023-10-03 四川大学 一种场面飞机滑行冲突预测与可视化方法

Also Published As

Publication number Publication date
CN111882047B (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN111882047B (zh) 一种基于强化学习与线性规划的快速空管防冲突方法
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN108681787B (zh) 基于改进双向快速扩展随机树算法的无人机路径优化方法
CN109947136B (zh) 一种面向无人机群体快速目标搜索的协同主动感知方法
CN108153328B (zh) 一种基于分段贝塞尔曲线的多导弹协同航迹规划方法
CN112947592B (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN110084414B (zh) 一种基于k次控制深度强化学习的空管防冲突方法
CN114397896A (zh) 一种改进粒子群算法的动态路径规划方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN113156954A (zh) 一种基于增强学习的多智能体集群避障方法
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN111596668A (zh) 基于逆向强化学习的移动机器人拟人化路径规划方法
Wang et al. Design of agent training environment for aircraft landing guidance based on deep reinforcement learning
CN116562332B (zh) 一种人机共融环境下的机器人社交性运动规划方法
CN117387635A (zh) 一种基于深度强化学习和pid控制器的无人机导航方法
CN113064422A (zh) 基于双神经网络强化学习的自主水下航行器路径规划方法
CN114371729B (zh) 一种基于距离优先经验回放的无人机空战机动决策方法
CN115479608A (zh) 一种基于时间属性的终端区进场航空器四维航迹规划方法
CN112698666B (zh) 一种基于气象栅格的飞行器航路优化方法
CN114997306A (zh) 一种基于动态贝叶斯网络的目标意图识别方法
CN114253285A (zh) 一种多飞行器协同队形集结方法
CN117873118B (zh) 一种基于sac算法与控制器的仓储物流机器人导航方法
CN117193378B (zh) 基于改进ppo算法的多无人机路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant