CN114254567A

CN114254567A - 一种基于Muti-Agent与强化学习的机场融合仿真方法

Info

Publication number: CN114254567A
Application number: CN202111640102.6A
Authority: CN
Inventors: 周院进; 朱婉艺
Original assignee: Beijing Boneng Technology Co ltd
Current assignee: Beijing Boneng Technology Co ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-03-29

Abstract

本发明提供一种基于Muti‑Agent与强化学习的机场融合仿真方法，包括以下步骤：构建道路Agent、交叉口Agent、模拟信号灯Agent、车辆Agent和航空器Agent；对所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent、所述航空器Agent与环境的交互进行强化学习，以实现机场融合仿真。本发明的基于Muti‑Agent与强化学习的机场融合仿真方法基于多Agent和强化学习实现机场交通的实时融合仿真，有效提升了机场运行中的跑道监控、路由规划及冲突探测与解脱。

Description

一种基于Muti-Agent与强化学习的机场融合仿真方法

技术领域

本发明涉及数字仿真的技术领域，特别是涉及一种基于Muti-Agent与强化学习的机场融合仿真方法。

背景技术

随着机场地面交通流量的日益增长，布局也日益复杂，导致机场地面交通的需求与供给之间的矛盾日益突出，从而对机场对地面交通系统的效率有进一步的要求。地面交通系统属于复杂的混杂系统。因此，利用计算机进行空中交通的运行仿真成为一种有效的研究方向。

Agent是代表用户和其他程序，以主动服务的方式完成一组操作的机动计算实体。智能Agent不能在环境中单独存在，而要与多个智能Agent在同一环境中协同工作，协同的手段是相互通信，但每个智能Agent都是主动的、自治的工作。

具体地，Agent是一种处于一定环境下的计算机系统，能在该环境下灵活地、自主地活动，其提供了一种远程智能程序设计的方法。多Agent系统放松了对集中式、规划、顺序控制的限制，提供了分散控制、应急和并行处理，且多Agent系统可以降低软件或硬件的费用，提供更快速的问题求解。

Agent系统具有以下的基本特性：

(1)自治性，即Agent能够在没有人或其他Agent干预下完成其大部分功能，控制其内部状态；

(2)可通信性，即Agent能够通过某种Agent通信语言和其他Agent或人交互，以实现其目标；

(3)反应性，即Agent能感知周围环境并对其间的变化产生实时响应，这些动作的执行可以基于触发规则和预定义的执行计划；

(4)能动性，即Agent能够主动地进行基于自身目标和信念的活动，就是说Agent感知周围环境变化，并做出基于目标的行为；

(5)可移动性、学习能力、推理能力、规划能力、合理性、协作和协商的能力等。

Agent模型结构作为技术的基础，是目前相关研究的主要领域之一。通常Agent模型的结构包含如下几个部分感应器、决策控制器、精神状态、知识库、通信器等。其中BDI(Belief Desire Intention)模型是一个被普遍接受的模型，侧重于形式描述信念、愿望和意图，其本质上要解决的问题是如何确定Agent的目标以及如何实现这个目标。具体地，BDI模型包含以下三个基本成分：

1)信念：是一个包括了对世界相关的信念、与其他思维趋向相关的信念和自我相关的信念的集合。信念是对世界的认知包含描述环境特性的数据和描述自身功能的数据是进行思维活动的基础。

2)愿望：是的最初动机，是其希望达到的状态或希望保持的状态的集合。Agent希望达到的状态，由此可以激发系统的规划和行动。一般来说可以表达为Agent对环境状态的一种期待和判断，也就是通过判断该状态是否成立，作为是否实现的标志。可以拥有互不相容的愿望，而且也不需要相信它的愿望是绝对可以实现的。

3)意图：是承诺实现的愿望中，选取的当前最需要完成或者最适合完成的一个，是将要正在实现的目标，它是属于思维状态的意向方向。当前意图对的当前动作具有指导性的作用。

多Agent系统是由多个可以相互交互的，称为Agent的计算单元所组成的系统。Agent作为计算机系统具有两种重要的能力；1)每个Agent至少在某种程度上可以自治行动，由它们自己决定需要采取什么行动以实现其设计目标；2)每个Agent可以与其他Agent进行交互，这种交互不是简单地交换数据，而是参与某种社会行为。

因此，如何基于多Agent实现机场的融合仿真成为当前的热点研究课题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于Muti-Agent与强化学习的机场融合仿真方法，基于多Agent和强化学习实现机场交通的实时融合仿真，有效提升了机场运行中的跑道监控、路由规划及冲突探测与解脱。

为实现上述目的及其他相关目的，本发明提供一种基于Muti-Agent与强化学习的机场融合仿真方法，包括以下步骤：构建道路Agent、交叉口Agent、模拟信号灯Agent、车辆Agent和航空器Agent；对所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent、所述航空器Agent与环境的交互进行强化学习，以实现机场融合仿真。

于本发明一实施例中，所述道路Agent包括感知单元、知识库、路段的基本属性单元、决策单元和通信单元；所述感知单元用于采集路段的交通数据，所述知识库用于存储路段交通评价方法，所述路段的基本属性单元用于存储路段的基本属性；所述决策单元用于基于所述知识库、所述路段的基本属性单元和所述感知单元提供的信息来对路段的交通情况进行评价，所述通信单元用于分别与所述航空器Agent、所述车辆Agent、所述交叉口Agent、所述信号灯Agent建立通信。

于本发明一实施例中，所述交叉口Agent用于根据经过车辆的行驶计划判断行驶路线的可行性。

于本发明一实施例中，所述模拟信号灯Agent用于实现信号灯调节，并与对应的交叉口Agent以及所述交叉口相关联的道路Agent进行通信。

于本发明一实施例中，所述车辆Agent包括感知器、车辆属性单元、行车计划单元和知识库；所述感知器用于感受车辆外界的刺激及环境的变化；所述车辆属性单元用于存储车辆属性信息；所述行车计划单元用于生成指车辆当前的驾驶路线，所述知识库用于存储车辆智能体所具有的知识、事实、控制规则及从外界获取的数据信息。

于本发明一实施例中，所述航空器Agent包括感知器、航空器属性单元、滑行路径单元和知识库；所述感知单元用来感受航空器外界的刺激及环境的变化；所述航空器属性单元用于存储航空器属性信息；所述滑行路径单元用于生成航空器的当前的驾驶路线；所述知识库用于存储航空器智能体所具有的知识、事实、控制规则及从外界获取的数据信息。

于本发明一实施例中，所述强化学习采用基于混合竞争的随机博弈；所述随机博弈采用纳什均衡策略。

于本发明一实施例中，所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent和所述航空器Agent分别在其他Agent的行为条件下选择自己的行动策略，使得所有Agent的策略都到达纳什均衡状态。

于本发明一实施例中，设定Agentⁱ表示第i个Agent，r_i表示Agentⁱ的奖励函数，Agentⁱ的目标是选择一个策略π_i，使目标函数

最大化，其中其中E表示数学期望，t表示t时刻，π_i,t表示Agentⁱ在t时刻的目标策略，π_-i,t表示其他Agent在t时刻的目标策略，x_t表示t时刻的环境状态空间，γ表示衰减系数。

于本发明一实施例中，定义每一个控制模拟信号灯变化的行为主体是Agentⁱ，π_i为Agentⁱ所有可接受的模拟信号灯时长控制策略，目标奖励R_i是所有Agent在整个交通环境下的拥堵程度，需满足N_u{r(x,u)+γ_i,E_{x'～p(·|x,u)}[V(x'；π_i,π_-i)]}，其中N表示纳什算子，x表示agent的当前状态，x’表示下一时刻agent的状态，u表示联合动作选择策略，γi表示Agentⁱ的衰减系数，E表示数学期望，p表示概率，V表示价值函数，r表示奖励函数，πi表示Agentⁱ的目标策略，π_-i表示其他Agent的目标策略。

如上所述，本发明的基于Muti-Agent与强化学习的机场融合仿真方法，具有以下有益效果：

(1)通过五类Agent、Agent之间的通信、Agent与环境的交互来构建机场地面交通系统，结合强化学习实现了机场交通实时融合仿；

(2)降低了地面交通系统冲突；

(3)有效提升了机场运行中的跑道监控、路由规划及冲突探测与解脱。

附图说明

图1显示为本发明的基于Muti-Agent与强化学习的机场融合仿真方法方法于一实施例中的流程图；

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明的基于Muti-Agent与强化学习的机场融合仿真方法基于多Agent和强化学习实现机场交通的实时融合仿真，有效提升了机场运行中的跑道监控、路由规划及冲突探测与解脱。其中，基于多Agent的建模仿真将大的复杂系统建造成小的、彼此相互通讯及协调的、易于管理的，并利用的局部连接规则、函数和局部细节模型的整体模型，其具有如下特点：(1)从所讨论系统的低层次进行研究涉及Agent的数量较多；(2)Agent具有一定的智能，各Agent之间存在局部连接规则；(3)通过Agent相互作用的局部细节模型仿真能体现系统宏观上的特性；(4)通过Agent与Agent之间与环境间的动态交互，系统模型就能够很好地达到模型随着状态和环境变化而产生动态变化的要求；(5)通过增减Agent的数量、Agent的种类、修改Agent的规则就能够实现模型开放性的目的。

如图1所示，于一实施例中，本发明的基于Muti-Agent与强化学习的机场融合仿真方法包括以下步骤：

步骤S1、构建道路Agent、交叉口Agent、模拟信号灯Agent、车辆Agent和航空器Agent。

具体地，采用多Agent理论对微观交通仿真系统进行建模首先要对该系统进行分析和合理的功能划分。在本发明中，机场微观交通仿真系统是由车辆、航空器、路段、交叉口、模拟信号灯等构成的一个非常复杂的大系统。构成所述机场微观交通仿真系统的各交通元素在整个仿真系统中扮演不同的角色所起的作用也不尽相同。根据各交通元素的特点及扮演角色的不同，所述机场微观交通仿真系统可划分为道路Agent、交叉口Agent、模拟信号灯Agent、车辆Agent、航空器Agent等。

具体地，当车辆、航空器运行在路网中时，需要实时地获取其周围路况情况，如前方车辆、航空器的速度、位置等交通信息，航空器进、离场可行滑行路由的规划及分配，滑行路由冲突的探测和解脱，以及相邻车道的路况和相邻车辆的运行状态等交通信息。上述信息的获取需要信号灯、前方车辆、相邻车道等多方面的参与。若要一一建模，必然会增加系统的负担。因此，本发明的道路Agent作为所有这些信息交换的载体，所有交通行为的参与者不再直接通信，而是通过道路Agent作为中介，可以提高信息的共享减轻系统的负担。道路Agent和交叉口Agent在现实交通的载体就是车辆行驶的路段和交叉口，有了这两个Agent，车辆Agent不再将其信息广播给其它Agent，而是与其所在的路段Agent和交叉口Agent通信，这样就可以减少系统的通信压力，满足系统实时性的要求。于本发明一实施例中，所述道路Agent包括感知单元、知识库、路段的基本属性单元、决策单元和通信单元。所述感知单元用于采集路段的交通数据，如传感器采集的车辆数量和当前的运行位置，以及用来反应路面交通情况的数据如车辆密度、平均速度、是否事故发生等。所述知识库用于存储路段交通评价方法，所述路段的基本属性单元用于存储路段的基本属性。所述决策单元用于基于所述知识库、所述路段的基本属性单元和所述感知单元提供的信息来对路段的交通情况进行评价，所述通信单元用于分别与所述航空器Agent、所述车辆Agent、所述交叉口Agent、所述信号灯Agent建立通信。

于本发明一实施例中，所述交叉口Agent用于根据经过车辆的行驶计划判断行驶路线的可行性。具体地，当车辆到达交叉口时，车辆告诉交叉口自身的行驶计划，交叉口根据其行驶目的判断其行驶路线，并判断该路线是否可以通行，然后告诉车辆是否可以通行。其中，通过统计交叉口对各方向的车辆排队长度、车辆平均延误等指标，为信号灯调整信号控制策略提供依据，并记录冲突。

于本发明一实施例中，所述模拟信号灯Agent用于实现信号灯调节，并与对应的交叉口Agent以及所述交叉口相关联的道路Agent进行通信。具体地，模拟信号灯Agent的主要功能是进行信号调节，控制交通流的有序运转。模拟信号灯Agent之间可以交互通信，同时还可与它所对应的交叉口Agent以及该交叉口相关联的道路Agent进行通信。其中，模拟信号灯Agent将自己的信号状态传递给交叉口Agent和道路Agent；同时从交叉口Agent和道路Agent获取交通流信息，用来动态调整自己的信号控制策略。模拟信号灯Agent动作定义为：调整每阶段绿灯时长，不改变阶段顺序，且每阶段绿灯时长受最大最小绿灯时间的限制，直右交通流向分配到的绿灯时间与左转交通流向分配到的绿灯时间的单位扩展长度不同。

于本发明一实施例中，所述车辆Agent包括感知器、车辆属性单元、行车计划单元和知识库；所述感知器用于感受车辆外界的刺激及环境的变化，相当于实际智能车辆上所具有的各种传感器在此处为一些功能函数所组成的一些虚拟传感器。所述车辆属性单元用于存储车辆属性信息，如车辆属性，车号、位置、速度、加速度、方向、车宽、最高速度、目的地等车辆的一些属性。所述行车计划单元用于生成指车辆当前的驾驶路线，车辆进入路网之后根据出发地和目的地的属性自动生成行车计划。所述知识库用于存储车辆智能体所具有的知识、事实、控制规则及从外界获取的数据信息，是智能体进行决策的基础。

所述感知器中的驾驶行为模块是车辆智能体模型中最核心的部件，具有对外界信息进行感知、根据情绪做出驾驶行为决策、执行决策等功能，主要包括自由驾驶控制、跟驰控制和换道行为控制等。具体地，当车辆处于运动状态时，其表现状态可能多种多样。归结起来，车辆在运动状态下主要有以下三种行为，即自由行驶、跟驰行驶和换道行驶。

自由行驶的发生条件是车辆与前车之间的距离很远，即两车间距远大于车辆的安全距离，即保证安全的最小车距。因此，也可将自由行驶也归类为跟驰行为，这是因为自由行使状态可以看作是跟驰状态的特例，即车辆与前车距离很大，此种情形完全能够保证车辆可以在一段时间内一直加速而不必考虑碰撞的危险。此时能限制车辆行驶速度的只有驾驶人的意愿和车辆的性能。

跟驰行驶下，车辆与前车距离适中，即车间距在安全距离范围外，但两车间距又不是太大，前车的速度能明显影响到后车。这时车辆的运行就好像是跟着前车，前车快了它也快，前车慢了它也慢。如何判定跟驰状态的临界值是车辆跟驰研究中的关键，根据大量实测数据，计算得出5s为跟驰状态车辆车头时距的最大值；8s为自由行驶状态下车辆车头时距的最小临界点；过渡状态下的车辆的车头时距在5到8s之间。优选地，当车头间距小于50m时，判定车辆处于跟驰状态。IDM模型对仿真车辆加速度的描述比较自然和平滑，它能够根据前车状态较好的描述后车的速度变化，对车辆在跟驰过程中的加速和减速过程的处理也较符合实际。因此，以智能驾驶模型为基础来构建车辆跟驰行为的数学模型。交通中对车辆行为的影响不仅仅由单个车辆本身引起，还包含它的周围车辆，各类交通控制信息和交通系统的影响。因此，在车辆的加速度数学模型中对这些影响车辆行为的因素加以考虑，而由于道路情况和环境因素对车辆的影响主要表现在不同路况和外部条件下造成车辆行驶的便利性不同，但这些因素并不影响车辆的本质行为，所以对车辆行为影响的主要因素就在于驾驶员和车辆本身，具体到实现模型中则通过车辆的期望车速、驾驶员行驶过程中可容忍的最大减速度、驾驶员的制动反应时间和利他程度来分别模拟驾驶，即倾向于高速或低速行驶、对超车的容忍度和对整体交通的考虑程度。通过最小安全车距、驾驶员能达到的最大加速度来模拟车辆本身特性对车辆行为的影响，从而通过加入以上参数在车辆加速度数学模型中就可以使车辆的行为变化更加符合实际情况。

换道行驶是指当车辆行驶的道路不止有一个车道时，车辆可能发生换道行为。根据车辆发生换道行为的原因的不同可以将换道行为分为强制换道和自由换道。本发明采用MOBIL标准模型，不再赘述。

于本发明一实施例中，所述航空器Agent包括感知器、航空器属性单元、滑行路径单元和知识库。所述感知单元用来感受航空器外界的刺激及环境的变化，相当于实际智能航空器上所具有的各种传感器在此处为一些功能函数所组成的一些虚拟传感器。所述航空器属性单元用于存储航空器属性信息，如航空器应有航班号、飞机注册号、飞机机型、经纬度坐标、坐标、爬升/下降率、速度、高度、始发机场、目的机场等属性。所述滑行路径单元用于生成航空器的当前的驾驶路线，所包含的功能应包括申请进场/离场/穿越跑道许可、预测和报告自身航迹、执行管制指令、信息存储与交互等，所包含的结构模块有航迹预测模块、航迹监视模块、管制指令执行模块、数据存储、通讯交互管理模块等。所述知识库用于存储航空器智能体所具有的知识、事实、控制规则及从外界获取的数据信息，是进行决策的基础。

步骤S2、对所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent、所述航空器Agent与环境的交互进行强化学习，以实现机场融合仿真。

具体地，强化学习是通过构建Agent，经过与环境互动，逐渐获得智能的过程。强化学习的特点是：“没有监督数据、只有奖励信号”，并且奖励信号很可能延后，不是实时的。在强化学习中，一个Agent和环境进行互动，观察t时刻环境O_t，不断地强化(增强)自己的行为从而获得更高收益。Agent在当前状态S_t下根据策略π来选择动作A_t。环境收到动作A_t并转移到下一状态S_t+1，Agent接收环境反馈回来的奖励信息R_t，并根据自身策略选择下一步动作。所以，强化学习可以在没有监督信号的情况下，能够在未知的环境中探索出“高收益”的策略。

马尔可夫决策过程(MDP)是序贯决策的数学模型，贯穿了整个强化学习。用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。MDP基于一组交互对象，即智能体和环境进行构建，所具有的要素包括状态、动作、策略和奖励。在MDP的模拟中，智能体会感知当前的系统状态，按策略对环境实施动作，从而改变环境的状态并得到奖励，奖励随时间的积累被称为回报。

多个Agent强化学习，即MARL的过程是一个博弈的过程。MARL的定义为：多个Agent共同解决自身问题，从而解决一个大问题的过程。这种超过一个Agent的多Agent强化学习就是多智能体强化学习。MARL的理论的组成部分：1.随机博弈(Stochastic Game，SG)，也称作马尔可夫博弈，其具体组成元素表示为：<S，An，Rn，P>，其中n表示Agent的数量；S是状态空间；A是所有Agent联合动作空间集合：An＝A1×...An；Rn是每个Agent的奖励函数：Rn＝(R1，R2，...，Rn)；P是状态转移概率函数P∈[0，1]。在多Agent的情况下，整体状态转移是多个Agent共同行为的结果，所以奖励也取决于共同的行为。

按照任务类型，基于随机博弈的MARL可以分为以下三种类型：

(1)完全合作

每个Agent的奖励函数都一样R1＝R2＝···＝Rn，多Agent的目标就是最大化共同回报。

(2)完全竞争

如果Agent的数量n＝2，R1＝-R2，即奖励函数R1的奖励函数和R2相反。

(3)混合合作竞争

存在既不完全竞争也不完全合作的策略，Agent的奖励不受约束。

在本发明中，所述强化学习采用基于混合竞争的随机博弈。各个Agent是一个混合合作竞争的关系，车辆与车辆Agent之间、车辆Agent与航空器Agent既有竞争关系也有合作关系，在车道Agent占用以及信号灯决策方面Agent属于竞争关系，每个Agent都希望自己的奖励函数是最大的。但在整个机场交通场景中，各个Agent又需要相互协作妥协，达到整体延误最低、耗时最低的结果。

混合竞争是一个纳什均衡的过程。纳什均衡是指在包含两个或以上参与者的非合作中，假设每个参与者都知道其他参与者的均衡策略的情况下，没有参与者可以通过改变自身策略使自身受益时的一个概念解。纳什均衡定义了这样一种状态：只要其他参与者不改变自己的策略的情况下，没有任何一个参与者可以通过改变策略获得更多的收益。任何静态的博弈至少有一个纳什均衡。纳什均衡的定义为在博弈G＝(u₁，...，u_n；r₁，...，r_n)中，如果动作组合u₁，...，u_n中任一个参与者i的策略ui，都是对其余参与者动作的组合(u₁，...，u_i-1，u_i+1，...，u_n)的最佳对策

则称(u^* ₁，...u^* _n)是G的纳什均衡策略。简单来说，每一个参与者的动作a(a∈A)，在

的策略下，其他参与者的策略是π^*-a，获得最大的奖励R。通常达到纳什均衡点许多进行多次尝试，最终达到每个参与者已经收敛到纳什均衡没有动力激励任何一个参与方改变策略。因此，所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent和所述航空器Agent分别在其他Agent的行为条件下选择自己的行动策略，使得所有Agent的策略都到达纳什均衡状态。

定义随机博弈的元组：G＝{X，U，R，A，N，γ}，其中X为环境状态空间；U为联合动作空间；A为单个Agent的动作空间；N为Agent的个数；R为目标奖励函数。以第i个Agent为例，Agentⁱ状态x∈X，行为a∈A，联合动作为u_a∈U，奖励函数r_i(s，u，a)，其中s表示当前状态。使用u_i，t∈U表示t时刻Agenti的动作，u_-i，t表示t时刻，除了Agentⁱ之外的所有动作集合，u_t表示t时候所有Agent的动作集合。假设博弈过程是马尔可夫决策过程(MDP)；奖励函数在t时刻为ri(x_t，u_i，t，u_-i，t)。Agentⁱ根据确定性的马尔可夫选择行动策略π_i(x)(x∈X)。Agentⁱ的目标是选择一个策略π，最大化目标函数

其中t表示t时刻，π_i,t表示Agentⁱ在t时刻的目标策略，π_-i,t表示其他Agent在t时刻的目标策略，x_t表示t时刻的环境状态空间，E表示数学期望，是指从一个状态转移到另一个状态时能够获得的奖励的期望，通常定义为离开某一状态或进入某一状态得到的奖励。γ表示衰减系数(discount factor)，因为从初始状态S出发，经过一系列的状态转移最终达到终点，得到了一条路径，每次状态转移都会有一个R，所以最终G就表示从s开始一直到终点的所有R之和。因为离s越远的地方一般影响较小，所以增加了γ。γ∈[0，1]，表示越靠近当下的奖励，对总体结果的影响较大。γ体现了未来的奖励在当前时刻的价值比例，γ接近0，则表明趋向于对于眼前利益的看重；γ接近1，则表明偏重考虑远期的利益。，因此，目标函数的结果是基于每一个Agent的策略选择。每一个Agent智能控制自己的行动策略，但是需要在其他Agent的行为条件下选择自己的行动策略。Agentⁱ寻求一种在其他Agent行为稳定的情况下，优化目标函数的行为。最后所有Agent的策略都到达纳什均衡状态R_i(x；π_i,π^* _-i)≤R_i(x；π_i ^*,π^* _-i)。其中，π_i为所有可接受的策略，π^* _i是Agentⁱ在其他Agent动作选择策略π^* _-i，下的目标函数值最大的策略，即达到纳什均衡点。

在基于纳什均衡和MARL的交通问题中，定义每一个控制模拟信号灯变化(时长)的行为主体是Agentⁱ(i∈N)；π_i为当前Agent(Agentⁱ)所有可接受的模拟信号灯时长控制策略，奖励R_i表示Agentⁱ和其他Agent(Agent_-i)在整个交通环境下的拥堵程度，在此表示为航班延误率以及航班冲突时间，以及车辆在交叉口等待的信息的总和，拥堵程度越低，奖励越大。于是需满足N_u{r(x,u)+γ_i,E_{x'～p(·|x,u)}[V(x'；π_i,π_-i)]}，其中N表示纳什算子，x表示agent的当前状态，x’表示下一时刻agent的状态，u表示联合动作选择策略，γi表示Agentⁱ的衰减系数，E表示数学期望，p表示概率，V表示价值函数，r表示奖励函数，πi表示Agentⁱ的目标策略，π_-i表示其他Agent的目标策略。

综上所述，本发明的基于Muti-Agent与强化学习的机场融合仿真方法通过五类Agent、Agent之间的通信、Agent与环境的交互来构建机场地面交通系统，结合强化学习实现了机场交通实时融合仿；降低了地面交通系统冲突；有效提升了机场运行中的跑道监控、路由规划及冲突探测与解脱。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：包括以下步骤：

构建道路Agent、交叉口Agent、模拟信号灯Agent、车辆Agent和航空器Agent；

对所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent、所述航空器Agent与环境的交互进行强化学习，以实现机场融合仿真。

2.根据权利要求1所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述道路Agent包括感知单元、知识库、路段的基本属性单元、决策单元和通信单元；所述感知单元用于采集路段的交通数据，所述知识库用于存储路段交通评价方法，所述路段的基本属性单元用于存储路段的基本属性；所述决策单元用于基于所述知识库、所述路段的基本属性单元和所述感知单元提供的信息来对路段的交通情况进行评价，所述通信单元用于分别与所述航空器Agent、所述车辆Agent、所述交叉口Agent、所述信号灯Agent建立通信。

3.根据权利要求1所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述交叉口Agent用于根据经过车辆的行驶计划判断行驶路线的可行性。

4.根据权利要求1所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述模拟信号灯Agent用于实现信号灯调节，并与对应的交叉口Agent以及所述交叉口相关联的道路Agent进行通信。

5.根据权利要求1所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述车辆Agent包括感知器、车辆属性单元、行车计划单元和知识库；所述感知器用于感受车辆外界的刺激及环境的变化；所述车辆属性单元用于存储车辆属性信息；所述行车计划单元用于生成指车辆当前的驾驶路线，所述知识库用于存储车辆智能体所具有的知识、事实、控制规则及从外界获取的数据信息。

6.根据权利要求1所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述航空器Agent包括感知器、航空器属性单元、滑行路径单元和知识库；所述感知单元用来感受航空器外界的刺激及环境的变化；所述航空器属性单元用于存储航空器属性信息；所述滑行路径单元用于生成航空器的当前的驾驶路线；所述知识库用于存储航空器智能体所具有的知识、事实、控制规则及从外界获取的数据信息。

7.根据权利要求1所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述强化学习采用基于混合竞争的随机博弈；所述随机博弈采用纳什均衡策略。

8.根据权利要求7所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent和所述航空器Agent分别在其他Agent的行为条件下选择自己的行动策略，使得所有Agent的策略都到达纳什均衡状态。

9.根据权利要求8所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：设定Agentⁱ表示第i个Agent，r_i表示Agentⁱ的奖励函数，Agentⁱ的目标是选择一个策略π_i，使目标函数

最大化，其中E表示数学期望，t表示t时刻，π_i,t表示Agentⁱ在t时刻的目标策略，π_-i,t表示其他Agent在t时刻的目标策略，x_t表示t时刻的环境状态空间，γ表示衰减系数。

10.根据权利要求7所述的基于Muti-Agent与强化学习的机场融合仿真方法，其特征在于：定义每一个控制模拟信号灯变化的行为主体是Agentⁱ，π_i为Agentⁱ所有可接受的模拟信号灯时长控制策略，目标奖励R_i是所有Agent在整个交通环境下的拥堵程度，需满足N_u{r(x,u)+γ_i,E_{x'～p(·|x,u)}[V(x'；π_i,π_-i)]}，其中N表示纳什算子，x表示agent的当前状态，x’表示下一时刻agent的状态，u表示联合动作选择策略，γi表示Agentⁱ的衰减系数，E表示数学期望，p表示概率，V表示价值函数，r表示奖励函数，πi表示Agentⁱ的目标策略，π_-i表示其他Agent的目标策略。