CN109086550A

CN109086550A - 基于多Agent共享Q学习的疏散仿真方法及系统

Info

Publication number: CN109086550A
Application number: CN201810982525.8A
Authority: CN
Inventors: 刘弘; 段培永; 韩延彬; 李梁; 陆佃杰; 张桂娟; 李焱; 郑向伟
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2018-12-25
Anticipated expiration: 2038-08-27
Also published as: CN109086550B

Abstract

本发明公开了基于多Agent共享Q学习的疏散仿真方法及系统，搭建疏散场景；搭建人群疏散双层控制机制，上层空间由管理Agent、导航Agent及知识库构成，下层空间是待疏散的行人；对人群分组，各群组选出引领者，建立群组与导航Agent的关联，每组的引领者对应一个导航Agent；各导航Agent在引导各组疏散的过程中，把实时的信息放到管理Agent管理的公告板上；多Agent采用共享的Q学习算法进行学习，共享学习的结果实时发送给导航Agent，以便导航Agent根据全局疏散情况进行路径规划；各群组按照对应导航Agent的引导，跟随引领者向疏散出口疏散。

Description

基于多Agent共享Q学习的疏散仿真方法及系统

技术领域

本发明涉及人群疏散计算仿真技术领域，特别是涉及基于多Agent共享Q学习的疏散仿真方法及系统。

背景技术

近年来，随着社会经济的高速发展，各种聚集了大量人群的大型公共活动不断增多，这其中的安全问题引起了越来越多的关注。在一些人员密集的公共建筑场所内，由于在建筑设计上的不合理，以及应急管理方面的不到位，当发生各种紧急突发事件，人员需要紧急撤离时，容易造成疏散人群的拥挤和阻塞，甚至发生严重的人员踩踏事故。

当突发事件发生时，人们由于对所处的环境不熟悉，加上心理紧张，不知所措，常常没有目标的盲目从众跟随，而由于这种行为，很容易造成疏散通道及出口拥堵，同时有的通道及出口空闲。

个体的选择行为特性与获得的外界环境的信息例如出口、路径的位置，场所的流量分布等有关。如果行人获取的信息较少，那么在面对出口和路径选择时，将会做出犹豫、从众或者非理性的行为；如果行人获取的信息比较全面，那么他将会对出口和路径的疏散时间进行估算，并做出优化的选择。由于行人获取的信息是动态变化的，而且行人之间会进行信息交流，因此行人的信息集合和决策会随时间动态的变化，表现为动态的选择行为与信息完备程度的关系。

发明内容

为了解决现有技术的不足，本发明提供了基于多Agent共享Q学习的疏散仿真方法及系统，该方法从人群运动视频获取环境及人群的分布信息，搭建疏散场景；然后采用人群疏散导航双层控制机制，上层空间是多个Agent及知识库，下层空间是引领者及其分组的群体。对人群分组，各群组选出引领者，通过引领者与导航Agent之间的交互来实现双层路径选择空间信息交换。在疏散过程中，多Agent采用共享的Q学习算法进行学习，导航Agent与群组引领者之间进行实时的疏散路径信息交互，并最终引领群体高效的完成疏散过程。该方法及系统主要适用于建筑物内人群疏散。

为了解决上述技术问题，本发明采用如下技术方案：

作为本发明的第一方面，提出了基于多Agent共享Q学习的疏散仿真方法；

基于多Agent共享Q学习的疏散仿真方法，包括：

步骤(1)：从视频中实时获取环境信息及人群分布信息，搭建疏散仿真场景；设置用于人群疏散控制的双层空间，上层空间，包括：管理Agent、导航Agent和知识库，下层空间，包括：待疏散的行人；对人群分组，每组人群选出一个引领者，每组的引领者与对应的导航Agent连接，每个导航Agent均与管理Agent连接；

步骤(2)：每个导航Agent引导对应的组进行疏散，同时每个导航Agent维护自身的Q表，还把实时获取的信息上传给管理Agent；

步骤(3)：每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表，按设定周期采用共享的Q学习算法进行学习，根据学习结果对导航Agent自身的Q表进行更新；每个导航Agent根据更新后的结果对路径进行规划，并将规划的路径发送给引领者，引领者根据导航Agent发送过来的信息，引领待疏散的行人进行疏散。

进一步的，从视频中实时获取的环境信息，具体包括：疏散场景形状、建筑结构(包括楼层及障碍物、出口位置以及出口的个数)；

进一步的，从视频中实时获取的人群分布信息，具体包括：每个人分布的位置；

进一步的，所述管理Agent，用于：

接收导航Agent上传的各引领者的位置和人员流信息(所在组人员的位置信息)，并将接收的信息存储到知识库中；实时记录每个引领者的位置和人员流信息；

接收导航Agent上传的已经成功疏散过行人的路径，并将该路径存储到知识库中；

根据各个出口的拥堵情况，维护共享Q-表，辅助各导航Agent规划出口，并采用共享学习的方式，协调各导航Agent的动作。

进一步的，所述导航Agent，用于：

接收引领者的当前时刻所处位置，并将接收到的信息上传到管理Agent，通过管理Agent传送给知识库；

维护自己的Q-表，从管理Agent接受共享Q表的信息，并进行路径规划决策；

根据路径规划，向引领者发送下一时刻目标位置，引导对应的引领者引领人群向安全出口移动；

进一步的，所述知识库，包括：

情景知识，包括：引领者的位置和人员流信息；

规范知识，包括：疏散标准和已经成功疏散过行人的路径；

拓扑知识，包括：场景中的障碍物以及出口信息；

领域知识，包括：所有参数的值域范围以及参数之间的约束关系；

历史知识，包括：每次疏散仿真后的路径记录以及疏散时间。

进一步的，对人群分组是根据人群中个体间关系、人群在疏散场景中的密度以及个体位置信息来确定人群分组信息，详见基于网格-密度-关系的疏散人群行为仿真系统及其方法(申请号：2016100449594)。

进一步的，每组人群选出一个引领者的具体步骤为：

以人群数据集X＝{x_ij,i＝1,2,…,N}为例：

其中，N是人群数据集分组数，x_ij是组i中的第j个个体。

每组根据个体的适应度函数值选出引领者。适应度函数值定义为：

其中，w₁和w₂分别是个体对环境的熟悉程度的权重和距离出口的位置的权重值,w₁+w₂＝1。设w₁＝0.5，w₂＝0.5。k(x_ij)是个体x_ij对场景的熟悉程度,d(x_ij)是x_ij距离出口的位置,x_ij是组i中的第j个个体。

各组中具有最高适应度值的个体被选择为引领者。

进一步的，每组的引领者与对应的导航Agent建立连接关系中的引领者与导航Agent之间是一一对应关系。

进一步的，所述步骤(203)的步骤为：

所述状态集合，用S表示，包括：所有导航点位置和引领者当前位置；

所述行为集合，用A表示，包括：从引领者从当前时刻所处位置到下一个时刻所处导航点位置的选择行为；

所述执行策略，用π表示，用于描述从行为集合中选择某个导航点位置，进而更换位置的概率；

π(a|s)＝P[A_t＝a|s_t＝s]；

其中，π(a|s)表示在状态s下选择行为a的概率。A_t是在t时刻的动作，S_t是在t时刻的状态，s是状态集合S中的一个状态，a是行为集合A中的一个行为。

所述反馈集合，包括：对每次所选择的导航点的评估值r_t：

r_t＝R(π(a|s_t)，E)；

其中，a表示选择行为，s_t为t时刻引领者的位置，π(a|s_t)表示引领者在t时刻的位置处做出选择行为a的概率；E表示奖赏标准；R(π(a|s_t)，E)表示奖赏函数；

其中，奖赏标准E的计算公式为：

E＝w1×Dis+w2×Den+w3×Tim+w4×Hea

其中：w1、w2、w3和w4是权重，初始值均为0.25；

Dis是进行归一处理后的从当前位置到下一个导航目标点的路径距离；

Den是进行归一处理后的从当前位置到下一个导航目标点的路径密度；

Tim是进行归一处理后从知识库中提取的历史数据计算出来的预计到达时间；

历史数据包括从导航点到导航点之间到达的时间及经过的人的次数。

预计到达时间是历史到达时间的平均值。

Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度，即曾经选择该路径人数之和与选择各路径的人数之和的比值；

根据状态集合、行为集合和反馈集合，计算累积加权奖赏的数学期望V_π(s)：

其中，γ∈[0,1]为折扣因子，r_t为t时刻的奖赏，s_t为t时刻的状态；E_π表示执行选择策略π的奖惩标准，r_t+k表示t+k时刻的奖赏，s_t＝s表示s_t是状态集合S里的一个状态。

对于任意策略π，t时刻在状态s_t的值函数V_π(s_t)表示为：

其中，P(s_t+1|s_t，a_t)表示位置转移概率，V_π(s_t+1)表示对于任意策略π，t+1时刻在位置s_t+1的值函数。

进一步的，每个导航Agent引导对应的组进行疏散的具体步骤为：

步骤(201)：根据视频中已知的疏散路径，初始化疏散轨迹集合；

步骤(202)：依据疏散轨迹集合，建立疏散导航拓扑图；所述疏散导航拓扑图，包括：若干个疏散路径，每一个疏散路径上包括若干个导航点，两个相邻的导航点之间的疏散路径称为路段；所述导航点为障碍物或者出口；导航点与导航点之间的距离作为路段的权重；

步骤(203)：先构造状态集合，再构造行为集合，根据状态集合和行为集合确定执行策略，根据反馈集合调整执行策略；计算累积加权奖赏的数学期望，根据最大期望值寻找最优路径，最后利用最优路径更新疏散路径，执行疏散仿真；进入步骤(204)；

步骤(204)：判断新得到的路径是否比原有路径奖惩值更高，如果比原有路径奖惩值高，则采用新路径，否则返回步骤(203)；

步骤(205):沿新路径继续前行，更新位置；

步骤(206)：判断是否疏散完毕；如果是，则终止；否则采用新位置更新疏散轨迹集合；返回步骤(202)。

进一步的，每个导航Agent维护自身的Q表，采用标准的Q学习算法，将计算新的Q值并添加到Q表中；

其中：Q(s_t+1,a_t+1)与Q(s_t,a_t)分别为导航Agent在t+1时刻与t时刻的Q值，α∈[0,1]是学习因子，学习因子随学习的过程逐渐变小；γ∈[0,1]为折扣因子，γ越大，未来取得回报的比重越大；r_t+1为t+1时刻的奖惩值，为转向下一个状态s_t+1时，执行行为集合A中所有行为a的最大值。

进一步的，所述Q表，是指由Agent的Q值形成的表。

进一步的，实时获取的信息，包括：从当前位置到下一个导航目标点的路径距离；从当前位置到下一个导航目标点的路径密度。

进一步的，每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表，按设定周期采用共享的Q学习算法进行学习：

当观测到新的状态s_t+1时，选择该状态所对应的最大Q^c(s_t+1,a*)值，然后做出行为选择；

经验共享的方式定义如下：

Q^c(s_t+1,a^*)＝max{Q¹(s_t+1,a₁),Q²(s_t+1,a₂),...,Qⁿ(s_t+1,a_n)}(3)

其中：Q^c(s_t+1,a^*)是全部导航Agent对应状态s_t+1的最大Q值，Qⁱ(s_t+1,a_i)(i＝1,2,..,n)是导航Agent i对应状态s_t+1的最大Q值。

每个导航Agent i在获得具有最大值的Q^c(s_t+1,a^*)后，按照设定概率替换掉自身Q表对应的Qⁱ(s_t+1,a_i)，得到具有最大值的Q(s_t+1,a_t+1)。

然后选择对应的策略：

其中，π*(s_t+1)表示取得具有最大值的Q(s_t+1,a_t+1)的策略，s_t+1表示在导航Agent在t+1时刻的状态，a_t+1表示导航Agent在t+1时刻的行为。

状态行为值函数的迭代计算公式采用Q学习算法的计算方式：

采用共享Q学习算法的所有导航Agent共同维护一张Q表，这张Q表被称作公共Q表。

共享学习算法如下：

设定初始值，λ＝0.99；ε＝0.99；对每个导航Agent i,重复以下动作：

步骤(31)：观察当前的状态s_t；

步骤(32)：根据公共Q值表，选择s_t+1所对应的最大Q^c(s_t+1,a*)值

Q^c(s_t+1,a^*)＝max{Q¹(s_t+1,a₁),Q²(s_t+1,a₂),...,Qⁿ(s_t+1,a_n)} (3)

步骤(33)：按照概率1-λ替换掉自身Q表对应的Qⁱ(s_t+1,a_i)，得到具有最大值的Q(s_t+1,a_t+1)；

步骤(34)：以概率1-ε选择具有最大值的Q(s_t+1,a_t+1)所对应的动作a_t+1；

步骤(35)：导航Agent i更新自己的Q表，即把Q(s_t+1,a_t+1)加入自己的Q表中，发送到管理Agent，同时由管理Agent更新公共Q表，即把Q(s_t+1,a_t+1)加入公共Q表中，供其他导航Agent计算Q^c(s_t+1,a^*)时使用；

步骤(36)：执行状态转换s_t+1，即导航Agent从当前的位置移动到最优策略选择的下一个位置，看是否到达出口，如果已经到达出口，则结束；否则，转步骤(37)；

步骤(37)：λ＝0.99×λ；ε＝0.99×ε；转步骤(31)。

作为本发明的第二方面，提出了基于多Agent共享Q学习的疏散仿真系统；

基于多Agent共享Q学习的疏散仿真系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提出了一种计算机可读存储介质；

一种计算机可读存储介质，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

本发明将多Agent强化学习引入人群疏散领域，各导航Agent可以共享全局疏散信息，以便根据疏散现场的动态场景信息及时调整疏散路径，使人群有组织有目标的疏散，避开有拥堵的路径，可以提高疏散速度，为紧急情况下的快速人群疏散提供支持。

与现有技术相比，本发明的有益效果是：

(1)本发明采用多Agent共享学习的方法，使各导航Agent及时了解环境的全局信息，动态的规划路径，避开拥堵路径，提高疏散速度。

(2)本发明采用视频提取的数据建立场景，通过公告板建立各导航Agent之间的实时交流，并把路径规划信息及时传递给各组的引领者，实现分组有目标的疏散，有利于选择拥堵较轻的路径及其出口，能够有效提高公共场所中通道的利用率以及突发事件下的人员安全性，有利于设计疏散预案，为真实的疏散演练提供帮助。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明基于多Agent共享Q学习的路径规划方法及系统流程图；

图2是本发明的人群疏散双层控制机制的示意图；

图3是本发明的导航Agent决策示意图；

图4是本发明的疏散场景示意图；

图5是本发明的无向导航拓扑图示意图；

图6是本发明的多Agent共享学习的示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

多Agent Q学习强调如何利用分布式强化学习来提高强化学习的学习速度。多Agent Q学习中相互交互(交换信息)是最有效的方法之一，三种主要的实现方法为：(1)交换每个Agent感知的状态信息；(2)交换Agent学习的经验片段；(3)交换学习过程中的策略或参数等。所有这些方法与单Agent Q学习相比，都能够有效提高学习速度。

采用多Agent Q学习可以使行人共享全局疏散环境的信息，以便导航Agent进行出口选择和路径规划时更为合理。

图1是本发明的基于多Agent共享Q学习的路径规划方法的流程示意图，如图1所示的基于多Agent共享Q学习的路径规划方法，包括：

步骤(1)：从人群运动视频获取环境及人群的分布信息，搭建疏散场景；

在具体实施过程中，疏散场景参数包括疏散场景形状以及建筑结构信息。在本实施例中，通过疏散场景形状以及建筑结构信息进行提取疏散场景的特征，进而得到疏散场景的三维模型。

根据疏散场景的出口特征，在疏散场景三维模型中能够查询到疏散场景的所有障碍物及其出口。

步骤(2)：搭建人群疏散双层控制机制，上层空间是多个Agent及知识库，下层空间是引领者及其分组的群体；

搭建的人群疏散双层控制机制如图2所示，其中，上层空间的MA表示管理Agent,NA表示导航Agent。

管理Agent由6个模块组成,即MA＝(输入模块,公告板模块,转换模块,知识更新模块,输出模块,触发器模块)。

输入模块：疏散人群中每个引领者的位置和人员流信息，通过输入模块传递给知识库管理Agent。

公告板模块:公告板实时记录每个引领者的当前位置和人员流信息。

转换模块:转换模块根据各出口的拥堵情况，为各导航Agent选择合适的出口，并协调各导航Agent的动作。

知识更新模块:用当前成功的信息更新知识库中保存的历史信息。

输出模块：把转换模块的计算结果传递给相应的导航Agent。

触发器模块：触发器模块由事件-条件-规则组，检测当前的情景是否满足条件并且激活管理Agent执行相应的动作。

知识库当中有五类知识：

情景知识：情景知识由一组帮助个体走向出口的情景组成。在我们的疏散场景中，情景知识是每个领导者的当前位置和人流信息。根据每个领导者的位置与出口及障碍物处拥塞的拥堵的情况，执行的动态路径规划。

规范知识：规范知识是一个知识源，存储了性能标准和指导方针，可以引导个人更快到达出口的区域。规范性知识是通过保存可以使个体转移到更好的区域的个体的行为及其范围，来保持个体转移到更好的区域。

拓扑知识：拓扑知识是场景中的障碍物及出口信息。

领域知识：所有参数的值域范围，来自人群的最佳实例以及它们之间的约束关系。

历史知识：历史知识是每次疏散仿真后的路径记录及其疏散时间。

一个导航Agent由5个模块组成，即NA＝(输入接口,通信,输出接口,目标,触发器)。.

输入接口模块：通过接收函数Accept(CurrentX,CurrentY,CurrentZ)接收对应的引领者的位置信息，然后通过通信模块传递给知识库管理agent。

接收函数Accept(CurrentX,CurrentY,CurrentZ)的三个参数分别是引领者当前位置的平面坐标及所在的楼层数。

通信模块：负责接受和传递信息。

输出接口模块：通过影响函数Influence(NextX,NextY,NextZ)传递引领者的下一个位置。

影响函数Influence(NextX,NextY,NextZ)的三个参数分别是引领者下一个位置的平面坐标及所在的楼层数。

目标模块：选择疏散出口。

触发器模块：由事件-条件-动作规则组成。当检测到与此相关的事件发生时，根据条件执行相应的动作。触发器模块保证了与导航agent相关的事件发生时，主动执行相应的操作。

步骤(3)：对人群分组，各群组选出引领者，建立群组与导航Agent的关联，每组的引领者对应一个导航Agent；

步骤(4)：各导航Agent在引导各组疏散的过程中，把实时的Q值及相应信息放到公告板上；

步骤(5)：多Agent采用共享的Q学习算法进行学习，共享学习的结果实时发送给导航Agent，以便导航Agent根据全局疏散情况进行路径规划；

图3为基于强化学习的导航Agent决策流程图。导航Agent是用基于强化学习的决策过程来选择路径的。最初的疏散轨迹集合是根据从真实视频中提取的人群数据来建立的。过程的主要工作在于根据轨迹集合表示强化学习的基本因素：状态集合(S)、行为集合(A)及反馈集合(主要体现为奖赏函数)。随着疏散的推进，导航Agent会不断将新的疏散路径加入疏散轨迹集合，并保证当前导航选择最优路径。整个决策过程与疏散仿真过程同步。

路径导航是从所有由起点到终点路段的组合中选择最佳路段组合，即：路径由一系列路段构成，而最优路径规划进一步转化为路段组合寻优。在本发明中，路段的端点称为导航点；而每条路段都对应于场景中一对导航点，因此导航路径可描述成一组导航点序列，一般导航点设置为实际应用场景的障碍物或者出口，从提取的视频轨迹集合获取，如图4所示。由导航点构成的拓扑图称为无向导航拓扑图，其中点与点之间距离作为其连线的权重，如图5所示。

学习的目的在于通过对导航Agent采取的不同行为给出不同的回报，选择使得期望的折扣回报最大的行为，从而寻找导航Agent的最优路径控制策略。例如当导航Agent靠近或到达自己的目标时给它一个比较高的回报作为奖赏，而当导航Agent远离自己的目标时则给以“惩罚”即一个负的回报。我们的方法是基于学习算法来跟踪导航Agent的每一组状态行为对的值，并利用值选择最优的行动或者一个随机行动，每一次采取行动之后再利用值的更新公式对值表进行更新，从而使导航Agent到达目标位置的路径最优。

利用Q学习进行路径规划的核心问题是如何表示Q学习的基本因素：状态集合(S)、行为集合(A)及在此基础上的执行策略(π)、奖赏函数(R)、值函数(V)等，进而将最优路径的选择问题转化为奖赏最高的策略序列。在本发明中，状态集合为包含前述路径导航点和引领者Agent当前位置的点集；行为集合包含所有选择导航点的选择行为；执行策略用于控制选择导航点的选择过程；奖赏函数用来评估每次选择疏散导航点的优劣，值函数描述了在选择导航点的过程中的累计加权奖赏值的数学期望。其详细的定义如下：

状态集合：用S表示，其状态元素s_t∈S可描述为引领者在t时刻的位置，在学习过程中，S包含引领者当前位置和用于路径规划的导航点集。其中导航点定义为实际应用场景的障碍物或者出口。

行为集合：用A表示。其状态元素a_t∈A,表示Agent根据其当前状态(位置)，选择下一个临时导航目标点的动作，用s_t+1＝a(s_t)表示，s_t为当前t时刻Agent的状态，s_t+1为下一时刻Agent的状态(临时导航目标点)。

执行策略：用π表示。用以描述在t时刻从行为集合中挑选某动作a_t∈A，进而更换Agent的状态，是从集合状态S到动作集合A的映射(π：S→A)。考虑到疏散过程行人运动的不确定性，采用随机策略，即某一状态下执行某一动作的概率：π(a|s)＝P[A_t＝a|s_t＝s]。

奖赏函数：用R来描述。用以描述执行动作a后，环境对动作的瞬时奖赏，表示为r_t＝R(π(a|s_t)，E)，其中E为奖赏标准。采用路径长度、路径密度(拥挤度)、预计到达时间以及路径热度共同构造奖赏函数。

奖赏标准E的计算公式为：

e＝w1×Dis+w2×Den+w3×Tim+w4×Hea

其中：w1,w2,w3,w4是各项影响因素的权重，初始值均为0.25；

Dis是进行归一处理后的到下一个导航目标点的路径距离；

Den是进行归一处理后的到下一个导航目标点的路径密度；

Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度，即有多

少人曾经选择该路径与总人数选择各路径之和的比值；

值函数：用V来描述。该函数由策略π和奖赏R共同构造，表示了从状态s(行人的初始位置)转移至目标状态(出口位置)过程中累积加权奖赏的数学期望，表示为：

其中γ(γ∈[0,1])为折扣因子，r_t，s_t分别为t时刻的立即奖赏和状态。对于任意策略π，t时刻系统在状态s_t的值函数表示为：

其中r_t表示立即奖赏，P(s_t+1|s_t，a_t)表示状态转移概率。Agent与环境进行交互学习的目标是捜索最优策略π*(导航路径规划)，使得Agent最终获取的奖赏和最大。

采用多Agent共享的Q-学习，每个Agent在进行独立学习的同时，也保持与其它Agent的经验交流，所有的Agent都能在这些好的经验基础上继续进行独立学习，与此同时为了保持个体学习的独立性，在利用群体学习经验的时候，采用了概率选择的方法，即用1-ε的概率来选择采用群体的学习经验，随着学习过程的不断发展，逐渐减小。

进一步的，如图6所示，每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表，按设定周期采用共享的Q学习算法进行学习。所有的导航Agent在学习过程中，当需要做出决策的时候，都会考虑前一阶段已经学到的经验，以及其他导航Agent的经验。对于Q-学习来说，经验共享是指当观测到新的状态s_t+1时，根据全部导航Agent的经验选择该状态所对应的最大Q^c(s_t+1,a^*)值，然后做出行为选择。经验共享的方式定义如下：

Q^c(s_t+1,a^*)＝max{Q¹(s_t+1,a₁),Q²(s_t+1,a₂),...,Qⁿ(s_t+1,a_n)}(3)

其中，Q^c(s_t+1,a^*)是全部导航Agent对应状态s_t+1的最大Q值，Qⁱ(s_t+1,a_i)(i＝1,2,..,n)是导航Agent i对应状态s_t+1的最大Q值。

然后选择对应的行为，如下所示:

状态行为值函数的迭代计算公式采用Q学习算法的计算方式，如下式所示：

共享学习算法如下：

步骤(5.1)观察当前的状态s_t；

步骤(5.2)根据公共Q值表，选择s_t+1所对应的最大Q^c(s_t+1,a*)值

Q^c(s_t+1,a^*)＝max{Q¹(s_t+1,a₁),Q²(s_t+1,a₂),...,Qⁿ(s_t+1,a_n)} (3)

步骤(5.3)按照概率1-λ替换掉自身Q表对应的Qⁱ(s_t+1,a_i)，得到具有最大值的Q(s_t+1,a_t+1)。

步骤(5.4)以概率1-ε选择具有最大值的Q(s_t+1,a_t+1)所对应的动作a_t+1；

步骤(5.5)导航Agent i更新自己的Q表，即把Q(s_t+1,a_t+1)加入自己的Q表中，发送到管理Agent，同时由管理Agent更新公共Q表，即把Q(s_t+1,a_t+1)加入公共Q表中，供其他导航Agent计算Q^c(s_t+1,a*)时使用；

步骤(5.6)执行状态转换s_t+1，即导航Agent从当前的位置移动到最优策略选择的下一个位置，看是否到达出口，如果已经到达出口，则结束算法，退出；否则，转步骤(7)；

步骤(5.7)λ＝0.99×λ；ε＝0.99×ε；转步骤(1)；

步骤(6)：各导航Agent根据全局疏散情况进行路径规划；

步骤(7)：各群组按照对应导航Agent的引导，跟随引领者向疏散出口疏散。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多Agent共享Q学习的疏散仿真方法，其特征是，包括：

2.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

所述管理Agent，用于：

接收导航Agent上传的各引领者的位置和人员流信息，并将接收的信息存储到知识库中；实时记录每个引领者的位置和人员流信息；

3.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

所述导航Agent，用于：

根据路径规划，向引领者发送下一时刻目标位置，引导对应的引领者引领人群向安全出口移动。

4.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

每组人群选出一个引领者的具体步骤为：

以人群数据集X＝{x_ij,i＝1,2,…,N}为例：

其中，N是人群数据集分组数，x_ij是组i中的第j个个体；

每组根据个体的适应度函数值选出引领者；适应度函数值定义为：

其中，w₁和w₂分别是个体对环境的熟悉程度的权重和距离出口的位置的权重值,w₁+w₂＝1；设w₁＝0.5，w₂＝0.5；k(x_ij)是个体x_ij对场景的熟悉程度,d(x_ij)是x_ij距离出口的位置,x_ij是组i中的第j个个体；

各组中具有最高适应度值的个体被选择为引领者。

5.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

每个导航Agent引导对应的组进行疏散的具体步骤为：

步骤(205):沿新路径继续前行，更新位置；

6.如权利要求5所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

所述步骤(203)的步骤为：

π(a|s)＝P[A_t＝a|s_t＝s]；

其中，π(a|s)表示在状态s下选择行为a的概率；A_t是在t时刻的动作，S_t是在t时刻的状态，s是状态集合S中的一个状态，a是行为集合A中的一个行为；

所述反馈集合，包括：对每次所选择的导航点的评估值r_t：

r_t＝R(π(a|s_t)，E)；

其中，奖赏标准E的计算公式为：

E＝w1×Dis+w2×Den+w3×Tim+w4×Hea

其中：w1、w2、w3和w4是权重，初始值均为0.25；

历史数据包括从导航点到导航点之间到达的时间及经过的人的次数；

预计到达时间是历史到达时间的平均值；

其中，γ∈[0,1]为折扣因子，r_t为t时刻的奖赏，s_t为t时刻的状态；E_π表示执行选择策略π的奖惩标准，r_t+k表示t+k时刻的奖赏，s_t＝s表示s_t是状态集合S里的一个状态；

对于任意策略π，t时刻在状态s_t的值函数V_π(s_t)表示为：

7.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

每个导航Agent维护自身的Q表，采用标准的Q学习算法，计算新的Q值并添加到Q表中；

8.如权利要求2所述的基于多Agent共享Q学习的疏散仿真方法，其特征是，

共享学习算法如下：

步骤(31)：观察当前的状态s_t；

Q^c(s_t+1,a^*)＝max{Q¹(s_t+1,a₁),Q²(s_t+1,a₂),...,Qⁿ(s_t+1,a_n)} (3)

步骤(35)：导航Agent i更新自己的Q表，即把Q(s_t+1,a_t+1)加入自己的Q表中，发送到管理Agent，同时由管理Agent更新公共Q表，即把Q(s_t+1,a_t+1)加入公共Q表中，供其他导航Agent计算Q^c(s_t+1,a*)时使用；

步骤(37)：λ＝0.99×λ；ε＝0.99×ε；转步骤(31)。

9.基于多Agent共享Q学习的疏散仿真系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-8任一项方法所述的步骤。

10.一种计算机可读存储介质，其特征是，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-8任一项方法所述的步骤。