CN109086550A - 基于多Agent共享Q学习的疏散仿真方法及系统 - Google Patents
基于多Agent共享Q学习的疏散仿真方法及系统 Download PDFInfo
- Publication number
- CN109086550A CN109086550A CN201810982525.8A CN201810982525A CN109086550A CN 109086550 A CN109086550 A CN 109086550A CN 201810982525 A CN201810982525 A CN 201810982525A CN 109086550 A CN109086550 A CN 109086550A
- Authority
- CN
- China
- Prior art keywords
- agent
- navigation
- evacuation
- path
- leader
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Geometry (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于多Agent共享Q学习的疏散仿真方法及系统,搭建疏散场景;搭建人群疏散双层控制机制,上层空间由管理Agent、导航Agent及知识库构成,下层空间是待疏散的行人;对人群分组,各群组选出引领者,建立群组与导航Agent的关联,每组的引领者对应一个导航Agent;各导航Agent在引导各组疏散的过程中,把实时的信息放到管理Agent管理的公告板上;多Agent采用共享的Q学习算法进行学习,共享学习的结果实时发送给导航Agent,以便导航Agent根据全局疏散情况进行路径规划;各群组按照对应导航Agent的引导,跟随引领者向疏散出口疏散。
Description
技术领域
本发明涉及人群疏散计算仿真技术领域,特别是涉及基于多Agent共享Q学习的疏散仿真方法及系统。
背景技术
近年来,随着社会经济的高速发展,各种聚集了大量人群的大型公共活动不断增多,这其中的安全问题引起了越来越多的关注。在一些人员密集的公共建筑场所内,由于在建筑设计上的不合理,以及应急管理方面的不到位,当发生各种紧急突发事件,人员需要紧急撤离时,容易造成疏散人群的拥挤和阻塞,甚至发生严重的人员踩踏事故。
当突发事件发生时,人们由于对所处的环境不熟悉,加上心理紧张,不知所措,常常没有目标的盲目从众跟随,而由于这种行为,很容易造成疏散通道及出口拥堵,同时有的通道及出口空闲。
个体的选择行为特性与获得的外界环境的信息例如出口、路径的位置,场所的流量分布等有关。如果行人获取的信息较少,那么在面对出口和路径选择时,将会做出犹豫、从众或者非理性的行为;如果行人获取的信息比较全面,那么他将会对出口和路径的疏散时间进行估算,并做出优化的选择。由于行人获取的信息是动态变化的,而且行人之间会进行信息交流,因此行人的信息集合和决策会随时间动态的变化,表现为动态的选择行为与信息完备程度的关系。
发明内容
为了解决现有技术的不足,本发明提供了基于多Agent共享Q学习的疏散仿真方法及系统,该方法从人群运动视频获取环境及人群的分布信息,搭建疏散场景;然后采用人群疏散导航双层控制机制,上层空间是多个Agent及知识库,下层空间是引领者及其分组的群体。对人群分组,各群组选出引领者,通过引领者与导航Agent之间的交互来实现双层路径选择空间信息交换。在疏散过程中,多Agent采用共享的Q学习算法进行学习,导航Agent与群组引领者之间进行实时的疏散路径信息交互,并最终引领群体高效的完成疏散过程。该方法及系统主要适用于建筑物内人群疏散。
为了解决上述技术问题,本发明采用如下技术方案:
作为本发明的第一方面,提出了基于多Agent共享Q学习的疏散仿真方法;
基于多Agent共享Q学习的疏散仿真方法,包括:
步骤(1):从视频中实时获取环境信息及人群分布信息,搭建疏散仿真场景;设置用于人群疏散控制的双层空间,上层空间,包括:管理Agent、导航Agent和知识库,下层空间,包括:待疏散的行人;对人群分组,每组人群选出一个引领者,每组的引领者与对应的导航Agent连接,每个导航Agent均与管理Agent连接;
步骤(2):每个导航Agent引导对应的组进行疏散,同时每个导航Agent维护自身的Q表,还把实时获取的信息上传给管理Agent;
步骤(3):每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表,按设定周期采用共享的Q学习算法进行学习,根据学习结果对导航Agent自身的Q表进行更新;每个导航Agent根据更新后的结果对路径进行规划,并将规划的路径发送给引领者,引领者根据导航Agent发送过来的信息,引领待疏散的行人进行疏散。
进一步的,从视频中实时获取的环境信息,具体包括:疏散场景形状、建筑结构(包括楼层及障碍物、出口位置以及出口的个数);
进一步的,从视频中实时获取的人群分布信息,具体包括:每个人分布的位置;
进一步的,所述管理Agent,用于:
接收导航Agent上传的各引领者的位置和人员流信息(所在组人员的位置信息),并将接收的信息存储到知识库中;实时记录每个引领者的位置和人员流信息;
接收导航Agent上传的已经成功疏散过行人的路径,并将该路径存储到知识库中;
根据各个出口的拥堵情况,维护共享Q-表,辅助各导航Agent规划出口,并采用共享学习的方式,协调各导航Agent的动作。
进一步的,所述导航Agent,用于:
接收引领者的当前时刻所处位置,并将接收到的信息上传到管理Agent,通过管理Agent传送给知识库;
维护自己的Q-表,从管理Agent接受共享Q表的信息,并进行路径规划决策;
根据路径规划,向引领者发送下一时刻目标位置,引导对应的引领者引领人群向安全出口移动;
进一步的,所述知识库,包括:
情景知识,包括:引领者的位置和人员流信息;
规范知识,包括:疏散标准和已经成功疏散过行人的路径;
拓扑知识,包括:场景中的障碍物以及出口信息;
领域知识,包括:所有参数的值域范围以及参数之间的约束关系;
历史知识,包括:每次疏散仿真后的路径记录以及疏散时间。
进一步的,对人群分组是根据人群中个体间关系、人群在疏散场景中的密度以及个体位置信息来确定人群分组信息,详见基于网格-密度-关系的疏散人群行为仿真系统及其方法(申请号:2016100449594)。
进一步的,每组人群选出一个引领者的具体步骤为:
以人群数据集X={xij,i=1,2,…,N}为例:
其中,N是人群数据集分组数,xij是组i中的第j个个体。
每组根据个体的适应度函数值选出引领者。适应度函数值定义为:
其中,w1和w2分别是个体对环境的熟悉程度的权重和距离出口的位置的权重值,w1+w2=1。设w1=0.5,w2=0.5。k(xij)是个体xij对场景的熟悉程度,d(xij)是xij距离出口的位置,xij是组i中的第j个个体。
各组中具有最高适应度值的个体被选择为引领者。
进一步的,每组的引领者与对应的导航Agent建立连接关系中的引领者与导航Agent之间是一一对应关系。
进一步的,所述步骤(203)的步骤为:
所述状态集合,用S表示,包括:所有导航点位置和引领者当前位置;
所述行为集合,用A表示,包括:从引领者从当前时刻所处位置到下一个时刻所处导航点位置的选择行为;
所述执行策略,用π表示,用于描述从行为集合中选择某个导航点位置,进而更换位置的概率;
π(a|s)=P[At=a|st=s];
其中,π(a|s)表示在状态s下选择行为a的概率。At是在t时刻的动作,St是在t时刻的状态,s是状态集合S中的一个状态,a是行为集合A中的一个行为。
所述反馈集合,包括:对每次所选择的导航点的评估值rt:
rt=R(π(a|st),E);
其中,a表示选择行为,st为t时刻引领者的位置,π(a|st)表示引领者在t时刻的位置处做出选择行为a的概率;E表示奖赏标准;R(π(a|st),E)表示奖赏函数;
其中,奖赏标准E的计算公式为:
E=w1×Dis+w2×Den+w3×Tim+w4×Hea
其中:w1、w2、w3和w4是权重,初始值均为0.25;
Dis是进行归一处理后的从当前位置到下一个导航目标点的路径距离;
Den是进行归一处理后的从当前位置到下一个导航目标点的路径密度;
Tim是进行归一处理后从知识库中提取的历史数据计算出来的预计到达时间;
历史数据包括从导航点到导航点之间到达的时间及经过的人的次数。
预计到达时间是历史到达时间的平均值。
Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度,即曾经选择该路径人数之和与选择各路径的人数之和的比值;
根据状态集合、行为集合和反馈集合,计算累积加权奖赏的数学期望Vπ(s):
其中,γ∈[0,1]为折扣因子,rt为t时刻的奖赏,st为t时刻的状态;Eπ表示执行选择策略π的奖惩标准,rt+k表示t+k时刻的奖赏,st=s表示st是状态集合S里的一个状态。
对于任意策略π,t时刻在状态st的值函数Vπ(st)表示为:
其中,P(st+1|st,at)表示位置转移概率,Vπ(st+1)表示对于任意策略π,t+1时刻在位置st+1的值函数。
进一步的,每个导航Agent引导对应的组进行疏散的具体步骤为:
步骤(201):根据视频中已知的疏散路径,初始化疏散轨迹集合;
步骤(202):依据疏散轨迹集合,建立疏散导航拓扑图;所述疏散导航拓扑图,包括:若干个疏散路径,每一个疏散路径上包括若干个导航点,两个相邻的导航点之间的疏散路径称为路段;所述导航点为障碍物或者出口;导航点与导航点之间的距离作为路段的权重;
步骤(203):先构造状态集合,再构造行为集合,根据状态集合和行为集合确定执行策略,根据反馈集合调整执行策略;计算累积加权奖赏的数学期望,根据最大期望值寻找最优路径,最后利用最优路径更新疏散路径,执行疏散仿真;进入步骤(204);
步骤(204):判断新得到的路径是否比原有路径奖惩值更高,如果比原有路径奖惩值高,则采用新路径,否则返回步骤(203);
步骤(205):沿新路径继续前行,更新位置;
步骤(206):判断是否疏散完毕;如果是,则终止;否则采用新位置更新疏散轨迹集合;返回步骤(202)。
进一步的,每个导航Agent维护自身的Q表,采用标准的Q学习算法,将计算新的Q值并添加到Q表中;
其中:Q(st+1,at+1)与Q(st,at)分别为导航Agent在t+1时刻与t时刻的Q值,α∈[0,1]是学习因子,学习因子随学习的过程逐渐变小;γ∈[0,1]为折扣因子,γ越大,未来取得回报的比重越大;rt+1为t+1时刻的奖惩值,为转向下一个状态st+1时,执行行为集合A中所有行为a的最大值。
进一步的,所述Q表,是指由Agent的Q值形成的表。
进一步的,实时获取的信息,包括:从当前位置到下一个导航目标点的路径距离;从当前位置到下一个导航目标点的路径密度。
进一步的,每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表,按设定周期采用共享的Q学习算法进行学习:
当观测到新的状态st+1时,选择该状态所对应的最大Qc(st+1,a*)值,然后做出行为选择;
经验共享的方式定义如下:
Qc(st+1,a*)=max{Q1(st+1,a1),Q2(st+1,a2),...,Qn(st+1,an)}(3)
其中:Qc(st+1,a*)是全部导航Agent对应状态st+1的最大Q值,Qi(st+1,ai)(i=1,2,..,n)是导航Agent i对应状态st+1的最大Q值。
每个导航Agent i在获得具有最大值的Qc(st+1,a*)后,按照设定概率替换掉自身Q表对应的Qi(st+1,ai),得到具有最大值的Q(st+1,at+1)。
然后选择对应的策略:
其中,π*(st+1)表示取得具有最大值的Q(st+1,at+1)的策略,st+1表示在导航Agent在t+1时刻的状态,at+1表示导航Agent在t+1时刻的行为。
状态行为值函数的迭代计算公式采用Q学习算法的计算方式:
其中:Q(st+1,at+1)与Q(st,at)分别为导航Agent在t+1时刻与t时刻的Q值,α∈[0,1]是学习因子,学习因子随学习的过程逐渐变小;γ∈[0,1]为折扣因子,γ越大,未来取得回报的比重越大;rt+1为t+1时刻的奖惩值,为转向下一个状态st+1时,执行行为集合A中所有行为a的最大值。
采用共享Q学习算法的所有导航Agent共同维护一张Q表,这张Q表被称作公共Q表。
共享学习算法如下:
设定初始值,λ=0.99;ε=0.99;对每个导航Agent i,重复以下动作:
步骤(31):观察当前的状态st;
步骤(32):根据公共Q值表,选择st+1所对应的最大Qc(st+1,a*)值
Qc(st+1,a*)=max{Q1(st+1,a1),Q2(st+1,a2),...,Qn(st+1,an)} (3)
步骤(33):按照概率1-λ替换掉自身Q表对应的Qi(st+1,ai),得到具有最大值的Q(st+1,at+1);
步骤(34):以概率1-ε选择具有最大值的Q(st+1,at+1)所对应的动作at+1;
步骤(35):导航Agent i更新自己的Q表,即把Q(st+1,at+1)加入自己的Q表中,发送到管理Agent,同时由管理Agent更新公共Q表,即把Q(st+1,at+1)加入公共Q表中,供其他导航Agent计算Qc(st+1,a*)时使用;
步骤(36):执行状态转换st+1,即导航Agent从当前的位置移动到最优策略选择的下一个位置,看是否到达出口,如果已经到达出口,则结束;否则,转步骤(37);
步骤(37):λ=0.99×λ;ε=0.99×ε;转步骤(31)。
作为本发明的第二方面,提出了基于多Agent共享Q学习的疏散仿真系统;
基于多Agent共享Q学习的疏散仿真系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提出了一种计算机可读存储介质;
一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
本发明将多Agent强化学习引入人群疏散领域,各导航Agent可以共享全局疏散信息,以便根据疏散现场的动态场景信息及时调整疏散路径,使人群有组织有目标的疏散,避开有拥堵的路径,可以提高疏散速度,为紧急情况下的快速人群疏散提供支持。
与现有技术相比,本发明的有益效果是:
(1)本发明采用多Agent共享学习的方法,使各导航Agent及时了解环境的全局信息,动态的规划路径,避开拥堵路径,提高疏散速度。
(2)本发明采用视频提取的数据建立场景,通过公告板建立各导航Agent之间的实时交流,并把路径规划信息及时传递给各组的引领者,实现分组有目标的疏散,有利于选择拥堵较轻的路径及其出口,能够有效提高公共场所中通道的利用率以及突发事件下的人员安全性,有利于设计疏散预案,为真实的疏散演练提供帮助。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本发明基于多Agent共享Q学习的路径规划方法及系统流程图;
图2是本发明的人群疏散双层控制机制的示意图;
图3是本发明的导航Agent决策示意图;
图4是本发明的疏散场景示意图;
图5是本发明的无向导航拓扑图示意图;
图6是本发明的多Agent共享学习的示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
多Agent Q学习强调如何利用分布式强化学习来提高强化学习的学习速度。多Agent Q学习中相互交互(交换信息)是最有效的方法之一,三种主要的实现方法为:(1)交换每个Agent感知的状态信息;(2)交换Agent学习的经验片段;(3)交换学习过程中的策略或参数等。所有这些方法与单Agent Q学习相比,都能够有效提高学习速度。
采用多Agent Q学习可以使行人共享全局疏散环境的信息,以便导航Agent进行出口选择和路径规划时更为合理。
图1是本发明的基于多Agent共享Q学习的路径规划方法的流程示意图,如图1所示的基于多Agent共享Q学习的路径规划方法,包括:
步骤(1):从人群运动视频获取环境及人群的分布信息,搭建疏散场景;
在具体实施过程中,疏散场景参数包括疏散场景形状以及建筑结构信息。在本实施例中,通过疏散场景形状以及建筑结构信息进行提取疏散场景的特征,进而得到疏散场景的三维模型。
根据疏散场景的出口特征,在疏散场景三维模型中能够查询到疏散场景的所有障碍物及其出口。
步骤(2):搭建人群疏散双层控制机制,上层空间是多个Agent及知识库,下层空间是引领者及其分组的群体;
搭建的人群疏散双层控制机制如图2所示,其中,上层空间的MA表示管理Agent,NA表示导航Agent。
管理Agent由6个模块组成,即MA=(输入模块,公告板模块,转换模块,知识更新模块,输出模块,触发器模块)。
输入模块:疏散人群中每个引领者的位置和人员流信息,通过输入模块传递给知识库管理Agent。
公告板模块:公告板实时记录每个引领者的当前位置和人员流信息。
转换模块:转换模块根据各出口的拥堵情况,为各导航Agent选择合适的出口,并协调各导航Agent的动作。
知识更新模块:用当前成功的信息更新知识库中保存的历史信息。
输出模块:把转换模块的计算结果传递给相应的导航Agent。
触发器模块:触发器模块由事件-条件-规则组,检测当前的情景是否满足条件并且激活管理Agent执行相应的动作。
知识库当中有五类知识:
情景知识:情景知识由一组帮助个体走向出口的情景组成。在我们的疏散场景中,情景知识是每个领导者的当前位置和人流信息。根据每个领导者的位置与出口及障碍物处拥塞的拥堵的情况,执行的动态路径规划。
规范知识:规范知识是一个知识源,存储了性能标准和指导方针,可以引导个人更快到达出口的区域。规范性知识是通过保存可以使个体转移到更好的区域的个体的行为及其范围,来保持个体转移到更好的区域。
拓扑知识:拓扑知识是场景中的障碍物及出口信息。
领域知识:所有参数的值域范围,来自人群的最佳实例以及它们之间的约束关系。
历史知识:历史知识是每次疏散仿真后的路径记录及其疏散时间。
一个导航Agent由5个模块组成,即NA=(输入接口,通信,输出接口,目标,触发器)。.
输入接口模块:通过接收函数Accept(CurrentX,CurrentY,CurrentZ)接收对应的引领者的位置信息,然后通过通信模块传递给知识库管理agent。
接收函数Accept(CurrentX,CurrentY,CurrentZ)的三个参数分别是引领者当前位置的平面坐标及所在的楼层数。
通信模块:负责接受和传递信息。
输出接口模块:通过影响函数Influence(NextX,NextY,NextZ)传递引领者的下一个位置。
影响函数Influence(NextX,NextY,NextZ)的三个参数分别是引领者下一个位置的平面坐标及所在的楼层数。
目标模块:选择疏散出口。
触发器模块:由事件-条件-动作规则组成。当检测到与此相关的事件发生时,根据条件执行相应的动作。触发器模块保证了与导航agent相关的事件发生时,主动执行相应的操作。
步骤(3):对人群分组,各群组选出引领者,建立群组与导航Agent的关联,每组的引领者对应一个导航Agent;
步骤(4):各导航Agent在引导各组疏散的过程中,把实时的Q值及相应信息放到公告板上;
步骤(5):多Agent采用共享的Q学习算法进行学习,共享学习的结果实时发送给导航Agent,以便导航Agent根据全局疏散情况进行路径规划;
图3为基于强化学习的导航Agent决策流程图。导航Agent是用基于强化学习的决策过程来选择路径的。最初的疏散轨迹集合是根据从真实视频中提取的人群数据来建立的。过程的主要工作在于根据轨迹集合表示强化学习的基本因素:状态集合(S)、行为集合(A)及反馈集合(主要体现为奖赏函数)。随着疏散的推进,导航Agent会不断将新的疏散路径加入疏散轨迹集合,并保证当前导航选择最优路径。整个决策过程与疏散仿真过程同步。
路径导航是从所有由起点到终点路段的组合中选择最佳路段组合,即:路径由一系列路段构成,而最优路径规划进一步转化为路段组合寻优。在本发明中,路段的端点称为导航点;而每条路段都对应于场景中一对导航点,因此导航路径可描述成一组导航点序列,一般导航点设置为实际应用场景的障碍物或者出口,从提取的视频轨迹集合获取,如图4所示。由导航点构成的拓扑图称为无向导航拓扑图,其中点与点之间距离作为其连线的权重,如图5所示。
学习的目的在于通过对导航Agent采取的不同行为给出不同的回报,选择使得期望的折扣回报最大的行为,从而寻找导航Agent的最优路径控制策略。例如当导航Agent靠近或到达自己的目标时给它一个比较高的回报作为奖赏,而当导航Agent远离自己的目标时则给以“惩罚”即一个负的回报。我们的方法是基于学习算法来跟踪导航Agent的每一组状态行为对的值,并利用值选择最优的行动或者一个随机行动,每一次采取行动之后再利用值的更新公式对值表进行更新,从而使导航Agent到达目标位置的路径最优。
利用Q学习进行路径规划的核心问题是如何表示Q学习的基本因素:状态集合(S)、行为集合(A)及在此基础上的执行策略(π)、奖赏函数(R)、值函数(V)等,进而将最优路径的选择问题转化为奖赏最高的策略序列。在本发明中,状态集合为包含前述路径导航点和引领者Agent当前位置的点集;行为集合包含所有选择导航点的选择行为;执行策略用于控制选择导航点的选择过程;奖赏函数用来评估每次选择疏散导航点的优劣,值函数描述了在选择导航点的过程中的累计加权奖赏值的数学期望。其详细的定义如下:
状态集合:用S表示,其状态元素st∈S可描述为引领者在t时刻的位置,在学习过程中,S包含引领者当前位置和用于路径规划的导航点集。其中导航点定义为实际应用场景的障碍物或者出口。
行为集合:用A表示。其状态元素at∈A,表示Agent根据其当前状态(位置),选择下一个临时导航目标点的动作,用st+1=a(st)表示,st为当前t时刻Agent的状态,st+1为下一时刻Agent的状态(临时导航目标点)。
执行策略:用π表示。用以描述在t时刻从行为集合中挑选某动作at∈A,进而更换Agent的状态,是从集合状态S到动作集合A的映射(π:S→A)。考虑到疏散过程行人运动的不确定性,采用随机策略,即某一状态下执行某一动作的概率:π(a|s)=P[At=a|st=s]。
奖赏函数:用R来描述。用以描述执行动作a后,环境对动作的瞬时奖赏,表示为rt=R(π(a|st),E),其中E为奖赏标准。采用路径长度、路径密度(拥挤度)、预计到达时间以及路径热度共同构造奖赏函数。
奖赏标准E的计算公式为:
e=w1×Dis+w2×Den+w3×Tim+w4×Hea
其中:w1,w2,w3,w4是各项影响因素的权重,初始值均为0.25;
Dis是进行归一处理后的到下一个导航目标点的路径距离;
Den是进行归一处理后的到下一个导航目标点的路径密度;
Tim是进行归一处理后从知识库中提取的历史数据计算出来的预计到达时间;
Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度,即有多
少人曾经选择该路径与总人数选择各路径之和的比值;
值函数:用V来描述。该函数由策略π和奖赏R共同构造,表示了从状态s(行人的初始位置)转移至目标状态(出口位置)过程中累积加权奖赏的数学期望,表示为:
其中γ(γ∈[0,1])为折扣因子,rt,st分别为t时刻的立即奖赏和状态。对于任意策略π,t时刻系统在状态st的值函数表示为:
其中rt表示立即奖赏,P(st+1|st,at)表示状态转移概率。Agent与环境进行交互学习的目标是捜索最优策略π*(导航路径规划),使得Agent最终获取的奖赏和最大。
采用多Agent共享的Q-学习,每个Agent在进行独立学习的同时,也保持与其它Agent的经验交流,所有的Agent都能在这些好的经验基础上继续进行独立学习,与此同时为了保持个体学习的独立性,在利用群体学习经验的时候,采用了概率选择的方法,即用1-ε的概率来选择采用群体的学习经验,随着学习过程的不断发展,逐渐减小。
进一步的,如图6所示,每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表,按设定周期采用共享的Q学习算法进行学习。所有的导航Agent在学习过程中,当需要做出决策的时候,都会考虑前一阶段已经学到的经验,以及其他导航Agent的经验。对于Q-学习来说,经验共享是指当观测到新的状态st+1时,根据全部导航Agent的经验选择该状态所对应的最大Qc(st+1,a*)值,然后做出行为选择。经验共享的方式定义如下:
Qc(st+1,a*)=max{Q1(st+1,a1),Q2(st+1,a2),...,Qn(st+1,an)}(3)
其中,Qc(st+1,a*)是全部导航Agent对应状态st+1的最大Q值,Qi(st+1,ai)(i=1,2,..,n)是导航Agent i对应状态st+1的最大Q值。
每个导航Agent i在获得具有最大值的Qc(st+1,a*)后,按照设定概率替换掉自身Q表对应的Qi(st+1,ai),得到具有最大值的Q(st+1,at+1)。
然后选择对应的行为,如下所示:
其中,π*(st+1)表示取得具有最大值的Q(st+1,at+1)的策略,st+1表示在导航Agent在t+1时刻的状态,at+1表示导航Agent在t+1时刻的行为。
状态行为值函数的迭代计算公式采用Q学习算法的计算方式,如下式所示:
其中:Q(st+1,at+1)与Q(st,at)分别为导航Agent在t+1时刻与t时刻的Q值,α∈[0,1]是学习因子,学习因子随学习的过程逐渐变小;γ∈[0,1]为折扣因子,γ越大,未来取得回报的比重越大;rt+1为t+1时刻的奖惩值,为转向下一个状态st+1时,执行行为集合A中所有行为a的最大值。
采用共享Q学习算法的所有导航Agent共同维护一张Q表,这张Q表被称作公共Q表。
共享学习算法如下:
设定初始值,λ=0.99;ε=0.99;对每个导航Agent i,重复以下动作:
步骤(5.1)观察当前的状态st;
步骤(5.2)根据公共Q值表,选择st+1所对应的最大Qc(st+1,a*)值
Qc(st+1,a*)=max{Q1(st+1,a1),Q2(st+1,a2),...,Qn(st+1,an)} (3)
步骤(5.3)按照概率1-λ替换掉自身Q表对应的Qi(st+1,ai),得到具有最大值的Q(st+1,at+1)。
步骤(5.4)以概率1-ε选择具有最大值的Q(st+1,at+1)所对应的动作at+1;
步骤(5.5)导航Agent i更新自己的Q表,即把Q(st+1,at+1)加入自己的Q表中,发送到管理Agent,同时由管理Agent更新公共Q表,即把Q(st+1,at+1)加入公共Q表中,供其他导航Agent计算Qc(st+1,a*)时使用;
步骤(5.6)执行状态转换st+1,即导航Agent从当前的位置移动到最优策略选择的下一个位置,看是否到达出口,如果已经到达出口,则结束算法,退出;否则,转步骤(7);
步骤(5.7)λ=0.99×λ;ε=0.99×ε;转步骤(1);
步骤(6):各导航Agent根据全局疏散情况进行路径规划;
步骤(7):各群组按照对应导航Agent的引导,跟随引领者向疏散出口疏散。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.基于多Agent共享Q学习的疏散仿真方法,其特征是,包括:
步骤(1):从视频中实时获取环境信息及人群分布信息,搭建疏散仿真场景;设置用于人群疏散控制的双层空间,上层空间,包括:管理Agent、导航Agent和知识库,下层空间,包括:待疏散的行人;对人群分组,每组人群选出一个引领者,每组的引领者与对应的导航Agent连接,每个导航Agent均与管理Agent连接;
步骤(2):每个导航Agent引导对应的组进行疏散,同时每个导航Agent维护自身的Q表,还把实时获取的信息上传给管理Agent;
步骤(3):每个导航Agent根据管理Agent获取的所有导航Agent上传的Q表,按设定周期采用共享的Q学习算法进行学习,根据学习结果对导航Agent自身的Q表进行更新;每个导航Agent根据更新后的结果对路径进行规划,并将规划的路径发送给引领者,引领者根据导航Agent发送过来的信息,引领待疏散的行人进行疏散。
2.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
所述管理Agent,用于:
接收导航Agent上传的各引领者的位置和人员流信息,并将接收的信息存储到知识库中;实时记录每个引领者的位置和人员流信息;
接收导航Agent上传的已经成功疏散过行人的路径,并将该路径存储到知识库中;
根据各个出口的拥堵情况,维护共享Q-表,辅助各导航Agent规划出口,并采用共享学习的方式,协调各导航Agent的动作。
3.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
所述导航Agent,用于:
接收引领者的当前时刻所处位置,并将接收到的信息上传到管理Agent,通过管理Agent传送给知识库;
维护自己的Q-表,从管理Agent接受共享Q表的信息,并进行路径规划决策;
根据路径规划,向引领者发送下一时刻目标位置,引导对应的引领者引领人群向安全出口移动。
4.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
每组人群选出一个引领者的具体步骤为:
以人群数据集X={xij,i=1,2,…,N}为例:
其中,N是人群数据集分组数,xij是组i中的第j个个体;
每组根据个体的适应度函数值选出引领者;适应度函数值定义为:
其中,w1和w2分别是个体对环境的熟悉程度的权重和距离出口的位置的权重值,w1+w2=1;设w1=0.5,w2=0.5;k(xij)是个体xij对场景的熟悉程度,d(xij)是xij距离出口的位置,xij是组i中的第j个个体;
各组中具有最高适应度值的个体被选择为引领者。
5.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
每个导航Agent引导对应的组进行疏散的具体步骤为:
步骤(201):根据视频中已知的疏散路径,初始化疏散轨迹集合;
步骤(202):依据疏散轨迹集合,建立疏散导航拓扑图;所述疏散导航拓扑图,包括:若干个疏散路径,每一个疏散路径上包括若干个导航点,两个相邻的导航点之间的疏散路径称为路段;所述导航点为障碍物或者出口;导航点与导航点之间的距离作为路段的权重;
步骤(203):先构造状态集合,再构造行为集合,根据状态集合和行为集合确定执行策略,根据反馈集合调整执行策略;计算累积加权奖赏的数学期望,根据最大期望值寻找最优路径,最后利用最优路径更新疏散路径,执行疏散仿真;进入步骤(204);
步骤(204):判断新得到的路径是否比原有路径奖惩值更高,如果比原有路径奖惩值高,则采用新路径,否则返回步骤(203);
步骤(205):沿新路径继续前行,更新位置;
步骤(206):判断是否疏散完毕;如果是,则终止;否则采用新位置更新疏散轨迹集合;返回步骤(202)。
6.如权利要求5所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
所述步骤(203)的步骤为:
所述状态集合,用S表示,包括:所有导航点位置和引领者当前位置;
所述行为集合,用A表示,包括:从引领者从当前时刻所处位置到下一个时刻所处导航点位置的选择行为;
所述执行策略,用π表示,用于描述从行为集合中选择某个导航点位置,进而更换位置的概率;
π(a|s)=P[At=a|st=s];
其中,π(a|s)表示在状态s下选择行为a的概率;At是在t时刻的动作,St是在t时刻的状态,s是状态集合S中的一个状态,a是行为集合A中的一个行为;
所述反馈集合,包括:对每次所选择的导航点的评估值rt:
rt=R(π(a|st),E);
其中,a表示选择行为,st为t时刻引领者的位置,π(a|st)表示引领者在t时刻的位置处做出选择行为a的概率;E表示奖赏标准;R(π(a|st),E)表示奖赏函数;
其中,奖赏标准E的计算公式为:
E=w1×Dis+w2×Den+w3×Tim+w4×Hea
其中:w1、w2、w3和w4是权重,初始值均为0.25;
Dis是进行归一处理后的从当前位置到下一个导航目标点的路径距离;
Den是进行归一处理后的从当前位置到下一个导航目标点的路径密度;
Tim是进行归一处理后从知识库中提取的历史数据计算出来的预计到达时间;
历史数据包括从导航点到导航点之间到达的时间及经过的人的次数;
预计到达时间是历史到达时间的平均值;
Hea是进行归一处理后从知识库中提取的历史数据计算出来的路径热度,即曾经选择该路径人数之和与选择各路径的人数之和的比值;
根据状态集合、行为集合和反馈集合,计算累积加权奖赏的数学期望Vπ(s):
其中,γ∈[0,1]为折扣因子,rt为t时刻的奖赏,st为t时刻的状态;Eπ表示执行选择策略π的奖惩标准,rt+k表示t+k时刻的奖赏,st=s表示st是状态集合S里的一个状态;
对于任意策略π,t时刻在状态st的值函数Vπ(st)表示为:
其中,P(st+1|st,at)表示位置转移概率,Vπ(st+1)表示对于任意策略π,t+1时刻在位置st+1的值函数。
7.如权利要求1所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
每个导航Agent维护自身的Q表,采用标准的Q学习算法,计算新的Q值并添加到Q表中;
其中:Q(st+1,at+1)与Q(st,at)分别为导航Agent在t+1时刻与t时刻的Q值,α∈[0,1]是学习因子,学习因子随学习的过程逐渐变小;γ∈[0,1]为折扣因子,γ越大,未来取得回报的比重越大;rt+1为t+1时刻的奖惩值,为转向下一个状态st+1时,执行行为集合A中所有行为a的最大值。
8.如权利要求2所述的基于多Agent共享Q学习的疏散仿真方法,其特征是,
共享学习算法如下:
设定初始值,λ=0.99;ε=0.99;对每个导航Agent i,重复以下动作:
步骤(31):观察当前的状态st;
步骤(32):根据公共Q值表,选择st+1所对应的最大Qc(st+1,a*)值
Qc(st+1,a*)=max{Q1(st+1,a1),Q2(st+1,a2),...,Qn(st+1,an)} (3)
步骤(33):按照概率1-λ替换掉自身Q表对应的Qi(st+1,ai),得到具有最大值的Q(st+1,at+1);
步骤(34):以概率1-ε选择具有最大值的Q(st+1,at+1)所对应的动作at+1;
步骤(35):导航Agent i更新自己的Q表,即把Q(st+1,at+1)加入自己的Q表中,发送到管理Agent,同时由管理Agent更新公共Q表,即把Q(st+1,at+1)加入公共Q表中,供其他导航Agent计算Qc(st+1,a*)时使用;
步骤(36):执行状态转换st+1,即导航Agent从当前的位置移动到最优策略选择的下一个位置,看是否到达出口,如果已经到达出口,则结束;否则,转步骤(37);
步骤(37):λ=0.99×λ;ε=0.99×ε;转步骤(31)。
9.基于多Agent共享Q学习的疏散仿真系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-8任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810982525.8A CN109086550B (zh) | 2018-08-27 | 2018-08-27 | 基于多Agent共享Q学习的疏散仿真方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810982525.8A CN109086550B (zh) | 2018-08-27 | 2018-08-27 | 基于多Agent共享Q学习的疏散仿真方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109086550A true CN109086550A (zh) | 2018-12-25 |
CN109086550B CN109086550B (zh) | 2019-05-28 |
Family
ID=64794740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810982525.8A Active CN109086550B (zh) | 2018-08-27 | 2018-08-27 | 基于多Agent共享Q学习的疏散仿真方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109086550B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871582A (zh) * | 2019-01-11 | 2019-06-11 | 山东师范大学 | 陌生环境中基于知识的人群疏散仿真方法、系统及介质 |
CN109974737A (zh) * | 2019-04-11 | 2019-07-05 | 山东师范大学 | 基于安全疏散标志和强化学习结合的路径规划方法及系统 |
CN111400796A (zh) * | 2020-03-11 | 2020-07-10 | 北京理工大学 | 一种基于Agent的室内应急疏散位置风险评估方法 |
CN111414681A (zh) * | 2020-03-13 | 2020-07-14 | 山东师范大学 | 基于共享深度强化学习的建筑物内疏散仿真方法及系统 |
CN111444786A (zh) * | 2020-03-12 | 2020-07-24 | 五邑大学 | 基于无人机群的人群疏散方法、装置、系统及存储介质 |
WO2020199690A1 (zh) * | 2019-03-29 | 2020-10-08 | 深圳先进技术研究院 | 基于云平台共享学习系统及方法、共享平台及方法、介质 |
CN112348285A (zh) * | 2020-11-27 | 2021-02-09 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN112668768A (zh) * | 2020-12-24 | 2021-04-16 | 宁波工程学院 | 基于导航点和rvo模型的人群疏散仿真方法 |
CN113643170A (zh) * | 2021-10-14 | 2021-11-12 | 枫树谷(成都)科技有限责任公司 | 一种大数据驱动的公共场所聚集人群疏散方法及装置 |
CN113901727A (zh) * | 2021-11-16 | 2022-01-07 | 枫树谷(成都)科技有限责任公司 | 一种基于分子动力学和机器学习的人群疏散模拟方法 |
US11893457B2 (en) | 2020-01-15 | 2024-02-06 | International Business Machines Corporation | Integrating simulated and real-world data to improve machine learning models |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840586A (zh) * | 2010-04-02 | 2010-09-22 | 中国科学院计算技术研究所 | 虚拟人运动规划的方法及其系统 |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
CN104680264A (zh) * | 2015-03-27 | 2015-06-03 | 青岛大学 | 一种基于多智能体强化学习的运输车路径优化方法 |
US20160275412A1 (en) * | 2015-03-17 | 2016-09-22 | Vmware, Inc. | System and method for reducing state space in reinforced learning by using decision tree classification |
CN107256307A (zh) * | 2017-06-09 | 2017-10-17 | 山东师范大学 | 基于知识导航的人群疏散仿真方法及系统 |
-
2018
- 2018-08-27 CN CN201810982525.8A patent/CN109086550B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101840586A (zh) * | 2010-04-02 | 2010-09-22 | 中国科学院计算技术研究所 | 虚拟人运动规划的方法及其系统 |
CN102207928A (zh) * | 2011-06-02 | 2011-10-05 | 河海大学常州校区 | 基于强化学习的多Agent污水处理决策支持系统 |
US20160275412A1 (en) * | 2015-03-17 | 2016-09-22 | Vmware, Inc. | System and method for reducing state space in reinforced learning by using decision tree classification |
CN104680264A (zh) * | 2015-03-27 | 2015-06-03 | 青岛大学 | 一种基于多智能体强化学习的运输车路径优化方法 |
CN107256307A (zh) * | 2017-06-09 | 2017-10-17 | 山东师范大学 | 基于知识导航的人群疏散仿真方法及系统 |
Non-Patent Citations (2)
Title |
---|
杜坚: ""多Agent强化学习及其应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
秦欣,刘弘等: ""面向人群疏散仿真的双层关系机制驱动的社会力模型"", 《小型微型计算机系统》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871582A (zh) * | 2019-01-11 | 2019-06-11 | 山东师范大学 | 陌生环境中基于知识的人群疏散仿真方法、系统及介质 |
WO2020199690A1 (zh) * | 2019-03-29 | 2020-10-08 | 深圳先进技术研究院 | 基于云平台共享学习系统及方法、共享平台及方法、介质 |
CN109974737A (zh) * | 2019-04-11 | 2019-07-05 | 山东师范大学 | 基于安全疏散标志和强化学习结合的路径规划方法及系统 |
US11893457B2 (en) | 2020-01-15 | 2024-02-06 | International Business Machines Corporation | Integrating simulated and real-world data to improve machine learning models |
CN111400796B (zh) * | 2020-03-11 | 2022-03-01 | 北京理工大学 | 一种基于Agent的室内应急疏散位置风险评估方法 |
CN111400796A (zh) * | 2020-03-11 | 2020-07-10 | 北京理工大学 | 一种基于Agent的室内应急疏散位置风险评估方法 |
CN111444786A (zh) * | 2020-03-12 | 2020-07-24 | 五邑大学 | 基于无人机群的人群疏散方法、装置、系统及存储介质 |
CN111444786B (zh) * | 2020-03-12 | 2023-04-18 | 五邑大学 | 基于无人机群的人群疏散方法、装置、系统及存储介质 |
CN111414681B (zh) * | 2020-03-13 | 2023-10-17 | 山东师范大学 | 基于共享深度强化学习的建筑物内疏散仿真方法及系统 |
CN111414681A (zh) * | 2020-03-13 | 2020-07-14 | 山东师范大学 | 基于共享深度强化学习的建筑物内疏散仿真方法及系统 |
CN112348285B (zh) * | 2020-11-27 | 2021-08-10 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN112348285A (zh) * | 2020-11-27 | 2021-02-09 | 中国科学院空天信息创新研究院 | 一种基于深度强化学习的动态环境下人群疏散模拟方法 |
CN112668768A (zh) * | 2020-12-24 | 2021-04-16 | 宁波工程学院 | 基于导航点和rvo模型的人群疏散仿真方法 |
CN113643170A (zh) * | 2021-10-14 | 2021-11-12 | 枫树谷(成都)科技有限责任公司 | 一种大数据驱动的公共场所聚集人群疏散方法及装置 |
CN113901727A (zh) * | 2021-11-16 | 2022-01-07 | 枫树谷(成都)科技有限责任公司 | 一种基于分子动力学和机器学习的人群疏散模拟方法 |
CN113901727B (zh) * | 2021-11-16 | 2022-02-22 | 枫树谷(成都)科技有限责任公司 | 一种基于分子动力学和机器学习的人群疏散模拟方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109086550B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109086550B (zh) | 基于多Agent共享Q学习的疏散仿真方法及系统 | |
Liu et al. | Crowd evacuation simulation approach based on navigation knowledge and two-layer control mechanism | |
CN106910351B (zh) | 一种基于深度强化学习的交通信号自适应控制方法 | |
Lima et al. | A cellular automata ant memory model of foraging in a swarm of robots | |
CN109974737B (zh) | 基于安全疏散标志和强化学习结合的路径规划方法及系统 | |
CN109670270A (zh) | 基于多智能体深度强化学习的人群疏散仿真方法及系统 | |
Wang et al. | Improved multi-agent reinforcement learning for path planning-based crowd simulation | |
CN107403049B (zh) | 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统 | |
CN108847037A (zh) | 一种面向非全局信息的城市路网路径规划方法 | |
CN107480320B (zh) | 一种基于拓扑地图与视觉影响的人群疏散仿真方法及系统 | |
CN107256307B (zh) | 基于知识导航的人群疏散仿真方法及系统 | |
CN109214065B (zh) | 基于多Agent共享Q表的人群疏散仿真方法及系统 | |
CN107220447B (zh) | 基于疏散路径集合的人群疏散仿真方法及系统 | |
CN111414681B (zh) | 基于共享深度强化学习的建筑物内疏散仿真方法及系统 | |
CN107103384A (zh) | 一种基于三维知识网络的学习者学习轨迹量化方法 | |
CN111767789A (zh) | 一种基于多载体智能引导的人群疏散方法及系统 | |
CN109269516A (zh) | 一种基于多目标Sarsa学习的动态路径诱导方法 | |
Liu et al. | Swarm learning-based dynamic optimal management for traffic congestion in 6G-driven intelligent transportation system | |
CN113759901A (zh) | 一种基于深度强化学习的移动机器人自主避障方法 | |
Wang et al. | Human-drone collaborative spatial crowdsourcing by memory-augmented and distributed multi-agent deep reinforcement learning | |
Zong et al. | Indoor evacuation model based on visual-guidance artificial bee colony algorithm | |
Wang et al. | An optimal guidance strategy for fire evacuations: A hybrid modeling approach | |
CN103927778A (zh) | 一种虚拟人环境感知的仿真方法及系统 | |
CN104778495A (zh) | 基于粒子群算法的贝叶斯网络优化方法 | |
CN116340737A (zh) | 基于多智能体强化学习的异构集群零通信目标分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |