CN107403049B

CN107403049B - 一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统

Info

Publication number: CN107403049B
Application number: CN201710639602.5A
Authority: CN
Inventors: 刘弘; 秦欣; 张�浩; 刘宝玺
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2019-03-19
Anticipated expiration: 2037-07-31
Also published as: CN107403049A

Abstract

本发明涉及一种基于人工神经网络的Q‑Learning行人疏散仿真方法及系统，该方法包括：根据初始化相关参数将待疏散的行人分为若干群组，并在每一群组内部选取一名引领者，剩余待疏散的行人为跟随者；在每一群组内部，引领者优先学习选取基于神经网络的Q‑Learning算法对疏散路径进行全局规划得到的最优路径，跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者；直至待疏散的行人全部疏散。本发明结合强化学习和人工神经网络的优点进行全局路径规划，弥补单纯的强化学习的不足，底层配合社会力模型指导运动，能够实现人群的快速有效的寻路和较为真实地疏散。

Description

一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统

技术领域

本发明属于人群疏散仿真的技术领域，尤其涉及一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统。

背景技术

近年来，随着大型公共场所数目增多，行人拥挤现象随处可见。在人群密集的公共场所，行人安全意识的缺乏和对周围环境的不熟悉暗藏了极大地安全隐患，尤其是当火灾等灾难发生时，人员的快速安全疏散成为亟待解决的问题。对于人流量大、人员构成变化性强的公共场所，行人往往对环境不够了解，采用传统的疏散演练方法难以用较低成本达到模拟各种情境的效果。而通过计算机仿真技术来进行场景建模、路径寻优以及人群运动行为建模，可以在达到最佳疏散演练效果的同时将成本最小化。

人群疏散仿真模型通常被分为宏观模型和微观模型两大类。宏观模型从整体出发，不考虑个体行为的局部细节信息，可以达到较快的疏散速度，但是难以真实地再现现实生活中的行人自组织现象。微观模型从个体的角度考虑每个个体与环境的交互，可以弥补宏观模型对行人细节描述的不足。

在微观模型中，社会力模型是一种著名的微观模型，社会力模型是由Helbing提出的一种著名的微观人群疏散仿真模型，自提出以来受到众多学者的改进，应用于模拟行人的各种自组织现象。该模型从个体的角度出发将人与人、人与环境的交互转化为牛顿力学的角度从而计算行人的速度与位移，能够比较真实地模拟人群疏散过程中出现自组织现象。但原始社会力模型将个体平等化，难以仿真真实行人流疏散。此外，社会力模型从行人局部细节出发缺乏对路径的整体规划，无法实现高效有序的整体疏散。

Q-Learning是一种重要的强化学习方法，采用探索-利用的方法来发现搜索目标，agent为目标对陌生环境展开探索，根据环境对代理的影响，从而产生“行为-状态对”及对应的奖惩值。“利用”过程是选择agent已经学习过的具有最高累计强化值的行为，保证了获得奖赏值；“探索”过程是为了有更好的动作选择，agent依据规则尝试新的动作。agent找到目标后，又开始了下一轮的学习过程。在不断的展开对陌生环境的探索学习，奖惩值得到更新，最终将得到疏散的最佳路径对疏散进行引导，减少了疏散过程中行人对环境的盲目搜索造成的损失。然而，Q-Learning强化学习方法具有离散性，且存在“行为-状态对”表过大的问题，导致占据大量的存储空间存储“行为-状态对”表。

综上所述，在现有技术的行人疏散仿真中对于如何更加高效有序的整体疏散人群、以及如何更加真实地再现现实生活中的人群疏散状态的问题，尚缺乏有效的解决方案。

发明内容

本发明为了解决上述问题，本发明提供一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统，本发明将强化学习和人工神经网络的优点相结合进行全局路径规划，弥补单纯的强化学习的不足，底层配合社会力模型指导运动，有效实现人群的快速有效的寻路和较为真实地疏散。

本发明的第一目的是提供一种基于人工神经网络的Q-Learning行人疏散仿真方法。

为了实现上述目的，本发明采用如下一种技术方案：

一种基于人工神经网络的Q-Learning行人疏散仿真方法，该方法包括：

根据初始化相关参数将待疏散的行人分为若干群组，并在每一群组内部选取一名引领者，剩余待疏散的行人为跟随者；

在每一群组内部，引领者优先学习选取基于神经网络的Q-Learning算法对疏散路径进行全局规划得到的最优路径，跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者；直至待疏散的行人全部疏散。

作为进一步的优选方案，该方法仿真完成后，将每一群组引领者学习的最优路径进行存储作为实际疏散的推荐路径。

相比传统的行人疏散仿真算法，本发明结合了强化学习和人工神经网络的优点，通过基于神经网络的Q-Learning算法得出最优路径，避免了行人的盲目寻路，通过社会力模型指导运动，刻画行人局部受力细节信息，使疏散在高效地同时更加贴近现实，为行人流疏散演练提供了帮助。

作为进一步的优选方案，该方法在将待疏散的行人分为若干群组前，获取行人疏散仿真的场景信息，根据场景信息得到初始化相关参数，所述初始化相关参数包括：待疏散场景的相关参数，待疏散的行人人数，待疏散的行人人体在待疏散场景中的初始位置，群组数目和候选疏散关键点。

作为进一步的优选方案，所述根据场景信息得到初始化相关参数的具体步骤为：

根据获取的行人疏散仿真的场景信息，在待疏散场景内均匀随机生成

roadmap图，得到待疏散场景的相关参数，并在roadmap图中提取roadmap点作为候选疏散关键点；

在待疏散场景内均匀随机初始化人群，得到待疏散的行人人数和待疏散的行人个体在待疏散场景中的初始位置，并根据待疏散的行人人数确定群组数目。

作为进一步的优选方案，在待疏散场景内的每一个疏散出口处设置计数器，用于统计每个出口疏散的行人个体数。

作为进一步的优选方案，在每一群组内部选取一名引领者的具体步骤为：

根据待疏散的行人距出口的距离和对出口位置的了解程度计算个体适应度；

对群组内部全部待疏散的行人的个体适应度进行比较，选择适应度最高的个体作为该群组的引领者。

作为进一步的优选方案，在每一群组内部，引领者优先学习选取基于神经网络的Q-Learning算法对疏散路径进行全局规划得到的最优路径的具体步骤为：

将距离引领者当前所处位置最近的候选疏散关键点设置为当前位置；

检测与当前位置相连的所有下一候选疏散关键点，计算下一候选疏散关键点一定范围内的人群密度，若大于设定人群密度阈值则放弃该候选疏散关键点，否则，将所有满足设定人群密度阈值要求的下一候选疏散关键点标记为可选状态，将到达可选状态的行为记为动作A，产生下一可选关键点的“行为-状态对”；

根据所有下一可选关键点的“行为-状态对”信息利用人工神经网络BP算法计算收益并调整参数，执行Q-Learning算法，选取收益最大的下一可选关键点作为引领者的临时目标点，同时更新收益表；

重复上述步骤直至得到最优路径。

作为进一步的优选方案，利用BP算法计算收益并调整参数的具体步骤为：

利用人工神经网络BP算法代替Q-Learning中的查找表，将Q-Learning的可选状态信息作为BP神经网络的输入，将每一个状态下可选择执行的动作的收益作为网络的输出，并更新收益的变化值作为BP网络输出层的误差，通过误差反向传播调整收益权值，并保存调整后的收益，最终得到拟合后的收益值，应用于Q-Learning算法。

本发明将人工神经网络与强化学习结合，利用人工神经网络BP算法代替Q-Learning中的查找表，避免了占据巨大内存的情况；利用BP算法拟合收益值，避免了非最优策略下的误差，得出了更准确的收益值即Q值。人工神经网络具有强大的信息融合能力和容错性，能够很好地拟合非线性函数。其中BP算法的学习过程由正向传播和反向传播两部分组成。在正向传播过程中，将信息从输入层输入，传递给隐藏层处理，最终传向输出层得到输出。将输出的误差转入反向传播，来实现对参数的调整，可以使得误差信号最小，调整强化学习非最优策略下的Q拟合曲线。

作为进一步的优选方案，跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者的具体步骤为：

对于每个群组内的跟随者，其目标点为引领者的当前关键点，并通过改进后社会力受力公式计算行人受目标影响的自驱动力、行人之间的排斥力、行人受墙或障碍物的力和同组间行人的聚合力的所受合力；

跟随者按照计算的所受合力向引领者的当前关键点作出行为运动。

本发明的第二目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由移动终端设备的处理器加载并执行以下处理：

在每一群组内部，引领者优先学习选取基于神经网络的Q-Learning算法对疏散路径进行全局规划得到的最优路径，跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者；直至待疏散的行人全部疏散；

将每一群组引领者学习的最优路径进行存储作为实际疏散的推荐路径。

本发明的第三目的是提供一种移动终端。

为了实现上述目的，本发明采用如下一种技术方案：

一种移动终端，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行以下处理：

本发明的有益效果：

(1)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统，将待疏散的行人分为群组，群组内根据距离出口的距离以及对出口位置的了解程度选取疏散引领者，对于引领者，执行基于人工神经网络的Q-Learning算法，学习到最优路径，并沿此路径运动；每个群组内的成员按照社会力模型计算与其他行人和环境之间的受力，在引领者的引导下进行运动。利用人工神经网络弥补了Q-Learning的离散型及“行为-状态”表过大的问题，更好地拟合了Q函数；利用Q-Learning学习到陌生环境下的最优路径，加速了疏散的指导；底层配合改进后的社会力模型，引入群组和引导机制，在加快疏散效率的同时，细致刻画了行人运动的局部受力细节，实时地、真实地模拟规模较大行人疏散，为行人疏散演练提供帮助。

(2)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统，本发明将从全局路径规划和局部运动细节出发，对整个待疏散环境进行分析，进行全局路径规划，选取最优路径，使得人群的整体疏散更为高效有序；将改进的社会力模型应用于群组内行人的运动，能够实现群组聚集、行人避让等行人的自组织现象，更加真实地再现现实生活中的人群疏散。

(3)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统中的全局路径规划将人工神经网络与强化学习结合，利用人工神经网络BP算法代替Q-Learning中的查找表，避免了占据巨大内存的情况；利用BP算法拟合Q值，避免了非最优策略下的误差，得出了更准确的Q值。

(4)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统中的局部运动细节对原始社会力模型进行改进，引入群组和引领者，群组内成员跟随已经寻好最优路径的引领者进行行进，减少了行人的盲目寻路。使疏散更为高效有序。而且能再现大规模人群疏散时的多种自组织现象。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本发明行人疏散方法的具体流程图；

图2是基于人工神经网络的Q-Learning路径规划流程图；

图3是本发明roadmap图初始化情况；

图4是roadmap图中关键点的提取情况；

图5是经过学习后选择用于路径连接的关键点；

图6是本发明经过学习后的路径选择情况；

图7是本发明在多房间多出口复杂场景下的人群初始化图；

图8是本发明在多房间多出口复杂场景下的人群运动过程中图；

图9是本发明在多房间多出口复杂场景下的人群疏散即将完成时的状态图；

图10是本发明在多房间多出口复杂场景下的人群疏散局部细节图。

具体实施方式：

应该指出，以下详细说明都是例示性的，旨在对本申请提供作为进一步的优选方案说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面结合附图与实施例对本发明作进一步说明。

实施例1：

本发明为了解决上述问题，本发明的第一目的是提供一种基于人工神经网络的Q-Learning行人疏散仿真方法。

为了实现上述目的，本发明采用如下一种技术方案：

如图1所示，

(1)导入场景信息，在场景内均匀随机生成roadmap图，提取roadmap点作为候选疏散关键点；

(2)在场景内均匀随机初始化人群，并在出口设置计数器，用于统计每个出口疏散的个体数；

(3)根据初始化相关参数将待疏散的行人分为若干群组，在每一群组内部，通过以距出口距离及对出口位置了解程度为条件计算个体适应度，各组选取适应度最高的个体作为群组引领者；

(4)将引领者当前所处距离最近的关键点设置为当前位置，检测与当前位置相连的所有下一关键点，对于关键点一定范围内计算人群密度，若大于阈值则放弃该关键点，否则，将所有满足人群密度阈值要求的下一关键点标记为可选状态，将到达关键点的行为记为动作A；

(5)对于引领者，将所有下一可选关键点的“行为-状态对”信息作为输入，利用BP算法计算Q值并调整参数，执行Q-Learning算法，选取收益最大的下一关键点作为引领者的临时目标点，同时更新收益表；对于跟随者，个体按照原始社会力公式计算所受合力，从而进行避障跟随；

(6)每一时间片，引领者重复执行步骤4与步骤5，直至组中个体全部到达出口；

(7)将引领者学习的最优路径存入路径库，用于疏散时的路径推荐。

如图3所示，是本发明roadmap图初始化情况；如图4所示，是roadmap图中关键点的提取情况；

所述步骤(1)(2)中初始化的相关参数为：待疏散场景的相关参数；待疏散行人数；个体在疏散场景中的位置；群组数目；roadmap点；

如图2所示，是基于人工神经网络的Q-Learning路径规划流程图；

所述步骤(4)中利用人工神经网络BP算法代替Q-Learning中的查找表，将Q-Learning的状态信息s＝{s₁,s₂,…,s_n}作为BP神经网络的输入，其中s_n为第n个状态，将每一个状态下可选择执行的动作的Q值Q(s,a_i)作为网络的输出，其中Q(s,a_i)为在状态s选，采取第i个动作a_i的长期期望收益，并更新Q值的变化ΔQ作为BP网络输出层的误差，通过误差反向传播调整权值并保存调整后的Q值，从而拟合Q值，应用于Q-Learning算法。

在一种基于神经网络的Q-Learning行人疏散仿真方法及系统中：

所述步骤(5)中，对于单纯的强化学习，在时刻t，引领者根据当前所处的状态选择到达下一个状态的所有可能动作a,根据表达式(1)更新Q值：

将强化学习与人工神经网络结合后，将与Leader当前所处位置距离最近的关键点视为当前位置状态，首先检测下一关键点处的人群密度ρ＝p_i/A，其中，p_i为选择第i个关键点为临时目标点的行人个数，A为关键点i附近的区域面积。若ρ大于密度阈值κ则排除此关键点的候选可能性。然后将与之相连的下一候选关键点处的人群密度ρ、与当前关键点的距离d_ij、到最近出口的距离d_iw、障碍物个数λ作为状态信息输入公式(2)，计算所有可选下一关键点处的Q值，Q(s,a_i)。

每次执行一个动作后的，Q值会更新，其Q值的变化ΔQ可以表示为公式(3)，其中α为取值为0到1的学习因子，γ为折扣因子：

将ΔQ作为BP网络输出层的误差，利用反向传播，调整权值，并保存调整后的Q值作为更新。选取收益值最大的下一关键点作为Leader的临时目标点。

对于每个群组内成员，目标点为Leader的当前关键点，并通过改进后社会力受力公式计算所受合力，如公式(4)所示，其中按从左到右的顺序分别为行人受目标影响的自驱动力、行人之间的排斥力、行人受墙或障碍物的力、同组间行人的聚合力：

本发明通过将roadmap图中的点作为路径关键点，利用Q-Learning算法，对行人的疏散路径进行全局规划，将行人分组并选取每组引领者，使引领者提前获取最优路径避免了行人的盲目寻路，底层配合社会力模型指导行人运动，实现了快速有效的人群疏散仿真。主要结构为：

(1)引领者：执行基于神经网络的Q-Learning算法，与环境进行交互，计算并更新“行为-状态对”和收益并通过BP算法调整误差参数，选取收益最大的下一roadmap点作为临时目标点，最终获得最优路径。

(2)跟随者：受引领者的引领，并通过社会力模型计算与组内、组间及环境的受力，进行运动。

图5是经过学习后选择用于路径连接的关键点；图6是本发明经过学习后的路径选择情况；图7是本发明在多房间多出口复杂场景下的人群初始化图；图8是本发明在多房间多出口复杂场景下的人群运动过程中图；图9是本发明在多房间多出口复杂场景下的人群疏散即将完成时的状态图；图10是本发明在多房间多出口复杂场景下的人群疏散局部细节图。

本发明结合强化学习和人工神经网络的优点进行全局路径规划，弥补单纯的强化学习的不足，底层配合社会力模型指导运动，能够实现人群的快速有效的寻路和较为真实地疏散。

实施例2：

本发明的第二目的是提供一种计算机可读存储介质。

为了实现上述目的，本发明采用如下一种技术方案：

实施例3：

本发明的第三目的是提供一种移动终端。

为了实现上述目的，本发明采用如下一种技术方案：

本发明的有益效果：

(4)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统，将待疏散的行人分为群组，群组内根据距离出口的距离以及对出口位置的了解程度选取疏散引领者，对于引领者，执行基于人工神经网络的Q-Learning算法，学习到最优路径，并沿此路径运动；每个群组内的成员按照社会力模型计算与其他行人和环境之间的受力，在引领者的引导下进行运动。利用人工神经网络弥补了Q-Learning的离散型及“行为-状态”表过大的问题，更好地拟合了Q函数；利用Q-Learning学习到陌生环境下的最优路径，加速了疏散的指导；底层配合改进后的社会力模型，引入群组和引导机制，在加快疏散效率的同时，细致刻画了行人运动的局部受力细节，实时地、真实地模拟规模较大行人疏散，为行人疏散演练提供帮助。

(5)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统，本发明将从全局路径规划和局部运动细节出发，对整个待疏散环境进行分析，进行全局路径规划，选取最优路径，使得人群的整体疏散更为高效有序；将改进的社会力模型应用于群组内行人的运动，能够实现群组聚集、行人避让等行人的自组织现象，更加真实地再现现实生活中的人群疏散。

(6)本发明的一种基于人工神经网络的Q-Learning行人疏散仿真方法及系统中的全局路径规划将人工神经网络与强化学习结合，利用人工神经网络BP算法代替Q-Learning中的查找表，避免了占据巨大内存的情况；利用BP算法拟合Q值，避免了非最优策略下的误差，得出了更准确的Q值。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于人工神经网络的Q-Learning行人疏散仿真方法，其特征是：该方法包括：

在每一群组内部，引领者优先学习选取基于神经网络的Q-Learning算法对疏散路径进行全局规划得到的最优路径的具体步骤为：

根据所有下一可选关键点的“行为-状态对”信息利用BP算法计算收益并调整参数，执行Q-Learning算法，选取收益最大的下一可选关键点作为引领者的临时目标点，同时更新收益表；

重复上述步骤直至得到最优路径；

利用BP算法计算收益并调整参数的具体步骤为：

2.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法，其特征是：该方法仿真完成后，将每一群组引领者学习的最优路径进行存储作为实际疏散的推荐路径。

3.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法，其特征是：该方法在将待疏散的行人分为若干群组前，获取行人疏散仿真的场景信息，根据场景信息得到初始化相关参数，所述初始化相关参数包括：待疏散场景的相关参数，待疏散的行人人数，待疏散的行人人体在待疏散场景中的初始位置，群组数目和候选疏散关键点。

4.如权利要求3所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法，其特征是：所述根据场景信息得到初始化相关参数的具体步骤为：

在待疏散场景内均匀随机初始化人群，得到待疏散的行人人数和待疏散的行人个体在待疏散场景中的初始位置，并根据待疏散的行人人数确定群组数目；

在待疏散场景内的每一个疏散出口处设置计数器，用于统计每个出口疏散的行人个体数。

5.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法，其特征是：在每一群组内部选取一名引领者的具体步骤为：

6.如权利要求1所述的一种基于人工神经网络的Q-Learning行人疏散仿真方法，其特征是：跟随者根据社会力模型计算其与群组内部、群组间及环境的合力避障跟随引领者的具体步骤为：

7.一种计算机可读存储介质，其中存储有多条指令，所述指令执行权利要求1-6的任意一种基于人工神经网络的Q-Learning行人疏散仿真方法。

8.一种移动终端，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令执行权利要求1-6的任意一种基于人工神经网络的Q-Learning行人疏散仿真方法。