CN114781228A

CN114781228A - 基于单个疏散目标的全局疏散方法、设备及存储介质

Info

Publication number: CN114781228A
Application number: CN202210505622.4A
Authority: CN
Inventors: 田甜; 吴金华; 孙云; 倪骏; 王鸿儒; 张亮; 江易; 王要超; 常荣虎
Original assignee: Hangzhou Chinaoly Technology Co ltd
Current assignee: Hangzhou Chinaoly Technology Co ltd
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-22
Anticipated expiration: 2042-05-10
Also published as: CN114781228B

Abstract

本申请提供了基于单个疏散目标的全局疏散方法、设备及存储介质，应用于人防疏散技术领域，该方法包括：根据每个疏散目标的初始状态分布，按照时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标的集合到疏散出口之间移动距离所产生的疏密变化；根据最小时间代价疏散策略中每个疏散目标的最短疏散路径，计算出全局疏散策略；根据全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点，生成状态决策树模型；根据状态决策树模型中概率分布函数的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定每个疏散目标最佳的疏散路径；本申请能够精准预测个体疏散策略，从个体疏散策略角度为突发事件安全疏散提供科学指导。

Description

基于单个疏散目标的全局疏散方法、设备及存储介质

技术领域

本申请涉及人防疏散技术领域，具体而言，涉及一种基于单个疏散目标的全局疏散方法、设备及存储介质。

背景技术

随着社会经济的高速发展与科学技术的不断进步，城市化进行不断加快，公共场所内经常会出现大规模人群聚集情况，一旦发生突发事件，由于人群中普遍存在的从众心理和恐慌心理等因素，极易引起如人群拥堵、踩踏等恶性事件，如不能及时指导人群疏散将给生命财产造成严重损失；对人群疏散情况进行仿真模拟，为特定场景下的行人制定科学的应急疏散策略，减少疏散时间，对密集人群进行有效的控制和疏导，具有重大的现实意义，然而目前人群疏散中路径规划、强化学习、蚁群算法等均利用计算机模型从宏观或微观上，基于场景全局对人群疏散的仿真模拟的研究，该方法存在仿真结果与真实情况相差较大，仿真结果真实性差等缺点，况且在全局的情况下很难准确的预测出单个疏散目标最优疏散路径，以及很难选取个体疏散的最佳策略。

发明内容

有鉴于此，本申请实施例提供了一种基于单个疏散目标的全局疏散方法，能够精准预测个体疏散策略，从个体疏散策略角度为突发事件安全疏散提供科学指导，对个体疏散仿真模拟具有重要的意义。

第一方面，本申请实施例提供了一种基于单个疏散目标的全局疏散方法，包括：

根据元胞神经网络的场景特征对三维空间模型进行离散化网格划分，得到呈矩阵排列的多个小网格，其中，每个小网格作为一个疏散目标；

根据所述三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，所述初始状态分布包含疏散目标分布、疏散空间分布、疏散出口分布和障碍物分布；

根据每个疏散目标的初始状态分布，按照第一公式以时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标的集合到疏散出口之间移动距离所产生的疏密变化，该疏密变化作为所述每个疏散目标最小时间代价的疏散策略；

按照第二公式，根据最小时间代价疏散策略中每个疏散目标的最短疏散路径，计算出全局疏散策略；

根据所述全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点，生成状态决策树模型；

根据所述状态决策树模型中概率分布函数的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定出所述全局疏散策略中每个疏散目标最佳的疏散路径。

结合第一方面，本申请实施例提供了第一方面的第一种可能的实施方式，其中，根据元胞神经网络的场景特征对三维空间模型进行离散化网格划分，得到呈矩阵排列的多个小网格，还包括：

根据元胞神经网络的场景特征对三维空间模型进行网格划分，得到呈矩阵排列的多个小网格，并对呈矩阵排列的多个小网格进行顺序编号{1,2,3…i}。

结合第一方面的第一种可能的实施方式，本申请实施例提供了第一方面的第二种可能的实施方式，其中，根据所述三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，还包括：

在所述呈矩阵排列的多个小网格中设置一个选定疏散目标，以所述选定疏散目标为中心与周边相邻所有疏散目标在辐射面积内横向和纵向分布情况，确定为疏散目标疏密程度；

确定场景的疏散出口，并选取与疏散出口右端相邻区域作为外部出口区域。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第三种可能的实施方式，其中，根据所述三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，还包括：

在离散后的小网格中设置障碍物分布，所述障碍物分布为静态固定障碍物；

所述障碍物分布周边的状态与疏散出口相关联，与所述障碍物之间无关联。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第四种可能的实施方式，其中，根据每个疏散目标的初始状态分布，按照第一公式以时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标的集合到疏散出口之间移动距离所产生的疏密变化，该疏密变化作为所述每个疏散目标最小时间代价的疏散策略，包括：

根据指定位置下选定疏散目标的初始状态分布，按照第一公式以时间步长迭代计算选定疏散目标i与其四周相邻疏散目标的集合A(i)到疏散出口之间疏密变化的最小时间代价的疏散策略C(i)：

第一公式中的V(i)采用如下公式计算：

其中，h(j)表示选定疏散目标初始状态分布，当j为1时h(j)代表疏散目标，当j为0时h(j)代表疏散空间，j∈A(i)，A(i)表示与选定疏散目标i四周相邻疏散目标的集合，V(i)表示以选定疏散目标开始，按时间步长依次对疏散目标与相邻四个疏散目标的疏密变化发生改变后，完成一次迭代计算，再转移到下个选定疏散目标位置进行连续迭代计算，直到达到最大迭代次数；指定位置为网格化的坐标原点。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第五种可能的实施方式，其中，按照第二公式，根据最小时间代价疏散策略中每个疏散目标的最短疏散路径，计算出全局疏散策略，包括：

其中，j∈A(i)表示每个疏散目标的疏散目标或疏散空间，O_n(i)表示四周相邻疏散目标i的集合，n表示每个疏散目标的顺序编号，O(i)表示选定疏散目标{1,2,3…i}，C(i)表示每个疏散目标的最小时间代价的疏散策略，cost(n)表示每个疏散目标最短疏散路径的全局疏散策略。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第六种可能的实施方式，其中，根据所述全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点数据，生成状态决策树模型，包括：

根据预设控制阈值对每个疏散目标疏散路径中所有特征状态节点数据进行比对，得到每个疏散目标的状态比对结果；

根据所述每个疏散目标的状态比对结果，选取小于所述预设控制阈值的特征状态节点和每个疏散目标当前状态节点，生成状态决策树模型。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，本申请实施例提供了第一方面的第七种可能的实施方式，其中，根据所述状态决策树模型中概率分布函数公式的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定出所述全局疏散策略中每个疏散目标最佳的疏散路径，包括：

概率分布函数公式中状态和动作τ选取为：

其中，ε表示折扣因子，s_n+1表示每个状态，r_n+1表示下一动作选择的奖励期望值，

表示Q函数不断更新状态下动作的取值，这里Q(s_n,τ_n)表示Q函数的每个疏散目标当前状态和动作的取值，即根据寻找当前状态关联的行及动作关联的列作为Q函数的状态和动作的取值，也就是，在给定最佳的全局疏散策略的状态下选取相应动作，得到奖励期望值；e表示幂指数的底数；

表示全局疏散策略中每个疏散目标的当前状态下的动作。

第二方面，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于单个疏散目标的全局疏散方法步骤。

第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如基于单个疏散目标的全局疏散方法步骤。

本申请实施例提供的一种基于单个疏散目标的全局疏散方法，与现有技术从全局的情况下对人群疏散的仿真模拟相比，本申请能够准确的预测出单个疏散目标的最优疏散路径；本方案根据元胞神经网络的场景特征对三维空间模型进行离散化网格划分，得到呈矩阵排列的多个小网格；根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布；根据每个疏散目标的初始状态分布，按照第一公式以时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标的集合到疏散出口之间移动距离所产生的疏密变化，该疏密变化作为每个疏散目标最小时间代价的疏散策略；按照第二公式，根据最小时间代价疏散策略中每个疏散目标的最短疏散路径，计算出全局疏散策略；根据全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点，生成状态决策树模型；根据状态决策树模型中概率分布函数的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定出全局疏散策略中每个疏散目标最佳的疏散路径。具体来说，根据元胞神经网络的场景特征，构建二维网络的三维空间模型，根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，根据每个疏散目标初始状态分布，能够真实的模拟单个疏散目标在突发事件下疏散过程中每个状态下行为动作，确定最小时间代价的每个疏散目标的疏散策略和全局疏散策略，再根据最小时间代价每个疏散策略的疏散路径中所有特征状态节点，生成状态决策树模型，根据状态决策树模型选取每个疏散目标当前状态下动作到下一状态下动作的奖励期望值作为每个疏散目标最佳的疏散路径，该方法优化了算法结果，加快了模型算法的收敛速度，能够精准预测个体疏散策略，从个体疏散策略角度为突发事件安全疏散提供科学指导，对个体疏散仿真模拟具有重要的意义。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散的流程图。

图2示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法中每个疏散目标的初始状态分布示意图。

图3示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法中选定疏散目标与其四周相邻疏散目标集合的结构示意图。

图4示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法中生成状态决策树模型示意图的示意图。

图5示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到基于场景的全局人群疏散很难精准的获取到单一疏散目标最小时间代价的最佳疏散路径；基于此，本申请实施例提供了一种基于单个疏散目标的全局疏散方法，下面通过实施例进行描述。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图1示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法流程示意图；如图1所示，具体包括以下步骤：

步骤S10，根据元胞神经网络的场景特征对三维空间模型进行离散化网格划分，得到呈矩阵排列的多个小网格，其中，每个小网格作为一个疏散目标。

步骤S10在具体实施时，根据元胞神经网络的场景特征，采用有限元法原理和形函数将三维空间模型离散成小网格，并对所有小网格进行组合计算求解，得到呈矩阵排列的多个小网格，也就是说，采用形函数对每个小网格做离散化设置，每个小网格作为一个疏散目标，即疏散目标代表一个行人元胞。

步骤S20，根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，初始状态分布包含疏散目标分布、疏散空间分布、疏散出口分布和障碍物分布。

步骤S20在具体实施时，根据离散后三维空间模型的小网格域结构，及三维空间模型中选定疏散目标与其上方、下方、左方、右方相邻的四个疏散目标辐射面积映射的疏密程度、以及对每个小网格标注后的疏散目标数量，确定每个疏散目标的初始状态分布，即每个疏散目标的状态热力图，其中，初始状态分布中疏散出口分布为固定点，并选取与疏散出口外侧区域为外部出口区域。

步骤S30，根据每个疏散目标的初始状态分布，按照第一公式以时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标的集合到疏散出口之间移动距离所产生的疏密变化，该疏密变化作为每个疏散目标最小时间代价的疏散策略。

步骤S30在具体实施时，在所有的疏散目标中确定一个选定疏散目标，根据选定疏散目标的初始状态分布，按照第一公式以移动方向到移动速度产生的时间步长，依次迭代计算选定疏散目标与该选定疏散目标上方相邻疏散目标、下方相邻疏散目标、左方相邻疏散目标和右方相邻疏散目标到疏散出口之间移动距离所发生的疏密变化，即完成一次选定疏散目标的迭代计算，达到最大迭代次数时的疏密变化作为选定疏散目标最小时间代价的疏散策略。

步骤S40，按照第二公式，根据最小时间代价疏散策略中每个疏散目标的最短疏散路径，计算出全局疏散策略。

步骤S40在具体实施时，根据每个疏散目标的初始状态分布，计算当前选定疏散目标与其四周相邻疏散目标的最小时间代价的疏散策略，按照第二公式对最小时间代价疏散策略中每个疏散目标的最短疏散路径进行求和，得到全局疏散策略。

步骤S50，根据全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点数据，生成状态决策树模型。

步骤S50在具体实施时，根据每个疏散目标与其四周相邻疏散目标迭代的最小时间代价的疏散策略的数据帧，确定全局疏散策略中每个选定疏散目标对疏散路径的特征状态节点数据，选取每个疏散目标当前状态节点生成根节点，选取小于预设控制阈值的特征状态节点生成状态树的子节点，根据选取的根节点和子节点生成状态决策树模型。

步骤S60，根据状态决策树模型中概率分布函数的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定出全局疏散策略中每个疏散目标最佳的疏散路径。

步骤S60在具体实施时，按照概率分布函数和折扣因子，根据状态决策树模型中每个疏散目标当前状态下进行的每一个动作到下一个状态下每一个动作，计算出最大的奖励期望值，该奖励期望值作为全局疏散策略中每个疏散目标最佳的疏散路径，其中，每个疏散目标的每一列允许左移、右移、上移、下移四种操作，每一行代表状态，每个疏散目标的值代表给定状态和相应动作的最佳期望值。

在一个可行的实现方案中，上述步骤S10中，根据元胞自动机的场景特征对三维空间模型进行离散化网格划分，得到呈矩阵排列的多个小网格，还包括：

步骤101，根据元胞神经网络的场景特征对三维空间模型进行网格划分，得到呈矩阵排列的多个小网格，并对呈矩阵排列的多个小网格进行顺序编号{1,2,3…i}。

步骤101在具体实施时，根据元胞神经网络的场景特征，采用有限元法原理和形函数将三维空间模型离散成小网格，并对所有小网格进行组合计算求解，得到呈矩阵排列的多个小网格，以网格化的坐标原点为起始点对每个小网格进行顺序编号如{1,2,3…i}，每个小网格与顺序序号相对应。

在一个可行的实现方案中，图2示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法中每个疏散目标的初始状态分布示意图；上述步骤S20中，根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，还包括：

步骤201A，在呈矩阵排列的多个小网格中设置一个选定疏散目标，以选定疏散目标为中心与周边相邻所有疏散目标在辐射面积内横向和纵向分布情况，确定为疏散目标疏密程度；

步骤202A，确定场景的疏散出口，并选取与疏散出口右端相邻区域作为外部出口区域。

步骤201A、202A在具体实施时，从三维空间模型离散后的小网格中设置一个选定疏散目标，以选定疏散目标为中心与其上方、下方、左方、右方相邻的四个疏散目标辐射面积内横向和纵向分布情况，移动式判断相邻疏散目标是否为空闲，如果为空闲则为疏散空间，如果存在疏散目标则确定移动方向和移动速度，将移动所发生的疏密变化确定为疏散目标疏密程度，然后在离散后的小网格中设置每个场景的疏散出口，疏散出口分布为固定点，并选取与疏散出口外侧区域为外部出口区域。

在一个可行的实现方案中，上述步骤S20中，根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，还包括：

步骤201B，在离散后的小网格中设置障碍物分布，障碍物分布为静态固定障碍物。

步骤202B，障碍物分布周边的状态与疏散出口相关联，与障碍物之间无关联。

步骤201B、202B在具体实施时，在离散后三维空间模型的小网格中设置障碍物分布，当选定疏散目标向疏散出口移动时，障碍物的接触力和阻力无限大，障碍物分布周边的状态与疏散出口相关联，与障碍物之间无关联。

在一个可行的实现方案中，图3示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法中选定疏散目标与其四周相邻疏散目标集合的结构示意图；上述步骤S30中，根据每个疏散目标的初始状态分布，按照第一公式以时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标集合到疏散出口之间移动距离所产生的疏密变化，该疏密变化作为所述每个疏散目标最小时间代价的疏散策略，包括：

步骤301，根据指定位置下选定疏散目标的初始状态分布，按照第一公式以时间步长迭代计算选定疏散目标i与其四周相邻疏散目标集合A(i)到疏散出口之间疏密变化的最小时间代价的疏散策略C(i)：

第一公式中的V(i)采用如下公式计算：

步骤301在具体实施时，将三维空间模型网格化的坐标原点作为指定位置，从该位置下根据疏散目标分布、疏散空间分布、疏散出口分布和障碍物分布情况，按照第一公式根据选定疏散目标的移动方向和移动速度发生改变时的时间步长，计算选定疏散目标i与其四周相邻疏散目标集合A(i)到疏散出口之间疏密变化的最小时间代价的疏散策略C(i)；其中，当选定疏散目标初始状态分布h(j)中的j为1时，上方、下方、左方、右方相邻的四个疏散目标集合中均存在疏散目标，当选定疏散目标初始状态分布h(j)中的j为0时，上方、下方、左方、右方相邻的四个疏散目标集合为空，则代表疏散空间，j∈A(i)，A(i)表示与选定疏散目标i四周相邻疏散目标集合，V(i)表示以选定疏散目标开始，按时间步长依次与相邻疏散目标的疏密变化发生改变后，完成一次迭代计算，再转移到下个选定疏散目标位置进行连续迭代计算，直到达到最大迭代次数，确定每个疏散目标最小时间代价的疏散策略。

在一个可行的实现方案中，上述步骤S40中，按照第二公式，根据最小时间代价疏散策略中每个疏散目标的最短疏散路径，计算出全局疏散策略，包括：

步骤401，按照第二公式

计算全局疏散策略。

步骤401在具体实施时，根据每个疏散目标分布、疏散空间分布、疏散出口分布和障碍物分布情况，分别迭代计算当前选定疏散目标与其上方疏散目标、下方疏散目标、左方疏散目标、右方疏散目标的最小时间代价的疏散策略的数据帧，从最小时间代价疏散策略的数据帧中读取每个疏散目标的最短疏散路径，按照第二公式对每个疏散目标的最短疏散路径进行求和，得到每个疏散目标最短疏散路径的全局疏散策略；其中，j∈A(i)表示每个疏散目标的疏散目标或疏散空间，O_n(i)表示四周相邻疏散目标i的集合，n表示每个疏散目标的顺序编号，O(i)表示选定疏散目标{1,2,3…i}，C(i)表示每个疏散目标的最小时间代价的疏散策略，cost(n)表示每个疏散目标最短疏散路径的全局疏散策略。

在一个可行的实现方案中，图4示出了本申请实施例所提供的一种基于单个疏散目标的全局疏散方法中生成状态决策树模型示意图；上述步骤S50中，根据全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点数据，生成状态决策树模型，包括：

步骤501，根据预设控制阈值对每个疏散目标疏散路径中所有特征状态节点数据进行比对，得到每个疏散目标的状态比对结果；

步骤502，根据每个疏散目标的状态比对结果，选取小于预设控制阈值的特征状态节点和每个疏散目标当前状态节点，生成状态决策树模型。

步骤501、502在具体实施时，根据选定疏散目标与其四周相邻疏散目标迭代的最小时间代价的疏散策略的数据帧，确定全局疏散策略中每个选定疏散目标对疏散路径的特征状态节点数据，将预设控制阈值对每个疏散目标疏散路径中所有特征状态节点数据进行比对，得到每个疏散目标的状态比对结果，根据每个疏散目标的状态比对结果，选取小于预设控制阈值的特征状态节点生成状态树的子节点，选取每个疏散目标当前状态节点生成根节点，根据选取的根节点和子节点生成状态决策树模型。

在一个可行的实现方案中，上述步骤S60中，根据状态决策树模型中概率分布函数公式的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定出所述全局疏散策略中每个疏散目标最佳的疏散路径，包括：

步骤601，概率分布函数公式为：

概率分布函数公式中状态和动作τ选取为：

步骤601在具体实施时，按照概率分布函数公式，根据状态决策树模型中每个疏散目标当前状态下进行的每一个动作到下一个状态下每一个动作的取值，计算出最大的奖励期望值，这里根据下一次动作的奖励期望值不断更新Q函数的每个疏散目标当前状态和动作的取值，即根据寻找当前状态关联的行及动作关联的列作为Q函数的状态和动作的取值，也就是，在给定最佳的全局疏散策略的状态下选取相应动作，得到每个疏散目标当前状态下的奖励期望值，根据每个疏散目标当前状态下的奖励期望值，确定出全局疏散策略中每个疏散目标最佳的疏散路径，其中，ε表示折扣因子，s_n+1表示每个状态，r_n+1表示下一动作选择的奖励期望值，

表示Q函数不断更新状态下动作的取值，这里Q(s_n,τ_n)表示Q函数的每个疏散目标当前状态和动作的取值，e表示幂指数的底数；

表示全局疏散策略中每个疏散目标的当前状态下的动作。

对应于图1中的基于单个疏散目标的全局疏散方法，本申请实施例还提供了一种计算机设备70，图5，如图5所示，该设备包括存储器701、处理器702及存储在该存储器701上并可在该处理器702上运行的计算机程序，其中，上述处理器702执行上述计算机程序时实现上述的方法。

根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，初始状态分布包含疏散目标分布、疏散空间分布、疏散出口分布和障碍物分布；

根据每个疏散目标的初始状态分布，按照第一公式以时间步长依次迭代计算每个疏散目标与其四周相邻疏散目标的集合到疏散出口之间移动距离所产生的疏密变化，该疏密变化作为每个疏散目标最小时间代价的疏散策略；

根据全局疏散策略中每个疏散目标对疏散路径中所有特征状态节点，生成状态决策树模型；

根据状态决策树模型中概率分布函数的折扣因子和每个疏散目标当前状态下动作到下一状态下动作的奖励期望值，确定出全局疏散策略中每个疏散目标最佳的疏散路径。

对应于图1中的基于单个疏散目标的全局疏散方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

基于上述分析可知，与相关技术基于场景全局对人群疏散的仿真模拟相比，本申请实施例根据三维空间模型的结构、疏散目标疏密程度和疏散目标数量，确定每个疏散目标的初始状态分布，根据每个疏散目标初始状态分布，能够真实的模拟单个疏散目标在突发事件下疏散过程中每个状态下行为动作，确定最小时间代价的每个疏散目标的疏散策略和全局疏散策略，再根据最小时间代价每个疏散策略的疏散路径中所有特征状态节点，生成状态决策树模型，根据状态决策树模型选取每个疏散目标当前状态下动作到下一状态下动作的奖励期望值作为每个疏散目标最佳的疏散路径，该方法优化了算法结果，加快了模型算法的收敛速度，能够精准预测个体疏散策略，从个体疏散策略角度为突发事件安全疏散提供科学指导，对个体疏散仿真模拟具有重要的意义。

在本申请所提供的实施例中，应该理解到，所揭露设备和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。