CN117371760B

CN117371760B - 考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法

Info

Publication number: CN117371760B
Application number: CN202311621208.0A
Authority: CN
Inventors: 陈默子; 冯晓艺; 曾小玲; 刘克中; 杨星; 马玉亭
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2023-11-30
Filing date: 2023-11-30
Publication date: 2024-05-28
Anticipated expiration: 2043-11-30
Also published as: CN117371760A

Abstract

本发明公开了考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，包括：根据船舶内部结构以及船舶内部各通行区域行人移动速度，建立全局导航特征图模型；根据全局导航特征图模型，生成全局参考路径；构建应急疏散决策模型；利用强化学习算法的训练机制，结合特征提取网络框架，完成以客船人员自身为中心的基于强化学习的应急疏散决策模型的训练；在应急疏散决策模型的基础上，形成全局规划与局部引导相结合的分层式应急疏散决策逻辑并根据该逻辑对客船人员进行疏散。本发明具有成本低、效率高、灵活性高的优点。

Description

考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法

技术领域

本发明属于智能导航的客船人员应急疏散领域，具体涉及一种考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法。

背景技术

安全引导疏散是客船事故后的首要任务，尤其是在近年来发生的悲惨客船灾难中，突出了应急导航策略的重要性。与陆上疏散环境不同，由于船体在水面处于漂浮状态，危险事件发生后，外界救援难以快速到达，并且船载人员的运动行为容易受到影响。并且，由于大型客船内部空间组织结构复杂，危险事件位置信息不确定，客船人员难以在事故发生后快速完成对事件的判断并开始疏散行为。一旦发生严重事故，在不明确的疏散信息引导下，乘客容易出现恐慌、从众等行为现象，进而引发推挤、踩踏等危险情况，整体疏散过程效率较低。

在现有的应急疏散方法研究中，一部分工作考虑了船舶受损情况，按照疏散区域对人群划分并以网格或者节点为中心进行疏散路径规划。但是，由于船舶内部结构复杂，存在狭窄通道、楼梯等，行人视野受到限制，在不熟悉环境且疏散信息模糊的情况下，容易引发疏散人员的恐慌或者从众心理，产生跟随或聚集行为，导致部分疏散路径上发生拥挤。其中，在以导航节点为中心应急疏散方法中，同一节点附近的人群受到相同节点的引导，疏散过程中同样存在拥堵现象。另一方面，考虑结构复杂，功能区域繁多的船舶疏散场景，对于以个人为中心的疏散模型，其寻路算法计算量较大，无法保证疏散信息的实时性，乘客逃生时间超过疏散截止时间。

综上所述，尽管目前一些疏散模型已经相当成熟，但是较为复杂的船载环境对这些算法产生了极大的约束作用。

发明内容

本发明的目的在于，提供一种考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，具有成本低、效率高、灵活性高的优点。

为解决上述技术问题，本发明的技术方案为：考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，包括以下步骤：

A、根据船舶内部结构以及船舶内部各通行区域行人移动速度，建立全局导航特征图模型；

B、根据全局导航特征图模型，生成全局参考路径；

C、构建应急疏散决策模型：通过强化学习算法对真实的船舶室内疏散场景建立二维训练环境，通过设置智能体对船舶室内疏散场景中的客船人员进行建模，将二维训练环境和智能体建模作为应急疏散决策模型的基本构成要件；将智能体的观测图像作为应急疏散决策模型的输入；考虑二维训练环境中动态危险、移动人群以及船体结构对于应急疏散决策的影响；

D、利用强化学习算法的训练机制，结合特征提取网络框架，完成以客船人员自身为中心的基于强化学习的应急疏散决策模型的训练；

E、在应急疏散决策模型的基础上，形成全局规划与局部引导相结合的分层式应急疏散决策逻辑并根据该逻辑对客船人员进行疏散；所述分层式应急疏散决策逻辑具体为：在全局规划阶段，考虑到船舶内部结构复杂且功能区域繁多，紧急情况发生后，全局规划器结合各通行区域的环境特点以及行人移动速度为客船人员快速规划出疏散截止时间内的安全疏散路径，并为局部规划器提供路径参考；在局部导航阶段，根据采集到的环境信息，应急疏散决策模型结合全局参考路径以及客船人员所处的环境信息，为客船人员提供躲避危险与拥塞的实时疏散引导。

步骤A具体包括以下步骤：

A1、通过广义Voronoi图构造算法在无障碍空间上提取出一组与船舶内部墙体障碍物具有相同欧氏距离的GVD节点，其中，将所有GVD节点构成的集合定义为,每个GVD节点均满足以下公式：

其中，表示静态障碍物对应节点集合，将GVD节点/>与其最近的两个静态障碍物节点/>之间的距离定义为/>的半径/>；

A2、将每一个GVD节点进一步表示为，其中，/>表示该节点的坐标，/>表示其半径，GVD节点集合记为/>；

A3、根据各GVD节点的半径大小对集合中的节点进行排序，最大半径/>对应的节点记作/>，将最大半径对应的节点加入初步筛选集合/>中，并删除以/>为半径的区域内的所有节点；

A4、对于从用户初始位置节点前往出口节点/>的疏散路径/>，考虑任意时刻用户位置对应节点/>，/>表示从/>到/>的所有可通行路径集合，将节点/>的邻居节点/>定义为：

其中，表示用户从初始节点/>到达当前节点/>实际经历的延迟，/>表示路段/>的最坏情况延迟，/>表示从节点/>到达出口节点/>的路径的最坏情况延迟，/>是导航节点集合，/>是危险区域对应节点集合，/>是疏散截止时间；

A5、在初步筛选集合中确定特征半径最大的节点/>的邻居节点/>，再判断节点/>与其二级邻居节点/>之间的连通关系，当/>的所有二级邻居节点都满足连通关系时，则将其邻居节点/>从集合/>中删除，对删除筛选后的集合/>表示为特征节点集合/>；其中，当两节点之间的连线无障碍时，视为两节点满足连通关系；其中，二级邻居节点/>为/>邻居节点的邻居节点；

A6、检查集合中各特征节点之间的连通关系，建立全局导航阶段的特征图模型并表示为/>，将各特征节点之间的连通路段集合/>作为全局导航特征图模型的可通行路径。

步骤B具体包括以下步骤：

B1、生成各特征节点处的路由查询表，将某一特征节点的路由查询表表示为，其表示：对于节点/>，当/>作为下一跳节点时，从节点/>到出口的路径具有最小典型延迟/>和作为最坏情况延迟的延迟上界/>；其中，最小典型延迟和延迟上界/>分别根据客船人员的典型疏散移动速度和最坏情况下的移动速度计算得到；

B2、根据路由查询表中最坏情况延迟的最小值以及路段/>对应最坏情况延迟，计算出从节点/>到出口/>的最坏情况延迟的最小值，并表示为/>；其中，/>为随机特征节点，/>为/>的邻居节点；

B3、结合、/>和路段/>的典型延迟计算出最坏情况延迟/>和最小典型延迟/>，并将/>作为/>的候选三元组；其中，/>；

B4、判断是否将更新到路由查询表/>中，其判断方法为：当时，将/>中候选三元组替换为三元组/>；相反，当时，则不替换；

B5、对B2~B4执行次迭代，在每次迭代中，对于路段/>，将更靠近出口的节点/>对/>的路由查询表进行更新替换，在执行/>次迭代后得到各全局导航节点处的路由查询表；

B6、将客船人员的初始位置对应于全局导航节点，考虑路由表/>中的连通关系，根据下一跳节点的延迟上界生成全局参考路径。

步骤C具体包括以下步骤：

C1、定义强化学习的基本元素至少包括环境、智能体、环境状态、智能体动作和奖励；强化学习算法的主要过程为：智能体通过与环境的直接交互进而习得采用合适的决策来实现任务目标；

C2、为智能体设置局部观测范围的长度与宽度/>，表示为/>，以减小并固定应急疏散决策模型输入状态空间的大小，具体的，在每一时间步/>上，定义智能体的局部观测集合/>，/>分别表示智能体观测范围内的自由空间、静态障碍物、动态危险、移动人群以及全局参考路径的信息；

C3、将应急疏散决策模型的输出空间对应强化学习算法中的离散动作空间的九个疏散引导指示,各疏散引导指示分别表示从当前节点向上、下、左、右、左上、左下、右上、右下移动到相邻的导航节点以及当前节点即为导航节点的情况；

C4、根据智能体所在的单元格属性进行划分：定义智能体只能在边界线以内的区域移动，二维训练环境中每个区域对应真实场景中的一个房间或者其他功能区域，在此基础上，将二维训练环境按照等距网格进行划分，每个正方形的单元格大小为1m1m，对应一个二维坐标，将实时监测到的环境信息映射到二维训练环境中，根据环境中静态障碍物、集合站位置、移动行人、动态危险的坐标，将与环境对应的每个单元格被标记为不同属性，并通过扩展危险边界以保证客船人员不直接接触到危险，结合IMO MSC.1/Circ.1238 分析指南对于拥塞的定义，移动行人所在的单元格根据统计的行人数量进一步划分为/>的常规区域与/>的拥塞区域两种情况；

在每个时间步上，智能体获得的奖励值计算规则为：

（1）当智能体位于自由空间时，将获得一个负奖励值，以促进智能体以更少的步数完成任务；

（2）当智能体处于危险区域时，将获得一个负奖励值；

（3）当智能体与移动人群发生轻微拥塞时，即智能体所在单元格的人群密度为，将获得一个负奖励值/>，当智能体所在单元格的人群密度为时，将获得一个负奖励值/>；其中，/>；

（4）当智能体位于全局参考路径时，将获得一个正奖励值，其中表示全局导航路径中被移除的路径节点数量，然后从全局导航序列中移除当前单元格及其后的单元格；

（5）当智能体位于集合站对应单元格时将获得一个正奖励值。

步骤D具体包括以下步骤：

D1、将智能体局部观测集合的信息以三通道图像的形式表示观测图像；

D2、通过3DCNN模型提取观测图像的图像特征，随后将图像特征连接到LSTM网络以获取时间信息；

D3、全连接层输出图像特征中与每个状态-动作对应的值，/>值即强化学习中的价值，其用于表示智能体选择这个动作后，一直到最终状态奖励总和的期望值；训练过程一共持续/>个探索回合，/>∈正整数，在/>时刻，智能体获得的环境观测状态为/>，一定长度的历史观测序列堆叠构成状态/>，智能体与仿真环境进行交互后获得/>时刻的动作/>和其对应的即时回报值/>，并且更新观测状态/>与状态/>，从而形成一个四元组的状态转移关系/>；将状态转移关系/>存入容量为/>的记忆回放池中，从记忆回放池里随机抽取/>个状态转移关系用于网络更新，损失函数/>表示为：

其中，为当前/>值网络参数，/>表示随机抽取的记忆样本数量，/>表示每一个记忆样本对应的目标/>值；

D4、设计的决策模型将以用户为中心的疏散决策系统看作强化学习智能体，并将实时疏散环境信息映射到二维仿真环境中，智能体通过自行探索并根据环境的反馈自动修正对于环境的认知偏差，从而学习到最优疏散引导策略即训练结束；

D5、通过训练好的应急疏散决策模型将多帧观测图像输入到目标值网络中，计算出各观测图像中不同状态-动作对应的/>值，根据目标/>值网络输出的最大/>值生成疏散引导决策；其中，目标/>值网络为基于强化学习的神经网络。

步骤E具体包括以下步骤：

基于导航图模型，根据客船人员的初始节点，分别考虑以下三种情况:

（1）当初始节点为全局导航节点时，查询当前节点的路由查询表，生成由节点序列组成的全局参考路径，并执行步骤D4，由应急疏散决策模型引导客船人员前往子目标节点；将客船人员实际经历的延迟从疏散截止时间中减去，更新剩余逃生时间，重复上述操作循环进行，直到客串客船人员到达出口节点；其中，子目标节点为目标节点之一，目标节点即为目的地；

（2）当初始节点为非全局导航节点时，首先确定客船人员所在特征空间对应的全局导航节点，并计算出从客船人员所处初始节点到该全局导航节点的最短通行路径/>；然后通过查询该全局导航节点的路由表规划出最优导航路段/>，并将/>与相结合作为首段全局参考路径，由应急疏散决策模型引导客船人员前往子目标节点；将客船人员实际经历的延迟从疏散截止时间中减去，更新剩余逃生时间，重复上述操作循环进行，直到客串客船人员到达出口节点；

（3）当初始节点在危险区域内时，没有可通行的安全导航路径，客船人员需要等待救援。

步骤E还包括以下步骤：在实际疏散过程中，应急疏散决策模型向客船人员携带的移动设备发布实时的疏散决策信息，引导客船人员安全地前往集合站，当客船人员到达集合站时，其经历的所有节点将构成一条疏散轨迹，记为。

在步骤B6中，当存在至少两个可选择的下一跳导航节点时，以可选择的下一跳导航节点包含和/>为例，将疏散截止时间/>与节点/>的最坏情况延迟上界a和/>的最坏情况延迟上界b进行比较，c为与二级邻居节点的最坏情况延迟上界，其中，a＞b＞c，分别按照以下三种情况进行讨论：

（1）如果，则客船人员首先被引导到/>，后续节点的选取将与客船人员经过路段/>的实际延迟/>相结合；如果/>，则客船人员将被依次导航到和/>；如果/>，则客船人员将直接被导航到出口节点/>；

（2）如果，则客船人员将直接被导航到出口节点/>；

（3）如果，则无法保证客船人员能够在疏散截止时间之前达到出口。

步骤C和D中的强化学习算法为DDQN算法。

步骤E中在局部导航阶段，通过低功耗广域网技术对环境信息进行采集。

与现有技术相比，本发明的有益效果为：

本发明根据船舶室内疏散环境结构特征构建全局特征图模型，结合人员疏散通行特点，在全局特征节点处构建三元组路由查询表，并通过全局规划器快速搜索疏散截止时间内最优疏散路径。同时利用强化学习，设计一种新颖的奖励函数，为每个用户实时提供缓解拥塞的疏散指导。

附图说明

图1为本发明实施例的框架图；

图2为本发明实施例中路由查询表的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的技术方案为：如图1所示，一种考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法DC-HEN，该方法包括以下步骤：

A、根据船舶内部结构以及各通行区域行人移动速度，建立导航特征图模型；

B、采用一种具有保证延迟边界的快速路由算法生成全局参考路径；

C、提出一种基于强化学习的应急疏散决策模型，针对船舶室内疏散场景，对环境中的疏散人员进行智能体建模，为决策模型框架的建立做准备工作。然后，将智能体的观测图像作为决策模型的输入，同时考虑环境中动态危险、移动人群以及船体结构对于应急疏散决策的影响，完善强化学习基本要素的定义。

D、利用DDQN算法的训练机制，结合特征提取网络框架，完成以用户为中心的基于强化学习的应急疏散决策模型搭建与训练；

E、提出了一种全局规划与局部引导相结合的分层式应急疏散方法，在全局层面，考虑到船舶内部结构复杂且功能区域繁多，紧急情况发生后，全局规划器需要结合各通行区域的特点为用户快速规划出疏散截止时间内的安全疏散路径，并为局部规划器提供路径参考。在局部导航阶段，基于低功耗广域网（Low-Power Wide-AreaNetwork, LPWAN）技术采集到的环境信息，应急疏散决策系统结合全局参考路径以及用户周围环境信息，为用户提供躲避危险与拥塞的实时疏散引导。

步骤A具体包括以下步骤：

A1、利用广义Voronoi图(Generalized Voronoi Diagram,GVD)构造算法在无障碍空间上提取出一组与墙体障碍物具有相同欧氏距离的GVD节点，其中，每个GVD节点必须满足以下公式，将所有GVD节点构成的集合定义为,

其中，表示静态障碍物对应节点集合，将GVD节点/>与其最近的两个静态障碍物节点/>之间的距离定义为/>的半径，记作/>；

A2、将每一个GVD节点进一步表示为，其中/>表示该节点的坐标，/>表示其半径;

A3、根据节点的半径对集合中的节点进行排序，最大半径/>对应的节点记作，再将其加入初步筛选集合/>中，并删除以/>为半径的区域内的所有节点。重复此过程，在集合/>中，进一步筛选出保留环境结构信息的特征节点；

A5、确定特征半径最大的节点的邻居节点/>，再判断节点/>与其二级邻居节点/>之间的连通性，当/>的所有二级邻居节点都满足连通关系，即节点的连线无障碍时，则将其邻居节点/>从集合/>中删除，最后筛选得到特征节点集合表示为/>；

A6、检查集合中节点之间的连接关系，建立全局导航阶段的特征图模型，表示为，特征节点之间的连通路段集合/>构成了全局规划阶段的可通行路径。

如图2所示，步骤B具体包括以下步骤：

B1、生成各特征节点处的路由查询表，将某一特征节点的路由查询表表示为，其表示：对于节点/>，当/>作为下一跳节点时，从节点/>到出口的路径具有最小典型延迟/>和作为最坏情况延迟的延迟上界/>；其中，最小典型延迟和延迟上界/>分别根据客船人员的典型疏散移动速度和最坏情况下的移动速度计算得到，其中，典型疏散移动速度参考表2-1中走廊场景对应参数进行设置，最坏情况考虑船体横倾角度达到30°的情况，此时人员移动速度衰减比达到0.2625；

B2、根据路由查询表中最坏情况延迟的最小值以及路段/>对应最坏情况延迟，计算出从节点/>到出口/>的最坏情况延迟的最小值，表示为/>；

B3、结合、/>和路段/>的典型延迟计算出最坏情况延迟/>和最小典型延迟/>，并将/>作为/>的候选三元组；其中，/>，表示/>的最坏情况延迟不得小于/>；

B4、检查是否应将更新到路由查询表/>中：当/>时，候选三元组应替换/>中的现有的三元组/>，因为前者可以为用户提供具有更小典型延迟和更小最坏情况延迟的路径；相反，如果/>，则应忽略当前候选三元组。除了上述两种情况外，候选三元组还可以为用户提供当前路由查询表中不存在的节点选择方案，直接将其加入/>中；

B5、对B2~B4执行次迭代，在每次迭代中，对于路段/>，算法利用更靠近出口的节点/>对/>的路由查询表进行更新，最后得到全局导航节点处路由查询表；

B6、全局阶段的路由查询过程如下：以图2为例，用户的初始位置对应于全局导航节点，根据路由表/>中的连通关系，可选择的下一跳导航节点包含/>和/>。考虑疏散截止时间的约束，首先将疏散截止时间/>与节点/>的最坏情况延迟上界63和/>的最坏情况延迟上界60进行比较，分别按照以下三种情况进行讨论：

（1）如果，则用户首先被引导到/>，后续节点的选取将与用户经过路段/>的实际延迟/>相结合。如果/>，那么用户将被依次导航到/>和/>。如果，那么用户将直接被导航到出口节点/>；

（2）如果，那么用户将直接被导航到出口节点/>；

（3）如果，则无法保证用户能够在疏散截止时间之前达到出口。

步骤C具体包括以下步骤：

C1、强化学习的基本元素包括环境（Environment）、智能体（Agent）、环境状态（State）、智能体动作（Action）和奖励（Reward）。强化学习算法的主要过程为：智能体通过与环境的直接交互进而习得如何采用合适的决策来实现任务目标。

C2、为智能体设置局部观测范围，随着观测范围的增大，智能体获得的环境状态信息就越丰富，应急疏散决策模型计算得到轨迹的平均路径延展性越小。当观测空间增加到一定范围时，例如15×15时，平均路径延展性的变化趋于稳定。由于观测空间范围越大，模型的计算量越大。因此，为了平衡决策模型的性能与计算量，本实施例构建的应急疏散决策模型中智能体观测范围选定为/>，以减小并固定模型输入状态空间的大小，具体的，在每一时间步/>上，定义智能体的局部观测集合/>，包含了观测范围内的自由空间、静态障碍物、动态危险、移动人群以及全局导航路径的信息；

C3、决策模型的输出空间对应离散动作空间中的九个疏散引导指示,分别表示从当前节点移动（上、下、左、右、左上、左下、右上、右下，不动）到相邻的导航节点；输出空间即强化学习算法中的相关要素—动作，所有强化学习模型的输出中都有这一要素，这里将其命名为输出空间，它是智能体通过与环境的直接交互学习得出的；在训练阶段，输入大量的最佳导航路径给智能体学习，让智能体从中提取出最佳导航路径的特征，即在什么位置往哪个方向走最安全、疏散时间最少，在测试阶段，只需输入位置和环境，智能体自动输出导航方向。

C4、根据智能体所在的单元格属性进行划分，智能体只能在边界线以内的区域移动，仿真环境中每个区域对应真实场景中的一个房间或者其他功能区域，在此基础上，将仿真环境按照等距网格进行划分，每个正方形的单元格大小为1m1m，对应一个二维坐标（x，y）。基于LPWAN技术，将实时监测到的疏散环境信息映射到仿真环境中。根据环境中静态障碍物、集合站位置、移动行人、危险的坐标，每个单元格被标记为不同属性，并通过扩展危险边界以保证用户不直接接触到危险。结合IMO MSC.1/Circ.1238 对于拥塞的定义，移动行人所在的单元格根据统计的行人数量进一步划分为常规（/>）与拥塞（/>）两种情况。每个时间步/>上，智能体获得的奖励值计算规则如下：

（1）当智能体位于自由空间时，将获得一个较小的负奖励值，以促进智能体以更少的步数完成任务；

（2）当智能体处于危险区域时，将获得一个较大的负奖励值；

（3）当智能体与移动人群发生轻微拥塞时，即智能体所在单元格的人群密度为，将获得一个较小的负奖励值/>，当智能体所在单元格的人群密度为/>时，将获得一个较大的负奖励值/>；

（4）当智能体位于全局参考路径时，将获得一个较大的正奖励值，其中表示全局导航路径中被移除的路径节点数量，然后从全局导航序列中移除当前单元格及其后的单元格；

（5）当智能体位于集合站对应单元格时将获得一个较大的正奖励值。

步骤D具体包括以下步骤：

D1、智能体的观测状态信息以三通道图像的形式表示，网络的输入由多帧连续观测图像组合而成；

D2、使用3DCNN提取图像特征，随后将图像特征连接到LSTM网络以获取时间信息，长短期记忆网络（Long Short Term Memory, LSTM）中包含了输入门、输出门、遗忘门以及记忆单元，LSTM 可以利用其神经元中的输入门，遗忘门以及输出门实现对流动信息的有效控制，从而获得处理长序列数据的能力。具体的，模型中 LSTM 网络的神经元个数为 512，其输出连接到两层全连接层，神经元个数分别为 512 和 9。最后，输出层与神经元个数为9 的全连接层相连，对应了智能体动作空间中的九种不同疏散决策；

D3、全连接层输出与每个状态-动作对相应的值，即强化学习中的价值，它代表了智能体选择这个动作后，一直到最终状态奖励总和的期望值，训练过程一共持续/>个探索回合（Episode），将一个四元组的状态转移关系/>存入容量为/>的记忆回放池中，从记忆回放池里随机抽取/>个状态转移关系用于网络更新，损失函数为：

其中，为当前/>值网络参数；

D5、利用训练好的以用户为中心的应急疏散决策系统将局部环境信息与全局规划路径信息相结合，构成每一疏散时刻决策系统中强化学习智能体的局部观测图像。然后，利用训练好的应急疏散决策模型，决策系统将多帧观测图像输入到目标值网络中，计算出不同状态-动作的价值，最后根据网络输出的最大价值来制定导航决策。步骤E具体包括以下步骤：/>

E1、基于导航图模型，本文提出的分层式应急疏散方法执行过程如下，根据用户初始位置，分别考虑以下三种情况:

（1）初始用户节点是全局导航节点。在这种情况下，本文方法会直接查询当前节点的路由查询表，生成由节点序列组成的全局参考路径，应急疏散决策系统引导用户完成前往子目标节点。然后，将用户实际经历的延迟从总的疏散截止时间中减去，进而更新剩余逃生时间。上述操作循环进行，直到用户到达出口节点。

（2）初始用户节点是普通导航节点（非全局导航节点）。在这种情况下，算法会首先确定用户所在特征空间对应的全局导航节点，并计算出从用户初始位置到该节点的最短通行路径/>。然后，通过查询该全局导航节点的路由表规划出最优导航路段，并将/>与/>相结合作为首段全局参考路径。后续过程将按照情况（1）执行。

（3）初始用户节点在危险区域内。在这种情况下，没有可通行的安全导航路径，用户需要等待救援。

E2、在实际疏散过程中，应急疏散决策系统向用户携带的移动设备发布实时的疏散决策信息，引导用户安全地前往集合站。当用户到达集合站时，所有经历的节点构成一条疏散轨迹，记为。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，其特征在于，包括以下步骤：

B、根据全局导航特征图模型，生成全局参考路径；

E、在应急疏散决策模型的基础上，形成全局规划与局部引导相结合的分层式应急疏散决策逻辑并根据该逻辑对客船人员进行疏散；所述分层式应急疏散决策逻辑具体为：在全局规划阶段，考虑到船舶内部结构复杂且功能区域繁多，紧急情况发生后，全局规划器结合各通行区域的环境特点以及行人移动速度为客船人员快速规划出疏散截止时间内的安全疏散路径，并为局部规划器提供路径参考；在局部导航阶段，根据采集到的环境信息，应急疏散决策模型结合全局参考路径以及客船人员所处的环境信息，为客船人员提供躲避危险与拥塞的实时疏散引导；

步骤A具体包括以下步骤：

A1、通过广义Voronoi图构造算法在无障碍空间上提取出一组与船舶内部墙体障碍物具有相同欧氏距离的GVD节点，其中，将所有GVD节点构成的集合定义为每个GVD节点均满足以下公式：

其中，表示静态障碍物对应节点集合，将GVD节点v_g与其最近的两个静态障碍物节点s_nearest之间的距离定义为v_g的半径r_g；

A2、将每一个GVD节点进一步表示为v_g＝(x_g，y_g，r_g)，其中，(x_g，y_g)表示该节点的坐标，r_g表示其半径，将初步筛选得到的GVD节点集合记为初步筛选集合V_pre；

A3、根据各GVD节点的半径大小对集合V_g中的节点进行排序，最大半径对应的节点记作v_g(m_i)，将最大半径对应的节点加入初步筛选集合V_pre中，并删除以/>为半径的区域内的所有节点；

A4、对于从用户初始位置节点v_s前往出口节点v_e的疏散路径p(v_s→v_e)，考虑任意时刻用户位置对应节点v_i，p(v_i→v_e)表示从v_i到v_e的所有可通行路径集合，将节点v_i的邻居节点χ_i定义为：

其中，表示用户从初始节点v_s到达当前节点v_i实际经历的延迟，/>表示路段/>的最坏情况延迟，d_W(v_j→v_e)表示从节点v_j到达出口节点v_e的路径的最坏情况延迟，V是导航节点集合，V_h是危险区域对应节点集合，D是疏散截止时间；

A5、在初步筛选集合V_pre中确定特征半径最大的节点v_g(m_j)的邻居节点v_g′(m_j)，再判断节点v_g(m_j)与其二级邻居节点v_g″(m_j)之间的连通关系，当v_g(m_j)的所有二级邻居节点都满足连通关系时，则将其邻居节点v_g′(m_j)从初步筛选集合V_pre中删除，对删除筛选后的V_pre表示为特征节点集合V′；其中，当两节点之间的连线无障碍时，视为两节点满足连通关系；其中，二级邻居节点v_g″(m_j)为v_g(m_j)邻居节点的邻居节点；

A6、检查集合V′中各特征节点之间的连通关系，建立全局导航阶段的特征图模型并表示为G′＝(V′，E′)，将各特征节点之间的连通路段集合E′＝{e′_ij＝(v′_i，v′_j)}作为全局导航特征图模型的可通行路径；

步骤B具体包括以下步骤：

B1、生成各特征节点处的路由查询表，将某一特征节点v′的路由查询表表示为Tab[v′]＝(d′_v，π′_v，δ′_v)，其表示：对于节点v′，当π′_v作为下一跳节点时，从节点v′到出口v_e的路径具有最小典型延迟δ′_v和作为最坏情况延迟的延迟上界d′_v；其中，最小典型延迟δ′_v和延迟上界d′_v分别根据客船人员的典型疏散移动速度和最坏情况下的移动速度计算得到；

B2、根据路由查询表Tab[v′]中最坏情况延迟的最小值以及路段(u，v)对应最坏情况延迟，计算出从节点u′到出口v_e的最坏情况延迟的最小值，并表示为d_min；其中，u为随机特征节点，u′为u的邻居节点；

B3、结合d_min、Tab[v′]和路段(u′，v′)的典型延迟计算出最坏情况延迟d和最小典型延迟δ，并将(d，v′，δ)作为Tab[u′]的候选三元组；其中，

d＝max(d_min，c_T(u′，v′)+d_v′)；

B4、当(d_u′≥d)∧(δ_v′≥δ)时，将Tab[u′]中候选三元组替换为三元组(d_u′，π_u′，δ_u′)；相反，当(d_u′≤d)∧(δ_v′＜δ)时，则不替换；

B5、对B2～B4执行|V′|-1次迭代，在每次迭代中，对于路段(u′，v′)，将更靠近出口的节点v′对u′的路由查询表进行更新替换，在执行|V′|-1次迭代后得到各全局导航节点处的路由查询表；

B6、将客船人员的初始位置对应于全局导航节点v′_u，考虑路由表Tab[v′_u]中的连通关系，根据下一跳节点的延迟上界生成全局参考路径；

步骤C具体包括以下步骤：

C2、为智能体设置局部观测范围的长度H_o与宽度W_o，表示为H_o×W_o，以减小并固定应急疏散决策模型输入状态空间的大小，具体的，在每一时间步t上，定义智能体的局部观测集合分别表示智能体观测范围内的自由空间、静态障碍物、动态危险、移动人群以及全局参考路径的信息；

C3、将应急疏散决策模型的输出空间对应强化学习算法中的离散动作空间A＝{a₁，a₂，...，a₉}的九个疏散引导指示,各疏散引导指示分别表示从当前节点向上、下、左、右、左上、左下、右上、右下移动到相邻的导航节点以及当前节点即为导航节点的情况；

C4、根据智能体所在的单元格属性进行划分：定义智能体只能在边界线以内的区域移动，二维训练环境中每个区域对应真实场景中的一个房间或者其他功能区域，在此基础上，将二维训练环境按照等距网格进行划分，每个正方形的单元格大小为1m×1m，对应一个二维坐标，将实时监测到的环境信息映射到二维训练环境中，根据环境中静态障碍物、集合站位置、移动行人、动态危险的坐标，将与环境对应的每个单元格被标记为不同属性，并通过扩展危险边界以保证客船人员不直接接触到危险，结合IMO MSC.1/Circ.1238分析指南对于拥塞的定义，移动行人所在的单元格根据统计的行人数量进一步划分为≤2人/m²的常规区域与≥3人/m²的拥塞区域两种情况；

在每个时间步t上，智能体获得的奖励值计算规则为：

(1)当智能体位于自由空间时，将获得一个负奖励值r₁，以促进智能体以更少的步数完成任务；

(2)当智能体处于危险区域时，将获得一个负奖励值r₁+r₂；

(3)当智能体与移动人群发生轻微拥塞时，即智能体所在单元格的人群密度c为1＜c≤3人/m²，将获得一个负奖励值r₁+r₃，当智能体所在单元格的人群密度为c≥4人/m²时，将获得一个负奖励值r₁+r^3×2；其中，r₁＜r₃＜r₂；

(4)当智能体位于全局参考路径时，将获得一个正奖励值，然后从全局导航序列中移除当前单元格及其后的单元格；

(5)当智能体位于集合站对应单元格时将获得一个正奖励值；

步骤D具体包括以下步骤：

D3、全连接层输出图像特征中与每个状态-动作对应的Q值，Q值即强化学习中的价值，其用于表示智能体选择这个动作后，一直到最终状态奖励总和的期望值；训练过程一共持续K个探索回合，K∈正整数，在t时刻，智能体获得的环境观测状态为o_t，一定长度的历史观测序列堆叠构成状态s_t，智能体与仿真环境进行交互后获得t时刻的动作a_t和其对应的即时回报值r_t，并且更新观测状态o_t+1与状态s_t+1，从而形成一个四元组的状态转移关系(s_t，a_t，r_t，s_t+1)；将状态转移关系(s_t，a_t，r_t，s_t+1)存入容量为N_r的记忆回放池中，从记忆回放池里随机抽取N_b个状态转移关系用于网络更新，损失函数L(θ)表示为：

其中，θ为当前Q值网络参数，N_b表示随机抽取的记忆样本数量，表示每一个记忆样本对应的目标Q值；

D5、通过训练好的应急疏散决策模型将多帧观测图像输入到目标Q值网络中，计算出各观测图像中不同状态-动作对应的Q值，根据目标Q值网络输出的最大Q值生成疏散引导决策；其中，目标Q值网络为基于强化学习的神经网络；

步骤E具体包括以下步骤：

基于导航图模型G′＝(V′，E′)，根据客船人员的初始节点，分别考虑以下三种情况:

(1)当初始节点为全局导航节点时，查询当前节点的路由查询表，生成由节点序列组成的全局参考路径，并执行步骤D4，由应急疏散决策模型引导客船人员前往子目标节点；将客船人员实际经历的延迟从疏散截止时间中减去，更新剩余逃生时间，重复上述操作循环进行，直到客船人员到达出口节点；其中，子目标节点为目标节点之一，目标节点即为目的地；

(2)当初始节点为非全局导航节点时，首先确定客船人员所在特征空间对应的全局导航节点v′_i，并计算出从客船人员所处初始节点到该全局导航节点的最短通行路径p_si＝{v_s，...，v′_i}；然后通过查询该全局导航节点的路由表规划出最优导航路段p_ij＝{v′_i，...，v′_j}，并将p_si与p_ij相结合作为首段全局参考路径，由应急疏散决策模型引导客船人员前往子目标节点；将客船人员实际经历的延迟从疏散截止时间中减去，更新剩余逃生时间，重复上述操作循环进行，直到客船人员到达出口节点；

(3)当初始节点在危险区域内时，没有可通行的安全导航路径，客船人员需要等待救援；

在步骤B6中，当存在至少两个可选择的下一跳导航节点时，以可选择的下一跳导航节点包含v′₁和v_e为例，将疏散截止时间D与节点v′₁的最坏情况延迟上界a和v_e的最坏情况延迟上界b进行比较，c为与二级邻居节点的最坏情况延迟上界，其中，a＞b＞c，分别按照以下三种情况进行讨论：

(1)如果D≥a，则客船人员首先被引导到v′₁，后续节点的选取将与客船人员经过路段的实际延迟/>相结合；如果/>则客船人员将被依次导航到v′₂和v_e；如果/>则客船人员将直接被导航到出口节点v_e；

(2)如果a＞D≥b，则客船人员将直接被导航到出口节点v_e；

(3)如果D＜b，则无法保证客船人员能够在疏散截止时间之前达到出口。

2.根据权利要求1所述的考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，其特征在于，步骤E还包括以下步骤：在实际疏散过程中，应急疏散决策模型向客船人员携带的移动设备发布实时的疏散决策信息，引导客船人员安全地前往集合站，当客船人员到达集合站时，其经历的所有节点将构成一条疏散轨迹，记为p_se＝{v_s，...，v_j，...，v_e}。

3.根据权利要求1所述的考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，其特征在于，步骤C和D中的强化学习算法为DDQN算法。

4.根据权利要求1所述的考虑截止时间和拥塞缓解的分层式客船人员应急疏散方法，其特征在于，步骤E中在局部导航阶段，通过低功耗广域网技术对环境信息进行采集。