CN113639755A

CN113639755A - 一种基于深度强化学习的火灾现场逃生-救援联合系统

Info

Publication number: CN113639755A
Application number: CN202110961650.2A
Authority: CN
Inventors: 郑艳芳; 秦伟舒; 李雪宝; 田会峰; 周瑜; 刘乾
Original assignee: Suzhou Institute Of Technology Jiangsu University Of Science And Technology
Current assignee: Suzhou Institute Of Technology Jiangsu University Of Science And Technology
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-12

Abstract

本发明公开一种基于深度强化学习的火灾现场逃生‑救援联合系统，该系统包括设置在消防安全重点单位消火栓箱附近的逃生衣和设置在消防救援车上的消防控制室；所述逃生衣设有在恶劣环境下与外界通讯的低功耗无线信号传输模块，并植入建筑物逃生路线图、室内定位系统和基于Q‑learning强化学习逃生路径规划算法；所述消防控制室设有信息接收模块和基于实时火情和LSTM的逃生路径引导算法；一旦发生火情，现场人员拿起逃生衣产生快速移动时，逃生衣的线信号传输模块自动启动引导人员疏散，并与消防控制室和消防救援车进行实时通信，实现火灾现场自救和消防救援人员搜救相结合，有效的提高生还率，最大程度上减轻火灾现场人员的受害程度。

Description

一种基于深度强化学习的火灾现场逃生-救援联合系统

技术领域

本发明涉及一种基于深度强化学习的火灾现场逃生-救援联合系统。

背景技术

近年来各种灾害及事故频发，而很多在日常生活中难以察觉的问题如:逃生通道设计不合理，缺乏足够的应急设施等，在灾害发生时可能成为隐患。因此人们迫切地希望能够通过使用人群模拟技术，对灾害发生时的场景进行模拟，提前发现这些潜在的问题，从而及时改进。

火灾是一种最常见、最普遍的灾难形式。从2020年初步统计的数据可知，全国一共发生25.2万起火灾，遇难人数为1183人，直接财产损失达40.09亿元，严重威胁了国家的公共安全，并且阻碍了社会发展。调查显示，在火灾发生的时候，很多人并不是被火烧死，而是由于救援时的抢救路径规划不合理，浪费大量时间被闷死或者窒息致死，因此，具备协助火场人员逃生和为救援人员提供火场内部人员信息的联合逃生-救援系统非常重要。

发明内容

基于上述的研究背景，在深入分析强化学习和路径规划的两项关键技术基础上，针对特定的火灾场景，从人物建模、建筑建模、选择合适的强化学习算法以及寻求最佳路径方案四个方面实现联合逃生-救援系统，具体技术方案如下：

一种基于深度强化学习的火灾现场逃生-救援联合系统，包括设置在消防安全重点单位消火栓箱附近的逃生衣和设置在消防救援车上的消防控制室；

所述逃生衣设有在恶劣环境下与外界通讯的低功耗无线信号传输模块，并植入建筑物逃生路线图、室内定位系统和基于Q-learning强化学习逃生路径规划算法；

所述消防控制室设有信息接收模块和基于实时火情和LSTM的逃生路径引导算法；

一旦发生火情，现场人员拿起逃生衣产生快速移动时，逃生衣的无线信号传输模块自动启动引导人员疏散，并与消防控制室和消防救援车进行实时通信。

因此，前述的基于深度强化学习的火灾现场逃生-救援联合系统，其包括两个核心算法，一个是基于Q-learning强化学习逃生路径规划算法，另一个是基于实时火情和LSTM的逃生路径引导算法。

其中，基于Q-learning强化学习逃生路径规划算法，在基于强化学习设计火灾抢救路径的时候，首先需要明确系统的输入和输出，也就是系统的需求分析，根据火灾具体场景的定义，在进行系统使用的时候，输入和输出定义如下：

输入：火灾初始位置参数；

输出：抢救矩阵。

在救援活动中，抢救人员难免会遇到复杂纷乱的火灾环境，在这种情况下处理环境信息具有一定难度，为了降低这一难度，将环境信息分为内部环境信息和外部环境信息。在前期针对Agent的训练过程中，将把一个固定的内部环境信息提供给Agent学习。外部环境信息的作用主要是设置合适的奖惩制度，促使Agent在探索过程中收获最大奖励值，也就是所谓的“回报最大化”。在生成一个策略后，外部环境信息将收获的累积奖励值反馈给Agent，Agent的内部环境信息接收到这一反馈信号后，会处理生成新的信息提供给内部环境信息的情感学习系统。就这样循环往复，Agent的情感学习系统将会越来越完善，从而使得抢救人员做出最优决策，规划出最佳路径方案。

所述基于火灾环境下进行路径规划的强化学习系统，其详细设计如下：

1）救援人员首先获得的发生火灾的建筑物的外部环境信息，该信息限定了一个函数的外部框架，该框架能够帮助救援的规划路径拿到最佳的结果；

2）救援人员将获得的外部环境信息和内部环境信息均传递到所述基于Q-learning强化学习逃生路径规划算法中，实现火灾初始位置参数的设置和救援人员抢救的最佳路径规划方案；

3）救援人员将环境信息观察结论移交给情感系统内机制，将分析结果解析为结果建议，并反馈到强化学习系统的策略选择算法中，从而得到最佳路径策略。

在Q-Learning算法学习过程中，Agent的目的是达到奖励值最高的状态，所以当Agent抵达目标区域时，它将不再返回。像这一类别的目标被人们称为“吸收目标”。依据Q-Learning算法学习的理论，将每一个区域抽象为一个状态，选择出发进入哪一个区域作为动作，把状态图和立刻奖励值整理放入回报矩阵中。

得到这样一个回报矩阵之后，将在Agent的大脑中加入一个类似的矩阵“Q”，作为探索得来的一个奖励值参考表。矩阵的行代表着Agent目前所在的区域，它的列代表着Agent下一步会选择进入的区域。最初Agent没有学习收获到任何知识，矩阵Q被初始化为0。在不同火灾情况下，涉及到的状态也是未知的，假如救援人员不了解涉及多少个区域（状态），那么矩阵Q可能从仅有1个元素开始，同样地，假如救援人员在了解过程中寻找到了新的区域（状态），那么相应地可以在矩阵Q中加入更多的行和列。与此同时，在火灾现场，火势会逐渐蔓延，区域之间的通道情况也会随之改变，这时只需要改变相应的奖励值就能够更新矩阵Q。

在每一个场景区域里面的探索行动都会为Agent的“大脑”增加经验，同时也会更新矩阵Q，通过如下流程对Q矩阵进行训练：

（1）对仓库环境和各种参数（最大训练周期数，火灾初始位置参数γ，即时回报函数R和评估矩阵Q）进行初始化；

（2）任意选出一个初始状态s，若s=s*，那么这一周期就此结束，重新选择新的开始状态；

（3）在当前状态s下的全部可能动作中随机选取一个动作a，而且每一个动作被选择的可能性相同；

（4）在当前状态s下选取动作a后进如下一个状态s’；

（5）使用Q学习的更新规则公式更新Q矩阵；

（6）设置下一状态为当前状态，s=s’，若s没有获得目标状态，那么将转到步骤3；

（7）假如算法没有达到最大训练周期数，跳转到步骤2重新选择状态进入下一周期，否则结束训练，这个时候就得到训练成功的具有收敛性的矩阵Q。

Agent正是利用以上7个步骤来学习经验。把每一个环境比作一个学习培养的过程。Agent在这一过程中，将深入探索周围环境，与此同时接受立刻奖励值，一直达到目标状态为止。这些训练都是为了使Q矩阵（Agent的“大脑”）得到优化，Q矩阵的优化程度随着我们训练场景的增多不断得到提升。在Q矩阵的优化程度达到一定程度时，Agent在探索过程中就能够以最快的路线抵达目标区域，而不会出现在相同房间内进进出出的问题。

所述对矩阵Q进行训练还包括在PyCharm中利用Python语言对Agent进行训练；训练时，将设置为火灾初始位置参数，它的范围是0到0.9。如果γ接近于0，那就意味着agent远离起火位置，此时的agent会倾向于收获立刻奖励值。如果γ更接近0.9，则意味着agent靠近起火点，这个时候agent将会考虑更多的权重，选择延迟收获奖励。在仿真过程中，通过输入不同的参数γ值，来代表各层救援人员与该楼层火灾初始位置之间的远近关系。

所述基于实时火情和LSTM的逃生路径引导算法，是通过一个固定的先验内容来实现的，其关键是构建探索过程中的代价函数，即启发函数，所构建算法的寻路步骤是：

S1.将起始点O存入“开启列表”，等待系统检查，所用点位的数据形成数据库，并且可以作为先验的结果进行存储；

S2.探索点O周围能够抵达的点 Q，把点Q放到“开启列表”中，并将点O命为母点；

S3.在“开启列表”中找到并转移点O，将点O转移到“已走列表”当中，也就是说，从一个火灾避险或者逃生位置走出，不能再回到该点位，因为系统已经默认该点为扰动点或者是干扰点；

S4.在点Q寻找该点周围所有能够抵达的点R：若点R在“安全列表”中有一席之地，那么下一步就是通过计算来比较是否经过点R的两种情况下所产生的代价，根据代价大小判断是否经过点R；一旦救援人员进入安全列表，则表示能够从该位置进入下一个楼层；

S5.重复步骤S2～S4直至寻到目标点P，该目标点为动态点，在动态点位设计中，所有的出口点位都设置在了一楼，也就是说，不能通过从2楼或者3楼采取跳跃的方式来达到救援成功的目的，只能通过将路径规划到1楼的方式来进行逃生。

前述的基于深度强化学习的火灾现场逃生-救援联合系统，所述基于实时火情和LSTM的逃生路径引导算法，还包括火灾救援判定程序，其通过直接输入给定范围内的数字来判定依据历史数据库能否抢救成功，更加直观快速地进行最佳路径规划。

本发明方法的有益效果：

本发明联合系统将基于Q-Learning算法的 “在线学习”和基于实时火情和LSTM算法的疏散引导算法对历史数据库学习的优势相结合，实现火灾现场自救和消防救援人员搜救相结合，有效的提高生还率，最大程度上减轻火灾现场人员的受害程度。从实验结果中可以看出，Q-Learning算法具备实时应变能力；LSTM算法其过程结合火灾现场的各种传感器探测到实时火情协作完成，误差小，预测的救援路线和实际数据吻合度较高，更具有可靠性，两者相结合更高效率和更可靠的完成救援任务。

附图说明

图1为本发明楼层简化模型示意图；

图2为本发明标有奖励值的简化模型示意图；

图3为本发明矩阵Q训练流程图；

图4为本发明四楼抢救矩阵；

图5为本发明三楼抢救矩阵；

图6为本发明二楼抢救矩阵；

图7为本发明一楼抢救矩阵；

图8为本发明抢救路径预测误差分析图；

图9为本发明火灾救援判定程序界面示意图。

具体实施方式

下面将结合实施例图，对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。具体实施例如下：

实施例1

本实施例是一种基于深度强化学习的火灾现场逃生-救援联合系统，该系统包括设置在消防安全重点单位消火栓箱附近的逃生衣和设有消防控制室的消防救援车；所述逃生衣设有在恶劣环境下与外界通讯的低功耗无线信号传输模块，并植入建筑物逃生路线图、室内定位系统和基于Q-learning强化学习逃生路径规划算法；所述消防控制室设有信息接收模块和基于实时火情和LSTM的逃生路径引导算法。一旦发生火情，现场人员拿起逃生衣产生快速移动时，逃生衣的线信号传输模块自动启动引导人员疏散，并与消防控制室和消防救援车进行实时通信。

因此，本实施例所述的基于深度强化学习的火灾现场逃生-救援联合系统，其包括两个核心算法，一个是基于Q-learning强化学习逃生路径规划算法，另一个是基于实时火情和LSTM的逃生路径引导算法。

一、基于Q-learning强化学习逃生路径规划算法

在基于强化学习设计火灾抢救路径的时候，首先需要明确系统的输入和输出，也就是系统的需求分析，根据火灾具体场景的定义，在进行系统使用的时候，输入和输出定义如下：

输入：火灾初始位置参数；

输出：抢救矩阵。

这样的划分后，内部环境和外部环境相辅相成，大大提高了抢救人员处理信息时的准确性，也可以将多维度环境信息转化为二维环境信息。在内部环境和外部环境的配合作用下，Agent不断学习完善系统，寻找最佳路径，为抢救人员提供最佳决策。

本实施例中，从需求的分析和代码的完整性、输入的稳定性考虑，所述基于火灾环境下进行路径规划的强化学习系统，其详细设计如下：

例如，在一种Q-Learing算法的建筑物模型中，每层楼由5个火灾区域和1个安全区域（2个安全通道）构成，在设计过程中，用6个圆圈代表这6个区域，用带有单向箭头的连线代表区域之间的通道，将建筑物模型抽象简化为如图1所示的模型。其中0号区域和4号区域是相通的，1号区域和3号区域是相通的，2号区域和3号区域是相通的，3号区域和4号区域是相通的，4号区域和5号区域是相通的，5号区域和1号区域也是相通的。

因为遇难人员可能会被困在一层楼中的任意一个区域里面，所以救援人员将会随机进入任意一个区域（即将Agent放入任意一个区域里面），然后从那个区域开始行动，一直到走出这层楼为止（即每层楼的5号区域为目标区域）。区域之间的通道是双向的，所以代表不同区域的每个圆圈之间是由两个单向箭头连接的。设计的奖励制度为通过行动到达5号区域（即安全通道）就能够收获立刻奖励值10，通过不同区域之间的通道能够收获为0的奖励值。用虚线的连线代表10的奖励值，用实线的连线代表0的奖励值，并将对应的奖励值标在简化后的模型图中得到一个能代表奖励制度的新的模型图，如图2所示。

在Q-Learning算法学习过程中，Agent的目的是达到奖励值最高的状态，所以当Agent抵达目标区域时，它将不再返回。像这一类别的目标被人们称为“吸收目标”。依据Q-Learning算法学习的理论，将每一个区域抽象为一个状态，选择出发进入哪一个区域作为动作，把状态图和立刻奖励值整理放入奖励值图，即回报矩阵R中：（当两个区域状态之间没有通道连接时，用数字-1表示这个不能选择的动作）

得到这样一个回报矩阵R之后，我们将在Agent的大脑中加入一个类似的矩阵“Q”，作为探索得来的一个奖励值参考表。矩阵的行代表着Agent目前所在的区域，它的列代表着Agent下一步会选择进入的区域。最初Agent没有学习收获到任何知识，矩阵Q被初始化为0。在不同火灾情况下，涉及到的状态也是未知的，假如救援人员不了解涉及多少个区域（状态），那么矩阵Q可能从仅有1个元素开始，同样地，假如救援人员在了解过程中寻找到了新的区域（状态），那么相应地我们可以在矩阵Q中加入更多的行和列。与此同时，在火灾现场，火势会逐渐蔓延，区域之间的通道情况也会随之改变，这时我们只需要改变相应的奖励值就能够更新矩阵Q。

在每一个场景区域里面的探索行动都会为Agent的“大脑”增加经验，同时也会更新矩阵Q，通过如下流程对Q矩阵进行训练，如图3所示：

（4）在当前状态s下选取动作a后进如下一个状态s’；

（5）使用Q学习的更新规则公式更新Q矩阵；

Agent正是利用以上7个步骤来学习经验。把每一个环境比作一个学习培养的过程。Agent在这一过程中，将深入探索周围环境，与此同时接受立刻奖励值，一直达到目标状态为止。这些训练都是为了使Q矩阵（Agent的“大脑”）得到优化，Q矩阵的优化程度随着训练场景的增多不断得到提升。在Q矩阵的优化程度达到一定程度时，Agent在探索过程中就能够以最快的路线抵达目标区域，而不会出现在相同房间内进进出出的问题。

对矩阵Q进行训练还包括在PyCharm中利用Python语言对Agent进行训练；训练时，将设置为火灾初始位置参数，它的范围是0到0.9。如果γ接近于0，那就意味着agent远离起火位置，此时的agent会倾向于收获立刻奖励值。如果γ更接近0.9，则意味着agent靠近起火点，这个时候agent将会考虑更多的权重，选择延迟收获奖励。在仿真过程中，通过输入不同的参数γ值，来代表各层救援人员与该楼层火灾初始位置之间的远近关系。

在本实施例中，将四楼、三楼、二楼、一楼的火灾初始位置参数分别设置为0.6、0.8、0.5、0.2。然后运行程序分别得到各个楼层的抢救矩阵Q，如图4至图7所示。当这四个个抢救矩阵Q都已经达到它们的最优状态，代表着我们的Agent在探索学习的过程中成功收获了从一个任意状态转移到目标状态的最佳路径。救援人员就可以通过仿真得到的抢救矩阵Q，得到从不同区域进入安全区域的最佳路径。

下面将对每一层楼进行举例，说明怎么通过抢救矩阵Q选出最优决策，为救援人员规划出抢救时的最佳路径。

第一种情况假设救援人员在4楼的3号区域发现生命体，然后展开抢救行动。由图4和图5可知，当救援人员从3号区域展开抢救行动时，可选择的最大Q值为15，此时有两个最大的Q值，代表救援人员有两种最优动作可以选择。当选择进入4号区域时，发现最大Q值为25，然后直接选择进入5号区域，到达安全通道，此时的最佳路径选择是3-4-5。而当选择进入1号区域时，同样地发现最大Q值为25，也可以直接选择进入5号区域，抵达安全通道，此时的最佳路径选择是3-1-5。这两种选择的累计回报值相等，都是40，所以救援人员带领生还者从3号区域转移到5号区域有两种最佳路径的选择。

第二种情况假设的救援人员在3楼的2号区域发现生命体，然后展开抢救行动。由图6可知，当救援人员从2号区域展开抢救行动时，可选择的最大Q值为32，此时只有一个最大Q值，代表救援人员只有一种最优动作可以选择，即选择进入3号区域。当进入3号区域时，发现最大Q值为40，此时有两个最大Q值，代表救援人员有两种最优动作可以选择。当选择进入4号区域时，发现最大Q值为50，然后直接选择进入5号区域，到达安全通道，此时的最佳路径选择是2-3-4-5。而当选择进入1号区域时，同样地发现最大Q值为50，也可以直接选择进入5号区域，抵达安全通道，此时的最佳路径选择是2-3-1-5。这两种选择的累计回报值相等，都是122，所以三楼的救援人员带领生还者从2号区域转移到5号区域也有两种最佳路径的选择。

第三种情况假设救援人员在2楼的0号区域发现生命体，由图7所示，当救援人员从0号区域展开抢救行动时，可选择的最大Q值为10，此时只有一个最大Q值，代表救援人员只有一种最优动作可以选择，即选择进入4号区域。当进入4号区域时，发现只有一个最大Q值为20，然后选择进入5号区域，抵达安全区域。此时只有一种最佳路径决策，它的选择为0-4-5，累计回报值为30。

第四种情况假设救援人员在1楼的4号区域发现生命体，由图7所示，当救援人员从4号区域展开抢救行动时，可选择的最大Q值为12.5，此时只有一个最大Q值，救援人员能够直接选择进入5号区域，到达安全地带。这种情况下的最佳路径决策最为简单，它的方案是4-5，累计回报值为12.5。

二、基于实时火情和LSTM的逃生路径引导算法

基于实时火情和LSTM的逃生路径引导算法研究与其他强化学习算法都有着相同之处，在本实施例前部分的分析中可以知道，基于Q-learning强化学习逃生路径规划算法是需要先验知识的，因此，基于实时火情和LSTM的逃生路径引导算法也需要一个固定的先验内容来实现算法，从需求上说，其二者还有一定的区别，基于实时火情和LSTM的逃生路径引导算法需求主要包括如下内容：

1. 救援人员根据历史数据获得一个最佳路径图，该历史数据通过LSTM算法基于大数据训练完成，并输入到Agent的深度强化学习系统处理器中。

2.策略选择算法将以输入不同火灾点位值得到的结果为依据，为深度强化学习系统过滤掉无用决策。

3.系统借助LSTM算法将分析得到的最优策略提供给Agent，然后根据最优策略告诉抢救人员下一时刻该选择怎么样的动作，同时为系统累计情感信息和回报信息。

4.系统能够根据具体的火灾位置和救援人员的位置给出最佳路径的决策。

在积累LSTM算法的数据之前，需要一定的数据库和训练模型进行积累，一般来说，主要是通过一定的火灾抢救策略设计来完成，并且将该数据保存为结构化数据，结构化数据训练出的模型能够直接进行使用。

利用LSTM算法进行系统训练的过程是深度强化学习的基本过程，将LSTM深度学习算法和强化学习方法相结合，可以解决LSTM算法只适用于静态路网的问题，使得系统具备自我更新的能力。充分利用关于抢救路径的历史先验数据，提高抢救人员在不同火灾环境下的反应能力。LSTM深度学习算法是一种适用于在静态的建筑物地图中直接搜索的算法，它的特点是它的探索算法是具有启发性的。在探索过程中对点到点之间的代价进行评估，这是LSTM算法的基本思想，因此关键是构建探索过程中的代价函数（启发函数）。

本实施例所述基于实时火情和LSTM的逃生路径引导算法，所构建算法的寻路步骤是：

LSTM深度强化学习系统对抢救人员有一定的要求，它需要抢救人员足够了解火灾环境，也就是说抢救人员在进行路径规划时，必须要知道目前所处位置和目的地位置。启发函数是LSTM深度强化学习系统中的核心工具，抢救人员正是通过它在路径规划过程中做出合适的探索行为。LSTM算法中的启发函数通常是指点到点之间的代价函数，这些点一般是指目前所处位置、目的地位置、起始位置。

在实际火灾情境中，可以灵活地设计其中的启发函数。一般情况下，采用最基础的设计，通过评估不同点之间的距离来生成启发函数。不过在纷乱复杂的火灾环境模型中，选择把抢救人员面对火灾时产生的动作当作评估标准的参考因素。启发函数的设计与完成任务的速度和精确度息息相关，所以在实际应用中，一定要灵活地去设计启发函数。

在训练过程中，为了使得训练结果更加具有可靠性，将数据打乱十次，分别进行十次训练。训练结束后会生成一个如图8所示的路径预测误差分析图。

从图中可以看出，LSTM算法在给定路径下的误差较小，预测的救援线路和实际数据吻合度较高。规划的结果不仅能够指导救援人员对火灾进行躲避，而且能够提供抢救生命体的最佳路径规划方案，和其他几种算法相比，LSTM算法在速度和效果两个方面都更胜一筹，能够满足救援人员来进行火灾环境下抢救生命体的基本需求。

本实施例述的基于深度强化学习的火灾现场逃生-救援联合系统，在系统已经训练学习完给定历史数据，形成一个先验数据库的基础上，还设计了一个“火灾救援判定程序”的界面，如图9所示，通过直接输入给定范围内的数字来判定依据历史数据库能否抢救成功，更加直观快速地进行最佳路径规划。在选择救援起始位置时，可以输入1-12十二个整数中的任意一个数字，在每层楼选择出口下楼时，可以输入的数字为1-8八个整数，在选择是否下楼的时候可以输入0（否）或1（是）。

在实验仿真过程中，随机输入三组数据“6、8、1、4、1、3、1、4”、“12、3、1、6、1、4、1、8”、“4、2、1、6、1、8、1、4”，“8、2、1、5、1、4、1、7”分别得到判定结果：

当输入“6、8、1、4、1、3、1、4”这组数据时，判定救援成功；

当输入“12、3、1、6、1、4、1、8”这组数据时，判定救援失败；

当输入“4、2、1、6、1、8、1、4”这组数据时，判定救援成功；

当输入“8、2、1、5、1、4、1、7”这组数据时，判定救援失败。

即输入不同组数值时，会显示“救援成功”和“救援失败”两种判定结果，显示“救援成功”就意味着此时已经规划出最佳路径方案，可以被抢救人员采取。当然显示“救援失败”是我们都不想看到的，此时只需要改变数值尝试出显示“救援成功”的数值组，就可以在短时间内为我们的抢救人员重新规划出最优路径。通过输入不同数值组得到的判定结果并不是我们创建的结果，而是通过训练完成的先验数据库判定得来的，因此判定结果具备可靠性，可靠性的指标在图8中已经体现出来，从误差的结果来看是满足救援要求的。

总体而言，本发明联合系统将基于Q-Learning算法的 “在线学习”和基于实时火情和LSTM算法的疏散引导算法对历史数据库学习的优势相结合，实现火灾现场自救和消防救援人员搜救相结合，有效的提高生还率，最大程度上减轻火灾现场人员的受害程度。从实验结果中可以看出，Q-Learning算法具备实时应变能力，LSTM算法过程通过结合火灾现场的各种传感器探测到实时火情协作完成，误差小，预测的救援路线和实际数据吻合度较高，更具有可靠性，两者相结合更高效率和更可靠的完成救援任务

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的。此外，应当理解，虽然本说明书按照实施方式加以描述，但并非只包含一个的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：

包括逃生衣和设置在消防救援车上的消防控制室；

所述逃生衣设有用于与外界通讯的无线信号传输模块，并植入建筑物逃生路线图、室内定位系统和基于Q-learning强化学习逃生路径规划算法；

所述消防控制室设有信息接收模块，并植入基于实时火情和LSTM的逃生路径引导算法；

发生火情，现场人员拿起逃生衣产生快速移动时，逃生衣的无线信号传输模块自动启动引导人员疏散，并与消防控制室进行实时通信。

2.根据权利要求1所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于Q-learning强化学习逃生路径规划算法，用于实现基于火灾环境下进行路径规划的强化学习系统，该系统输入的是火灾初始位置参数，输出的是抢救矩阵。

3.根据权利要求2所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于火灾环境下进行路径规划的强化学习系统，其设计时将建筑物的环境信息分为内部环境信息和外部环境信息，所述内部环境信息是建筑物的每层楼的环境信息，所述外部环境信息是设置合适的奖惩制度。

4.根据权利要求3所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于火灾环境下进行路径规划的强化学习系统，实现过程如下：

1）首先获得发生火灾的建筑物的外部环境信息；

2）将外部环境信息和内部环境信息均传递到所述基于Q-learning强化学习逃生路径规划算法中，形成环境信息观察结论；

3）将环境信息观察结论移交给情感系统进行分析，继而将分析结果解析为结果建议，并反馈到强化学习系统的策略选择算法中，从而得到最佳路径策略。

5.根据权利要求3所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于火灾环境下进行路径规划的强化学习系统，将建筑物的每一个区域抽象为一个状态，将选择进入的区域作为动作，把状态图和立刻奖励值整理成回报矩阵，Agent的目的为达到奖励值最高的状态。

6.根据权利要求5所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于火灾环境下进行路径规划的强化学习系统，在得到回报矩阵后，在Agent的大脑中加入一个类似的矩阵Q，作为奖励值参考表；矩阵的行代表Agent目前所在的区域，列代表Agent下一步选择进入的区域；当区域之间的通道情况随火势蔓延改变时，改变相应的奖励值进行更新矩阵Q。

7.根据权利要求6所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述矩阵Q，其训练的过程如下：

（1）对建筑环境和各参数进行初始化；所述参数包括最大训练周期数、火灾初始位置参数γ、即时回报函数R和评估矩阵Q；

（2）任意选出一个初始状态s，若s=s*，则该周期结束，重新选择新的开始状态；

（4）在当前状态s下选取动作a后进入下一个状态s’；

（5）使用Q学习的更新规则公式更新矩阵Q；

（6）设置下一状态为当前状态，s=s’，若s没有获得目标状态，则转到步骤3；

（7）假如算法没有达到最大训练周期数，则跳转到步骤2重新选择状态进入下一周期，否则结束训练，得到训练成功的具有收敛性的矩阵Q。

8.根据权利要求7所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述矩阵Q，其训练还包括在PyCharm中利用Python语言对Agent进行训练；训练时，设置火灾初始位置参数γ，其范围是0到0.9；通过输入不同的参数γ值，来代表各层救援人员与该楼层火灾初始位置之间的远近关系。

9.根据权利要求1所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于实时火情和LSTM的逃生路径引导算法，为通过固定的先验内容实现，其构建算法的寻路步骤是：

S1.将起始点O存入开启列表，等待系统检查，所用点位的数据形成数据库，并且可以作为先验的结果进行存储；

S2.探索点O周围能够抵达的点Q，把Q点放到开启列表中，并将点O命为母点；

S3.在开启列表中找到点O并转移到已走列表当中；

S4.在点Q周围寻找该点所有能够抵达的点R：若点R在安全列表中，则下一步是通过计算比较是否经过R点的两种情况下所产生的代价，根据代价大小判断是否经过R点；

S5.重复步骤S2～S4直至寻到目标点P，该目标点为动态点，在动态点位设计中，所有的出口点位都设置在了一楼，即只能通过将路径规划到一楼的方式来进行逃生。

10.根据权利要求9所述的基于深度强化学习的火灾现场逃生-救援联合系统，其特征在于：所述基于实时火情和LSTM的逃生路径引导算法，还包括火灾救援判定程序，其通过直接输入给定范围内的数字来判定依据历史数据库能否抢救成功，快速地进行最佳路径规划。