CN118095811B

CN118095811B - 基于深度强化学习模型的森林灭火地空协同指挥调度方法

Info

Publication number: CN118095811B
Application number: CN202410523829.3A
Authority: CN
Inventors: 刘濛; 徐放; 杨树峰; 张业勤; 邱智博
Original assignee: Shenyang Fire Research Institute of MEM
Current assignee: Shenyang Fire Research Institute of MEM
Priority date: 2024-04-29
Filing date: 2024-04-29
Publication date: 2024-07-19
Anticipated expiration: 2044-04-29
Also published as: CN118095811A

Abstract

本发明涉及信息技术领域，具体为基于深度强化学习模型的森林灭火地空协同指挥调度方法，包括以下步骤：S1：获取火场数据；S2：建立强化学习环境；S3：定义状态空间；S4：定义动作空间；S5：设计奖励函数；S6：构建深度强化学习模型，使用深度神经网络作为深度强化学习模型的近似值函数，采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练，不断优化调度策略；S7：测试模型，将步骤S6得到的模型进行测试及评估。通过将森林灭火调度问题建模为强化学习环境，并利用深度神经网络作为近似值函数的模型，更加准确地分析火场情况和资源分配需求，实现灭火力量的合理调度和协同作战，从而提高了灭火效率、降低了损失。

Description

基于深度强化学习模型的森林灭火地空协同指挥调度方法

技术领域

本发明涉及信息技术领域，尤其涉及基于深度强化学习模型的森林灭火地空协同指挥调度方法。

背景技术

森林火灾是一种严重的自然灾害，可能导致巨大破坏和损失。传统的森林火灾灭火指挥调度通常依赖于人工经验和规则，存在着资源调度不均衡、效率低下等问题。现代技术在预警和监测方面取得了显著进步，如遥感技术、气象监测系统等，使得森林火灾可以被及时准确地监测和预警。但即使有了预警系统，有效的调度和协调灭火资源仍然是至关重要的。

灭火资源的合理调度包括飞机、直升机、消防车辆、消防员等资源的合理调配和协调，需要综合考虑数量、种类、地理位置等因素，以便迅速有效地投入灭火行动中，并实现资源之间的配合和协同。通信技术和信息化手段的发展为地面指挥中心与空中灭火力量之间的实时通讯和协同提供了可能，使指挥调度人员能够及时获取和分析火情信息，做出更准确、更有效的灭火指挥决策。

近年来，人工智能和优化算法在森林火灾灭火指挥调度中的应用日益受到关注，可以智能化建模和求解火场情况、资源分配等问题，实现智能化、自动化的指挥调度，为应对森林火灾提供了新的可能性。为了进一步推动森林灭火工作的智能化、精细化，则需要构建更加高效、精准的计算模型以进一步优化指挥调度方法。

发明内容

鉴于现有技术的上述缺点、不足，本发明提供基于深度强化学习模型的森林灭火地空协同指挥调度方法，通过将森林灭火调度问题建模为强化学习环境，并利用深度神经网络作为近似值函数的模型，实现了灭火调度的智能化和优化。

为了达到上述目的，本发明采用的主要技术方案包括：

基于深度强化学习模型的森林灭火地空协同指挥调度方法，包括以下步骤：

S1：获取火场数据，所述数据包括地理空间数据、卫星图像和影像数据、环境参数、气象数据和周围数字高层数据，根据上述数据及历史数据预测火灾模式、趋势及可能的发展路径；

S2：建立强化学习环境，所述强化学习环境包括火场、集结点和灭火力量以及其关系和约束条件；

S3：定义状态空间，所述状态空间为描述环境状态的变量集合，所述集合包括火场情况、集结点状态、地空力量资源配置；

S4：定义动作空间，所述动作空间为深度强化学习模型可以采取的行动集合，所述集合包括分配地空力量资源到不同火场的数量和时间安排；

S5：设计奖励函数，所述奖励函数用于评估深度强化学习模型每个时间采取动作的好坏程度；

S6：构建深度强化学习模型，使用深度神经网络作为深度强化学习模型的近似值函数，采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练，不断优化调度策略；

S7：测试模型，将步骤S6得到的模型进行测试及评估。

进一步地，所述步骤S2的具体步骤为：

S21：定义火场信息，所述信息包括位置、火势蔓延速度、火灾面积和火强度；

S22：确定集结点位置、可容纳的灭火资源数量和类型以及通往火场的道路状况；

S23：描述灭火力量的种类、数量、行进速度和任务执行能力；

S24：建立并描述火场、集结点和灭火力量之间的关系和约束条件，所述关系和约束条件包括资源到达速度、资源限制、天气条件和地形地貌。

进一步地，所述步骤S3的具体步骤为：

S31：定义火场情况变量，包括位置、蔓延速度、面积、扩展方向、火强度；

S32：描述集结点状态变量，包括位置、可用资源数量和类型以及道路状况；

S33：确定地空力量资源配置变量，包括飞机、消防车辆、消防员的数量、位置和任务执行情况。

进一步地，所述步骤S4的具体步骤为：

S41：确定灭火资源分配数量，包括飞机、消防车辆和消防员的数量，确定数量分配给每个火场的比例；

S42：确定地空力量资源到达不同火场的时间安排，包括飞机、消防车辆和消防员前往不同火场执行任务的时间点。

进一步地，所述步骤S5中奖励函数的公式如下：

其中：s为当前状态，α为深度强化学习模型采取的动作，ω₁，ω₂，ω₃分别为各项因素的权重；

所述任务开始时刻奖励用于奖励深度强化学习模型在任务开始时立即采取行动，设定与任务开始时刻相关的奖励值，快速派遣灭火资源奖励为正，延迟派遣奖励为负；

所述调度灭火力量资源奖励用于奖励深度强化学习模型有效地分配和利用灭火资源，根据资源投入的及时性、合理性和效果来设定奖励值，合理分配和快速响应火场需求奖励为正，反之为负；

所述综合调度经济成本惩罚用于综合考虑灭火资源利用效率与成本之间的平衡，以经济成本作为惩罚因素，以资源使用效率和成本调节奖励值，高效完成任务且成本效益较高奖励为正，反之为负。

进一步地，所述步骤S6的具体步骤为：

S61：构建深度神经网络模型，采用多层感知器作为神经网络结构，并且选择层数、每层神经元数量和激活函数；所述神经网络结构为Q-value，以公式表示为：

；

其中，表示神经网络结构的输出值，s表示当前状态，α表示采取的动作，θ表示神经网络结构的参数；

S62：输入状态和动作空间，确定状态和动作空间的表示方式，将其输入到神经网络结构中，所述状态和动作空间以公式表示为：

；

其中，s_i表示状态空间的第i个状态变量，α_i表示动作空间中的第i个动作变量；

S63：将步骤S62中得到的深度神经网络模型与环境交互，采用S1中准备的数据训练深度神经网络模型，在每个时间步根据当前状态选择动作，获取环境反馈，所述反馈包括奖励和下一个状态，根据环境反馈更新深度神经网络模型的参数；

S64：深度强化学习模型得到在不同状态下选择最优动作的策略，最大化值函数的估计值使深度强化学习模型能够在每个时间步上做出最优的决策，从而优化调度策略。

进一步地，所述步骤S61的具体步骤为：

S611：选择包含3个隐藏层的多层感知器作为模型；

S612：为每个隐藏层选择不同数量的神经元，第一个隐藏层50个神经元，第二个隐藏层30个神经元，第三个隐藏层20个神经元；

S613：选用ReLU作为激活函数；

S614：设置输出层的神经元数量与火场数量相同，每个神经元表示对应火场的灭火资源分配比例。

进一步地，所述步骤S63的具体步骤为：

S631；选择动作与环境交互并初始化深度神经网络模型的参数，参数用于估计值函数，并且随着与环境的交互不断更新；

S632；深度神经网络模型获取当前状态并选择动作与环境交互，此时深度神经网络模型收集有关状态、奖励和下一个状态的信息；

S633；基于步骤S632收集的信息，计算当前状态的值函数估计值，深度神经网络模型获取当前状态，并使用深度强化网络估计每个可能的Q-value；

所述步骤S64的具体步骤为：

S641；选择最优动作，在给定状态s下，深度强化学习模型选择具有最高Q-value的动作，即；

S642；深度强化学习模型执行动作并观察环境的反馈，所述反馈包括奖励r和下一个状态s'；

S643：深度强化学习模型使用收集到的数据更新深度神经网络的参数以最小化损失函数，损失函数如下所示：

；

其中，是当前状态s和动作α的Q-value，r是奖励，γ是折扣因子，所述折扣因子用于平衡即时奖励和未来奖励的重要性，s'是下一个状态，α'是下一个动作；

S644：选择具有最高Q-value的动作使深度强化学习模型在每个时间步上做出最优的决策，从而优化调度策略。

进一步地，所述步骤S7的具体步骤为：

S71：模型评估，将训练好的模型应用于测试集，获得模型的性能表现，所述性能表现包括灭火效果和调度效率；

所述灭火效果指标包括灭火效率、灭火面积覆盖率和平均灭火时间，各个计算公式依次为：

；

所述调度效率指标包括资源利用率和调度准确性，各个计算公式依次为：

；

S72：验证性能，将模型与现有调度方案比较，评估模型的效果和优势，验证模型在实际场景中的应用价值。

该深度强化学习模型在有效性方面展现出色，通过仿真实验表现出优异的灭火效率，成功缩短了灭火时间并提高了灭火面积覆盖率。与传统调度方案相比，在实际应用中也展现出更高的性能表现，有效应对了复杂多变的环境条件，确保了火灾扑灭的效果。在鲁棒性方面，该模型对环境参数变化和数据噪声具有良好的适应能力，在面对突发灾情和异常情况时也能灵活应对，确保了灭火过程的稳定性和可控性。

本发明的有益效果是：本发明的基于深度强化学习模型的森林灭火地空协同指挥调度方法，通过将森林灭火调度问题建模为强化学习环境，并利用深度神经网络作为近似值函数的模型，实现了灭火调度的智能化和优化。这种方法能够更加准确地分析火场情况和资源分配需求，实现灭火力量的合理调度和协同作战，从而提高了灭火效率、降低了损失，并能够通过实际测试验证其有效性和鲁棒性，为森林灭火工作提供了更加科学、智能化的指导和支持。

附图说明

图1为本发明的基于深度强化学习模型的森林灭火地空协同指挥调度方法的流程示意图；

图2为本发明的强化学习环境示意图；

图3为本发明的深度强化学习模型的结构示意图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，基于深度强化学习模型的森林灭火地空协同指挥调度方法，包括以下步骤：

其中，利用地理信息系统（GIS）软件来分析地理空间数据和制作地图。使用遥感技术来获取卫星图像和影像数据。通过传感器装置实时监测环境参数，所属环境参数包括温度、湿度、风向和风速。借助森林消防专有的地图数据和地理信息数据库来查找特定地点的地理位置。根据策略进行路线规划。使用专业气象数据提供商获取气象数据和预报信息。利用地理空间数据云来获取火灾周围数字高层数据，并绘制火灾区域的等高线、路网信息，参考历史数据和火灾记录来分析过去火灾的模式和趋势，以及了解火灾可能的发展路径。

S7：测试模型，将步骤S6得到的模型进行测试及评估。

具体地，所述步骤S2的具体步骤为：

具体地，所述步骤S3的具体步骤为：

具体地，所述步骤S4的具体步骤为：

具体地，所述步骤S5中奖励函数的公式如下：

所述任务开始时刻奖励用于奖励深度强化学习模型在任务开始时立即采取行动，设定与任务开始时刻相关的奖励值，快速派遣灭火资源奖励为正，延迟派遣奖励为负；设定奖励值为正数，值为+1，表示深度强化学习模型在任务开始时刻立即采取了行动，有利于控制火势蔓延，减少火场损失；设定奖励值为负数，值为-1，表示深度强化学习模型未能在任务开始时刻立即采取行动，导致火势蔓延速度加快，增加了火场的损失。

所述调度灭火力量资源奖励用于奖励深度强化学习模型有效地分配和利用灭火资源，根据资源投入的及时性、合理性和效果来设定奖励值，合理分配和快速响应火场需求奖励为正，反之为负；设定奖励值为正数，值为+1，表示深度强化学习模型在每个时间步骤上有效地分配和利用灭火资源，有利于控制火势蔓延，减少火场损失。设定奖励值为负数，值为-1，表示深度强化学习模型未能合理利用灭火资源或未能快速响应火场需求，导致火势蔓延速度加快，增加了火场的损失。

如图2所示，将森林灭火地空协同指挥调度问题建模为强化学习环境，旨在利用深度强化学习模型学习和优化灭火资源的调度决策，以应对复杂多变的森林火灾环境。通过强化学习，深度强化学习模型可以根据实时的火情数据和环境条件，学习到最佳的灭火资源分配策略，从而提高灭火效率、降低损失，并在紧急情况下为指挥员和灭火人员提供及时而可靠的决策支持。

具体地，所述步骤S6的具体步骤为：

；

具体地，如图3所示，所述步骤S61的具体步骤为：

S611：选择包含3个隐藏层的多层感知器作为模型；

S613：选用ReLU作为激活函数；

具体地，所述步骤S63的具体步骤为：

所述步骤S64的具体步骤为：

；

利用虚拟仿真技术模拟实际场景，把一个森林区域划分为三个火场（火场A、火场B、火场C），并且在每个火场周围都有两个集结点（集结点1和集结点2）。需要根据当前火情情况和资源情况，确定每个集结点派出的灭火资源的分配数量。

各火场的火场情况和资源需求具体为火场A：火势较大，需要大量资源进行扑救。火场B：火势中等，需要适量资源进行扑救。火场C：火势较小，需要较少资源进行扑救。

各集结点资源情况为集结点1：有10架飞机、5辆消防车和100名消防员。集结点2：有5架飞机、3辆消防车和50名消防员。

采用森林灭火地空协同指挥调度方法后获得指挥调度方案：在火场A中，集结点1：派出6架飞机、3辆消防车和60名消防员。集结点2：派出4架飞机、2辆消防车和40名消防员。在火场B中，集结点1：派出3架飞机、2辆消防车和30名消防员。集结点2：派出2架飞机、1辆消防车和20名消防员。在火场C中，集结点1：派出1架飞机、1辆消防车和10名消防员。集结点2：派出1架飞机、1辆消防车和10名消防员。

通过以上调度方案，针对每个火场和集结点，确定了派出的灭火资源数量和类型，以最大限度地提高灭火效率并有效利用现有资源。

具体地，所述步骤S7的具体步骤为：

；

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行改动、修改、替换和变型。

Claims

1.基于深度强化学习模型的森林灭火地空协同指挥调度方法，其特征在于，包括以下步骤：

S7：测试模型，将步骤S6得到的模型进行测试及评估；

所述步骤S2的具体步骤为：

S24：建立并描述火场、集结点和灭火力量之间的关系和约束条件，所述关系和约束条件包括资源到达速度、资源限制、天气条件和地形地貌；

所述步骤S3的具体步骤为：

S33：确定地空力量资源配置变量，包括飞机、消防车辆、消防员的数量、位置和任务执行情况；

所述步骤S4的具体步骤为：

S42：确定地空力量资源到达不同火场的时间安排，包括飞机、消防车辆和消防员前往不同火场执行任务的时间点；

所述步骤S5中奖励函数的公式如下：

；

所述综合调度经济成本惩罚用于综合考虑灭火资源利用效率与成本之间的平衡，以经济成本作为惩罚因素，以资源使用效率和成本调节奖励值，高效完成任务且成本效益较高奖励为正，反之为负；

所述步骤S6的具体步骤为：

；

S64：深度强化学习模型得到在不同状态下选择最优动作的策略，最大化值函数的估计值使深度强化学习模型能够在每个时间步上做出最优的决策，从而优化调度策略；

所述步骤S61的具体步骤为：

S611：选择包含3个隐藏层的多层感知器作为模型；

S613：选用ReLU作为激活函数；

S614：设置输出层的神经元数量与火场数量相同，每个神经元表示对应火场的灭火资源分配比例；

所述步骤S63的具体步骤为：

所述步骤S64的具体步骤为：

；

S644：选择具有最高Q-value的动作使深度强化学习模型在每个时间步上做出最优的决策，从而优化调度策略；

所述步骤S7的具体步骤为：

；