CN118095811B - 基于深度强化学习模型的森林灭火地空协同指挥调度方法 - Google Patents
基于深度强化学习模型的森林灭火地空协同指挥调度方法 Download PDFInfo
- Publication number
- CN118095811B CN118095811B CN202410523829.3A CN202410523829A CN118095811B CN 118095811 B CN118095811 B CN 118095811B CN 202410523829 A CN202410523829 A CN 202410523829A CN 118095811 B CN118095811 B CN 118095811B
- Authority
- CN
- China
- Prior art keywords
- fire
- reinforcement learning
- model
- neural network
- fire extinguishing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 35
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000013468 resource allocation Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims description 24
- 210000002569 neuron Anatomy 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 14
- 230000007480 spreading Effects 0.000 claims description 13
- 238000003892 spreading Methods 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 238000011161 development Methods 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012876 topography Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Neurology (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Fire-Extinguishing By Fire Departments, And Fire-Extinguishing Equipment And Control Thereof (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及信息技术领域,具体为基于深度强化学习模型的森林灭火地空协同指挥调度方法,包括以下步骤:S1:获取火场数据;S2:建立强化学习环境;S3:定义状态空间;S4:定义动作空间;S5:设计奖励函数;S6:构建深度强化学习模型,使用深度神经网络作为深度强化学习模型的近似值函数,采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练,不断优化调度策略;S7:测试模型,将步骤S6得到的模型进行测试及评估。通过将森林灭火调度问题建模为强化学习环境,并利用深度神经网络作为近似值函数的模型,更加准确地分析火场情况和资源分配需求,实现灭火力量的合理调度和协同作战,从而提高了灭火效率、降低了损失。
Description
技术领域
本发明涉及信息技术领域,尤其涉及基于深度强化学习模型的森林灭火地空协同指挥调度方法。
背景技术
森林火灾是一种严重的自然灾害,可能导致巨大破坏和损失。传统的森林火灾灭火指挥调度通常依赖于人工经验和规则,存在着资源调度不均衡、效率低下等问题。现代技术在预警和监测方面取得了显著进步,如遥感技术、气象监测系统等,使得森林火灾可以被及时准确地监测和预警。但即使有了预警系统,有效的调度和协调灭火资源仍然是至关重要的。
灭火资源的合理调度包括飞机、直升机、消防车辆、消防员等资源的合理调配和协调,需要综合考虑数量、种类、地理位置等因素,以便迅速有效地投入灭火行动中,并实现资源之间的配合和协同。通信技术和信息化手段的发展为地面指挥中心与空中灭火力量之间的实时通讯和协同提供了可能,使指挥调度人员能够及时获取和分析火情信息,做出更准确、更有效的灭火指挥决策。
近年来,人工智能和优化算法在森林火灾灭火指挥调度中的应用日益受到关注,可以智能化建模和求解火场情况、资源分配等问题,实现智能化、自动化的指挥调度,为应对森林火灾提供了新的可能性。为了进一步推动森林灭火工作的智能化、精细化,则需要构建更加高效、精准的计算模型以进一步优化指挥调度方法。
发明内容
鉴于现有技术的上述缺点、不足,本发明提供基于深度强化学习模型的森林灭火地空协同指挥调度方法,通过将森林灭火调度问题建模为强化学习环境,并利用深度神经网络作为近似值函数的模型,实现了灭火调度的智能化和优化。
为了达到上述目的,本发明采用的主要技术方案包括:
基于深度强化学习模型的森林灭火地空协同指挥调度方法,包括以下步骤:
S1:获取火场数据,所述数据包括地理空间数据、卫星图像和影像数据、环境参数、气象数据和周围数字高层数据,根据上述数据及历史数据预测火灾模式、趋势及可能的发展路径;
S2:建立强化学习环境,所述强化学习环境包括火场、集结点和灭火力量以及其关系和约束条件;
S3:定义状态空间,所述状态空间为描述环境状态的变量集合,所述集合包括火场情况、集结点状态、地空力量资源配置;
S4:定义动作空间,所述动作空间为深度强化学习模型可以采取的行动集合,所述集合包括分配地空力量资源到不同火场的数量和时间安排;
S5:设计奖励函数,所述奖励函数用于评估深度强化学习模型每个时间采取动作的好坏程度;
S6:构建深度强化学习模型,使用深度神经网络作为深度强化学习模型的近似值函数,采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练,不断优化调度策略;
S7:测试模型,将步骤S6得到的模型进行测试及评估。
进一步地,所述步骤S2的具体步骤为:
S21:定义火场信息,所述信息包括位置、火势蔓延速度、火灾面积和火强度;
S22:确定集结点位置、可容纳的灭火资源数量和类型以及通往火场的道路状况;
S23:描述灭火力量的种类、数量、行进速度和任务执行能力;
S24:建立并描述火场、集结点和灭火力量之间的关系和约束条件,所述关系和约束条件包括资源到达速度、资源限制、天气条件和地形地貌。
进一步地,所述步骤S3的具体步骤为:
S31:定义火场情况变量,包括位置、蔓延速度、面积、扩展方向、火强度;
S32:描述集结点状态变量,包括位置、可用资源数量和类型以及道路状况;
S33:确定地空力量资源配置变量,包括飞机、消防车辆、消防员的数量、位置和任务执行情况。
进一步地,所述步骤S4的具体步骤为:
S41:确定灭火资源分配数量,包括飞机、消防车辆和消防员的数量,确定数量分配给每个火场的比例;
S42:确定地空力量资源到达不同火场的时间安排,包括飞机、消防车辆和消防员前往不同火场执行任务的时间点。
进一步地,所述步骤S5中奖励函数的公式如下:
其中:s为当前状态,α为深度强化学习模型采取的动作,ω1,ω2,ω3分别为各项因素的权重;
所述任务开始时刻奖励用于奖励深度强化学习模型在任务开始时立即采取行动,设定与任务开始时刻相关的奖励值,快速派遣灭火资源奖励为正,延迟派遣奖励为负;
所述调度灭火力量资源奖励用于奖励深度强化学习模型有效地分配和利用灭火资源,根据资源投入的及时性、合理性和效果来设定奖励值,合理分配和快速响应火场需求奖励为正,反之为负;
所述综合调度经济成本惩罚用于综合考虑灭火资源利用效率与成本之间的平衡,以经济成本作为惩罚因素,以资源使用效率和成本调节奖励值,高效完成任务且成本效益较高奖励为正,反之为负。
进一步地,所述步骤S6的具体步骤为:
S61:构建深度神经网络模型,采用多层感知器作为神经网络结构,并且选择层数、每层神经元数量和激活函数;所述神经网络结构为Q-value,以公式表示为:
;
其中,表示神经网络结构的输出值,s表示当前状态,α表示采取的动作,θ表示神经网络结构的参数;
S62:输入状态和动作空间,确定状态和动作空间的表示方式,将其输入到神经网络结构中,所述状态和动作空间以公式表示为:
;
;
其中,si表示状态空间的第i个状态变量,αi表示动作空间中的第i个动作变量;
S63:将步骤S62中得到的深度神经网络模型与环境交互,采用S1中准备的数据训练深度神经网络模型,在每个时间步根据当前状态选择动作,获取环境反馈,所述反馈包括奖励和下一个状态,根据环境反馈更新深度神经网络模型的参数;
S64:深度强化学习模型得到在不同状态下选择最优动作的策略,最大化值函数的估计值使深度强化学习模型能够在每个时间步上做出最优的决策,从而优化调度策略。
进一步地,所述步骤S61的具体步骤为:
S611:选择包含3个隐藏层的多层感知器作为模型;
S612:为每个隐藏层选择不同数量的神经元,第一个隐藏层50个神经元,第二个隐藏层30个神经元,第三个隐藏层20个神经元;
S613:选用ReLU作为激活函数;
S614:设置输出层的神经元数量与火场数量相同,每个神经元表示对应火场的灭火资源分配比例。
进一步地,所述步骤S63的具体步骤为:
S631;选择动作与环境交互并初始化深度神经网络模型的参数,参数用于估计值函数,并且随着与环境的交互不断更新;
S632;深度神经网络模型获取当前状态并选择动作与环境交互,此时深度神经网络模型收集有关状态、奖励和下一个状态的信息;
S633;基于步骤S632收集的信息,计算当前状态的值函数估计值,深度神经网络模型获取当前状态 ,并使用深度强化网络估计每个可能的Q-value;
所述步骤S64的具体步骤为:
S641;选择最优动作,在给定状态s下,深度强化学习模型选择具有最高Q-value的动作,即;
S642;深度强化学习模型执行动作并观察环境的反馈,所述反馈包括奖励r和下一个状态s';
S643:深度强化学习模型使用收集到的数据更新深度神经网络的参数以最小化损失函数,损失函数如下所示:
;
其中,是当前状态s和动作α的Q-value,r是奖励,γ是折扣因子,所述折扣因子用于平衡即时奖励和未来奖励的重要性,s'是下一个状态,α'是下一个动作;
S644:选择具有最高Q-value的动作使深度强化学习模型在每个时间步上做出最优的决策,从而优化调度策略。
进一步地,所述步骤S7的具体步骤为:
S71:模型评估,将训练好的模型应用于测试集,获得模型的性能表现,所述性能表现包括灭火效果和调度效率;
所述灭火效果指标包括灭火效率、灭火面积覆盖率和平均灭火时间,各个计算公式依次为:
;
;
;
所述调度效率指标包括资源利用率和调度准确性,各个计算公式依次为:
;
;
S72:验证性能,将模型与现有调度方案比较,评估模型的效果和优势,验证模型在实际场景中的应用价值。
该深度强化学习模型在有效性方面展现出色,通过仿真实验表现出优异的灭火效率,成功缩短了灭火时间并提高了灭火面积覆盖率。与传统调度方案相比,在实际应用中也展现出更高的性能表现,有效应对了复杂多变的环境条件,确保了火灾扑灭的效果。在鲁棒性方面,该模型对环境参数变化和数据噪声具有良好的适应能力,在面对突发灾情和异常情况时也能灵活应对,确保了灭火过程的稳定性和可控性。
本发明的有益效果是:本发明的基于深度强化学习模型的森林灭火地空协同指挥调度方法,通过将森林灭火调度问题建模为强化学习环境,并利用深度神经网络作为近似值函数的模型,实现了灭火调度的智能化和优化。这种方法能够更加准确地分析火场情况和资源分配需求,实现灭火力量的合理调度和协同作战,从而提高了灭火效率、降低了损失,并能够通过实际测试验证其有效性和鲁棒性,为森林灭火工作提供了更加科学、智能化的指导和支持。
附图说明
图1为本发明的基于深度强化学习模型的森林灭火地空协同指挥调度方法的流程示意图;
图2为本发明的强化学习环境示意图;
图3为本发明的深度强化学习模型的结构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更清楚、透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,基于深度强化学习模型的森林灭火地空协同指挥调度方法,包括以下步骤:
S1:获取火场数据,所述数据包括地理空间数据、卫星图像和影像数据、环境参数、气象数据和周围数字高层数据,根据上述数据及历史数据预测火灾模式、趋势及可能的发展路径;
其中,利用地理信息系统(GIS)软件来分析地理空间数据和制作地图。使用遥感技术来获取卫星图像和影像数据。通过传感器装置实时监测环境参数,所属环境参数包括温度、湿度、风向和风速。借助森林消防专有的地图数据和地理信息数据库来查找特定地点的地理位置。根据策略进行路线规划。使用专业气象数据提供商获取气象数据和预报信息。利用地理空间数据云来获取火灾周围数字高层数据,并绘制火灾区域的等高线、路网信息,参考历史数据和火灾记录来分析过去火灾的模式和趋势,以及了解火灾可能的发展路径。
S2:建立强化学习环境,所述强化学习环境包括火场、集结点和灭火力量以及其关系和约束条件;
S3:定义状态空间,所述状态空间为描述环境状态的变量集合,所述集合包括火场情况、集结点状态、地空力量资源配置;
S4:定义动作空间,所述动作空间为深度强化学习模型可以采取的行动集合,所述集合包括分配地空力量资源到不同火场的数量和时间安排;
S5:设计奖励函数,所述奖励函数用于评估深度强化学习模型每个时间采取动作的好坏程度;
S6:构建深度强化学习模型,使用深度神经网络作为深度强化学习模型的近似值函数,采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练,不断优化调度策略;
S7:测试模型,将步骤S6得到的模型进行测试及评估。
具体地,所述步骤S2的具体步骤为:
S21:定义火场信息,所述信息包括位置、火势蔓延速度、火灾面积和火强度;
S22:确定集结点位置、可容纳的灭火资源数量和类型以及通往火场的道路状况;
S23:描述灭火力量的种类、数量、行进速度和任务执行能力;
S24:建立并描述火场、集结点和灭火力量之间的关系和约束条件,所述关系和约束条件包括资源到达速度、资源限制、天气条件和地形地貌。
具体地,所述步骤S3的具体步骤为:
S31:定义火场情况变量,包括位置、蔓延速度、面积、扩展方向、火强度;
S32:描述集结点状态变量,包括位置、可用资源数量和类型以及道路状况;
S33:确定地空力量资源配置变量,包括飞机、消防车辆、消防员的数量、位置和任务执行情况。
具体地,所述步骤S4的具体步骤为:
S41:确定灭火资源分配数量,包括飞机、消防车辆和消防员的数量,确定数量分配给每个火场的比例;
S42:确定地空力量资源到达不同火场的时间安排,包括飞机、消防车辆和消防员前往不同火场执行任务的时间点。
具体地,所述步骤S5中奖励函数的公式如下:
其中:s为当前状态,α为深度强化学习模型采取的动作,ω1,ω2,ω3分别为各项因素的权重;
所述任务开始时刻奖励用于奖励深度强化学习模型在任务开始时立即采取行动,设定与任务开始时刻相关的奖励值,快速派遣灭火资源奖励为正,延迟派遣奖励为负;设定奖励值为正数,值为+1,表示深度强化学习模型在任务开始时刻立即采取了行动,有利于控制火势蔓延,减少火场损失;设定奖励值为负数,值为-1,表示深度强化学习模型未能在任务开始时刻立即采取行动,导致火势蔓延速度加快,增加了火场的损失。
所述调度灭火力量资源奖励用于奖励深度强化学习模型有效地分配和利用灭火资源,根据资源投入的及时性、合理性和效果来设定奖励值,合理分配和快速响应火场需求奖励为正,反之为负;设定奖励值为正数,值为+1,表示深度强化学习模型在每个时间步骤上有效地分配和利用灭火资源,有利于控制火势蔓延,减少火场损失。设定奖励值为负数,值为-1,表示深度强化学习模型未能合理利用灭火资源或未能快速响应火场需求,导致火势蔓延速度加快,增加了火场的损失。
所述综合调度经济成本惩罚用于综合考虑灭火资源利用效率与成本之间的平衡,以经济成本作为惩罚因素,以资源使用效率和成本调节奖励值,高效完成任务且成本效益较高奖励为正,反之为负。
如图2所示,将森林灭火地空协同指挥调度问题建模为强化学习环境,旨在利用深度强化学习模型学习和优化灭火资源的调度决策,以应对复杂多变的森林火灾环境。通过强化学习,深度强化学习模型可以根据实时的火情数据和环境条件,学习到最佳的灭火资源分配策略,从而提高灭火效率、降低损失,并在紧急情况下为指挥员和灭火人员提供及时而可靠的决策支持。
具体地,所述步骤S6的具体步骤为:
S61:构建深度神经网络模型,采用多层感知器作为神经网络结构,并且选择层数、每层神经元数量和激活函数;所述神经网络结构为Q-value,以公式表示为:
;
其中,表示神经网络结构的输出值,s表示当前状态,α表示采取的动作,θ表示神经网络结构的参数;
S62:输入状态和动作空间,确定状态和动作空间的表示方式,将其输入到神经网络结构中,所述状态和动作空间以公式表示为:
;
;
其中,si表示状态空间的第i个状态变量,αi表示动作空间中的第i个动作变量;
S63:将步骤S62中得到的深度神经网络模型与环境交互,采用S1中准备的数据训练深度神经网络模型,在每个时间步根据当前状态选择动作,获取环境反馈,所述反馈包括奖励和下一个状态,根据环境反馈更新深度神经网络模型的参数;
S64:深度强化学习模型得到在不同状态下选择最优动作的策略,最大化值函数的估计值使深度强化学习模型能够在每个时间步上做出最优的决策,从而优化调度策略。
具体地,如图3所示,所述步骤S61的具体步骤为:
S611:选择包含3个隐藏层的多层感知器作为模型;
S612:为每个隐藏层选择不同数量的神经元,第一个隐藏层50个神经元,第二个隐藏层30个神经元,第三个隐藏层20个神经元;
S613:选用ReLU作为激活函数;
S614:设置输出层的神经元数量与火场数量相同,每个神经元表示对应火场的灭火资源分配比例。
具体地,所述步骤S63的具体步骤为:
S631;选择动作与环境交互并初始化深度神经网络模型的参数,参数用于估计值函数,并且随着与环境的交互不断更新;
S632;深度神经网络模型获取当前状态并选择动作与环境交互,此时深度神经网络模型收集有关状态、奖励和下一个状态的信息;
S633;基于步骤S632收集的信息,计算当前状态的值函数估计值,深度神经网络模型获取当前状态 ,并使用深度强化网络估计每个可能的Q-value;
所述步骤S64的具体步骤为:
S641;选择最优动作,在给定状态s下,深度强化学习模型选择具有最高Q-value的动作,即;
S642;深度强化学习模型执行动作并观察环境的反馈,所述反馈包括奖励r和下一个状态s';
S643:深度强化学习模型使用收集到的数据更新深度神经网络的参数以最小化损失函数,损失函数如下所示:
;
其中,是当前状态s和动作α的Q-value,r是奖励,γ是折扣因子,所述折扣因子用于平衡即时奖励和未来奖励的重要性,s'是下一个状态,α'是下一个动作;
S644:选择具有最高Q-value的动作使深度强化学习模型在每个时间步上做出最优的决策,从而优化调度策略。
利用虚拟仿真技术模拟实际场景,把一个森林区域划分为三个火场(火场A、火场B、火场C),并且在每个火场周围都有两个集结点(集结点1和集结点2)。需要根据当前火情情况和资源情况,确定每个集结点派出的灭火资源的分配数量。
各火场的火场情况和资源需求具体为火场A:火势较大,需要大量资源进行扑救。火场B:火势中等,需要适量资源进行扑救。火场C:火势较小,需要较少资源进行扑救。
各集结点资源情况为集结点1:有10架飞机、5辆消防车和100名消防员。集结点2:有5架飞机、3辆消防车和50名消防员。
采用森林灭火地空协同指挥调度方法后获得指挥调度方案:在火场A中,集结点1:派出6架飞机、3辆消防车和60名消防员。集结点2:派出4架飞机、2辆消防车和40名消防员。在火场B中,集结点1:派出3架飞机、2辆消防车和30名消防员。集结点2:派出2架飞机、1辆消防车和20名消防员。在火场C中,集结点1:派出1架飞机、1辆消防车和10名消防员。集结点2:派出1架飞机、1辆消防车和10名消防员。
通过以上调度方案,针对每个火场和集结点,确定了派出的灭火资源数量和类型,以最大限度地提高灭火效率并有效利用现有资源。
具体地,所述步骤S7的具体步骤为:
S71:模型评估,将训练好的模型应用于测试集,获得模型的性能表现,所述性能表现包括灭火效果和调度效率;
所述灭火效果指标包括灭火效率、灭火面积覆盖率和平均灭火时间,各个计算公式依次为:
;
;
;
所述调度效率指标包括资源利用率和调度准确性,各个计算公式依次为:
;
;
S72:验证性能,将模型与现有调度方案比较,评估模型的效果和优势,验证模型在实际场景中的应用价值。
该深度强化学习模型在有效性方面展现出色,通过仿真实验表现出优异的灭火效率,成功缩短了灭火时间并提高了灭火面积覆盖率。与传统调度方案相比,在实际应用中也展现出更高的性能表现,有效应对了复杂多变的环境条件,确保了火灾扑灭的效果。在鲁棒性方面,该模型对环境参数变化和数据噪声具有良好的适应能力,在面对突发灾情和异常情况时也能灵活应对,确保了灭火过程的稳定性和可控性。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行改动、修改、替换和变型。
Claims (1)
1.基于深度强化学习模型的森林灭火地空协同指挥调度方法,其特征在于,包括以下步骤:
S1:获取火场数据,所述数据包括地理空间数据、卫星图像和影像数据、环境参数、气象数据和周围数字高层数据,根据上述数据及历史数据预测火灾模式、趋势及可能的发展路径;
S2:建立强化学习环境,所述强化学习环境包括火场、集结点和灭火力量以及其关系和约束条件;
S3:定义状态空间,所述状态空间为描述环境状态的变量集合,所述集合包括火场情况、集结点状态、地空力量资源配置;
S4:定义动作空间,所述动作空间为深度强化学习模型可以采取的行动集合,所述集合包括分配地空力量资源到不同火场的数量和时间安排;
S5:设计奖励函数,所述奖励函数用于评估深度强化学习模型每个时间采取动作的好坏程度;
S6:构建深度强化学习模型,使用深度神经网络作为深度强化学习模型的近似值函数,采用步骤S1的火场数据与步骤S2的强化学习环境交互进行训练,不断优化调度策略;
S7:测试模型,将步骤S6得到的模型进行测试及评估;
所述步骤S2的具体步骤为:
S21:定义火场信息,所述信息包括位置、火势蔓延速度、火灾面积和火强度;
S22:确定集结点位置、可容纳的灭火资源数量和类型以及通往火场的道路状况;
S23:描述灭火力量的种类、数量、行进速度和任务执行能力;
S24:建立并描述火场、集结点和灭火力量之间的关系和约束条件,所述关系和约束条件包括资源到达速度、资源限制、天气条件和地形地貌;
所述步骤S3的具体步骤为:
S31:定义火场情况变量,包括位置、蔓延速度、面积、扩展方向、火强度;
S32:描述集结点状态变量,包括位置、可用资源数量和类型以及道路状况;
S33:确定地空力量资源配置变量,包括飞机、消防车辆、消防员的数量、位置和任务执行情况;
所述步骤S4的具体步骤为:
S41:确定灭火资源分配数量,包括飞机、消防车辆和消防员的数量,确定数量分配给每个火场的比例;
S42:确定地空力量资源到达不同火场的时间安排,包括飞机、消防车辆和消防员前往不同火场执行任务的时间点;
所述步骤S5中奖励函数的公式如下:
;
其中:s为当前状态,α为深度强化学习模型采取的动作,ω1,ω2,ω3分别为各项因素的权重;
所述任务开始时刻奖励用于奖励深度强化学习模型在任务开始时立即采取行动,设定与任务开始时刻相关的奖励值,快速派遣灭火资源奖励为正,延迟派遣奖励为负;
所述调度灭火力量资源奖励用于奖励深度强化学习模型有效地分配和利用灭火资源,根据资源投入的及时性、合理性和效果来设定奖励值,合理分配和快速响应火场需求奖励为正,反之为负;
所述综合调度经济成本惩罚用于综合考虑灭火资源利用效率与成本之间的平衡,以经济成本作为惩罚因素,以资源使用效率和成本调节奖励值,高效完成任务且成本效益较高奖励为正,反之为负;
所述步骤S6的具体步骤为:
S61:构建深度神经网络模型,采用多层感知器作为神经网络结构,并且选择层数、每层神经元数量和激活函数;所述神经网络结构为Q-value,以公式表示为:
;
其中,表示神经网络结构的输出值,s表示当前状态,α表示采取的动作,θ表示神经网络结构的参数;
S62:输入状态和动作空间,确定状态和动作空间的表示方式,将其输入到神经网络结构中,所述状态和动作空间以公式表示为:
;
;
其中,si表示状态空间的第i个状态变量,αi表示动作空间中的第i个动作变量;
S63:将步骤S62中得到的深度神经网络模型与环境交互,采用S1中准备的数据训练深度神经网络模型,在每个时间步根据当前状态选择动作,获取环境反馈,所述反馈包括奖励和下一个状态,根据环境反馈更新深度神经网络模型的参数;
S64:深度强化学习模型得到在不同状态下选择最优动作的策略,最大化值函数的估计值使深度强化学习模型能够在每个时间步上做出最优的决策,从而优化调度策略;
所述步骤S61的具体步骤为:
S611:选择包含3个隐藏层的多层感知器作为模型;
S612:为每个隐藏层选择不同数量的神经元,第一个隐藏层50个神经元,第二个隐藏层30个神经元,第三个隐藏层20个神经元;
S613:选用ReLU作为激活函数;
S614:设置输出层的神经元数量与火场数量相同,每个神经元表示对应火场的灭火资源分配比例;
所述步骤S63的具体步骤为:
S631;选择动作与环境交互并初始化深度神经网络模型的参数,参数用于估计值函数,并且随着与环境的交互不断更新;
S632;深度神经网络模型获取当前状态并选择动作与环境交互,此时深度神经网络模型收集有关状态、奖励和下一个状态的信息;
S633;基于步骤S632收集的信息,计算当前状态的值函数估计值,深度神经网络模型获取当前状态 ,并使用深度强化网络估计每个可能的Q-value;
所述步骤S64的具体步骤为:
S641;选择最优动作,在给定状态s下,深度强化学习模型选择具有最高Q-value的动作,即;
S642;深度强化学习模型执行动作并观察环境的反馈,所述反馈包括奖励r和下一个状态s';
S643:深度强化学习模型使用收集到的数据更新深度神经网络的参数以最小化损失函数,损失函数如下所示:
;
其中,是当前状态s和动作α的Q-value,r是奖励,γ是折扣因子,所述折扣因子用于平衡即时奖励和未来奖励的重要性,s'是下一个状态,α'是下一个动作;
S644:选择具有最高Q-value的动作使深度强化学习模型在每个时间步上做出最优的决策,从而优化调度策略;
所述步骤S7的具体步骤为:
S71:模型评估,将训练好的模型应用于测试集,获得模型的性能表现,所述性能表现包括灭火效果和调度效率;
所述灭火效果指标包括灭火效率、灭火面积覆盖率和平均灭火时间,各个计算公式依次为:
;
;
;
所述调度效率指标包括资源利用率和调度准确性,各个计算公式依次为:
;
;
S72:验证性能,将模型与现有调度方案比较,评估模型的效果和优势,验证模型在实际场景中的应用价值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410523829.3A CN118095811B (zh) | 2024-04-29 | 2024-04-29 | 基于深度强化学习模型的森林灭火地空协同指挥调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410523829.3A CN118095811B (zh) | 2024-04-29 | 2024-04-29 | 基于深度强化学习模型的森林灭火地空协同指挥调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118095811A CN118095811A (zh) | 2024-05-28 |
CN118095811B true CN118095811B (zh) | 2024-07-19 |
Family
ID=91142619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410523829.3A Active CN118095811B (zh) | 2024-04-29 | 2024-04-29 | 基于深度强化学习模型的森林灭火地空协同指挥调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118095811B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113568425A (zh) * | 2020-04-28 | 2021-10-29 | 北京理工大学 | 一种基于神经网络学习的集群协同制导方法 |
CN116887212A (zh) * | 2023-09-07 | 2023-10-13 | 北京航天常兴科技发展股份有限公司 | 基于无线通信网络的火灾情况信息处理与传输方法 |
CN117910748A (zh) * | 2024-01-02 | 2024-04-19 | 佛山科学技术学院 | 一种基于深度神经网络的生产线调度方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687070B (zh) * | 2020-12-14 | 2022-02-18 | 浙江弄潮儿智慧科技有限公司 | 一种基于5g通信的森林防火预警信息应急指挥系统 |
CN113543068B (zh) * | 2021-06-07 | 2024-02-02 | 北京邮电大学 | 一种基于层次化分簇的林区无人机网络部署方法与系统 |
CN114691363A (zh) * | 2022-03-28 | 2022-07-01 | 福州大学 | 基于深度强化学习的云数据中心自适应高效资源分配方法 |
US20230342526A1 (en) * | 2022-03-28 | 2023-10-26 | Willow Labs, Inc. | System and method for wildfire spread behavior forecasting and on-parcel wildfire risk evaluation |
CN117369485A (zh) * | 2023-08-29 | 2024-01-09 | 北京邮电大学 | 无人机路径协同规划方法、装置、电子设备及存储介质 |
CN117726116A (zh) * | 2023-12-18 | 2024-03-19 | 北京工业大学 | 基于林火蔓延模拟及物联网的森林防火指挥方法及系统 |
-
2024
- 2024-04-29 CN CN202410523829.3A patent/CN118095811B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113568425A (zh) * | 2020-04-28 | 2021-10-29 | 北京理工大学 | 一种基于神经网络学习的集群协同制导方法 |
CN116887212A (zh) * | 2023-09-07 | 2023-10-13 | 北京航天常兴科技发展股份有限公司 | 基于无线通信网络的火灾情况信息处理与传输方法 |
CN117910748A (zh) * | 2024-01-02 | 2024-04-19 | 佛山科学技术学院 | 一种基于深度神经网络的生产线调度方法及系统 |
Non-Patent Citations (1)
Title |
---|
森林火灾救援直升机吊桶灭火任务调度优化研究;徐浩等;《消防科学与技术》;20240415;535-540 * |
Also Published As
Publication number | Publication date |
---|---|
CN118095811A (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582697B (zh) | 一种配电网故障的评估与调度方法及系统 | |
CN101515309B (zh) | 基于多智能体的城市应急疏散仿真系统 | |
CN111080144A (zh) | 一种智能感知的机场保障能力实时评估系统及评估方法 | |
CN107992067A (zh) | 基于集成吊舱和ai技术的无人机巡检故障诊断系统 | |
US20210350046A1 (en) | Systems and Methods for Simulating Aircraft Systems | |
CN106971432A (zh) | 一种飞机数据管理记录系统及数据表示方法 | |
CN110781584A (zh) | 一种空军无人机智能仿真作战系统 | |
CN112380301A (zh) | 一种人工影响天气业务信息平台 | |
CN113377125B (zh) | 用于空气污染检测的无人机系统 | |
Roldán-Gómez et al. | SwarmCity project: monitoring traffic, pedestrians, climate, and pollution with an aerial robotic swarm: Data collection and fusion in a smart city, and its representation using virtual reality | |
Li et al. | Multi-mechanism swarm optimization for multi-UAV task assignment and path planning in transmission line inspection under multi-wind field | |
CN114740899B (zh) | 一种网格化空域分配与协同搜索规划方法 | |
WO2020056125A1 (en) | Coordination of remote vehicles using automation level assignments | |
CN117150757A (zh) | 一种基于数字孪生的仿真推演系统 | |
KR102598271B1 (ko) | 사물인터넷(IoT) 수위센서-기반 해상이동형 담수화 선박의 운항경로 최적화 시스템 및 그 방법 | |
CN114943155A (zh) | 一种基于数字孪生技术的洪灾应急救援方法及虚拟指挥系统 | |
CN118095811B (zh) | 基于深度强化学习模型的森林灭火地空协同指挥调度方法 | |
CN118015231A (zh) | 一种基于互联网以及孪生模型的数字孪生城市构建方法 | |
CN116611635B (zh) | 基于车路协同及强化学习的环卫机器人车调度方法及系统 | |
CN103167027B (zh) | 应急救灾场景下单终端的事件驱动的移动模型 | |
CN110825105B (zh) | 一种基于无人机的卫片图斑巡查方法及装置 | |
CN115952989A (zh) | 基于数字孪生的自然灾害应急调度系统 | |
Jotanovic et al. | Smart city iot on-demand monitoring system using a drone fleet | |
US20150134298A1 (en) | System and method for generating forest fire airtanker operations data | |
CN114860424A (zh) | 基于云端中台架构的业务处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |