CN117671526A

CN117671526A - 一种基于深度强化学习的山火识别方法、装置和系统

Info

Publication number: CN117671526A
Application number: CN202311517401.XA
Authority: CN
Inventors: 陈富强; 石常青; 冀增青; 何炳裕; 吕继先; 钟俊良; 陈翔
Original assignee: Longyandong Forest Farm Guangdong Province Guangdong Lianhuading Forest Park Management Office; Guangzhou Chengzhi Intelligent Machine Technology Co ltd
Current assignee: Longyandong Forest Farm Guangdong Province Guangdong Lianhuading Forest Park Management Office; Guangzhou Chengzhi Intelligent Machine Technology Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-03-08
Anticipated expiration: 2043-11-14

Abstract

本发明涉及一种基于深度强化学习的山火识别方法、装置和系统。其中方法包括：通过山火识别模型，对视频数据进行特征提取，输出山火识别结果；所述山火识别模型通过以下步骤进行训练：St1，采集若干带标签的训练视频数据；St2，创建与所述训练视频数据对应的若干Q表格；St3，将一个所述训练视频数据输入至所述山火识别模型中，根据所述山火识别模型输出的山火识别结果以及所述山火识别结果与所述标签的匹配情况填写Q表格；St4，重复执行步骤St3，直到将所有训练视频数据都输入至所述山火识别模型中，得到若干个Q表格；计算所有Q表格的总reward值之和，优化山火识别模型的参数；St5，重复执行步骤St3和St4，直到所述山火识别模型的参数收敛。

Description

一种基于深度强化学习的山火识别方法、装置和系统

技术领域

本发明涉及山火识别技术领域，特别是涉及一种基于深度强化学习的山火识别方法、装置和系统。

背景技术

森林火灾一旦发生，不仅会对森林本身和其中的动物生态系统造成破坏，还会对当地居民的生命财产安全带来威胁。识别森林火灾，可以及早采取措施，避免火势的扩大和蔓延。同时，也可以及时组织救援，保障受灾地区人民的生命安全和财产安全。

现有技术中存在一种基于无人机的林火识别方法，令搭载摄像头的无人机在森林上空巡检，通过基于卷积神经网络的山火识别模型，对摄像头拍摄的图像进行识别，判断是否发生森林火灾。现有技术中，对山火识别模型的训练通常采用传统的有监督学习或无监督学习的训练方法。有监督学习的训练效果依赖于训练数据集，训练数据集容量越大、数据质量越高，训练效果就越好。然而高质量、大容量的训练数据集意味着高昂的人工标注成本。无监督学习虽然不依赖于训练数据集，但收敛速度较慢、训练周期较长，其训练效果也不稳定。

发明内容

基于此，本发明的目的在于，提供一种基于深度强化学习的山火识别方法，其既不依赖于训练数据集，又能取得较快的收敛速度，且训练效果较好。

本发明提供一种基于深度强化学习的山火识别方法，包括以下步骤：获取视频数据；通过一山火识别模型，对所述视频数据进行特征提取，输出山火识别结果；所述山火识别模型，通过以下训练方法进行训练：

St1，采集若干训练视频数据，并为所述训练视频数据打标签；

St2，创建与所述训练视频数据对应的若干Q表格；

St3，将一个所述训练视频数据输入至所述山火识别模型中，根据所述山火识别模型输出的山火识别结果以及所述山火识别结果与所述标签的匹配情况填写Q表格，得到一个填写完成的Q表格；

St4，重复执行步骤St3，直到将所有训练视频数据都输入至所述山火识别模型中，得到若干个Q表格；计算所有Q表格的总reward值之和，以所述总reward值之和尽量大为目标，优化所述山火识别模型的参数；

St5，重复执行步骤St3和St4，直到所述山火识别模型的参数收敛，得到训练好的山火识别模型。

本发明将强化学习的训练方法应用在对山火识别模型的训练上，既克服了有监督学习依赖大量高质量训练数据的缺点，又克服了无监督学习训练周期特别长、参数难以收敛且训练效果较差的缺点。

进一步地，所述山火识别模型，包括：

第一卷积层，用于在将所述视频数据的图像帧输入至所述山火识别模型时，对所述图像帧进行第一卷积处理，得到第一特征图像；

第一激活层，用于令所述第一特征图像乘以ReLU函数，得到第一激活图像；

第二卷积层，用于对所述第一激活图像进行第二卷积处理，得到第二特征图像；

第二激活层，用于令所述第二特征图像乘以ReLU函数，得到第二激活图像；

LSTM层，用于根据本次输入的图像帧所对应的第二激活图像，以及历史输入的图像帧所对应的第二激活图像，计算特征向量；

全连接层，用于根据所述LSTM层输出的特征向量，得到山火识别结果；所述山火识别结果为0或1；所述山火识别结果为0表示山火没有发生，所述山火识别结果为1表示山火发生。

进一步地，所述步骤St3，具体包括：

St31，将所述训练视频数据的一个图像帧输入至所述山火识别模型中；所述山火识别模型对所述图像帧进行特征提取和识别，得到一个山火识别结果；

St32，根据所述山火识别结果为action赋值；

St33，根据所述山火识别结果与所述图像帧对应的标签的匹配情况，为state赋值；

St34，根据所述state为reward赋值；

St35，将所述action、state和reward值分别填入所述Q表格中该图像帧所对应的一列的第1行、第2行、第3行，完成对所述Q表格一列的填写；

St36，将所述训练视频数据的下一个图像帧输入至所述山火识别模型中，重复上述步骤St31-St35，直到所述Q表格的所有列均填写完成，得到一个填写完成的Q表格。

进一步地，所述步骤St32具体为：所述山火识别结果为0时，action也为0；所述山火识别结果为1时，action也为1；

所述步骤St33具体为：如果所述山火识别结果为1且所述标签也为1，则所述state为TP；如果所述山火识别结果为0但所述标签为1，则所述state为FN；如果所述山火识别结果为1但所述标签为0，则所述state为FP；如果所述山火识别结果为0且所述标签也为0，则所述state为TN；

所述步骤St34具体为：如果所述state为TP，则所述reward为+5；如果所述state为FN，则所述reward为-5；如果所述state为FP，则所述reward为-3；如果所述state为TN，则所述reward为+5。

进一步地，所述步骤St3，还包括步骤St350：在步骤St34之后，根据前一次获得的action、state、reward值和本次获得的state值，构建四元组数据(s_t-1,a_t-1,r_t-1,s_t)，其中s_t-1表示前一次获得的state值，a_t-1表示前一次获得的action值，r_t-1表示前一次获得的reward值，s_t表示本次获得的state值；并将所述四元组数据保存在经验回放区中；

所述步骤St3，还包括：在步骤St35之后，按预设的概率确定是否触发步骤St351；所述步骤St351被触发时，在所述经验回放区中抽取若干四元组数据，根据抽取得到的若干四元组数据优化所述山火识别模型的参数。

进一步地，如果步骤St35所填写的一列数据是该Q表格的最后一列数据，则触发步骤St351的概率提升至100％。

基于同一发明构思，本发明还提供一种基于深度强化学习的山火识别装置，包括山火识别模型和训练模块；所述山火识别模型，用于对视频数据进行特征提取，输出山火识别结果；所述训练模块，用于优化所述山火识别模型的参数；所述训练模块包括：

训练数据采集单元，用于采集若干训练视频数据，并为所述训练视频数据打标签；

Q表格创建单元，用于创建与所述训练视频数据对应的若干Q表格；

Q表格填写单元，用于将一个所述训练视频数据输入至所述山火识别模型中，根据所述山火识别模型输出的山火识别结果以及所述山火识别结果与所述标签的匹配情况填写Q表格，得到一个填写完成的Q表格；

奖励计算单元，用于重复调用所述Q表格填写单元，直到将所有训练视频数据都输入至所述山火识别模型中，得到若干个Q表格；计算所有Q表格的总reward值之和，以所述总reward值之和尽量大为目标，优化所述山火识别模型的参数；

参数收敛单元，用于重复调用所述Q表格填写单元和奖励计算单元，直到所述山火识别模型的参数收敛，得到训练好的山火识别模型。

进一步地，所述山火识别模型，包括：

进一步地，所述Q表格填写单元，具体包括：

数据输入单元，用于将所述训练视频数据的一个图像帧输入至所述山火识别模型中；所述山火识别模型对所述图像帧进行特征提取和识别，得到一个山火识别结果；

action赋值单元，用于根据所述山火识别结果为action赋值；

state赋值单元，用于根据所述山火识别结果与所述图像帧对应的标签的匹配情况，为state赋值；

reward赋值单元，用于根据所述state为reward赋值；

Q表格列填写单元，用于将所述action、state和reward值分别填入所述Q表格中该图像帧所对应的一列的第1行、第2行、第3行，完成对所述Q表格一列的填写；

Q表格输出单元，用于将所述训练视频数据的下一个图像帧输入至所述山火识别模型中，重复调用所述数据输入单元、action赋值单元、state赋值单元、reward赋值单元和Q表格列填写单元，直到所述Q表格的所有列均填写完成，得到一个填写完成的Q表格。

基于同一发明构思，本发明还提供一种基于深度强化学习的山火识别系统，包括无人机和算法服务器；所述无人机通过摄像头拍摄视频数据，并将所述视频数据传输至所述算法服务器；所述算法服务器通过一山火识别模型对所述视频数据进行特征提取，输出是否发生森林火灾的山火识别结果；所述山火识别模型，通过以下训练方法进行训练：

St2，创建与所述训练视频数据对应的若干Q表格；

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明实施例1的基于深度强化学习的山火识别系统示意图；

图2为本发明实施例1的山火识别模型的模块示意图；

图3为本发明实施例1的山火识别模型所执行的方法流程图；

图4为本发明实施例1的对山火识别模型的训练模块的模块示意图；

图5为本发明实施例1的对山火识别模型的训练方法的流程示意图；

图6为本发明实施例1的Q表格填写单元的子单元示意图；

图7为本发明实施例1的步骤St3的具体流程示意图；

图8为本发明实施例2的Q表格填写单元的子单元示意图；

图9为本发明实施例2的步骤St3的具体流程示意图。

具体实施方式

本发明改进了现有的山火识别模型的结构。现有的基于卷积神经网络的山火识别模型，通常只进行了对空间特征的提取，忽略了对时间特征的提取，导致现有的山火识别模型在识别烟雾和云雾方面误报警率较高。本发明在现有的基于卷积神经网络的山火识别模型的基础上加入了LSTM层。LSTM层能够有效提取时间变化特征，从而提高了山火识别模型识别烟雾和云雾的能力，有效降低了静态相似物体和动态云雾的干扰，增强了山火识别模型的鲁棒性。

进一步，本发明将深度强化学习的训练方法应用到山火识别模型的训练中，既克服了传统的有监督学习需要大量有标记训练数据的缺点，又克服了传统的无监督学习训练周期特别长、参数难以收敛且训练效果较差的缺点。本发明将山火识别模型看作智能体Agent，将视频数据看作是环境，将山火识别模型根据视频数据判断是否发生山火的行为，看作智能体Agent与环境的互动行为(action)；并设计了一种奖励机制，鼓励智能体Agent做出有利于提高识别准确度的行为。

实施例1

请参阅图1，图1为本发明实施例1的基于深度强化学习的山火识别系统示意图。本发明实施例1的基于深度强化学习的山火识别系统，包括无人机1和算法服务器2。所述无人机1搭载有摄像头11；所述无人机1在森林上空飞行时，通过所述摄像头11拍摄视频数据，并所述视频数据传输给所述算法服务器2。所述算法服务器2通过一山火识别模型M，对所述视频数据进行特征提取，输出是否发生森林火灾的山火识别结果；如果所述山火识别结果为发生森林火灾，则向工作人员发送报警信息。

具体地，请参阅图2和图3，图2为本发明实施例1的山火识别模型的模块示意图，图3为本发明实施例1的山火识别模型所执行的方法流程图。所述山火识别模型M包括：第一卷积层m1、第一激活层m2、第二卷积层m3、第二激活层m4、LSTM层m5和全连接层m6。

所述第一卷积层m1，用于执行步骤Sm1：在将所述视频数据的图像帧输入至所述山火识别模型时，对所述图像帧进行第一卷积处理，得到第一特征图像。所述第一卷积处理的卷积核大小为3，步长为1，填充为0。

所述第一激活层m2，用于执行步骤Sm2：令所述第一特征图像乘以ReLU函数，得到第一激活图像。

所述第二卷积层m3，用于执行步骤Sm3：对所述第一激活图像进行第二卷积处理，得到第二特征图像。所述第二卷积处理的卷积核大小为3，步长为1，填充为0。

所述第二激活层m4，用于执行步骤Sm4：令所述第二特征图像乘以ReLU函数，得到第二激活图像。

所述LSTM层m5，用于执行步骤Sm5：根据本次输入的图像帧所对应的第二激活图像，以及历史输入的图像帧所对应的第二激活图像，计算特征向量。所述LSTM层m5的hidden_size为256，num_layers为2。

所述全连接层m6，用于执行步骤Sm6：根据所述LSTM层输出的特征向量，得到山火识别结果。所述山火识别结果为0或1；所述山火识别结果为0表示山火没有发生，所述山火识别结果为1表示山火发生。

具体地，请参阅图4和图5，图4为本发明实施例1的对山火识别模型的训练模块的模块示意图，图5为本发明实施例1的对山火识别模型的训练方法的流程示意图。所述山火识别模型M，通过一训练模块T进行训练。所述训练模块T包括：训练数据采集单元t1，Q表格创建单元t2、Q表格填写单元t3、奖励计算单元t4、参数收敛单元t5。

所述训练数据采集单元t1，用于执行步骤St1：通过无人机采集若干训练视频数据，并为所述训练视频数据打标签；所述标签为0或1；所述标签为0表示山火没有发生，所述标签为1表示山火发生；每个所述训练视频数据以若干图像帧的形式存在。在本实施例中，每个所述训练视频数据包括10个图像帧。

所述Q表格创建单元t2，用于执行步骤St2：记所述训练视频数据的数量为x，创建x个与每个所述训练视频数据对应的Q表格；记每个所述训练视频数据所包括的图像帧的数量为y，则所述Q表格为3行y列的表格；所述Q表格的每一列对应一个图像帧。

所述Q表格填写单元t3，用于执行步骤St3：将一个所述训练视频数据输入至所述山火识别模型中，根据所述山火识别模型输出的山火识别结果以及所述山火识别结果与所述标签的匹配情况填写Q表格，得到一个填写完成的Q表格。

所述奖励计算单元t4，用于执行步骤St4：重复执行步骤St3，直到将所有训练视频数据都输入至所述山火识别模型中，得到x个Q表格；计算所有Q表格的总reward值之和，以所述总reward值之和尽量大为目标，优化所述山火识别模型的参数。

所述参数收敛单元t5，用于执行步骤St5：重复执行步骤St3和St4，直到所述山火识别模型的参数收敛，得到训练好的山火识别模型。

具体地，请参阅图6和图7，图6为本发明实施例1的Q表格填写单元的子单元示意图，图7为本发明实施例1的步骤St3的具体流程示意图。所述Q表格填写单元t3还包括：数据输入单元t31、action赋值单元t32、state赋值单元t33、reward赋值单元t34、Q表格列填写单元t35、Q表格输出单元t36。

所述数据输入单元t31，用于执行步骤St31：将所述训练视频数据的一个图像帧输入至所述山火识别模型中；所述山火识别模型对所述图像帧进行特征提取和识别，得到一个山火识别结果。

所述action赋值单元t32，用于执行步骤St32：根据所述山火识别结果为action赋值：所述山火识别结果为0时，action也为0；所述山火识别结果为1时，action也为1。

所述state赋值单元t33，用于执行步骤St33：根据所述山火识别结果与所述图像帧对应的标签的匹配情况，为state赋值：如果所述山火识别结果为1且所述标签也为1，则所述state为TP；如果所述山火识别结果为0但所述标签为1，则所述state为FN；如果所述山火识别结果为1但所述标签为0，则所述state为FP；如果所述山火识别结果为0且所述标签也为0，则所述state为TN。

所述reward赋值单元t34，用于执行步骤St34：根据所述state为reward赋值：如果所述state为TP，则所述reward为+5；如果所述state为FN，则所述reward为-5；如果所述state为FP，则所述reward为-3；如果所述state为TN，则所述reward为+5。

state为FN意味着山火识别模型将发生山火的情况误识别为没有发生山火；state为FP意味着山火识别模型将没有发生山火的情况误识别为发生山火。虽然state为FN和FP都意味着误报警，但是将没有发生山火的情况误识别为发生山火，其后果仅仅是浪费了工作人员二次确认的人力；而将发生山火的情况误识别为没有发生山火，可能导致工作人员不能及时发现山火发生、山火在短时间内快速蔓延，造成严重生命或财产损失。由于FN误报警的损害程度远远高于FP误报警的损害程度，本发明将FN对应的reward设置为-5，将FP对应的reward设置为-3，使所述山火识别模型尽量避免将发生山火的情况误识别为没有发生山火的情况。

所述Q表格列填写单元t35，用于执行步骤St35：将所述action、state和reward值分别填入所述Q表格中该图像帧所对应的一列的第1行、第2行、第3行，即完成对所述Q表格一列的填写。

所述Q表格输出单元t36，用于执行步骤St36：将所述训练视频数据的下一个图像帧输入至所述山火识别模型中，重复上述步骤St31-St35，直到所述Q表格的所有列均填写完成，即得到一个填写完成的Q表格。请参阅以下表格，以下表格为本发明一个实施例中的一个填写完成的Q表格：

	图像帧1	图像帧2	图像帧3	…	图像帧y
						action	0	1	0	…	1
state	TN	TP	FN	…	FP
						reward	+5	+5	-5	…	-3

然后将下一个所述训练视频数据输入至所述山火识别模型中，重复调用所述Q表格填写单元t3进行上述步骤St31-St37，得到x个填写完成的Q表格。

实施例2

本发明实施例2的基于深度强化学习的山火识别系统和山火识别模型，与实施例1的山火识别系统和山火识别模型基本相同，其区别在于对所述山火识别模型的训练方法不同。

在本发明实施例1的对所述山火识别模型的训练方法中，更新模型参数发生在步骤St4获取到所有训练视频数据的Q表格之后。而获取所有训练视频数据的Q表格所耗费的时间较长，这样会导致模型参数的收敛速度较慢。为了提高模型参数的收敛速度，本发明实施例2在实施例1的训练方法的基础上，增加了经验回放机制，其构思为：创建一个回放缓冲区；每当所述山火识别模型输出了一个山火识别结果时，将一个四元组数据存储至所述回放缓冲区中；在获取到state和reward值、完成了对一列Q表格数据的填写后，有一定的概率触发步骤St351：在所述回放缓冲区中抽取若干四元组数据，根据抽取得到的若干四元组数据优化所述山火识别模型的参数；其中，如果此次步骤St35所填写的一列数据是该Q表格的最后一列数据，则一定会触发步骤St351。经验回放机制的设置，大大提高了所述山火识别模型的收敛速度。

基于上述构思，具体地，请参阅图8，图8为本发明实施例2的Q表格填写单元的子单元示意图，图9为本发明实施例2的步骤St3的具体流程示意图。

本发明实施例2的对所述山火识别模型的训练模块的Q表格填写单元t3，相对于实施例1的Q表格填写单元t3，还包括：四元组数据获取单元t350和经验回放单元t351。

所述四元组数据获取单元t350，用于执行步骤St350：在步骤St34之后，根据前一次获得的action、state、reward值和本次获得的state值，构建四元组数据(s_t-1,a_t-1,r_t-1,s_t)，其中s_t-1表示前一次获得的state值，a_t-1表示前一次获得的action值，r_t-1表示前一次获得的reward值，s_t表示本次获得的state值；并将所述四元组数据保存在经验回放区中。

所述经验回放单元t351，用于在步骤St35之后，按预设的概率确定是否触发步骤St351；所述步骤St351被触发时，在所述经验回放区中抽取若干四元组数据，根据抽取得到的若干四元组数据优化所述山火识别模型的参数；其中，如果此次步骤St35所填写的一列数据是该Q表格的最后一列数据，则触发步骤St351的概率提升至100％。在本实施例中，触发步骤St351的预设概率设定为20％～25％，平均每填写4到5列Q表格数据，优化一次所述山火识别模型的参数。

本发明在现有的基于卷积神经网络的山火识别模型的基础上加入了LSTM层；LSTM层能够有效提取时间变化特征，从而提高了山火识别模型识别烟雾和云雾的能力，有效降低了静态相似物体和动态云雾的干扰，增强了山火识别模型的鲁棒性。进一步，本发明将强化学习的训练方法应用在对山火识别模型的训练上，既克服了有监督学习依赖大量高质量训练数据的缺点，又克服了无监督学习训练周期特别长、参数难以收敛且训练效果较差的缺点。进一步，本发明为FN和FP两种误报警情况设置了不同的reward值，使山火识别模型更倾向于避免将发生山火的情况误识别为没有发生山火的情况，使训练更具有针对性，提高了尽早发现山火的可靠性。

基于同一发明构思，本申请还提供一种电子设备，可以是服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该设备包括一个或多个处理器和存储器，其中处理器用于执行程序实现本发明的基于深度强化学习的山火识别方法；存储器用于存储可由所述处理器执行的计算机程序。

基于同一发明构思，本申请还提供一种计算机可读存储介质，与前述基于深度强化学习的山火识别方法的实施例相对应，所述计算机可读存储介质其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所记载的基于深度强化学习的山火识别方法的步骤。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种基于深度强化学习的山火识别方法，包括以下步骤：获取视频数据；通过一山火识别模型，对所述视频数据进行特征提取，输出山火识别结果；其特征在于：所述山火识别模型，通过以下训练方法进行训练：

St2，创建与所述训练视频数据对应的若干Q表格；

2.根据权利要求1所述的基于深度强化学习的山火识别方法，其特征在于：

所述山火识别模型，包括：

3.根据权利要求2所述的基于深度强化学习的山火识别方法，其特征在于：

所述步骤St3，具体包括：

St32，根据所述山火识别结果为action赋值；

St34，根据所述state为reward赋值；

4.根据权利要求3所述的基于深度强化学习的山火识别方法，其特征在于：

所述步骤St32具体为：所述山火识别结果为0时，action也为0；所述山火识别结果为1时，action也为1；

5.根据权利要求4所述的基于深度强化学习的山火识别方法，其特征在于：

所述步骤St3，还包括步骤St350：在步骤St34之后，根据前一次获得的action、state、reward值和本次获得的state值，构建四元组数据(s_t-1,a_t-1,r_t-1,s_t)，其中s_t-1表示前一次获得的state值，a_t-1表示前一次获得的action值，r_t-1表示前一次获得的reward值，s_t表示本次获得的state值；并将所述四元组数据保存在经验回放区中；

6.根据权利要求5所述的基于深度强化学习的山火识别方法，其特征在于：

如果步骤St35所填写的一列数据是该Q表格的最后一列数据，则触发步骤St351的概率提升至100％。

7.一种基于深度强化学习的山火识别装置，包括山火识别模型和训练模块；所述山火识别模型，用于对视频数据进行特征提取，输出山火识别结果；所述训练模块，用于优化所述山火识别模型的参数；其特征在于：所述训练模块包括：

8.根据权利要求7所述的基于深度强化学习的山火识别装置，其特征在于：

所述山火识别模型，包括：

9.根据权利要求8所述的基于深度强化学习的山火识别装置，其特征在于：

所述Q表格填写单元，具体包括：

action赋值单元，用于根据所述山火识别结果为action赋值；

reward赋值单元，用于根据所述state为reward赋值；

10.一种基于深度强化学习的山火识别系统，包括无人机和算法服务器；所述无人机通过摄像头拍摄视频数据，并将所述视频数据传输至所述算法服务器；所述算法服务器通过一山火识别模型对所述视频数据进行特征提取，输出是否发生森林火灾的山火识别结果；其特征在于：所述山火识别模型，通过以下训练方法进行训练：

St2，创建与所述训练视频数据对应的若干Q表格；