CN111814638B

CN111814638B - 基于深度学习的安防场景火焰检测方法

Info

Publication number: CN111814638B
Application number: CN202010614656.8A
Authority: CN
Inventors: 吉翔
Original assignee: Chengdu Ruiyan Technology Co ltd
Current assignee: Chengdu Ruiyan Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2024-04-30
Anticipated expiration: 2040-06-30
Also published as: CN111814638A

Abstract

本发明公开了基于深度学习的安防场景火焰检测方法，属于安防技术领域，其主要包含通过基于神经网络所练出的用于识别火焰形状的单阶段检测模型进行监控视频所解码出的图片进行疑似火焰区域的检测；接着根据识别到的疑似火焰的区域，对视频中与之对应区域进行视频帧截取，获得视频帧；然后将视频帧分为N个子片段，从每个子片段中均采样一帧，得到采样真；最后将采样帧输入基于神经网络所练出的用于识别火焰动态变化的类行为识别分类模型，以分类是否为火焰。本发明既通过单阶段检测模型提取了疑似火焰的单帧的外观特征，又考虑了前后帧的动态信息，更加丰富的特征大大提升了最后的分类效果，提升了火焰检测的实时性和高效用。

Description

基于深度学习的安防场景火焰检测方法

技术领域

本发明涉及安防技术领域，具体涉及基于深度学习的安防场景火焰检测方法。

背景技术

在各种灾害中，火灾是最经常、最普遍地威胁公众安全和社会发展的主要灾害之一。火灾基本上都是由小火点逐步蔓延成大火，并在时间或空间上失去控制的燃烧所造成的灾害。当成形大火时，不仅扑灭苦难，且由于环境不可控因素多，导致易发生爆炸等更加危险的情况，不仅导致财产损失，还会造成人员伤亡。因此现需要对环境特别是缺乏人员直接监控的环境进行火点检测，以在其初始期即被发现、消灭，不会发展成大火甚至火灾。

现主要通过视频监控以及对视频监控所采集到的图像通过图像处理技术进行分析，以判定监控的环境中是否存在火点。

当前有一些使用传统图像处理的技术，此类技术采用人为的先验知识，去提取可能的火焰区域；此技术根据统计的自然界中各种出现的火焰的颜色分布区间，首先计算图中整张图所有像素点可能为火焰的mask区域；然后结合动态的各种变化提取变化的区域，因为真实的火焰应该会伴随有动态变化；通过计算mask区域的动态变化量，有动态变化时则增加累积量，没有动态变化则缓慢减少累积量；当累积量超过一定阈值时，则进行报警发现火焰位置；另一种技术，使用HOG特征等，通过对图像计算相关HOG特征，生成一个特征向量。再以此特征向量为基础构建分类器，如SVM等，对图像进行分类是否为火焰。这类传统技术手段提取的特征较为单一，提取的特征直接影响后面的分类效果，当提取特征错误时，则会直接导致错误的输出。并且对于mask的计算十分消耗计算资源，在输入图片较大时，会导致计算过慢，不利于快速反馈出火点检测结果，不适用于实际场景。

另一类图像处理技术为多结合传统图像处理方式，与精度较高的深度学习相结合。首先使用传统图像处理方式，如超像素分割等聚类算法将图像中的类似区域划分到一起，以此来生成候选区域送入其后的分类神经网络。这样做的意义在于，原本整张图火焰可能出现的位置占比容易较小，若直接送入分类神经网络，其效果难以保证。候选区域生成后，每一个候选区域作为后面分类神经网络的输入，分类神经网络判定输出该区域是否为火焰的判断。这种候选区域的生成算法，受实际业务场景复杂程度影响较大，在复杂场景下，候选区域的生成效果不佳，容易出现较多无效区域，或对实际的火焰区域切割不全。并且其后续的分类模型，以单张图片信息作为输入，无法获取火焰的动态信息，因而对于颜色与火焰相近的物体(如灯光，红色衣服等)识别效果较差，容易将与火焰相近的物体识别成火焰而误报警。

发明内容

本发明的目的在于：提供了基于深度学习的安防场景火焰检测方法，解决了现有的用于火焰检测的方法中，无法获取火焰的动态信息，容易将与火焰相近的物体识别成火焰而误报警等上述技术问题。本发明所设计的基于深度学习的安防场景火焰检测方法，基于检测神经网络模型，其所提取特征较之传统算法更为丰富，其能够生成更加近似火焰的目标区域，且目标区域位置预测也更加精确。同时类行为识别的分类网络，将火焰分类与视频理解结合，分类时结合了候选区域的外观特征与前后帧动态信息，这些使得分类网络进行更准确的预测。

本发明采用的技术方案如下：

基于深度学习的安防场景火焰检测方法，包括如下步骤：

S1.通过深度学习神经网络训练出用于识别火焰形状的单阶段检测模型；

S2.通过深度学习神经网络训练出用于识别火焰动态变化的类行为识别分类模型；

S3.将监控摄像头实时拍摄的视频回传给后台服务器；

S4.后台服务器对回传的视频流数据进行解码为多帧图片；

S5.将步骤S4中得到的图片输入单阶段检测模型，单阶段检测模型检测是否有疑似火焰的区域，若无则重复步骤S3、S4；若有，则输出图中疑似火焰的区域；

S6.根据步骤S4中所识别到的疑似火焰的区域，对视频中与之对应区域进行视频帧截取，从而获得以疑似火焰的区域为主体的连续视频帧；

S7.将步骤S6中得到的连续视频帧分为N个子片段，从每个子片段中均采样一帧，此为采样帧；

S8.将步骤S7中得到的采样帧输入类行为识别分类模型，类行为识别分类模型对连续视频帧中火焰在时间维度上的动态变化进行收集，当类行为识别分类模型识别出连续视频帧中的火焰的动态变化，则后台服务器进行报警。

进一步地，所述S1具体包括如下步骤：

a、数据准备：拍摄和/或搜集火焰视频；

b、标注：先将视频解码为图片，接着用打标签软件将图中火焰标注出来，并根据标注获得图像中火焰的位置(x,y,w,h)格式，其中x,y为火焰所在矩形框左上角坐标，w、h为火焰矩形框的宽和高；

c、训练：采用纯yolov3全网络或者efficient-bo框架做backbone后面接yolov3轻量化检测头作为单阶段检测模型的网络结构，接着用步骤b得到的标注好的图片作为网络输入，以图片中所有的火焰位置作为预测目标，计算预测结果和真实值差异，用反向传播算法更新网络权重，最终训练出计算预测结果和真实值基本匹配的用于识别火焰形状的单阶段检测模型。

进一步地，所述S2具体包括如下步骤：

A、数据准备:拍摄和/或搜集火焰视频；

B、标注：标注出每个视频火焰的开始帧和结束帧以及火焰的位置；

C、训练：采用ECO行为识别网络结构作为类行为识别分类模型的网络结构，步骤B中得到的标注好的视频中，从一次火焰发生到结束算作正样本事件，未标注为火焰的视频段记为负样本事件，从正、负样本事件中均采样N帧，作为网络输入，事件的正、负作为标签，计算预测结果和真实值差异，用反向传播算法更新网络权重，最终训练出计算预测结果和真实值基本匹配的用于识别火焰动态变化的类行为识别分类模型；所述N≥2，且N为自然数。

进一步地，所述S7中，将采样帧先输入2D卷积网络处理，提取每一帧的对应的特征；然后通过将多帧的特征联合处理，3D网络提取时间维度上的特征，从而收集了火焰在时间维度上的动态变化，最终2D与3D网络提取的特征用于分类模块，通过分类模块分类是否为火焰

由于采用了本技术方案，本发明的有益效果是：

1.本发明基于深度学习的安防场景火焰检测方法，既通过单阶段检测模型提取了疑似火焰的单帧的外观特征，如火焰形状，又考虑了前后帧的动态信息，如火焰的晃动，更加丰富的特征大大提升了最后的分类效果，提升了火焰检测的实时性和高效用，以使本发明高度适用于实时监控中，减少了多场景的人力投入、降低了人力成本；

2.本发明基于深度学习的安防场景火焰检测方法，将火焰的动态信息作为分类的特征考虑，所提取特征较之传统算法更为丰富，其不仅能够生成更加近似火焰的目标区域，且目标区域位置预测也更加精确；通过类行为识别的分类网络，将火焰分类与视频理解结合，分类时结合了候选区域的外观特征与前后帧动态信息，这些使得分类网络进行更准确的检测，从而获得实时高效以及高准确率的火焰检测方法

3.本发明基于深度学习的安防场景火焰检测方法，较之传统的火焰检测方法来说，本发明增加了火焰动态特征提取，有效地避免了以单张图片信息作为输入导致的容易将与火焰相近的物体识别成火焰而误报警的情况出现。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明的流程示意图；

图2是单阶段检测模型检测网络结构图；

图3是单阶段检测模型特征提取示意图；

图4是本发明的图片处理过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

下面结合图1至图4对本发明作详细说明。

实施例1

如图1～图4所示，本发明基于深度学习的安防场景火焰检测方法，包括如下步骤：

S3.将监控摄像头实时拍摄的视频回传给后台服务器；

S4.后台服务器对回传的视频流数据进行解码为多帧图片；

本实施中以图3所示进行举例说明，图3中的候选2为假设的疑似为火焰的非火焰的物体。当监控摄像头所拍摄的画面中存在的疑似火焰的部位为非火焰的物体时，如图3中候选2所框部位所示，单阶段检测模型检测到候选2所示的疑似为火焰的位置后，将视频中与候选2所选中的矩形框对应的区域进行视频帧截取，获得以候选2所在位置为主体的连续视频帧。接着将连续视频帧分为N个子片段，从每个子片段中均采样一帧，得到采样帧；接着将采样帧送入类行为识别分类模型。由于候选2虽然具备火焰的形状、颜色、温度等，但其不具备在时间维度上的动态变化，不符合火焰的特性，因此类行为识别分类模型识别不到连续视频帧中的“火焰”的动态变化信息，继而判定候选2所选定的为非火焰的物体，从而不进行报警动作。

当监控摄像头所拍摄的画面中存在的疑似火焰的部位为真的火焰时，如图3中候选1所框部位所示，单阶段检测模型检测到候选1所示的疑似为火焰的位置后，将视频中与候选1所选中的矩形框对应的区域进行视频帧截取，获得以候选1所在位置为主体的连续视频帧。接着将连续视频帧分为N个子片段，从每个子片段中均采样一帧，得到采样帧；接着将采样帧送入类行为识别分类模型。由于候选1为真的火焰，因此其在时间维度上具有动态变化，符合火焰的特性，因此类行为识别分类模型识别出连续视频帧中的“火焰”的动态变化信息，继而判定候选1所选定的为火焰，继而进行报警动作。

综上，本发明既通过单阶段检测模型提取了疑似火焰的单帧的外观特征，如火焰形状，又考虑了前后帧的动态信息，如火焰的晃动，更加丰富的特征大大提升了最后的分类效果，提升了火焰检测的实时性和高效用，以使本发明高度适用于实时监控中，减少了多场景的人力投入、降低了人力成本。

同时，将火焰的动态信息作为分类的特征考虑，所提取特征较之传统算法更为丰富，其不仅能够生成更加近似火焰的目标区域，且目标区域位置预测也更加精确；通过类行为识别的分类网络，将火焰分类与视频理解结合，分类时结合了候选区域的外观特征与前后帧动态信息，这些使得分类网络进行更准确的检测，从而获得实时高效以及高准确率的火焰检测方法。

本发明较之传统的火焰检测方法来说，本发明增加了火焰动态特征提取，有效地避免了以单张图片信息作为输入导致的容易将与火焰相近的物体识别成火焰而误报警的情况出现。

实施例2

本实施例是关于实施例1中的单阶段检测模型的训练做出具体说明。

所述S1具体包括如下步骤：

a、数据准备：拍摄和/或搜集火焰视频；

b、标注：先用Opencv将视频解码为图片，接着用Labelimg或者Labelme等打标签软件将图中火焰标注出来，用矩形框将其框住，如图3所示；并根据标注获得图像中火焰的位置(x,y,w,h)格式，其中x,y为火焰所在矩形框左上角坐标，w、h为火焰矩形框的宽和高；

本发明中的单阶段检测模型，首先通过深度神经网络对图像进行特征提取，随着模型层数的深入，提取的特征更加靠近高级的语义特征，同时感受野扩大。这样的网络结构，使得模型可以提取不同大小的目标特征，浅层更有利于提取小目标特征，而深层特征更容易提取大型目标特征。而通过特征融合，使得各层的特征信息更加丰富。这样的结构保证了，对于不同业务场景中，可能出现的大目标或者小目标都能很好的检测出来。

实施例3

本实施例是关于实施例1中的类行为识别分类模型的训练做出具体说明。

所述S2具体包括如下步骤：

A、数据准备:拍摄和/或搜集火焰视频；

B、标注：标注人员标注出每个视频火焰的开始帧和结束帧以及火焰的位置；

C、训练：采用ECO行为识别网络结构作为类行为识别分类模型的网络结构，步骤B中得到的标注好的视频中，从一次火焰发生到结束算作正样本事件，未标注为火焰的足够长视频段记为负样本事件，从正、负样本事件中均采样16帧，作为网络输入，事件的正、负作为标签，计算预测结果和真实值差异，用反向传播算法更新网络权重，最终训练出计算预测结果和真实值基本匹配的用于识别火焰动态变化的类行为识别分类模型。

实施例4

本实施例是基于实施例3中所选取的ECO网络，对步骤S7进行具体说明。

如图4所示，所述S7中，将采样帧先输入2D卷积网络处理，提取每一帧的对应的特征；然后通过将多帧的特征联合处理，3D网络提取时间维度上的特征，从而收集了火焰在时间维度上的动态变化，最终2D卷积网络与3D网络提取的特征用于分类模块，通过分类模块分类是否为火焰。

2D卷积网络、3D网络为ECO网络结构的组成部分，其中2D卷积网络主要关注每帧的图像信息，3D网络主要关注前后帧的差异也就是火焰的动态信息。图4中，先将视频解码成图片，送入单阶段检测模型，输出图片中火焰的疑似位置；接着根据单阶段检测模型检测到的火焰疑似位置进行前后帧的对应的区域截取，获得视频帧；接着将视频帧分段，每段取出一帧，作为采样帧，采样帧输入类行为识别分类模型中。具体地，将采样帧同时输入2D卷积网络与3D网络进行特征提取，后续将2D卷积网络与3D网络得到的数组拼接起来，由于3D网络对多帧图像一起处理，而2D卷积网络对多帧图像分开处理，所以2D卷积网络的输出(N*1024)会比3D网络输出(512)多一个维度，因此2D卷积网络的输出进行Pooling，对其进行降维操作，以使2D卷积网络与3D网络的输出维度相同，便于数组拼接。接着将拼接后的数组通过分类模块进行分类，通过2D卷积网络与3D网络提取的特征，拼接后的数据作为输入，与训练得到的神经网络做矩阵运算，最终算得分类为火的概率。关于数据的拼接，如若使用pytorch的机器学习框架来搭建的ECO，则可直接使用pytorch中的数据拼接工具。

本发明中，以视频段为输入，将视频分为N个子片段，从每个子片段中采样一帧。将这些帧分别输入2D卷积网络处理，提取每一帧的对应的特征。然后通过将多帧的特征联合处理，3D网络会提取时间维度上的特征，从而收集了火焰在时间维度上的动态变化。将最终2D卷积网络与3D网络提取的特征拼接后用于分类是否为火焰。这样的设计既提取了单帧的外观特征，又考虑了前后帧的动态信息，更加丰富的特征大大提升了最后的分类效果。

以上所述，仅为本发明的优选实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.基于深度学习的安防场景火焰检测方法，其特征在于：包括如下步骤：

S3.将监控摄像头实时拍摄的视频回传给后台服务器；

S4.后台服务器对回传的视频流数据进行解码为多帧图片；

S8.将步骤S7中得到的采样帧输入类行为识别分类模型，类行为识别分类模型对连续视频帧中火焰在时间维度上的动态变化进行收集，当类行为识别分类模型识别出连续视频帧中的火焰的动态变化，则后台服务器进行报警；

所述S1具体包括如下步骤：

a、数据准备：拍摄和/或搜集火焰视频；

c、训练：采用纯yolov3全网络或者efficient-bo框架做backbone后面接yolov3轻量化检测头作为单阶段检测模型的网络结构，接着用步骤b得到的标注好的图片作为网络输入，以图片中所有的火焰位置作为预测目标，计算预测结果和真实值差异，用反向传播算法更新网络权重，最终训练出计算预测结果和真实值基本匹配的用于识别火焰形状的单阶段检测模型；

所述S2具体包括如下步骤：

A、数据准备:拍摄和/或搜集火焰视频；

2.根据权利要求1所述的基于深度学习的安防场景火焰检测方法，其特征在于：所述N＝16。

3.根据权利要求1所述的基于深度学习的安防场景火焰检测方法，其特征在于：所述S7中，将采样帧先输入2D卷积网络处理，提取每一帧的对应的特征；然后通过将多帧的特征联合处理，3D网络提取时间维度上的特征，从而收集了火焰在时间维度上的动态变化，最终2D与3D网络提取的特征用于分类模块，通过分类模块分类是否为火焰。