CN113723178A - 视频监控火灾的检测方法及装置 - Google Patents
视频监控火灾的检测方法及装置 Download PDFInfo
- Publication number
- CN113723178A CN113723178A CN202110813771.2A CN202110813771A CN113723178A CN 113723178 A CN113723178 A CN 113723178A CN 202110813771 A CN202110813771 A CN 202110813771A CN 113723178 A CN113723178 A CN 113723178A
- Authority
- CN
- China
- Prior art keywords
- video image
- training
- fire
- video
- candidate bounding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012544 monitoring process Methods 0.000 title claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 86
- 230000003595 spectral effect Effects 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 238000011176 pooling Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 100
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 230000001629 suppression Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 39
- 238000010183 spectrum analysis Methods 0.000 abstract description 8
- 230000009466 transformation Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000001228 spectrum Methods 0.000 abstract description 2
- 238000012000 impulse oscillometry Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000002485 combustion reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000779 smoke Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B17/00—Fire alarms; Alarms responsive to explosion
- G08B17/12—Actuation by presence of radiation or particles, e.g. of infrared radiation or of ions
- G08B17/125—Actuation by presence of radiation or particles, e.g. of infrared radiation or of ions by using a video camera to detect fire or smoke
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种视频监控火灾的检测方法和装置,涉及火灾探测技术领域,该方法包括:采集待识别视频图像;将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,预先训练的视频图像检测模型包括由卷积神经网络和小波层组成的小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。采用上述方案的本申请实施例可以通过小波变换直接将光谱方法集成到基于多解析度分析得卷积神经网络中,从而可以实现将卷积神经网络CNN中的卷积层和池化层看作是一种有限的光谱分析形式,进而实现快速得到待识别视频图像的是否为火灾图像的检测结果。
Description
技术领域
本申请涉及火灾探测技术领域,尤其涉及一种视频监控火灾的检测方法及装置。
背景技术
火灾往往会危及人类的生命和财产的安全。为减小火灾损失,有效的早期火灾探测和自主响应至关重要,在一般建筑中,烟雾传感器、热释放红外火焰探测器、紫外线火焰探测器等基于物理信号的探测器广泛应用于火灾报警中,然而,上述物理传感器需要靠近火源,在大型空间建筑和植物和港口等开放空间中探测火灾的效果并不理想,除此之外,探测器无法提供火情信息,如火灾位置、范围和燃烧程度。为此,研究者提出了基于视觉传感器的火灾探测系统。
但是,在实际应用中,现有的基于视觉传感器的火灾探测系统会受到红色的衣服、日落和光线反射等自然环境中大量“类火焰”的影响而导致分类错误。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种视频监控火灾的检测方法,以解决因自然环境中大量“类火焰”的影响而导致分类错误的技术问题。
本申请的第二个目的在于提出一种视频监控火灾的检测装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种视频监控火灾的检测方法,包括:
采集待识别视频图像;
将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,
预先训练的视频图像检测模型包括由卷积神经网络和小波层组成的小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。
可选的,在本申请实施例中,在将待识别视频图像输入预先训练的视频图像检测模型进行处理之前,还包括:
获取训练用视频图像的训练用光谱特征;
根据训练用光谱特征对小波神经网络进行训练,以得到特征金字塔网络。
可选的,在本申请实施例中,获取训练用视频图像的训练用光谱特征,包括:
通过多次二维哈尔小波变换算法对训练用视频图像进行处理,以提取训练用视频图像中的训练用光谱特征。
可选的,在本申请实施例中,通过多次二维哈尔小波变换算法对训练用视频图像进行处理,包括:
通过低通滤波器和高通滤波器,分别从水平方向和垂直方向对训练用视频图像进行低通和高通滤波处理,其中,通过下式获取第i级的分解输出:
其中,u∈{1,2,...,2m-i},v∈{1,2,...,2n-i},i表示第几次小波变换,k和l均为求和下标,为包含训练用视频图像的近似系数的分量,且为训练用视频图像,和分别表示水平细节、垂直细节和对角细节的系数,h为低通滤波器,g为高通滤波器。
可选的,在本申请实施例中,在将待识别视频图像输入预先训练的视频图像检测模型进行处理之前,还包括:
通过区域生成网络提取训练用视频图像中的训练用边界框;
将训练用光谱特征、训练用边界框和预设分类输入至区域生成网络,输出多个候选边界框,以及与每个候选边界框相对应的目标性分数,并采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框。
可选的,在本申请实施例中,采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框,包括:
从第一列表中选取与最高目标性分数对应的候选边界框,将选取的候选边界框从第一列表中移除并添加至第二列表,其中,第一列表用于存储多个候选边界框;
通过预设方式计算第二列表中的候选边界框与第一列表中的候选边界框的交集,并将交集大于预设值的候选边界框从第一列表中移除;
重复执行上述步骤,直至第一列表为空。
可选的,在本申请实施例中,视频监控火灾的检测方法,还包括:
通过区域生成网络中的池化层获取第二列表中的每个候选边界框的特征向量;
将每个候选边界框的特征向量输入池化层的头部网络,通过边界框回归获得每个候选框与预设框偏移量的预测值,并利用预测值对每个候选框进行调整。
可选的,在本申请实施例中,在输出待识别视频图像的判断结果之后,还包括:
根据检测结果确定待识别视频图像包含火灾视频图像,则控制报警器发出报警信号,将火灾视频图像所在的地理位置发送至终端。
为达上述目的,本申请第二方面实施例提出了一种视频监控火灾的检测装置,包括:
采集模块,用于采集待识别视频图像;
检测模块,用于将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,
预先训练的视频图像检测模型包括小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。
可选的,在本申请实施例中,检测模块,还包括训练模块,训练模块,包括:
获取单元,用于获取训练用视频图像的训练用光谱特征;
训练单元,用于根据训练用光谱特征对小波神经网络进行训练,以得到特征金字塔网络。
可选的,在本申请实施例中,训练模块,还包括:
第一提取单元,用于通过多次二维哈尔小波变换算法对训练用视频图像进行处理,以提取训练用视频图像中的训练用光谱特征。
可选的,在本申请实施例中,训练模块,还包括:
第二提取单元,用于通过区域生成网络提取训练用视频图像中的训练用边界框;
第一处理单元,用于将训练用光谱特征、训练用边界框和预设分类输入至区域生成网络,输出多个候选边界框,以及与每个候选边界框相对应的目标性分数,并采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框。
可选的,在本申请实施例中,检测模块,还包括:
报警单元,用于根据检测结果确定待识别视频图像包含火灾视频图像,则控制报警器发出报警信号,将火灾视频图像所在的地理位置发送至终端。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如本申请第一方面实施例的方法。
为达上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本申请第一方面实施例的方法。
综上,本申请实施例的视频监控火灾的检测方法、检测装置、计算机设备和非临时性计算机可读存储介质,该方案将采集的待识别视频图像输入预先训练的视频图像检测模型进行处理,经预先训练的视频图像检测模型处理后输出待识别视频图像的检测结果,其中,预先训练的视频图像检测模型包括由卷积神经网络和小波层组成的小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。由此,本申请实施例可以通过小波变换直接将光谱方法集成到基于多解析度分析得卷积神经网络中,从而可以实现将卷积神经网络CNN中的卷积层和池化层看作是一种有限的光谱分析形式,进而实现快速得到待识别视频图像的是否为火灾图像的检测结果。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种视频监控火灾的检测方法的流程图;
图2为本申请实施例中经哈尔变换后的结果;
图3为本申请实施例中小波神经网络模型的示意图;
图4为本申请实施例中区域生成网络RPN的示意图;
图5为本申请实施例中采用非极大值抑制算法中IOU与IOS计算对比示意图;
图6为本申请实施中分别采用IOU与IOS方法产生的候选框对比示意图;
图7为本申请实施例基于Faster R-CNN建立的总体框架图;以及
图8为本申请实施例所提供的一种视频监控火灾的检测装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
火灾是指在时间或空间上失去控制的燃烧所造成的灾害,在新的标准中,将火灾定义为在时间或空间上失去控制的燃烧,它火灾往往会危及人类的生命和财产的安全。为减小火灾损失,有效的早期火灾探测和自主响应至关重要,在一般建筑中,烟雾传感器、热释放红外火焰探测器、紫外线火焰探测器等基于物理信号的探测器广泛应用于火灾报警中,然而,上述物理传感器需要靠近火源,在大型空间建筑和植物和港口等开放空间中探测火灾的效果并不理想,除此之外,探测器无法提供火情信息,如火灾位置、范围和燃烧程度。为此,研究者提出了基于视觉传感器的火灾探测系统。
与需要靠近火源的物理传感器相比,基于视觉传感器的火灾探测系统具有以下优点:
(1)当前越来越多现有监控摄像机成本低;
(2)大型的监控区域;
(3)响应时间较快;
(4)误报率低;
(5)可以了解火灾的细节。
因此,视觉火灾探测方法在过去的十年中发展迅速。基于人工提取的颜色、纹理、形状、边缘、变化区等特征的方法,已经有很多研究对火灾探测进行尝试。其中一些方法使用预先训练好的卷积神经网络CNN作为基本架构,并基于数据集对全连接的层进行微调,上述方法在缺乏火灾训练数据时有很大的帮助。一些方法使用相对复杂的网络进行预先训练,例如AlexNet、VGG16以及Resnet50来开发火灾探测系统;同时部分方法专注于设计具有小模型尺寸的CNN,使得模型速度加快,例如,用SVM取代了轻量级CNN中的全连接层,以在火灾识别中获得更好的性能。
尽管有上述的算法在火灾探测上取得了一定的进步,但在实际应用中仍存在一些挑战。现有的方法很难消除错误的火灾警报,因为这些方法可能会受到红色的衣服、日落和光线反射等自然环境影响而导致分类错误。因此,视频探测火灾的困难点在于如何区分像火灾一样的物体和实际的火灾。
为了解决如何区分像火灾一样的物体和实际的火灾这个技术问题,本申请发明人探索了深度学习和光谱分析的组合的可能性。本申请实施例将卷积神经网络CNN和光谱分析的结合方法引入到早期火灾探测中,以快速高效的区分像火灾一样的物体和实际的火灾。下面参考附图描述本申请实施例的视频监控火灾的检测方法和装置。
图1为本申请实施例所提供的一种视频监控火灾的检测方法的流程图。
本申请实施例的视频监控火灾的检测方法,如图1所示,包括以下步骤:
步骤110,采集待识别视频图像;
步骤120,将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,预先训练的视频图像检测模型包括由卷积神经网络CNN和小波层Wavelet组成的小波神经网络Wavelet-CNN,小波神经网络Wavelet-CNN用于获取待识别视频图像的光谱特征。
考虑到光谱分析是火灾纹理特征提取的一种有效的低计算方法,本申请实施例的设计者们便探索了深度学习和光谱分析的组合的可能性,即,通过将卷积神经网络CNN和光谱分析相结合的方法引入到早期火灾探测中。简单的说,本申请实施例通过小波神经网络获取待识别视频图像的光谱特征,然后通过预先训练的视频图像检测模型对待识别视频图像的光谱特征进行处理,以快速得到待识别视频图像的是否为火灾图像的检测结果。
具体而言,本申请实施例将小波层Wavelet与卷积神经网络CNN中每层卷积层的最后一层(细胞神经网络层)连接起来,这样,便可以通过小波变换直接将光谱方法集成到基于多解析度分析得卷积神经网络中,从而可以实现将卷积神经网络CNN中的卷积层和池化层看作是一种有限的光谱分析形式,进而实现快速得到待识别视频图像的是否为火灾图像的检测结果。
进一步地,本申请实施例在将待识别视频图像输入预先训练的视频图像检测模型进行处理之前,还包括:
通过多次二维哈尔小波变换算法对训练用视频图像进行处理,以提取训练用视频图像中的训练用光谱特征;
根据训练用光谱特征对小波神经网络进行训练,以得到特征金字塔网络。
在本申请实施例中,通过低通滤波器和高通滤波器,分别从水平方向和垂直方向对训练用视频图像进行低通和高通滤波处理。例如,给定图像的尺寸为M×N=2m×2n,通过下式获取第i级的分解输出:
其中,u∈{1,2,...,2m-i},v∈{1,2,...,2n-i},i表示第几次小波变换,k和l均为求和下标,为包含训练用视频图像的近似系数的分量,且为训练用视频图像,和分别表示水平细节、垂直细节和对角细节的系数,h为低通滤波器,g为高通滤波器。
在上述实施例中,采用常规格式:和如图2所示,图中显示了哈尔小波变换的实际效果,图2(a)是部分原始图像;图2(b)是部分五级小波变换的结果,其中,原始图像LL1显示2步下采样图像,HL1显示水平细节,LH1显示垂直细节,HH1显示对角线细节;图2(c)是部分显示了第二级和第三级小波变换的结果。由此可以看出,经过哈尔变换后,图像维数增加了四倍,分辨率减半。另外,关于哈尔变换的次数,本领域技术人员可以根据实际需求选择变换1次,2次,4次,5次等,本申请实施例不做限制,而本申请实施例选择三次哈尔变换。
为了评估该方法的效率,我们使用了多个来源的图像,其中包含了大量的火样颜色和火样颜色的图像。除此之外,还测试了两个典型的后端网络,一个是高精度和重量级的ResNet50,另一个是轻量级的MobileNet v2,小波CNN模型的概述如图3所示,其中(a)为Wavelet-ResNet 50,(b)Wavelet-MobileNet v2,橙色立方体表示小波层,使用固定的参数进行分解,不会显著增加计算复杂度。
进一步地,本申请实施例在将待识别视频图像输入预先训练的视频图像检测模型进行处理之前,还包括:
首先,通过区域生成网络提取训练用视频图像中的训练用边界框,其中,边界框也称为候选框,是指检测目标所在的区域。为了生成候选框,最先进的深度学习方法之一是基于区域的CNN(R-CNN)的选择性搜索(selective search)方法,经测试,本申请发明人发现选择性搜索过程非常缓慢,占据了目标检测的大部分时间,为了克服上述缺点,本申请实施例采用Faster R-CNN提出的区域生成网络RPN来提高候选框的提取效率。
然后,将训练用光谱特征、训练用边界框和预设分类输入至区域生成网络,输出多个候选边界框,以及与每个候选边界框相对应的目标性分数,并采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框;其中,
采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框的方法如下:
从第一列表中选取与最高目标性分数对应的候选边界框,将选取的候选边界框从第一列表中移除并添加至第二列表,其中,第一列表用于存储多个候选边界框;
通过预设方式计算第二列表中的候选边界框与第一列表中的候选边界框的交集,并将交集大于预设值的候选边界框从第一列表中移除;
重复执行上述步骤,直至第一列表为空。
本申请实施例的预设方式可以选择非极大值抑制算法NMS中的交并集IOU的方式进行处理,也可以选择非极大值抑制算法NMS中的交并集IOS的方式进行处理。对于人脸、汽车等刚性物体,可以选择非极大值抑制算法NMS中的交并集IOU的方式计算第二列表中的候选边界框与第一列表中的候选边界框的交集,并将交集大于预设值的候选边界框从第一列表中移除。
对于火是边界模糊的无规则流体,小火花可能会四处飞散,采用非极大值抑制算法NMS中的交并集IOS的方式计算第二列表中的候选边界框与第一列表中的候选边界框的交集,并将交集大于预设值的候选边界框从第一列表中移除。也就是说,非极大值抑制算法NMS中交并集IOS的方式可以消除这些微小飞溅火花的干扰,突出燃烧火焰。
基于上述分析知,本申请实施例用Faster R-CNN提出的区域生成网络RPN代替了选择性搜索过程,区域生成网络RPN的结构如图4所示,从小波神经网络Wavelet-CNN提取的特征图被输入到区域生成网络RPN中,以同时学习对象的类别以及相关的边界框,输出的结果是一组候选边界框,每个边界框都有一个目标性分数,表示目标属于一个类的概率,通过这种端到端的训练过程,整体计算复杂度显著降低,同时性能得到提高。
例如:区域生成网络RPN为每个训练用视频图像生成1000个候选框,部分候选框重叠率较高,为了减少冗余,采用非极大值抑制算法NMS。将提议1000框的列表表示为B,将过滤后的候选框列表表示为D(最初为空)。NMS的过程如下:
首先,选择置信度得分(目标性分数越高,置信度越大)最高的提案框,将其从B中移除并添加到D。然后,计算该提案与其他提案的IOU(交集)。如果IOU大于阈值N,则从B中移除该提案。再次从B中剩余的候选框中取出具有最高置信度的候选框,并将其从B中移除并添加到D。再次计算该提案与B中所有候选框的IOU,并消除IOU高于阈值的框。重复这个过程,直到B中没有更多的候选框为止。
使用IOU计算来衡量两个提案之间的重叠,如图5(a)所示,但是,这种方法不适用于疑似火灾的建议。按照IOU的计算方法,计算结果中仍然存在重叠,并且一些被提出的框因为太小而无法表示火焰对象。与人脸和汽车等刚性物体不同,火是边界模糊的无规则流体,小火花可能会四处飞散,这使RPN与提议的精确框混淆。为了消除这些微小飞溅火花的干扰,突出燃烧火焰,我们在NMS算法中提出IOS代替IOU。IOS等于较小框区域上的相交面积,如图5(b)所示。
IOU和IOS对生成边界框的不同效果如图6所示(NMS的阈值设置为0.5)。可以看出IOS生成的限位框并没有相互重叠,并且几乎每个限位框都可以覆盖一个完整的火焰对象。因此,本申请实施例优先选择非极大值抑制算法NMS中的IOS方式进行处理。
进一步地,本申请实施例通过区域生成网络中的池化层获取第二列表中的每个候选边界框的特征向量;
将每个候选边界框的特征向量输入池化层的头部网络,通过边界框回归获得每个候选框与预设框偏移量的预测值,并利用预测值对每个候选框进行调整。
具体而言,在得到上述方案,本申请实施例进行了多种尝试,其中,通过区域生成网络RPN中的ROI池化层得到每个候选边界框(候选提议)的特征向量,它代表了对象属于一个类的概率。然而,区域提议的具体类别和准确位置仍然未知。为了解决这个问题,输入这些特征向量至ROI-Head,在其中全连接层和softmax层被执行用来确定候选框目标属于哪个类并计算其目标性分数。同时,通过边界框回归获得每个候选框与目标框ground-truthbox相关的偏移量的预测值,利用该值可以对区域提议进行修改和位置微调。
进一步地,本申请实施例在输出待识别视频图像的判断结果之后,还包括:
根据检测结果确定待识别视频图像包含火灾视频图像,则控制报警器发出报警信号,将火灾视频图像所在的地理位置发送至终端。当确定待识别视频图像包含火灾视频图像,本申请实施例会控制报警发出报警信号的同时,会将火灾视频图像所在的地理位置发送至终端,地理位置可以是监控摄像头的位置,也可以是无人飞机拍下此图那一刻所在的位置,终端可以手机、平板、电脑等。
由此,本申请实施例提出的视频监控火灾的检测方法的总体框架,是基于FasterR-CNN建立的,如图7所示,共三个步骤:特征提取,候选框生成,分类回归。首先将图像输入至预训练CNN层,得到特征金字塔网络(FPN),其中,特征金字塔网络FPN通常用于速度更快的R-CNN,其结构如图7插图右侧内容所示,它是一种自顶向下、横向连接的网络结构,用于构建各种尺度的高层语义特征映射。为了更好地分析火灾的光谱特征,本申请实施例采用了小波神经网络(Wavelet-CNN)来代替传统的卷积神经网络,将提取的特征映射与利用Region Proposal Network(RPN)提取的感兴趣区域(ROI)汇聚起来,输入到ROI头部网络(由全连接层和softmax层组成)来确定这些ROI的类别,并对其位置进行微调。
为了实现上述实施例,本申请实施例提出了一种视频监控火灾的检测装置,如图8所示,包括:
采集模块10,用于采集待识别视频图像;
检测模块20,用于将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,
预先训练的视频图像检测模型包括小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。
进一步地,本申请实施例中的检测模块,还包括训练模块,训练模块,包括:
获取单元,用于获取训练用视频图像的训练用光谱特征;
训练单元,用于根据训练用光谱特征对小波神经网络进行训练,以得到特征金字塔网络。
进一步地,本申请实施例中的训练模块,还包括:
第一提取单元,用于通过多次二维哈尔小波变换算法对训练用视频图像进行处理,以提取训练用视频图像中的训练用光谱特征。
进一步地,本申请实施例中的训练模块,还包括:
第二提取单元,用于通过区域生成网络提取训练用视频图像中的训练用边界框;
第一处理单元,用于将训练用光谱特征、训练用边界框和预设分类输入至区域生成网络,输出多个候选边界框,以及与每个候选边界框相对应的目标性分数,并采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框。
进一步地,本申请实施例中的检测模块,还包括:
报警单元,用于根据检测结果确定待识别视频图像包含火灾视频图像,则控制报警器发出报警信号,将火灾视频图像所在的地理位置发送至终端。
与最先进的方法相比,本申请实施例提出的视频监控火灾的检测方法和检测装置有如下创新:
(1)将空间特征和频率特征集成在一个模型中,提高了火灾检测精度,减少了误报。
(2)使用更快的R-CNN和小波变换的联合火灾探测方法的整体框架,训练数据集包含基于科西嘉火灾数据库(CFDB)、Foggia和Sharma数据库,并结合火灾实验、真实的火灾案例以及来自互联网的火灾图片。
(3)为了从不同的角度考虑掉所有候选方法的性能,在我们的数据集和现有的基准数据集上进行了详细的实验。关于准确性、假警报和其他指标的结果表明,与最先进的方法相比,该方法是监测环境中火灾探测的一个极好的候选方法。
综上,本申请实施例应用2D Haar变化来提取图像的光谱特征,然后将它们输入到不同层阶段的CNN中,使用高精度和重量级的ResNet50以及轻量级的MV2这两个经典的网络来测试我们的方法,结果表明,无论哪种网络,小波层的引入都可以减少误报率、漏报率和计算复杂性,并提高准确性、精确度、召回率,对于轻量级的MV2,以上指标的性能提升更为明显,结合小波变换可以改善CNNs,尤其是轻量级CNNs的火灾识别能力。对真实监控视频的测试进一步证明了,本申请实施例提出的模型可以在精度和速度上满足实时火灾检测的需求。
为了实现上述实施例,本申请实施例还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如本申请实施例所描述的方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本申请实施例所描述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (15)
1.一种视频监控火灾的检测方法,其特征在于,包括:
采集待识别视频图像;
将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,
预先训练的视频图像检测模型包括由卷积神经网络和小波层组成的小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。
2.根据权利要求1的视频监控火灾的检测方法,其特征在于,在将待识别视频图像输入预先训练的视频图像检测模型进行处理之前,还包括:
获取训练用视频图像的训练用光谱特征;
根据训练用光谱特征对小波神经网络进行训练,以得到特征金字塔网络。
3.根据权利要求2的视频监控火灾的检测方法,其特征在于,获取训练用视频图像的训练用光谱特征,包括:
通过多次二维哈尔小波变换算法对训练用视频图像进行处理,以提取训练用视频图像中的训练用光谱特征。
5.根据权利要求2的视频监控火灾的检测方法,其特征在于,在将待识别视频图像输入预先训练的视频图像检测模型进行处理之前,还包括:
通过区域生成网络提取训练用视频图像中的训练用边界框;
将训练用光谱特征、训练用边界框和预设分类输入至区域生成网络,输出多个候选边界框,以及与每个候选边界框相对应的目标性分数,并采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框。
6.根据权利要求5的视频监控火灾的检测方法,其特征在于,采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框,包括:
从第一列表中选取与最高目标性分数对应的候选边界框,将选取的候选边界框从第一列表中移除并添加至第二列表,其中,第一列表用于存储多个候选边界框;
通过预设方式计算第二列表中的候选边界框与第一列表中的候选边界框的交集,并将交集大于预设值的候选边界框从第一列表中移除;
重复执行上述步骤,直至第一列表为空。
7.根据权利要求4至6任一的视频监控火灾的检测方法,其特征在于,还包括:
通过区域生成网络中的池化层获取第二列表中的每个候选边界框的特征向量;
将每个候选边界框的特征向量输入池化层的头部网络,通过边界框回归获得每个候选框与预设框偏移量的预测值,并利用预测值对每个候选框进行调整。
8.根据权利要求1至6任一的视频监控火灾的检测方法,其特征在于,在输出待识别视频图像的判断结果之后,还包括:
根据检测结果确定待识别视频图像包含火灾视频图像,则控制报警器发出报警信号,将火灾视频图像所在的地理位置发送至终端。
9.一种视频监控火灾的检测装置,其特征在于,包括:
采集模块,用于采集待识别视频图像;
检测模块,用于将待识别视频图像输入预先训练的视频图像检测模型进行处理,输出待识别视频图像对应的检测结果,其中,
预先训练的视频图像检测模型包括小波神经网络,小波神经网络用于获取待识别视频图像的光谱特征。
10.根据权利要求9的视频监控火灾的检测装置,其特征在于,检测模块,还包括训练模块,训练模块,包括:
获取单元,用于获取训练用视频图像的训练用光谱特征;
训练单元,用于根据训练用光谱特征对小波神经网络进行训练,以得到特征金字塔网络。
11.根据权利要求10的视频监控火灾的检测装置,其特征在于,训练模块,还包括:
第一提取单元,用于通过多次二维哈尔小波变换算法对训练用视频图像进行处理,以提取训练用视频图像中的训练用光谱特征。
12.根据权利要求10的视频监控火灾的检测装置,其特征在于,训练模块,还包括:
第二提取单元,用于通过区域生成网络提取训练用视频图像中的训练用边界框;
第一处理单元,用于将训练用光谱特征、训练用边界框和预设分类输入至区域生成网络,输出多个候选边界框,以及与每个候选边界框相对应的目标性分数,并采用非极大值抑制算法去除多个候选边界框中的重叠候选边界框。
13.根据权利要求9至12任一的视频监控火灾的检测装置,其特征在于,检测模块,还包括:
报警单元,用于根据检测结果确定待识别视频图像包含火灾视频图像,则控制报警器发出报警信号,将火灾视频图像所在的地理位置发送至终端。
14.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如权利要求1-8中任一的方法。
15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现如权利要求1-8中任一的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110813771.2A CN113723178A (zh) | 2021-07-19 | 2021-07-19 | 视频监控火灾的检测方法及装置 |
PCT/CN2022/102836 WO2023000949A1 (zh) | 2021-07-19 | 2022-06-30 | 视频监控火灾的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110813771.2A CN113723178A (zh) | 2021-07-19 | 2021-07-19 | 视频监控火灾的检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723178A true CN113723178A (zh) | 2021-11-30 |
Family
ID=78673455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110813771.2A Pending CN113723178A (zh) | 2021-07-19 | 2021-07-19 | 视频监控火灾的检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113723178A (zh) |
WO (1) | WO2023000949A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511046A (zh) * | 2022-04-19 | 2022-05-17 | 阿里巴巴(中国)有限公司 | 对象识别方法以及装置 |
WO2023000949A1 (zh) * | 2021-07-19 | 2023-01-26 | 清华大学 | 视频监控火灾的检测方法及装置 |
CN116930401A (zh) * | 2023-09-19 | 2023-10-24 | 常州建昊建筑鉴定检测有限公司 | 建筑工程保温材料燃烧性能检测设备及方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117376535B (zh) * | 2023-12-08 | 2024-03-08 | 西安肖邦电子科技有限公司 | 智慧校园安防管控方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107742282A (zh) * | 2017-11-13 | 2018-02-27 | 中国人民解放军国防科技大学 | 基于主方向抑制高通滤波器的叠加图像预处理方法 |
CN112906491A (zh) * | 2021-01-26 | 2021-06-04 | 山西三友和智慧信息技术股份有限公司 | 一种基于多模态融合技术的森林火灾检测方法 |
CN113723178A (zh) * | 2021-07-19 | 2021-11-30 | 清华大学 | 视频监控火灾的检测方法及装置 |
-
2021
- 2021-07-19 CN CN202110813771.2A patent/CN113723178A/zh active Pending
-
2022
- 2022-06-30 WO PCT/CN2022/102836 patent/WO2023000949A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023000949A1 (zh) * | 2021-07-19 | 2023-01-26 | 清华大学 | 视频监控火灾的检测方法及装置 |
CN114511046A (zh) * | 2022-04-19 | 2022-05-17 | 阿里巴巴(中国)有限公司 | 对象识别方法以及装置 |
CN116930401A (zh) * | 2023-09-19 | 2023-10-24 | 常州建昊建筑鉴定检测有限公司 | 建筑工程保温材料燃烧性能检测设备及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023000949A1 (zh) | 2023-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723178A (zh) | 视频监控火灾的检测方法及装置 | |
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
Zhao et al. | A cascade coupled convolutional neural network guided visual attention method for ship detection from SAR images | |
CN111046880B (zh) | 一种红外目标图像分割方法、系统、电子设备及存储介质 | |
EP3614308A1 (en) | Joint deep learning for land cover and land use classification | |
Pei et al. | A fast RetinaNet fusion framework for multi-spectral pedestrian detection | |
CN108256404B (zh) | 行人检测方法和装置 | |
Li et al. | Topology-enhanced urban road extraction via a geographic feature-enhanced network | |
CN110689021A (zh) | 一种基于深度学习的低可见度环境下实时目标检测方法 | |
CN112767645B (zh) | 一种烟雾识别方法及装置、电子设备 | |
Rahnemoonfar et al. | Semantic segmentation of underwater sonar imagery with deep learning | |
CN108428224B (zh) | 基于卷积神经网的动物体表温度检测方法及装置 | |
CN111401517A (zh) | 一种感知网络结构搜索方法及其装置 | |
Jiang et al. | A self-attention network for smoke detection | |
JP7313828B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN115546901B (zh) | 用于宠物规范行为检测的目标检测模型及方法 | |
Ahmed et al. | A real-time efficient object segmentation system based on U-Net using aerial drone images | |
Valappil et al. | CNN-SVM based vehicle detection for UAV platform | |
US20170053172A1 (en) | Image processing apparatus, and image processing method | |
Alon et al. | Watercraft-net: A deep inference vision approach of watercraft detection for maritime surveillance system using optical aerial images | |
CN116452966A (zh) | 一种水下图像的目标检测方法、装置、设备及存储介质 | |
CN116740418A (zh) | 一种基于图重构网络的目标检测方法 | |
Dai et al. | Oamatcher: An overlapping areas-based network for accurate local feature matching | |
Akiyama et al. | Evaluating different deep learning models for automatic water segmentation | |
Bourja et al. | Real time vehicle detection, tracking, and inter-vehicle distance estimation based on stereovision and deep learning using YOLOv3 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |