CN116416576A - 基于v3-yolox的烟雾/火焰双光视觉检测方法 - Google Patents
基于v3-yolox的烟雾/火焰双光视觉检测方法 Download PDFInfo
- Publication number
- CN116416576A CN116416576A CN202310358618.4A CN202310358618A CN116416576A CN 116416576 A CN116416576 A CN 116416576A CN 202310358618 A CN202310358618 A CN 202310358618A CN 116416576 A CN116416576 A CN 116416576A
- Authority
- CN
- China
- Prior art keywords
- convolution
- network
- smoke
- yolox
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000000779 smoke Substances 0.000 title claims abstract description 75
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 230000000007 visual effect Effects 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000005286 illumination Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000009977 dual effect Effects 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 238000011179 visual inspection Methods 0.000 claims 5
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000002341 toxic gas Substances 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Fire-Detection Mechanisms (AREA)
Abstract
本发明涉及视觉检测、自动检测技术,为提升烟火的检测效率和实时性,增加烟火检测可适应的场景,例如能有效检测各个阶段的火灾,以及毒害气体泄漏,为此,本发明,基于V3‑YOLOX的烟雾/火焰双光视觉检测方法,建立改进的MobileNetV3‑YOLOX网络V3‑YOLOX网络,V3‑YOLOX网络包括主干网络Backbone、颈部网络Neck以及头部网络Head三部分,其中主干网络Backbone采用计算机视觉系列模型MobilenetV3的主干网络Backbone进行特征提取,MobilenetV3选择MobileNetV3‑Large版本。本发明主要应用于视觉检测场合。
Description
技术领域
本发明涉及视觉检测、自动检测技术,具体涉及基于V3-YOLOX的烟雾/火焰双光视觉检测方法。
背景技术
随着我国经济的快速发展、城镇化建设的加快以及城乡一体化概念的提出,使得原本在城镇边缘与易燃易爆化学物品相关的场所距离我们的生活越来越近。毒害气体泄漏、烟火检测是消防安全的重要部分,若能在毒害气体泄漏或火灾发生的初期就能检测到烟火的存在,就可以给后续的消防工作提供信息支持,为灾情的防救、保护居民和消防员的生命安全以及降低经济损失具有重要的意义。
近年来,随着人工智能和计算机视觉的飞速发展,基于深度学习的烟火检测方法已经逐渐应用于工业生产以及消防安全检测中。李澎林等[1]提出了一种光流法和YOLOv3相结合的烟雾检测模型,首先通过改进的光流算法提取烟雾的动态特征并完成对烟雾的框定,然后将框定后的目标输入至YOLOv3网络进行烟雾的二次识别,有效减少了外界因素的干扰。该方法具有较强的鲁棒性,但仅适用于视频采集点与烟火距离较近的场景。谢书翰等[2]提出了一种嵌入通道注意力机制的YOLOv4烟火检测模型,在准确率上具有良好的表现,但平均检测速度较慢且适用的火灾场景有限。
从现有的相关文献可知,目前绝大多数烟火检测的方法都是基于可见光图像的,且是单纯针对烟雾或火焰的。应用可见光摄像机采集图像局限于环境光线充足的情况如日间环境,在夜间等光线不足的情况下,可见光图像则无法提供有效的信息,因此利用热红外图像进行烟火目标检测的研究十分必要。Behcet等[3]提出描述时间行为的隐马尔可夫模型(HMM)对红外视频中显示为明亮区域的火焰图像进行检测,结合使用小波域提取火焰边界的高频信息,减少了普通明亮运动物体引起的误报,但该方法仅适用于早期火灾的探测,不适用于烟雾检测。Mehdi等[4]将可见光图像和红外图像相结合,使用烟雾断续特性在红外图像中区分烟雾和类似烟雾的移动物体,再根据烟雾区域面积变化的随机性以及计算前后两帧图像的能量差,进一步确定烟雾区域,减少误警。该方法仅适用于检测近距离的烟雾。Chi等[5]运用火焰亮度和运动的线索提出了一种自动检测森林火灾的图像处理方法,利用基于直方图的分割方法提取温度高的区域作为火焰候选区域,再通过光流法计算候选区域的运动矢量区分火焰和类似物。该方法忽略了烟雾在火灾场景下的重要性,这是因为在火灾发生初期烟雾一般会先可见于火焰,因此该方法不适用于火灾发生的初期。
参考文献
[1]李澎林,章军伟,李伟.基于光流改进与YOLOv3的烟雾检测方法[J].浙江工业大学学报,2021,49(01):9-15.
[2]谢书翰,张文柱,程鹏,等.嵌入通道注意力的YOLOv4火灾烟雾检测模型[J].液晶与显示,2021,36(10):1445-1453.
[3]To Reyin B U U,Cinbis R G K,Dedeog Lu Y I,et al.Fire detection ininfrared video using wavelet analysis[J].Optical Engineering,2007,46(6):67204-67209.
[4]Torabnezhad M,Aghagolzadeh A,HadiSeyedarabi H.Visible and IR imagefusion algorithm for short range smoke detection,2013[C].IEEE,2013.
[5]Yuan C,Liu Z,Zhang Y.Fire detection using infrared images for UAV-based forest fire surveillance,2017[C].IEEE,2017.
[6]Ge Z,Liu S,Wang F,et al.YOLOX:Exceeding YOLO Series in 2021[J].2021.
发明内容
为克服现有技术的不足,本发明旨在提升烟火的检测效率和实时性,增加烟火检测可适应的场景,例如能有效检测各个阶段的火灾,以及毒害气体泄漏,为此,本发明采取的技术方案是,基于V3-YOLOX的烟雾/火焰双光视觉检测方法,建立改进的MobileNetV3-YOLOX网络,MobileNetV3-YOLOX简称为V3-YOLOX网络,以用于烟雾/火焰的双光视觉检测,V3-YOLOX网络包括主干网络Backbone、颈部网络Neck以及头部网络Head三部分,其中主干网络Backbone采用计算机视觉系列模型MobilenetV3的主干网络Backbone进行特征提取,MobilenetV3选择MobileNetV3-Large版本。
主干网络Backbone部分主要由卷积层、Bneck模块以及SPPBottleneck空间金字塔池化模块组成,其中,输入的特征图经过Bneck模块时,先使用卷积核尺寸为1×1的卷积对特征图进行降维操作,再使用卷积核尺寸为3×3的深度可分离卷积对特征图进行卷积操作,然后引入SENet注意力机制模块通过网络自学习的方式对特征图的通道权重进行调整,最后通过一个卷积核尺寸为1×1的卷积实现升维操作;模型中的颈部网络Neck部分包括卷积层、上采样层UpSamplinging2D、CspLayer_CBAM模块以及下采样层DownSample,其中,下采样层和上采样层实现对图像进行缩放操作;颈部网络Neck对头部网络Head部分输出三个不同尺寸的图像;头部网络Head分别对不同的图像进行多次卷积计算,得到的三个分支分别为Cls、Obj以及Reg,其中,Cls代表预测的物体种类,Obj用于判断目标是背景还是前景,Reg用于对目标框的坐标信息进行预测。
在颈部网络Neck中的CSPLayer层中引入CBAM注意力机制,CBAM表示注意力机制模块;Conv2D_BN_SiLU表示一个普通的卷积模块,由一个卷积核尺寸为n×n的Conv卷积层、BN以及SiLU激活函数组成;Bottleneck表示瓶颈残差模块,输入的图像首先经过两个卷积层进行卷积计算提取图像特征,然后将获得的特征图像与输入图像进行叠加,得到输出图像;CSPLayer_CBAM层输入的图像将经过路径A和路径B两个不同的路径进行特征提取,路径A中,输入的图像首先经过一个卷积核大小为1×1的卷积层进行卷积计算,然后经过Bottleneck瓶颈残差模块提取图像特征;路径B中,输入的图像经过一个卷积核大小为1×1的卷积层进行卷积计算,输出的图像再与路径A的输出图像进行通道的堆叠,堆叠后得到的图像再次经过一个卷积核尺寸为1×1的卷积层进行卷积计算提取图像特征,最后将得到的特征图再经过CBAM注意力模块进行计算,输出一个包含空间和通道权重的特征图。
其中:
1)CBAM模块包含通道注意力和空间注意力,通过神经网络对通道和空间分别生成掩码,掩码中的值代表不同位置的注意力权重;
在通道注意机制中,输入的特征图F按通道进行全局最大池化和全局平均池化,将池化后得到的两个一维向量送入全连接层运算后相加,生成一维的通道注意力Mc;将通道权重与特征图F相乘可得到缩放后的新特征图F′;
在空间注意力机制中,对特征图F′分别进行全局最大池化和全局平均池化后得到的结果进行堆叠,将堆叠的结果送入一个7*7的卷积模块后得到空间注意力Ms,将空间权重值与特征图F′相乘后可得到新特征;
2)在主干网络Backbone的最后一个Bneck层后添加一个SPPBottleneck空间金字塔池化模块,对特征图进行卷积和最大池化操作,SPPBottleneck空间金字塔池化模块由两个卷积层以及四个并行分支构成,输入图像首先经过一个3×3的卷积进行特征提取,然后分别进行尺寸为1×1、5×5、9×9以及13×13的最大池化操作。
3)使用CIoU作为本模型的边界框回归损失函数,CIoU的表达式如(1)所示:
公式(1)中,b表示预测框的中心点,bgt表示真实框的中心点,ρ2(b,bgt)代表预测框和真实框中心点的欧氏距离;c表示能够同时包含预测框和真实框的最小闭包区域对角线的距离,α为用于平衡比例的参数;公式(2)中的ωgt和hgt表示真实框的宽和高,ω和h表示预测框的宽和高;
使用Focal Loss损失函数代替置信度损失,Focal Loss损失函数具体如式(5)所示:
FL(pt)=-β(1-pt)γlog(pt) (5)
其中,β表示用于平衡正负样本的权重,(1-pt)γ用于关注难训练的样本,通过增大γ可降低简单正样本对损失的影响,β和γ为定值,本发明中设定β=0.25,γ=2;
其中,pt用于量化样本,p用于表示预测正确样本的概率,y=1表示正确预测的样本;1-p用于表示预测错误样本的概率;
分类损失函数选取交叉熵损失函数,如公式(7)所示:
其中,N表示训练集的个数;i表示数据样本x属于i类;yi为符号函数,当样本x的真实类别为i时,表达式的值取1,反之取0;F(xi)表示样本x属于类别i的概率。
具体步骤如下:
1.获取所需的图像
使用可拍摄可见光和热红外图像的双光摄像机,在不同光照下采集烟火视频,将采集到的双光烟火视频按帧截取,并按照可见光和热红外图像进行区分并进行二次筛选,与在网络上收集到的烟火图像组成烟火检测数据集;
2.制作训练样本集
对可见光和热红外烟火数据集分别进行扩充,随机选取图片进行镜像翻转、放大、高斯模糊、剪裁操作,达到模型训练所需要的图片数量,同时添加非火焰和非烟雾图像,将扩充后的数据集使用LabelImg软件进行标注,将标注好的数据集按照比例划分为训练集、测试集和验证集;
3、建立V3-YOLOX网络
4、训练V3-YOLOX网络
5、利用训练好的V3-YOLOX网络进行烟雾/火焰双光视觉检测。
本发明的特点及有益效果是:
通过对YOLOX模型进行改进,提高了网络的目标特征提取能力,增加了小目标物体检测的精确度,并在保证检测精度的情况下,减少模型的参数量,提升了检测速度,以满足烟火检测的实时性需求。
附图说明:
图1CSPLayer与CBAM的连接方法。
图2CBAM模块示意图。
图3SPPBottleneck模块的组成。
图4改进后的V3-YOLOX模型结构图。
图5YOLO Head的组成。
图6烟火检测流程图。
具体实施方式
本发明提出了一种使用可见光/热红外双光图像、基于改进的V3-YOLOX的烟雾/火焰(后文中简称为“烟火”)视觉检测方法。其中YOLOX[6]是端到端的实时目标检测框架,由对象检测算法YOLOv3和DarkNet53改进而成,具有检测精度高、检测速度快、参数量少等优点,在目标检测中备受关注。发明使用的技术本身属于自动检测领域,通过利用双光热成像相机、嵌入式计算机等设备,可用于全天候气体泄漏检测、火源定位、空气污染源定位与环境监测等方面。
本发明的目的:针对现有方法和技术的不足,为了提升烟火的检测效率和实时性,增加烟火检测可适应的场景,例如能有效检测各个阶段的火灾,以及毒害气体泄漏,本发明提出了一种基于V3-YOLOX模型的烟火双光视觉快速检测方案和方法。
1.获取所需的图像
使用可拍摄可见光和热红外(简称为双光)图像的双光摄像机,在不同光照下采集烟火视频。将采集到的双光烟火视频按帧截取,并按照可见光和热红外图像进行区分并进行二次筛选,与在网络上收集到的烟火图像组成烟火检测数据集。
2.制作训练样本集
对可见光和热红外烟火数据集分别进行扩充,随机选取图片进行镜像翻转、放大、高斯模糊、剪裁等操作,达到模型训练所需要的图片数量,同时添加非火焰(如路灯、太阳等)和非烟雾图像。将扩充后的数据集使用LabelImg软件进行标注,将标注好的数据集按照比例划分为训练集、测试集和验证集。
3.V3-YOLOX模型及其改进
首先将YOLOX模型的主干特征提取网络替换为MobilenetV3模型的主干特征提取网络,形成V3-YOLOX模型,主要由Backbone(主干网络)、Neck(颈部网络)以及Head(头部网络)三部分组成。其中计算机视觉系列模型MobilenetV3分为MobileNetV3-Large和MobileNetV3-Small两个版本,两个版本的不同之处在于参数量和检测速度。MobilenetV3-Large相较于MobileNetV3-Small的参数量更大、精确度更高但检测速度稍逊一筹。为了保证烟火检测的精确度,选择MobileNetV3-Large版本。
然后,对V3-YOLOX模型进行如下改进:
1)在颈部网络Neck中的CSPLayer层中引入CBAM注意力机制,并将其命名为:CSPLayer_CBAM,网络结构如图1所示。图中CBAM表示注意力机制模块;Conv2D_BN_SiLU表示一个普通的卷积模块,由一个卷积核尺寸为n×n的Conv卷积层、BN(Batch Normalization)以及SiLU激活函数组成;Bottleneck表示瓶颈残差模块,输入的图像首先经过两个卷积层(卷积核尺寸分别为1×1和3×3)进行卷积计算提取图像特征,然后将获得的特征图像与输入图像进行叠加,得到输出图像。CSPLayer_CBAM层输入的图像将经过路径A和路径B两个不同的路径进行特征提取。路径A中,输入的图像首先经过一个卷积核大小为1×1的卷积层进行卷积计算,然后经过Bottleneck瓶颈残差模块提取图像特征;路径B中,输入的图像经过一个卷积核大小为1×1的卷积层进行卷积计算,输出的图像再与路径A的输出图像进行通道的堆叠,堆叠后得到的图像再次经过一个卷积核尺寸为1×1的卷积层进行卷积计算提取图像特征,最后将得到的特征图再经过CBAM注意力模块进行计算,输出一个包含空间和通道权重的特征图。
上述的CBAM模块包含通道注意力和空间注意力,通过神经网络对通道和空间分别生成掩码,掩码中的值代表不同位置的注意力权重。在通道和空间中对图像赋予不同的权重,促使模型更关注图像中的重点区域。CBAM示意图如图2所示。
在通道注意机制中,输入的特征图F按通道进行全局最大池化和全局平均池化。将池化后得到的两个一维向量送入全连接层运算后相加,生成一维的通道注意力向量Mc;将通道注意力向量与特征图F相乘可得到缩放后的新特征图F′。
在空间注意力机制中,对特征图F′分别进行全局最大池化和全局平均池化后得到的结果进行堆叠,将堆叠的结果送入一个7*7的卷积模块后得到空间注意力向量Ms,将空间注意力向量与特征图F′相乘后可得到新特征。
2)在主干特征提取网络(Backbone)的最后一个Bneck层后添加一个SPPBottleneck空间金字塔池化模块,对特征图进行卷积和最大池化操作。SPPBottleneck空间金字塔池化模块由两个卷积层以及四个并行分支构成,输入图像首先经过一个3×3的卷积进行特征提取,然后分别进行尺寸为1×1、5×5、9×9以及13×13的最大池化操作。将池化后的四个特征图进行堆叠,可有效避免由于图像剪裁及缩放等操作引起的图像失真问题,实现不同尺度的特征融合。SPPBottleneck模块的示意图如图3所示。
综上,改进后的V3-YOLOX模型结构如图4所示。图4所示模型中,主干网络(Backbone)部分主要由卷积层、Bneck模块以及SPPBottleneck空间金字塔池化模块组成。其中,输入的特征图经过Bneck模块时,先使用卷积核尺寸为1×1的卷积对特征图进行降维操作,再使用卷积核尺寸为3×3的深度可分离卷积对特征图进行卷积操作,然后引入SENet注意力机制模块通过网络自学习的方式对特征图的通道权重进行调整,最后通过一个卷积核尺寸为1×1的卷积实现升维操作。模型中的颈部网络(Neck)部分主要由卷积层、上采样层(UpSamplinging2D)、CspLayer_CBAM模块以及下采样层(DownSample)组成。其中,下采样层和上采样层实现对图像进行缩放操作。颈部网络(Neck)对头部网络(Head)部分输出三个不同尺寸的图像。头部网络(Head)的构成如图5所示,图中的H和W分别代表特征图的宽和高,C代表预测的物体类别数。头部网络(Head)分别对不同的图像进行多次卷积计算,得到的三个分支分别为Cls、Obj以及Reg。其中,Cls代表预测的物体种类,Obj用于判断目标是背景还是前景,Reg用于对目标框的坐标信息进行预测。
3)本模型的损失函数由边界框回归损失、置信度损失以及分类损失构成。其中,使用CIoU作为本模型的边界框回归损失函数,CIoU的表达式如(1)所示:
公式(1)中,b表示预测框的中心点,bgt表示真实框的中心点,ρ2(b,bgt)代表预测框和真实框中心点的欧氏距离,c表示能够同时包含预测框和真实框的最小闭包区域对角线的距离,α为用于平衡比例的参数;公式(2)中的ωgt和hgt表示真实框的宽和高,ω和h表示预测框的宽和高。
使用Focal Loss损失函数代替置信度损失,Focal Loss损失函数具体如式(5)所示:
FL(pt)=-β(1-pt)γlog(pt) (12)
其中,β表示用于平衡正负样本的权重,(1-pt)γ用于关注难训练的样本,通过增大γ可降低简单正样本对损失的影响,β和γ为定值,本发明中设定β=0.25,γ=2;
其中,pt用于量化样本,p用于表示预测正确样本的概率,y=1表示正确预测的样本;1-p用于表示预测错误样本的概率。
分类损失函数选取交叉熵损失函数,如公式(7)所示:
其中,N表示训练集的个数;i表示数据样本x属于i类;yi为符号函数,当样本x的真实类别为i时,表达式的值取1,反之取0;F(xi)表示样本x属于类别i的概率。
4.模型的训练
将搭建的模型进行训练,步骤及参数设置如下:
1)将输入图像的尺寸归一化为:(640,640,3)。通过Mixup(混合)和Mosaic(马赛克)数据增强方式,将训练集中的图片随机选择四张通过随机缩放、裁剪、排布等方式生成训练图片。
2)训练迭代次数设定为350轮,批处理大小设置为32,初始学习率为0.0001。
图像经过主干网络后,得到三个尺度的特征图,分别为:(80,80,40)、(40,40,112)、(20,20,160)。在Neck网络中进行加强特征提取,通过上采样操作将不同尺寸的特征图进行信息传递及信息融合,充分利用深层特征向浅层特征传递强语义信息,再经过下采样向深层网络传递特征图的位置信息,进而输出三种尺寸的特征层。
输入至YOLO Head特征层尺寸分别为:(80,80,40)、(40,40,112)、(20,20,160),三种不同尺寸的特征分别用于检测大目标、中目标和小目标。如图5所示,对于每个特征层,在经过YOLO Head后均可获得三个预测结果,分别是Cls、Obj和Reg。其中,Cls用于判断每个特征点所包含的物体种类,数据集中包含Fire和Smoke两类,因此大小为H*W*2;Obj用于判断目标框是前景还是背景,输出大小为:H*W*1;Reg用于判断每一个特征点的回归参数,通过回归参数的调整后获得预测框,输出大小为:H*W*4。将Cls、Obj和Reg的输出结果进行堆叠,得到的特征信息数为H*W*7。通过Reshape、堆叠以及Transpose后输出7*8400的二维向量信息,在输出端对由式(1)表达的边界框回归损失函数CIoU进行计算,以及对非极大抑制进行筛选后输出检测结果。
将标注好的烟雾/火焰图像输入至改进后的V3-YOLOX模型中,利用带动量的SGD优化器对模型进行迭代训练。经过不断地迭代,当误差损失收敛至最小值时,得到最优的V3-YOLOX模型参数。将验证集输入至最优参数的V3-YOLOX模型中进行检测,即可得到模型的检测结果。
5.烟火检测效果
将数据样本集中的验证集送入改进的V3-YOLOX模型进行检测,测试结果如表1所示。
表1目标检测模型的测试效果
6.多帧烟火视频的检测
1)使用双光摄像机对烟火视频进行实时的采集。
2)将采集到的可见光烟火视频输入至改进后的V3-YOLOX模型进行检测,得到烟雾/火焰目标的预测框置信度信息、预测框边界信息和边界框类别信息。为了避免检测错误的情况,降低误报警的概率,设定每隔0.1s中截取一次视频画面,共截取30帧图像,若这30帧图像里均能检测到烟雾且预测框置信度大于等于80%,计算30帧图像里烟雾面积的方差以示其变化情况,如式(8)所示:
若在可见光视频中未检测到烟火目标,则将热红外视频输入V3-YOLOX检测模型中进行检测,方法与上述可见光烟火视频的检测方法相同。
本发明设定:若在可见光视频/热红外视频中检测到烟雾/火焰持续发生变化,则认为检测区域存在烟火目标。完整的烟火检测过程如图6所示。
本发明相对现有的烟火检测方法具有显著进步,包括:
1)适用的检测场景更丰富。本发明使用可拍摄可见光图像和热红外图像的双光摄像机对目标场景进行拍摄和检测,不仅可用于环境光线充足的日间等情况下烟雾/火焰目标的检测,还可用于夜间、光照不足甚至部分烟羽被遮挡物的情况。
2)准确度高,检测速度快。本发明提出的V3-YOLOX模型是一种新的烟火检测模型,通过大幅度降低模型参数量,提高了模型的检测速度,同时还保证了烟雾/火焰检测的准确度,尤其是小目标的检测精度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于V3-YOLOX的烟雾/火焰双光视觉检测方法,其特征是,建立改进的MobileNetV3-YOLOX网络,MobileNetV3-YOLOX简称为V3-YOLOX网络,以用于烟雾/火焰的双光视觉检测,V3-YOLOX网络包括主干网络Backbone、颈部网络Neck以及头部网络Head三部分,其中主干网络Backbone采用计算机视觉系列模型MobilenetV3的主干网络Backbone进行特征提取,MobilenetV3选择MobileNetV3-Large版本。
2.如权利要求1所述的基于V3-YOLOX的烟雾/火焰双光视觉检测方法,其特征是,主干网络Backbone部分主要由卷积层、Bneck模块以及SPPBottleneck空间金字塔池化模块组成,其中,输入的特征图经过Bneck模块时,先使用卷积核尺寸为1×1的卷积对特征图进行降维操作,再使用卷积核尺寸为3×3的深度可分离卷积对特征图进行卷积操作,然后引入SENet注意力机制模块通过网络自学习的方式对特征图的通道权重进行调整,最后通过一个卷积核尺寸为1×1的卷积实现升维操作;模型中的颈部网络Neck部分包括卷积层、上采样层UpSamplinging2D、CspLayer_CBAM模块以及下采样层DownSample,其中,下采样层和上采样层实现对图像进行缩放操作;颈部网络Neck对头部网络Head部分输出三个不同尺寸的图像;头部网络Head分别对不同的图像进行多次卷积计算,得到的三个分支分别为Cls、Obj以及Reg,其中,Cls代表预测的物体种类,Obj用于判断目标是背景还是前景,Reg用于对目标框的坐标信息进行预测。
3.如权利要求1所述的基于V3-YOLOX的烟雾/火焰双光视觉检测方法,其特征是,在颈部网络Neck中的CSPLayer层中引入CBAM注意力机制,CBAM表示注意力机制模块;Conv2D_BN_SiLU表示一个普通的卷积模块,由一个卷积核尺寸为n×n的Conv卷积层、BN以及SiLU激活函数组成;Bottleneck表示瓶颈残差模块,输入的图像首先经过两个卷积层进行卷积计算提取图像特征,然后将获得的特征图像与输入图像进行叠加,得到输出图像;CSPLayer_CBAM层输入的图像将经过路径A和路径B两个不同的路径进行特征提取,路径A中,输入的图像首先经过一个卷积核大小为1×1的卷积层进行卷积计算,然后经过Bottleneck瓶颈残差模块提取图像特征;路径B中,输入的图像经过一个卷积核大小为1×1的卷积层进行卷积计算,输出的图像再与路径A的输出图像进行通道的堆叠,堆叠后得到的图像再次经过一个卷积核尺寸为1×1的卷积层进行卷积计算提取图像特征,最后将得到的特征图再经过CBAM注意力模块进行计算,输出一个包含空间和通道权重的特征图。
4.如权利要求3所述的基于V3-YOLOX的烟雾/火焰双光视觉检测方法,其特征是,其中:
1)CBAM模块包含通道注意力和空间注意力,通过神经网络对通道和空间分别生成掩码,掩码中的值代表不同位置的注意力权重;
在通道注意机制中,输入的特征图F按通道进行全局最大池化和全局平均池化,将池化后得到的两个一维向量送入全连接层运算后相加,生成一维的通道注意力Mc;将通道权重与特征图F相乘可得到缩放后的新特征图F′;
在空间注意力机制中,对特征图F′分别进行全局最大池化和全局平均池化后得到的结果进行堆叠,将堆叠的结果送入一个7*7的卷积模块后得到空间注意力Ms,将空间权重值与特征图F′相乘后可得到新特征;
2)在主干网络Backbone的最后一个Bneck层后添加一个SPPBottleneck空间金字塔池化模块,对特征图进行卷积和最大池化操作,SPPBottleneck空间金字塔池化模块由两个卷积层以及四个并行分支构成,输入图像首先经过一个3×3的卷积进行特征提取,然后分别进行尺寸为1×1、5×5、9×9以及13×13的最大池化操作。
5.如权利要求1所述的基于V3-YOLOX的烟雾/火焰双光视觉检测方法,其特征是,使用CIoU作为边界框回归损失函数,CIoU的表达式如(1)所示:
公式(1)中,b表示预测框的中心点,bgt表示真实框的中心点,ρ2(b,bgt)代表预测框和真实框中心点的欧氏距离;c表示能够同时包含预测框和真实框的最小闭包区域对角线的距离,α为用于平衡比例的参数;公式(2)中的ωgt和hgt表示真实框的宽和高,ω和h表示预测框的宽和高;
使用Focal Loss损失函数代替置信度损失,Focal Loss损失函数具体如式(5)所示:
FL(pt)=-β(1-pt)γlog(pt) (5)
其中,β表示用于平衡正负样本的权重,(1-pt)γ用于关注难训练的样本,通过增大γ可降低简单正样本对损失的影响,β和γ为定值,本发明中设定β=0.25,γ=2;
其中,pt用于量化样本,p用于表示预测正确样本的概率,y=1表示正确预测的样本;1-p用于表示预测错误样本的概率;
分类损失函数选取交叉熵损失函数,如公式(7)所示:
其中,N表示训练集的个数;i表示数据样本x属于i类;yi为符号函数,当样本x的真实类别为i时,表达式的值取1,反之取0;F(xi)表示样本x属于类别i的概率。
6.如权利要求1所述的基于V3-YOLOX的烟雾/火焰双光视觉检测方法,其特征是,视觉检测具体步骤如下:
1)获取所需的图像
使用可拍摄可见光和热红外图像的双光摄像机,在不同光照下采集烟火视频,将采集到的双光烟火视频按帧截取,并按照可见光和热红外图像进行区分并进行二次筛选,与在网络上收集到的烟火图像组成烟火检测数据集;
2)制作训练样本集
对可见光和热红外烟火数据集分别进行扩充,随机选取图片进行镜像翻转、放大、高斯模糊、剪裁操作,达到模型训练所需要的图片数量,同时添加非火焰和非烟雾图像,将扩充后的数据集使用LabelImg软件进行标注,将标注好的数据集按照比例划分为训练集、测试集和验证集;
3)建立V3-YOLOX网络
4)训练V3-YOLOX网络
5)利用训练好的V3-YOLOX网络进行烟雾/火焰双光视觉检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358618.4A CN116416576A (zh) | 2023-04-04 | 2023-04-04 | 基于v3-yolox的烟雾/火焰双光视觉检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310358618.4A CN116416576A (zh) | 2023-04-04 | 2023-04-04 | 基于v3-yolox的烟雾/火焰双光视觉检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416576A true CN116416576A (zh) | 2023-07-11 |
Family
ID=87057666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310358618.4A Pending CN116416576A (zh) | 2023-04-04 | 2023-04-04 | 基于v3-yolox的烟雾/火焰双光视觉检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416576A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682070A (zh) * | 2023-08-03 | 2023-09-01 | 武汉工程大学 | 复杂场景下危险气体泄漏红外视频检测方法及系统 |
CN117237741A (zh) * | 2023-11-08 | 2023-12-15 | 烟台持久钟表有限公司 | 一种校园危险行为检测方法、系统、装置和存储介质 |
CN117746250A (zh) * | 2023-12-29 | 2024-03-22 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 一种融合实景三维与视频的烟火智能识别与精准定位方法 |
CN117894002A (zh) * | 2024-03-18 | 2024-04-16 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
-
2023
- 2023-04-04 CN CN202310358618.4A patent/CN116416576A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116682070A (zh) * | 2023-08-03 | 2023-09-01 | 武汉工程大学 | 复杂场景下危险气体泄漏红外视频检测方法及系统 |
CN116682070B (zh) * | 2023-08-03 | 2024-05-28 | 武汉工程大学 | 复杂场景下危险气体泄漏红外视频检测方法及系统 |
CN117237741A (zh) * | 2023-11-08 | 2023-12-15 | 烟台持久钟表有限公司 | 一种校园危险行为检测方法、系统、装置和存储介质 |
CN117237741B (zh) * | 2023-11-08 | 2024-02-13 | 烟台持久钟表有限公司 | 一种校园危险行为检测方法、系统、装置和存储介质 |
CN117746250A (zh) * | 2023-12-29 | 2024-03-22 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 一种融合实景三维与视频的烟火智能识别与精准定位方法 |
CN117894002A (zh) * | 2024-03-18 | 2024-04-16 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
CN117894002B (zh) * | 2024-03-18 | 2024-06-07 | 杭州像素元科技有限公司 | 一种危险物小目标检测模型的构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116416576A (zh) | 基于v3-yolox的烟雾/火焰双光视觉检测方法 | |
CN107808133B (zh) | 基于无人机巡线的油气管道安全监测方法、系统及软件存储器 | |
Zhan et al. | A high-precision forest fire smoke detection approach based on ARGNet | |
Zhao et al. | SVM based forest fire detection using static and dynamic features | |
CN113469050B (zh) | 基于图像细分类的火焰检测方法 | |
CN111985365A (zh) | 一种基于目标检测技术的秸秆焚烧监测方法和系统 | |
CN115457428A (zh) | 融入可调节坐标残差注意力的改进YOLOv5火灾检测方法及装置 | |
CN114399734A (zh) | 一种基于视觉信息的森林火灾预警方法 | |
CN112686833A (zh) | 一种基于卷积神经网络的工业产品表面缺陷检测和分类装置 | |
CN112699801A (zh) | 基于视频图像的火灾识别方法及系统 | |
WO2021169049A1 (zh) | 一种真实场景下玻璃检测的方法 | |
CN111145222A (zh) | 一种结合烟雾运动趋势和纹理特征的火灾检测方法 | |
CN115719463A (zh) | 一种基于超分辨率重构和自适应挤压激励的烟火检测方法 | |
CN111127433B (zh) | 一种检测火焰的方法及装置 | |
CN115512387A (zh) | 基于改进yolov5模型的工地安全帽佩戴检测方法 | |
CN112488213A (zh) | 一种基于多尺度特征学习网络的火灾图片分类方法 | |
CN114140750A (zh) | 一种基于YOLOv4-Tiny的加油站安全帽佩戴实时检测方法 | |
Wang et al. | Forest smoke detection based on deep learning and background modeling | |
CN116863271A (zh) | 一种基于改进yolo v5的轻量级红外火焰检测方法 | |
CN117671502A (zh) | 一种森林火灾检测方法及系统 | |
CN115311601A (zh) | 一种基于视频分析技术的火灾探测分析方法 | |
CN114998801A (zh) | 基于对比自监督学习网络的森林火灾烟雾视频检测方法 | |
CN112836608B (zh) | 森林火灾源头的估计模型训练方法、估计方法及系统 | |
CN116665015A (zh) | 一种基于YOLOv5的红外序列图像弱小目标检测方法 | |
CN114821486B (zh) | 一种电力作业场景下人员识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |