CN115761409A - 一种基于深度学习的火情检测方法、装置、设备和介质 - Google Patents

一种基于深度学习的火情检测方法、装置、设备和介质 Download PDF

Info

Publication number
CN115761409A
CN115761409A CN202211482500.4A CN202211482500A CN115761409A CN 115761409 A CN115761409 A CN 115761409A CN 202211482500 A CN202211482500 A CN 202211482500A CN 115761409 A CN115761409 A CN 115761409A
Authority
CN
China
Prior art keywords
fire
features
layer
feature
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211482500.4A
Other languages
English (en)
Inventor
董化鹏
张力文
练俊健
栾元杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Shilian Technology Co ltd
Original Assignee
Tianyi Digital Life Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Digital Life Technology Co Ltd filed Critical Tianyi Digital Life Technology Co Ltd
Priority to CN202211482500.4A priority Critical patent/CN115761409A/zh
Publication of CN115761409A publication Critical patent/CN115761409A/zh
Priority to PCT/CN2023/133586 priority patent/WO2024109873A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
    • Y02A40/28Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture specially adapted for farming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于深度学习的火情检测方法、装置、设备和介质,对火情样本图像进行类别标注和火情区域标注,得到火情训练集;通过火情训练集训练预先构建的YOLOX网络,得到火情样本图像的火情区域预测框和类别置信度;根据火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据火情样本图像的类别置信度和真实类别计算类别损失;通过类别损失和检测框位置损失更新YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;从监控视频数据中提取待检测图像,并通过火情检测模型对待检测图像进行火情检测,得到待检测图像的火情检测结果,改善了现有的火情检测方法存在的检测速度慢的技术问题。

Description

一种基于深度学习的火情检测方法、装置、设备和介质
技术领域
本申请涉及火情检测技术领域,尤其涉及一种基于深度学习的火情检测方法、装置、设备和介质。
背景技术
随着社会经济的迅速发展,高层建筑火灾、森林火灾等安全事故日益突出并受到越来越多的关注。
目前,大部分基于图像的火情检测方法主要采用传统图像处理算法,需要进行人工特征设计,人工干预较多、设计过程繁琐、复杂度较高且检测速度慢。因此,亟需一种高效快速的火情检测方法,能够可靠、快速地识别出火情,从而实现对火灾的提前预警,提升突发火情应急处置的时效性。
发明内容
本申请提供了一种基于深度学习的火情检测方法、装置、设备和介质,用于改善现有的火情检测方法存在的检测速度慢的技术问题。
有鉴于此,本申请第一方面提供了一种基于深度学习的火情检测方法,包括:
获取火情样本图像,对所述火情样本图像进行类别标注,并采用矩形框对所述火情样本图像中的火情区域进行标注,得到火情训练集;
通过所述火情训练集训练预先构建的YOLOX网络,通过所述YOLOX网络对所述火情训练集中的所述火情样本图像进行火情特征提取和火情分类,输出所述火情样本图像的火情区域预测框和类别置信度;
根据所述火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据所述火情样本图像的类别置信度和真实类别计算类别损失;
通过所述类别损失和所述检测框位置损失更新所述YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;
从监控视频数据中提取待检测图像,并通过所述火情检测模型对所述待检测图像进行火情检测,得到所述待检测图像的火情检测结果。
可选的,所述YOLOX网络包括骨干网络、颈部网络和头部网络,所述骨干网络用于对输入图像进行特征提取,所述颈部网络用于对浅层特征、中层特征和深层特征进行特征融合,所述头部网络用于对输入特征进行分类和位置检测;
所述骨干网络包括注意力模块,所述注意力模块包括通道注意力模块和空间注意力模块,所述注意力模块用于通过所述通道注意力模块对输入特征进行通道维度上的特征提取,将提取到的通道注意力特征与输入特征相乘后输入到所述空间注意力模块进行空间维度上的特征提取,再将提取到的空间注意力特征与所述空间注意力模块的输入特征相乘,得到注意力特征。
可选的,所述通过所述通道注意力模块对输入特征进行通道维度上的特征提取,包括:
通过所述通道注意力模块对输入特征分别进行最大池化处理和平均池化处理,得到第一池化特征和第二池化特征;
通过所述通道注意力模块分别对所述第一池化特征和所述第二池化特征依次进行通道降维、通道升维和非线性映射,得到第一中间特征和第二中间特征;
通过所述通道注意力模块对所述第一中间特征和所述第二中间特征相加后输入到Sigmoid激活函数中计算输入特征的通道权重,得到通道注意力特征。
可选的,所述将提取到的通道注意力特征与输入特征相乘后输入到所述空间注意力模块进行空间维度上的特征提取,包括:
将提取到的通道注意力特征与所述通道注意力模块的输入特征相乘,得到所述空间注意力模块的输入特征,将输入特征输入到所述空间注意力模块;
通过所述空间注意力模块在通道维度上对输入特征分别进行最大池化处理和平均池化处理,得到第三池化特征和第四池化特征;
通过所述空间注意力模块在通道维度上对所述第三池化特征和所述第四池化特征进行特征拼接,得到拼接特征;
通过所述空间注意力模块对所述拼接特征进行卷积处理,并将提取的卷积特征输入到Sigmoid激活函数中计算输入特征的空间权重,得到空间注意力特征。
可选的,所述颈部网络包括特征融合模块,所述特征融合模块包括上采样层、拼接层、CSP层和CBS层,CSP层包括第一分支、第二分支、拼接层、归一化层、激活层和CBS层,CBS层由卷积层、归一化层和激活层串联组成,等一分支由两个CBS层和卷积层串联组成,第二分支由卷积层组成;
所述特征融合模块,用于对深层特征进行上采样后与中层特征进行拼接,并通过CSP层对拼接得到的特征进行处理,得到第一融合特征;
将所述第一融合特征进行上采样后与浅层特征进行拼接,并通过CSP层对拼接得到的特征进行处理,得到第二融合特征;
将所述第二融合特征与浅层特征进行拼接后输入到CSP层进行处理,得到浅层融合特征;
将所述浅层融合特征输入到CBS层进行处理后与所述第一融合特征、中层特征进行拼接,通过CSP层对拼接得到的特征进行处理,得到中层融合特征;
将所述中层融合特征与深层特征进行拼接后输入到CSP层进行处理,得到深层融合特征。
可选的,所述颈部网络由3个特征融合模块串联组成。
可选的,所述根据所述火情样本图像的火情区域预测框和真实框计算检测框位置损失,包括:
根据所述火情样本图像的火情区域预测框和真实框计算交并比、火情区域预测框与真实框的中心点距离;
采用火情区域预测框和真实框的最小外接矩形的对角线长度对火情区域预测框与真实框的中心点距离矩形进行归一化处理,得到归一化中心点距离;
根据所述交并比和所述归一化中心节点距离计算检测框位置损失。
本申请第二方面提供了一种基于深度学习的火情检测装置,包括:
标注单元,用于获取火情样本图像,对所述火情样本图像进行类别标注,并采用矩形框对所述火情样本图像中的火情区域进行标注,得到火情训练集;
训练单元,用于通过所述火情训练集训练预先构建的YOLOX网络,通过所述YOLOX网络对所述火情训练集中的所述火情样本图像进行火情特征提取和火情分类,输出所述火情样本图像的火情区域预测框和类别置信度;
损失计算单元,用于根据所述火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据所述火情样本图像的类别置信度和真实类别计算类别损失;
参数更新单元,用于通过所述类别损失和所述检测框位置损失更新所述YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;
火情检测单元,用于从监控视频数据中提取待检测图像,并通过所述火情检测模型对所述待检测图像进行火情检测,得到所述待检测图像的火情检测结果。
本申请第三方面提供了一种基于深度学习的火情检测设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面任一种所述的基于深度学习的火情检测方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现第一方面任一种所述的基于深度学习的火情检测方法。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种基于深度学习的火情检测方法,包括:获取火情样本图像,对火情样本图像进行类别标注,并采用矩形框对火情样本图像中的火情区域进行标注,得到火情训练集;通过火情训练集训练预先构建的YOLOX网络,通过YOLOX网络对火情训练集中的火情样本图像进行火情特征提取和火情分类,输出火情样本图像的火情区域预测框和类别置信度;根据火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据火情样本图像的类别置信度和真实类别计算类别损失;通过类别损失和检测框位置损失更新YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;从监控视频数据中提取待检测图像,并通过火情检测模型对待检测图像进行火情检测,得到待检测图像的火情检测结果。
本申请中,通过构建火情训练集训练YOLOX网络,使得YOLOX网络学习火情特征,得到火情检测模型,通过火情检测模型识别监控视频数据中的待检测图像,实现火情检测,通过端到端的卷积神经网络进行火情特征提取和火情检测,不需要进行人工特征提取,大大减少了人工干预,提高了检测速度,从而改善了现有的火情检测方法存在的检测速度慢的技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种基于深度学习的火情检测方法的一个流程示意图;
图2为本申请实施例提供的注意力模块的结构示意图;
图3为本申请实施例提供的通道注意力模块的结构示意图;
图4为本申请实施例提供的空间注意力模块的结构示意图;
图5为本申请实施例提供的特征融合模块的结构示意图;
图6为本申请实施例提供的CSP层和CBS层的结构示意图;
图7为本申请实施例提供的检测框与真实框的两种情况示意图;
图8为本申请实施例提供的检测框与真实框的另外两种情况示意图;
图9为本申请实施例提供的一种基于深度学习的火情检测装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请实施例提供了一种基于深度学习的火情检测方法,包括:
步骤101、获取火情样本图像,对火情样本图像进行类别标注,并采用矩形框对火情样本图像中的火情区域进行标注,得到火情训练集。
可以从开源数据集或网络视频中获取包含各种火情的火情样本图像,通过标注工具对火情样本图像进行类别标注,包括标注是否有火情,还可以标注火情的严重程度,并采用矩形框对火情样本图像中的火情区域进行标注,得到火情训练集,火情训练集包括火情样本图像及其对应的类别标签、标注的检测框的位置信息。
步骤102、通过火情训练集训练预先构建的YOLOX网络,通过YOLOX网络对火情训练集中的火情样本图像进行火情特征提取和火情分类,输出火情样本图像的火情区域预测框和类别置信度。
将火情训练集中的火情样本图像输入到预先构建的YOLOX网络,对YOLOX网络进行训练,通过YOLOX网络对火情训练集中的火情样本图像进行火情特征提取和火情分类,输出火情样本图像的火情区域预测框和类别置信度。YOLOX是一种anchor-free的检测网络,不需要预先设置anchor,具有较高的检测速度,运算成本大大降低。
本申请实施例中的YOLOX网络包括骨干网络(backbone)、颈部网络(neck)和头部网络(head),骨干网络用于对输入图像进行特征提取,颈部网络用于对浅层特征、中层特征和深层特征进行特征融合,头部网络用于对输入特征进行分类和位置检测。
本申请实施例考虑到,实际场景下火焰可能很小,会影响火情识别结果。基于此,本申请在骨干网络添加注意力模块,以提高对小目标的火情识别效果。骨干网络包括注意力模块,注意力模块包括通道注意力模块和空间注意力模块,注意力模块用于通过通道注意力模块对输入特征进行通道维度上的特征提取,将提取到的通道注意力特征与输入特征相乘后输入到空间注意力模块进行空间维度上的特征提取,再将提取到的空间注意力特征与空间注意力模块的输入特征相乘,得到注意力特征。
进一步,通过通道注意力模块对输入特征进行通道维度上的特征提取,包括:
通过通道注意力模块对输入特征分别进行最大池化处理和平均池化处理,得到第一池化特征和第二池化特征;
通过通道注意力模块分别对第一池化特征和第二池化特征依次进行通道降维、通道升维和非线性映射,得到第一中间特征和第二中间特征;
通过通道注意力模块对第一中间特征和第二中间特征相加后输入到Sigmoid激活函数中计算输入特征的通道权重,得到通道注意力特征。
进一步,将提取到的通道注意力特征与输入特征相乘后输入到空间注意力模块进行空间维度上的特征提取,包括:
将提取到的通道注意力特征与通道注意力模块的输入特征相乘,得到空间注意力模块的输入特征,将输入特征输入到空间注意力模块;
通过空间注意力模块在通道维度上对输入特征分别进行最大池化处理和平均池化处理,得到第三池化特征和第四池化特征;
通过空间注意力模块在通道维度上对第三池化特征和第四池化特征进行特征拼接,得到拼接特征;
通过空间注意力模块对拼接特征进行卷积处理,并将提取的卷积特征输入到Sigmoid激活函数中计算输入特征的空间权重,得到空间注意力特征。
本申请实施例在骨干网络中增加注意力模块以增加注意力机制,注意力模块可以自动学习和计算输入数据对输出数据的贡献大小,使YOLOX网络更加关注有助于区分火情的有效信息,以增强YOLOX网络对于火情的区分能力。本申请实施例中的注意力模块是一种轻量级的注意力模块,它同时在空间维度和通道维度上实现注意力机制,仅需要很少的运算成本就能够有效提高火情检测精度。注意力模块包含通道注意力模块和空间注意力模块两部分,分别进行通道和空间上的特征提取,其整体结构如图2所示。注意力模块将输入特征输入通道注意力模块进行通道注意力特征提取,将通道注意力特征与原输入特征相乘后作为空间注意力特征模块的输入特征,经过空间注意力模块进行空间注意力特征提取后,再与空间注意力模块的输入特征相乘,得到经过注意力调整后的特征,即注意力特征。
通道注意力模块的结构如图3所示,由最大池化层(MaxPool)、平均池化层(AvgPool)、MLP模块(SharedMLP)和Sigmoid激活函数构成。通道注意力模块采用并行的最大池化层和平均池化层分别对输入特征F∈RC*H*W进行池化处理,得到第一池化特征和第二池化特征,输入特征F的维度从C*H*W变为C*1*1(输出的第一、第二池化特征的大小),然后将第一、第二池化特征输入到MLP模块先进行通道降维,再进行通道升维,然后通过ReLU激活函数进行非线性映射得到两个C*1*1的特征,即第一中间特征和第二中间特征;将第一中间特征和第二中间特征相加后再经过Sigmoid激活函数处理得到通道注意力的结果,即各通道的权重,从而得到通道注意力特征(ChannelAttention)。
空间注意力模块的结构如图4所示,由最大池化层(MaxPool)、平均池化层(AvgPool)、拼接层(Concat)、卷积层(Conv Layer)和Sigmoid激活函数构成。空间注意力模块对输入特征分别进行最大池化和平均池化,得到第三池化特征和第二池化特征,但与通道注意力模块不同,空间注意力模块是在通道维度上对输入特征进行池化,即输入特征的维度由C*H*W变为1*H*W,将第三池化特征和第四池化特征按通道维度拼接在一起得到2*H*W大小的拼接特征,再输入到卷积层进行卷积处理,再经过Sigmoid激活函数处理得到空间注意力的结果,即空间注意力特征。
考虑到火情检测时,由于监控设备与发生火情的区域的距离原因,以及火情严重程度不同等因素的影响,距离较近、火情比较严重的更容易被检测出来,而某些距离较远的、刚发生的火情很难被检测出来。为了改善该问题,本申请实施例中的颈部网络采用特征融合模块,通过特征融合模块对不同深度的特征进行特征融合,并且对多个尺度的特征进行特征融合,获取多个尺度的融合特征,以提高网络对于远距离、不严重的火情的检测准确性,减少火情漏检和误检的可能性;并且火焰的颜色、形态相较其他目标变化比较多,通过添加特征融合模块,可以应对多尺度、多形态的目标变化。
本申请实施例中的特征融合模块包括上采样层(upsample layer)、拼接层、CSP层和CBS层,具体可以参考图5,图5中的C5、C6、C7为不同深度的特征,分别为浅层特征、中层特征和深层特征;P5、P6、P7为不同尺度的输出特征,分别为C5、C6、C7经过特征融合模块融合后得到的对应的浅层融合特征、中层融合特征和深层融合特征;CSP层包括第一分支、第二分支、拼接层、归一化层(BN)、激活层(SILU)和CBS层,CBS层由卷积层、归一化层和激活层串联组成,等一分支由两个CBS层和卷积层串联组成,第二分支由卷积层组成,具体可以参考图6;
特征融合模块,用于对深层特征进行上采样后与中层特征进行拼接,并通过CSP层对拼接得到的特征进行处理,得到第一融合特征;
将第一融合特征进行上采样后与浅层特征进行拼接,并通过CSP层对拼接得到的特征进行处理,得到第二融合特征;
将第二融合特征与浅层特征进行拼接后输入到CSP层进行处理,得到浅层融合特征;
将浅层融合特征输入到CBS层进行处理后与第一融合特征、中层特征进行拼接,通过CSP层对拼接得到的特征进行处理,得到中层融合特征;
将中层融合特征与深层特征进行拼接后输入到CSP层进行处理,得到深层融合特征。
本申请实施例中的颈部网络由3个特征融合模块串联组成,即将图5中的虚线框部分的特征融合模块重复堆叠3次。颈部网络中的特征融合模块采用残差连接,通过简单的残差操作,可以增强火情特征的表示能力;将重复堆叠特征融合模块来获得更具有区分力的火情融合特征,有助于提高火情检测准确性;针对融合的各个尺度的火情特征增加一个可学习的权重,调节每个尺度的贡献度。其中,使用ReLU保证权重为正值而非softmax,可以提高计算速度,从而提高火情检测速度。
颈部网络将最终提取的三个不同尺度、不同深度的融合特征输入到头部网络,头部网络在三个不同尺度上进行火情检测,可以对不同距离、不同严重程度下的火情进行检测,有助于提高网络对于小目标,即远距离、不严重的火情的检测准确性,从而减少火情漏检和误检的可能性,提高安全性。
步骤103、根据火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据火情样本图像的类别置信度和真实类别计算类别损失。
根据火情样本图像的火情区域预测框和真实框计算交并比、火情区域预测框与真实框的中心点距离;采用火情区域预测框和真实框的最小外接矩形的对角线长度对火情区域预测框与真实框的中心点距离矩形进行归一化处理,得到归一化中心点距离;根据交并比和归一化中心节点距离计算检测框位置损失,检测框位置损失的计算公式为:
Figure BDA0003962292870000101
式中,FDIOULOSS为检测框位置损失,IOU为火情区域预测框与真实框的交并比,D为火情区域预测框与真实框的中心点距离,d为火情区域预测框和真实框的最小外接矩形的对角线长度。
现有技术中的YOLOX网络采用IOU Loss或GIOU Loss来计算检测框位置损失,但这两种计算方式均存在一定缺陷。参考图7所示的两种检测框与真实框的情况,其中,大框为真实框,小框为预测框,IOU为预测框与真实框的交并比,在预测框与真实框无重叠时,无法正确反映预测框的优劣,同时IOU为零,求导时导数为零,反向传播也无法优化此类情况。GIOU Loss较IOU Loss有一定改进,在交并比的基础上增加了预测框和真实框的最小外接矩形,GIOU Loss虽然考虑到了非重合区域的影响,但依然存在明显缺陷,如图8所示,当真实框和预测框重叠在一起时,GIOU就等于IOU,此时无法区分两个框的相对位置关系,导致网络的训练结果不理想,从而影响火情检测模型的检测精度。
为了改善上述问题,本申请实施例在计算检测框位置损失时,采用检测框和火情区域预测框的最小外接矩形的对角线长度对火情区域预测框与真实框的中心点距离矩形进行归一化处理,可以直接最小化两个目标框的距离,并且弥补了IOU Loss和GIOU Loss的缺点,同时具有比GIOU Loss更快的收敛速度,从而提高网络的训练速度,减少训练时间。
可以采用现有的损失函数计算类别损失,在此不再进行赘述。
步骤104、通过类别损失和检测框位置损失更新YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型。
通过类别损失和检测框位置损失反向传播,更新YOLOX网络的网络参数,直至YOLOX网络收敛(如训练时的迭代次数达到最大迭代次数等),将训练好的YOLOX网络作为火情检测模型。
步骤105、从监控视频数据中提取待检测图像,并通过火情检测模型对待检测图像进行火情检测,得到待检测图像的火情检测结果。
本申请实施例考虑到在实际应用中,容易受到检测设备的硬件条件影响,导致检测速度不理想,因此本申请采用静态图像进行火情检测,相较于采用视频流进行火情检测的方式,由于缺少时间序列,大大减少了信息量,降低了硬件设备要求,有助于提高检测速度。
通过监控设备采集监控视频数据,对监控视频数据进行解码抽帧,得到待检测图像,将待检测图像输入到火情检测模型进行火情检测,火情检测模块在检测到火情时,相应的还会输出火情区域的检测框信息,通过对火情检测模型的输出结果进行可视化,可以清楚了解到是否有火情,已经发生火情的具体位置。在检测到火情时,可以进行火情预警,以提醒相关人员及时反应、处理。
本申请中,通过构建火情训练集训练YOLOX网络,使得YOLOX网络学习火情特征,得到火情检测模型,通过火情检测模型识别监控视频数据中的待检测图像,实现火情检测,通过端到端的卷积神经网络进行火情特征提取和火情检测,不需要进行人工特征提取,大大减少了人工干预,提高了检测速度,从而改善了现有的火情检测方法存在的检测速度慢的技术问题;
进一步,本申请实施例在骨干网络中采用轻量化的注意力模块进行特征提取,在保证检测速度的同时提高了火情检测模型对火情信息的关注度,提升了火情检测精度,并且考虑到实际场景下火焰可能很小,通过添加注意力模块可以提高对小目标的火焰识别精度;
在颈部网络中采用特征融合模块对提取到的不同尺度、不同深度的火情特征进行特征融合,并输出多个尺度的融合特征到头部网络进行多尺度火情检测,提高了对因为距离、火情严重程度得到的不同尺度下的火情的检测精度;火焰的颜色、形态相较其他目标变化比较多,通过添加特征融合模块应对多尺度、多形态的火情变化;
在计算损失值时,采用检测框和火情区域预测框的最小外接矩形的对角线长度对火情区域预测框与真实框的中心点距离矩形进行归一化处理,可以直接最小化两个目标框的距离,并且弥补了IOU Loss和GIOU Loss的缺点,同时具有比GIOU Loss更快的收敛速度,从而提高了网络的训练速度,减少了训练时间。
以上为本申请提供的一种基于深度学习的火情检测方法的一个实施例,以下为本申请提供的一种基于深度学习的火情检测装置的一个实施例。
请参考图9,本申请实施例提供的一种基于深度学习的火情检测装置,包括:
标注单元,用于获取火情样本图像,对火情样本图像进行类别标注,并采用矩形框对火情样本图像中的火情区域进行标注,得到火情训练集;
训练单元,用于通过火情训练集训练预先构建的YOLOX网络,通过YOLOX网络对火情训练集中的火情样本图像进行火情特征提取和火情分类,输出火情样本图像的火情区域预测框和类别置信度;
损失计算单元,用于根据火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据火情样本图像的类别置信度和真实类别计算类别损失;
参数更新单元,用于通过类别损失和检测框位置损失更新YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;
火情检测单元,用于从监控视频数据中提取待检测图像,并通过火情检测模型对待检测图像进行火情检测,得到待检测图像的火情检测结果。
本申请实施例中,通过构建火情训练集训练YOLOX网络,使得YOLOX网络学习火情特征,得到火情检测模型,通过火情检测模型识别监控视频数据中的待检测图像,实现火情检测,通过端到端的卷积神经网络进行火情特征提取和火情检测,不需要进行人工特征提取,大大减少了人工干预,提高了检测速度,从而改善了现有的火情检测方法存在的检测速度慢的技术问题。
本申请还提供了一种基于深度学习的火情检测设备,设备包括处理器以及存储器;
存储器用于存储程序代码,并将程序代码传输给处理器;
处理器用于根据程序代码中的指令执行前述方法实施例中的基于深度学习的火情检测方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码被处理器执行时实现前述方法实施例中的基于深度学习的火情检测方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:RandomAccess Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的火情检测方法,其特征在于,包括:
获取火情样本图像,对所述火情样本图像进行类别标注,并采用矩形框对所述火情样本图像中的火情区域进行标注,得到火情训练集;
通过所述火情训练集训练预先构建的YOLOX网络,通过所述YOLOX网络对所述火情训练集中的所述火情样本图像进行火情特征提取和火情分类,输出所述火情样本图像的火情区域预测框和类别置信度;
根据所述火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据所述火情样本图像的类别置信度和真实类别计算类别损失;
通过所述类别损失和所述检测框位置损失更新所述YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;
从监控视频数据中提取待检测图像,并通过所述火情检测模型对所述待检测图像进行火情检测,得到所述待检测图像的火情检测结果。
2.根据权利要求1所述的基于深度学习的火情检测方法,其特征在于,所述YOLOX网络包括骨干网络、颈部网络和头部网络,所述骨干网络用于对输入图像进行特征提取,所述颈部网络用于对浅层特征、中层特征和深层特征进行特征融合,所述头部网络用于对输入特征进行分类和位置检测;
所述骨干网络包括注意力模块,所述注意力模块包括通道注意力模块和空间注意力模块,所述注意力模块用于通过所述通道注意力模块对输入特征进行通道维度上的特征提取,将提取到的通道注意力特征与输入特征相乘后输入到所述空间注意力模块进行空间维度上的特征提取,再将提取到的空间注意力特征与所述空间注意力模块的输入特征相乘,得到注意力特征。
3.根据权利要求2所述的基于深度学习的火情检测方法,其特征在于,所述通过所述通道注意力模块对输入特征进行通道维度上的特征提取,包括:
通过所述通道注意力模块对输入特征分别进行最大池化处理和平均池化处理,得到第一池化特征和第二池化特征;
通过所述通道注意力模块分别对所述第一池化特征和所述第二池化特征依次进行通道降维、通道升维和非线性映射,得到第一中间特征和第二中间特征;
通过所述通道注意力模块对所述第一中间特征和所述第二中间特征相加后输入到Sigmoid激活函数中计算输入特征的通道权重,得到通道注意力特征。
4.根据权利要求2所述的基于深度学习的火情检测方法,其特征在于,所述将提取到的通道注意力特征与输入特征相乘后输入到所述空间注意力模块进行空间维度上的特征提取,包括:
将提取到的通道注意力特征与所述通道注意力模块的输入特征相乘,得到所述空间注意力模块的输入特征,将输入特征输入到所述空间注意力模块;
通过所述空间注意力模块在通道维度上对输入特征分别进行最大池化处理和平均池化处理,得到第三池化特征和第四池化特征;
通过所述空间注意力模块在通道维度上对所述第三池化特征和所述第四池化特征进行特征拼接,得到拼接特征;
通过所述空间注意力模块对所述拼接特征进行卷积处理,并将提取的卷积特征输入到Sigmoid激活函数中计算输入特征的空间权重,得到空间注意力特征。
5.根据权利要求2所述的基于深度学习的火情检测方法,其特征在于,所述颈部网络包括特征融合模块,所述特征融合模块包括上采样层、拼接层、CSP层和CBS层,CSP层包括第一分支、第二分支、拼接层、归一化层、激活层和CBS层,CBS层由卷积层、归一化层和激活层串联组成,等一分支由两个CBS层和卷积层串联组成,第二分支由卷积层组成;
所述特征融合模块,用于对深层特征进行上采样后与中层特征进行拼接,并通过CSP层对拼接得到的特征进行处理,得到第一融合特征;
将所述第一融合特征进行上采样后与浅层特征进行拼接,并通过CSP层对拼接得到的特征进行处理,得到第二融合特征;
将所述第二融合特征与浅层特征进行拼接后输入到CSP层进行处理,得到浅层融合特征;
将所述浅层融合特征输入到CBS层进行处理后与所述第一融合特征、中层特征进行拼接,通过CSP层对拼接得到的特征进行处理,得到中层融合特征;
将所述中层融合特征与深层特征进行拼接后输入到CSP层进行处理,得到深层融合特征。
6.根据权利要求5所述的基于深度学习的火情检测方法,其特征在于,所述颈部网络由3个特征融合模块串联组成。
7.根据权利要求1所述的基于深度学习的火情检测方法,其特征在于,所述根据所述火情样本图像的火情区域预测框和真实框计算检测框位置损失,包括:
根据所述火情样本图像的火情区域预测框和真实框计算交并比、火情区域预测框与真实框的中心点距离;
采用火情区域预测框和真实框的最小外接矩形的对角线长度对火情区域预测框与真实框的中心点距离矩形进行归一化处理,得到归一化中心点距离;
根据所述交并比和所述归一化中心节点距离计算检测框位置损失。
8.一种基于深度学习的火情检测装置,其特征在于,包括:
标注单元,用于获取火情样本图像,对所述火情样本图像进行类别标注,并采用矩形框对所述火情样本图像中的火情区域进行标注,得到火情训练集;
训练单元,用于通过所述火情训练集训练预先构建的YOLOX网络,通过所述YOLOX网络对所述火情训练集中的所述火情样本图像进行火情特征提取和火情分类,输出所述火情样本图像的火情区域预测框和类别置信度;
损失计算单元,用于根据所述火情样本图像的火情区域预测框和真实框计算检测框位置损失,根据所述火情样本图像的类别置信度和真实类别计算类别损失;
参数更新单元,用于通过所述类别损失和所述检测框位置损失更新所述YOLOX网络的网络参数,直至YOLOX网络收敛,得到火情检测模型;
火情检测单元,用于从监控视频数据中提取待检测图像,并通过所述火情检测模型对所述待检测图像进行火情检测,得到所述待检测图像的火情检测结果。
9.一种基于深度学习的火情检测设备,其特征在于,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的基于深度学习的火情检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码被处理器执行时实现权利要求1-7任一项所述的基于深度学习的火情检测方法。
CN202211482500.4A 2022-11-24 2022-11-24 一种基于深度学习的火情检测方法、装置、设备和介质 Pending CN115761409A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211482500.4A CN115761409A (zh) 2022-11-24 2022-11-24 一种基于深度学习的火情检测方法、装置、设备和介质
PCT/CN2023/133586 WO2024109873A1 (zh) 2022-11-24 2023-11-23 一种基于深度学习的火情检测方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211482500.4A CN115761409A (zh) 2022-11-24 2022-11-24 一种基于深度学习的火情检测方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115761409A true CN115761409A (zh) 2023-03-07

Family

ID=85337017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211482500.4A Pending CN115761409A (zh) 2022-11-24 2022-11-24 一种基于深度学习的火情检测方法、装置、设备和介质

Country Status (2)

Country Link
CN (1) CN115761409A (zh)
WO (1) WO2024109873A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116403094A (zh) * 2023-06-08 2023-07-07 成都菁蓉联创科技有限公司 一种嵌入式图像识别方法及系统
CN116863252A (zh) * 2023-09-04 2023-10-10 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN116883862A (zh) * 2023-07-19 2023-10-13 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
WO2024109873A1 (zh) * 2022-11-24 2024-05-30 天翼数字生活科技有限公司 一种基于深度学习的火情检测方法、装置、设备和介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635979B2 (en) * 2018-07-20 2020-04-28 Google Llc Category learning neural networks
US10832096B2 (en) * 2019-01-07 2020-11-10 International Business Machines Corporation Representative-based metric learning for classification and few-shot object detection
CN112906463A (zh) * 2021-01-15 2021-06-04 上海东普信息科技有限公司 基于图像的火情检测方法、装置、设备及存储介质
CN113469050B (zh) * 2021-07-01 2024-06-14 安徽大学 基于图像细分类的火焰检测方法
CN114359733A (zh) * 2022-01-06 2022-04-15 盛视科技股份有限公司 一种基于视觉的烟雾火情的检测方法及系统
CN115049986A (zh) * 2022-07-13 2022-09-13 云南大学 基于改进型YOLOv4的火焰检测方法及系统
CN115761409A (zh) * 2022-11-24 2023-03-07 天翼数字生活科技有限公司 一种基于深度学习的火情检测方法、装置、设备和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024109873A1 (zh) * 2022-11-24 2024-05-30 天翼数字生活科技有限公司 一种基于深度学习的火情检测方法、装置、设备和介质
CN116403094A (zh) * 2023-06-08 2023-07-07 成都菁蓉联创科技有限公司 一种嵌入式图像识别方法及系统
CN116403094B (zh) * 2023-06-08 2023-08-22 成都菁蓉联创科技有限公司 一种嵌入式图像识别方法及系统
CN116883862A (zh) * 2023-07-19 2023-10-13 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
CN116883862B (zh) * 2023-07-19 2024-02-23 北京理工大学 一种光学遥感图像多尺度目标检测方法及装置
CN116863252A (zh) * 2023-09-04 2023-10-10 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质
CN116863252B (zh) * 2023-09-04 2023-11-21 四川泓宝润业工程技术有限公司 动火作业现场易燃物检测方法、装置、设备、存储介质

Also Published As

Publication number Publication date
WO2024109873A1 (zh) 2024-05-30

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
US11487995B2 (en) Method and apparatus for determining image quality
CN115761409A (zh) 一种基于深度学习的火情检测方法、装置、设备和介质
CN110084216A (zh) 人脸识别模型训练和人脸识别方法、系统、设备及介质
CN111767900B (zh) 人脸活体检测方法、装置、计算机设备及存储介质
WO2022104503A1 (zh) 一种对抗样本的识别方法及相关装置
CN107301376B (zh) 一种基于深度学习多层刺激的行人检测方法
CN107832721B (zh) 用于输出信息的方法和装置
CN113869449A (zh) 一种模型训练、图像处理方法、装置、设备及存储介质
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN116311214B (zh) 车牌识别方法和装置
CN116341710A (zh) 交通事故预测方法、装置、电子设备及存储介质
CN114662605A (zh) 基于改进的YOLOv5模型的火焰检测方法
CN113947209A (zh) 基于云边协同的集成学习方法、系统及存储介质
CN111723688B (zh) 人体动作识别结果的评价方法、装置和电子设备
CN116402811B (zh) 一种打架斗殴行为识别方法及电子设备
CN113033587B (zh) 图像识别结果评估方法、装置、电子设备及存储介质
CN116958769A (zh) 基于融合特征的翻越行为检测方法及相关装置
CN116563604A (zh) 端到端目标检测模型训练、图像目标检测方法及相关设备
CN114399816B (zh) 社区火灾风险感知方法及装置
CN114613010A (zh) 检测模型的训练方法及装置、吸烟行为的检测方法及装置
JP7239002B2 (ja) 物体数推定装置、制御方法、及びプログラム
CN111160219B (zh) 对象完整度评估方法、装置、电子设备及存储介质
CN112149598A (zh) 一种侧脸评估方法、装置、电子设备及存储介质
Suzon Face mask detection in real time using python

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240328

Address after: Unit 1, Building 1, China Telecom Zhejiang Innovation Park, No. 8 Xiqin Street, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province, 311100

Applicant after: Tianyi Shilian Technology Co.,Ltd.

Country or region after: China

Address before: 200000 room 1423, No. 1256 and 1258, Wanrong Road, Jing'an District, Shanghai

Applicant before: Tianyi Digital Life Technology Co.,Ltd.

Country or region before: China