CN116844109A - 一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法 - Google Patents

一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法 Download PDF

Info

Publication number
CN116844109A
CN116844109A CN202310763899.1A CN202310763899A CN116844109A CN 116844109 A CN116844109 A CN 116844109A CN 202310763899 A CN202310763899 A CN 202310763899A CN 116844109 A CN116844109 A CN 116844109A
Authority
CN
China
Prior art keywords
flame
feature
yolov7
flame detection
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310763899.1A
Other languages
English (en)
Inventor
刘敏
陈明
武明虎
王娟
张凡
唐靓
叶永钢
霍武杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202310763899.1A priority Critical patent/CN116844109A/zh
Publication of CN116844109A publication Critical patent/CN116844109A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B17/00Fire alarms; Alarms responsive to explosion
    • G08B17/12Actuation by presence of radiation or particles, e.g. of infrared radiation or of ions
    • G08B17/125Actuation by presence of radiation or particles, e.g. of infrared radiation or of ions by using a video camera to detect fire or smoke

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Fire-Detection Mechanisms (AREA)

Abstract

本发明公开了一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法。所述方法包括S1:通过可视化监控拍摄设备及网络爬虫的方式获取带有火焰目标的图像,并对所述图像数据进行筛选和标注,建立火焰图像数据集。S2:以YOLOv7为基础模型建立火焰检测模型,以实现火焰的类别和位置信息的检测。S3:在S2所述的基础模型中融合双向路由注意力机制模块并改进边界框损失函数,得到改进YOLOv7和融合双向路由注意力机制火焰检测算法。S4:利用建立的火焰图像数据集对改进后的YOLOv7算法进行训练和测试,得到训练完成的改进的YOLOv7火焰检测模型。将所述训练完成的改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中,并根据火焰检测结果产生告警信息。

Description

一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法
技术领域
本发明涉及火灾检测技术领域,尤其涉及一种改进YOLOv7和融合双向路由注意力机制的高效火焰检测方法。
背景技术
近年来,火灾发生频率越来越高,且火灾的发生往往伴随着一定程度的人员伤亡、环境破坏以及财产损失。为了避免火灾事故带来的危害,应在火焰产生的初期阶段对火焰进行准确快速的检测,这不仅有利于及时控制火情,还可有效降低火灾造成的恶劣影响。鉴于火焰检测的重要性,人们已对火焰检测方法进行了广泛的研究。目前,有基于人工定义火焰特征和基于深度学习2种检测方法。
基于人工定义火焰特征的检测方法,由于多数火焰目标较小以及阳光、灯光等与火焰颜色相似,因此该方法的检测平均精度低、小目标火焰漏检率高。Foggia P等人使用将火焰的YUV颜色模型、形状和运动特征相结合的方法以及ZHANG Q等人将RGB颜色模型与ViBe背景提取算法相结合的方法来提高基于人工定义火焰特征检测方法的效果,但效果仍不理想。
基于深度学习的检测方法具有较好的自主学习性、容错性以及较快的速度,常用于图像的识别和分类。在火焰检测研究中,Frizzi S等人设计了一个9层卷积神经网络;FuTianju等人设计了一个12层卷积神经网络,虽然大幅度地提高了火焰检测精度,降低了误检率,但是检测速率仍然很慢,无法实现对视频中火焰的实时检测。DAI Z T使用MobileNet网络替换YOLOV3的主干网络,赵媛媛等在原YOLOV3的基础上增加了第四层检测层以改善火焰检测性能等等。但以上改进火焰检测的方法依然存在平均精度低、小目标火焰漏检率高的问题,不能满足火焰检测的要求。
发明内容:
基于背景技术存在的技术问题,本发明目的之一在于提出了一种具有动态非单调聚焦机制的回归框损失函数,设计了明智的IoU(Wise-IoU,WIoU)。动态非单调聚焦机制使用“离群度”替代YOLOv7中的回归损失CIoU对锚框进行质量评估,并提供了明智的梯度增益分配策略。本发明目的之二在于提供了一种新的双向路由注意力机制(Bi-Level RoutingAttention,BRA)模块并与YOLOv7融合,同时利用双向上下文信息来编码输入序列,从而获得更全面的语义表示。综上,本发明通过改进YOLOv7和融合双向路由注意力机制,可以满足对小火焰检测的准确性和实时性要求,在初期阶段对火焰进行准确快速的检测,帮助居家人员或消防员提升灭火效率。
有鉴于此,本发明采用如下技术方案以实现上述改进YOLOv7和融合双向路由注意力机制的方法,包括:
S1、通过可视化监控拍摄设备及网络爬虫的方式获取带有火焰目标的图像,并对所述图像数据进行筛选和标注,建立火焰图像数据集,以实现对不同场景下火焰目标检测模型的训练、验证和测试。
S2、以YOLOv7模型为基础模型建立火焰检测模型,以实现火焰的类别和位置信息的检测。所述YOLOv7模型包括主干特征提取模块(Backbone)、加强特征提取模块(FPN)、分类器和回归器模块(YOLO Head)。
S3、在S2所述的加强特征提取模块(FPN)融合双向路由注意力机制模块(BRA);在所述分类器和回归器模块(YOLO Head)引入边界框损失函数明智的IoU(WIoU)。得到改进的YOLOv7火焰检测算法。
S4、利用建立的火焰图像数据集对改进后的YOLOv7算法进行训练和测试,得到训练完成的改进的YOLOv7火焰检测模型。将所述训练完成的改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中,并根据火焰检测结果产生告警信息。
进一步地,步骤S1包括:
S1-1、采集火焰场景下图像;
具体地,在室内和室外的合适位置固定摄像机,采集一定数量的包括火焰目标的图像。优选地,通过网络爬虫的方式扩充火焰场景图像;
S1-2、火焰图像预处理;
具体地,对上述火焰场景图像进行筛选、格式转换等预处理,筛选掉含有大量水印、马赛克和像素值极低的火焰图像;
S1-3、火焰图像数据集;
具体地,将上述预处理之后的火焰图像进行标注,并划分为训练集、验证集和测试集;
S1-4、火焰图像数据集数据增强;
具体地,对上述步骤S1-3中划分的训练集、验证集,采用图像增强技术进行扩充增强,用来对火焰检测模型的训练学习和验证。
进一步地,步骤S2包括:
S2-1、构建火焰检测主干特征提取模块(Backbone);
具体地,输入的火焰图片首先会在主干网络里面进行对其进行卷积、池化操作特征提取,提取到的特征可以被称作特征层,是输入图片的特征集合。在主干部分将会获取了三个特征层进行下一步网络的构建,这三个特征层称为有效特征层;
S2-2、火焰检测加强特征提取模块(FPN);
具体地,在S2-1获得的三个有效特征层会在这一部分进行特征融合,特征融合的目的是结合不同尺度的特征信息。在FPN部分,已经获得的有效特征层被用于继续提取特征,结合自底向上和自顶向下的方法以实现不同层的特征融合。
S2-3、火焰检测分类器和回归器模块(YOLO Head);
具体地,通过S2-1和S2-2,已经获得三个加强过的有效特征层。每一个特征层都有宽、高和通道数,此时我们可以将特征图看作一个又一个特征点的集合,每个特征点上有三个先验框,每一个先验框都有通道数个特征。YOLO Head所做的工作就是对特征点进行判断,判断特征点上的先验框是否有物体与其对应。
进一步地,步骤S2-1构建火焰检测主干特征提取模块Backbone包括:
使用多分支堆叠模块Multi_Concat_Block和过渡模块Transition_Block,提取到的特征可以被称作特征层,是输入图片的特征集合,本模块一共提取三个特征层,三个特征层位于主干部分的不同位置,分别位于中间层,中下层,底层。
进一步地,步骤S3包括:
S3-1、加强特征提取模块融合双向路由注意力机制模块;
具体地,为了解决小目标火焰漏检率高的问题,本发明利用双向上下文信息来编码输入序列,从而获得更全面的语义表示。
优选地,在S2-1获得的三个有效特征层与S2-2加强特征提取模块融合后,进一步融合双向路由注意力机制模块。
S3-2、分类器和回归器模块引入边界框损失函数WIoU;
具体地,为了解决YOLOv7中的回归损失CIoU一味地强化边界框对低质量示例的回归危害模型检测性能的提升的问题。本发明提供了明智的梯度增益分配策略,在降低高质量锚框的竞争力的同时,也减小了低质量火焰示例产生的有害梯度。
优选地,对S2-3火焰检测分类器和回归器模块引入边界框损失函数WIoU。本实施例利用带有动态非单调聚焦机制使用“离群度”的边界框损失函数WIoU替代YOLOv7中的回归损失CIoU对锚框进行质量评估。
进一步地,步骤S3-1加强特征提取模块融合双向路由注意力机制模块包括:
为了充分融合火焰检测主干特征提取模块和加强特征提取模块有效的语义信息,本方法在S2-1获得的三个有效特征层与S2-2加强特征提取模块融合后,进一步融合双向路由注意力机制模块;
进一步地,双向路由注意力机制模块包括前向注意力和后向注意力,在前向注意力中,模型将序列中每个位置的特征向量与其他位置的特征向量进行交互,以便从整个序列中提取有用的信息;具体来说,前向注意力通过计算每个位置与其他位置之间的相似度,并将其用作权重来加权每个位置的特征向量,以此来得到每个位置的上下文信息;在后向注意力中,模型重复了前向注意力的过程,但是方向相反,即模型将序列中每个位置的特征向量与其之前的位置进行交互,以便从之前的序列位置中提取信息,这样就可以同时捕捉序列中前面和后面的信息,从而有效地处理序列中的长程依赖关系。
进一步地,输入的火焰图片X的特征维度为H×W×C,其中H和W分别为火焰图片的高度和宽度,C为火焰图片的通道数。本方法首先将火焰图片划分为S×S个非重叠区域,使得每个区域包含HW/S2个特征向量,此时输入X的特征维度变为S2×HW/S2×C,记为Xr。然后经过线性映射得到Q、K、V张量,V是表示输入特征的向量,Q、K是计算注意力权重的特征向量:Q=XrWq,K=XrWk,V=XrWv。其中,Wq,Wk,Wv分别是Xr的投影权重;
进一步地,首先通过分别在Q和K上应用每个区域平均值来导出特征维度为S2×C的区域级Qr、Kr,然后通过Qr和转置Kr之间的矩阵乘法推导出区域到区域亲和度图的邻接矩阵Ar,构建有向图来找到区域到区域的注意力关系:
Ar=Qr(Kr)T
进一步地,在邻接矩阵Ar的基础上推导出路由索引矩阵Ir,通过为每个区域只保留前k个关系最密切的区域,保留第i行Ir包含第i个区域的k个最相关区域的索引,具有逐行topk算子:
Ir=topkIndex(Ar)
进一步地,在路由索引矩阵Ir的粗粒度上过滤掉最不相关的路由区域,对于区域i中的每个Q,它将关注以为索引的k个最关注的路由区域,并收集特征维度为S2×kHW/S2×C的K,V的张量Kg,Vg
Kg=gather(K,Ir),Vg=gather(V,Ir)
进一步地,将注意力机制应用到收集到到的Kg,Vg上:
0=Attention(Q,Kg,Vg)。
进一步地,步骤S3-2所述分类器和回归器模块引入边界框损失函数WIoU包括:
边界框损失函数WIoU按照以下方法进行计算:
其中,(x,y)表示预测框中心点坐标,(xgt,ygt)表示真实框中心点坐标,预测框与真实框的最小包围框的尺寸为Wg×Hg,*表示消除阻碍收敛的有害梯度,LIoU=1-IoU,IoU为交并比,α、δ为调节参数,β表示“离群度”,表示LIoU的滑动平均值,离群度小意味着锚框质量高,为其分配一个小的梯度增益,以便使边界框回归聚焦到普通质量的锚框上;对离群度较大的锚框分配较小的梯度增益,将有效防止低质量示例产生较大的有害梯度;
可理解地,LWIoU使得WIoU可以聚焦于普通质量的锚框,并提高火焰检测器的整体性能。
进一步地,步骤S4包括:
S4-1、改进后的YOLOv7算法进行训练和测试;
具体地,用自然图像数据集对上述步骤S3得到改进的YOLOv7火焰检测算法进行预训练以得到预训练模型,然后使用迁移学习技术用上述步骤S1-4中增强的火焰图像数据集中的训练集对上述预训练模型进行精调,以得到训练完成的改进的YOLOv7火焰检测模型。步骤S1-4中增强的火焰图像数据集中的验证集可在训练过程中检验模型状态。通过验证集准确率收敛情况,提供一个超参数的调整决策,模型的最终效果以测试集的评估效果为准。
S4-2、改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中;
具体地,将S4-1中所述的训练完成的改进的YOLOv7检测模型部署到可视化监控拍摄设备中,该监控拍摄设备可被安装于火灾隐患目标区域,可以实现实时火焰检测。如果识别到火焰同时分类置信度大于0.5则产生告警信息,进行及时告警处理,减少火灾隐患事故的发生。
与现有技术相比,本发明具有的有益效果在于:
1、本发明提供的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,以YOLOv7模型为基础模型建立火焰检测模型。YOLOv7在5FPS到160FPS范围内的速度和准确度都超过了所有已知的目标检测器,并且在GPU V100上30FPS或更高的所有已知实时目标检测器中具有最高的准确度。在其基础上进行针对火焰检测独有的性能提升,减少了以往模型在小火焰目标漏检误检的问题,提升了在火灾隐患场景下对火焰检测的准确性。
2、本发明提供的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,以火灾场景存在多点小火焰为基准,通过双层路由设计了一种新颖的动态稀疏注意力模块BRA,并与YOLOv7融合,以实现更灵活的计算分配和内容感知,使其具备动态的查询感知稀疏性。以查询自适应的方式关注一小部分相关标记,而不会分散其他不相关标记的注意力,因此它具有良好的性能和高计算效率。
3、本发明提供的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,解决了YOLOv7中的回归损失CIoU过于强化边界框对低质量火焰示例的危害问题,设计了边界框损失函数WIoU,使用动态非单调聚焦机制“离群度”替代IoU对锚框进行质量评估,并提供了明智的梯度增益分配策略。该策略在降低高质量锚框的竞争力的同时,也减小了低质量示例产生的有害梯度。这使得WIoU可以聚焦于普通质量的锚框,并提高YOLOv7检测器的整体性能。
4、已训练的改进YOLOv7和融合双向路由注意力机制的火焰检测模型有望集成在可视化监控拍摄和智慧城市治理设备上,可实现火焰目标的实时性检测和预警。
附图说明:
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例提供的火焰检测方法流程图。
图2为本发明一实施例提供的多分支堆叠模块结构图。
图3为本发明一实施例提供的过渡模块结构图。
图4为本发明一实施例提供的SPPCSPC模块结构图。
图5为本发明一实施例提供的双向路由注意力机制模块原理图。
图6为本发明一实施例提供的模型融合双向路由注意力机制模块流程图。
图7为本发明一实施例提供的测试结果图。
具体实施方式:
为了便于本领域技术人员的理解,如下结合具体实施例对本发明作进一步的详细描述。下列具体实施例仅用于说明本发明,而不是全部实施例,不应视为限定本发明的范围。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
本实施例提供了一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,如图1所示,具体实施包括如下步骤:
S1、通过可视化监控拍摄设备及网络爬虫的方式获取带有火焰目标的图像,并对所述图像数据进行筛选和标注,建立火焰图像数据集,以实现对不同场景下火焰目标检测模型的训练、验证和测试。所述火焰图像包括但不限于:室内着火、室外着火、山火、输电线路着火图像。具体步骤如下:
S1-1、采集火焰场景下图像;
具体地,在室内和室外的合适位置固定摄像机,采集一定数量的包括火焰目标的图像。优选地,通过网络爬虫的方式扩充火焰场景图像。
S1-2、火焰图像预处理;
具体地,对上述火焰场景图像进行筛选、格式转换等预处理,筛选掉含有大量水印、马赛克和像素值极低的火焰图像,剔除不包括火焰目标的图像,剔除模糊、严重遮挡的图像。
进一步地,考虑到火焰场景复杂,易受干扰,采用图像增强技术如滤波、去噪等技术对每一张输电线路场景下图像进行增强,并进行数据格式转换,将所有火焰图像格式转换为JPEG格式。
S1-3、建立火焰图像数据集;
具体地,通过Labelimg标注工具对预处理之后的火焰图像进行人工标注,用矩形框包络火焰图像中火焰的位置并标识类别标签,得到相对应的包含目标类别与矩形框坐标的XML格式的文件。将上述标注之后的火焰图像数据集按照6:2:2的比例划分为训练集、验证集和测试集。
S1-4、火焰图像数据集数据增强;
具体地,对上述步骤S1-3中划分的训练集、验证集,采用图像增强技术如亮度增强、裁剪和旋转等操作进行扩充增强,将火焰图像数据集1500张增强到3000张,用来对火焰目标检测模型的训练学习和验证。
优选地,为了进一步强化小火焰目标检测的性能,在此基础上,我们再增加一个马赛克增强(Mosaic Augmentation)对输入的训练集图像进行处理。
S2、以YOLOv7模型为基础模型建立火焰检测模型,以实现火焰的类别和位置信息的检测。所述YOLOv7模型包括主干特征提取模块(Backbone)、加强特征提取模块(FPN)、分类器和回归器模块(YOLO Head)。具体步骤如下:
S2-1、构建火焰检测主干特征提取模块(Backbone);
具体地,输入的火焰图片首先会在主干网络里面进行卷积、池化操作对其进行特征提取,在主干部分将会获取了三个特征层进行下一步网络的构建,这三个特征层称为有效特征层。
进一步地,主要使用了多分支堆叠模块(Multi_Concat_Block)和过渡模块(Transition_Block),如图2、3所示。提取到的特征可以被称作特征层,是输入图片的特征集合,本模块一共提取三个特征层。三个特征层位于主干部分的不同位置,分别位于中间层,中下层,底层。本实施例输入火焰图片为(640,640,3),即输入的特征维度为640×640×3,三个特征层的shape分别为feat1=(80,80,512)、feat2=(40,40,1024)、feat3=(20,20,1024)。
S2-2、火焰检测加强特征提取模块(FPN);
具体地,在S2-1获得的三个有效特征层会在这一部分进行特征融合,利用这三个有效特征层进行FPN层的构建。特征融合的目的是结合不同尺度的特征信息。在FPN部分,已经获得的有效特征层被用于继续提取特征,结合自底向上和自顶向下的方法以实现不同层的特征融合。
进一步地,feat3=(20,20,1024)的特征层首先利用SPPCSPC模块进行特征提取,如图4所示,该结构可以提高YOLOV7的感受野,获得P5。
进一步地,对P5先进行1次1×1卷积调整通道,然后进行上采样UmSampling2d后与feat2=(40,40,1024)进行一次卷积后的特征层进行结合,然后使用Multi_Concat_Block进行特征提取获得P4,此时获得的特征层为(40,40,256)。
进一步地,对P4先进行1次1×1卷积调整通道,然后进行上采样UmSampling2d后与feat1=(80,80,512)进行一次卷积后的特征层进行结合,然后使用Multi_Concat_Block进行特征提取获得P3_out,此时获得的特征层为(80,80,128)。
进一步地,P3_out=(80,80,128)的特征层进行一次Transition_Block卷积进行下采样,下采样后与P4堆叠,然后使用Multi_Concat_Block进行特征提取P4_out,此时获得的特征层为(40,40,256)。
进一步地,P4_out=(40,40,256)的特征层进行一次Transition_Block卷积进行下采样,下采样后与P5堆叠,然后使用Multi_Concat_Block进行特征提取P5_out,此时获得的特征层为(20,20,512)。
特征金字塔可以将不同shape的特征层进行特征融合,有利于提取出更好的特征。
S2-3、火焰检测分类器和回归器模块(YOLO Head);
具体地,通过S2-1和S2-2,已经获得三个加强过的有效特征层。每一个特征层都有宽、高和通道数,此时我们可以将特征图看作一个又一个特征点的集合,每个特征点上有三个先验框,每一个先验框都有通道数个特征。YOLO Head所做的工作就是对特征点进行判断,判断特征点上的先验框是否有物体与其对应。
进一步地,利用FPN特征金字塔,我们可以获得三个加强特征,这三个加强特征的shape分别为(20,20,512)、(40,40,256)、(80,80,128),然后我们利用这三个shape的特征层传入YOLO Head获得预测结果。
S3、在S2所述的加强特征提取模块(FPN)融合双向路由注意力机制模块(BRA);在所述分类器和回归器模块(YOLO Head)引入边界框损失函数明智的IoU(WIoU)。得到改进的YOLOv7火焰检测算法。具体步骤如下:
S3-1、加强特征提取模块融合双向路由注意力机制模块;
具体地,为了解决小目标火焰漏检率高的问题,本发明利用双向上下文信息来编码输入序列,从而获得更全面的语义表示。因为注意力机制能够以高权重去聚焦重要信息,以低权重去忽略不相关的信息,并且还可以不断调整权重,使得在不同的情况下也可以选取重要的信息,因此具有更高的可扩展性和鲁棒性。
优选地,为了充分融合火焰检测主干特征提取模块和加强特征提取模块有效的语义信息,本发明在S2-1获得的三个有效特征层与S2-2加强特征提取模块融合后,进一步融合双向路由注意力机制模块。其首先将火焰图像划分为S×S个区域,通过线性映射得到的三个特征向量构造有向图找到每个给定区域应该参与的区域,然后通过计算区域相关性得到邻接矩阵Ar,只保留每个区域的前k个连接来修剪邻接矩阵得到路由索引矩阵Ir,利用索引矩阵的粗粒度上过滤掉最不相关的路由区域,聚集特征向量。然后对聚集后的特征向量使用注意力操作。双向路由注意力机制模块(BRA)如图5所示。
优选地,在步骤S2-2所示的P5进行1×1卷积和上采样后的特征层与步骤S2-1所示feat2进行一次卷积后的特征层进行结合之后融合双向路由注意力机制模块;在S2-2所示的P4进行1×1卷积和上采样后的特征层与步骤S2-1所示feat1进行一次卷积后的特征层进行结合之后融合双向路由注意力机制模块,如图6所示。
进一步地,双向路由注意力机制模块包括前向注意力和后向注意力。在前向注意力中,模型将序列中每个位置的特征向量与其他位置的特征向量进行交互,以便从整个序列中提取有用的信息。具体来说,前向注意力通过计算每个位置与其他位置之间的相似度,并将其用作权重来加权每个位置的特征向量,以此来得到每个位置的上下文信息。在后向注意力中,模型重复了前向注意力的过程,但是方向相反。即模型将序列中每个位置的特征向量与其之前的位置进行交互,以便从之前的序列位置中提取信息。这样就可以同时捕捉序列中前面和后面的信息,从而有效地处理序列中的长程依赖关系。
进一步地,输入的火焰图片X的特征维度为H×W×C,其中H和W分别为火焰图片的高度和宽度,C为火焰图片的通道数。本方法首先将火焰图片划分为S×S个非重叠区域,使得每个区域包含HW/S2个特征向量,此时输入X的特征维度变为S2×HW/S2×C,记为Xr。然后经过线性映射得到Q、K、V张量,V是表示输入特征的向量,Q、K是计算注意力权重的特征向量:Q=XrWq,K=XrWk,V=XrWv。其中,Wq,Wk,Wv分别是Xr的投影权重。
进一步地,我们首先通过分别在Q和K上应用每个区域平均值来导出特征维度为S2×C的区域级Qr、Kr。然后通过Qr和转置Kr之间的矩阵乘法推导出区域到区域亲和度图的邻接矩阵Ar,构建有向图来找到区域到区域的注意力关系:
Ar=Qr(Kr)T
进一步地,在邻接矩阵Ar的基础上推导出路由索引矩阵Ir,通过为每个区域只保留前k个关系最密切的区域。保留第i行Ir包含第i个区域的k个最相关区域的索引,具有逐行topk算子:
Ir=topkIndex(Ar)
进一步地,在路由索引矩阵Ir的粗粒度上过滤掉最不相关的路由区域。对于区域i中的每个Q,它将关注以为索引的k个最关注的路由区域,并收集(gather)特征维度为S2×kHW/S2×C的K,V的张量Kg,Vg
Kg=gather(K,Ir),Vg=gather(V,Ir)
进一步地,将注意力机制应用到收集到到的Kg,Vg上:
O=Attention(Q,Kg,Vg)
S3-2、分类器和回归器模块引入边界框损失函数WIoU;
具体地,为了解决YOLOv7中的回归损失CIoU一味地强化边界框对低质量示例的回归危害模型检测性能的提升的问题。本发明提供了明智的梯度增益分配策略,在降低高质量锚框的竞争力的同时,也减小了低质量火焰示例产生的有害梯度。
优选地,对S2-3火焰检测分类器和回归器模块引入边界框损失函数WIoU。本实施例利用带有动态非单调聚焦机制使用“离群度”的边界框损失函数WIoU替代YOLOv7中的回归损失CIoU对锚框进行质量评估。
进一步地,边界框损失函数WIoU按照以下方法进行计算:
进一步地,(x,y)表示预测框中心点坐标,(xgt,ygt)表示真实框中心点坐标,预测框与真实框的最小包围框的尺寸为Wg×Hg,*表示消除阻碍收敛的有害梯度,LIoU=1-IoU,IoU为交并比,α、δ为调节参数。β表示“离群度”,表示LIoU的滑动平均值,离群度小意味着锚框质量高,我们为其分配一个小的梯度增益,以便使边界框回归聚焦到普通质量的锚框上。对离群度较大的锚框分配较小的梯度增益,将有效防止低质量示例产生较大的有害梯度。
可理解地,LWIoU使得WIoU可以聚焦于普通质量的锚框,并提高火焰检测器的整体性能。
S4、利用建立的火焰图像数据集对改进后的YOLOv7算法进行训练和测试,得到训练完成的改进的YOLOv7火焰检测模型。将所述训练完成的改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中,并根据火焰检测结果产生告警信息。具体步骤如下:
S4-1、改进后的YOLOv7算法进行训练和测试;
具体地,用自然图像数据集COCO数据集对上述步骤S3得到的改进YOLOv7火焰检测算法进行预训练以得到预训练模型,然后使用迁移学习技术用上述步骤S1-4中增强的火焰图像数据集中的训练集对上述预训练模型进行精调。
进一步地,将步骤S1-4中增强的火焰图像数据集中验证集输入经训练集训练后的YOLOv7检测模型,用于选择最优模型超参;将测试集输入经验证集选择后的YOLOv7检测模型,用于评估该模型泛化能力,评估依据可根据实际需求灵活调整;最终得到训练完成的改进的YOLOv7检测模型。
可理解地,利用S1-3中火焰图像数据集中测试集对改进YOLOv7和融合双向路由注意力机制的火焰检测模型进行测试。模型测试结果如图7所示。不难看出,本发明公开的火焰检测模型对小火焰检测准确且置信度高。
S4-2、改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中;
具体地,将S4-1中所述的训练完成的改进的YOLOv7检测模型部署到可视化监控拍摄设备中,该监控拍摄设备可被安装于火灾隐患目标区域,可以实现实时火焰检测。
进一步地,如果识别到火焰同时分类置信度(confidence)大于0.5则产生告警信息,进行及时告警处理,进而减少火灾隐患事故的发生。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (8)

1.一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,所述方法包括如下步骤:
S1、通过可视化监控拍摄设备及网络爬虫的方式获取带有火焰目标的图像,并对所述图像数据进行筛选和标注,建立火焰图像数据集,以实现对不同场景下火焰目标检测模型的训练、验证和测试;
S2、以YOLOv7模型为基础模型建立火焰检测模型,以实现火焰的类别和位置信息的检测,所述YOLOv7模型包括主干特征提取模块Backbone、加强特征提取模块FPN、分类器和回归器模块YOLO Head;
S3、在S2所述的加强特征提取模块FPN融合双向路由注意力机制模块BRA;在所述分类器和回归器模块YOLO Head引入边界框损失函数明智的IoU即WIoU,得到改进后的YOLOv7火焰检测算法;
S4、利用建立的火焰图像数据集对改进后的YOLOv7火焰检测算法进行训练和测试,得到训练完成的改进的YOLOv7火焰检测模型,将所述训练完成的改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中,并根据火焰检测结果产生告警信息。
2.根据权利要求1所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S1进一步包括:
S1-1、采集火焰场景下图像;
具体地,在室内和室外的合适位置固定摄像机,采集一定数量的包括火焰目标的图像,优选地,通过网络爬虫的方式扩充火焰场景图像;
S1-2、火焰图像预处理;
具体地,对上述火焰场景图像进行筛选、格式转换预处理,筛选掉含有大量水印、马赛克和像素值极低的火焰图像;
S1-3、火焰图像数据集;
具体地,将上述预处理之后的火焰图像进行标注,并划分为训练集、验证集和测试集;
S1-4、火焰图像数据集数据增强;
具体地,对上述步骤S1-3中划分的训练集、验证集,采用图像增强技术进行扩充增强,用于对火焰检测模型的训练学习和验证。
3.根据权利要求2所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S2进一步包括:
S2-1、构建火焰检测主干特征提取模块Backbone;
具体地,输入的火焰图片首先会在主干网络里面进行对其进行卷积、池化操作特征提取,提取到的特征可以被称作特征层,是输入图片的特征集合,在主干部分将会获取三个特征层进行下一步网络的构建,这三个特征层称为有效特征层;
S2-2、火焰检测加强特征提取模块FPN;
具体地,在S2-1获得的三个有效特征层会在这一部分进行特征融合,特征融合的目的是结合不同尺度的特征信息,在FPN部分,已经获得的有效特征层被用于继续提取特征,结合自底向上和自顶向下的方法以实现不同层的特征融合,以获得三个加强过的有效特征层;
S2-3、火焰检测分类器和回归器模块YOLO Head;
具体地,通过S2-1和S2-2,已经获得三个加强过的有效特征层,每一个特征层都有宽、高和通道数,此时可以将特征图看作一个又一个特征点的集合,每个特征点上有三个先验框,每一个先验框都有通道数个特征,YOLO Head所做的工作就是对特征点进行判断,判断特征点上的先验框是否有物体与其对应。
4.根据权利要求3所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S2-1构建火焰检测主干特征提取模块Backbone;进一步包括:
使用多分支堆叠模块Multi_Concat_Block和过渡模块Transition_Block,提取到的特征可以被称作特征层,是输入图片的特征集合,本模块一共提取三个特征层,三个特征层位于主干部分的不同位置,分别位于中间层,中下层,底层。
5.根据权利要求3所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S3进一步包括:
S3-1、加强特征提取模块融合双向路由注意力机制模块;
具体地,为了解决小目标火焰漏检率高的问题,本方法利用双向上下文信息来编码输入序列,从而获得更全面的语义表示;优选地,在S2-1获得的三个有效特征层与S2-2加强特征提取模块融合后,进一步融合双向路由注意力机制模块;
S3-2、分类器和回归器模块引入边界框损失函数WIoU;
具体地,为了解决YOLOv7中的回归损失CIoU一味地强化边界框对低质量示例的回归危害模型检测性能的提升的问题,本方法提供了明智的梯度增益分配策略;优选地,对S2-3火焰检测分类器和回归器模块引入边界框损失函数WIoU,利用带有动态非单调聚焦机制使用“离群度”的边界框损失函数WIoU替代YOLOv7中的回归损失CIoU对锚框进行质量评估。
6.根据权利要求5所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S3-1加强特征提取模块融合双向路由注意力机制模块;进一步包括:
为了充分融合火焰检测主干特征提取模块和加强特征提取模块有效的语义信息,本方法在S2-1获得的三个有效特征层与S2-2加强特征提取模块融合后,进一步融合双向路由注意力机制模块;
进一步地,双向路由注意力机制模块包括前向注意力和后向注意力,在前向注意力中,模型将序列中每个位置的特征向量与其他位置的特征向量进行交互,以便从整个序列中提取有用的信息;具体来说,前向注意力通过计算每个位置与其他位置之间的相似度,并将其用作权重来加权每个位置的特征向量,以此来得到每个位置的上下文信息;在后向注意力中,模型重复了前向注意力的过程,但是方向相反,即模型将序列中每个位置的特征向量与其之前的位置进行交互,以便从之前的序列位置中提取信息,这样就可以同时捕捉序列中前面和后面的信息,从而有效地处理序列中的长程依赖关系。
进一步地,输入的火焰图片X的特征维度为H×W×C,其中H和W分别为火焰图片的高度和宽度,C为火焰图片的通道数,本方法首先将火焰图片划分为S×S个非重叠区域,使得每个区域包含HW/S2个特征向量,此时输入X的特征维度变为S2×HW/S2×C,记为Xr,然后经过线性映射得到Q、K、V张量,V是表示输入特征的向量,Q、K是计算注意力权重的特征向量:Q=XrWq,K=XrWk,V=XrWv,其中,Wq,Wk,Wv分别是Xr的投影权重;
进一步地,首先通过分别在Q和K上应用每个区域平均值来导出特征维度为S2×C的区域级Qr、Kr,然后通过Qr和转置Kr之间的矩阵乘法推导出区域到区域亲和度图的邻接矩阵Ar,构建有向图来找到区域到区域的注意力关系:
Ar=Qr(Kr)T
进一步地,在邻接矩阵Ar的基础上推导出路由索引矩阵Ir,通过为每个区域只保留前k个关系最密切的区域,保留第i行Ir包含第i个区域的k个最相关区域的索引,具有逐行topk算子:
Ir=topkIndex(Ar)
进一步地,在路由索引矩阵Ir的粗粒度上过滤掉最不相关的路由区域,对于区域i中的每个Q,它将关注以为索引的k个最关注的路由区域,并收集特征维度为S2×kHW/S2×C的K,V的张量Kg,Vg
Kg=gather(K,Ir),Vg=gather(V,Ir)
进一步地,将注意力机制应用到收集到到的Kg,Vg上:
O=Attention(Q,Kg,Vg)。
7.根据权利要求6所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S3-2所述分类器和回归器模块引入边界框损失函数WIoU;进一步包括:
边界框损失函数WIoU按照以下方法进行计算:
其中,(x,y)表示预测框中心点坐标,(xgt,ygt)表示真实框中心点坐标,预测框与真实框的最小包围框的尺寸为Wg×Hg,*表示消除阻碍收敛的有害梯度,LIoU=1-IoU,IoU为交并比,α、δ为调节参数,β表示“离群度”,表示LIoU的滑动平均值,离群度小意味着锚框质量高,为其分配一个小的梯度增益,以便使边界框回归聚焦到普通质量的锚框上;对离群度较大的锚框分配较小的梯度增益,将有效防止低质量示例产生较大的有害梯度;
可理解地,LWIoU使得WIoU可以聚焦于普通质量的锚框,并提高火焰检测器的整体性能。
8.根据权利要求7所述的一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法,其特征在于,步骤S4进一步包括:
S4-1、改进后的YOLOv7算法进行训练和测试;
具体地,用自然图像数据集对上述步骤S3得到改进的YOLOv7火焰检测算法进行预训练以得到预训练模型,然后使用迁移学习技术用上述步骤S1-4中增强的火焰图像数据集中的训练集对上述预训练模型进行精调,以得到训练完成的改进的YOLOv7火焰检测模型;步骤S1-4中增强的火焰图像数据集中的验证集可在训练过程中检验模型状态,通过验证集准确率收敛情况,提供一个超参数的调整决策,模型的最终效果以测试集的评估效果为准;
S4-2、改进的YOLOv7火焰检测模型部署到可视化监控拍摄设备中;
具体地,将S4-1中所述的训练完成的改进的YOLOv7检测模型部署到可视化监控拍摄设备中,该监控拍摄设备安装于火灾隐患目标区域,实现实时火焰检测,如果识别到火焰同时分类置信度大于0.5则产生告警信息,进行及时告警处理。
CN202310763899.1A 2023-06-26 2023-06-26 一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法 Pending CN116844109A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310763899.1A CN116844109A (zh) 2023-06-26 2023-06-26 一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310763899.1A CN116844109A (zh) 2023-06-26 2023-06-26 一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法

Publications (1)

Publication Number Publication Date
CN116844109A true CN116844109A (zh) 2023-10-03

Family

ID=88171904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310763899.1A Pending CN116844109A (zh) 2023-06-26 2023-06-26 一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法

Country Status (1)

Country Link
CN (1) CN116844109A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011301A (zh) * 2023-10-07 2023-11-07 广东三姆森科技股份有限公司 一种基于yolo模型的缺陷检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117011301A (zh) * 2023-10-07 2023-11-07 广东三姆森科技股份有限公司 一种基于yolo模型的缺陷检测方法及装置

Similar Documents

Publication Publication Date Title
WO2021088300A1 (zh) 一种基于非对称双流网络的rgb-d多模态融合人员检测方法
CN110929578B (zh) 一种基于注意力机制的抗遮挡行人检测方法
CN107253485B (zh) 异物侵入检测方法及异物侵入检测装置
CN112653899B (zh) 一种基于联合注意力ResNeSt的复杂场景下网络直播视频特征提取方法
CN105847703B (zh) 一种图像处理方法和电子设备
CN111292264A (zh) 一种基于深度学习的图像高动态范围重建方法
CN110909690A (zh) 一种基于区域生成的遮挡人脸图像检测方法
CN109614907A (zh) 基于特征强化引导卷积神经网络的行人再识别方法及装置
CN110570363A (zh) 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法
CN110032925A (zh) 一种基于改进胶囊网络与算法的手势图像分割与识别方法
CN109034184A (zh) 一种基于深度学习的均压环检测识别方法
CN103020933A (zh) 一种基于仿生视觉机理的多源图像融合方法
CN116844109A (zh) 一种改进YOLOv7和融合双向路由注意力机制的火焰检测方法
CN112184604A (zh) 一种基于图像融合的彩色图像增强方法
CN115690542A (zh) 一种基于改进yolov5的航拍绝缘子定向识别方法
Liu et al. Extended faster R-CNN for long distance human detection: Finding pedestrians in UAV images
CN114648714A (zh) 一种基于yolo的车间规范行为的监测方法
CN111582074A (zh) 一种基于场景深度信息感知的监控视频树叶遮挡检测方法
CN114399734A (zh) 一种基于视觉信息的森林火灾预警方法
CN111683221B (zh) 嵌入矢量红线数据的自然资源实时视频监测方法及系统
CN115019302A (zh) 一种改进型yolox目标检测模型构建方法及其应用
CN115410087A (zh) 一种基于改进YOLOv4的输电线路异物检测方法
CN110866453B (zh) 基于卷积神经网络的实时人群稳定状态识别方法及装置
CN115719457A (zh) 一种基于深度学习的无人机场景下小目标检测的方法
CN115019340A (zh) 一种基于深度学习的夜间行人检测算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination