CN116342894B - 基于改进YOLOv5的GIS红外特征识别系统及方法 - Google Patents
基于改进YOLOv5的GIS红外特征识别系统及方法 Download PDFInfo
- Publication number
- CN116342894B CN116342894B CN202310612697.7A CN202310612697A CN116342894B CN 116342894 B CN116342894 B CN 116342894B CN 202310612697 A CN202310612697 A CN 202310612697A CN 116342894 B CN116342894 B CN 116342894B
- Authority
- CN
- China
- Prior art keywords
- module
- gis
- gscbl
- layer
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进YOLOv5的GIS红外特征识别系统及方法,GIS红外图像采集模块采集GIS设备部件红外图像,GIS红外特征识别模块内置基于改进YOLOv5的GIS红外目标检测网络模型,基于改进YOLOv5的GIS红外目标检测网络模型用于GIS设备部件识别;所述基于改进YOLOv5的GIS红外目标检测网络模型包括主干网络、颈部网络、头部网络三部分;将CA注意力模块与主干网络中对应的CSP模块相结合;在颈部网络中,将传统的卷积层替换为GS卷积层,在保持足够精度的同时降低了计算和网络结构的复杂性;在噪点较多、目标较多的情况下使用本发明对GIS设备部件进行识别,具有良好的识别效果。
Description
技术领域
本发明涉及图像处理与目标检测领域,具体涉及一种基于改进YOLOv5的GIS红外特征识别系统及方法。
背景技术
随着深度学习技术的发展,卷积神经网络(CNN)等深度学习模型在红外目标检测中得到广泛应用。尽管很多红外目标检测网络模型已经在各个领域应用,但在电力行业中,红外目标检测网络模型仍有待深入研究。
GIS设备具有占地面积小、维护工作量小、运行可靠性高、安全性强、噪音小等特点,在电力行业中有着广泛应用。由红外热成像图像对GIS设备不同部件进行识别可以解决不少问题,近年来随着目标检测算法的不断更新,其检测速度和精度都有了极大提升,其中YOLO系列深度学习算法在电力设备红外图像处理领域得到了成功应用。但目前GIS设备红外热成像图像的获取极度依赖于手持式红外热像仪,数据集的获取成为一大难题,而数据集的质量会直接影响算法训练的效果,而边缘智能终端由于算力有限的问题,在GIS设备现场巡检中更有待提升。故鉴于轻量化和高识别准确率算法需求,本发明选择YOLOv5算法进行改进,以构建GIS红外目标检测网络模型。
发明内容
针对现有技术的不足,本发明提出了一种基于改进YOLOv5的GIS红外特征识别系统及方法,本发明采集GIS设备部件红外图像,在噪点较多、目标较多的情况下使用基于改进YOLOv5的GIS红外目标检测网络模型对GIS设备部件进行识别,具有良好的识别效果。
本发明的目的通过如下技术方案来实现:一种基于改进YOLOv5的GIS红外特征识别系统,包括GIS红外图像采集模块和GIS红外特征识别模块,GIS红外图像采集模块采集GIS设备部件红外图像,GIS红外特征识别模块内置基于改进YOLOv5的GIS红外目标检测网络模型,基于改进YOLOv5的GIS红外目标检测网络模型用于GIS设备部件识别;所述基于改进YOLOv5的GIS红外目标检测网络模型包括主干网络、颈部网络、头部网络三部分;主干网络依次由调焦模块、第一CBL模块、CSP模块、第二CBL模块、第一融合CA注意力机制的CSP模块、第三CBL模块、第二融合CA注意力机制的CSP模块、第四CBL模块、SPP模块,各模块之间依次为输入输出的关系;颈部网络包括四个GSCBL模块和五个GSCSP模块,主干网络中SPP模块输出的特征依次经第一GSCSP模块、第一GSCBL模块处理;第一GSCBL模块输出的特征经上采样后与第二融合CA注意力机制的CSP模块输出的特征进行特征融合,然后依次经第二GSCSP模块、第二GSCBL模块处理,第二GSCBL模块输出的特征经上采样后与第一融合CA注意力机制的CSP模块输出的特征进行特征融合,然后经第三GSCSP模块处理,得到第一融合特征图;第一融合特征图经第三GSCBL模块处理后与第二GSCBL模块输出的特征进行特征融合,然后经第四GSCSP模块处理,得到第二融合特征图;第二融合特征图经第四GSCBL模块处理后与第一GSCBL模块输出的特征进行特征融合,然后经第五GSCSP模块处理,得到第三融合特征图;头部网络包括三个解耦头,第一融合特征图、第二融合特征图、第三融合特征图分别输入各自对应的解耦头处理,得到九幅特征图输出。
进一步优选,每个解耦头均包括三层,第一层为一个CBL模块,第二层为两个CBL模块,第三层为三个卷积层(Conv),第一层主要用于降低通道维数;第一层的输出分别进入第二层的两个CBL模块,第二层中的一个CBL模块的输出进入第三层的一个卷积层(带Sigmoid激活函数)中,其输出特征图代表分类任务的结果;第二层中的另一个CBL模块的输出进入第三层的另外两个卷积层(其中一个带Sigmoid激活函数,另一个不带Sigmoid激活函数)中,其输出特征图代表回归任务的结果。
进一步优选,所述CBL模块依次由卷积层(Conv)、批归一化层(BN)和Leaky Relu激活函数组成。
进一步优选,GSCBL模块依次由GS卷积层(GSConv)、批归一化层(BN)和Leaky Relu激活函数组成。
进一步优选,CSP模块包括两条输入分支,其中一条输入分支为卷积层(Conv),另一条输入分支依次包括CBL模块、若干个残差部件、卷积层;两个输入分支的特征融合后经批归一化层(BN)、Leaky Relu激活函数、CBL模块处理后输出。
进一步优选,融合CA注意力机制的CSP模块的输入分为两条输入分支,一条输入分支包括CBL模块、若干个残差部件、CA注意力模块、卷积层;另一条输入分支为卷积层;然后两条输入分支得到的特征融合后,再经过CA注意力模块、批归一化层(BN)、Leaky Relu激活函数、CBL模块然后得到输出结果。
进一步优选,GSCSP模块包括两条输入分支,其中一条输入分支为GS卷积层(Conv),另一条输入分支依次包括GSCBL模块、偶数个GSCBL模块、GS卷积层;两个输入分支的特征融合后经批归一化层(BN)、Leaky Relu激活函数、GSCBL模块处理后输出。
进一步优选,GS卷积层的输入分为两条输入分支,一条输入分支包括卷积层、DW卷积层(DWConv);另一条输入分支为卷积层;然后两条输入分支得到的特征融合后,再经过通道重组得到输出结果。
本发明提供了一种基于改进YOLOv5的GIS红外特征识别方法,通过GIS设备部件红外图像数据集训练基于改进YOLOv5的GIS红外目标检测网络模型,用训练好的基于改进YOLOv5的GIS红外目标检测网络模型进行GIS红外目标检测。
进一步优选,GIS设备部件红外图像数据集的构建方式为:获取GIS设备部件红外图像,并利用标注工具Labelimg完成标记并进行数据增强,得到GIS设备部件红外图像数据集,将GIS设备部件红外图像数据集划分为训练集和测试集;训练集用于训练基于改进YOLOv5的GIS红外目标检测网络模型,测试集用于评估基于改进YOLOv5的GIS红外目标检测网络模型的性能。
进一步优选,训练时,训练集输入基于改进YOLOv5的GIS红外目标检测网络模型的主干网络中,提取训练集的特征;所提取的特征,在颈部网络中得到训练集的特征图;在头部网络中进行预测,通过计算损失函数来确定模型参数的更新方向。
进一步优选,用基于改进YOLOv5的GIS红外目标检测网络模型检测测试集,并用平均精度指标和每秒帧率指标评估,不符合评估要求时,更新模型参数继续训练;当符合评估要求时,保留模型参数用于GIS红外目标检测。
本发明的有益效果如下:
1.本发明在主干网络CSP模块中引入了CA注意力模块,实现对输入特征图的通道注意力加权,从而提高深度神经网络的表征能力。CA注意力机制的优点主要在于四个方面:1)学习到不同的channel:传统的卷积层在卷积时对所有的channel进行相同的处理,并没有对不同channel的重要性进行区分。而CA注意力机制可以学习到每个通道的重要性,重点关注重要的通道,不太关注无关通道,从而使得网络可以更好的关注到特征的重要信息,提高网络的识别精度。在实际应用中,可以将CA注意力机制应用于卷积层或者残差块中,对每个通道进行加权处理,使得网络可以更好地将不同通道的信息进行整合。2)可以在不同层次上使用:CA注意力机制可以应用于不同的卷积层,甚至可以通过堆叠多个CA注意力模块,构建出具有多尺度特征提取能力的网络。在底层卷积层中,主要提取的是局部的特征,而在高层卷积层中则越来越提取全局的特征。利用CA注意力可以使得底层的卷积层更加关注重要的局部特征,高层卷积层更加关注全局特征,从而提高网络的特征提取能力和泛化能力。3)计算开销较小:CA注意力机制的提出,使得注意力机制在计算上变得更加轻量化。CA注意力机制只需要全局平均池化和全局最大池化操作,将池化的结果进行点乘得到每个通道的权重,再将每个通道的计算结果合并即可。这种方式的计算开销相对较小,可以让模型更高效地计算。4)可以减少过拟合:由于CA注意力机制可以使得网络更关注重要的信息,减少不同通道之间的干扰,因此可以减少过拟合问题,提高模型的泛化能力。
2.本发明在颈部网络卷积层的改进,即将YOLOv5颈部网络中的卷积层(Conv)都替换为GS卷积层(GSConv),具有平移不变性和跨尺度特征提取能力。GS卷积层(GSConv)是一种基于传统卷积运算的改进结构,相较于传统的卷积操作,GS卷积层(GSConv)具有如下优点:1)具有平移不变性:GS卷积层(GSConv)在局部卷积的基础上,引入了可学习的全局偏移值,使得卷积后得到的特征图在位置上具有平移不变性。与传统卷积层(Conv)相比,GS卷积层(GSConv)够显著提高模型在目标检测、图像分割等任务中的鲁棒性和泛化能力。2)能够提升特征提取能力:传统卷积层(Conv)针对不同的感受野提取特征,但是这种感受野的大小和形状是固定的,很难兼顾多尺度的物体信息。而GS卷积层(GSConv)在每个卷积核的感受野加入了全局偏移值,通过偏移操作提取特征,使得每个卷积核都能够兼顾多尺度的信息,从而能够显著提高特征提取的能力。3)可以替代部分池化操作:传统的下采样操作会破坏特征图的空间信息,导致特征图的分辨率下降,从而可能会降低模型的性能。GS卷积层(GSConv)引入的全局偏移值相当于对特征图进行了平移操作,能够部分替代池化操作,从而保持特征图的高分辨率,提高模型的特征提取能力。4)能够增强图像语义信息:GS卷积层(GSConv)在每个卷积核的感受野内引入可学习的全局偏移值,相当于每个像素点进行了平移操作,使得每个卷积核的感受野内像素值都包含了全局位置信息,从而能够更加有效地捕捉到图像的语义信息,提高模型的识别精度。
3.本发明在头部网络中,使用解耦头替换原来YOLOv5自带的YOLOv3头。解耦头通过将分类任务和回归任务分别交于不同的子头部,提高了网络的表达能力以及特征有效性,从而提高了检测准确度,它是一种对于目标检测任务的有益补充,能够有效提高GIS红外目标检测的准确性。
附图说明
图1为基于改进YOLOv5的GIS红外特征识别系统示意图。
图2是基于改进YOLOv5的GIS红外目标检测网络模型结构示意图。
图3是CSP模块结构示意图。
图4是融合CA注意力机制的CSP模块结构示意图。
图5是GSCSP模块结构示意图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,本实施例的一种基于改进YOLOv5的GIS红外特征识别系统,包括GIS红外图像采集模块和GIS红外特征识别模块,GIS红外图像采集模块采集GIS设备部件红外图像,GIS红外特征识别模块内置基于改进YOLOv5的GIS红外目标检测网络模型,基于改进YOLOv5的GIS红外目标检测网络模型用于GIS设备部件识别。
如图2所示,基于改进YOLOv5的GIS红外目标检测网络模型包括主干网络、颈部网络、头部网络三部分;主干网络依次由调焦模块(Focus)、第一CBL模块、CSP模块、第二CBL模块、第一融合CA注意力机制的CSP模块、第三CBL模块、第二融合CA注意力机制的CSP模块、第四CBL模块、SPP模块,各模块之间依次为输入输出的关系。颈部网络包括四个GSCBL模块(分别为第一~第四GSCBL模块)和五个GSCSP模块(分别为第一~第五GSCSP模块),主干网络中SPP模块输出的特征依次经第一GSCSP模块、第一GSCBL模块处理;第一GSCBL模块输出的特征经上采样后与第二融合CA注意力机制的CSP模块输出的特征进行特征融合,然后依次经第二GSCSP模块、第二GSCBL模块处理,第二GSCBL模块输出的特征经上采样后与第一融合CA注意力机制的CSP模块输出的特征进行特征融合,然后经第三GSCSP模块处理,得到第一融合特征图;第一融合特征图经第三GSCBL模块处理后与第二GSCBL模块输出的特征进行特征融合,然后经第四GSCSP模块处理,得到第二融合特征图;第二融合特征图经第四GSCBL模块处理后与第一GSCBL模块输出的特征进行特征融合,然后经第五GSCSP模块处理,得到第三融合特征图;头部网络包括三个解耦头,第一融合特征图、第二融合特征图、第三融合特征图分别输入各自对应的解耦头处理,得到九幅特征图输出。
在头部网络中将YOLOv5自带的YOLOv3头替换成解耦头。解耦头是指在图像处理任务中,将神经网络的特征提取部分和分类器部分进行解耦,使得这两个部分可以独立地进行训练和优化。其最终目的是提高模型的泛化能力和可解释性,同时减少训练和推理的计算量。对于传统的神经网络分类器,通常是直接连接在特征提取器上,两者共同进行端到端的训练和优化,这种方法容易出现梯度消失或梯度爆炸的问题,同时也限制了模型的动态灵活性和可解释性。而解耦头则将这两个部分进行分离,每个部分都可以独立训练,从而提高学习效率和精度。通过使用解耦头技术,可以构建一种具有更高精度和泛化能力的网络模型,提供更好的性能和可解释性。本实施例在颈部网络中,使用解耦头替换掉YOLOv5自带的YOLOv3头。
每个解耦头均包括三层,第一层为一个CBL模块,第二层为两个CBL模块,第三层为三个卷积层(Conv),第一层主要用于降低通道维数;第一层的输出分别进入第二层的两个CBL模块,第二层中的一个CBL模块的输出进入第三层的一个卷积层(带Sigmoid激活函数)中,其输出特征图代表分类任务的结果;第二层中的另一个CBL模块的输出进入第三层的另外两个卷积层(其中一个带Sigmoid激活函数,另一个不带Sigmoid激活函数)中,其输出特征图代表回归任务的结果。
CBL模块依次由卷积层(Conv)、批归一化层(BN)和Leaky Relu激活函数组成。
GSCBL模块依次由GS卷积层(GSConv)、批归一化层(BN)和Leaky Relu激活函数组成。
YOLOv5采用了一种新的特征提取和聚合方法,即使用CSPDarknet作为骨干网络,并在其后面添加了许多卷积层和特征金字塔池化模块,以获取更高级别的特征。此外,在各阶段都使用了多种类型和大小的卷积核,以获得更好的识别能力。在YOLOv5的训练过程中,通过K-means聚类算法,将训练集中所有的标注框聚类成几类,选择一些关键点作为锚点,生成检测边界框。然后,在每个检测层上,根据锚点,通过对特征图进行变换,生成一定数量的默认边界框。这些边界框的数量和大小取决于特征图上的尺度和长宽比。同时为了检测更小的物体,YOLOv5使用了上采样技术将低分辨率的特征图转换为高分辨率的特征图。并通过反卷积、双线性插值或最邻近插值等方式,提高特征图的分辨率。此外,通过与上一层特征图的跨层连接,增加了特征信息的融合,进一步提高检测的精度。对于每个锚框,YOLOv5都会利用NMS非极大值抑制的方法筛选出最优检测框,计算检测框与实际边界框的IOU值,将IOU值高于一定阈值的锚框对应的检测框视为识别到了目标物体。对于每个检测框,YOLOv5还会对其类别概率和位置信息经过一定的调整和修正,最后将检测框转换为检测结果。在完成所有目标检测后,将多层的检测结果合并得到的全部检测结果,通过筛选,去掉IOU值较低的检测框和类别得分较低的检测框,最终输出检测结果。本发明针对现场GIS设备红外图片数量有限,且边缘智能终端算力有限的问题,基于YOLOv5进行改进:1)在主干网络(CSPDarknet)中,引入注意力模块与CSP模块相结合,构建了融合CA注意力机制的CSP模块;2)在颈部网络中,使用GS卷积层(GSConv)替换掉传统的卷积层(Conv);3)在头部网络中,使用解耦头替换掉YOLOv5自带的YOLOv3头。
如图3所示,CSP模块包括两条输入分支,其中一条输入分支为卷积层(Conv),另一条输入分支依次包括CBL模块、X个残差部件(X为残差部件的数量)、卷积层;两个输入分支的特征融合后经批归一化层(BN)、Leaky Relu激活函数、CBL模块处理后输出。
在主干网络的CSP模块中融合CA注意力模块。CA注意力机制通过全局平均池化、全局最大池化、两层全连接网络、通道加权和通道缩放等操作,实现对输入特征图的通道注意力加权,从而提高深度神经网络的表征能力。本实施例将CA注意力机制与CSPDarknet中的CSP模块相结合,融合CA注意力机制的CSP模块可减少过拟合问题,提高模型的泛化能力。
如图4所示,融合CA注意力机制的CSP模块的输入分为两条输入分支,一条输入分支包括CBL模块、X个残差部件(X为残差部件的数量)、CA注意力模块、卷积层(Conv)。由于此处的残差部件中不是直接将输入传递到输出,而是在处理过程中增加了一个跨层的连接,将输入的特征图直接与输出特征图进行相加操作。同时,这条输入分支的输入是来自主干网络的输出,即重要的特征输出,在残差部件后的CA注意力模块可以使模型更加关注图像中重要的区域,从而提高特征的区分度。通过加强重要区域的特征,CA注意力模块可以使模型更加容易地区分不同类别的目标,从而提高目标检测和分类的准确率。最后,再通过卷积层(Conv)实现特征降维和扩展。
融合CA注意力机制的CSP模块的另一条输入分支为卷积层(Conv);然后两条输入分支得到的特征融合后,再经过CA注意力模块、批归一化层(BN)、Leaky Relu激活函数、CBL模块然后得到输出结果。其中,CA注意力模块通过对融合后的输入特征图的通道进行压缩和重组,减少模型中的参数量和计算量,并且保证再经批归一化层(BN)、Leaky Relu激活函数、CBL模块得到的输出结果的准确率的情况下实现模型的加速和轻量化。
在颈部网络中用GS卷积层(GSConv)替换掉卷积层(Conv)。GS卷积层(GSConv)是一个新颖的卷积神经网络结构,基于常规的卷积计算,通过引入可学习的偏移量实现局部特征的平移操作。传统的卷积计算是在感受野内对位置固定的局部特征进行滑动卷积,而GS卷积层(GSConv)则是在局部卷积的基础上,通过引入全局偏移值来实现特征的平移。在该方法中,每个卷积核都有一个全局偏移量,该偏移量是一个可学习的参数,用来控制特征的位置平移。因此,该方法可以实现卷积操作输出的特征图在位置上的平移不变性,提高网络的鲁棒性和泛化能力,适用于物体检测、图像分割等多种场景。同时,由于全局偏移量的变化,每个卷积核的感受野都会随之移动一定距离,从而增强了卷积核的感受野特征提取能力,提升了模型在不同尺度下的特征提取能力。本实施例在颈部网络中,使用GS卷积层(GSConv)替换掉传统的卷积层(Conv),具有平移不变性和跨尺度特征提取能力。
GS卷积层(GSConv)的输入分为两条输入分支,一条输入分支包括卷积层(Conv)、DW卷积层(DWConv),其中DW卷积层(DWConv)是由一个两部分卷积组成的一个网络,第一部分是深度卷积(Depthwise Conv),是分通道的一个卷积,即每个卷积核对应输入的每一个通道。第二部分是逐点卷积(Pointwise Conv),它将第一部分各自独立的特征图进行组合生成了新的特征图,它是一个卷积核大小(kernel_size)为1,通道数为输入通道数的一个卷积。总之,DW卷积层(DWConv)主要用于减少参数和浮点运算数(FLOPs)的数量,从而实现GS卷积层(GSConv)轻量级的设计,有效缓解高计算成本;
GS卷积层的另一条输入分支为卷积层(Conv);然后两条输入分支得到的特征融合后,再经过通道重组(shuffle)得到输出结果。其中,通道重组(shuffle)的步骤如下:1)将输入的特征图沿通道数的方向分为两个部分,其中一部分需要进行通道重组操作,另一部分则不需要。2)将需要进行通道重组的部分按照一定的规则划分成若干个组,每个组包含一定数量的通道。3)将每个组内的通道进行通道内的交错重排,即将每个通道分为两个部分,一部分来自前一半的通道,另一部分来自后一半的通道,并将它们交替排列。4)将各个组内的通道按一定规则组合起来,得到最终的输出特征图。
如图5所示,GSCSP模块包括两条输入分支,其中一条输入分支为GS卷积层(GSConv),另一条输入分支依次包括GSCBL模块、偶数个GSCBL模块(2*X个)、GS卷积层;两个输入分支的特征融合后经批归一化层(BN)、Leaky Relu激活函数、GSCBL模块处理后输出。
本实施例提供一种基于改进YOLOv5的GIS红外特征识别方法,通过GIS设备部件红外图像数据集训练基于改进YOLOv5的GIS红外目标检测网络模型,用训练好的基于改进YOLOv5的GIS红外目标检测网络模型进行GIS红外目标检测。
本实施例中,GIS设备部件红外图像数据集的构建方式为:利用手持式红外热像仪获取GIS设备部件红外图像,并利用标注工具Labelimg完成标记;由于GIS设备部件红外图像数量有限,需要对GIS设备部件红外图像进行预处理,即利用缩放、平移、旋转、填充等数据增强手段和Mosaic数据增强方法对GIS设备部件红外图像进行数据增强,得到GIS设备部件红外图像数据集,按照8:2的比例将GIS设备部件红外图像数据集划分为训练集和测试集;训练集用于训练基于改进YOLOv5的GIS红外目标检测网络模型,测试集用于评估基于改进YOLOv5的GIS红外目标检测网络模型的性能。
训练时,训练集输入基于改进YOLOv5的GIS红外目标检测网络模型的主干网络中,提取训练集的特征;所提取的特征,在颈部网络中得到训练集的特征图。在头部网络中进行预测,通过计算损失函数来确定模型参数的更新方向,因为损失函数的作用为度量神经网络预测信息与期望信息的距离,预测信息越接近期望信息,损失函数值越小。
用基于改进YOLOv5的GIS红外目标检测网络模型检测测试集,并用平均精度、每秒帧率等指标评估。
用平均精度(mAP)指标评估基于改进YOLOv5的GIS红外目标检测网络模型的检测精度。mAP是目标检测领域中一种常用的指标,用于评估模型的准确性和效率,既考虑了模型的精度,也考虑了模型在不同类别和不同IOU阈值下的检测效果。首先准备测试集数据,将基于改进YOLOv5的GIS红外目标检测网络模型与测试集数据进行相应的匹配,将基于改进YOLOv5的GIS红外目标检测网络模型对测试集中每个目标的检测结果与标注结果进行对比。然后计算每个类别的AP值(精度),计算每个类别在不同IoU阈值(通常为0.5、0.75等)下的平均精度,作为该类别的AP值。最后计算mAP,将每个类别的AP加权平均计算总体mAP。
用每秒帧率(FPS)指标评估基于改进YOLOv5的GIS红外目标检测网络模型的检测速度。FPS主要用来评估目标检测的速度,即每秒内可以处理的图片数量。在图像处理领域中,FPS是衡量图像处理速度和性能的重要指标。
当检测精度或速度小于设定值时,更新模型参数继续训练;当检测精度或速度等于或大于设定值时,保留模型参数用于GIS红外目标检测。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。
Claims (6)
1.一种基于改进YOLOv5的GIS红外特征识别系统,其特征在于,包括GIS红外图像采集模块和GIS红外特征识别模块,GIS红外图像采集模块采集GIS设备部件红外图像,GIS红外特征识别模块内置基于改进YOLOv5的GIS红外目标检测网络模型,基于改进YOLOv5的GIS红外目标检测网络模型用于GIS设备部件识别;所述基于改进YOLOv5的GIS红外目标检测网络模型包括主干网络、颈部网络、头部网络三部分;主干网络依次由调焦模块、第一CBL模块、CSP模块、第二CBL模块、第一融合CA注意力机制的CSP模块、第三CBL模块、第二融合CA注意力机制的CSP模块、第四CBL模块、SPP模块,各模块之间依次为输入输出的关系;颈部网络包括四个GSCBL模块和五个GSCSP模块,主干网络中SPP模块输出的特征依次经第一GSCSP模块、第一GSCBL模块处理;第一GSCBL模块输出的特征经上采样后与第二融合CA注意力机制的CSP模块输出的特征进行特征融合,然后依次经第二GSCSP模块、第二GSCBL模块处理,第二GSCBL模块输出的特征经上采样后与第一融合CA注意力机制的CSP模块输出的特征进行特征融合,然后经第三GSCSP模块处理,得到第一融合特征图;第一融合特征图经第三GSCBL模块处理后与第二GSCBL模块输出的特征进行特征融合,然后经第四GSCSP模块处理,得到第二融合特征图;第二融合特征图经第四GSCBL模块处理后与第一GSCBL模块输出的特征进行特征融合,然后经第五GSCSP模块处理,得到第三融合特征图;头部网络包括三个解耦头,第一融合特征图、第二融合特征图、第三融合特征图分别输入各自对应的解耦头处理,得到九幅特征图输出;CBL模块依次由卷积层、批归一化层和Leaky Relu激活函数组成;GSCBL模块依次由GS卷积层、批归一化层和Leaky Relu激活函数组成;融合CA注意力机制的CSP模块的输入分为两条输入分支,一条输入分支包括CBL模块、若干个残差部件、CA注意力模块、卷积层;另一条输入分支为卷积层;然后两条输入分支得到的特征融合后,再经过CA注意力模块、批归一化层、Leaky Relu激活函数、CBL模块然后得到输出结果;GSCSP模块包括两条输入分支,其中一条输入分支为GS卷积层,另一条输入分支依次包括GSCBL模块、偶数个GSCBL模块、GS卷积层;两个输入分支的特征融合后经批归一化层、Leaky Relu激活函数、GSCBL模块处理后输出。
2.根据权利要求1所述的基于改进YOLOv5的GIS红外特征识别系统,其特征在于,每个解耦头均包括三层,第一层为一个CBL模块,第二层为两个CBL模块,第三层为三个卷积层,第一层主要用于降低通道维数;第一层的输出分别进入第二层的两个CBL模块,第二层中的一个CBL模块的输出进入第三层的一个卷积层中;第二层中的另一个CBL模块的输出进入第三层的另外两个卷积层中。
3.根据权利要求1所述的基于改进YOLOv5的GIS红外特征识别系统,其特征在于,CSP模块包括两条输入分支,其中一条输入分支为卷积层,另一条输入分支依次包括CBL模块、若干个残差部件、卷积层;两个输入分支的特征融合后经批归一化层、Leaky Relu激活函数、CBL模块处理后输出。
4.一种基于改进YOLOv5的GIS红外特征识别方法,其特征在于,通过GIS设备部件红外图像数据集训练基于改进YOLOv5的GIS红外目标检测网络模型,用训练好的基于改进YOLOv5的GIS红外目标检测网络模型进行GIS红外目标检测;所述基于改进YOLOv5的GIS红外目标检测网络模型包括主干网络、颈部网络、头部网络三部分;主干网络依次由调焦模块、第一CBL模块、CSP模块、第二CBL模块、第一融合CA注意力机制的CSP模块、第三CBL模块、第二融合CA注意力机制的CSP模块、第四CBL模块、SPP模块,各模块之间依次为输入输出的关系;颈部网络包括四个GSCBL模块和五个GSCSP模块,主干网络中SPP模块输出的特征依次经第一GSCSP模块、第一GSCBL模块处理;第一GSCBL模块输出的特征经上采样后与第二融合CA注意力机制的CSP模块输出的特征进行特征融合,然后依次经第二GSCSP模块、第二GSCBL模块处理,第二GSCBL模块输出的特征经上采样后与第一融合CA注意力机制的CSP模块输出的特征进行特征融合,然后经第三GSCSP模块处理,得到第一融合特征图;第一融合特征图经第三GSCBL模块处理后与第二GSCBL模块输出的特征进行特征融合,然后经第四GSCSP模块处理,得到第二融合特征图;第二融合特征图经第四GSCBL模块处理后与第一GSCBL模块输出的特征进行特征融合,然后经第五GSCSP模块处理,得到第三融合特征图;头部网络包括三个解耦头,第一融合特征图、第二融合特征图、第三融合特征图分别输入各自对应的解耦头处理,得到九幅特征图输出;CBL模块依次由卷积层、批归一化层和Leaky Relu激活函数组成;GSCBL模块依次由GS卷积层、批归一化层和Leaky Relu激活函数组成;融合CA注意力机制的CSP模块的输入分为两条输入分支,一条输入分支包括CBL模块、若干个残差部件、CA注意力模块、卷积层;另一条输入分支为卷积层;然后两条输入分支得到的特征融合后,再经过CA注意力模块、批归一化层、Leaky Relu激活函数、CBL模块然后得到输出结果;GSCSP模块包括两条输入分支,其中一条输入分支为GS卷积层,另一条输入分支依次包括GSCBL模块、偶数个GSCBL模块、GS卷积层;两个输入分支的特征融合后经批归一化层、LeakyRelu激活函数、GSCBL模块处理后输出。
5.根据权利要求4所述的基于改进YOLOv5的GIS红外特征识别方法,其特征在于,GIS设备部件红外图像数据集的构建方式为:获取GIS设备部件红外图像,并利用标注工具Labelimg完成标记并进行数据增强,得到GIS设备部件红外图像数据集,将GIS设备部件红外图像数据集划分为训练集和测试集;训练集用于训练基于改进YOLOv5的GIS红外目标检测网络模型,测试集用于评估基于改进YOLOv5的GIS红外目标检测网络模型的性能。
6.根据权利要求5所述的基于改进YOLOv5的GIS红外特征识别方法,其特征在于,训练时,训练集输入基于改进YOLOv5的GIS红外目标检测网络模型的主干网络中,提取训练集的特征;所提取的特征,在颈部网络中得到训练集的特征图;在头部网络中进行预测,通过计算损失函数来确定模型参数的更新方向;用基于改进YOLOv5的GIS红外目标检测网络模型检测测试集,并用平均精度指标和每秒帧率指标评估,不符合评估要求时,更新模型参数继续训练;当符合评估要求时,保留模型参数用于GIS红外目标检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612697.7A CN116342894B (zh) | 2023-05-29 | 2023-05-29 | 基于改进YOLOv5的GIS红外特征识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310612697.7A CN116342894B (zh) | 2023-05-29 | 2023-05-29 | 基于改进YOLOv5的GIS红外特征识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116342894A CN116342894A (zh) | 2023-06-27 |
CN116342894B true CN116342894B (zh) | 2023-08-08 |
Family
ID=86889805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310612697.7A Active CN116342894B (zh) | 2023-05-29 | 2023-05-29 | 基于改进YOLOv5的GIS红外特征识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342894B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197787A (zh) * | 2023-08-09 | 2023-12-08 | 海南大学 | 基于改进YOLOv5的智能安检方法、装置、设备及介质 |
CN117893894B (zh) * | 2024-03-15 | 2024-06-11 | 吉林大学 | 一种基于红外偏振图像的水下目标轻量化检测方法及装置 |
CN117975040B (zh) * | 2024-03-28 | 2024-06-18 | 南昌工程学院 | 基于改进YOLOv5的GIS红外图像识别系统与方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115331183A (zh) * | 2022-08-25 | 2022-11-11 | 江苏大学 | 改进YOLOv5s的红外目标检测方法 |
CN115457509A (zh) * | 2022-09-19 | 2022-12-09 | 北京吉利学院 | 基于改进时空图卷积的交通标志图像分割算法 |
US11631238B1 (en) * | 2022-04-13 | 2023-04-18 | Iangxi Electric Power Research Institute Of State Grid | Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion |
CN116071701A (zh) * | 2023-01-13 | 2023-05-05 | 昆明理工大学 | 基于注意力机制和GSConv的YOLOv5行人检测方法 |
WO2023087525A1 (zh) * | 2021-11-19 | 2023-05-25 | 中国华能集团清洁能源技术研究院有限公司 | 多模态深度学习的发电设备异常一体化识别方法及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380921A (zh) * | 2020-10-23 | 2021-02-19 | 西安科锐盛创新科技有限公司 | 一种基于车联网的道路检测方法 |
CN114694002A (zh) * | 2022-03-11 | 2022-07-01 | 中国电子科技集团公司第五十四研究所 | 一种基于特征融合与注意力机制的红外目标检测方法 |
CN115457428A (zh) * | 2022-08-16 | 2022-12-09 | 应急管理部沈阳消防研究所 | 融入可调节坐标残差注意力的改进YOLOv5火灾检测方法及装置 |
-
2023
- 2023-05-29 CN CN202310612697.7A patent/CN116342894B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023087525A1 (zh) * | 2021-11-19 | 2023-05-25 | 中国华能集团清洁能源技术研究院有限公司 | 多模态深度学习的发电设备异常一体化识别方法及设备 |
US11631238B1 (en) * | 2022-04-13 | 2023-04-18 | Iangxi Electric Power Research Institute Of State Grid | Method for recognizing distribution network equipment based on raspberry pi multi-scale feature fusion |
CN115331183A (zh) * | 2022-08-25 | 2022-11-11 | 江苏大学 | 改进YOLOv5s的红外目标检测方法 |
CN115457509A (zh) * | 2022-09-19 | 2022-12-09 | 北京吉利学院 | 基于改进时空图卷积的交通标志图像分割算法 |
CN116071701A (zh) * | 2023-01-13 | 2023-05-05 | 昆明理工大学 | 基于注意力机制和GSConv的YOLOv5行人检测方法 |
Non-Patent Citations (1)
Title |
---|
杨晋生 ; 杨雁南 ; 李天骄 ; .基于深度可分离卷积的交通标志识别算法.液晶与显示.2019,(第12期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116342894A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380952B (zh) | 基于人工智能的电力设备红外图像实时检测及识别方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110321923B (zh) | 不同尺度感受野特征层融合的目标检测方法、系统及介质 | |
CN116342894B (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN112365462B (zh) | 一种基于图像的变化检测方法 | |
CN114187311A (zh) | 一种图像语义分割方法、装置、设备及存储介质 | |
CN112149620A (zh) | 基于无锚点的自然场景文字区域检测模型的构建方法 | |
CN113052185A (zh) | 一种基于Faster R-CNN的小样本目标检测方法 | |
CN114841972A (zh) | 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法 | |
CN114913498A (zh) | 一种基于关键点估计的并行多尺度特征聚合车道线检测方法 | |
CN115187786A (zh) | 一种基于旋转的CenterNet2目标检测方法 | |
CN116630301A (zh) | 基于超分辨率和YOLOv8的带钢表面小目标缺陷检测方法及系统 | |
CN116912796A (zh) | 一种基于新型动态级联YOLOv8的自动驾驶目标识别方法及装置 | |
CN116597411A (zh) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 | |
CN117372898A (zh) | 一种基于改进yolov8的无人机航拍图像目标检测方法 | |
CN117152601A (zh) | 一种基于动态感知区域路由的水下目标检测方法及系统 | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN116580289A (zh) | 一种基于注意力的细粒度图像识别方法 | |
CN115761667A (zh) | 一种基于改进fcos算法的无人车辆搭载摄像头目标检测方法 | |
CN116309270A (zh) | 一种基于双目图像的输电线路典型缺陷识别方法 | |
CN115797684A (zh) | 一种基于上下文信息的红外小目标检测方法及系统 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
CN115439926A (zh) | 一种基于关键区域和场景深度的小样本异常行为识别方法 | |
CN114913504A (zh) | 一种融合自注意力机制的遥感图像的车辆目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |