CN118351291A - 基于改进YOLOv5s的现场审计设备智能识别方法 - Google Patents
基于改进YOLOv5s的现场审计设备智能识别方法 Download PDFInfo
- Publication number
- CN118351291A CN118351291A CN202410489213.9A CN202410489213A CN118351291A CN 118351291 A CN118351291 A CN 118351291A CN 202410489213 A CN202410489213 A CN 202410489213A CN 118351291 A CN118351291 A CN 118351291A
- Authority
- CN
- China
- Prior art keywords
- power equipment
- image
- detection
- yolov
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012550 audit Methods 0.000 title claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 98
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 230000006872 improvement Effects 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 2
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000012216 screening Methods 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 24
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 4
- 239000010959 steel Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 239000012212 insulator Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 239000004568 cement Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了基于改进YOLOv5s的现场审计设备智能识别方法,采用SSR增强算法对采集的低质量电力设备图像进行增强处理,搭建改进后的YOLOv5s目标检测模型,颈部网络采用多维动态卷积ODConv将由主干网络提取的不同尺度电力设备特征图进行融合,检测端采用优化的损失函数计算边界框损失值来优化预测边界框的位置并输出电力设备的类别和位置信息,最后用改进后YOLOv5s目标检测模型对电力设备检测图像进行分类检测,以判断待分类电力设备。本发明增强目标特征,锚框更符合电力设备,多维动态卷积提升对目标的识别敏感度,使模型能更好地适应不同的设备和场景,提高目标检测精度。
Description
技术领域
本发明涉及电力设备检测领域,具体涉及基于改进YOLOv5s的现场审计设备智能识别方法。
背景技术
随着新型电力系统和电能替代建设进程的推进,国家电网工程建设规模不断扩大,电网工程项目具有总体投资大、工程数量多,现场核查工作繁杂等特点。目前国家电网公司为充分践行“科技强审”理念,积极探索数字赋能审计监督的新方式,以实现审计的全流程数字化与智能化。然而,当前现场取证、设备核实工作高度依赖人工识别,缺乏数字化手段与智能化工具支撑,难以实现审计全过程数智化管理。
为了提升电力设备检测的精确性和效率,许多研究学者引入图像技术来辅助电力设备的检测识别。如陈龙提出一种改进SIFT(Scale invariant feature transform,SIFT)算法的图像配准算法,引入双相匹配的思想解决了在设备配准过程中错误匹配的问题,提高了电力设备匹配的精准度。Wu等提出了一种用于目标图像快速识别的二次模板匹配算法,实现了对电力设备的识别,与其他常用的模板匹配算法相比,该匹配算法不仅能够准确定位和识别电力设备,而且匹配速度也有了一定的提高。然而,上述方法在处理设备时需人为设计和提取目标特征,且同一模型无法同时检测不同类型的电力设备,存在一定的主观性和局限性。基于深度学习的技术为解决上述问题提供了一种新的思路。基于深度学习技术可以自动从图像中提取特征,避免了人工提取特征带来的主观性问题,已经在很多方面超越了依赖人工提取特征的方法。如汤踊等针对传统检测算法检测精度较低的问题,提出将Faster R-CNN(Faster Region-Based Convolutional Neural Network,Faster R-CNN)应用于输电线路部件的检测中,实现了对输电线路中部件的识别与分类,但该算法算力要求高。范海兵等[4]使用YOLOv3(You Only Look Once version 3,YOLOv3)和Faster R-CNN这两种深度学习模型对电力设备锈蚀进行检测,结果表明,YOLOv3在保证检测精度时,具有更快的检测速度,更适于电力行业领域。YaoLYaoL等[5]基于改进YOLOv3对绝缘子设备进行识别,用GIoU(Generalized Intersection over Union,GIoU)代替YOLOv3算法中的IoU(Intersection over Union,IoU)评价方法进行训练,提升了绝缘子定位的准确性,但YOLOv3是基于Darknet框架设计的,这样较大的检测网络在实际部署中会占用较多的计算资源和内存,这会限制模型的使用范围和应用场景。方明等[6]将YOLOv4(You Only LookOnce version 4,YOLOv4)算法模型用于电力杆塔的检测中,实现了对电力杆塔的自动检测,对比YOLOv3,YOLOv4在准确率和速度都有所提高,但YOLOv4模型权重文件仍过大。徐文静等[7]基于YOLOv5s网络模型,对绝缘子图像进行标注,取得了较优的检测结果,但当目标处于复杂天气下时检测精度受限,适应性有待进一步提高。需人为设计和提取目标特征,且同一模型无法同时检测不同类型的电力设备,存在一定的主观性和局限性。上述基于深度学习的技术的主要缺点:一是高算力需求,一些算法如Faster R-CNN和YOLOv4的权重文件较大,对计算资源的需求较高。二是适应性问题,在复杂环境下,如复杂天气条件,YOLOv5模型的检测精度受限,需要进一步提高其适应性。三是资源占用,YOLOv3大型检测网络在实际部署时会占用较多的计算资源和内存,这限制了模型在资源受限环境下的应用。总的来说,尽管现有的技术在电力设备检测方面取得了进步,但仍需解决高算力要求、适应性和定位准确性等问题,以便更好地适应电力行业的实际需求和应用场景。
发明内容
本发明目的是提供一种基于改进YOLOv5s的现场审计设备智能识别方法,不仅,而且。
本发明为实现上述目的,通过以下技术方案实现:
基于改进YOLOv5s的现场审计设备智能识别方法,包括步骤:
制作电力设备数据集,并对样本的数据内容进行标注;
采用SSR增强算法对采集的低质量电力设备图像进行增强处理;
搭建改进后的YOLOv5s目标检测模型,输入端对增强后的电力设备图像预处理,主干网络对输入的电力设备图像进行特征提取,颈部网络采用多维动态卷积ODConv将由主干网络提取的不同尺度电力设备特征图进行融合,检测端采用损失函数计算边界框损失值来优化预测边界框的位置并输出电力设备的类别和位置信息;
训练改进后的YOLOv5s目标检测模型;
采用改进后YOLOv5s目标检测模型对电力设备检测图像进行分类检测,以判断待分类电力设备。
进一步的,YOLOv5s目标检测模型具体包括:
输入端:通过Mosaic数据增强、自适应锚框计算、自适应图片缩放对输入的电力设备图像进行预处理;
主干网络:由Focus、CBL、CSP和空间金字塔池化结构组成,其中Focus结构实现图像切片操作,CBL为标准卷积结构,对上一层的特征图进行卷积、批量归一化、激活函数操作,CSP结构加深网络深度,有CSP1_X和CSP2_X两种,CSP1_X结构由卷积层、CBL和X个ResUnit的残差模块Concate组成,应用于主干网络,CSP2_X结构由卷积层和2X个CBL组成,应用颈部网络;SPP结构对特征图进行空间金字塔化处理,将不同尺寸特征图转换为固定大小的特征图输出;
颈部网络:通过特征金字塔和路径聚合网络相结合的方式将浅层特征和深层特征进行融合,并把输出的3个不同尺度特征图传入检测端;
检测端:将颈部网络输出的3种不同尺度特征图通过3个Detect检测头进行处理,生成3个大小不同的边界框,采用损失函数计算边界框损失值来优化预测边界框的位置,并利用非极大值抑制方法进行预测框筛选,保留最优目标框,实现电力设备目标预测。
进一步的,输入端通过k-means++算法进行初始锚框聚类,步骤包括:
读取边界框,随机选取一个边界框作为初始聚类中心;
按照轮盘法选择新的聚类中心,直到选出k个聚类中心;
计算每个边界框与当前聚类中心的距离,并将其分配给最近的聚类中心所在类;
重复上一步,直至聚类中心不再变化。
进一步的,每个边界框与当前聚类中心距离采用Dloss距离,其计算公式为:
其中,Rboxi代表第i个真实的边界框面积,Clusterj代表第j个聚类中心的面积,m代表真实边界框总数,k代表聚类中心总数;
对聚类后的锚框进行线性尺度的缩放,计算公式如下所示:
其中(pi,qi)为经过缩放后的第i个锚框的宽度值和高度值,φ、代表缩放因子,将(pi,qi)等比例线性变换为(wi,vi),pmin为经过缩放后的新的最小宽度值,pmax为经过缩放后的新的最大宽度值,wmin为聚类后锚框宽度的最小值,wmax为聚类后锚框宽度的最大值,vi是与wi相对应的高度值和宽度值,i、j取值为正整数。
进一步的,多维动态卷积ODConv从四个维度对卷积核加权,采用如下公式:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+···+
αwi′⊙αfi′⊙αci′⊙αsi′⊙Wi′)*x
其中y代表输出特征图,x代表输入特征图,Wi′代表第i′个卷积核,αwi′为第i′个卷积核的注意力标量,αsi′、αci′和αfi′分别表示沿空间、输入通道和输出通道的注意力标量,⊙代表沿核空间不同维度的乘法运算,i'=1,2,3,···,n,n为卷积核的总数。
进一步的,损失函数为EIoULoss损失函数。
进一步的,人工实地多角度、多距离拍摄自然场景下的电力设备图像,从网络上收集不同场景下的电力设备图片,共同制作电力设备数据集,并采用平移、旋转、缩放的处理手段对采集到的图片进行增广,对数据内容进行标注,建立训练集、验证集和测试集。
进一步的,电力设备图像进行增强处理是从原图像中减去低频部分,得到高频增强图像,SSR算法的公式为:
R(x,y)=logI(x,y)-logD(x,y)
其中,R(x,y)代表增强后的图像,I(x,y)代表原图像,D(x,y)代表低通滤波后的图像,由F(x,y)环绕函数和I(x,y)原图进行卷积运算获得,D(x,y)计算表达式如下所示:
其中F(x,y)函数用的是低通函数,在算法中用于估计出入射图像对应原图像的低频部分。
本发明的优点在于:针对复杂天气条件下图像中电力设备局部细节清晰度较低,难以完成电力设备的准确识别的问题,本发明采用SSR增强算法对采集的低质量图像进行增强处理,实验结果证明本发明方法恢复了图像中电力设备色彩,增强了图像中电力设备细节信息,提升了图像亮度和对比度,提高了检测精度。
为实现YOLOv5s网络模型满足工业级应用标准,在原有模型基础上进行优化,本发明分析电力设备初始锚框机制,将YOLOv5s初始锚框聚类算法改为k-means++算法,使获得锚框更适用于电力设备识别,提高了检测精度,在特征提取阶段,本发明采用多维动态卷积替换YOLOv5s模型Neck中的常规卷积,从四个维度对卷积核加权,增强网络特征提取能力,获取了更全面的目标特征信息,使模型能更好地适应不同的设备和场景,提升了识别精度,同时为减少目标检测出现漏检和错检的问题,本发明修改YOLOv5s中的损失函数为EIOULoss,进一步地提高检测电力设备的精度。
附图说明
图1为本发明基于改进YOLOv5s的现场审计设备智能识别方法流程图;
图2为本发明电力设备图像SSR增强前后对比图;
图3为本发明改进YOLOv5s模型结构示意图;
图4为本发明改进YOLOv5s模型中使用的ODConv模块结构示意图;
图5本发明YOLOv5s模型检测结果SSR增强前后对比图;
图6为传统YOLOv3模型对电力设备检测图像分类检测结果示意图;
图7为原YOLOv5s模型对电力设备检测图像分类检测结果示意图;
图8为本发明改进YOLOv5s模型对电力设备检测图像分类检测结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本实施例提出一种基于改进YOLOv5s的现场审计设备智能识别方法,流程请参照图1。
S1、制作电力设备数据集,并对样本的数据内容进行标注。
S11、采用两种方式对电力设备图像进行采集,第一种是人工实地多角度、多距离拍摄自然场景下的电力设备图像,第二种是从网络上收集不同场景下的电力设备图片,通过上述两种方式采集到共1300张图片,共同制作电力设备数据集;
S12、由于收集整理得到的样本有限,为防止电力设备样本出现类别不平衡的问题,提高模型的鲁棒性,增强泛化能力,本实施例采用平移、旋转、缩放等处理手段对采集到的图片进行增广,增广后图片数量为1800张,并进行数据标注,其中水泥杆的标签为“cement”,变压器的标签为“transformer”,角钢塔的标签为“wire_tower”,钢管杆的标签为“steel”;
S13、建立训练集、验证集和测试集用于所述电力设备目标检测网络模型进行训练学习和检测验证,其中训练集、验证集和测试集按照6:3:1比例进行划分。
S2、采用SSR增强算法对采集的低质量电力设备图像进行增强处理。
SSR算法基于Retinex理论,是通过降低入射光对原始图像的影响程度,最大程度的保留图像内在属性,来保持图像清晰度和细节,实现对图像的增强。SSR算法的公式如下:
R(x,y)=logI(x,y)-logD(x,y)
其中,R(x,y)代表增强后的图像,I(x,y)代表原图像,D(x,y)代表低通滤波后的图像,由F(x,y)环绕函数和I(x,y)原图进行卷积运算获得,D(x,y)计算表达式如下所示:
F(x,y)函数用的是低通函数,在算法中用于估计出入射图像对应原图像的低频部分。SSR算法可以从原图像中减去低频部分,得到高频增强图像,较好的增强图像中的细节信息,请参照图2,图2a、图2b、图2c和图2d是电力设备SSR增强前后图,图5a、图5b、图5c和图5d是SSR增强前后YOLOv5s模型检测结果图,SSR增强算法的效果对比如表1,表2所示。
表1图2(a)、(b)与图2(c)、(d)的客观评价指标结果
表2电力设备检测精度对比表
由图2可以看到,图2c、图2d中的设备图像色彩得到恢复,色彩自然,相较于图2a、图2b的亮度、清晰度及雾化程度有了明显的改善和提高,图中电力设备细节突出,增大了与正常天气条件下图像的相似度,因此经SSR算法处理后的电力设备图像可以作为YOLOv5s网络模型训练的数据集。
从表1中的数据可以看出,经过SSR算法增强后的图像评价指标信息熵、边缘强度、平均梯度相比较原图都占绝对优势,表明SSR算法在低照度图像增强方面有很好的效果。
从检测结果图和表2检测精度值可以看出,比起对图5a变压器原图像、图5b钢管杆原图像直接进行YOLOv5s检测,将经过SSR算法处理后的图5c、图5d图像进行YOLOv5s检测,对电力设备的检测精度都有所增加。由此可见,对于复杂天气条件下电力设备的检测,先用SSR算法对图像进行增强处理,然后用YOLOv5s算法进行检测可以提高检测精度。
S3、搭建改进后的YOLOv5s目标检测模型,请参照图3。
该模型主要由输入端(Input)、主干网络(Backbone)、颈部网络(Neck)、检测端(Prediction)4个部分组成。为保证模型计算量的平衡及目标检测速度等情况,在利用目标检测方法进行电力设备检测时,采用YOLOv5s作为研究的基础模型。
S31、输入端:通过Mosaic数据增强、自适应锚框计算、自适应图片缩放等方法对输入的电力设备图像进行预处理,将YOLOv5s初始锚框聚类算法改为k-means++算法,进行重新聚类,获得更符合电力设备的锚框。k-means++算法每次迭代都会产生一个新的聚类中心,通过不断迭代更新聚类中心来寻找全局最优解,在每次迭代中都会考虑多个候选聚类中心的可能性,不是像k-means算法那样随机选出所有聚类中心,因此算法不会停留在局部最优解上,这一定程度避免了电力设备数据集聚类结果陷入局部最优解。再者k-means++算法每次迭代仅考虑一个样本和一个聚类中心的距离,不是像k-means算法那样同时考虑所有样本和它们的类别中心,并且会根据每个类别内样本的分布情况来调整中心位置,随着迭代的进行,它能够逐渐找到更符合实际情况的全局最优解并稳定下来,可以在一定程度上避免聚类结果过于集中。k-means++算法具体过程如下:
S311、首先读取所有边界框,随机选取一个框作为初始聚类中心;
S312、然后按照轮盘法选择出下一个聚类中心,直到选择出k个聚类中心;
S313、接着对于每个边界框计算它与当前聚类中心的距离,并将其分配给离它最近的那个聚类中心所在的类。原k-means++算法使用的是欧式距离,但欧氏距离只考虑了两个框之间的直线距离,而忽略了其他方向上的相似度,可能会导致不准确的聚类结果或过度拟合。因此,为了获取更好的计算效果,本发明在k-means++算法引入了一个新的度量方式Dloss距离,来替换欧式距离,Dloss距离考虑了不同类别中边界框的相对比例,而不是简单地比较它们的绝对距离。Dloss距离其计算公式如下所示:
其中Rboxi代表第i个真实的边界框面积,Clusterj代表第j个聚类中心的面积,m代表真实边界框总数,k代表聚类中心总数,取值为36,YOLOv5s有3个不同尺度的特征检测层,每个特征检测层分配3个先验锚框,本实施例是对自有四类电力设备数据集进行聚类,所以取k=36。同时为了使k-means++聚类后的锚框在多尺度检测网络中具有更好的性能,对聚类后的锚框进行线性尺度的缩放,计算公式如下所示:
其中φ、代表缩放因子,将(pi,qi)等比例线性变换为(wi,vi),pmin为经过缩放后的新的最小宽度值,pmax为经过缩放后的新的最大宽度值,wmin为聚类后锚框宽度的最小值,wmax为聚类后锚框宽度的最大值,vi是与wi相对应的高度值和宽度值,φ取值为0.75,取值为1.25,将原来锚框的宽的最小值变为原先的0.75倍,最大值变为1.25倍,来保证它们具有相同的比例关系。
S314、重复S33这个过程,直到聚类中心不再变化。为了检验YOLOv5s相关改进内容对电力设备的检测效果,在自制数据集上对原YOLOv5s与只改进聚类算法的YOLOv5s进行了验证,并对4种电力设备类别的各评价指标进行分析,同时取平均值作为分析结果,效果对比如表3所示:
表3不同聚类算法下的检测结果对比
由表3对比数据可以看出,只改进聚类算法的YOLOv5s在数据集上进行检测的准确率、召回率和调和均值高于原YOLOv5s,分别上升了2.2%、2.3%和2%,说明初始锚框的优化对于电力设备的检测效果具有一定的提升。
S32、主干网络:对输入的电力设备图像进行特征提取。
Backbone由Focus、CBL(Convolutions with Batch Normalization and LeakyReLU)、CSP(Cross Stage Partial)和空间金字塔池化(Spatial Pyramid Pooling)结构组成,其中Focus结构主要用来实现图像切片操作,将原608×608×3的图像变成304×304×32的特征图,方便进一步提取目标图像的特征;CBL为标准卷积结构,对上一层的特征图进行卷积、批量归一化、激活函数操作;CSP结构使网络深度加深,增强特征提取能力,YOLOv5s模型中有CSP1_X和CSP2_X两种,CSP1_X结构由卷积层、CBL和X个Res Unit的残差模块Concate组成,应用于主干网络,CSP2_X结构由卷积层和2X个CBL组成,则应用颈部网络;SPP结构对特征图进行空间金字塔化处理,将不同尺寸特征图转换为固定大小的特征图输出。
S33、颈部网络:将由主干网络提取的不同尺度电力设备特征图进行融合。通过特征金字塔和路径聚合网络相结合的方式将浅层特征和深层特征进行融合,并把输出的3个不同尺度特征图传入检测端,其中Upsample为上采样操作,Concat为通道堆叠操作。在YOLOv5s中,Neck模块使用卷积层来提取特征并处理输入的特征图,但每个卷积核只关注输入图像的一个局部区域,而忽略了其他部分的信息,这对于较小的特征图,其卷积核可能无法有效地捕捉到足够的信息来正确识别目标,因此为了更全面地捕获到图像中目标的特征信息,增强模型对目标设备识别敏感度,本发明采用多维动态卷积ODConv替换YOLOv5s模型Neck中的常规卷积,从四个维度对卷积核加权,增强网络特征提取能力。
ODConv利用多维注意力机制和并行策略来提高模型性能,注意力机制可以根据上下文信息对不同的维度进行加权,并行策略可以将多个一维卷积层同时执行,不仅考虑到了输入图像的小块区域,还考虑到了相邻区域的相互作用,每个卷积核都对应一个特定的特征维度,并且可以针对不同的特征空间应用不同大小的卷积核。对比传统卷积,ODConv四个注意力相互补充,可以获取更全面的信息,更好地捕捉图像中的全局信息,从而更好地适应不同场景下的设备识别任务,提升识别精度。
多维动态卷积ODConv从四个维度对卷积核加权,采用如下公式:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+···+
αwi′⊙αfi′⊙αci′⊙αsi′⊙Wi′)*x
其中y代表输出特征图,x代表输入特征图,Wi′代表第i′个卷积核,αwi′为第i′个卷积核的注意力标量,αsi′、αci′和αfi′分别表示沿空间、输入通道和输出通道的注意力标量,⊙代表沿核空间不同维度的乘法运算,i'=1,2,3,···,n,n为卷积核的总数。
通过生成的4个维度的注意力标量αsi′、αci′、αfi′和αwi′相互协同,使得卷积操作能够更加有效地捕捉到不同维度的特征信息,进而为识别目标提供更加准确的依据。为了检验YOLOv5s相关改进内容对电力设备的检测效果,在自制数据集上对原YOLOv5s与只引入多维动态卷积ODConv的YOLOv5s进行了验证,并对4种电力设备类别的各评价指标进行分析,同时取平均值作为分析结果,效果对比如表4所示:
表4引入ODConv前后YOLOv5s的检测结果对比
由表4对比数据可以看出,当在YOLOv5s中引入ODConv后,进一步增强了模型特征提取能力,因此,其在数据集上进行检测的准确率、召回率和调和均值都有了提升。
S34、检测端:输出电力设备的类别和位置信息。将颈部网络输出的3种不同尺度特征图通过3个Detect检测头进行处理,生成3个大小不同的边界框,采用损失函数计算边界框损失值来优化预测边界框的位置,并利用非极大值抑制方法(Non MaximumSuppression,NMS)进行预测框筛选,保留最优目标框,实现电力设备目标预测。
在原YOLOv5s模型中采用GIoULoss作为目标检测边界框的损失函数,其表达式如下所示:
式中,A表示预测框,B表示真实框,A∪B为两个边界框的并集,R表示预测框A和真实框B的最小外接矩形;IoU表示预测框A和真实框B的交集并集之比,其计算式如下所示:
GIoULoss损失函数很好的解决两框不相交的问题,但当预测框包含在真实框内部时,即出现A∪B=B,R=B的情况,这样两个边界框的相对位置无法区分。本发明使用EIoULoss损失函数替换原始的GIoULoss损失函数,其表达式如下所示:
其中d表示预测框A和真实框B两个框中心点相距的距离,IoU依然表示两个框的交集并集之比,l表示两个框外接最小矩形的对角线距离,Rw表示两个框外接最小矩形的宽度,Rh表示两个框外接最小矩形的高度,W表示两个框的宽度距离差,H表示两个框的高度距离差。从EIoULoss损失函数的公式中可看出EIoULoss损失函数不仅考虑了重叠区域,预测框和真实框之间的中心距离,还考虑了高宽损失,解决了GIoULoss损失函数存在的问题。为了检验YOLOv5s相关改进内容对电力设备的检测效果,在自制数据集上对原YOLOv5s与只替换损失函数的YOLOv5s进行了验证,并对4种电力设备类别的各评价指标进行分析,同时取平均值作为分析结果,效果对比如表5所示:
表5不同损失函数下YOLOv5s的检测结果对比
由表5对比数据可以看出,将YOLOv5s的损失函数GIoULoss替换为EIoULoss后,检测效果更好,改进后的YOLOv5s的准确率、召回率和调和均值优于改进前的YOLOv5s,都有提升。
S4、训练改进后的YOLOv5s目标检测模型。
设置参数,用制作好的训练集对改进后的YOLOv5s模型进行训练学习,优化改进后的YOLOv5s模型,获得收敛效果最好的模型文件。
S5、采用改进后YOLOv5s目标检测模型对电力设备检测图像进行分类检测,以判断待分类电力设备。
与YOLOv3模型、原YOLOv5s的对比检测结果图如图6、图7、图8所示,查全率、查准率和调和均值指标值如表6所示:
表6不同算法下的检测结果对比
从图6、图7和图8的检测结果可以看出,YOLOv3、YOLOv5s都能检测到各类电力设备,YOLOv5s的置信度整体高于YOLOv3,但都存在漏检错检的情况。改进后的YOLOv5s检测结果标注更为细致,总体检测准确率较YOLOv3、YOLOv5s有提高,同时减少了误检和漏检情况发生。由表6可见,与YOLOv3、原YOLOv5s相比,改进的YOLOv5s的识别准确率,召回率和调和均值都有提高,目标的误检、漏检更低,对于提升电力工程现场审计工作智能化具有重要意义。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,包括步骤:
制作电力设备数据集,并对样本的数据内容进行标注;
采用SSR增强算法对采集的低质量电力设备图像进行增强处理;
搭建改进后的YOLOv5s目标检测模型,输入端对增强后的电力设备图像预处理,主干网络对输入的电力设备图像进行特征提取,颈部网络采用多维动态卷积ODConv将由主干网络提取的不同尺度电力设备特征图进行融合,检测端采用损失函数计算边界框损失值来优化预测边界框的位置并输出电力设备的类别和位置信息;
训练改进后的YOLOv5s目标检测模型;
采用改进后YOLOv5s目标检测模型对电力设备检测图像进行分类检测,以判断待分类电力设备。
2.根据权利要求1所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,所述YOLOv5s目标检测模型具体包括:
输入端:通过Mosaic数据增强、自适应锚框计算、自适应图片缩放对输入的电力设备图像进行预处理;
主干网络:由Focus、CBL、CSP和空间金字塔池化结构组成,其中Focus结构实现图像切片操作,CBL为标准卷积结构,对上一层的特征图进行卷积、批量归一化、激活函数操作,CSP结构加深网络深度,有CSP1_X和CSP2_X两种,CSP1_X结构由卷积层、CBL和X个Res Unit的残差模块Concate组成,应用于主干网络,CSP2_X结构由卷积层和2X个CBL组成,应用颈部网络;SPP结构对特征图进行空间金字塔化处理,将不同尺寸特征图转换为固定大小的特征图输出;
颈部网络:通过特征金字塔和路径聚合网络相结合的方式将浅层特征和深层特征进行融合,并把输出的3个不同尺度特征图传入检测端;
检测端:将颈部网络输出的3种不同尺度特征图通过3个Detect检测头进行处理,生成3个大小不同的边界框,采用损失函数计算边界框损失值来优化预测边界框的位置,并利用非极大值抑制方法进行预测框筛选,保留最优目标框,实现电力设备目标预测。
3.根据权利要求1所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,输入端通过k-means++算法进行初始锚框聚类,步骤包括:
读取边界框,随机选取一个边界框作为初始聚类中心;
按照轮盘法选择新的聚类中心,直到选出k个聚类中心;
计算每个边界框与当前聚类中心的距离,并将其分配给最近的聚类中心所在类;
重复上一步,直至聚类中心不再变化。
4.根据权利要求3所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,每个边界框与当前聚类中心距离采用Dloss距离,其计算公式为:
其中,Rboxi代表第i个真实的边界框面积,Clusterj代表第j个聚类中心的面积,m代表真实边界框总数,k代表聚类中心总数;
对聚类后的锚框进行线性尺度的缩放,计算公式如下所示:
其中(pi,qi)为经过缩放后的第i个锚框的宽度值和高度值,φ、代表缩放因子,将(pi,qi)等比例线性变换为(wi,vi),pmin为经过缩放后的新的最小宽度值,pmax为经过缩放后的新的最大宽度值,wmin为聚类后锚框宽度的最小值,wmax为聚类后锚框宽度的最大值,vi是与wi相对应的高度值和宽度值,i、j取值为正整数。
5.根据权利要求1所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,多维动态卷积ODConv从四个维度对卷积核加权,采用如下公式:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+···+αwi′⊙αfi′⊙αci′⊙αsi′⊙Wi′)*x
其中y代表输出特征图,x代表输入特征图,Wi′代表第i′个卷积核,αwi′为第i′个卷积核的注意力标量,αsi′、αci′和αfi′分别表示沿空间、输入通道和输出通道的注意力标量,⊙代表沿核空间不同维度的乘法运算,i'=1,2,3,···,n,n为卷积核的总数。
6.根据权利要求1所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,损失函数为EIoULoss损失函数。
7.根据权利要求1所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,人工实地多角度、多距离拍摄自然场景下的电力设备图像,从网络上收集不同场景下的电力设备图片,共同制作电力设备数据集,并采用平移、旋转、缩放的处理手段对采集到的图片进行增广,对数据内容进行标注,建立训练集、验证集和测试集。
8.根据权利要求1所述基于改进YOLOv5s的现场审计设备智能识别方法,其特征在于,电力设备图像进行增强处理是从原图像中减去低频部分,得到高频增强图像,SSR算法的公式为:
R(x,y)=logI(x,y)-log D(x,y)
其中,R(x,y)代表增强后的图像,I(x,y)代表原图像,D(x,y)代表低通滤波后的图像,由F(x,y)环绕函数和I(x,y)原图进行卷积运算获得,D(x,y)计算表达式如下所示:
其中F(x,y)函数用的是低通函数,在算法中用于估计出入射图像对应原图像的低频部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410489213.9A CN118351291A (zh) | 2024-04-22 | 2024-04-22 | 基于改进YOLOv5s的现场审计设备智能识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410489213.9A CN118351291A (zh) | 2024-04-22 | 2024-04-22 | 基于改进YOLOv5s的现场审计设备智能识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118351291A true CN118351291A (zh) | 2024-07-16 |
Family
ID=91819104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410489213.9A Pending CN118351291A (zh) | 2024-04-22 | 2024-04-22 | 基于改进YOLOv5s的现场审计设备智能识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118351291A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258707A (zh) * | 2023-03-15 | 2023-06-13 | 常州京信新一代信息技术研究院有限公司 | 一种基于改进的YOLOv5算法的PCB表面缺陷检测方法 |
CN116665054A (zh) * | 2023-05-30 | 2023-08-29 | 郑州大学 | 一种基于改进YOLOv3的遥感影像小目标检测方法 |
CN117372905A (zh) * | 2023-10-17 | 2024-01-09 | 沈阳航空航天大学 | 基于改进YOLOv5网络的车辆行人目标检测方法 |
CN117423064A (zh) * | 2023-11-22 | 2024-01-19 | 中国矿业大学(北京) | 一种基于视觉的矿井低照度小目标人员检测方法和装置 |
-
2024
- 2024-04-22 CN CN202410489213.9A patent/CN118351291A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258707A (zh) * | 2023-03-15 | 2023-06-13 | 常州京信新一代信息技术研究院有限公司 | 一种基于改进的YOLOv5算法的PCB表面缺陷检测方法 |
CN116665054A (zh) * | 2023-05-30 | 2023-08-29 | 郑州大学 | 一种基于改进YOLOv3的遥感影像小目标检测方法 |
CN117372905A (zh) * | 2023-10-17 | 2024-01-09 | 沈阳航空航天大学 | 基于改进YOLOv5网络的车辆行人目标检测方法 |
CN117423064A (zh) * | 2023-11-22 | 2024-01-19 | 中国矿业大学(北京) | 一种基于视觉的矿井低照度小目标人员检测方法和装置 |
Non-Patent Citations (5)
Title |
---|
SHANGTAO YOU 等: "Pedestrian detection method based on improved YOLOv5", 《SYSTEMS SCIENCE & CONTROL ENGINEERING》, 8 January 2024 (2024-01-08), pages 3 * |
WEIXIN_43981952: "YOLOv5论文笔记", 《HTTPS://BLOG.CSDN.NET/WEIXIN_43981952/ARTICLE/DETAILS/121277028》, 22 November 2021 (2021-11-22), pages 1 - 5 * |
万东东: "基于Retinex的低照明度图像增强算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 03, 15 March 2024 (2024-03-15), pages 2 * |
徐文静 等: "基于YOLO v5的绝缘子图像自动标注", 《科学技术创新》, no. 14, 31 December 2021 (2021-12-31), pages 1 - 4 * |
恩泽君: "(yolo v3)使用自己数据集k-means聚类产生的anchor效果反而变差解决方法", 《HTTPS://BLOG.CSDN.NET/QQ_42109740/ARTICLE/DETAILS/105948768》, 8 November 2022 (2022-11-08), pages 1 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016638B (zh) | 一种钢筋簇的识别方法、装置、设备及存储介质 | |
CN112560675B (zh) | Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN111881803B (zh) | 一种基于改进YOLOv3的畜脸识别方法 | |
CN114049478A (zh) | 基于改进Cascade R-CNN的红外船舶图像快速识别方法及系统 | |
CN112308040A (zh) | 一种基于高清图像的河流排污口检测方法及系统 | |
CN117036243A (zh) | 刨花板表面缺陷检测的方法、装置、设备和存储介质 | |
CN117173545B (zh) | 一种基于计算机图形学的证照原件识别方法 | |
CN115376149A (zh) | 一种报销发票识别方法 | |
CN115953371A (zh) | 一种绝缘子缺陷检测方法、装置、设备和存储介质 | |
CN118247205A (zh) | 一种基于Efficient-YOLOv8的配网绝缘子缺陷检测方法 | |
CN119152502A (zh) | 一种基于弱监督的景观植物图像语义分割方法 | |
CN117994655A (zh) | 一种基于改进Yolov8s模型的桥梁病害检测系统及方法 | |
CN118469946A (zh) | 基于多角度特征增强的多缺陷类别绝缘子缺陷检测方法 | |
CN118941558B (zh) | 用于新能源汽车制造的视觉检测系统及方法 | |
CN119007018A (zh) | 基于改进YOLOv8n模型的河道目标识别方法及装置 | |
CN111709936B (zh) | 一种基于多级特征比对的令纸缺陷检测方法 | |
CN119274122A (zh) | 一种基于mrs-yolo模型的环卫工作评价方法 | |
CN118968142A (zh) | 一种基于屋顶的光伏区域提取方法、装置、终端设备及存储介质 | |
CN113052234A (zh) | 一种基于图像特征和深度学习技术的玉石分类方法 | |
CN118865171A (zh) | 图像中线状结构识别分割的深度学习模型、方法、存储介质和装置 | |
CN118823427A (zh) | 一种基于yolov8改进算法的窨井盖隐患检测系统 | |
CN112699898A (zh) | 一种基于多层特征融合的图像方向识别方法 | |
CN109740682B (zh) | 一种基于域转化和生成模型的图像识别方法 | |
CN118351291A (zh) | 基于改进YOLOv5s的现场审计设备智能识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |