CN116612343A - 一种基于自监督学习的输电线路金具检测方法 - Google Patents
一种基于自监督学习的输电线路金具检测方法 Download PDFInfo
- Publication number
- CN116612343A CN116612343A CN202310236257.6A CN202310236257A CN116612343A CN 116612343 A CN116612343 A CN 116612343A CN 202310236257 A CN202310236257 A CN 202310236257A CN 116612343 A CN116612343 A CN 116612343A
- Authority
- CN
- China
- Prior art keywords
- self
- hardware
- training
- detection
- supervision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 230000005540 biological transmission Effects 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 69
- 238000004364 calculation method Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000007689 inspection Methods 0.000 claims abstract description 20
- 230000006872 improvement Effects 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 9
- 238000007418 data mining Methods 0.000 claims description 8
- 239000010410 layer Substances 0.000 claims description 8
- 238000013461 design Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 4
- 239000002356 single layer Substances 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 229910052782 aluminium Inorganic materials 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000012212 insulator Substances 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自监督学习的输电线路金具检测方法,选取单阶段目标检测器作为基础模型架构,使用改进的Swin Transformer模型作为主干网络,引入轻量自监督学习方法,并结合高精度检测头实现高精度金具检测;在Swin Transformer原有的自注意力计算中增加下采样,减少网络计算量,并利用上采样分支恢复部分丢失下采样后的信息,实现高效特征提取,解决原Swin网络计算量较大的问题,改进后的网络称为E‑Swin(efficient Swin);为了有效利用输电线路巡检所产生的大量图片数据,减少人为标注所消耗的资源,引入自监督学习方法,并进行轻量化改进,用于E‑Swin的无监督预训练;设计添加额外分支的检测器,获得更准确的金具目标定位框,进一步提高输电线路金具检测的精确度。
Description
技术领域
本发明涉及图像分析技术领域,尤其涉及一种基于自监督学习的输电线路金具检测方法。
背景技术
近年来,随着国家电网新规划的实施,我国电网建设不断加速,输电线路的覆盖范围逐步扩大。作为电力系统中最主要的基础设施,输电线路是否安全稳定运行对整个电力系统及人们日常生活有重要影响。而确保输电线路中关键部件(金具等)处于正常状态,是维持电力系统稳定的重要环节。金具是铝或铁制的金属附件,包含保护金具、接续金具、联接金具、耐张线夹以及悬垂线夹等,主要用于支持、固定、接续裸导线、导体及绝缘子。此类部件常年处于户外,面临的环境复杂,易出现位移、歪斜、破损等情况,影响导线及杆塔连接结构稳定,一旦发现不及时将造成重大电路损坏事故。评估金具运行状态并实现故障诊断,首先需对输电线路金具目标进行精确定位和识别。随着深度学习和无人机巡检技术的发展,传统人工巡检方式逐渐被取代。现阶段主要依靠无人机航拍获得金具图像、再结合深度学习技术进行自动分析,因此研究基于深度学习的输电线路金具检测模型对保证电网安全运行有重大意义。目前,金具检测主流做法是把在公共数据集上表现良好的目标检测模型加以优化后,应用于电力视觉领域。
然而利用深度学习方法对输电线路中的金具进行检测存在下列问题:
1.现阶段金具检测模型大多依赖于有监督学习,即在模型训练之前需进行人为的数据标注。但随着无人机巡检的发展,所采集到的输电线路部件数据越来越多,全部进行人为标注需消耗大量资源。利用自监督学习,可以有效利用大量无标注的数据,但由于需要大量数据为支撑来挖掘数据自身的特征表示,自监督学习的主要问题在于训练的速度较慢、所需时间较长,需进行优化改进。
2.现有的研究大多采用的是基于卷积神经网络的目标检测模型,而近年来Transformer因其优异性能,在计算机视觉领域被广泛应用。该类模型主要问题在于自注意力计算时,矩阵乘法计算量较大,导致模型运算效率较低,需针对计算进行改进。
3.在输电线路金具样本中,各类别目标的尺度差异较大,并且目标分布不同于一般的目标检测数据集,检测精度和定位精度较低,需对检测器做进一步改进,提高精度。
因此,在上述背景下,结合改进目标检测模型和自监督学习方法,进一步解决输电线路金具检测的相关问题,符合工业化发展需求。
发明内容
本发明的目的是提供一种基于自监督学习的输电线路金具检测方法,解决输电线路大量巡检数据的利用问题和输电线路金具检测定位精度较低等问题,设计一种新的模型可以利用无标注数据学习特征表示,并设计改进的高精度主干网络和添加额外分支的检测头来进一步提高金具检测的精度。
为实现上述目的,本发明提供了如下方案:
一种基于自监督学习的输电线路金具检测方法,包括以下步骤:
构建用于自监督学习的金具数据集和微调训练的金具数据集,自监督学习的金具数据集包含无标注金具图像,微调训练的金具数据集包含有标注金具图像,对金具数据集中的数据做数据增强处理;
选取单阶段目标检测模型作为基本架构,采用改进后的Swin Transformer作为主干网络,结合特征融合模块和检测头模块搭建模型;
引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量无标注金具图像即自监督学习的金具数据集,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力;
设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用微调训练的金具数据集进行微调,以实现高精度检测。
其中,所述方法还包括,在所述主干网络中引入下采样模块,以减少网络特征提取的计算量,提高特征提取效率。
其中,采用改进后的Swin Transformer作为主干网络,结合特征融合模块和检测头模块搭建模型,具体包括:
将改进的Swin Transformer作为主干网络,来提取金具目标特征;然后将得到的特征通过特征融合模块PANet(路径聚合网络),实现不同尺度的特征交互,提高特征表示的效果;最后结合检测头模块,搭建基本的单阶段金具检测模型。
其中,所述改进后的Swin Transformer具体包括:
改进后的Swin Transformer采用不重叠窗口提高计算效率,在窗口内仍采用标准的Transformer自注意力计算方式,即利用Query(Q,查询标记)、Key(K,键值标记)以及Value(V,权值标记)进行算。在局部窗口中,通过对键值K和权值V进行下采样,有效减少矩阵相乘的计算量,同时,对V进行上采样以重建信息,得到改进后的主干网络E-Swin。
其中,所述引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量无标注金具图像即自监督学习的金具数据集,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力,具体包括:
采用自监督学习方法对改进后E-Swin主干网络进行预训练,所述自监督学习方法为轻量化、平滑的自监督学习方法LS-UM(lightweight smooth uniform masking),LS-UM方法通过设计轻量化的单层解码器和平滑的损失函数,以提高自监督学习的效率,利用无标注数据进行自监督训练,作为编码器的主干网络可学习到相应的图像特征表示,去除解码器,将编码器作为目标检测模型的主干,构建模型后再利用少量有标注数据进行微调训练,即可完成自监督学习到下游任务的迁移。
其中,所述设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用微调训练的金具数据集进行微调,以实现高精度检测,具体包括:
设计在分类和回归分支外,添加额外分支用于预测真实框和预测框的交并比的检测头,交并比检测头用于预测每个回归边界框和真实框之间的交并比,与回归分支平行连接到原分支的最后一层;
在训练过程中,交并比预测部分和分类及回归预测部分联合训练,在推理的非极大值抑制过程中,将每个检测框的分类分数和预测交并比相乘以获得置信度分数并依此排序,检测置信度由此可结合分类准确度和定位精度,提高边界框的定位准确率,训练过程中用Lcls表示所有正、负样本的分类损失,其中cls指代类别分类(class),用Lreg表示所有正样本的预测框和真实框之间的回归损失,其中reg指代边框回归(regression),交并比预测分支单独采用二进制交叉熵损失函数(binary crossentropy loss,BCE Loss),用于计算预测交并比和真实交并比的损失Liou,其中iou指代交并比(Intersection over Union),用下式表示:
式中Npos表示所有正样本的个数,IoU′i表示每个边界框与真实框的预测交并比,IoUi表示该框与真实框的实际交并比,利用二进制交叉熵损失函数进行训练,利用交并比预测损失和回归损失共同训练回归分支,提高检测的定位精度,总的训练损失Ltrain如下式所示,其中train指代训练:
Ltrain=Lcls+Lreg+Liou
推理过程中,将分类分数乘上对应检测框的预测交并比,得到用于非极大值抑制的排序得分,由此,置信度排序可同时结合分类分数及定位精度,提高分类和回归的相关性,使预测框定位更加精确。
本发明公开了以下技术效果:本发明提供一种基于自监督学习的输电线路金具检测方法,包括步骤:构建用于自监督学习和微调训练的金具数据集,分别包含大量无标注巡检图像和少量有标注金具图像,并做数据增强处理;选取单阶段目标检测模型作为基本架构,在Swin Transformer中引入下采样模块,减少网络特征提取的计算量,提高特征提取效率,并将其作为改进的主干网络E-Swin,结合特征融合模块和检测头模块搭建模型;引入自监督学习方法,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量图片数据,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力;设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用少量有标注数据进行微调,实现高精度检测。可见,本发明将自监督学习应用于金具检测,通过结合自监督学习和设计检测头有效提高了输电线路金具检测的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种基于自监督学习的输电线路金具检测方法的流程图;
图2是本发明实施例改进后E-Swin窗口注意力计算结构示意图;
图3为本发明实施例添加额外分支的高精度检测头结构示意图;
图4为本发明实施例输电线路金具目标检测的效果图。
图5为本发明实施例金具目标定位的对比效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于自监督学习的输电线路金具检测方法,解决输电线路大量巡检图片的利用、检测模型计算量较大以及输电线路金具定位不精确等问题,实现在提高金具检测精度的同时满足工业化需求的目的。
本发明的主要构思是,选取单阶段目标检测器作为基础模型架构,使用改进的Swin Transformer模型作为主干网络,引入轻量自监督学习方法,并结合高精度检测头实现高精度金具检测;在Swin Transformer原有的自注意力计算中增加下采样,减少网络计算量,并利用上采样分支恢复部分丢失下采样后的信息,实现高效特征提取,解决原Swin网络计算量较大的问题,改进后的网络称为E-Swin(efficient Swin);为了有效利用输电线路巡检所产生的大量图片数据,减少人为标注所消耗的资源,引入自监督学习方法,并进行轻量化改进,用于E-Swin的无监督预训练;设计添加额外分支的检测器,获得更准确的金具目标定位框,进一步提高输电线路金具检测的精确度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种自监督学习的输电线路金具检测方法,包含以下步骤:
构建用于自监督学习的金具数据集和微调训练的金具数据集,自监督学习的金具数据集包含无标注巡检图像,微调训练的金具数据集包含有标注金具图像,对金具数据集中的数据做数据增强处理;
选取单阶段目标检测模型作为基本架构,采用改进后的Swin Transformer作为主干网络,结合特征融合模块和检测头模块搭建模型;
引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量图片数据即自监督学习的金具数据集,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力;
另外,本申请为了减少网络特征提取的计算量,提高特征提取效率,在主干网络中引入下采样模块,基于此,本发明还提供了一种自监督学习的输电线路金具检测方法,具体包含以下步骤:
S1,构建用于自监督学习的金具数据集和微调训练的金具数据集,自监督学习的金具数据集包含大量无标注金具图像,微调训练的金具数据集包含少量有标注金具图像,对金具数据集中的数据做数据增强处理;
S2,选取单阶段目标检测模型作为基本架构,采用改进后的Swin Transformer作为主干网络,结合特征融合模块和检测头模块搭建模型;
S3,在主干网络中引入下采样模块,减少网络特征提取的计算量,提高特征提取效率;
S4,引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量无标注金具图像,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力;
S5,设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用微调训练的金具数据集进行微调,即用少量有标注金具图像进行微调,实现高精度检测。
通过自监督学习挖掘数据特征需要大量的数据集图像样本作为支撑,利用无人机巡检采集到的多数无标注图像,需要对其进行人为数据清洗。此外,需要进一步对包含金具类型的样本进行筛选,并作剪裁等数据增强,用于自监督预训练。而在自监督训练结束后的有监督微调过程中,需将少量图片人为标注,并整合为合适的数据集格式。因此,在所述步骤S1中,具体包括:
将无人机所拍摄的输电线路图像进行人为数据清洗、剪裁等预处理后,选取目标较多、清晰可见的数据样本构建数据集,包括用于自监督学习的无标注数据和用于微调的有标注数据。无标注数据集包含大量无标注图片,直接在自监督预训练中使用;有标注数据集所含图片数量较少,人为标注出各图上的金具目标和类别,按照MS-COCO数据集格式整合,在有监督微调训练中,调节模型性能。
本方法中,考虑到模型计算的效率和推理速度,采用单阶段形式的目标检测器来构建基础模型。单阶段检测器主要包括主干网络、特征融合模块、检测头这几个部分。所以,在所述步骤S2中,选取单阶段目标检测模型作为基本架构,采用改进后的SwinTransformer作为主干网络,结合特征融合模块和检测头模块搭建模型,具体包括:
首先,为了简化计算,并提高模型的推理速度,采用单阶段的目标检测模型作为基本架构,相对二阶段模型大幅提高推理速度。将改进的Swin Transformer作为主干网络,来提取金具目标特征;然后将得到的特征通过特征融合模块PANet(路径聚合网络),实现不同尺度的特征交互,提高特征表示的效果;最后结合检测头模块,搭建基本的单阶段金具检测模型,并在此基础上进行改进,提升金具检测的效果。
本发明中改进后E-Swin窗口注意力计算结构示意图如图2所示。
在搭建完基础模型后,为了解决Swin主干网络计算量较大、效率低的问题,对其进行改进,并搭建改进后的主干网络E-Swin。因此,所述步骤S3中,在主干网络中引入下采样模块,减少网络特征提取的计算量,提高特征提取效率,具体包括:
改进原有的Swin Transformer主干网络,减少自注意力计算量,提高效率。SwinTransformer采用不重叠窗口提高计算效率,但在窗口内仍采用标准的Transformer自注意力计算方式,即利用Query(Q,查询标记)、Key(K,键值标记)以及Value(V,权值标记)进行算,于有较多冗余信息的图像而言计算量仍然稍大。自注意力的计算量主要来自大量矩阵乘法运算。针对这一问题,在局部窗口中,通过对键值K和权值V进行下采样,有效减少矩阵相乘的计算量。同时,为了在减少计算量的基础上不丢失有效信息,对V进行上采样以重建信息。首先,与原始的多头自注意力计算类似,采用一组线性投影层将输入 转化为查询Q,而对于K和V,则采取不同的获得方式。先将X重塑为二维特征图,再利用一个s*s的平均池化层进行下采样,减少后续计算量,并使模型关注特征图中轮廓特征的有效信息,下采样后的特征尺寸得到缩减,再经过线性投影层转换得到K和V。然后进行常规矩阵计算,不同图像块的Q和K进行交互,再与对应的V相乘。改进后,在局部窗口的Q、K、V交互中,计算复杂度为/>而在不进行下采样的原始计算中,计算复杂度为在取s>1时,下采样可有效减少计算复杂度。下采样可以显著减少计算成本,但也将不可避免地丢失一部分特征信息。为了在实现高效计算的同时保证有效信息,在自注意力计算最后的线性层之前,对V值进行上采样,恢复为原尺寸,并加到计算结果上。计算方式采用像素洗牌(pixel shuffle),先扩大通道数,然后平均分配像素,达到上采样的效果。上采样分支可以高效地重建信息,并且几乎不增加计算复杂度。通过这样的方式,实现改进优化,搭建改进后的主干网络E-Swin。
对于上述E-Swin主干网络,用自监督学习的方式进行预训练,以处理无标注数据,并挖掘数据特征表示。所述步骤S4中,引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量无标注金具图像,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力,具体包括:
为了充分利用输电线路巡检的大量无标注金具图像数据,从大规模无标注数据中挖掘数据特征,并学习可以转移到下游任务的特征表示,采用自监督学习的方式对改进后E-Swin主干网络进行预训练。以往的MAE(去噪自动编码器)方法设计图像重构辅助任务,对图像随机遮掩75%,再输入编码器和解码器中,并使输出结果重构原图,实现对普通ViT(视觉Transformer)主干网络的自监督训练。为了提高自监督学习效率,从解码器以及损失函数的角度进行优化,提出轻量化、平滑的自监督学习方法LS-UM(lightweight smoothuniform masking),用以预训练改进的Swin主干网络。首先,对图像执行均匀采样,采样率为25%,即对每个2*2的4格单位采样1格,会有75%的图像块被遮蔽,并且不会输入编码器中,确保编码器的计算开销较小。同时,均匀采样保证了在Swin的每个局部窗口都能分配到等量的图像块,使移位窗口可以处理离散的图像块集合。但相比于随机采样,均匀采样会降低辅助任务难度,导致学习质量下降。对此,在均匀采样的基础上进行二次遮蔽,将第一步采样得到的图像块遮蔽小部分,并利用共享的掩码令牌表示。第二次采样所产生的掩码令牌仍会输入编码器,所以第二次采样不会改变输入编码器的图像块数量,保证局部窗口的注意力计算不会被影响。利用第二次采样恢复了图像重构辅助任务的难度,使网络将重点放在学习图像的高质量表示上。图像在经过两次采样之后,以原图25%的比例输入编码器。编码器采用E-Swin主干网络,提取图像的特征。经过编码器后,得到图像的特征表示,并利用上采样恢复尺寸。然后,将第一次采样所遮蔽的75%图像块用一个可学习的向量表示,并与编码器所得到的特征表示一起输入解码器。解码器采用轻量化的单层Transformer解码器,加上一个线性预测层构成,使输出重构原图像。利用图像重构的方式训练编码器的特征提取能力。自监督训练的损失利用预测得到的像素值和原本像素值进行计算,采用下式的平滑损失函数:
式中x代表预测值与真实值之差。Smooth L1平滑损失结合了平均绝对值误差和均方误差损失。平均绝对值误差损失在训练后期预测值与真实值差异较小时不够平滑,损失函数在稳定值附近浮动,模型难以收敛。均方误差在训练初期预测值与真实值差异较大时梯度较大,部分离群点梯度爆炸,训练不稳定。平滑损失函数进行区间划分,综合这两种损失函数,有助于训练的稳定。LS-UM方法通过设计轻量化的单层解码器和平滑的损失函数,提高了自监督学习的效率。利用无标注数据进行自监督训练,作为编码器的主干网络可学习到相应的图像特征表示。去除解码器,将编码器作为目标检测模型的主干,构建模型后再利用少量有标注数据进行微调训练,即可完成自监督学习到下游任务的迁移。
本发明中添加额外分支的高精度检测头的结构示意图如图3所示。
在自监督预训练完成之后,将主干网络嵌入已构建的单阶段目标检测模型中,并针对金具定位不精确的问题,设计检测头模块。所述步骤S5中,设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用微调训练的金具数据集进行微调,即用少量有标注金具图像数据进行微调,实现高精度检测,具体包括:
经特征融合模块后,将得到的信息输入最后的预测器,进行分类和回归预测,得到图片中目标类别和边界框的预测结果。但对不同尺度的输电线路金具而言,易出现边界框质量较差的问题。由于预测器中分类分支和回归分支缺少关联,导致质量较好的边界框可能遭到抑制。在非极大值抑制过程中,一个预测目标只会输出一组分类结果和边界框,所有针对该目标的预测都会按照分类得分降序排列,分类得分最高的预测框会抑制与它自身重叠程度高于一定阈值的其它预测框。但这默认采用了分类得分最高的预测框作为边界框,而没有考虑分类得分稍低、但预测框更接近真实框的样本。设计在分类和回归分支外,添加额外分支用于预测真实框和预测框的交并比的检测头。交并比检测头用于预测每个回归边界框和真实框之间的交并比,与回归分支平行连接到原分支的最后一层。在训练过程中,交并比预测部分和分类及回归预测部分联合训练。在推理的非极大值抑制过程中,将每个检测框的分类分数和预测交并比相乘以获得置信度分数并依此排序,检测置信度由此可结合分类准确度和定位精度,提高边界框的定位准确率。训练过程中用Lcls表示所有正、负样本的分类损失,其中cls指代类别分类(class),用Lreg表示所有正样本的预测框和真实框之间的回归损失,其中reg指代边框回归(regression),交并比预测分支单独采用二进制交叉熵损失函数(binary crossentropy loss,BCE Loss),用于计算预测交并比和真实交并比的损失Liou,其中iou指代交并比(Intersection over Union),用下式表示:
式中Npos表示所有正样本的个数,IoU′i表示每个边界框与真实框的预测交并比,IoUi表示该框与真实框的实际交并比,利用二进制交叉熵损失函数进行训练。利用交并比预测损失和回归损失共同训练回归分支,提高检测的定位精度。总的训练损失Ltrain如下式所示,其中train指代训练:
Ltrain=Lsls+Lreg+Liou
推理过程中,将分类分数乘上对应检测框的预测交并比,得到用于非极大值抑制的排序得分。由此,置信度排序可同时结合分类分数及定位精度,提高分类和回归的相关性,使预测框定位更加精确。
本发明将上述步骤S3、S4和S5所提几种方法融入到步骤S2中所构建的基础网络中,最终形成完整的一种基于自监督学习的输电线路金具检测方法。本发明方法的输电线路金具目标检测的效果图如图4所示。
本发明方法的金具目标定位对比效果如图5所示。本发明在单阶段目标检测模型的基础上,采用改进的Swin Transformer作为主干网络,利用下采样模块,对原网络进行了轻量化改进,得到改进后的主干网络E-Swin,解决了原Swin网络计算量大训练速度过慢的问题;本发明引入自监督学习方式,来对E-Swin进行预训练,使其从无标注巡检金具图像数据中学习特征表示,为利用输电线路巡检中所采集到的大量无标注巡检金具图像数据提供了参考;本发明在设计添加了额外分支的检测头,利用交并比预测的方式提高了金具检测定位精度。可见,本发明所述方法解决了输电线路中巡检数据的利用问题,并保证检测的高精度,满足实际工业需求。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于自监督学习的输电线路金具检测方法,其特征在于,包括以下步骤:
构建用于自监督学习的金具数据集和微调训练的金具数据集,自监督学习的金具数据集包含无标注金具图像,微调训练的金具数据集包含有标注金具图像,对金具数据集中的数据做数据增强处理;
选取单阶段目标检测模型作为基本架构,采用改进后的Swin Transformer作为主干网络,结合特征融合模块和检测头模块搭建模型;
引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量无标注金具图像即自监督学习的金具数据集,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力;
设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用微调训练的金具数据集进行微调,以实现高精度检测。
2.根据权利要求1所述的一种基于自监督学习的输电线路金具检测方法,其特征在于,还包括,在所述主干网络中引入下采样模块,以减少网络特征提取的计算量,提高特征提取效率。
3.根据权利要求1所述的一种基于自监督学习的输电线路金具检测方法,其特征在于,采用改进后的Swin Transformer作为主干网络,结合特征融合模块和检测头模块搭建模型,具体包括:
将改进的Swin Transformer作为主干网络,来提取金具目标特征;然后将得到的特征通过特征融合模块PANet(路径聚合网络),实现不同尺度的特征交互,提高特征表示的效果;最后结合检测头模块,搭建基本的单阶段金具检测模型。
4.根据权利要求3所述的一种基于自监督学习的输电线路金具检测方法,其特征在于,所述改进后的Swin Transformer具体包括:
改进后的Swin Transformer采用不重叠窗口提高计算效率,在窗口内仍采用标准的Transformer自注意力计算方式,即利用Query(Q,查询标记)、Key(K,键值标记)以及Value(V,权值标记)进行算,在局部窗口中,通过对键值K和权值V进行下采样,有效减少矩阵相乘的计算量,同时,对V进行上采样以重建信息,得到改进后的主干网络E-Swin。
5.根据权利要求4所述的一种基于自监督学习的输电线路金具检测方法,其特征在于,所述引入自监督学习方法,进行轻量化改进,用于主干网络无监督预训练,以有效利用输电线路巡检所产生的大量无标注金具图像即自监督学习的金具数据集,减少人为标注所消耗的资源,同时通过数据挖掘提高模型的特征提取能力,具体包括:
采用自监督学习方法对改进后E-Swin主干网络进行预训练,所述自监督学习方法为轻量化、平滑的自监督学习方法LS-UM(lightweight smooth uniform masking),LS-UM方法通过设计轻量化的单层解码器和平滑的损失函数,以提高自监督学习的效率,利用无标注数据进行自监督训练,作为编码器的主干网络可学习到相应的图像特征表示,去除解码器,将编码器作为目标检测模型的主干,构建模型后再利用少量有标注数据进行微调训练,即可完成自监督学习到下游任务的迁移。
6.根据权利要求5所述的一种基于自监督学习的输电线路金具检测方法,其特征在于,所述设计添加额外分支的检测头,以获得更准确的金具目标定位框,在自监督训练完成后,整合模型,用微调训练的金具数据集进行微调,以实现高精度检测,具体包括:
设计在分类和回归分支外,添加额外分支用于预测真实框和预测框的交并比的检测头,交并比检测头用于预测每个回归边界框和真实框之间的交并比,与回归分支平行连接到原分支的最后一层;
在训练过程中,交并比预测部分和分类及回归预测部分联合训练,在推理的非极大值抑制过程中,将每个检测框的分类分数和预测交并比相乘以获得置信度分数并依此排序,检测置信度由此可结合分类准确度和定位精度,提高边界框的定位准确率,训练过程中用Lcls表示所有正、负样本的分类损失,其中cls指代类别分类(class),用Lreg表示所有正样本的预测框和真实框之间的回归损失,其中reg指代边框回归(regression),交并比预测分支单独采用二进制交叉熵损失函数(binary crossentropyloss,BCE Loss),用于计算预测交并比和真实交并比的损失Liou,其中iou指代交并比(Intersection over Union),用下式表示:
式中Npos表示所有正样本的个数,IoUi ′表示每个边界框与真实框的预测交并比,IoUi表示该框与真实框的实际交并比,利用二进制交叉熵损失函数进行训练,利用交并比预测损失和回归损失共同训练回归分支,提高检测的定位精度,总的训练损失Ltrain如下式所示,其中train指代训练:
Ltrain=Lcls+Lreg+Liou
推理过程中,将分类分数乘上对应检测框的预测交并比,得到用于非极大值抑制的排序得分,由此,置信度排序可同时结合分类分数及定位精度,提高分类和回归的相关性,使预测框定位更加精确。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310236257.6A CN116612343A (zh) | 2023-03-13 | 2023-03-13 | 一种基于自监督学习的输电线路金具检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310236257.6A CN116612343A (zh) | 2023-03-13 | 2023-03-13 | 一种基于自监督学习的输电线路金具检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612343A true CN116612343A (zh) | 2023-08-18 |
Family
ID=87684202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310236257.6A Pending CN116612343A (zh) | 2023-03-13 | 2023-03-13 | 一种基于自监督学习的输电线路金具检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612343A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635905A (zh) * | 2023-12-13 | 2024-03-01 | 国网上海市电力公司 | 基于图像识别算法的电能表装接质量智能监测方法 |
-
2023
- 2023-03-13 CN CN202310236257.6A patent/CN116612343A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635905A (zh) * | 2023-12-13 | 2024-03-01 | 国网上海市电力公司 | 基于图像识别算法的电能表装接质量智能监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112651973B (zh) | 基于特征金字塔注意力和混合注意力级联的语义分割方法 | |
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN112686207B (zh) | 一种基于区域信息增强的城市街道场景目标检测方法 | |
CN110956222B (zh) | 用于水下目标检测的检测网络的方法 | |
CN112329780B (zh) | 一种基于深度学习的深度图像语义分割方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN114842363B (zh) | 一种数字孪生台区关键电力设备的识别方法及系统 | |
CN116205962B (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN116612343A (zh) | 一种基于自监督学习的输电线路金具检测方法 | |
CN116862828A (zh) | 一种架空输电线路关键部件及缺陷的检测方法 | |
CN114021741A (zh) | 一种基于深度学习的光伏电池板巡检方法 | |
CN112183450A (zh) | 一种多目标跟踪方法 | |
CN115527096A (zh) | 一种基于改进YOLOv5的小目标检测方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN114140357A (zh) | 一种基于协同注意力机制的多时相遥感图像云区重建方法 | |
CN114882590B (zh) | 一种基于事件相机的多粒度时空特征感知的唇读方法 | |
CN115880660A (zh) | 一种基于结构表征和全局注意力机制的轨道线检测方法和系统 | |
CN116310967A (zh) | 一种基于改进YOLOv5的化工厂安全帽佩戴检测方法 | |
CN113223006B (zh) | 一种基于深度学习的轻量级目标语义分割方法 | |
CN114898407A (zh) | 一种基于深度学习牙齿目标实例分割及其智能预览的方法 | |
CN113240586A (zh) | 一种可自适应调节放大倍数的螺栓图像超分辨率处理方法 | |
CN113920317A (zh) | 基于可见光图像和低分辨率深度图像的语义分割方法 | |
Alshammari et al. | Multi-task learning for automotive foggy scene understanding via domain adaptation to an illumination-invariant representation | |
Zhang et al. | Transformer for the Building Segmentation of Urban Remote Sensing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |