CN116721420B - 一种电气设备紫外图像的语义分割模型构建方法及系统 - Google Patents
一种电气设备紫外图像的语义分割模型构建方法及系统 Download PDFInfo
- Publication number
- CN116721420B CN116721420B CN202311001158.6A CN202311001158A CN116721420B CN 116721420 B CN116721420 B CN 116721420B CN 202311001158 A CN202311001158 A CN 202311001158A CN 116721420 B CN116721420 B CN 116721420B
- Authority
- CN
- China
- Prior art keywords
- convolution
- output
- layer
- semantic segmentation
- segmentation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 116
- 238000010276 construction Methods 0.000 title claims abstract description 21
- 238000013138 pruning Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 47
- 238000010606 normalization Methods 0.000 claims description 38
- 230000004913 activation Effects 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000003062 neural network model Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 230000003213 activating effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000014759 maintenance of location Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 238000003709 image segmentation Methods 0.000 description 3
- 238000009413 insulation Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011897 real-time detection Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000825 ultraviolet detection Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0495—Quantised networks; Sparse networks; Compressed networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种电气设备紫外图像的语义分割模型构建方法及系统,方法包括:获取电气设备紫外图像集,对电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;根据训练子集构建语义分割模型,语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层基于改进的剪枝策略对语义分割模型进行剪枝操作,得到目标语义分割模型;根据测试子集和验证子集对目标语义分割模型进行测试和验证。通过引入改进SPPF空间金字塔结构实现多尺度信息提取,同时在语义分割模型解码部分嵌入改进CA注意力机制模块增强对关键特征信息的注意力。
Description
技术领域
本发明属于图像分割技术领域,尤其涉及一种电气设备紫外图像的语义分割模型构建方法及系统。
背景技术
长期裸露在恶劣环境中的电气设备易导致其绝缘性能下降,其绝缘性能下降会直接影响到电力系统安全稳定运行。电晕放电检测广泛应用新兴紫外检测技术,对电力设备进行定期巡检可以掌握设备绝缘情况从而避免事故发生。
由于传统图像语义分割算法(如Normalized cut、Forests、SVM)存在着诸多局限性在实际应用中每次运行只能割一次图片,为分割图像中多个物体则需要多次运行。传统分割算法效率低、准确度不高,与传统图像语义分割相比基于深度学习可以极大提高效率及语义分割的精度。
传统U-Net网络模型在紫外图像分割任务时存在着一些过分割以及欠分割的现象,申请号为CN202211659742.6的中国发明专利申请提出了一种基于UNet的电气设备紫外图像分割方法,该方法包括使用VGG16Net的卷积层代替U-Net网络编码部分,将编码部分末端卷积层替换成空洞空间金字塔池化模块,在跳跃联结部分加入改进SENet模块,该发明提高了紫外图像分割精度。但并未解决算法参数冗余、计算量大,其改进U-Net网络模型在边缘设备中推理速度慢,边缘设备资源无法支撑该算法实现实时检测。
发明内容
本发明提供一种电气设备紫外图像的语义分割模型构建方法级系统,用于解决现有算法模型在边缘设备中推理速度慢,未能满足边缘设备实时检测要求的技术问题。
第一方面,本发明提供一种电气设备紫外图像的语义分割模型构建方法,包括:
获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层,其中构建所述语义分割模型的具体步骤包括:
将所述训练子集中的电气设备紫外图像数据依序输入至第一卷积层C1和第二卷积层C2,得到第一输出结果,并将所述第一输出结果经过第一下采样层D1后依序输入至第三卷积层C3和第四卷积层C4,得到第二输出结果;
将所述第二输出结果经过第二下采样层D2依序输入至第五卷积层C5、改进SPPF空间金字塔结构和第六卷积层C6,得到第三输出结果;
将经过第一上采样层U1和改进CA注意力机制处理后的第三输出结果与所述第二输出结果进行堆叠融合,得到第四输出结果;
将所述第四输出结果依序输入至第七卷积层C7和第八卷积层C8并经过第二上采样层U2处理,得到第五输出结果,并将所述第五输出结果与所述第一输出结果进行堆叠融合,得到第六输出结果;
将第六输出结果依序输入至第九卷积层C9、第十卷积层C10和第十一卷积层C11,最终形成对称的语义分割模型;
基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型;
根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
第二方面,本发明提供一种电气设备紫外图像的语义分割模型构建系统,其特征在于,包括:
标注模块,配置为获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
构建模块,配置为根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层,其中构建所述语义分割模型的具体步骤包括:
将所述训练子集中的电气设备紫外图像数据依序输入至第一卷积层C1和第二卷积层C2,得到第一输出结果,并将所述第一输出结果经过第一下采样层D1后依序输入至第三卷积层C3和第四卷积层C4,得到第二输出结果;
将所述第二输出结果经过第二下采样层D2依序输入至第五卷积层C5、改进SPPF空间金字塔结构和第六卷积层C6,得到第三输出结果;
将经过第一上采样层U1和改进CA注意力机制处理后的第三输出结果与所述第二输出结果进行堆叠融合,得到第四输出结果;
将所述第四输出结果依序输入至第七卷积层C7和第八卷积层C8并经过第二上采样层U2处理,得到第五输出结果,并将所述第五输出结果与所述第一输出结果进行堆叠融合,得到第六输出结果;
将第六输出结果依序输入至第九卷积层C9、第十卷积层C10和第十一卷积层C11,最终形成对称的语义分割模型;
剪枝模块,配置为基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型;
处理模块,配置为根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的电气设备紫外图像的语义分割模型构建方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行本发明任一实施例的电气设备紫外图像的语义分割模型构建方法的步骤。
本申请的电气设备紫外图像的语义分割模型构建方法及系统,具体以下有益效果:
采用普通卷积与分组卷积相结合代替一次普通卷积操作,并在语义分割模型的编码-解码结构联结处引入改进SPPF空间金字塔结构实现多尺度信息提取,同时在语义分割模型解码部分嵌入改进CA注意力机制模块增强对关键特征信息的注意力,并且在语义分割模型的卷积操作后加入了归一化操作同时对语义分割模型进行改进的剪枝策略进行网络模型压缩,实现语义分割模型的轻量化,加快网络模型推理速度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种电气设备紫外图像的语义分割模型构建方法的流程图;
图2为本发明一实施例提供一个具体实施例的语义分割模型的结构示意图;
图3为本发明一实施例提供的一具体实施例的改进SPPF空间金字塔结构的结构示意图;
图4为本发明一实施例提供的一种电气设备紫外图像的语义分割模型构建系统的结构框图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本申请的一种电气设备紫外图像的语义分割模型构建方法的流程图。
如图1所示,电气设备紫外图像的语义分割模型构建方法具体包括以下步骤:
步骤S101,获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集。
在本步骤中,采集电气设备紫外图像样本,使用labelme软件对紫外图像数据集进行图像标注。具体地,打开labelme软件,选择存储图像和标签文件的文件夹。选择要标注的图像文件,并点击"Open"按钮。图像加载完成,使用软件界面的工具来绘制被检测物的边界框。选择"Create RectBox"工具,在图像上点击并拖动以创建边界框。将标签文件保存到设置的保存标签文件的文件夹中。将标注好的数据集进行马赛克、翻转、旋转、图像插值等操作以达到扩充数据集目的,同时将数据集按照8:1:1的比例划分为训练集子、验证子集、测试子集。
步骤S102,根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层。
在本步骤中,如图2所示,语义分割模型由卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层组成。
构建所述语义分割模型的具体步骤包括:
将所述训练子集中的电气设备紫外图像数据依序输入至第一卷积层C1和第二卷积层C2,得到第一输出结果,并将所述第一输出结果经过第一下采样层D1后依序输入至第三卷积层C3和第四卷积层C4,得到第二输出结果;将所述第二输出结果经过第二下采样层D2依序输入至第五卷积层C5、改进SPPF空间金字塔结构和第六卷积层C6,得到第三输出结果;将经过第一上采样层U1和改进CA注意力机制处理后的第三输出结果与所述第二输出结果进行堆叠融合,得到第四输出结果;将所述第四输出结果依序输入至第七卷积层C7和第八卷积层C8并经过第二上采样层U2处理,得到第五输出结果,并将所述第五输出结果与所述第一输出结果进行堆叠融合,得到第六输出结果;将第六输出结果依序输入至第九卷积层C9、第十卷积层C10和第十一卷积层C11,最终形成对称的语义分割模型。
具体地,(1)第一卷积层C1:输入维度512×512×3,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为32,归一化处理,激活函数ReLU6,输出y1为512×512×32;输入维度512×512×32,卷积核大小为3×3,步长为1,卷积分组为32,输出通道数为32,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为512×512×32,将y1与y2在通道维度进行堆叠融合输出y3为512×512×64,重复上述步骤输出y4为512×512×64,将输出y3与y4相加得到最终输出Y1。
(2)第二卷积层C2:输入维度512×512×64,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为32,归一化处理,激活函数ReLU6,输出y1为512×512×32;输入维度512×512×32,卷积核大小为3×3,步长为1,卷积分组为32,输出通道数为32,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为512×512×32,将y1与y2在通道维度进行堆叠融合输出y3为512×512×64,重复上述步骤输出y4为512×512×64,将输出y3与y4相加得到最终输出Y2。
(3)第一下采样层D1:输入为512×512×64,卷积核为3×3,步长为2,填充方式为空白,输出通道数为64,输出大小为256×256×64。
(4)第三卷积层C3:输入维度256×256×64,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为64,归一化处理,激活函数ReLU6,输出y1为256×256×64;输入维度256×256×64,卷积核大小为3×3,步长为1,卷积分组为64,输出通道数为64,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为256×256×64,将y1与y2在通道维度进行堆叠融合输出y3为256×256×128,重复上述步骤输出y4为256×256×128,将输出y3与y4相加得到最终输出Y3。
(5)第四卷积层C4:输入维度256×256×64,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为64,归一化处理,激活函数ReLU6,输出y1为256×256×64;输入维度256×256×64,卷积核大小为3×3,步长为1,卷积分组为64,输出通道数为64,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为256×256×64,将y1与y2在通道维度进行堆叠融合输出y3为256×256×128,重复上述步骤输出y4为256×256×128,将输出y3与y4相加得到最终输出Y4。
(6)第二下采样层D2:输入为256×256×128,卷积核为3×3,步长为2,填充方式为空白,输出通道数为128,输出大小为128×128×128。
(7)第五卷积层C5:输入维度128×128×128,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为128,归一化处理,激活函数ReLU6,输出y1为128×128×128;输入维度128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为128×128×128,将y1与y2在通道维度进行堆叠融合输出y3为128×128×256,重复上述步骤输出y4为128×128×256,将输出y3与y4相加得到最终输出Y5。
(8)改进SPPF空间金字塔结构包括:卷积子层、多级池化层和堆叠层。如图3所示,原始空间金字塔结构的卷积层采用普通卷积进行特征提取,采用SiLu作为激活函数。改进后的空间金字塔结构在卷积层中采用普通卷积与分组卷积减少参数量和计算复杂度。普通卷积参数量较大,计算复杂度高。普通卷积需要对输入特征图的每个位置都进行计算,导致参数数量较多。可能引起过拟合。由于参数量较大,普通卷积容易在小样本数据集上发生过拟合现象。分组卷积将输入特征图分成多个组,每个组使用独立的卷积核进行卷积操作,从而减少了参数量和计算量加速计算。同时分组卷积可以在多个计算设备上并行计算,提高计算效率。因此在卷积层中采用普通卷积与分组卷积交替堆叠方式进行特征提取。容易产生梯度爆炸。在某些情况下,Silu激活函数可能导致梯度值过大,使得网络训练不稳定。对于负数输入,输出接近于0。当输入为负数时,Silu激活函数的输出接近于0,这可能导致信息丢失和模型性能下降。ReLU非线性表达能力强,ReLU6激活函数能够有效地处理非线性关系,有助于提取复杂的特征。抑制梯度爆炸,ReLU6激活函数可以限制梯度的上限,减少梯度爆炸的问题。因此采用ReLU6作为激活函数。
具体地,改进SPPF空间金字塔结构为:x1输入维度为128×128×256,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为256,归一化处理,激活函数ReLU6,输出y1为128×128×128;输入维度128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为128×128×128,将y1与y2在通道维度进行堆叠融合输出y3为128×128×256,同时将输入数据x1与y3相加得到y4(128×128×256),最大池化操作,卷积核大小为5×5,步长为1,填充方式为空白,输出y5(128×128×256),最大池化操作,卷积核大小为9×9,步长为1,填充方式为空白,输出y6(128×128×256),最大池化操作,卷积核大小为13×13,步长为1,填充方式为空白,输出y7(128×128×256),将y4、y5、y6、y7在通道维度进行堆叠融合,x2输入维度为128×128×1024,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为128,归一化处理,激活函数ReLU6,输出y8为128×128×128;输入维度128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y9为128×128×128,将y8与y9在通道维度进行堆叠融合输出y10为128×128×256。
(9)第六卷积层C6:输入维度128×128×256,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为64,归一化处理,激活函数ReLU6,输出y1为128×128×64;输入维度128×128×64,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为128×128×64,将y1与y2在通道维度进行堆叠融合输出y3为128×128×128,重复上述步骤输出y4为128×128×128,将输出y3与y4相加得到最终输出Y6(128×128×128)。
(10)第一上采样层U1:采用最邻近插值法实现输入数据提升特征维度,输出尺寸(256×256×128)。
(11)改进CA注意力机制:采用ReLU6作为非线性激活函数,输入数据256×256×128,根据输入特征图的尺寸,生成对应的坐标矩阵,用于后续的计算。坐标嵌入:将坐标矩阵嵌入到一个低维空间中,以便于后续的计算。这里可以使用一个全连接层或者一个卷积层来实现。特征嵌入:将输入特征图嵌入到同样的低维空间中,以便于后续的计算。这里同样可以使用一个全连接层或者一个卷积层来实现。坐标注意力计算:将坐标嵌入和特征嵌入相乘,得到一个坐标注意力矩阵。这个矩阵可以看做是对输入特征图中每个位置的注意力权重。特征注意力计算:将输入特征图和坐标注意力矩阵相乘,得到一个特征注意力矩阵。这个矩阵可以看做是对输入特征图中每个位置的特征权重,输出数据维度256×256×128。将输出数据与Y4堆叠融合得到256×256×256的输出数据。
(12)第七卷积层C7:输入维度256×256×256,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为64,归一化处理,激活函数ReLU6,输出y1为256×256×64输入维度256×256×64,卷积核大小为3×3,步长为1,卷积分组为64,输出通道数为64,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为256×256×64,将y1与y2在通道维度进行堆叠融合输出y3为256×256×128,重复上述步骤输出y4为256×256×128,将输出y3与y4相加得到最终输出Y7(256×256×128)。
(13)第八卷积层C8:输入维度256×256×128,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为32,归一化处理,激活函数ReLU6,输出y1为256×256×32输入维度256×256×32,卷积核大小为3×3,步长为1,卷积分组为64,输出通道数为64,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为256×256×32,将y1与y2在通道维度进行堆叠融合输出y3为256×256×64,重复上述步骤输出y4为256×256×64,将输出y3与y4相加得到最终输出Y8(256×256×64)。
(14)第二上采样层U2:采用最邻近插值法实现输入数据提升特征维度,输出数据尺寸(512×512×64),将输出数据与Y2堆叠融合得到(512×512×128)的输出数据。
(15)第九卷积层C9:输入维度512×512×128,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为32,归一化处理,激活函数ReLU6,输出y1为512×512×32,输入维度512×512×32,卷积核大小为3×3,步长为1,卷积分组为32,输出通道数为32,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为512×512×32,将y1与y2在通道维度进行堆叠融合输出y3为512×512×64,重复上述步骤输出y4为512×512×64,将输出y3与y4相加得到最终输出Y9(512×512×64)。
(16)第十卷积层C10:输入维度512×512×128,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为32,归一化处理,激活函数ReLU6,输出y1为512×512×32,输入维度512×512×32,卷积核大小为3×3,步长为1,卷积分组为32,输出通道数为32,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为512×512×32,将y1与y2在通道维度进行堆叠融合输出y3为512×512×64,重复上述步骤输出y4为512×512×64,将输出y3与y4相加得到最终输出Y10(512×512×64)。
(17)第十一卷积层C11:输入维度512×512×64,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为(n+1),n可分割目标种类,激活函数ReLU6,输出Y11为512×512×(n+1)。
跳跃连接层:在构建语义分割模型时,加入自筛选跳跃连接层可以起到重要的作用,跳跃连接层在语义分割模型剪枝后按照设定保留率对其跳跃连接层自动筛选。对于连接输入与输出特征图长宽维度相同的跳跃连接层,对输入特征图采用1×1卷积核进行一次卷积操作,以确保输出通道数与输出特征图通道数保持一致。在卷积操作后,我们可以加入归一化层以及ReLU6激活函数进行进一步的处理后与输出特征图进行相加。这样的设计可以帮助网络更好地学习特征表示,提升模型的表达能力。对于连接输入与输出特征图长宽维度不同的跳跃连接层,不同特征图输出维度相差2^n倍(n为1,2),对输入特征图采用3×3卷积核步长为2的卷积操作再通过ReLU6激活函数进一步处理,重复该卷积操作n次后,使用1×1卷积核步长为1的卷积操作加入归一化层同时通过ReLU6激活函数进行非线性变换后与输出特征图进行相加。跳跃连接层加入至语义分割模型编码部分:Ci输出至Cj输出(i为1-10,j为i-10如i为1时: C1输出至C2输出、C1输出至C3输出……C1输出至C10输出)。
步骤S103,基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型。
在本步骤中,在语义分割模型稀疏化训练中,引入影响因子作为剪枝的基础评判依据,并对影响因子进行L1正则化。
剪枝具体操作如下:
对神经网络模型进行稀疏训练,保证影响因子得到充分的稀疏化;
对卷积层中归一化层的影响因子a进行S(x)=1/(1+e-a) 计算后对特征图中通道数相关联的S(x)求均值得到A,第一卷积层C1、第二卷积层C2、…、第十卷积层C10所关联的A值分别为A1、A2、…、A10,依照设定的卷积层剪枝率进行剪枝,在神经网络模型编码结构中将输出特征图长宽尺寸一致的卷积层划分为一组,即(C1,C2),(C3,C4)为一组以此类推,其对应的A值也划分为一组如(A1,A2)为一组,(A3,A4)为一组以此类推;
当剪枝率设定小于0.5时,将每组中最小A值取出进行排序,按照设定剪枝率计算出剪枝阀值,将参与A值排序且A值低于剪枝阀值/>所关联的卷积层进行删除;
当剪枝率设定大于0.5时,对全局A值进行排序,按照设定剪枝率计算出剪枝阀值,将低于剪枝阀值/>的卷积层移除,一组对应的卷积层如全被移除则采用卷积核大小为1×1,通道数为N,步长为1,无填充的卷积操作替换被删除的卷积层所在的组相对应的两个卷积层,对于与被移除的卷积层相关联的跳跃连接层也一同移除;
在卷积层剪枝后,再次对神经网络模型进行通道剪枝,神经网络模型中每个卷积层都采用普通卷积与分组卷积交替堆叠的方式进行特征提取,在对其进行通道剪枝时,根据全局每个普通卷积操作后归一化层的影响因子进行排序,根据设定的剪枝率计算出影响因子阀值;
将低于影响因子阀值的低影响因子关联的通道进行剔除,同时在通道剪枝时设定卷积层保护措施,通道剪枝后每个卷积核通道数大于零;
对剪枝后的模型进行50次的微调训练,得轻量化神经网络模型。
自筛选跳跃连接层筛选:对跳跃连接层中的归一化层的影响因子a进行S(x)=1/(1+e-a) 计算后对特征图中通道数相关联的S(x)求均值得到A,对全局的跳跃连接层中的A进行排序按照设定保留率计算出保留阀值,将不满足保留阀值的跳跃连接层进行剔除。
对模型进行50次微调训练,得到最终神经网络模型。
步骤S104,根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
综上,本申请的方法,采用普通卷积与分组卷积相结合代替一次普通卷积操作,并在语义分割模型的编码-解码结构联结处引入改进SPPF空间金字塔结构实现多尺度信息提取,同时在语义分割模型解码部分嵌入改进CA注意力机制模块增强对关键特征信息的注意力,并且在语义分割模型的卷积操作后加入了归一化操作同时对语义分割模型进行改进的剪枝策略进行网络模型压缩,实现语义分割模型的轻量化,加快网络模型推理速度。
请参阅图4,其示出了本申请的一种电气设备紫外图像的语义分割模型构建系统的结构框图。
如图4所示,语义分割模型构建系统200,包括标注模块210、构建模块220、剪枝模块230以及处理模块240。
其中,标注模块210,配置为获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
构建模块220,配置为根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层,其中构建所述语义分割模型的具体步骤包括:
将所述训练子集中的电气设备紫外图像数据依序输入至第一卷积层C1和第二卷积层C2,得到第一输出结果,并将所述第一输出结果经过第一下采样层D1后依序输入至第三卷积层C3和第四卷积层C4,得到第二输出结果;
将所述第二输出结果经过第二下采样层D2依序输入至第五卷积层C5、改进SPPF空间金字塔结构和第六卷积层C6,得到第三输出结果;
将经过第一上采样层U1和改进CA注意力机制处理后的第三输出结果与所述第二输出结果进行堆叠融合,得到第四输出结果;
将所述第四输出结果依序输入至第七卷积层C7和第八卷积层C8并经过第二上采样层U2处理,得到第五输出结果,并将所述第五输出结果与所述第一输出结果进行堆叠融合,得到第六输出结果;
将第六输出结果依序输入至第九卷积层C9、第十卷积层C10和第十一卷积层C11,最终形成对称的语义分割模型;
剪枝模块230,配置为基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型;
处理模块240,配置为根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
应当理解,图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序指令被处理器执行时,使所述处理器执行上述任意方法实施例中的电气设备紫外图像的语义分割模型构建方法;
作为一种实施方式,本发明的计算机可读存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层;
基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型;
根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电气设备紫外图像的语义分割模型构建系统的使用所创建的数据等。此外,计算机可读存储介质可以包括高速随机存取存储器,还可以包括存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电气设备紫外图像的语义分割模型构建系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个处理器310以及存储器320。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器320为上述的计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例电气设备紫外图像的语义分割模型构建方法。输入装置330可接收输入的数字或字符信息,以及产生与电气设备紫外图像的语义分割模型构建系统的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
上述电子设备可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于电气设备紫外图像的语义分割模型构建系统中,用于客户端,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层;
基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型;
根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种电气设备紫外图像的语义分割模型构建方法,其特征在于,包括:
获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层,其中,所述改进SPPF空间金字塔结构包括:
输入维度为128×128×256,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为256,归一化处理,激活函数ReLU6,输出y1为128×128×128;
输入维度为128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为128×128×128;
将y1与y2在通道维度进行堆叠融合输出y3为128×128×256;
同时将输入数据x1与y3相加得到y4为128×128×256,最大池化操作,卷积核大小为5×5,步长为1,填充方式为空白,输出y5为128×128×256,其中,输入数据x1为改进SPPF空间金字塔结构的输入数据;
最大池化操作,卷积核大小为9×9,步长为1,填充方式为空白,输出y6为128×128×256;
最大池化操作,卷积核大小为13×13,步长为1,填充方式为空白,输出y7为128×128×256,并将y4、y5、y6、y7在通道维度进行堆叠融合;
输入维度为128×128×1024,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为128,归一化处理,激活函数ReLU6,输出y8为128×128×128;
输入维度128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y9为128×128×128,
将y8与y9在通道维度进行堆叠融合输出y10为128×128×256;
所述改进CA注意力机制具体为:
采用ReLU6作为非线性激活函数,输入数据256×256×128,根据输入特征图的尺寸,生成对应的坐标矩阵;
将坐标矩阵嵌入到第一低维空间中,以及将输入特征图嵌入到第二低维空间中,分别得到坐标嵌入和特征嵌入;
将坐标嵌入和特征嵌入相乘,得到一坐标注意力矩阵,并将输入特征图和坐标注意力矩阵相乘,得到一个特征注意力矩阵,所述特征注意力矩阵的输出数据的维度256×256×128;
将所述输出数据与第四卷积层C4的输出堆叠融合,得到256×256×256的目标输出数据;
构建所述语义分割模型的具体步骤包括:
将所述训练子集中的电气设备紫外图像数据依序输入至第一卷积层C1和第二卷积层C2,得到第一输出结果,并将所述第一输出结果经过第一下采样层D1后依序输入至第三卷积层C3和第四卷积层C4,得到第二输出结果;
将所述第二输出结果经过第二下采样层D2依序输入至第五卷积层C5、改进SPPF空间金字塔结构和第六卷积层C6,得到第三输出结果;
将经过第一上采样层U1和改进CA注意力机制处理后的第三输出结果与所述第二输出结果进行堆叠融合,得到第四输出结果;
将所述第四输出结果依序输入至第七卷积层C7和第八卷积层C8并经过第二上采样层U2处理,得到第五输出结果,并将所述第五输出结果与所述第一输出结果进行堆叠融合,得到第六输出结果;
将第六输出结果依序输入至第九卷积层C9、第十卷积层C10和第十一卷积层C11,最终形成对称的语义分割模型;
基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型,其中,所述基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型包括:
对神经网络模型进行稀疏训练,保证影响因子得到充分的稀疏化;
对卷积层中归一化层的影响因子a进行S(x)=1/(1+e-a) 计算后对特征图中通道数相关联的S(x)求均值得到A,第一卷积层C1、第二卷积层C2、…、第十卷积层C10所关联的A值分别为A1、A2、…、A10,依照设定的卷积层剪枝率进行剪枝,在神经网络模型编码结构中将输出特征图长宽尺寸一致的卷积层划分为一组,即(C1,C2),(C3,C4)为一组以此类推,其对应的A值也划分为一组如(A1,A2)为一组,(A3,A4)为一组以此类推;
当剪枝率设定小于0.5时,将每组中最小A值取出进行排序,按照设定剪枝率计算出剪枝阀值,将参与A值排序且A值低于剪枝阀值/>所关联的卷积层进行删除;
当剪枝率设定大于0.5时,对全局A值进行排序,按照设定剪枝率计算出剪枝阀值,将低于剪枝阀值/>的卷积层移除,一组对应的卷积层如全被移除则采用卷积核大小为1×1,通道数为N,步长为1,无填充的卷积操作替换被删除的卷积层所在的组相对应的两个卷积层,对于与被移除的卷积层相关联的跳跃连接层也一同移除;
在卷积层剪枝后,再次对神经网络模型进行通道剪枝,神经网络模型中每个卷积层都采用普通卷积与分组卷积交替堆叠的方式进行特征提取,在对其进行通道剪枝时,根据全局每个普通卷积操作后归一化层的影响因子进行排序,根据设定的剪枝率计算出影响因子阀值;
将低于影响因子阀值的低影响因子关联的通道进行剔除,同时在通道剪枝时设定卷积层保护措施,通道剪枝后每个卷积核通道数大于零;
对剪枝后的语义分割模型进行微调训练,得到目标语义分割模型;
根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
2.根据权利要求1所述的一种电气设备紫外图像的语义分割模型构建方法,其特征在于,所述卷积层包括普通卷积子层、分组卷积子层以及跳跃连接层。
3.根据权利要求1所述的一种电气设备紫外图像的语义分割模型构建方法,其特征在于,所述第一上采样层U1采用最邻近插值法对输入数据进行提升特征维度操作,输出尺寸为256×256×128;
第二上采样层U2采用最邻近插值法对输入数据进行提升特征维度操作,输出数据尺寸为512×512×64。
4.根据权利要求1所述的一种电气设备紫外图像的语义分割模型构建方法,其特征在于,所述第一下采样层D1的输入为512×512×64,卷积核为3×3,步长为2,填充方式为空白,输出通道数为64,输出大小为256×256×64;
所述第二下采样层D2的输入为256×256×128,卷积核为3×3,步长为2,填充方式为空白,输出通道数为128,输出大小为128×128×128。
5.一种电气设备紫外图像的语义分割模型构建系统,其特征在于,包括:
标注模块,配置为获取电气设备紫外图像集,对所述电气设备紫外图像集中的各个电气设备紫外图像进行图像标注,并将标注后的电气设备紫外图像集划分为训练子集、测试子集和验证子集;
构建模块,配置为根据所述训练子集构建语义分割模型,所述语义分割模型包括卷积层、改进SPPF空间金字塔结构、改进CA注意力机制、下采样层以及上采样层,其中,所述改进SPPF空间金字塔结构包括:
输入维度为128×128×256,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为256,归一化处理,激活函数ReLU6,输出y1为128×128×128;
输入维度为128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y2为128×128×128;
将y1与y2在通道维度进行堆叠融合输出y3为128×128×256;
同时将输入数据x1与y3相加得到y4为128×128×256,最大池化操作,卷积核大小为5×5,步长为1,填充方式为空白,输出y5为128×128×256,其中,输入数据x1为改进SPPF空间金字塔结构的输入数据;
最大池化操作,卷积核大小为9×9,步长为1,填充方式为空白,输出y6为128×128×256;
最大池化操作,卷积核大小为13×13,步长为1,填充方式为空白,输出y7为128×128×256,并将y4、y5、y6、y7在通道维度进行堆叠融合;
输入维度为128×128×1024,卷积核大小为3×3,步长为1,填充方式为空白,输出通道数为128,归一化处理,激活函数ReLU6,输出y8为128×128×128;
输入维度128×128×128,卷积核大小为3×3,步长为1,卷积分组为128,输出通道数为128,填充方式为空白,归一化处理,激活函数ReLU6,输出y9为128×128×128,
将y8与y9在通道维度进行堆叠融合输出y10为128×128×256;
所述改进CA注意力机制具体为:
采用ReLU6作为非线性激活函数,输入数据256×256×128,根据输入特征图的尺寸,生成对应的坐标矩阵;
将坐标矩阵嵌入到第一低维空间中,以及将输入特征图嵌入到第二低维空间中,分别得到坐标嵌入和特征嵌入;
将坐标嵌入和特征嵌入相乘,得到一坐标注意力矩阵,并将输入特征图和坐标注意力矩阵相乘,得到一个特征注意力矩阵,所述特征注意力矩阵的输出数据的维度256×256×128;
将所述输出数据与第四卷积层C4的输出堆叠融合,得到256×256×256的目标输出数据;
构建所述语义分割模型的具体步骤包括:
将所述训练子集中的电气设备紫外图像数据依序输入至第一卷积层C1和第二卷积层C2,得到第一输出结果,并将所述第一输出结果经过第一下采样层D1后依序输入至第三卷积层C3和第四卷积层C4,得到第二输出结果;
将所述第二输出结果经过第二下采样层D2依序输入至第五卷积层C5、改进SPPF空间金字塔结构和第六卷积层C6,得到第三输出结果;
将经过第一上采样层U1和改进CA注意力机制处理后的第三输出结果与所述第二输出结果进行堆叠融合,得到第四输出结果;
将所述第四输出结果依序输入至第七卷积层C7和第八卷积层C8并经过第二上采样层U2处理,得到第五输出结果,并将所述第五输出结果与所述第一输出结果进行堆叠融合,得到第六输出结果;
将第六输出结果依序输入至第九卷积层C9、第十卷积层C10和第十一卷积层C11,最终形成对称的语义分割模型;
剪枝模块,配置为基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型,其中,所述基于改进的剪枝策略对所述语义分割模型进行剪枝操作,得到目标语义分割模型包括:
对神经网络模型进行稀疏训练,保证影响因子得到充分的稀疏化;
对卷积层中归一化层的影响因子a进行S(x)=1/(1+e-a) 计算后对特征图中通道数相关联的S(x)求均值得到A,第一卷积层C1、第二卷积层C2、…、第十卷积层C10所关联的A值分别为A1、A2、…、A10,依照设定的卷积层剪枝率进行剪枝,在神经网络模型编码结构中将输出特征图长宽尺寸一致的卷积层划分为一组,即(C1,C2),(C3,C4)为一组以此类推,其对应的A值也划分为一组如(A1,A2)为一组,(A3,A4)为一组以此类推;
当剪枝率设定小于0.5时,将每组中最小A值取出进行排序,按照设定剪枝率计算出剪枝阀值,将参与A值排序且A值低于剪枝阀值/>所关联的卷积层进行删除;
当剪枝率设定大于0.5时,对全局A值进行排序,按照设定剪枝率计算出剪枝阀值,将低于剪枝阀值/>的卷积层移除,一组对应的卷积层如全被移除则采用卷积核大小为1×1,通道数为N,步长为1,无填充的卷积操作替换被删除的卷积层所在的组相对应的两个卷积层,对于与被移除的卷积层相关联的跳跃连接层也一同移除;
在卷积层剪枝后,再次对神经网络模型进行通道剪枝,神经网络模型中每个卷积层都采用普通卷积与分组卷积交替堆叠的方式进行特征提取,在对其进行通道剪枝时,根据全局每个普通卷积操作后归一化层的影响因子进行排序,根据设定的剪枝率计算出影响因子阀值;
将低于影响因子阀值的低影响因子关联的通道进行剔除,同时在通道剪枝时设定卷积层保护措施,通道剪枝后每个卷积核通道数大于零;
对剪枝后的语义分割模型进行微调训练,得到目标语义分割模型;
处理模块,配置为根据所述测试子集和所述验证子集对所述目标语义分割模型进行测试和验证。
6.一种电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至4任一项所述的方法。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311001158.6A CN116721420B (zh) | 2023-08-10 | 2023-08-10 | 一种电气设备紫外图像的语义分割模型构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311001158.6A CN116721420B (zh) | 2023-08-10 | 2023-08-10 | 一种电气设备紫外图像的语义分割模型构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116721420A CN116721420A (zh) | 2023-09-08 |
CN116721420B true CN116721420B (zh) | 2023-10-20 |
Family
ID=87872018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311001158.6A Active CN116721420B (zh) | 2023-08-10 | 2023-08-10 | 一种电气设备紫外图像的语义分割模型构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721420B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474070B (zh) * | 2023-12-26 | 2024-04-23 | 苏州元脑智能科技有限公司 | 模型剪枝方法、人脸识别模型训练方法及人脸识别方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN111209808A (zh) * | 2019-12-25 | 2020-05-29 | 北京航空航天大学杭州创新研究院 | 一种基于分层处理的无人机图像语义分割识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113240683A (zh) * | 2021-06-08 | 2021-08-10 | 北京航空航天大学 | 基于注意力机制的轻量化语义分割模型构建方法 |
CN114898273A (zh) * | 2022-05-31 | 2022-08-12 | 西安航天动力研究所 | 一种视频监控异常检测方法、装置及设备 |
CN115272894A (zh) * | 2022-08-01 | 2022-11-01 | 北京工业大学 | 面向无人机图像目标检测方法、装置、电子设备及存储介质 |
WO2022227913A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于物联网感知的双特征融合的语义分割系统及方法 |
CN115423739A (zh) * | 2022-05-17 | 2022-12-02 | 东莞理工学院 | 基于SimpleBaseline的遥操作机械臂关键点的检测方法 |
WO2023273026A1 (zh) * | 2021-06-29 | 2023-01-05 | 上海商汤智能科技有限公司 | 语义分割方法、装置、电子设备和计算机可读存储介质 |
CN116051831A (zh) * | 2022-12-22 | 2023-05-02 | 上海欣能信息科技发展有限公司 | 基于VSA-UNet的电气设备紫外图像分割方法 |
CN116486080A (zh) * | 2023-04-10 | 2023-07-25 | 桂林电子科技大学 | 一种基于深度学习的轻量化图像语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461998B2 (en) * | 2019-09-25 | 2022-10-04 | Samsung Electronics Co., Ltd. | System and method for boundary aware semantic segmentation |
-
2023
- 2023-08-10 CN CN202311001158.6A patent/CN116721420B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111127493A (zh) * | 2019-11-12 | 2020-05-08 | 中国矿业大学 | 基于注意力多尺度特征融合的遥感图像语义分割方法 |
CN111209808A (zh) * | 2019-12-25 | 2020-05-29 | 北京航空航天大学杭州创新研究院 | 一种基于分层处理的无人机图像语义分割识别方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
WO2022227913A1 (zh) * | 2021-04-25 | 2022-11-03 | 浙江师范大学 | 一种基于物联网感知的双特征融合的语义分割系统及方法 |
CN113240683A (zh) * | 2021-06-08 | 2021-08-10 | 北京航空航天大学 | 基于注意力机制的轻量化语义分割模型构建方法 |
WO2023273026A1 (zh) * | 2021-06-29 | 2023-01-05 | 上海商汤智能科技有限公司 | 语义分割方法、装置、电子设备和计算机可读存储介质 |
CN115423739A (zh) * | 2022-05-17 | 2022-12-02 | 东莞理工学院 | 基于SimpleBaseline的遥操作机械臂关键点的检测方法 |
CN114898273A (zh) * | 2022-05-31 | 2022-08-12 | 西安航天动力研究所 | 一种视频监控异常检测方法、装置及设备 |
CN115272894A (zh) * | 2022-08-01 | 2022-11-01 | 北京工业大学 | 面向无人机图像目标检测方法、装置、电子设备及存储介质 |
CN116051831A (zh) * | 2022-12-22 | 2023-05-02 | 上海欣能信息科技发展有限公司 | 基于VSA-UNet的电气设备紫外图像分割方法 |
CN116486080A (zh) * | 2023-04-10 | 2023-07-25 | 桂林电子科技大学 | 一种基于深度学习的轻量化图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
Semantic Segmentation of Traffic Scene Based on DeepLabv3+ and Attention Mechanism;Yuan Zhang等;2023 3rd International Conference on Neural Networks, Information and Communication Engineering (NNICE);全文 * |
基于多尺度信息融合的图像识别改进算法;车翔玖;董有政;;吉林大学学报(工学版)(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116721420A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111615702B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
CN111598860B (zh) | 基于嵌入自注意力门模块的yolov3网络的锂电池缺陷检测方法 | |
CN112001498A (zh) | 基于量子计算机的数据识别方法、装置及可读存储介质 | |
CN116721420B (zh) | 一种电气设备紫外图像的语义分割模型构建方法及系统 | |
WO2023236977A1 (zh) | 一种数据处理方法及相关设备 | |
CN112199536A (zh) | 一种基于跨模态的快速多标签图像分类方法和系统 | |
Zeng et al. | LEARD-Net: Semantic segmentation for large-scale point cloud scene | |
CN115438215A (zh) | 图文双向搜索及匹配模型训练方法、装置、设备及介质 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN112529069A (zh) | 一种半监督节点分类方法、系统、计算机设备和存储介质 | |
CN113220876A (zh) | 一种用于英文文本的多标签分类方法及系统 | |
CN110489423A (zh) | 一种信息抽取的方法、装置、存储介质及电子设备 | |
CN114821096A (zh) | 一种图像处理方法、神经网络的训练方法以及相关设备 | |
CN113642716A (zh) | 深度变分自编码器模型训练方法、装置、设备和存储介质 | |
CN115016965A (zh) | 计量自动化主站的故障检测方法、装置、设备及存储介质 | |
CN110209772A (zh) | 一种文本处理方法、装置、设备及可读存储介质 | |
CN114241524A (zh) | 人体姿态估计方法、装置、电子设备及可读存储介质 | |
WO2018101958A1 (en) | Fuzzy input for autoencoders | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN111612046A (zh) | 特征金字塔图卷积神经网络及其在3d点云分类中的应用 | |
CN114819096A (zh) | 模型训练方法、装置、电子设备及存储介质 | |
CN110457703B (zh) | 一种基于改进卷积神经网络的文本分类方法、装置和设备 | |
CN112766462A (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN113591567A (zh) | 目标检测方法、目标检测模型的训练方法及其装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |