CN117952985A - 基于缺陷检测场景下提升信息复用的图像数据处理方法 - Google Patents
基于缺陷检测场景下提升信息复用的图像数据处理方法 Download PDFInfo
- Publication number
- CN117952985A CN117952985A CN202410354546.0A CN202410354546A CN117952985A CN 117952985 A CN117952985 A CN 117952985A CN 202410354546 A CN202410354546 A CN 202410354546A CN 117952985 A CN117952985 A CN 117952985A
- Authority
- CN
- China
- Prior art keywords
- feature map
- feature
- convolution
- module
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 230000007547 defect Effects 0.000 title claims abstract description 50
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 230000006870 function Effects 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 25
- 230000004927 fusion Effects 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 abstract description 5
- 230000002411 adverse Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 abstract description 4
- 230000003213 activating effect Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于缺陷检测场景下提升信息复用的图像数据处理方法,采用交叉熵函数、卷积神经网络架构等技术组合,其中卷积神经网络架构使用的是YOLOv5架构,主要包括Focus、CBS等模块。本发明还采用SiLU激活函数、批量标准化及Sigmoid函数进行优化,以保障训练出性能更好的表面缺陷检测模型,同时可以进行快速运算,减少训练时间,生成的模型可以对复杂的工业场景下的表面缺陷目标进行实时检测,本发明可以使得检测网络更加注重于加强空间信息以及通道信息之间的联系以及有效抑制了检测过程中相似的背景信息对表面缺陷检测带来的不利影响,并且在大幅提升检测网络的检测精度的同时仍能保持良好的实时性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于缺陷检测场景下提升信息复用的图像数据处理方法。
背景技术
目标检测是计算机视觉领域的重要问题之一,它可以应用于诸如自动驾驶、安防监控、人脸识别等领域。
表面缺陷检测一直以来都是工业应用领域中备受挑战的难题。这一挑战的本质在于,表面缺陷常常呈现出形状不规则、尺寸多变、分布不均以及颜色变化多端等特征,这些特征共同作用导致了表面缺陷的准确检测变得困难重重。
在工业应用场景下,表面缺陷检测任务常常面临高度相似性的挑战。在这个背景下,表面缺陷的相似性通常呈现出两种不同的模式:类内缺陷展示出显著差异,而类间缺陷则可能呈现一定的相似性。具体而言,类内缺陷,尽管属于同一类别,往往表现出多样性的特征。例如,针对划痕这一类型的缺陷,其可能表现为水平、垂直或倾斜等不同方向的特征。相反,某些类间缺陷则可能呈现出一定的相似性,增加了正确分类的难度。例如,被氧化的表面与经历过腐蚀的表面可能具有相似的外观特征。
基于卷积神经网络的深度学习方法已经成为先进图像分类技术在实现表面缺陷检测方面的有效工具,具备卓越的性能,包括更高的检测精度、更快的处理速度以及更强的适应性等显著优势。这些深度学习算法能够直接处理图像数据,能够自动地从复杂的表面缺陷中提取相关特征信息,从而为检测任务提供了更为有效的手段,传统卷积神经网络通过共享权值来减少计算,总是在各类检测任务中发挥着至关重要的作用。然而,通过有步长卷积操作进行的连续下采样将不可避免地会导致特征信息的丢失,从而不利于从特征图中获取足够的信息。
这个时候建立良好的基于缺陷检测场景下提升信息复用的图像数据处理方法,再结合工业应用中的钢材表面缺陷汇总数据集和YOLOv5网络,根据自身经验建立的多个训练模型,一方面减少卷积神经网络在下采样过程中信息的丢失,尽最大程度地保留特征图中的细粒程度信息,另一方面注意力机制的作用还能够使得卷积神经网络关注于更加重要的特征并抑制背景信息对检测过程的干扰;此外,通过对深层语义信息的高效多尺度融合使得网络能够提取出更深层次的隐藏特征信息。进而提高工业应用场景下表面缺陷检测的准确率和效率。当训练完毕后,生成的神经网络模型还可以做到面对新的数据集或实时图像,检测出其中各类缺陷,依然可以保持良好的检测准确率以及实时性,对工业应用中的多种缺陷检测领域都极具意义。
我们注意到表面缺陷检测存在的不仅仅是图片分辨率低,缺陷目标形状不规则、尺寸不一等问题,还在于在复杂背景下,背景信息可能对表面缺陷检测带来的影响的问题,并且我们还注意到交叉熵函数、轮次、PyTorch、SGD、注意力机制、特征增强方法,神经网络架构和改善传统卷积神经网络下采样时信息丢失的问题等技术手段都可以用来提高工业应用场景下表面缺陷检测的性能,但是如何充分利用这些技术的组合并改进它们,以适应工业应用场景下的表面缺陷检测问题,是一个重要而复杂的问题。
基于上述原因,本发明公开一种基于缺陷检测场景下提升信息复用的图像数据处理方法。
发明内容
本发明的目的是为了提供一种基于缺陷检测场景下提升信息复用的图像数据处理方法。本发明所要解决的技术问题在于有效缓解在卷积神经网络下采样过程中信息丢失的问题,尽最大程度地保留特征图中细粒程度的信息,以及通道注意力机制的捆绑能够使得网络更多地抑制复杂背景信息对表面缺陷检测的干扰,并且在空间换深度操作后尽可能地抓取特征信息,提升网络的特征表达能力,并且通过更多卷积层的作用以及多残差分支的融合使得网络能够挖掘更深层次的多尺度语义信息,并且残差分支的作用使得较为浅层富含较多初始特征和位置信息的特征图与较为深层富含更多语义信息的特征图进行融合,模型能够在保持良好的检测实时性的同时进一步提升特征表达能力,从而提升表面缺陷检测的精确度。
一种基于缺陷检测场景下提升信息复用的图像数据处理方法,包括以下步骤:S21:对输入网络的特征图进行切片采样操作,将形状为N × N × C1的特征图X采样到scale2个尺寸为N/scale × N/scale × C1的子特征图中,特征图X中的每个像素仍然保留在相应的子特征图中,其中特征图X的高和宽一致,均用N表示,C1表示特征图X和采样后的子特征图的通道数,scale表示采样因子。据采样规则采样后得到的scale2个子特征图,分别命名为:f0,0, f1,0, f0,1, f1,1, …, fscale-1,scale-1,其中,采样规则为:
;
其中,f和scale分别表示子特征图和特征图X上的切片操作的步幅,i和j分别是特征图X上输入矩阵中的行和列索引,i和j也代表特征图X上输入矩阵中每个元素的位置,N表示特征图X上输入矩阵的维度;
S22:沿着通道维度方向使用串联连接方式对得到的scale2个子特征图进行连接,得到沿通道拼接后的第一特征图,命名为X’,其形状为N/scale × N/scale × scale2C1;
S23:使用步长为1的卷积对第一特征图X’进行卷积操作,得到卷积后的第二特征图X’’,其形状为N/scale × N/scale × C2,C2为第二特征图X’’的通道数;
S24:第二特征图X’’进入C3模块,首先使用SiLU激活函数对输入数据即原始图像或特征图进行数字化处理,这一步包括将从输入中提取的特征转换为数字化形式,并增强特征的非线性表达,处理后的结果通过张量矩阵进行存储,随后经过 Sigmoid 激活函数实现张量矩阵的归一化处理,从而加快卷积神经网络收敛,其中SiLU激活函数的计算公式为:
;
其中Sigmoid激活函数计算公式为:
;
其中x为输入的张量矩阵,通过Sigmoid进行压缩,Sigmoid激活函数将张量矩阵的数据根据其范围,压缩到区间(0, 1)中的某个值,以保证归一化;
S25:归一化处理后的图像数据进入C3模块的瓶颈结构中,坐标注意力模块嵌入于C3模块的瓶颈结构中,坐标注意力模块置于瓶颈结构中的两个卷积核均为1×1的卷积模块之后,坐标注意力模块通过精确的位置信息对通道关系和长期依赖性进行编码,先将输入特征图分为高度和宽度两个方向分别进行全局平均池化,分别获得在高度和宽度两个方向的特征图,公式如下:
;
;
其中和/>分别表示在高度和宽度方向上对通道维度的全局平均池化结果,/>为输入图像在通道c处的特征图,尺寸为W×H×C,W、H和C分别表示宽、高和通道,i和j分别代表高和宽上的像素点位置,h和w分别代表全局平均池化结果中的高度和宽度索引。
接着将获得全局感受野的特征图沿着宽度和高度两个方向拼接在一起,之后将拼接后的特征图送入共享的卷积核为1×1的卷积模块,将拼接后的特征图的维度降低为原来的C/r,然后将经过批量归一化处理后的特征图送入Sigmoid激活函数得到形状为 1×(W+H)×C/r 的特征图,其中C为拼接后特征图的通道数,r表示对C进行降维的比例因子,W和H分别表示经过Sigmoid激活函数后的特征图的宽和高,全局感受野指在整个网络中某个层输出的单元所能感受到的输入图像区域的大小,为得到 1×(W+H)×C/r 的特征图,计算公式如下:
;
其中[ , ]表示沿着空间维度的串联操作,表示1×1的卷积功能,/>为非线性激活函数,最后得到的特征图记录为f1。
接着,对经过 Sigmoid 激活函数处理的特征图执行高度和宽度方向上的卷积操作,使用1×1的卷积核,分别生成两个特征图 Fh 和 Fw。这两个特征图的通道数与在宽度和高度方向进行全局平均池化后的特征图相一致,随后,这经过1×1卷积的特征图再次经过Sigmoid 激活函数处理,分别得到在高度和宽度上的注意力权重。
S26:在经过瓶颈结构中的坐标注意力模块的处理后,通过为特征图引入注意力权重,然后将结合注意力权重的输出结果与瓶颈结构外的另一残差分支相结合,另一残差分支仅经过一个卷积批归一化SiLU的集成模块,引入注意力权重的特征图再与另一残差分支输出的特征图通过串联操作融合,随后再通过一个卷积批归一化SiLU的集成模块,最终得到输出特征图;
进一步的,上述步骤S21和S22中对输入特征图进行了切片和重组操作,将输入特征图中的空间信息采样到了新特征图的通道维度中,从而使得卷积神经网络更加关注于特征图中空间信息与通道信息之间的联系,更加有利于在表面缺陷检测中捕捉空间信息与通道信息联系比较紧密的缺陷目标,从而提升目标检测精度。
进一步的,上述步骤S23中使用步长为1的卷积对特征图进行卷积操作,能够最大程度地减小通道降低的过程中信息的丢失,最大程度地保留原始特征图中最重要的信息,例如,如果使用步长为3的3×3卷积,则特征图中的每个像素只被采样一次,从而对特征图产生“收缩”效应。如果使用步幅为2则会导致采样不平衡,其中偶数行或列和奇数行或列的采样频率是不同的,所以使用步长为1的卷积能够最大程度地保留特征图中细粒程度的信息。
进一步的,上述步骤S24中的C3模块包含了3个卷积模块以及多个瓶颈结构,该结构是网络对残差特征进行学习的主要手段,其主要作用是在网络中结合不同尺度的特征图来提取更加丰富的特征信息,从而提升网络的特征提取能力。
进一步的,输入数据经过整个C3模块后仅仅改变其通道数,尤其是在瓶颈结构中,通道数先减小再扩大,具体做法是先进行1×1卷积将通道数减小一半,再通过3×3卷积将通道数加倍,并使用两个卷积模块提取特征,最后再通过坐标注意力模块,其输入与输出的通道数是不发生改变的。
进一步的,上述步骤S25中的C3模块中的瓶颈数量随网络参数的设置而在主干部分和颈部部分的各个位置处各有不同,瓶颈结构中包含两个卷积模块。此外,网络中主干部分的瓶颈结构包含短接操作,而在网络中颈部部分的瓶颈结构不包含短接操作,瓶颈结构的作用是对C3模块中的残差特征进行进一步的学习与提取,更加增益了网络对于残差特征的特征提取能力,此外,全局感受野的实现通常依赖于合并多个尺度的特征图,以确保网络更多地能够关注到检测目标的各种尺寸和位置信息,从而能够使得网络更好地理解特征图中的整体结构和语义信息。
进一步的,上述步骤S21,S22,S23和S26中,输入特征图在经过采样和串联拼接之后,原始特征图中的所有像素都得以保留,即信息没有任何丢失,而在步长为1的卷积操作过程中,因通道数的大幅下降可能会导致重要信息的大量丢失。因此在C3模块的瓶颈结构中嵌入坐标注意力模块,使得网络能够在步长为1的卷积操作之后,尽可能地抓取和保留更多重要的特征信息,并且通道注意力机制的引入能够使得卷积神经网络对更加重要的特征信息分配更多权重,从而抑制背景干扰信息对表面缺陷检测带来的不利影响,此外,串联融合是一种用于合并多个张量或特征图的操作,比如将多个张量沿着一个指定的轴进行拼接,形成一个更大的张量。
进一步的,还包括:
S27:在YOLOv5网络结构中SPPF模块的基础上使用更多的卷积操作层并且增加了一条残差分支以实现更丰富的多尺度信息的融合,将此使用更多的卷积操作层并且增加了一条残差分支后的SPPF模块命名为多尺度空间融合金字塔模块;
S28:输入特征图进入多尺度空间融合金字塔模块后,受两条分支作用,其中一条只经过一个卷积模块,另一分支首先经过两个卷积模块,然后经过池化核均为5的串联空间金字塔层以扩大特征图的感受野,并提取丰富的多尺度信息,随后再经过两个卷积模块以进一步更深层次地提取多尺度的语义信息;
S29:输入特征图经过两条分支作用后分别得到的两个特征图通过串联连接方式在通道维度上进行融合,融合完成后得到的特征图再经过一个卷积模块得到最终的特征图。
进一步的,上述步骤S27,S28和S29中,相比较原YOLOv5网络结构中SPPF模块,引入一条残差分支可以有助于网络捕捉基础特征,如较为浅层的位置信息、纹理信息等等,然后再与使用了更多的卷积模块的串联空间金字塔层输出的特征图进行融合,于是较为浅层的基础特征与较为深层的语义信息能够进行结合形成丰富的多尺度信息,旨在生成更丰富、多尺度的特征表达,为网络提供了更强大的语义信息提取能力,从而在表面缺陷目标检测等任务中提升了性能。
本发明的有益效果:
本发明建立一种良好的基于缺陷检测场景下提升信息复用的图像数据处理方法,再结合工业应用中的钢材表面缺陷汇总数据集和YOLOv5网络,根据自身经验建立的多个训练模型,一方面减少卷积神经网络在下采样过程中信息的丢失,尽最大程度地保留特征图中的细粒程度信息,另一方面注意力机制的作用还能够使得卷积神经网络关注于更加重要的特征并抑制背景信息对检测过程的干扰;此外,通过对深层语义信息的高效多尺度融合使得网络能够提取出更深层次的隐藏特征信息。进而提高工业应用场景下表面缺陷检测的准确率和效率。
附图说明
图1为本发明的空间换深度的卷积块模块流程示意图;
图2为本发明的嵌入坐标注意力的C3模块流程示意图;
图3为本发明中多尺度空间融合金字塔模块流程示意图;
图4为本发明中SiLU函数修正线性示意图;
图5为本发明中Sigmoid函数数据归一化示意图;
图6为本发明中基于缺陷检测场景下提升信息复用的图像数据处理方法的网络流程示意图。
具体实施方式
实施例
下面对本发明进一步清楚完整说明,本发明实施例提供一种基于缺陷检测场景下提升信息复用的图像数据处理方法,如图1至图6所示,包括以下步骤:S21:对输入网络的特征图进行切片采样操作,将形状为N × N × C1的特征图X采样到scale2个尺寸为N/scale× N/scale × C1的子特征图中,特征图X中的每个像素仍然保留在相应的子特征图中,其中特征图X的高和宽一致,均用N表示,C1表示特征图X和采样后的子特征图的通道数,scale表示采样因子。特征图X中的每个像素仍然保留在相应的子特征图中,具体流程如图1中对输入特征图做空间换深度操作过程所示。据采样规则采样后得到的scale2个子特征图,分别命名为:f0,0, f1,0, f0,1, f1,1, …, fscale-1,scale-1,其中,采样规则为:
;
其中,f和scale分别表示子特征图和特征图X上的切片操作的步幅,i和j分别是特征图X上输入矩阵中的行和列索引,i和j也代表特征图X上输入矩阵中每个元素的位置,N表示特征图X上输入矩阵的维度。
S22:沿着通道维度方向使用串联连接方式对得到的scale2个子特征图进行连接,得到沿通道拼接后的第一特征图,命名为X’,其形状为N/scale × N/scale × scale2C1;
S23:使用步长为1的卷积对第一特征图X’进行卷积操作,得到卷积后的第二特征图X’’,其形状为N/scale × N/scale × C2,C2为第二特征图X’’的通道数;
S24:第二特征图进入C3模块,首先使用SiLU激活函数对输入数据即原始图像或特征图进行数字化处理,这一步包括将从输入中提取的特征转换为数字化形式,并增强特征的非线性表达。处理后的结果通过张量矩阵进行存储,随后经过 Sigmoid 激活函数实现张量矩阵的归一化处理,从而加快卷积神经网络收敛,其中SiLU激活函数的计算公式为:
;
其中Sigmoid激活函数计算公式为:
;
其中x为输入的张量矩阵,通过Sigmoid进行压缩,Sigmoid激活函数将张量矩阵的数据根据其范围,压缩到区间(0, 1)中的某个值,以保证归一化。其中SiLU激活函数和Sigmoid激活函数曲线如图4至图5所示;
S25:归一化处理后的图像数据进入C3模块的瓶颈结构中,坐标注意力模块嵌入于C3模块的瓶颈结构中,坐标注意力模块置于瓶颈结构中的两个卷积核均为1×1的卷积模块之后,其中坐标注意力模块的嵌入位置如图2所示,坐标注意力模块通过精确的位置信息对通道关系和长期依赖性进行编码,先将输入特征图分为宽度和高度两个方向分别进行全局平均池化,分别获得在宽度和高度两个方向的特征图,公式如下:
;
;
其中和/>分别表示在高度和宽度方向上对通道维度的全局平均池化结果,/>为输入图像在通道c处的特征图,尺寸为W×H×C,W、H和C分别表示宽、高和通道,i和j分别代表高和宽上的像素点位置,h和w分别代表全局平均池化结果中的高度和宽度索引。
接着将获得全局感受野的特征图沿着宽度和高度两个方向拼接在一起,之后将拼接后的特征图送入共享的卷积核为1×1的卷积模块,将拼接后的特征图的维度降低为原来的C/r,然后将经过批量归一化处理后的特征图送入Sigmoid激活函数得到形状为 1×(W+H)×C/r 的特征图,其中C为拼接后特征图的通道数,r表示对C进行降维的比例因子,W和H分别表示经过Sigmoid激活函数后的特征图的宽和高,全局感受野指在整个网络中某个层输出的单元所能感受到的输入图像区域的大小,为得到 1×(W+H)×C/r 的特征图,计算公式如下:
;
其中[ , ]表示沿着空间维度的串联操作,表示1×1的卷积功能,/>为非线性激活函数,最后得到的特征图记录为f1。
接着,对经过 Sigmoid 激活函数处理的特征图执行高度和宽度方向上的卷积操作,使用1×1的卷积核,分别生成两个特征图 Fh 和 Fw。这两个特征图的通道数与在宽度和高度方向进行全局平均池化后的特征图相一致。随后,这经过1×1卷积的特征图再次经过Sigmoid 激活函数处理,分别得到在高度和宽度上的注意力权重;
S26:在经过瓶颈结构中的坐标注意力模块的处理后,通过为特征图引入注意力权重,然后将结合注意力权重的输出结果与瓶颈结构外的另一残差分支相结合,另一残差分支仅经过一个卷积批归一化SiLU的集成模块,引入注意力权重的特征图再与另一残差分支输出的特征图通过串联操作融合,随后再通过一个卷积批归一化SiLU的集成模块,最终得到输出特征图;
在本实施例中,上述步骤S21和S22中对输入特征图进行了切片和重组操作,将输入特征图中的空间信息采样到了新特征图的通道维度中,从而使得卷积神经网络更加关注于特征图中空间信息与通道信息之间的联系,更加有利于在表面缺陷检测中捕捉空间信息与通道信息联系比较紧密的缺陷目标,从而提升目标检测精度。
在本实施例中,上述步骤S23中使用步长为1的卷积对特征图进行卷积操作,能够最大程度地减小通道降低的过程中信息的丢失,最大程度地保留原始特征图中最重要的信息。例如,如果使用步长为3的3×3卷积,则特征图中的每个像素只被采样一次,从而对特征图产生“收缩”效应。如果使用步幅为2则会导致采样不平衡,其中偶数行或列和奇数行或列的采样频率是不同的。所以使用步长为1的卷积能够最大程度地保留特征图中细粒程度的信息。
在本实施例中,上述步骤S24中的C3模块包含了3个卷积模块以及多个瓶颈模块,该模块是网络对残差特征进行学习的主要手段,其主要作用是在网络中结合不同尺度的特征图来提取更加丰富的特征信息,从而提升网络的特征提取能力。
在本实施例中,上述步骤S24中,输入数据经过整个C3模块后仅仅改变其通道数,尤其是在瓶颈结构中,通道数先减小再扩大,具体做法是先进行1×1卷积将通道数减小一半,再通过3×3卷积将通道数加倍,并使用两个卷积模块提取特征,最后再通过坐标注意力模块,其输入与输出的通道数是不发生改变的。
在本实施例中,上述步骤S25中的C3模块中的瓶颈数量随网络参数的设置而在主干部分和颈部部分的各个位置处各有不同,瓶颈结构中包含两个卷积模块。此外,网络中主干部分的瓶颈结构包含短接操作,而在网络中颈部部分的瓶颈结构不包含短接操作。瓶颈结构的作用是对C3模块中的残差特征进行进一步的学习与提取,更加增益了网络对于残差特征的特征提取能力。此外,全局感受野的实现通常依赖于合并多个尺度的特征图,以确保网络更多地能够关注到检测目标的各种尺寸和位置信息,从而能够使得网络更好地理解特征图中的整体结构和语义信息。
在本实施例中,上述步骤S21,S22,S23和S26中,输入特征图在经过采样和串联拼接之后,原始特征图中的所有像素都得以保留,即信息没有任何丢失,而在步长为1的卷积操作过程中,因通道数的大幅下降可能会导致重要信息的大量丢失。因此在C3模块的瓶颈结构中嵌入坐标注意力模块,使得网络能够在步长为1的卷积操作之后,尽可能地抓取和保留更多重要的特征信息,空间换深度的卷积块模块与嵌入坐标注意力的C3模块之间的相对位置关系如图6所示。并且坐标注意力机制的引入能够使得卷积神经网络对更加重要的特征信息分配更多权重,从而抑制背景干扰信息对表面缺陷检测带来的不利影响。此外,串联融合是一种用于合并多个张量或特征图的操作,比如将多个张量沿着一个指定的轴进行拼接,形成一个更大的张量。
在本实施例中,还包括:
S27:在YOLOv5网络结构中SPPF模块的基础上使用更多的卷积操作层并且增加了一条残差分支以实现更丰富的多尺度信息的融合,将此使用更多的卷积操作层并且增加了一条残差分支后的SPPF模块命名为多尺度空间融合金字塔模块;
S28:输入特征图进入多尺度空间融合金字塔模块后,受两条分支作用,其中一条只经过一个卷积模块,另一分支首先经过两个卷积模块,然后经过池化核均为5的串联空间金字塔层以扩大特征图的感受野,并提取丰富的多尺度信息,随后再经过两个卷积模块以进一步更深层次地提取多尺度的语义信息;
S29:输入特征图经过两条分支作用后分别得到的两个特征图通过串联连接方式在通道维度上进行融合,融合完成后得到的特征图再经过一个卷积模块得到最终的特征图,多尺度空间融合金字塔模块作用过程如图3所示。
在本实施例中,上述步骤S27,S28和S29中,相比较原YOLOv5网络结构中SPPF模块,引入一条残差分支可以有助于网络捕捉基础特征,如较为浅层的位置信息、纹理信息等等,然后再与使用了更多的卷积模块的串联空间金字塔层输出的特征图进行融合。于是较为浅层的基础特征与较为深层的语义信息能够进行结合形成丰富的多尺度信息,旨在生成更丰富、多尺度的特征表达,为网络提供了更强大的语义信息提取能力,从而在表面缺陷目标检测等任务中提升了性能。
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。
Claims (4)
1.一种基于缺陷检测场景下提升信息复用的图像数据处理方法,其特征在于,包括以下步骤:
S21:对输入网络的特征图进行切片采样操作,将形状为N × N × C1的特征图X采样到scale2个尺寸为N/scale × N/scale × C1的子特征图中,特征图X中的每个像素仍然保留在相应的子特征图中,其中特征图X的高和宽一致,均用N表示,C1表示特征图X和采样后的子特征图的通道数,scale表示采样因子;
S22:沿着通道维度方向使用串联连接方式对得到的scale2个子特征图进行连接,得到沿通道拼接后的第一特征图,命名为X’,其形状为N/scale × N/scale × scale2C1;
S23:使用步长为1的卷积对第一特征图X’进行卷积操作,得到卷积后的第二特征图X’’,其形状为N/scale × N/scale × C2,C2为第二特征图X’’的通道数;
S24:第二特征图X’’进入C3模块,首先使用SiLU激活函数对输入数据即原始图像或特征图进行数字化处理,这一步包括将从输入中提取的特征转换为数字化形式,并增强特征的非线性表达,处理后的结果通过张量矩阵进行存储,随后经过 Sigmoid 激活函数实现张量矩阵的归一化处理,从而加快卷积神经网络收敛,其中SiLU激活函数的计算公式为:
;
其中Sigmoid激活函数计算公式为:
;
其中x为输入的张量矩阵,通过Sigmoid进行压缩,Sigmoid激活函数将张量矩阵的数据根据其范围,压缩到区间(0, 1)中的某个值,以保证归一化;
S25:归一化处理后的图像数据进入C3模块的瓶颈结构中,坐标注意力模块嵌入于C3模块的瓶颈结构中,坐标注意力模块置于瓶颈结构中的两个卷积核均为1×1的卷积模块之后,坐标注意力模块通过精确的位置信息对通道关系和长期依赖性进行编码,先将输入特征图分为高度和宽度两个方向分别进行全局平均池化,分别获得在高度和宽度两个方向的特征图;
接着将获得全局感受野的特征图沿着高度和宽度两个方向拼接在一起,之后将拼接后的特征图送入共享的卷积核为1×1的卷积模块,将拼接后的特征图的维度降低为原来的C/r,然后将经过批量归一化处理后的特征图送入Sigmoid激活函数得到形状为 1×(W+H)×C/r 的特征图,其中C为拼接后特征图的通道数,r表示对C进行降维的比例因子,W和H分别表示经过Sigmoid激活函数后的特征图的宽和高,全局感受野指在整个网络中某个层输出的单元所能感受到的输入图像区域的大小;
接着,对经过 Sigmoid 激活函数处理的特征图执行高度和宽度方向上的卷积操作,使用1×1的卷积核,分别生成两个特征图 Fh 和 Fw,这两个特征图的通道数与在宽度和高度方向进行全局平均池化后的特征图相一致,随后,这经过1×1卷积的特征图再次经过Sigmoid 激活函数处理,分别得到在高度和宽度上的注意力权重;
S26:在经过瓶颈结构中的坐标注意力模块的处理后,通过为特征图引入注意力权重,然后将结合注意力权重的输出结果与瓶颈结构外的另一残差分支相结合,另一残差分支仅经过一个卷积批归一化SiLU的集成模块,引入注意力权重的特征图再与另一残差分支输出的特征图通过串联操作融合,随后再通过一个卷积批归一化SiLU的集成模块,得到输出特征图;
S27:在YOLOv5网络结构中SPPF模块的基础上使用更多的卷积操作层并且增加了一条残差分支以实现更丰富的多尺度信息的融合,并将此使用更多的卷积操作层并且增加了一条残差分支后的SPPF模块命名为多尺度空间融合金字塔模块;
S28:输入特征图进入多尺度空间融合金字塔模块后,受两条分支作用,其中一条只经过一个卷积模块,另一分支首先经过两个卷积模块,然后经过池化核均为5的串联空间金字塔层以扩大特征图的感受野,并提取丰富的多尺度信息,随后再经过两个卷积模块以进一步更深层次地提取多尺度的语义信息;
S29:输入特征图经过两条分支作用后分别得到的两个特征图通过串联连接方式在通道维度上进行融合,融合完成后得到的特征图再经过一个卷积模块得到最终的特征图。
2.如权利要求1所述的一种基于缺陷检测场景下提升信息复用的图像数据处理方法,其特征在于,所述S21中根据采样规则采样后得到的scale2个子特征图,分别命名为:f0,0,f1,0, f0,1, f1,1, …, fscale-1,scale-1,其中,采样规则为:
;
其中,f和scale分别表示子特征图和特征图X上的切片操作的步幅,i和j分别是特征图X上输入矩阵中的行和列索引,i和j也代表特征图X上输入矩阵中每个元素的位置,N 表示特征图X上输入矩阵的维度。
3.如权利要求1所述的一种基于缺陷检测场景下提升信息复用的图像数据处理方法,其特征在于,所述S25中全局平均池化在高度和宽度两个方向的特征图的公式如下:
;
;
其中和/>分别表示在高度和宽度方向上对通道维度的全局平均池化结果,/>为输入图像在通道c处的特征图,尺寸为W×H×C,W、H和C分别表示宽、高和通道,i和j分别代表高和宽上的像素点位置,h和w分别代表全局平均池化结果中的高度和宽度索引。
4.如权利要求1所述的一种基于缺陷检测场景下提升信息复用的图像数据处理方法,其特征在于,所述S26中为得到 1×(W+H)×C/r 的特征图,计算公式如下:
;
其中[ , ]表示沿着空间维度的串联操作,表示1×1的卷积功能,/>为非线性激活函数,最后得到的特征图记录为f1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410354546.0A CN117952985A (zh) | 2024-03-27 | 2024-03-27 | 基于缺陷检测场景下提升信息复用的图像数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410354546.0A CN117952985A (zh) | 2024-03-27 | 2024-03-27 | 基于缺陷检测场景下提升信息复用的图像数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117952985A true CN117952985A (zh) | 2024-04-30 |
Family
ID=90801882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410354546.0A Pending CN117952985A (zh) | 2024-03-27 | 2024-03-27 | 基于缺陷检测场景下提升信息复用的图像数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952985A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379296A (zh) * | 2024-06-26 | 2024-07-23 | 烟台大学 | 一种基于视觉神经网络的圆形衬套缺陷检测方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937736A (zh) * | 2022-11-01 | 2023-04-07 | 上海大学 | 基于注意力和上下文感知的小目标检测方法 |
CN116597411A (zh) * | 2023-04-20 | 2023-08-15 | 山东省计算中心(国家超级计算济南中心) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 |
CN117037119A (zh) * | 2023-08-28 | 2023-11-10 | 中国科学技术大学 | 基于改进YOLOv8的道路目标检测方法及系统 |
CN117036948A (zh) * | 2023-08-11 | 2023-11-10 | 广东工业大学 | 一种基于注意力机制的致敏植物识别方法 |
CN117456330A (zh) * | 2023-10-16 | 2024-01-26 | 桂林电子科技大学 | 一种基于MSFAF-Net的低照度目标检测方法 |
CN117496367A (zh) * | 2023-10-31 | 2024-02-02 | 大连海事大学 | 一种遮挡条件下基于注意力机制的海上船舶目标检测方法 |
-
2024
- 2024-03-27 CN CN202410354546.0A patent/CN117952985A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937736A (zh) * | 2022-11-01 | 2023-04-07 | 上海大学 | 基于注意力和上下文感知的小目标检测方法 |
CN116597411A (zh) * | 2023-04-20 | 2023-08-15 | 山东省计算中心(国家超级计算济南中心) | 极端天气下无人驾驶车辆识别交通标志的方法及系统 |
CN117036948A (zh) * | 2023-08-11 | 2023-11-10 | 广东工业大学 | 一种基于注意力机制的致敏植物识别方法 |
CN117037119A (zh) * | 2023-08-28 | 2023-11-10 | 中国科学技术大学 | 基于改进YOLOv8的道路目标检测方法及系统 |
CN117456330A (zh) * | 2023-10-16 | 2024-01-26 | 桂林电子科技大学 | 一种基于MSFAF-Net的低照度目标检测方法 |
CN117496367A (zh) * | 2023-10-31 | 2024-02-02 | 大连海事大学 | 一种遮挡条件下基于注意力机制的海上船舶目标检测方法 |
Non-Patent Citations (1)
Title |
---|
WENQIAN WAN: "The Space to Depth Convolution bundled with Coordinate Attention for detecting surface defects", 《RESEARCH SQUARE》, 7 September 2023 (2023-09-07), pages 1 - 12 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118379296A (zh) * | 2024-06-26 | 2024-07-23 | 烟台大学 | 一种基于视觉神经网络的圆形衬套缺陷检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113052210B (zh) | 一种基于卷积神经网络的快速低光照目标检测方法 | |
CN111242238B (zh) | 一种rgb-d图像显著性目标获取的方法 | |
CN112288627B (zh) | 一种面向识别的低分辨率人脸图像超分辨率方法 | |
CN117952985A (zh) | 基于缺陷检测场景下提升信息复用的图像数据处理方法 | |
CN110689482A (zh) | 一种基于有监督逐像素生成对抗网络的人脸超分辨率方法 | |
CN112950477A (zh) | 一种基于双路径处理的高分辨率显著性目标检测方法 | |
CN113487530B (zh) | 一种基于深度学习的红外与可见光融合成像方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
CN111882581B (zh) | 一种深度特征关联的多目标跟踪方法 | |
CN117173024B (zh) | 一种基于整体注意力的矿井图像超分辨率重建系统及方法 | |
CN114612306A (zh) | 一种面向裂缝检测的深度学习超分辨率方法 | |
CN111414988B (zh) | 基于多尺度特征自适应融合网络的遥感影像超分辨率方法 | |
CN113901928A (zh) | 一种基于动态超分辨率的目标检测方法、输电线路部件检测方法及系统 | |
CN113538243A (zh) | 基于多视差注意力模块组合的超分辨图像重建方法 | |
CN116664435A (zh) | 一种基于多尺度人脸解析图融入的人脸复原方法 | |
CN117095277A (zh) | 一种边缘引导的多注意力rgbd水下显著目标检测方法 | |
CN116977208A (zh) | 双分支融合的低照度图像增强方法 | |
CN113129240B (zh) | 一种工业包装字符的去运动模糊方法 | |
CN113392728B (zh) | 一种基于ssa锐化注意机制的目标检测方法 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN118015247A (zh) | 基于双向多尺度特征增强的轻量级yolo目标检测方法 | |
CN111325149B (zh) | 一种基于投票的时序关联模型的视频动作识别方法 | |
CN115035550B (zh) | 一种基于改进csp网络的行人检测方法 | |
CN114582002B (zh) | 一种结合注意力模块与二阶池化机制的人脸表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |