CN114202502A - 一种基于卷积神经网络的螺纹旋向分类方法 - Google Patents
一种基于卷积神经网络的螺纹旋向分类方法 Download PDFInfo
- Publication number
- CN114202502A CN114202502A CN202111004530.XA CN202111004530A CN114202502A CN 114202502 A CN114202502 A CN 114202502A CN 202111004530 A CN202111004530 A CN 202111004530A CN 114202502 A CN114202502 A CN 114202502A
- Authority
- CN
- China
- Prior art keywords
- channel
- dimension
- attention
- branch
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及卷积神经网络技术领域,具体公开了一种基于神经网络的螺纹旋向分类方法,在特征提取的过程中,通道注意力模块采用感受野融合的通道注意力,使得网络更加关注特征局部的上下文信息;空间注意力采用三重空间注意力模块,通过跨维度交互方式将空间信息融合,更有利于特征空间位置的学习;采用更为关注细粒度特征的Res2Net骨干网络,并将感受野融合的通道注意力和三重空间注意力嵌入到骨干网络的block中,从而对原骨干网络学习的特征进行注意力修正;采用先通道注意力后空间注意力的方式进行特征提取,在通道和空间层面加强了网络对于螺纹旋向细粒度特征的提取与学习。
Description
技术领域
本发明涉及卷积神经网络技术领域,具体涉及一种基于卷积神经网络的螺纹旋向分类方法。
背景技术
在对螺纹旋向的自动化识别分类的研究中,通过螺旋线相对倾斜角度这一传统算法具有一定的局限性,其只能捕捉宏观特征,如灰度、直线等,对于深层次的特征描述有所欠缺,在更大范围内的图像放缩、背景多变、更为苛刻的光线条件下未能达到令人满意的结果。近年来,深度学习网络的出现为图像分类带来新的解决思路,避免了人工特征选择的复杂性和非普适性,对于对象的大小、颜色及形状等宏观特征有着传统视觉算法无法企及的精确度。
常见工业缺陷检测等任务所针对的目标较为宏观,且存在明显差异,各类缺陷特征显著,因而基于深度学习的识别任务可以利用卷积神经网络提取充分的特征,利用这些关键特征即可较好实现螺纹种类识别及缺陷检测任务。然而螺纹旋向识别由于目标螺纹种类相同,仅在左右旋向的细微特征有区分性,若不能尽量避免背景及无关区域影响,对于旋向区别性特征的提取就会具有一定的难度,导致网络模型的旋向可区分性较差。同时,在实际识别中,如对于自行车脚踏板螺纹旋向特征的提取,其螺纹区域所占图像整体背景较小,左右旋向螺纹区域仅在螺旋线部分有可区分性,因而普通识别网络对螺纹分类已经无法做到速度与质量的兼具,这无疑是无法满足生产需求得。
因此,在针对脚踏板螺纹旋向识别网络的设计中,需要进一步忽略螺纹背景特征,关注旋向的细粒度级别特征,极大程度捕获螺纹螺旋线部分的特征,为最终的螺纹旋向识别奠定基础。如何提高对螺纹旋向细粒度特征的关注度是该分类任务的重点及难点所在。
发明内容
为了解决螺纹旋向识别过程中识别目标差别细微及背景特征易干扰的难点,本发明从跨维度方式的建模空间注意力及不同感受野的局部相关性融合入手,提出了一种基于卷积神经网络的螺纹旋向分类方法,包括步骤:
S1:通过特征提取网络提取螺纹区域图像中螺纹的螺纹旋向特征,并输出为初始的螺纹旋向特征图;
S2:判断当前层特征提取网络的输出是否与对应的螺纹区域图像为预设残差值内的映射,若是,通过当前特征提取网络对目标螺纹区域图像进行旋向分类,若否,进入下一步骤;
S3:通过CBAM模块中的通道注意力模块,根据螺纹旋向特征图进行初始感受野和优化感受野的获取与融合,并提取感受野融合后的融合特征图;
S4:根据融合特征图进行通道注意力特征图的获取;
S5:通过CBAM模块中的空间注意力模块,根据通道注意力特征图获取通道各维度组合跨维度交互的交互信息;
S6:根据各维度组合的交互信息依次进行元素相加和平均池化处理,池化后的输出作为下一层特征提取网络的输入;
S7:进入下一层特征提取网络并根据输入输出螺纹旋向特征图,返回步骤 S2;
所述通道维度包括通道C以及通道空间维度中的高度H和宽度W。
进一步地,所述步骤S3中,初始感受野为通道注意力模块根据螺纹旋向特征图进行预设大小卷积核卷积后获得,优化感受野为通道注意力模块根据螺纹旋向特征图在预设大小卷积核的基础上进行空洞卷积获得。
进一步地,所述步骤S4中,通道注意力特征图的获取可表达为如下公式组:
z′=δ(Mz)
X′=z′Y
式中,Y为融合特征图,z为通道维度的特征,h为通道空间维度中高度H 的尺寸,w为通道空间维度中宽度W的尺寸,Fgap(Y)为对Y的全局平均池化处理,T(i,j)为融合特征图Y上坐标为(i,j)的的像素点;z′为权重向量,δ为ReLU 函数,M为全连接权重;X′为通道注意力特征图。
进一步地,所述维度组合包括:
维度C和维度H组成的第一分支,维度C和维度W组成的第二分支,维度 H和维度W组成的第三分支。
进一步地,所述交互信息在获取前需依次经过如下步骤:
根据分支类别对通道注意力特征图进行选择性旋转;
分别通过最大池化层通道和平均池化层通道对选择性旋转后的通道注意力特征图进行池化处理;
将最大池化层通道和平均池化层通道的输出进行拼接;
将拼接后的通道输出通过批归一化处理及激活获取权重信息,并将权重信息与选择性旋转后的通道注意力特征图相乘;
根据分支类别对相乘后的通道注意力特征图进行对应的选择性反向旋转;
所述选择性旋转与对应的选择性反向旋转之间,旋转的角度一致,旋转的方向相反。
进一步地,所述选择性旋转包括:
当分支类别为第一分支时,通道注意力特征图沿高度H方向上的轴逆时针旋转90°;
当分支类别为第二分支时,通道注意力特征图沿宽度W方向上的轴逆时针旋转90°;
当分支类别为第三分支时,通道注意力特征图不旋转。
进一步地,所述步骤S6中,螺纹旋向特征图的获取可表达为如下公式:
式中,y为螺纹旋向特征图,为第一分支的旋转张量,为第二分支的旋转张量;为分别经过最大池化层通道和平均池化层通道后的拼接输出,为分别经过最大池化层通道和平均池化层通道后的拼接输出,为X′中维度H和维度W的维度组合分别经过最大池化层通道和平均池化层通道后的拼接输出;σ为激活函数;ψ1为的二维卷积层,ψ2为的二维卷积层,ψ3为的二维卷积层。
进一步地,所述特征提取网络为多尺度特征网络。
与现有技术相比,本发明至少含有以下有益效果:
(1)本发明所述的一种基于卷积神经网络的螺纹旋向分类方法,通过引入空洞卷积代替普通卷积,在减少计算量的同时通过融合不同感受野来进一步提升通道注意力对于各个感受野的学习效果;
(2)不同感受野的局部相关性不同,融合不同感受野的特征可以将不同局部相关性联系起来,从而利用通道权重分配让网络对于特征图的关注位置有了权重上的区分,进一步增强了对特征局部及通道间关系的学习能力;
(3)通过跨维度交互信息的获取融合,在几乎不增加计算开销的前提下,将不同维度的特征进行交互学习,保留了通道和空间的依存关系,增强了网络对于空间特征的学习能力,可以更为充分地提取空间信息;
(4)选用多尺度特征网络(Res2Net)作为特征提取网络,融合多尺度特征,进行细粒度级别的表征提取,进一步提升分类准确度。
附图说明
图1为一种基于卷积神经网络的螺纹旋向分类方法的方法步骤图;
图2为平均池化和最大池化示意图;
图3为残差块示意图;
图4为SAM模块的结构示意图;
图5为CAM模块的结构示意图;
图6为SENet模块的结构示意图;
图7为普通卷积和空洞卷积示意图;
图8为结合空洞卷积的感受野融合通道注意力模块结构示意图;
图9为三重注意力机制结构示意图;
图10为RTNet算法的整体架构示意图;
具体实施方式
以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
在对本发明所述的技术内容进行详细解释之前,本实施例先对本申请所依赖的网络优化学习基础,也即是卷积神经网络进行相应结构组成和功能说明,以便于对本申请技术内容的理解。
卷积(Convolution)运算是传统图像处理中较为常见的一种计算手段,也是卷积神经网络在图像领域的基础之一。卷积运算可提取输入图像局部及多维度的特征信息,与人工神经网络相比,主要有两个突出优势:具有局部感知机制和具有权值共享机制。极大减少了运算量,提高了训练速度。其网络结构主要包括:卷积层、池化层及全连接层。
卷积层,通过卷积核在输入上滑动进行运算,获取响应的特征映射,进而对输入的局部特征信息进行选择性提取,公式如下:
其中,卷积操作中的激活函数对特征进行非线性映射。常用的激活函数有Sigmoid函数、Tanh函数、ReLU(Rectified Linear Unit)函数等。
其中ReLU函数的函数表示为:Relu(x)=max(0,x),为分段函数,当x≤0时,函数值为0,导数为0,当x>0时,函数值等于x,导数为1,因此其收敛性较快。因此ReLU函数能有效抑制梯度消失,使其目前有更为广泛的使用前景。
池化层,主要有平均池化(average-pooling)和最大池化(max-pooling) 两种。如图2所示,平均池化是以一定步长对特征图中的局部特征像素点求平均值,常用来提取图像背景信息;最大池化是提取特征图中的局部特征点的最高值,能够较多的保留图像的纹理边缘信息。
全连接层,将全部输出特征分别连接到一层神经元,通过softmax输出类别概率以实现分类。为防止过拟合现象的发生,可在全连接层加入Dropout 层。
同时,常见工业缺陷检测等任务所针对的目标较为宏观,且存在明显差异,各类缺陷特征显著。因而基于深度学习的识别任务可以利用卷积神经网络提取充分的特征,利用这些关键特征即可较好实现螺纹种类识别及缺陷检测任务。
然而,螺纹旋向识别由于目标螺纹种类相同,仅在左右旋向的细微特征有区分性,若不能尽量避免背景及无关区域影响,对于旋向区别性特征的提取就会具有一定的难度,导致网络模型的旋向可区分性较差。在实际识别中,螺纹区域所占图像整体背景较小,左右旋向螺纹区域仅在螺旋线部分有可区分性,因此只有提取出合适的螺旋线特征才能对螺纹旋向进行有效识别,而这对普通识别网络是具有挑战性的。
因此,在螺纹旋向识别网络的设计中,需要进一步忽略螺纹背景特征,关注旋向的细粒度级别特征,极大程度捕获螺纹螺旋线部分的特征,为最终的螺纹旋向识别奠定基础。而如何提高对螺纹旋向细粒度特征的关注度是该分类任务的重点及难点所在。
在理解了卷积神经网络的基本组成及其各功能层的功效后,本发明考虑到脚踏板中螺纹占据整体面积较小、差别细微的,如图1所示,提出了一种基于卷积神经网络的螺纹旋向分类方法,包括步骤:
S1:通过特征提取网络提取螺纹区域图像中螺纹的螺纹旋向特征,并输出为初始的螺纹旋向特征图;
S2:判断当前层特征提取网络的输出是否与对应的螺纹区域图像为预设残差值内的映射,若是,通过当前特征提取网络对目标螺纹区域图像进行旋向分类,若否,进入下一步骤;
S3:通过CBAM模块中的通道注意力模块,根据螺纹旋向特征图进行初始感受野和优化感受野的获取与融合,并提取感受野融合后的融合特征图;
S4:根据融合特征图进行通道注意力特征图的获取;
S5:通过CBAM模块中的空间注意力模块,根据通道注意力特征图获取通道各维度组合跨维度交互的交互信息;
S6:根据各维度组合的交互信息依次进行元素相加和平均池化处理,池化后的输出作为下一层特征提取网络的输入;
S7:进入下一层特征提取网络并根据输入输出螺纹旋向特征图,返回步骤 S2;
所述通道维度包括通道C以及通道空间维度中的高度H和宽度W。
首先,本发明的特征提取网络选用多尺度特征网络(也即是Rse2Net)。选择该特征提取网络的原因在于,本发明所要解决的螺纹旋向识别分类问题,旋向间特征差别细微,且螺纹部分占据图像整体的比例较小,因此若要实现对螺纹特征的提取,就要做到细粒度级别的表征提取,而这一点是普通特征提取网络做不到的。其中,所有特征提取网络的残差模块都可用如下公式表示:
H(x)=F(x)+x
式中,x为残差模块的输入,F(x)为卷积分支的输出,H(x)为残差模块的总输出。如果残差为0,表明学习的特征已足够好,此时上式仅仅做了恒等变形,不会增加计算量。当然,也可以根据精度需求设置预设残差值。
从结构上来解释,Res2Net(如图3.b)相较于普通的ResNet(如图3.a),去除了ResNet中的残差模块中的3×3卷积核,取而代之的是如图3.b中所示的可变结构。该结构将输入特征进行分组(如图3.b中的x1、x2、x3、x4)以分层(多个3×3层,图3.b中以四个为例)的类残差的方式将卷积核小组的输出(如图3.b中y1、y2、y3、y4)相连接,而增加的计算和内存开销相对甚微。该结构向前传播的各卷积核小组输出可用如下公式表示:
式中,s表示的是经过1×1卷积层后的特征通道数的数量,xi表示特征子集,每个特征子集的通道数相等。Ki每一个子集xi对应不同的3×3卷积层,yi表示的是输出。这样的结构设计,使得输出包含了不同数量及组合的感受野尺度。最后进入1×1卷积,将全局的信息同局部的信息更好的融合在一起。同时可以看出,s在一定程度上能改变感受野,即s越大,感受野越大,通过感受野的增大,实现细粒度级别表征的提取。
进一步说明地,卷积神经网络对于图像特征的提取是依赖于空间注意力机制进行的特征定位与获取。而传统的空间注意力机制主要是基于CBAM (Convolutional BlockAttention Module)模块,CBAM模块包含的两个子模块分别是SAM(Spatial AttentionModule)及CAM(Channel Attention Module)。
SAM即空间注意力模块,主要关注关键信息“在哪里”。如图4所示为SAM 模块的结构示意图,SAM包含串联的平均池化层(avgpool)及最大池化层 (maxpool),后接7×7卷积层,其计算过程可用如下公式表示:
然而SAM仅通过两种池化方式来提取空间特征,由于空间位置特征的多样性,该方法对于整个维度空间的特征提取并不是全面的。
CAM即通道注意力模块,主要关注关键信息“怎么去”。如图5所示为CAM 模块的结构示意图,CAM包括并列的平均池化层及最大池化层,后接感知器,其计算过程可表示为如下公式:
式中,F(Input feature F)表示中间层特征图,Mc(F)表示在该特征图上的通道注意力特征提取,σ表示激活函数,此处使用的也是ReLU激活函数,则分别表示平均池化层和最大池化层。W0、W1是多层感知器 (Multi-Layer Perceptron,MLP)层的权重,维度分别为r为缩放因子。
CAM中的最大池化特征提取主要是用来筛选当前目标的突出特征,而平均池化的目的是为了筛选当前目标的全局背景信息。经过池化后的两个单通道特征图分别进入多层感知器,目的是为了增加特征的非线性,相比于全连接层, MLP由于具有中间隐藏层,所以总体参数量大大减少。输出特征相加后,经激活函数后,获得通道注意力特征。
而除了CAM模块外,SENet模块也可以实现该功能,其主要包含两部分: Squeeze部分和Excitation部分,机构图如图6所示。
其中Ftr为不含偏置项的卷积模块,由多个二维卷积核构成。对于任意给定大小为H′×W′×C′的输入X,Ftr将X通过卷积方式映射为形状为H×W×C的特征图U。
Squeeze模块为一个平均池化层,将经由Ftr模块的特征图U通过池化方式,转化为1×1×C的输出Zc,计算过程可用如下公式表示:
式中,uc表示的是U中的各个通道的空间特征信息,即U可用 U=[u1,u2,…,uc]表示,h、w分别表示特征图的高度尺寸和宽度尺寸。
Excitation模块紧随其后,将通道间的特征进一步捕获,可用如下公式表示:
s=Fex(z,W)=σ(g(z,W))=σ(W1δ(W0z))
式中,δ表示ReLU函数,σ表示Sigmoid函数。W0和W1为全连接权重,r 为缩放因子。s为Excitation模块的输出,维度为1×1×C。
式中,sc表示特征矩阵U中第c个通道信息对应的权重。
CAM和SE(SENet)模块均具有捕获特征的通道间关系能力,可以保证特征的完整性和相关性。但由于以上通道注意力模块直接处理前向输入的特征图,对于局部相关性缺少一定的挖掘,因而对于细粒度特征的上下文信息不能更为充分的学习。
基于上述,可以看出的是,SAM对于空间特征的提取具有不全面性,SENet 和CAM对特征的不同感受野表征不能充分挖掘。出于旋向识别目标具有差别细微及背景特征易干扰的难点,本发明进一步研究了跨维度方式建模空间注意力及不同感受野的局部相关性融合,改善通道注意力权重分配,提出了基于感受野(Receptive Field)融合的通道注意力和三重(Triplet)空间注意力的RTNet,加强了Res2Net网络对于螺纹旋向细粒度特征的学习,进一步提升螺纹旋向识别的准确率。具体如下,
一)基于感受野融合的通道注意力机制:
SENet与CBAM中对于特征图通道间权重提取都是基于输入特征图的,即固定了所提取特征的感受野。例如,在SENet中,注意力模块直接将输入特征图进行平均池化,再进行后续的通道权重分配;在CBAM的通道注意力模块中,输入池化后通过MLP感知器进行权重分配,之后再将两种权重分配后的一维向量叠加,得到最终的通道间权重分配结果。以上直接对于输入特征图进行池化操作,尽管可以保证特征的完整性和相关性,但未能充分挖掘特征的各级感受野表征能力。
本发明通过感受野融合来改善对通道注意力,并引入空洞卷积代替普通卷积,在减少计算量的同时提升网络对于多感受野的上下文关系的学习效果。
基于现有研究(如InceptionNet)可知,在特征图中通过卷积操作融合多个感受野,再将特征图进行按元素相加操作,通过信息融合的特征图,使其更具有局部相关性,使得获取的权重添加了局部相关信息,更有利于细微特征的学习。
因此,本发明选用了3×3(初始感受野的大小)和5×5两种不同大小的卷积核来进行不同感受野的局部相关性特征的提取和融合,进而更有效地进行通道权重分配。通过融合了不同的局部相关性特征可以再细粒度级别上对于本数据集进行学习,得到更具有区别性的表征,进而进一步提高了螺纹旋向识别准确率。
根据研究,运用5×5卷积核有助于扩大特征图的感受野,但与此同时,引入了过多的计算,对于网络训练速度和整个推理速度都有所影响,因此,在不影响测试准确率的前提下,本发明引入了空洞卷积替换5×5卷积核。如图 7所示,同等大小的3×3普通卷积(图7.a,扩张率(dilation rate)为1) 和空洞卷积(图7.b,扩张率为2),空洞卷积的感受野等效于5×5的标准卷积。
如图8所示,为本发明所设计的结合空洞卷积的感受野融合通道注意力模块结构示意图。首先,输入特征图X∈RH’×W’×C通过3×3的普通卷积和空洞卷积进行卷积操作,得到了相同大小的特征图A∈RH×W×C和B∈RH×W×C。按元素相加后融合成特征图Y,该特征图具有两种感受野的融合特征。
为捕获通道间的关系,需要保留通道维度的特征,即利用全局平均池化进行各个通道的信息聚合,所得特征图计算过程可以表达为:
计算得到的特征图是按通道分布,因此利用全连接层对通道权重进行学习和分配,并利用ReLU激活函数进行非线性激活,公式如下:
z′=δ(Mz)
通过输入特征图与权重向量z′按元素相乘,得到融合通道注意力的特征图X′,公式如下:
X′=z′Y
上述几个公式中,Y为融合特征图,z为通道维度的特征,h为通道空间维度中高度H的尺寸,w为通道空间维度中宽度W的尺寸,Fgap(Y) 为对Y的全局平均池化处理,Y(i,j)为融合特征图Y上坐标为(i,j)的的像素点;z′为权重向量,δ为ReLU函数,M为全连接权重;X′为通道注意力特征图。
通过引入空洞卷积代替普通卷积,在减少计算量的同时通过融合不同感受野来进一步提升通道注意力对于各个感受野的上下文关系的学习效果。不同感受野的局部相关性不同,融合不同感受野的特征可以将不同局部相关性联系起来,从而利用通道权重分配让网络对于特征图的关注位置有了权重上的区分,进一步增强了对特征局部及通道间关系的学习能力。
二)三重(Triplet)空间注意力:
SAM通过两种池化方式将各通道信息融合,从而提取空间注意力特征。但是仅压缩通道信息并不能充分提取空间注意力特征。
为提高对输入特征图提取空间注意力特征的全面性,本文使用三重注意力(Triplet-attention,TA)机制作为空间注意力机制,TA是一种通过使用三分支结构来交互计算跨维度注意力权重,能够获得交互特征信息的新型模块。
三重注意力机制模块的结构如图9所示,对于给定的形状为 C×H×W的输入χ,三重注意力机制创建了三个分支,分别捕获第一分支(C,H)、第二分支(C,W)、及第三分支(H,W)维度的交互信息。
第一个分支,即负责捕获通道C、空间维度中的高度尺寸H 两个维度的交互信息。输入χ(也即是经过基于感受野融合的通道注意力机制输出的通道注意力特征图)后,该分支将χ沿高度H方向逆时针旋转90°,此时定义旋转张量为形状为W×H×C,然后分别进入最大池化层、平均池化层,并将两个单通道的输出进行拼接,获得形状为2×H×C的通过融合卷积进行两个通道特征图的特征融合,经过批归一化处理及激活,将得到的权重与输入特征图相乘,然后沿着H轴顺时针旋转90°还原至输入形状,至此,第一分支的跨纬度交互注意力特征学习完毕。
第二分支以同种方式(沿宽度W方向上的轴逆时针旋转90°) 学习(C,W)维度的交互信息。第三分支不进行旋转操作。
三个分支的输出按元素相加后进入平均池化层,获得最终的包含跨维度交互信息的注意力特征,整个过程可以用如下公式表示:
式中,y为螺纹旋向特征图,为第一分支的旋转张量,为第二分支的旋转张量;为分别经过最大池化层通道和平均池化层通道后的拼接输出,为分别经过最大池化层通道和平均池化层通道后的拼接输出,为X′中维度H和维度W的维度组合分别经过最大池化层通道和平均池化层通道后的拼接输出;σ为激活函数;ψ1为的二维卷积层,ψ2为的二维卷积层,ψ3为的二维卷积层。
如图10所示为本发明所设计的RTNet算法的整体架构示意图,综合本实施例对于本发明技术内容的解释,可以看出本发明所述的一种基于卷积神经网络的螺纹旋向分类方法,在特征提取的过程中,通道注意力模块采用感受野融合的通道注意力,使得网络更加关注特征局部的上下文信息;空间注意力采用三重空间注意力模块,通过跨维度交互方式将空间信息融合,更有利于特征空间位置的学习。
采用更为关注细粒度特征的Res2Net骨干网络,并将感受野融合的通道注意力和三重空间注意力嵌入到骨干网络的block中,从而对原骨干网络学习的特征进行注意力修正,获得更为有效的表征。
采用先通道注意力后空间注意力的方式进行特征提取。首先将1×1卷积层的输出特征图分别通过3×3卷积核和具有5×5卷积核感受野的3×3空洞卷积(扩张率为2),将得到的两个具有不同感受野的特征图进行融合,以便更有效地进行通道权重学习;所得到的通道注意力特征输入到三重空间注意力中,再通过跨维度交互的方式捕获特征的空间信息,三支空间注意力特征输出相加后求平均,再与block输入构成残差连接后作为输出。通过以上两种注意力模块的综合使用,在通道和空间层面加强了网络对于螺纹旋向细粒度特征的提取与学习。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”、“一”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
Claims (8)
1.一种基于卷积神经网络的螺纹旋向分类方法,其特征在于,包括步骤:
S1:通过特征提取网络提取螺纹区域图像中螺纹的螺纹旋向特征,并输出为初始的螺纹旋向特征图;
S2:判断当前层特征提取网络的输出是否与对应的螺纹区域图像为预设残差值内的映射,若是,通过当前特征提取网络对目标螺纹区域图像进行旋向分类,若否,进入下一步骤;
S3:通过CBAM模块中的通道注意力模块,根据螺纹旋向特征图进行初始感受野和优化感受野的获取与融合,并提取感受野融合后的融合特征图;
S4:根据融合特征图进行通道注意力特征图的获取;
S5:通过CBAM模块中的空间注意力模块,根据通道注意力特征图获取通道各维度组合跨维度交互的交互信息;
S6:根据各维度组合的交互信息依次进行元素相加和平均池化处理,池化后的输出作为下一层特征提取网络的输入;
S7:进入下一层特征提取网络并根据输入输出螺纹旋向特征图,返回步骤S2;
所述通道维度包括通道C以及通道空间维度中的高度H和宽度W。
2.如权利要求1所述的一种基于卷积神经网络的螺纹旋向分类方法,其特征在于,所述步骤S3中,初始感受野为通道注意力模块根据螺纹旋向特征图进行预设大小卷积核卷积后获得,优化感受野为通道注意力模块根据螺纹旋向特征图在预设大小卷积核的基础上进行空洞卷积获得。
4.如权利要求1所述的一种基于卷积神经网络的螺纹旋向分类方法,其特征在于,所述维度组合包括:
维度C和维度H组成的第一分支,维度C和维度W组成的第二分支,维度H和维度W组成的第三分支。
5.如权利要求4所述的一种基于卷积神经网络的螺纹旋向分类方法,其特征在于,所述交互信息在获取前需依次经过如下步骤:
根据分支类别对通道注意力特征图进行选择性旋转;
分别通过最大池化层通道和平均池化层通道对选择性旋转后的通道注意力特征图进行池化处理;
将最大池化层通道和平均池化层通道的输出进行拼接;
将拼接后的通道输出通过批归一化处理及激活获取权重信息,并将权重信息与选择性旋转后的通道注意力特征图相乘;
根据分支类别对相乘后的通道注意力特征图进行对应的选择性反向旋转;
所述选择性旋转与对应的选择性反向旋转之间,旋转的角度一致,旋转的方向相反。
6.如权利要求5所述的一种基于卷积神经网络的螺纹旋向分类方法,其特征在于,所述选择性旋转包括:
当分支类别为第一分支时,通道注意力特征图沿高度H方向上的轴逆时针旋转90°;
当分支类别为第二分支时,通道注意力特征图沿宽度W方向上的轴逆时针旋转90°;
当分支类别为第三分支时,通道注意力特征图不旋转。
8.如权利要求1所述的一种基于卷积神经网络的螺纹旋向分类方法,其特征在于,所述特征提取网络为多尺度特征网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004530.XA CN114202502A (zh) | 2021-08-30 | 2021-08-30 | 一种基于卷积神经网络的螺纹旋向分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004530.XA CN114202502A (zh) | 2021-08-30 | 2021-08-30 | 一种基于卷积神经网络的螺纹旋向分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114202502A true CN114202502A (zh) | 2022-03-18 |
Family
ID=80645963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111004530.XA Pending CN114202502A (zh) | 2021-08-30 | 2021-08-30 | 一种基于卷积神经网络的螺纹旋向分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114202502A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972280A (zh) * | 2022-06-07 | 2022-08-30 | 重庆大学 | 精细坐标注意力模块及其在表面缺陷检测中的应用 |
CN115034375A (zh) * | 2022-08-09 | 2022-09-09 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN116563615A (zh) * | 2023-04-21 | 2023-08-08 | 南京讯思雅信息科技有限公司 | 基于改进多尺度注意力机制的不良图片分类方法 |
-
2021
- 2021-08-30 CN CN202111004530.XA patent/CN114202502A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114972280A (zh) * | 2022-06-07 | 2022-08-30 | 重庆大学 | 精细坐标注意力模块及其在表面缺陷检测中的应用 |
CN114972280B (zh) * | 2022-06-07 | 2023-11-17 | 重庆大学 | 精细坐标注意力模块及其在表面缺陷检测中的应用 |
CN115034375A (zh) * | 2022-08-09 | 2022-09-09 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN115661828B (zh) * | 2022-12-08 | 2023-10-20 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN116563615A (zh) * | 2023-04-21 | 2023-08-08 | 南京讯思雅信息科技有限公司 | 基于改进多尺度注意力机制的不良图片分类方法 |
CN116563615B (zh) * | 2023-04-21 | 2023-11-07 | 南京讯思雅信息科技有限公司 | 基于改进多尺度注意力机制的不良图片分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114202502A (zh) | 一种基于卷积神经网络的螺纹旋向分类方法 | |
Li et al. | Automatic fabric defect detection with a wide-and-compact network | |
CN105718868B (zh) | 一种针对多姿态人脸的人脸检测系统及方法 | |
CN109670528B (zh) | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN108549891A (zh) | 基于背景与目标先验的多尺度扩散显著目标检测方法 | |
CN112861690B (zh) | 多方法融合的遥感影像变化检测方法及系统 | |
Zhang et al. | Food image recognition with convolutional neural networks | |
Cai et al. | Residual-capsule networks with threshold convolution for segmentation of wheat plantation rows in UAV images | |
CN109785344A (zh) | 基于特征重标定的双通路残差网络的遥感图像分割方法 | |
CN109977757A (zh) | 一种基于混合深度回归网络的多模态的头部姿态估计方法 | |
CN109035300B (zh) | 一种基于深度特征与平均峰值相关能量的目标跟踪方法 | |
CN112861635A (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
Xu et al. | Robust self-ensembling network for hyperspectral image classification | |
CN109903339B (zh) | 一种基于多维融合特征的视频群体人物定位检测方法 | |
CN114841319A (zh) | 一种基于多尺度自适应卷积核的多光谱图像变化检测方法 | |
CN110929685A (zh) | 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构 | |
CN113095371B (zh) | 一种面向三维重建的特征点匹配方法及系统 | |
Ge et al. | Adaptive hash attention and lower triangular network for hyperspectral image classification | |
CN115238758A (zh) | 一种基于点云特征增强的多任务三维目标检测方法 | |
CN113610046A (zh) | 一种基于深度视频联动特征的行为识别方法 | |
Zhao et al. | A joint method of spatial–spectral features and BP neural network for hyperspectral image classification | |
Wang et al. | Spectral-spatial global graph reasoning for hyperspectral image classification | |
CN106504211A (zh) | 基于改进surf特征匹配的低照度成像方法 | |
CN112232249A (zh) | 一种基于深度特征的遥感图像变化检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |