CN116630626A

CN116630626A - 连通双注意力多尺度融合语义分割网络

Info

Publication number: CN116630626A
Application number: CN202310657427.8A
Authority: CN
Inventors: 王丽辉
Original assignee: Jilin Agricultural Science and Technology College
Current assignee: Jilin Agricultural Science and Technology College
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-22
Anticipated expiration: 2043-06-05
Also published as: CN116630626B

Abstract

针对缺陷检测技术中广泛存在的缺陷像素难以精确识别分类的技术问题，本发明公开了一种连通双注意力多尺度融合语义分割网络，属于图像分析与处理领域。本发明包括面向特征提取的卷积子模块、融合双注意力机制的多尺度融合子模块、卷积多尺度聚合子模块、以及保留细粒度纹理信息的剪支残差子模块。以上模块分别通过提取输入图像多尺度信息、从色彩空间与语义空间对特征图施加注意力、融合不同尺度之间的特征信息、保留原图像不同尺度上关键纹理特征来实现对缺陷像素的高精度识别。实验证明，本发明提高了缺陷检测技术中语义分割精度，可以满足工业应用对缺陷检测的迫切需求。

Description

连通双注意力多尺度融合语义分割网络

技术领域

本发明涉及人工智能中语义分割领域，尤其涉及一种面向缺陷检测技术中像素密集分类的方法。

背景技术

在缺陷检测技术中，实现像素级别的密集分类，是实现对缺陷几何形貌拓扑分析的基础和前提。对缺陷像素的错误识别将直接造成缺陷尺度的计算偏差，从而造成产品质量的下降，甚至在一些场合下，会造成严重的安全问题。可以说，实现高精度的对缺陷的识别检测，是工业质量保障的重中之重。

工业中缺陷识别与检测不同于对自然图像，缺陷区域往往微小，同时容易因为光照、灰尘干扰等因素而与正常区域对比度低，从而导致现有算法普遍难以精确检出。因此，现有的技术方法中，普遍会造成缺陷区域的误识别，影响后续过程对缺陷区域几何形貌的分析与测算。

目前为止，因为上述技术问题，现有方法中(包含图像处理方法与深度学习算法)，都不能够实现对缺陷区域精准的定位与分析。

发明内容

针对上述技术问题，本发明基于卷积神经网络，提出了一种连通双注意力多尺度融合语义分割网络，可以提高缺陷检测技术的精度。

在公开的技术方法中，包含有面向特征提取的卷积子模块、融合双注意力机制的多尺度融合子模块、卷积多尺度聚合子模块、保留细粒度纹理信息的剪支残差子模块。

连通双注意力多尺度融合语义分割网络以Unet为基线网络，采用编码器——解码器结构，并插入密集连接的融合双注意力机制的多尺度融合子模块，从色彩空间与语义空间多次向不同尺度特征图施加注意力权重，同时融合以保留细粒度纹理信息的剪支残差子模块所提炼的原输入图像不同尺度下的特征图关键信息，并采用残差连接的方式，在输出判别前融合以原输入图信息，增加对于边界等信息的掌控。

面向特征提取的卷积子模块，将输入特征图信息经过级联的2个卷积模块，扩大感受野的同时增加网络的非线性表述能力，同时经过一个尺度为7×7的深度可分离卷积以及一个通道卷积，并在这一部分采用残差连接的方式，保证梯度的稳定传播。

输入图像经过特征提取模块后，形成5个不同尺度下的特征图，特征图的通道数量为上一分辨率的2倍，尺度为上一分辨率的1/2。不同特征图经过上述过程后，通过融合双注意力机制的多尺度融合子模块进行注意力的引入。该模块首先将不同尺度的特征图信息通过卷积进行融合。然后，采用卷积等算子将特征图信息映射到空间与通道上，形成通道数为1的空间注意力面阵与尺度为1的通道注意力向量，通过乘法引入双重注意力，并采用残差的方式连接。

经过双重注意力的引入后，不同尺度特征图经过卷积多尺度聚合子模块。这一部分中，不同尺度的特征图通过卷积与2×2大小的上采样算子进行通道数量与尺度的调整，之后采用拼接的方式，将上述两个尺度与通道都相同的特征图融合。之后，采用2个卷积核大小为3×3的卷积、批均值归一化算子、激活函数扩大感受野并增加非线性，抑制色彩空间的剧烈变化引入的噪声。

在不同尺度上，分别采用保留细粒度纹理信息的剪支残差子模块进行关键纹理信息的提取。上述模块采用残差的结构建立，提炼输入图像的关键纹理边界信息。

原输入图像经过层层卷积后，语义信息较强，但纹理信息较弱。因此采用拼接的方式，将原输入图像作为特征图本身融合进判别的特征图部分，从而保留了最原始的边界纹理细节信息。

连通双注意力多尺度融合语义分割网络最终判别过程采用卷积的方式进行判别，输出通道数与数据集中类别数量相同。

与现有方案相比，本方案具有以下技术优点：

本发明通过连通双注意力多尺度融合语义分割网络，融合以双注意力机制，扩大了感受野大小的同时，增加了对于关键区域(缺陷及其边界)的细粒度定位。同时采用底层关键纹理信息融合的方式，保留了小感受野下的关键纹理信息。上述模块的引入，显著提升了网络对于工业生产中缺陷区域定位与密集分类的精度，回应了工业质量监控中对缺陷拓扑结构精确判别与测量的需求。

附图说明

图1为连通双注意力多尺度融合语义分割网络结构图；

图2为面向特征提取的卷积子模块，对应于图1的C部分；

图3为融合双注意力机制的多尺度融合子模块，对应于图1中的F部分；

图4为卷积多尺度聚合子模块，对应于图1中的M部分；

图5为保留细粒度纹理信息的剪支残差子模块，对应于图1中的R部分；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明公开的技术方法中，网络整体模型结构图如图1所示，原输入图像经过特征提取后，形成了空间上不同分辨率的特征图。不同分辨率特征图首先经过融合双注意力机制的多尺度融合子模块实现注意力信息的引入。在此之后，通过卷积多尺度聚合子模块，在同一分辨率下的最后一个特征图上，形成以卷积为融合方式的特征融合，并凝练关键特征信息。同时，为了保证底层信息不丢失，采用保留细粒度纹理信息的剪支残差子模块实现底层信息的提炼获取。

在本发明公开的技术方法中，提出了连通双注意力多尺度融合语义分割网络，该网络以Unet为基线方法，形成编码器——解码器结构。获得输入图像(尺度为3、H、W)的多颜色通道特征图后，经过面向特征提取的卷积子模块形成5个不同尺度的多分辨率特征图集合，相邻分辨率之间，尺度相差1/2，通道数量分别为[64,128,256,512,1024]。

连通双注意力多尺度融合语义分割网络包含有4个关键子模块：面向特征提取的卷积子模块、融合双注意力机制的多尺度融合子模块、卷积多尺度聚合子模块、保留细粒度纹理信息的剪支残差子模块，分别如图2-5所示。

面向特征提取的卷积子模块，如图2所示。由2个级联的3×3大小的卷积核组组成，每一个卷积核组中包括卷积卷积、批量归一化、Relu激活函数。卷积核组的步长为1，延展大小为1。经过连续的2个卷积核组后，特征图的非线性表述能力和感受野大大增加。在之后，经过一个7×7大小的深度可分离卷积核和通道卷积，卷积核中同样加入批量归一化、Relu激活函数，进一步增加感受野与非线性表述能力。同时采用深度可分离卷积可以极大的降低所需要的参数量，并采用残差的方式进行连接，维持梯度传递稳定。

输入图像的在经过面向特征提取的卷积子模块后，形成不同分辨率的特征图集合。为了进一步在上述集合中对缺陷区域及其边界施加注意力权重，本发明提出了融合双注意力机制的多尺度融合子模块，如图3所示。该子模块对相邻两个分辨率的特征图进行分析，因为相邻两个分辨率的特征图尺度与通道数量均不同，因此我们首先将高分辨率和低分辨率特征图通过卷积核大小为1×1的通道卷积。保持高分辨率特征图通道数量不变，改变低分辨率特征图通道数量，使其与高分辨率特征图相同。同时，采用上采样的方式，将低分辨率特征图尺度升至与高分辨率特征图相同。并采用数学相加的方式，将高分辨率信息与低分辨率信息融合。

在上述基础上，因为低分辨率特征图具有着更强的语义信息，因此，我们选择以低分辨率特征图为基础，引入双重注意力机制。双重注意力包含空间注意力与通道注意力。在空间注意力的引入中，我们首先将特征图经过一个7×7大小的卷积核，步长为1，扩充大小为3，输出通道数量为1。在卷积核后，经过一个批均值平衡算子与一个Sigmoid函数算子。通过Sigmoid函数，将注意力系数映射到0-1之间。之后，我们通过上采样算子，将其映射到与高分辨率特征图相同的尺度上，形成空间面阵注意力矩阵。在通道注意力的引入中，我们首先通过一个平均池化算子，将低分辨率特征图映射到尺度为1的大小上，然后，经过一个1×1大小的通道卷积，将低分辨率特征图映射到与高分辨率特征图相同的通道维度上。在此之后，经过一个Sigmoid算子，形成通道注意力系数向量。然后我们选择根据广播机制，将空间面阵注意力矩阵与道注意力系数向量做数学点乘，形成包含通道维度与空间维度的注意力特征图高维度矩阵，并通过数学点乘的方式，将其引入到多分辨率融合后的特征图中。

经过上述运算后，将双重注意力机制引入到高分辨率特征图，为了保证梯度传播的稳定性，我们采用残差的方式，将输入的高分辨率特征图信息，采用数学位次点加的方式，引入到经过双重注意力调制的特征图中。

不同分辨率通过依次引入双重注意力机制后，基于Unet方法，本发明提出了卷积多尺度聚合子模块用以在该尺度特征图上，汇总提炼的关键纹理与语义信息，如图4所示。我们为了维持通道数量与尺度相同，采用大小为1×1的通道卷积与上采样算子，将高分辨率与低分辨率特征图映射到与高分辨率相同通道数量的特征图上，然后在通道方向上进行拼接，融合高低层语义信息。然后，经过2个级联的3×3卷积核组，卷积的步长大小为1，扩充大小为1。卷积核组中包含着批均值平衡算子与一个Relu函数算子，从而能够扩大对特征图的感受野，并增加非线性表述能力。

缺陷区域微小，严重依赖边界纹理信息，因此本发明提出了保留细粒度纹理信息的剪支残差子模块，如图5所示。该子模块的输入图像为原始图像经过线性插值运算后，不同分辨率下的图像。输入特征图经过一个3×3卷积核组，卷积的步长大小为1，扩充大小为1。并经过批均值平衡算子与一个Relu函数算子。经过该核组后，通道数量与输出通道特征图保持一致。并在此基础上，通过一个卷积核大小为1×1的卷积模块。为了保持梯度的稳定传播，该子模块采用残差的方式进行连接。残差分支采用1×1的卷积模块，卷积的步长大小为1，扩充大小为0。

为了保留输入图像的原始输入信息，在经过面向特征提取的卷积子模块、融合双注意力机制的多尺度融合子模块、卷积多尺度聚合子模块、保留细粒度纹理信息的剪支残差子模块后，我们将输入图像原分辨率大小的最后一个特征图与原输入图像拼接，从而保留关键的纹理边界信息。

连通双注意力多尺度融合语义分割网络最终通过分类算子对通道数为65的原分辨率图像进行分析。分类算子采用1×1大小的卷积算子，卷积的步长大小为1，扩充大小为0。输出通道数量为N，其中N为数据集中像素的类别数量。将每个像素通道上提取置信度最大的数字的位置所对应的类别，作为该像素点上模型预测的最终输出。

本发明方法在两个公开的缺陷检测数据集上与多个方法对比(mIou)如表一、表二、表三所示，实验证明，本发明方法可以显著提升缺陷区域识别的精度，回应了工业对缺陷检测技术的迫切需求。

表一

表二

表三

Claims

1.连通双注意力多尺度融合语义分割网络，其特征在于：通过编码器——解码器结构实现输入图像关键特征的提取与融合，通过密集连接的双注意力模块对输入图像的特征图信息施加双重注意力，结合卷积融合子模块对不同尺度特征图信息进行聚合，并保留底层关键纹理信息，利用反向传播方法更新网络模型的参数。

2.连通双注意力多尺度融合语义分割网络，其特征在于，包括：

面向特征提取的卷积子模块，通过级联的双卷积结构提取特征，并采用卷积核大小为7×7的深度可分离卷积与1×1大小的通道卷积来增大感受野，同时采用残差分支保障训练过程的稳定性；

融合双注意力机制的多尺度融合子模块，对不同尺度通道的特征图信息通过卷积算子进行融合，再通过对低分辨率特征图的施加关键的空间注意力与通道注意力，采用数字点乘的方式，将高维度注意力矩阵映射到经卷积融合的特征图上，同时结合残差分支，将原始高分辨率特征图加入到融合双注意力的特征图中；

卷积多尺度聚合子模块，在连通双注意力多尺度融合语义分割网络每一个尺度节点的后端，采用拼接与卷积融合的方式实现不同特征图信息的拼接，扩大信息感知能力，采用双重卷积的模式，扩大对输入图像的感受野信息；

保留细粒度纹理信息的剪支残差子模块，通过残差结构下的卷积结构，保留输入图像的空间细粒度信息与关键的边界信息信息。

3.根据权利要求1所述的连通双注意力多尺度融合语义分割网络，其特征在于：以Unet方法为基线方法，但是在每一个尺度结构上，中间填充了融合双注意力机制的多尺度融合子模块，通过相邻的两个尺度信息进行特征分析与聚合，施加关键注意力，并通过保留细粒度纹理信息的剪支残差子模块与拼接输入原图像信息的方式，保留关键的缺陷纹理边界信息。

4.根据权利要求2所述的面向特征提取的卷积子模块，其特征在于：采用连续的2个卷积核大小为3×3的卷积，并在每一个卷积之间插入批均值化算子与激活函数Relu。

5.根据权利要求2所述的融合双注意力机制的多尺度融合子模块，其特征在于：采用1×1大小的通道卷积与2×2大小的上采样算子融合信息，并采用7×7大小的空间注意力算子，凝练空间上的关键输入信息，并采用平均池化算子与1×1大小的通道卷积，形成色彩层面上的通道注意力信息，对上述两个注意力特征信息采用矩阵广播的方式进行点乘，获取双注意力特征信息图。

6.根据权利要求2所述的卷积多尺度聚合子模块，其特征在于：通过1×1大小的通道卷积调整不同分辨率特征图的通道数量，采用拼接的方式实现不同尺度上的信息融合，后续卷积块中采用3×3大小的卷积，扩大网络模型的感受野范围大小。

7.根据权利要求2所述的保留细粒度纹理信息的剪支残差子模块，其特征在于：采用3×3大小的卷积结构，通过批均值量化和激活函数Relu对输入图像进行边界获取，并采用1×1调制特征图的数值范围，残差结构采用1×1大小的卷积，实现输入特征信息的融合。