CN116703923A

CN116703923A - 基于并行注意力机制的织物瑕疵检测模型

Info

Publication number: CN116703923A
Application number: CN202310986748.2A
Authority: CN
Inventors: 鲁大营; 李贞�; 吴熙; 苏启征; 王瑞; 韦钦景; 樊稳稳; 刘原
Original assignee: Qufu Normal University; Shanxian Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Qufu Normal University; Shanxian Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-09-05

Abstract

本发明涉及织物瑕疵检测技术领域，具体涉及一种基于并行注意力机制的织物瑕疵检测模型，包括特征提取网络模块和并行注意力机制模块；特征提取网络模块采用并行式的网络堆叠提取结构，除第一个网络层外，每个维度的网络层模块均有图片输入和上一个网络层模块的输出共两个输入源，不同层模块的连接中采用最大值池化下采样。本发明专用于工业织物生产流水线的瑕疵检测网络，能解决织物瑕疵检测中存在瑕疵类型多、瑕疵目标小、背景干扰大这三个主要问题，对瑕疵目标的特征提取能力更优秀。

Description

基于并行注意力机制的织物瑕疵检测模型

技术领域

本发明涉及织物瑕疵检测技术领域，具体涉及一种基于并行注意力机制的织物瑕疵检测模型。

背景技术

在针对织物的检测任务中，存在瑕疵类型多、瑕疵目标小、背景干扰大这三个主要问题。目前并无合适的目标检测网络能够同时解决以上三个问题，为此设计了专用于工业织物生产流水线的瑕疵检测网。

发明内容

针对现有技术的不足，本发明提供一种基于并行注意力机制的织物瑕疵检测模型，该模型对于小目标的特征提取能力更优秀。

本发明是通过如下技术方案实现的：

提供一种基于并行注意力机制的织物瑕疵检测模型，包括特征提取网络模块和并行注意力机制模块；

特征提取网络模块采用并行式的网络堆叠提取结构，除第一个网络层外，每个维度的网络层模块均有图片输入和上一个网络层模块的输出共两个输入源，不同层模块的连接中采用最大值池化下采样。

在特征提取部分，采用并行式的网络堆叠提取结构，以避免采用常规的线性纵向结构造成小目标特征区域在下采样过程中丢失的问题。待检测图片的直接输入确保了目标特征信息不会丢失，而将上层网络模块的输出输入到下层网络模块，则确保了该网络具有常规线性网络的特性，能够提取到目标的语义信息。同时，由于每个网络层模块所对应的特征图维度不同，在不同层模块的连接中采用最大值池化下采样，以最大化保留正样本特征信息，滤除背景特征的干扰。

进一步的，并行注意力机制模块包括一个可对特征进行提取的3×3卷积层，其第一输出连接有两路并行且对瑕疵特征重点提取的注意力提取网络，其中一路注意力机制模块包括前置的通道注意力机制模块和后置的Transformer模块，其中另一路注意力机制模块包括前置的空间注意力机制模块和后置的Transformer模块；其第二输出和第三输出分别对应两路注意力提取网络并分别输出至每路注意力提取网络的前置模块与后置模块之间，在前置模块中基于局部特征进行注意力计算，在后置模块中基于全局特征进行注意力计算，之后对两路计算得出的特征图合并输出。

进一步的，空间注意力机制模块包括用于接收特征图输入且两路并行设置的最大值池化层和平均层池化层，两路由MaxPooling层与AvgPooling层进行通道压缩得到维度为H×W×1的特征图采用concat层将得到的特征图叠加，并由1×1卷积层与Sigmoid激活函数计算得到空间热力图，将输入特征图与其相乘后输出带有空间权值信息的特征图。

进一步的，通道注意力机制模块包括用于接收特征图输入且两路并行设置的最大值池化层和平均层池化层，两路采用MaxPooling层与AvgPooling层聚合空间维度特征得到参数为1×1×C的特征图，由全连接层聚合并采用sigmoid激活函数计算得到通道热力图，对输入的特征图的通道维度进行加权赋值后输出。

进一步的，对Transformer模块的输入精简，特征图分组计算转换为tokens的方式，输入H×W×C维度的特征图，设置N组不同参数的空间注意力模块，后置模块的空间注意力计算中仅采用最大值池化与sigmoid激活函数获取空间权值，再将分别赋值后特征图转换为1×1×C的tokens形式。

在后置注意力模块中采用了Transformer模型对前置模块输出的特征图进行全局长距离特征的构建。由于Transformer模型的计算参数量较大，影响整体网络的实时检测速度，因此本文对Transformer模型的输入进行精简，由于这种转换方式不对特征图进行分割，使得经过多头自注意力计算后输出特征图中特征的关联性更强。

本发明的有益效果：

本发明针对布匹瑕疵区域较小相关特征不易提取的问题，提出了基于并行注意力机制的织物瑕疵检测模型MPANet。在该模型中由前置与后置注意力模块组成多支路并行特征提取网络。其中，在前置与后置注意力模块中包含了Transformer全局注意力机制与局部空间、通道注意力机制，提升了对于小目标特征的敏感性；且多支路并行的特征提取网络可充分利用目标的低维度形态特征，提高网络对于高维语义特征的学习能力。经实验测试，网络模型的F1-Socre值达0.905，mAP值达0.916，两项指标相比于优化前平均提升0.086。实验结果表明，该模型对于小目标的特征提取能力更优秀。

附图说明

图1为本发明模型的整体结构示意图。

图2为本发明中并行注意力机制模块的网络层结构。

图3为本发明中空间注意力机制模块的结构示意图。

图4为本发明中通道注意力机制模块的结构示意图。

图5为本发明中Tokens精简过程示意图。

图6为本发明检测样本图。

图7 为Anchor尺寸聚合图。

图8为目标中心点分布情况。

图9为长宽比分布图。

图10为中点坐标及长宽关系图。

图11 为Loss消融对比曲线图。

图12 为Precision消融对比曲线图。

图13为Recall消融对比曲线图。

图14 为mAP消融对比曲线图。

图15 为MPANet检测结果图。

其中：图6中的（a）为擦拭孔（Wipe_Hole）缺陷样本图，图6中的（b）为羊毛洞（Wool_Hole）缺陷样本图，图6中的（c）为挖孔（Burrow）缺陷样本图，图6中的（d）为编织稀疏（Weave_Thinly）缺陷样本图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，对本方案进行阐述。

一种基于并行注意力机制的织物瑕疵检测模型，包括特征提取网络模块和并行注意力机制模块。

如图1所示，特征提取网络模块采用并行式的网络堆叠提取结构，除第一个网络层外，每个维度的网络层模块均有图片输入和上一个网络层模块的输出共两个输入源，不同层模块的连接中采用最大值池化下采样。

如图2所示，并行注意力机制模块包括一个可对特征进行提取的3×3卷积层，其第一输出连接有两路并行且对瑕疵特征重点提取的注意力提取网络，其中一路注意力机制模块包括前置的通道注意力机制模块和后置的Transformer模块，其中另一路注意力机制模块包括前置的空间注意力机制模块和后置的Transformer模块；其第二输出和第三输出分别对应两路注意力提取网络并分别输出至每路注意力提取网络的前置模块与后置模块之间，在前置模块中基于局部特征进行注意力计算，在后置模块中基于全局特征进行注意力计算，之后对两路计算得出的特征图合并输出。

空间注意力机制模块包括用于接收特征图输入且两路并行设置的最大值池化层和平均层池化层，两路由MaxPooling层与AvgPooling层进行通道压缩得到维度为H×W×1的特征图采用concat层将得到的特征图叠加，并由1×1卷积层与Sigmoid激活函数计算得到空间热力图，将输入特征图与其相乘后输出带有空间权值信息的特征图。

通道注意力机制模块包括用于接收特征图输入且两路并行设置的最大值池化层和平均层池化层，两路采用MaxPooling层与AvgPooling层聚合空间维度特征得到参数为1×1×C的特征图，由全连接层聚合并采用sigmoid激活函数计算得到通道热力图，对输入的特征图的通道维度进行加权赋值后输出。

对Transformer模型的输入进行精简，通过将特征图分组计算转换为tokens的方式替代常规将特征图划分为特征块再转换为tokens的方式，特征图分组计算转换为tokens的方式，输入H×W×C维度的特征图，设置N组不同参数的空间注意力模块，后置模块的空间注意力计算中仅采用最大值池化与sigmoid激活函数获取空间权值，再将分别赋值后特征图转换为1×1×C的tokens形式。由于这种转换方式不对特征图进行分割，使得经过多头自注意力计算后输出特征图中特征的关联性更强。

对于网络的基础模块分别由前置注意力模块与后置注意力模块组合构成，以提升网络对于特征图中有效信息的提取能力。其次在特征提取网络的结构设计上，采用了并行结构以提升网络的特征提取效率。

本发明选取最常见的四类布匹缺陷：Wipe_Hole、Wool_Hole、Burrow及Weave_Thinly。每一类缺陷样本如图6所示。

将每个类别按照8：2的比例划分为训练集与测试集，划分结果表1所示。

表1 数据集划分

按照上表的划分结果对模型进行训练及评估，同时数据集信息的可视化包括以下信息：首先是根据图片中目标大小计算得到的Anchor尺寸聚合图，如图7所示。从图7中得知，Anchor的尺寸呈现方形与长条形，并且从大小分布密度上看，小尺寸的Anchor较多说明整体以小目标检测为主，且同时含有形状较大的Anchor，也说明目标具有较大的型态差异，在特征大小粒度方面呈现错层情况，对检测器的要求较高，需能满足对不同大小的目标均有高敏感度的要求。其次是在数据集中目标中心点相对于图片的分布情况，散点图如图8所示，中心区域存在的目标数量较多，但整体呈现散状分布，说明目标的出现为随机性，无相应规律可以判断，网络对于目标特征的提取需从全局进行避免发生漏检、错检等问题。再次是目标与图片的长宽比分布，分布结果如图9所示。

结合图7的大小情况与图9长宽比分布情况，可以论证在该检测任务中，目标的整体大小以小目标为主，对检测器的查全能力有较高的要求，同时也存在较多的条状目标，对目标大小的一致性构成一定影响，即网络模型需要同时兼容小目标与大目标的检测。最后是对目标中心点的坐标以及标记框的长宽关系，如图10所示，可整体反映出数据集中目标的大小及分布特性，从宽度的图上可以看出目标的宽度都集中在一个区域，宽度值较小，而从高度图中可以看出除了在小尺寸上有较多的数量外，在其他高度尺寸上也有定量的分布；其次是中心坐标点分布，从图10所示x坐标与y坐标的分量图中，二者均均匀分布在整条坐标轴上，说明目标均衡分布在特征图中，无规律出现。综上所述，与上述其他组图的分析结果一致，目标型态以小目标为主，且具有一定的大小差异，整体检测难度较高。

在网络训练时的超参数配置上，核心超参数及其配置数值如表2所示。

表2 超参数配置

该超参数通过多次实验取平均所得，适用于本申请设计的MPANet网络，在消融实验中各网络模型所对应的超参数有一定微调以适配其最佳。

如上表所示，模型的训练共设置了200次的迭代，初始学习率设置为0.001，末端学习率设置为0.00001，为加速获得最优解采用的梯度下降动量momentum为0.958，为避免网络过拟合所采用的权值衰减参数weight_decay为0.0005。同时在模型训练时所采用的数据增强超参数如表3所示。

表3 数据增强超参数

首先hsv_h、hsv_s及hsv_v三个参数为样本在hsv色彩空间上hue、saturation、value三个分量上的增强，超参数所对应的数值为各个分量的增加量。scale超参数为图像的放大比，即将图像随机放大1至1.5倍。Fliplr为图像镜像翻转的概率，即在训练时50%的图像会进行镜像翻转的概率。mixup为训练时图像拼接的概率，数值为1即说明每轮迭代均采用mixup的图像拼接方式。

模型评估

采用Precision、Recall、F1-Score、mAP及IoU五个指标作为评估模型性能的客观评估指标。同时各个指标的计算元素由多分类混淆矩阵所得，关于混淆矩阵中各元素的定义如下所示：

TP：真阳性，即指模型所预测的结果与实际结果相同的样本个数；

FP：假阳性，即指模型将非目标物体预测为目标的个数（错检）；

FN：假阴性，即指模型将目标预测为非目标的个数（漏检）。

基于混淆矩阵中的元素个数所得到的各指标计算公式及含义如下所述：

Precision：精确率指标，用以评估模型对于目标类别的判定精确度，其计算公式为：

。

Recall：查全率指标，用以评估模型对于目标的找全能力，其计算公式为：

。

F1-Socre：F1综合得分，Precision指标与Recall指标的调和函数，用以综合评估模型的检测性能，其计算公式为：

。

mAP：平均检测精度均值，用以综合体现模型的检测精度，其实际为模型对于各类目标的平均检测精度的总和求均值，计算公式为：

。

IoU：面积交并比，用以表示模型对于目标位置预测的区域与实际目标区域之间的交并比，其计算公式为：

。

消融实验

在消融实验环节中，本模型基于MPANet网络，采用其他等效模块或结构替换本文设计的前置与后置注意力提取模块和并行特征提取模块，以验证本模型对各网络模块的设计在网络中所起到的作用。在本次设计中，MPANet主要由两个核心模块所组成，分别为前置与后置注意力提取模块与并行特征提取网络结构。因此在消融实验环节中共设置了3组网络，每组网络模型的配置情况如下所述：

（1）在网络模型1中主要验证前置与后置注意力提取模块对于网络的性能提升帮助，因此采用标准残差模块ResNet替换了前置与后置注意力提取模块；

（2）在网络模型2中主要验证并行连接网络对于网络的性能提升帮助，因此将其主干网络采用前置与后置注意力提取模块进行单支路串行堆叠构建；

（3）网络模型3为上述两个网络的对照组，其采用上文所设计前置与后置注意力提取模块与并行连接网络两个核心模块进行搭建，即为MAPNet。

根据上述三个网络模型，在相同的硬件及软件环境中，采用相同的数据集进行训练及测试，得到的分组对比测试结果如表4所示。

表4 MPANet网络消融实验对比结果

其中：Att表示采用前置与后置注意力提取模块；PNet表示采用多支路并行特征提取网络。

首先将网络1与网络3进行对比，以验证前置与后置注意力提取模块加入后对于网络整体性能的影响。在Precision与Recall基础评估指标中，网络3相比于网络1平均增加了9.32%，说明前置与后置注意力提取模块对于目标特征的提取能力要优与常规的残差模块，相比于常规残差模块，采用前置与后置注意力提取模块作为主干网络的核心单元有效解决了错检、漏检等问题。在综合检测性能方面，F1-Score及mAP指标也反映出了前置与后置注意力提取模块在检测能力上要优于常规残差模块，同时在IoU指标中，通过增强对目标特征的提取能力，也使得网络3对于目标位置的预测精度要远优于网络1。

其次，对比网络2与网络3的各项指标，网络2与网络3相比主要的差异在于特征提取网络的构建，在网络2中，本文将MPANet的并行结构替换为线性串行结构，从数据对比情况上分析，Recall指标及IoU指标与模型3相比有较大差距，其余指标相比于模型3也有一定程度的下降，由于本实验检测目标的特殊性即其面积较小，在线性结构中经过多次下采样操作会对特征信息造成一定的丢失，而并行结构在每个维度的特征提取中，均会将输入图片通过最大值池化强化目标特征信息后与上层维度的输出合并再进行特征提取，有效减少了特征丢失，因此在模型2与模型3的性能对比中，模型2召回率指标更低，说明其存在有漏检情况，同时，在采用线性结构设计的网络中，其深层次的网络特征主要体现为语义特征，不同于并行结构可在各个的网络层次中将输入图片作为浅层特征信息进行补充，将形态特征与语义特征进行结合，可提升检测器对于目标的定位精度，因此模型2对于目标的定位精度也不及模型3。

其次，从上述三个网络模型的性能曲线图进行相应的性能分析。如图11所示，展示了四个网络训练过程中损失函数值的迭代变化曲线，该曲线可以从侧面反映出网络模型对于目标特征的学习能力。

首先，从图11中可以看出三条曲线呈现两级分化的形式，网络1与网络2的损失函数值较高、网络3的损失函数值较低，其中网络3的损失函数值最低，即可说明MPANet对于样本的学习能力最优。从曲线的分布上，网络1的损失函数曲线较差，即可说明前置与后置注意力提取模块对于网络学习目标的信息有重要影响关系，同时网络2的损失函数曲线也说明了本章设计的并行连接模块同样对网络有至关重要的影响。其次是对Precision指标的曲线分析，曲线对比结果如图12所示.

在Precision的曲线中，三条曲线的主要差异体现真波动性上，在迭代100次后，网络3的曲线趋于平稳，而其他网络的曲线仍然有不同程度的波动，这也说明了MPANet对于目标分类的稳定性较高。再次，对Recall指标的曲线进行对比，曲线分布如图13所示：

从Recall曲线图中得知，其分布与Precision相似，两者差别主要体现在曲线的稳定性上，分布指标也说明网络3整体的查全性能更优。最后为mAP曲线的消融对比，如图14所示。

mAP曲线可直观反映出模型的综合检测精度，图14反映出在整个训练过程中，网络3所表现出来的精度值最高，整体检测性能最优。进一步细化分析每个模型的检测性能，对比分析了四类瑕疵缺陷在三个模型上的检测精度，检测结果如表5所示。

表5 瑕疵类别检测精度

从上表的对比数据中看出比较难识别的瑕疵类型为“Weave_Thinly”，其主要原因为该类瑕疵是由于车针针数不够，导致某些区域布料较薄，由于瑕疵区域不够明显导致检测精度相比于其他瑕疵更低。从网络3的测试数据可以得出采用并行特征提取网络与前置&后注意力提取模块能够更充分的提取到目标特征信息，以提高检测精度，这一点从“Wipe_Hole”等其他三类目标的检测精度提升上也可以证明。

最后在消融实验环节，对模型的检测速度这一性能进行评估，在该实验方面主要采用客观指标模型参数量Params与主观指标FPS（FPS取决于所采用的硬件设备，本文所采用的为RTX2080），测试结果如表6所示。

表6 模型检测速度对比分析

如上表所示，从参数量上分析，采用前置与后置注意力特征提取模块后，由于注意力计算所需要的计算资源较多，因此在模型参数量上网络2大于网络1，将两个优化融合后网络3的参数为63.8MB，但在本文的硬件环境下，检测帧率达到39.5，即平均检测一张图片耗时25.3ms，仍具有较快的检测速度。

选取目标检测领域中较为先进的各类型网络与本章设计网络进行对比，以验证MPANet模型在织物瑕疵检测任务中的适用性与先进性。在双阶段类型网络中本文选用了Cascade RCNN网络，单阶段类型网络选用了YOLO X模型，另外对于目前流行的anchor free机制网络本文选用了CenterNet。所选用的网络及实验对比结果如表7所示。

表7 多网络对比实验

从上表的对比数据中可知，由于双阶段网络Cascade RCNN在网络结构中具有RPN候选区域，能够提取出可能包含目标的所有区域，之后通过级联检测器逐级筛查，但由于织物瑕疵的特征区域较小，RPN网络所提取到的候选区域包含相对更多的背景区域，增加了误检的可能性，因此在检测精度上其仍低于MPANet网络；对于单阶段网络YOLO X，其特征提取网络并未对小目标做特殊处理，因此各项指标低于MPANet；CenterNet的测试指标在以上对比网络中最低，其网络优势在于采用anchor free机制能够更精确拟合目标，CenterNet所使用的定位方式为根据获取目标的关键点位置信息确定目标的中心点最后由回归的方式确定其所在区域，但对于织物瑕疵而言其面积较小，CenterNet无法获取到有效特征信息，因此整体性能均要弱于上述其他网络。另外从检测速度上分析MPANet在检测速度方面除了略低于YOLO X外，均要优于其他网络，可说明其在检测速度方面也具有一定的优势。

综上所述，通过消融实验验证了本发明设计的两个模块的合理性，以及二者对网络性能起到的提升作用；同时通过多网络对比，验证了在织物瑕疵检测任务中，MPANet网络要优于其他同类型网络。同时，MPANet能够满足工业流水线中的织物瑕疵检测速度要求，其对于瑕疵样品的检测效果如图15所示。

在该模型中由前置与后置注意力模块组成多支路并行特征提取网络。其中，在前置与后置注意力模块中包含了Transformer全局注意力机制与局部空间、通道注意力机制，提升了对于小目标特征的敏感性；且多支路并行的特征提取网络可充分利用目标的低维度形态特征，提高网络对于高维语义特征的学习能力。经实验测试，网络模型的F1-Socre值达0.905，mAP值达0.916，两项指标相比于优化前平均提升0.086。实验结果表明，该模型对于小目标的特征提取能力更优秀。

当然，上述说明也并不仅限于上述举例，本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述；以上实施例及附图仅用于说明本发明的技术方案并非是对本发明的限制，参照优选的实施方式对本发明进行了详细说明，本领域的普通技术人员应当理解，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换都不脱离本发明的宗旨，也应属于本发明的权利要求保护范围。

Claims

1.一种基于并行注意力机制的织物瑕疵检测模型，其特征在于：包括特征提取网络模块和并行注意力机制模块；

2.根据权利要求1所述的基于并行注意力机制的织物瑕疵检测模型，其特征在于：并行注意力机制模块包括一个可对特征进行提取的3×3卷积层，其第一输出连接有两路并行且对瑕疵特征重点提取的注意力提取网络，其中一路注意力机制模块包括前置的通道注意力机制模块和后置的Transformer模块，其中另一路注意力机制模块包括前置的空间注意力机制模块和后置的Transformer模块；其第二输出和第三输出分别对应两路注意力提取网络并分别输出至每路注意力提取网络的前置模块与后置模块之间，在前置模块中基于局部特征进行注意力计算，在后置模块中基于全局特征进行注意力计算，之后对两路计算得出的特征图合并输出。

3.根据权利要求2所述的基于并行注意力机制的织物瑕疵检测模型，其特征在于：空间注意力机制模块包括用于接收特征图输入且两路并行设置的最大值池化层和平均层池化层，两路由MaxPooling层与AvgPooling层进行通道压缩得到维度为H×W×1的特征图采用concat层将得到的特征图叠加，并由1×1卷积层与Sigmoid激活函数计算得到空间热力图，将输入特征图与其相乘后输出带有空间权值信息的特征图。

4.根据权利要求2所述的基于并行注意力机制的织物瑕疵检测模型，其特征在于：通道注意力机制模块包括用于接收特征图输入且两路并行设置的最大值池化层和平均层池化层，两路采用MaxPooling层与AvgPooling层聚合空间维度特征得到参数为1×1×C的特征图，由全连接层聚合并采用sigmoid激活函数计算得到通道热力图，对输入的特征图的通道维度进行加权赋值后输出。

5.根据权利要求2所述的基于并行注意力机制的织物瑕疵检测模型，其特征在于：对Transformer模块的输入精简，特征图分组计算转换为tokens的方式，输入H×W×C维度的特征图，设置N组不同参数的空间注意力模块，后置模块的空间注意力计算中仅采用最大值池化与sigmoid激活函数获取空间权值，再将分别赋值后特征图转换为1×1×C的tokens形式。