CN114359283A - 基于Transformer的缺陷检测方法和电子设备 - Google Patents
基于Transformer的缺陷检测方法和电子设备 Download PDFInfo
- Publication number
- CN114359283A CN114359283A CN202210269203.5A CN202210269203A CN114359283A CN 114359283 A CN114359283 A CN 114359283A CN 202210269203 A CN202210269203 A CN 202210269203A CN 114359283 A CN114359283 A CN 114359283A
- Authority
- CN
- China
- Prior art keywords
- image
- segmentation
- layer
- query
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007547 defect Effects 0.000 title claims abstract description 120
- 238000001514 detection method Methods 0.000 title claims abstract description 82
- 230000011218 segmentation Effects 0.000 claims abstract description 147
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000007246 mechanism Effects 0.000 claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000004220 aggregation Methods 0.000 claims abstract description 11
- 238000011176 pooling Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 14
- 230000004931 aggregating effect Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 230000009191 jumping Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 49
- 239000012212 insulator Substances 0.000 description 45
- 238000012360 testing method Methods 0.000 description 21
- 239000013598 vector Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 238000003709 image segmentation Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000004020 conductor Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 101100379081 Emericella variicolor andC gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本申请提供了一种基于Transformer的缺陷检测方法和电子设备,属于电子信息技术领域,能够有效捕捉全局上下文信息,减少无关信息的聚合,提升缺陷检测准确度。该方法中,检测模型包括分割网络和分类网络,分割网络中的编码器基于Transformer获得,解码器基于卷积神经网络获得。该方法包括:基于查询图像、支持图像及其分割图像,确定输入序列;将输入序列输入到分割网络的编码器,通过分割网络利用支持图像及第一分割图像,指导查询图像的分割,输出查询图像对应的第一特征图和第二分割图像;编码器包括多头注意力机制,用于捕获查询图像的全局上下文信息;分类网络用于输出查询图像对应的缺陷分类结果。
Description
技术领域
本申请涉及电子信息技术领域,尤其涉及一种基于Transformer的缺陷检测方法和电子设备。
背景技术
铁路输电线路设备的缺陷检测,对保障高速铁路运行安全,有着重要的现实意义。对于铁路输电线路设备等工业产品的缺陷检测,包括传统的图像处理方法、基于机器视觉的缺陷检测方法、基于深度学习的缺陷检测方法。
传统的图像处理方法对于一些简单特征可以很好地进行处理,但在图片背景较为复杂的情况下,对噪声较为敏感,很难在检测精度和抗噪性能上取得平衡。基于机器视觉的检测方法,其浅层学习网络在训练样本和运算能力有限的情况下无法对一些复杂函数进行很好的表示,尤其是对一些较复杂的缺陷检测问题,缺陷检测效果并不理想,并且网络的泛化能力受到约束。基于深度学习的缺陷检测方法,凭借其出色的特征学习能力,在缺陷检测中发挥着重要作用。例如,FCN(Fully Convolutional Networks)、U-Net(ConvolutionalNetworks for Biomedical Image Segmentation)、SegNet(Semantic Segmentation)、PSPNet(Pyramid Scene Parsing Network)、DeepLab等语义分割网络先后被提出,此类模型自适应和泛化性能强,可以适用于缺陷检测的应用场景中,相比于传统的图像处理方法以及基于机器视觉的缺陷检测方法,在一定程度上提升了分割精度。
发明人在研究过程中发现,上下文信息是提升语义分割性能最关键的因素,过多的下采样操作会导致小目标的细节信息被严重损失甚至完全丢失,现有的语义分割网络由于其上下文信息缺失,分割准确率被限制。例如,公告号为CN111488882B的发明中提出了一种基于PSPNet的工业零件测量的高精度图像语义分割方法,其采用的模型主要按照以下步骤进行训练:1)构建并训练神经网络模型;2)将图像输入训练好的模型进行在线检测,实现图像的语义分割;其中,神经网络模型采用PSPNet作为图像特征提取器,采用几何池化层的池化方法,来替换传统的全局池化;且采用迭代概率图对概率图进行优化。该方案存在以下缺陷:PSPNet作为特征提取器,其上下文建模接受域有限,未能够提取样本的全局特征,限制了后续分割准确率,导致后续缺陷检测准确率不高。此外,该方案中的语义分割模型需要大量样本数据才能完成模型的训练,诸如绝缘子的很多设备的样本图像采集较为困难,大量样本数据难以获得,进而难以实现对相应设备的缺陷检测。
发明内容
本申请提供一种基于Transformer的缺陷检测方法和电子设备,用以解决特征提取阶段上下文信息丢失导致的缺陷检测准确度不高,和/或,需要大量样本图像数据才能完成缺陷检测的问题。
第一方面,本申请技术方案提供了一种方法,方法应用于预先训练的检测模型;检测模型包括分割网络和分类网络,分割网络包括编码器和解码器,其中,编码器基于Transformer实现,解码器基于卷积神经网络实现;方法包括:基于待检测的查询图像和查询图像对应的支持图像及第一分割图像,确定输入序列;将输入序列输入到分割网络的编码器,通过分割网络利用支持图像及第一分割图像,指导查询图像的分割,输出查询图像对应的第一特征图和第二分割图像;其中,编码器包括多头注意力机制,用于捕获查询图像的全局上下文信息;将第一特征图和第二分割图像输入到分类网络,通过分类网络输出查询图像对应的缺陷分类结果;缺陷分类结果至少用于表征查询图像中的目标设备表面是否带有缺陷。
在一个实施例中,编码器包括多个编码层,每个编码层包括交叉对齐模块和自对齐模块;自对齐模块,包括多头注意力机制、多层感知机和至少一个归一化层,用于通过聚合上下文信息来对查询图像对应的第一像素特征进行编码;交叉对齐模块,包括循环一致注意力机制、多层感知机和至少一个归一化层,用于将支持图像对应的第二像素特征聚合为查询图像对应的第一像素特征。
在一个实施例中,通过循环一致注意力机制,根据查询图像中各个像素点分别对应的第一像素特征,与支持图像中的各个像素点分别对应的第二像素特征之间的对应关系,判别查询图像的像素点与支持图像的像素点之间是否具备循环一致性;滤掉支持图像中与查询图像不具备循环一致性的像素点对应的第二像素特征。
在一个实施例中,滤掉支持图像中与查询图像不具备循环一致性的像素点对应的第二像素特征,包括:在将支持图像对应的第二像素特征聚合为查询图像中的目标像素点对应的第一像素特征的过程中,增加偏置项,以使目标像素点对支持图像中不具备循环一致性的像素点的关注权重趋于0。
在一个实施例中,确定输入序列,包括:确定查询图像对应的第一Query序列、第一Key序列和第一Value序列;确定支持图像对应的第二Query序列、第二Key序列,以及,第一分割图像对应的特征序列;将输入序列输入到分割网络的编码器,包括:将查询图像对应的第一Query序列、第一Key序列和第一Value序列输入自对齐模块中的多头注意力机制;将自对齐模块的输出作为第二Value序列;将第二Query序列、第二Key序列、第二Value序列以及特征序列,输入交叉对齐模块中的循环一致注意力机制。
在一个实施例中,将输入序列输入到分割网络的编码器之后,方法还包括:将编码器输出的序列输入至解码器,通过解码器执行上采样以输出查询图像对应的第一特征图和第二分割图像;其中,解码器包括至少一个卷积层和至少一个采样层;其中,卷积层用于对编码器输出的序列执行卷积运算,采样层用于对编码器输出的序列执行上采样处理。
在一个实施例中,卷积运算的卷积核大小为1*1;上采样处理的倍率为2倍。
在一个实施例中,分类网络基于卷积神经网络实现;分类网络包括第一池化层、第一卷积层、第二卷积层、第一最大池化层、第一平均池化层、第二最大池化层和第二平均池化层、全连接层;通过分类网络输出查询图像对应的缺陷检测结果,包括:通过第一池化层,对将第二分割图像执行池化操作,得到第二特征图;通过第一卷积层,对第二特征图执行卷积运算,得到第三特征图;将第二特征图与第三特征图进行跳跃连接,获得第一残差块;通过第二卷积层,对第三特征图执行卷积运算,得到第四特征图;将第三特征图与第四特征图进行跳跃连接,获得第二残差块;通过第二最大池化层和第二平均池化层,对第二残差块执行空间金字塔池化操作,得到第一特征;通过第一最大池化层和第一平均池化层,对第一特征图和第二分割图像,执行空间金字塔池化操作,得到第二特征;对第一特征和第二特征执行聚合操作,再经过全连接层和激活函数,得到查询图像对应的缺陷分类结果。
在一个实施例中,第一卷积层和/或第二卷积层之后,还设置有BN层和ReLU层,用于加速网络收敛。
第二方面,本申请实施例还提供一种电子设备,该电子设备包括:一个或多个处理器;存储器;至少一个应用程序;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行如上述第一方面中任一项所述的方法。
本申请实施例提供的基于Transformer的缺陷检测方法和电子设备,通过检测模型对包含待检测的目标设备的图像进行数据处理,进而输出分类结果,分类结果表示是否带有缺陷或者缺陷类型。检测模型中的编码器是在Transformer的编码器架构基础上进行了改进,一方面,通过编码器中的多头注意力机制,捕获查询图像的全局上下文信息,避免上下文信息缺失,提高缺陷检测的准确度;另一方面,通过分割网络利用所述支持图像及其分割图像(即第一分割图像),指导查询图像的分割,可以解决样本图像数量不足的问题,无需采集大量样本图像,进而可以在小样本数据集的情况下,实现对绝缘子等工业产品表面缺陷的有效检测。
附图说明
图1是本申请实施例提供的Transformer的缺陷检测方法的网络架构示意图;
图2是本申请实施例提供的Transformer的缺陷检测方法的流程示意图;
图3是本申请实施例提供的Transformer的缺陷检测方法中从数据集获取到模型测试的主体流程示意图;
图4是本申请实施例提供的Transformer的缺陷检测方法中数据集划分的示意图;
图5是本申请实施例中编码器的结构示意图;
图6是本申请实施例中循环一致注意力机制的结构示意图;
图7是本申请实施例中解码器的结构示意图;
图8是本申请实施例中分类网络的结构示意图;
图9是本申请实施例提供的网络架构的整体结构示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行详细描述。
本申请实施例提供的基于Transformer的缺陷检测方法和电子设备,可以用于各种工业产品表面缺陷检测,例如用于检测绝缘子等电气设备、铁路输电线路设备等产品的缺陷检测。
基于深度学习的缺陷检测方案中,一方面,上下文信息是提升语义分割性能最关键的因素,过多的下采样操作会使得小目标的细节信息丢失。在采用FCN、U-Net、PSPNet等语义分割网络进行缺陷检测的相关技术中,有的方案对于上下文建模接受域有限,在特征提取阶段未能提取到样本图像的全局信息,导致上下文信息缺失,上下文建模困难,限制了语义分割准确率。
另一方面,已有的一些语义分割网络,需要采集大量样本数据,少量的样本数据不足以完成语义分割网络的训练。而在现实工业领域中,很多工业产品的样本图像的获取存在一定的难度,难以获得像PASCAL VOC、COCO(Common Objects in Context)这样的大量样本数据集。例如,绝缘子作为安装在不同电位的导体或导体与接地构件之间的能够耐受电压和机械应力作用的器件,受其使用环境、安装位置以及拍摄角度限制等因素的影响,获取其大量样本图像是难以实现的。并且,对采集到的图像进行图像分割标注也需要耗费大量的人力、物力和财力。因而,基于已有的一些语义分割网络架构实施的缺陷检测方案,还存在以下问题:由于采集的样本图像的缺陷类别和数量有限,构建的少量绝缘子等产品的图像数据集不足以完成一些语义分割网络的训练。
因此,如何更有效的捕获全局的上下文信息以提升分割准确率,以及如何利用少量工业产品的样本图像完成准确的图像分割,以实现更为准确的产品缺陷检测,在保障高速铁路运行安全等诸多方面都至关重要。
本申请提出了一种基于Transformer的缺陷检测方法,能够解决上述问题。本申请在特征提取阶段,引入了Transformer,从序列到序列的角度提出了图像语义分割解决方案,该方案依旧使用基于编码器-解码器的网络框架,在编码器-解码器的语义分割框架中,编码器用于压缩原始输入图像的空间分辨率并逐步地提取更加高级的抽象语义特征,解码器则用于将编码器所提取到的高级特征上采样到原始输入分辨率以进行像素级的预测。与基于卷积的分割方法(例如自全卷积神经网络FCN)相比,本申请中Transformer的引入,能够保持输入和输出的空间分辨率不变,同时还能够有效的捕获全局的上下文信息,促使分割准确率得到进一步的提升。
此外,本申请提出的基于Transformer的缺陷检测方法,采用小样本图像数据集即可完成网络模型的训练,无需采集大量的样本图像,解决了小样本数据集不足以完成语义分割网络训练进而无法实现缺陷检测的问题。
本申请实施例提出的基于Transformer的缺陷检测方法,可以基于本申请提出的一种新的神经网络架构(以下或称为检测模型)实施。参阅图1所示,该神经网络架构包括分割网络和分类网络。分割网络包括编码器和解码器,用于特征提取。分类网络用于根据提取的特征进行分类,获得缺陷检测结果。其中,编码器基于Transformer实现,解码器基于卷积神经网络实现,分类网络基于卷积神经网络实现。
编码器包括多头注意力机制(Multi-head-attention),用于捕获查询图像的全局上下文信息。具体地,编码器中可以设置相应的单元或算法模块(module)以完成多头注意力机制的相关运算。
示例性地,本申请提出的网络架构中的编码器,可以是在Transformer的传统编码器的基础上进行改进而获得,后续将会对编码器的结构层次进行具体阐述。解码器采用了基于卷积神经网络的网络结构,可以理解为在传统的卷积神经网络的基础上进行了改进。
具体地,参阅图2所示,本申请实施例提供的基于Transformer的缺陷检测方法,可以包括如下流程:
201,基于待检测的查询图像和查询图像对应的支持图像及第一分割图像,确定输入序列。
Transformer的输入和输出均为序列,因而,在本申请实施例中,作为一种可实施方式,将图像进行序列化处理,将预输入检测模型的图像,转换为一维的序列数据,定义为输入序列。输入序列可以理解为向量,示例性地,输入序列包含图像中的各个像素点分别对应的序列,一个像素点对应的序列可以理解为一个嵌入向量。
202,将输入序列输入到分割网络的编码器,通过分割网络利用支持图像及第一分割图像,指导查询图像的分割,输出查询图像对应的第一特征图和第二分割图像。
利用支持图像及第一分割图像,指导查询图像的分割,也就是在对查询图像进行分割处理的过程中,将支持图像及其对应的分割图像的图像特征作为参考特征,参与查询图像的特征聚合,起到通过支持图像及其分割图像的图像特征,指导查询图像分割的目的,这种机制可以降低对训练样本数量的要求。
其中,支持图像,即样本图像。第一分割图像,即对支持图像对应的分割图像。查询图像,即待检测图像。
203,将第一特征图和第二分割图像输入到分类网络,通过分类网络输出查询图像对应的缺陷分类结果。
缺陷分类结果可以是表示图像中的产品是否带有缺陷的二分类结果,也可以是更多缺陷类别的分类结果。根据缺陷分类结果,至少可以得知查询图像中的目标设备表面是否带有缺陷。目标设备可以是待检测的任意一种工业产品。本申请实施例中,或以绝缘子作为目标设备进行示例性说明。
在一个实施例中,上述步骤201-203可以理解为在检测模型训练完成后,采用训练好的检测模型对待测图像(即查询图像)进行检测的过程。在步骤201之前,还需要执行数据集获取、模型构建、模型训练等流程,下面以绝缘子为例,从获取数据集开始,阐述从准备数据集到完成检测的整个流程。
参阅图3所示,在一个实施例中,在步骤201之前,还可以包括如下步骤:
301,数据集获取。
采集具有不同类型缺陷的绝缘子图像和正常绝缘子图像,并对采集的绝缘子图像进行图像分割、缺陷分类和缺陷图像分割标注的预处理。
正常绝缘子图像,即不带有缺陷的绝缘子的图像。是否带有缺陷可以依据产品质检规则进行区分。
302,数据集划分。
构建小样本下的绝缘子缺陷图像数据集,其包括训练集和测试集,训练集和测试集中均包含样本图像及其对应的分割图像。样本图像对应的分割图像,可以是对样本图像进行分割处理后,经过人工审核分割结果准确的分割图像。样本图像对应的分割图像可以理解为样本图像对应的分割结果样本。
303,构建检测模型。
构建基于Transformer的小样本缺陷检测模型。该检测模型是一个两阶段网络,包括分割网络以及分类网络。示例性地,检测模型的网络架构可以参阅图9所示。
304,训练检测模型。
构建检测模型后,使用绝缘子图像训练集对检测模型进行训练,每一次训练任务从训练集中获取支持图像和查询图像来模拟测试时的样本图像和测试图像,在训练时,首先将将支持图像及其分割图像和查询图像同时输入到分割网络中,利用支持图像及其分割图像指导查询图像的分割过程。示例性地,分割网络输出的特征图的格式可以是掩膜图像,将得到的分割掩膜输入至分类网络中进行分类,直至训练完成。
其中,分割掩膜即为分割图像的掩膜(mask)。
305,对训练好的检测模型进行测试。
将测试集中的支持图像和查询图像输入到已收敛的分割网络中,通过样本图像及其分割图像指导查询图像的分割图像的生成,得到的查询图像的分割掩膜输入至训练好的分类网络中确定查询图像的缺陷类型及位置。测试合格的检测模型即可用于产品缺陷检测。由于训练、测试和检测的主要流程一般是一致的,因而,步骤201-203既可以是训练阶段的步骤,也可以是测试阶段或者检测阶段的步骤,或者,可以理解为,步骤201-203可以是包含在步骤304或步骤305中的具体操作步骤。
为进一步理解本申请实施例提出的基于Transformer的缺陷检测方法,下面对检测模型展开说明。
在一个实施例中,编码器包括多个编码层,每个编码层包括交叉对齐模块和自对齐模块。
自对齐模块,包括多头注意力机制、多层感知机和至少一个归一化层。自对齐模块,用于通过聚合上下文信息来对所述查询图像对应的第一像素特征进行编码。其中,多层感知机,也可以称为多层感知器(MLP,Multilayer Perceptron)。
传统的Transformer模型中,encoder(编码器)包含2层,分别是Self-Attention(SA)层和Feed Forward Neural Network(FFN)层,SA层的作用是在对输出序列中的每个对象编码的时候,让编码信息中包含序列中的其他对象的信息,即保存了当前对象与其余对象之间的关系,在本申请实施例的应用场景中,对象可以指图像中的像素。FFN层即前向网络,用于对SA层的输出进行近一步的特征提取。在本申请实施例提出的自对齐模块中,采用多头注意力机制替换SA层,采用多层感知机作为FFN层。
交叉对齐模块,包括循环一致注意力机制、多层感知机和至少一个归一化层。交叉对齐模块,用于将支持图像对应的第二像素特征聚合为查询图像对应的第一像素特征。
自对齐模块的输入序列包括查询图像对应的Query序列、Key序列和Value序列,自对齐模块的输出序列会作为交叉对齐模块的输入,具体作为交叉对齐模块的Value序列输入,交叉对齐模块的输入包括支持图像对应的Query序列、Key序列和自对齐模块输出的序列(Value序列),以及该支持图像对应的分割图像的特征序列。
为防止混淆和描述清楚,将查询图像对应的输入序列分别定义为第一Query序列、第一Key序列和第一Value序列,支持图像的输入序列分别定义为第二Query序列、第二Key序列和第二Value序列。其中第二Value序列即自对齐模块的输出序列。
具体地,将查询图像对应的第一Query序列、第一Key序列和第一Value序列输入自对齐模块中的多头注意力机制,将第二Query序列、第二Key序列、第二Value序列以及分割图像对应的特征序列,输入交叉对齐模块中的循环一致注意力机制。
本申请实施例中,基于自对齐模块和交叉对齐模块的编码器架构设计,能够利用支持图像及其分割图像(即第一分割图像),指导查询图像的分割,降低对大量样本图像的依赖程度。
发明人在研究过程中进一步发现,在利用支持图像及其分割图像指导查询图像的分割过程中,支持图像中可能包含无关查询图像分割的特征,这些无关信息聚合到查询图像的分割特征中,导致查询图像分割不准确。例如一种由特征提取模块和特征增强模块构成编码器的方案就存在此类问题。即,已有的相关技术中,还存在如下缺陷需要被克服:利用支持图像及其分割图像指导查询图像的分割过程中,支持图像中包含无关的信息聚合到查询图像的分割特征中,导致查询图像分割的不准确。
本申请实施例在该种自对齐模块和交叉对齐模块的编码器架构中,进一步设置了循环一致注意力机制,循环一致注意力机制可以滤掉与查询图像可能无关的支持特征,并鼓励查询特征关注支持图像中信息量最大的像素。其中支持特征即支持图像中的像素特征,查询特征即查询图像中的像素特征。像素特征即一个像素点或一组像素点对应的特征向量(也可以称为嵌入向量)。
在本申请实施例提出的检测模型中,解码器包括至少一个卷积层和至少一个采样层。其中,卷积层用于对编码器输出的序列执行卷积运算,采样层用于对编码器输出的序列执行上采样处理。
在将输入序列输入到分割网络的编码器之后,将编码器输出的序列输入至解码器,通过解码器执行上采样以及卷积等操作,以输出查询图像对应的第一特征图和第二分割图像,第一特征图以及第二分割图像即为对查询图像进行特征提取的提取结果。
其中,为防止混淆,将支持图像对应的分割图像定义为第一分割图像,将查询图像对应的分割图像定义为第二分割图像。
在一个实施例中,卷积层执行的卷积运算的卷积核大小为1*1,上采样处理的倍率为2倍。
示例性地,分类网络可以包括第一池化层、第一卷积层、第二卷积层、第一最大池化层、第一平均池化层、第二最大池化层和第二平均池化层、全连接层。
通过分类网络输出查询图像对应的缺陷检测结果的具体过程可以是:
通过第一池化层,对将第二分割图像执行池化操作,得到第二特征图,通过第一卷积层,对第二特征图执行卷积运算,得到第三特征图;将第二特征图与第三特征图进行跳跃连接,获得第一残差块;通过第二卷积层,对第三特征图执行卷积运算,得到第四特征图;第三特征图与第四特征图进行跳跃连接,获得第二残差块。
然后,通过第二最大池化层和第二平均池化层,对第二残差块执行空间金字塔池化操作,得到第一特征;通过第一最大池化层和第一平均池化层,对第一特征图和第二分割图像,执行空间金字塔池化操作,得到第二特征;对第一特征和第二特征执行聚合操作,再经过全连接层和激活函数,得到查询图像对应的缺陷分类结果。
可选的,在第一卷积层和/或第二卷积层之后,还设置有BN(BatchNormalization,批量归一化)层和ReLU(Linear rectification function,线性整流函数)层,用于加速网络收敛。
下面列举一个具体的实施例。该实施例分别从数据获取、数据集划分、缺陷检测网络构建、图像缺陷检测四个方面进行详细说明。
一、数据获取
采集具有不同类型缺陷的绝缘子图像及正常绝缘子图像,由于采集的绝缘子图像是在真实环境条件下采集的,受各种客观环境的影响,需要对采集的绝缘子图像进行图像调整、裁剪图像、数据增强、缺陷分类和以及图像分割标注的预处理。
(1)图像调整:输电线路上采集的绝缘子图像一般质量不是很高,若直接进行训练会降低缺陷检测模型的准确率。因此需要对绝缘子图像进行一定的处理。适当调整图像本身的亮度、对比度、锐度,使绝缘子与背景对比度提高。
(2)裁剪图像:在拍摄过程中,为了保证视野,可能不仅将绝缘子拍摄进去且还包含其他输电线设备,绝缘子只占所拍摄图像的小部分。如果直接使用这些图像进行训练会使网络学到很多无关的特征。因此需要将拍摄图像中的绝缘子通过裁剪的方式提取出来。
(3)数据增强:由于获得的绝缘子图像有限,因此采用数据增强技术来获取更多数据。通过对采集得到的图像进行随机上下平移、左右平移,随机角度晃动、旋转,随机亮度变化,加入随机分布的噪声等方法,生成一批与原图类似,但是画面表现差异巨大的缺陷图片,扩大缺陷样本的数量。
(4)图像分类:在该实施例中,将绝缘子图像分为正常、裂缝、污秽、缺失等多个类别,以便于后续的分割标注。在其他实施例中,图像分类可以至少包括两个类别:正常和缺陷;或者,分为其他三种以上的缺陷类别,例如还可以分为正常、裂缝、缺口3个类别等等。
(5)图像分割标注:根据图像的缺陷类别,将绝缘子缺陷图像的每个类别进行标注,不同的缺陷类别与背景用不同的颜色区分开来,以此凸显缺陷的类别、大小、位置等基本信息。
二、数据集划分
构建绝缘子图像数据集是完成绝缘子缺陷检测方法训练的基础,数据集中包含了缺陷图像和正常绝缘子图像以及其标注好的分割图像。为了更好的训练和验证模型的检测效果,构建的绝缘子图像数据集分为训练集和测试集。示例性地,小样本数据集的一种划分方式参阅图4所示。
训练集是对构建小样本绝缘子缺陷检测模型进行训练,使模型能够适应绝缘子缺陷的应用场景;测试集是对已训练模型性能的测试,测试集包含了经过图像预处理,但未对网络进行训练的绝缘子图像。测试集中的各种类型样本的数量较少,每种样本的数量只有训练集中的1/5。
小样本数据集训练与大型数据集训练不一样。对于小样本而言,每一个训练任务,采用训练集进行训练。训练集包括支持集和查询集,支持集和查询集可以按照如下方式获得:
训练集中抽取D个类别,每个类别抽取K个样本作为这次训练任务的支持集
(support set),当K=1时,为1-shot,当K>1时,为K-shot,
K-shot表示小样本数据集中的K个样本,D个类别中的其他K个样本则作为此次训练任务的
查询集 (query set) 。支持集中的样本图像定义为支持图像,查询集
中的样本图像定义为查询图像。支持集中的支持图像和查询集中的查询图像是成对输入至
检测模型中进行训练的。支持集中包括支持图像及其分割图像(第一分割图像),查询集中
包括查询图像及其分割图像(第二分割图像)。测试集的图像也如训练集一样进行划分。I表
示绝缘子图像(支持图像或者查询图像),M代表了绝缘子图像经过标注而获得的分割图像
(支持图像对应的第一分割图像或者查询图像对应的第二分割图像)。
三、检测模型构建
构建基于Transformer的小样本缺陷检测模型,该检测模型由一个两阶段网络构成,其中包括分割网络和分类网络。
分割网络是基于Transformer,分类网络是基于卷积神经网络。分割网络采用编码器-解码器架构,但与现有技术中的编码器-解码器架构不同,本申请实施例中的编码器采用Transformer,解码器基于卷积神经网络。
其中,编码器分为两个部分,一个是交叉对齐模块,一个是自对齐模块。自对齐模块通过聚合其相关上下文信息来对查询图像特征进行编码,而交叉对齐模块通过将支持图像的像素特征聚合为查询图像的像素特征,为查询图像提供了足够丰富的逐像素支持信息以进行像素级的分割预测。
解码器利用不同编码层的输出的特征通过上采样得到最终的预测。分类网络通过分割网络中解码器部分得到的特征采用跳跃连接以及空间金字塔池化,输出分类结果,即缺陷的分类。
示例性地,在一个实施例中,本申请实施例提出的基于Transformer的小样本缺陷检测方法的整体架构中,编码器的架构参阅图5所示。
在该实施例中,分割网络的编码器,由24个编码层组成,每一层中包含了交叉对齐模块和自对齐模块。交叉对齐模块包含一个循环一致注意力机制、两个归一化层、一个多层感知机。自对齐模块包含一个多头注意力机制、两个归一化层、一个多层感知机。
在一个实施例中,交叉对齐模块以及自对齐模块的层次结构如图5所示,交叉对齐模块包括一个循环一致注意力机制,在循环一致注意力机制之后依次设置归一化层、多层感知机、归一化层。自对齐模块包括一个多头注意力机制,多头注意力机制之后依次设置归一化层、多层感知机、归一化层。
需要说明的是,在一个实施例中,分割网络的编码器,由24个编码层组成,每一层中包含了交叉对齐模块和自对齐模块,各个编码层输出的序列依次从底层向上层传递,最后一层(即第24层)的编码层的交叉对齐模块的输出即为编码器的输出。
查询图像X q 、支持图像X s 和支持图像对应的分割图像M s ,通过图像序列化得到一维
序列(),作为Transformer的输入,输入到编码器中,把图像中每个像素点的特
征看作是一个token。,其中R表示实数集,H q 表示查询图像的高度,W q 表示查询
图像的宽度,C表示通道数;,其中H s表示支持图像的高度,W s表示支持图像
的宽度,C表示通道数。中,Z表示一维序列,HW表示一维序列的长度,即高度H与宽
度W的乘积,C表示通道数。
示例性地,在一个实施例中,Transformer的输入可以是一个1D(一维)序列,因此,
需要图像序列化将输入图像转换为一维序列Z。图像序列化即将输入图像展平为一维序列Z()。例如,图像大小为128(H)×128(W)×3(R,G,
B三个通道),序列化后得到长度为49152的1D向量。
具体地,查询图像X q 经过图像序列化处理后得到序列(),输入至自对齐模块,通过聚合其相关上下文信息来对查询图像特
征进行编码,得到查询图像的编码。其中,为便于描述,分别定
义为第一Query序列、第一Key序列和第一Value序列。
支持图像X s 经过图像序列化处理后得到序列(),和自对齐模块输出的查询图像编码后的序列()输入至交叉
对齐模块,具体是输入至循环一致注意力机制,并且分割图像X M 经过图像序列化处理后的
序列一起输入至循环一致注意力机制,通过交叉对齐模块将支持图像的像素特征聚合为查
询图像的像素特征。为描述清楚,分别定义为第二Query序列、第二Key序列,定
义为第二Value序列。
多头注意力机制是由多个自注意力构成,即多头注意力机制包括多个独立的attention计算。其中,自注意力的计算公式如下:
,中上角标q表示为查询图像,Z
表示查询图像或支持图像或者分割图像经过一维序列化处理后得到的一维输入序列,分别表示Q向量对应的一维输入序列、K向量对应的一维输入序列和V向量对应
的一维输入序列。Q向量基于W q 和获得,K向量基于W k 和获得,V向量基于W v 和获
得。分别表示Q权重矩阵、K权重矩阵和V权重矩阵,该3个矩阵中的元素均为
可学习的参数,模型的训练即为不断修改参数,以使模型收敛。
d是查询图像序列的维数,可以理解为一个token的维度,或者说可以理解为在特征提取阶段,一个像素点的嵌入向量的维度。
多头注意力将m个自注意力连接在一起,将输入的维度d分m组,多头注意力如下:
前述内容中有所提及,在小样本缺陷检测中,支持图像及其分割图像指导查询图像的分割,由于支持图像中包含无关查询图像分割的特征,这些无关信息会聚合到查询图像的分割特征中,导致查询图像分割的不准确。针对这个问题,本申请提出循环一致注意力机制。采用循环一致注意力机制可以有效滤掉支持图像中无关的支持特征,并鼓励查询特征关注支持图像中信息量最大的像素,促使对查询图像的分割。
具体地,循环一致注意力机制,用于根据查询图像中各个像素点分别对应的查询特征(第一像素特征),与支持图像中的各个像素点分别对应的支持特征(第二像素特征)之间的对应关系,判别查询图像的像素点与支持图像的像素点之间是否具备循环一致性;然后,将支持图像中与查询图像不具备循环一致性的像素点对应的像素特征过滤掉。
通过循环一致注意力机制,可以滤掉与查询图像可能无关的支持特征(即支持图像中的像素特征,也可以称为支持token),并鼓励查询特征(即查询图像中的像素特征,也可以称为查询token)关注支持图像中信息量最大的像素。
循环一致注意力机制的结构如图6所示,其主要通过度量查询特征与支持特征的一致性,对支持图像中有害信息分配趋于0的权重。有害信息指与查询图像不具备一致性的无关信息。
具体地,在一个实施例中,可以采用亲和图来度量所有查询tokens和支持tokens之间的对应关系。图6中所示的图A即为亲和图。其计算公式如下:
其中A表示亲和值,亲和值即查询token和支持token之间的对应关系的量化值,用
于表示相应的两个像素点之间的关联度,,是支持图
像的序列,分别表示Q权重矩阵、K权重矩阵,是可学习的参数。d是支持图像的序列的
维数(一个token的维数)。一般而言,查询图像和支持图像的序列维数应保持一致。
其中argmax表示argmax函数,是使得取得最大值所对应的变
量点(即像素点)或变量点的集合,表示查询图像中第i个像素点与支持图像中第j个像
素点之间的亲和值。此处argmax函数的作用在于根据亲和值建立两个像素点之间的映射,
即亲和值取最大值的两个像素点之间建立了映射关系。作为一种可实施方式,图6中由亲和
图A分别指向第个像素点和第个像素点的映射动作,可以采用argmax函数实现。∈
{0,1,…,H q W q }表示展平后查询特征的索引,可以理解为查询图像中第个像素点。由于
查询掩码不可访问,token的标签未知,所以以类似的方式将其映射回支持特征,以找到
其在支持序列中最相似的特征点:
此处表示查询图像中第个像素点,token表示查询图像中第个像素点对
应的token。表示支持图像中第个像素点。前面已经提到过,token表示一个像素点的
特征,该特征可以用向量的方式表达,因而token也可以理解为一个像素点对应的嵌入式向
量。此处的标签,用于表示指该token属于分割结果中的哪一类,分割结果的类别可以包括
前景图像和背景图像,例如高铁绝缘子的支持图像中,各个像素点的标签表示该像素点是
绝缘子图像还是背景。由于查询图像没有分割图,所以查询图像中各个像素点的标签是未
知的。
需要说明的是,分割网络中的标签与分类网络中的标签所表示的含义是不同的,分割网络中的标签用于表示分割结果的类别,例如表示前景图像(例如绝缘子)还是背景图像。分类网络中的标签用于表示缺陷类别,例如最简单的两种缺陷类别即没有缺陷和带有缺陷,具体还可以划分为其他多种缺陷类别,例如合格(即不带有缺陷)、裂缝、污秽、缺失等类别。
查询掩码即查询图像的掩膜图像中各个像素点的值。
给定支持图像的掩膜图像,如果,则认为支持图像中
的第j个像素点的token与查询图像中的点的token之间建立了循环一致性。为支持序列
中的所有token都构建循环一致性关系,利用循环一致性的一种可能方法是最大化匹配点
之间的相似性。其中,M s 表示支持图像的掩膜图像,也就是支持图像的分割图像,因而,分割
图像也用符号M s 表示。表示支持图像的掩膜图像中第j个像素点的值,表示支
持图像的掩膜图像中第个像素点的值。H s 表示掩膜图像的高度,W s 表示掩膜图像的宽度,H s W s 表示掩膜图像的大小,表示由大小为H s W s 的掩膜图像构成的实数集。
对于在查询图像中位于第i个像素点(即目标像素点)位置的查询token,可以通过如下公式聚合支持特征:
其中,B分别由(3)、(6)式计算得到,表示第i个像素点
位置的查询token。以这种方式,对于循环不一致的支持特征的关注权重趋向于零,这意味
着将不考虑支持图像中不相关的信息。式(7)中softmax函数的作用可以理解为进行归一化
处理,即图6中的归一化处理可以通过softmax函数实现。B=的情况下,经过softmax函
数处理后的权重趋近于0。趋近于0可以理解为该数值与0之间的差值小于预定值,该预定值
可以是0.1,或0.01,0.001等。
分割网络解码器结构如图7所示,解码器采用渐进式上采样策略,编码器输出的序
列进行Reshape操作得到特征图D 1,然后经过卷积核大小为1*1的卷积操作和2倍上采样
操作,得到特征图D 2,同理,特征图D 2经过1*1的卷积操作和2倍的上采样操作之后,得到特征
图D 3(即第一特征图)以及查询图像的分割图M q (第二分割图像)。Reshape操作用于调整矩阵
的维度和形状,此处用于调整编码输出的序列的维度和形状。
需要说明的是,上述卷积核大小以及上采样的倍率仅为示例,采用上述参数进行卷积操作和上采样操作获得的图像分割结果更为准确。在其他实施例中,也可以采用其他卷积操作和上采样操作,不限制于该实施例给出的上述参数。
参阅图8所示,分类网络将分割网络中解码器部分得到的特征图D 3和查询图像的分割图M q 作为输入,更容易地学习全局信息,通过第一池化层执行池化操作得到第二特征图C 1,然后C 1经过1个3*3的第一卷积层得到第三特征图,第一卷积层的卷积核大小为3*3,特征图C 1和经过第一卷积层后的第三特征图通过跳跃连接得到残差块C 2。残差块C 2经过第二卷积层的卷积操作后得到的第四特征图与C 2通过跳跃连接得到残差块C 3。
两个残差块(C 2,C 3)(即第一残差块和第二残差块)对经过池化之后的特征图进行学习,每个卷积层后面都接着BN和非线性ReLU层用于加速网络收敛。
最后,分别对学习到的特征图和分割网络输出的结果进行空间金字塔池化操作(最大池化和平均池化),并将其一起聚合起来,再经过全连接层和sigmoid激活函数得到分类网络的输出,即缺陷的分类。
具体地,空间金字塔池化操作可以包括:
通过第二最大池化层和第二平均池化层,对第二残差块执行空间金字塔池化操作,得到第一特征。然后,通过第一最大池化层和第一平均池化层,对第一特征图和第二分割图像,执行空间金字塔池化操作,得到第二特征。
接下来,对第一特征和第二特征执行聚合操作,再经过全连接层和激活函数,得到查询图像对应的缺陷分类结果。聚合操作,即采用卷积神经网络中的聚合函数aggregator执行相应的特征聚合函数运算。在其他实施例中,也可以采用其他特征聚合函数实现聚合操作。例如,采用Max Pooling aggregator等聚合方式进行聚合操作。
激活函数可以是sigmoid函数,也可以是softmax函数。一般而言,输出的分类结果为二分类的情况下,也就是缺陷类别仅分为带有缺陷和不带有缺陷两个类别的情况下,使用sigmoid函数。缺陷类别包括3种以上则使用softmax函数。
完整的检测模型的网络架构参阅图9所示。本申请实施例提供的检测模型可以在小样本数据集的情况下,对绝缘子等工业设备的图像进行缺陷检测,识别该图像中的绝缘子等设备是否带有缺陷,或者,还可以检测出具体的缺陷类型,例如是否有裂缝,是否有缺口等。
需要说明的是,为保证视图清晰,图9以及其他附图中的解码器以及分类网络未示出全部的网络层,例如第一卷积层、第二卷积层以及第一池化层、第一最大池化层等未在附图中示出,本领域技术人员能够根据上述说明明确各个层的分布。
四、模型训练
训练过程中,使用绝缘子图像训练集对缺陷检测方法进行训练,训练集每一次训练任务从训练集中获取支持图像和查询图像来模拟测试时的样本图像和测试图像,在训练时,首先将支持图像及其分割图像和查询图像同时输入到分割网络中,利用支持图像及其分割图像指导查询图像的分割过程,将得到的分割掩膜输入至分类网络中进行分类,直至训练完成。
五、图像缺陷检测
测试集中的支持图像和查询图像输入到已训练好的分割网络中,通过支持图像及其分割图像指导查询图像的分割图像的生成。分类网络通过分割网络中解码器部分得到的特征采用跳跃连接以及空间金字塔池化,输出分类结果。
将分类结果与预先标注的分类结果进行比较,进而获得模型是否通过测试的结果。通过测试,该训练好的模型即可用于缺陷检测。
综上,现有的语义分割网络在特征提取阶段未能提取到样本图像的全局信息,导致上下文建模困难,限制了语义分割准确率。针对这个问题,本申请提出的小样本缺陷检测模型的分割网络编码器采用Transformer架构,从序列到序列的角度提出了图像语义分割解决方案。与基于卷积的分割方法相比,Transformer能够保持输入和输出的空间分辨率不变,同时还能够有效的捕获全局的上下文信息,促使分割准确率得到进一步的提升。
此外,由支持图像及其分割图像指导查询图像的分割过程中,支持图像中包含无关查询图像分割的特征,这些无关信息会聚合到查询图像的分割特征中,导致查询图像分割的不准确。为了消除支持图像中无关特征的影响,采用循环一致注意力机制可以有效滤掉支持图像中无关的支持特征,并鼓励查询特征关注支持图像中信息量最大的像素,促使对查询图像的分割。
本申请实施例还提供一种电子设备,该电子设备包括:一个或多个处理器;存储器;至少一个应用程序;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行本申请实施例提供的基于Transformer的缺陷检测方法。
本申请实施例还提供一种存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行本申请实施例提供的基于Transformer的缺陷检测方法。
本申请实施例还提供一种芯片系统,包括:通信接口,用于输入和/或输出数据;处理器,用于执行计算机可执行程序,使得安装有所述芯片系统的设备执行本申请实施例提供的基于Transformer的缺陷检测方法。
应理解,在本申请的各实施例中,“第一”、“第二”等仅是为指代不同的对象,并不表示对指代的对象有其它限定。
应理解,本申请实施例中的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a, b, c, a-b,a-c, b-c,或a-b-c,其中a, b, c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于Transformer的缺陷检测方法,其特征在于,所述方法应用于预先训练的检测模型;所述检测模型包括分割网络和分类网络,所述分割网络包括编码器和解码器,其中,所述编码器基于Transformer获得,所述解码器基于卷积神经网络获得;
所述方法包括:
基于待检测的查询图像和所述查询图像对应的支持图像及第一分割图像,确定输入序列;
将所述输入序列输入到所述分割网络的编码器,通过所述分割网络利用所述支持图像及所述第一分割图像,指导所述查询图像的分割,输出所述查询图像对应的第一特征图和第二分割图像;其中,所述编码器包括多头注意力机制,用于捕获所述查询图像的全局上下文信息;
将所述第一特征图和所述第二分割图像输入到所述分类网络,通过所述分类网络输出所述查询图像对应的缺陷分类结果;所述缺陷分类结果至少用于表征所述查询图像中的目标设备表面是否带有缺陷。
2.如权利要求1所述的方法,其特征在于,
所述编码器包括多个编码层,每个编码层包括交叉对齐模块和自对齐模块;
所述自对齐模块,包括多头注意力机制、多层感知机和至少一个归一化层,用于通过聚合上下文信息来对所述查询图像对应的第一像素特征进行编码;
所述交叉对齐模块,包括循环一致注意力机制、多层感知机和至少一个归一化层,用于将所述支持图像对应的第二像素特征聚合为所述查询图像对应的第一像素特征。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
通过所述循环一致注意力机制,根据所述查询图像中各个像素点分别对应的第一像素特征,与所述支持图像中的各个像素点分别对应的所述第二像素特征之间的对应关系,判别所述查询图像的像素点与所述支持图像的像素点之间是否具备循环一致性;
滤掉所述支持图像中与所述查询图像不具备循环一致性的像素点对应的第二像素特征。
4.如权利要求3所述的方法,其特征在于,
所述滤掉所述支持图像中与所述查询图像不具备循环一致性的像素点对应的第二像素特征,包括:
在将所述支持图像对应的第二像素特征聚合为所述查询图像中的目标像素点对应的第一像素特征的过程中,增加偏置项,以使所述目标像素点对所述支持图像中不具备循环一致性的像素点的关注权重趋于0。
5.如权利要求2所述的方法,其特征在于,
所述确定输入序列,包括:
确定所述查询图像对应的第一Query序列、第一Key序列和第一Value序列;
确定所述支持图像对应的第二Query序列、第二Key序列,以及,所述第一分割图像对应的特征序列;
所述将所述输入序列输入到所述分割网络的编码器,包括:
将所述查询图像对应的第一Query序列、第一Key序列和第一Value序列输入所述自对齐模块中的多头注意力机制;将所述自对齐模块的输出作为第二Value序列;
将所述第二Query序列、第二Key序列、第二Value序列以及所述特征序列,输入所述交叉对齐模块中的循环一致注意力机制。
6.如权利要求1所述的方法,其特征在于,
将所述输入序列输入到所述分割网络的编码器之后,所述方法还包括:
将所述编码器输出的序列输入至所述解码器,通过所述解码器执行上采样以输出所述查询图像对应的第一特征图和第二分割图像;其中,所述解码器包括至少一个卷积层和至少一个采样层;其中,所述卷积层用于对所述编码器输出的序列执行卷积运算,所述采样层用于对所述编码器输出的序列执行上采样处理。
7.如权利要求6所述的方法,其特征在于,
所述卷积运算的卷积核大小为1*1;
所述上采样处理的倍率为2倍。
8.如权利要求1所述的方法,其特征在于,
所述分类网络基于卷积神经网络实现;所述分类网络包括第一池化层、第一卷积层、第二卷积层、第一最大池化层、第一平均池化层、第二最大池化层和第二平均池化层、全连接层;
所述通过所述分类网络输出所述查询图像对应的缺陷检测结果,包括:
通过所述第一池化层,对将所述第二分割图像执行池化操作,得到第二特征图;
通过所述第一卷积层,对所述第二特征图执行卷积运算,得到第三特征图;
将所述第二特征图与所述第三特征图进行跳跃连接,获得第一残差块;
通过所述第二卷积层,对所述第三特征图执行卷积运算,得到第四特征图;
将所述第三特征图与所述第四特征图进行跳跃连接,获得第二残差块;
通过所述第二最大池化层和第二平均池化层,对所述第二残差块执行空间金字塔池化操作,得到第一特征;
通过所述第一最大池化层和所述第一平均池化层,对所述第一特征图和所述第二分割图像,执行空间金字塔池化操作,得到第二特征;
对所述第一特征和所述第二特征执行聚合操作,再经过全连接层和激活函数,得到查询图像对应的缺陷分类结果。
9.如权利要求8所述的方法,其特征在于,
所述第一卷积层和/或所述第二卷积层之后,还设置有BN层和ReLU层,用于加速网络收敛。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;存储器;至少一个应用程序;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述电子设备执行时,使得所述电子设备执行如权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269203.5A CN114359283B (zh) | 2022-03-18 | 2022-03-18 | 基于Transformer的缺陷检测方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210269203.5A CN114359283B (zh) | 2022-03-18 | 2022-03-18 | 基于Transformer的缺陷检测方法和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114359283A true CN114359283A (zh) | 2022-04-15 |
CN114359283B CN114359283B (zh) | 2022-07-05 |
Family
ID=81094775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210269203.5A Active CN114359283B (zh) | 2022-03-18 | 2022-03-18 | 基于Transformer的缺陷检测方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359283B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115100432A (zh) * | 2022-08-23 | 2022-09-23 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN115240078A (zh) * | 2022-06-24 | 2022-10-25 | 安徽大学 | 一种基于轻量化元学习的sar图像小样本目标检测方法 |
CN115909006A (zh) * | 2022-10-27 | 2023-04-04 | 武汉兰丁智能医学股份有限公司 | 基于卷积Transformer的乳腺组织图像分类方法及系统 |
CN116205916A (zh) * | 2023-04-28 | 2023-06-02 | 南方电网数字电网研究院有限公司 | 电力小样本缺陷检测方法、装置、计算机设备及存储介质 |
CN116309554A (zh) * | 2023-05-12 | 2023-06-23 | 广东奥普特科技股份有限公司 | 缺陷检测网络的构建及缺陷检测方法、装置和设备 |
CN116520103A (zh) * | 2023-04-28 | 2023-08-01 | 广东电网有限责任公司 | 绝缘子污秽等级的确定方法、装置、设备及存储介质 |
CN117173182A (zh) * | 2023-11-03 | 2023-12-05 | 厦门微亚智能科技股份有限公司 | 基于编码解码网络的缺陷检测方法、系统、设备及介质 |
CN117333777A (zh) * | 2023-12-01 | 2024-01-02 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
CN117437463A (zh) * | 2023-10-19 | 2024-01-23 | 上海策溯科技有限公司 | 基于图像处理的医学影像数据处理方法及处理平台 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112508018A (zh) * | 2020-12-14 | 2021-03-16 | 北京澎思科技有限公司 | 车牌识别方法、装置及存储介质 |
CN112950606A (zh) * | 2021-03-15 | 2021-06-11 | 重庆邮电大学 | 一种基于小样本的手机屏幕缺陷分割方法 |
CN113160108A (zh) * | 2020-12-01 | 2021-07-23 | 江苏大学 | 一种少样本多类饵料的顺序查询计数方法 |
CN113222033A (zh) * | 2021-05-19 | 2021-08-06 | 北京数研科技发展有限公司 | 基于多分类回归模型与自注意力机制的单目图像估计方法 |
US20210248761A1 (en) * | 2020-02-10 | 2021-08-12 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method for image segmentation using cnn |
CN113298789A (zh) * | 2021-05-28 | 2021-08-24 | 国网陕西省电力公司电力科学研究院 | 绝缘子缺陷检测方法、系统、电子设备及可读存储介质 |
CN113567984A (zh) * | 2021-07-30 | 2021-10-29 | 长沙理工大学 | 一种sar图像中人造小目标的检测方法及系统 |
CN113625227A (zh) * | 2021-07-05 | 2021-11-09 | 西安电子科技大学 | 基于注意力变换网络的雷达高分辨距离像目标识别方法 |
CN113822282A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像语义分割方法、装置、计算机设备及存储介质 |
CN113902926A (zh) * | 2021-12-06 | 2022-01-07 | 之江实验室 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
-
2022
- 2022-03-18 CN CN202210269203.5A patent/CN114359283B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210248761A1 (en) * | 2020-02-10 | 2021-08-12 | Hong Kong Applied Science and Technology Research Institute Company Limited | Method for image segmentation using cnn |
CN113160108A (zh) * | 2020-12-01 | 2021-07-23 | 江苏大学 | 一种少样本多类饵料的顺序查询计数方法 |
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN112508018A (zh) * | 2020-12-14 | 2021-03-16 | 北京澎思科技有限公司 | 车牌识别方法、装置及存储介质 |
CN112950606A (zh) * | 2021-03-15 | 2021-06-11 | 重庆邮电大学 | 一种基于小样本的手机屏幕缺陷分割方法 |
CN113222033A (zh) * | 2021-05-19 | 2021-08-06 | 北京数研科技发展有限公司 | 基于多分类回归模型与自注意力机制的单目图像估计方法 |
CN113298789A (zh) * | 2021-05-28 | 2021-08-24 | 国网陕西省电力公司电力科学研究院 | 绝缘子缺陷检测方法、系统、电子设备及可读存储介质 |
CN113822282A (zh) * | 2021-06-15 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像语义分割方法、装置、计算机设备及存储介质 |
CN113625227A (zh) * | 2021-07-05 | 2021-11-09 | 西安电子科技大学 | 基于注意力变换网络的雷达高分辨距离像目标识别方法 |
CN113567984A (zh) * | 2021-07-30 | 2021-10-29 | 长沙理工大学 | 一种sar图像中人造小目标的检测方法及系统 |
CN113947680A (zh) * | 2021-10-12 | 2022-01-18 | 哈尔滨理工大学 | 一种基于级联多尺度视觉Transformer的图像语义分割方法 |
CN113902926A (zh) * | 2021-12-06 | 2022-01-07 | 之江实验室 | 一种基于自注意力机制的通用图像目标检测方法和装置 |
Non-Patent Citations (4)
Title |
---|
ASHISH VASWANI 等: "Attention Is All You Need", 《ARXIV:1706.03762V5》 * |
FISHER YU 等: "Deep Layer Aggregation", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
罗会兰 等: "基于区域与深度残差网络的图像语义分割", 《电子与信息学报》 * |
陈晓艳 等: "一种基于注意力导向 CNN 的晶粒缺陷检测方法", 《天津科技大学学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240078A (zh) * | 2022-06-24 | 2022-10-25 | 安徽大学 | 一种基于轻量化元学习的sar图像小样本目标检测方法 |
CN115240078B (zh) * | 2022-06-24 | 2024-05-07 | 安徽大学 | 一种基于轻量化元学习的sar图像小样本目标检测方法 |
CN115100432A (zh) * | 2022-08-23 | 2022-09-23 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN115100432B (zh) * | 2022-08-23 | 2022-11-18 | 浙江大华技术股份有限公司 | 一种小样本目标检测方法、设备及计算机可读存储介质 |
CN115909006A (zh) * | 2022-10-27 | 2023-04-04 | 武汉兰丁智能医学股份有限公司 | 基于卷积Transformer的乳腺组织图像分类方法及系统 |
CN115909006B (zh) * | 2022-10-27 | 2024-01-19 | 武汉兰丁智能医学股份有限公司 | 基于卷积Transformer的乳腺组织图像分类方法及系统 |
CN116205916B (zh) * | 2023-04-28 | 2023-09-15 | 南方电网数字电网研究院有限公司 | 电力小样本缺陷检测方法、装置、计算机设备及存储介质 |
CN116520103A (zh) * | 2023-04-28 | 2023-08-01 | 广东电网有限责任公司 | 绝缘子污秽等级的确定方法、装置、设备及存储介质 |
CN116205916A (zh) * | 2023-04-28 | 2023-06-02 | 南方电网数字电网研究院有限公司 | 电力小样本缺陷检测方法、装置、计算机设备及存储介质 |
CN116309554B (zh) * | 2023-05-12 | 2023-08-22 | 广东奥普特科技股份有限公司 | 缺陷检测网络的构建及缺陷检测方法、装置和设备 |
CN116309554A (zh) * | 2023-05-12 | 2023-06-23 | 广东奥普特科技股份有限公司 | 缺陷检测网络的构建及缺陷检测方法、装置和设备 |
CN117437463A (zh) * | 2023-10-19 | 2024-01-23 | 上海策溯科技有限公司 | 基于图像处理的医学影像数据处理方法及处理平台 |
CN117437463B (zh) * | 2023-10-19 | 2024-05-24 | 上海策溯科技有限公司 | 基于图像处理的医学影像数据处理方法及处理平台 |
CN117173182A (zh) * | 2023-11-03 | 2023-12-05 | 厦门微亚智能科技股份有限公司 | 基于编码解码网络的缺陷检测方法、系统、设备及介质 |
CN117173182B (zh) * | 2023-11-03 | 2024-03-19 | 厦门微亚智能科技股份有限公司 | 基于编码解码网络的缺陷检测方法、系统、设备及介质 |
CN117333777A (zh) * | 2023-12-01 | 2024-01-02 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
CN117333777B (zh) * | 2023-12-01 | 2024-02-13 | 山东元明晴技术有限公司 | 一种坝体异常识别方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114359283B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114359283B (zh) | 基于Transformer的缺陷检测方法和电子设备 | |
CN113628261B (zh) | 一种电力巡检场景下的红外与可见光图像配准方法 | |
CN109657600B (zh) | 一种视频区域移除篡改检测方法和装置 | |
CN114882039B (zh) | 一种应用于pcb板自动分拣过程中的pcb板缺陷识别方法 | |
CN108898269A (zh) | 基于度量的电力图像环境影响评估方法 | |
CN110930378A (zh) | 基于低数据需求的肺气肿影像处理方法及系统 | |
CN114360030A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN110598613A (zh) | 一种高速公路团雾监测方法 | |
CN117974693B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN110910497B (zh) | 实现增强现实地图的方法和系统 | |
CN117197462A (zh) | 基于多尺度特征融合和对齐的轻量地基云分割方法及系统 | |
CN115292538A (zh) | 一种基于深度学习的地图线要素提取方法 | |
CN116823852B (zh) | 基于卷积神经网络的条状皮肤瘢痕图像分割方法和系统 | |
Shen et al. | Graph-Represented Distribution Similarity Index for Full-Reference Image Quality Assessment | |
Liu et al. | Blind omnidirectional image quality assessment with representative features and viewport oriented statistical features | |
CN117606800A (zh) | 轴承故障诊断方法、装置、设备和存储介质 | |
CN114186784B (zh) | 基于边缘计算的电学考试评分方法、系统、介质及设备 | |
CN114964628A (zh) | 一种氨气泄漏混洗自注意力轻量化红外检测方法及系统 | |
CN114782822A (zh) | 电力设备的状态检测方法、装置、电子设备及存储介质 | |
CN114782983A (zh) | 基于改进特征金字塔和边界损失的道路场景行人检测方法 | |
CN111696070A (zh) | 基于深度学习的多光谱图像融合电力物联网故障点检测方法 | |
CN116109543A (zh) | 一种数据快速识别读取方法及装置、计算机可读存储介质 | |
CN113192085A (zh) | 三维器官图像分割方法、装置及计算机设备 | |
Zhu et al. | METER: Multi-task efficient transformer for no-reference image quality assessment | |
Peng et al. | Multi-scale dense selective kernel spatial attention network for single image de-raining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |