CN116740069A - 基于多尺度显著信息和双向特征融合的表面缺陷检测方法 - Google Patents

基于多尺度显著信息和双向特征融合的表面缺陷检测方法 Download PDF

Info

Publication number
CN116740069A
CN116740069A CN202311020629.8A CN202311020629A CN116740069A CN 116740069 A CN116740069 A CN 116740069A CN 202311020629 A CN202311020629 A CN 202311020629A CN 116740069 A CN116740069 A CN 116740069A
Authority
CN
China
Prior art keywords
features
feature
fusion
size
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311020629.8A
Other languages
English (en)
Other versions
CN116740069B (zh
Inventor
孙启玉
刘玉峰
孙平
杨公平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Fengshi Information Technology Co ltd
Original Assignee
Shandong Fengshi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Fengshi Information Technology Co ltd filed Critical Shandong Fengshi Information Technology Co ltd
Priority to CN202311020629.8A priority Critical patent/CN116740069B/zh
Publication of CN116740069A publication Critical patent/CN116740069A/zh
Application granted granted Critical
Publication of CN116740069B publication Critical patent/CN116740069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于多尺度显著信息和双向特征融合的表面缺陷检测方法,属于卷积神经网络、表面缺陷检测技术领域。本发明利用对照集构建记忆库的核心子集,将新的训练集的样本输入到特征提取网络中提取n层特征F i,将每层特征输入到多尺度显著性信息模块中提取显著性信息,将n个多尺度显著性信息图与对应相同尺度的特征F i拼接,并通过信息融合模块得到n个融合后的特征F i ,将F i 输入到双向特征融合模块中,生成n个融合特征K i,将融合特征进一步处理、拼接,加和计算总损失,训练网络执行深度监督,更新网络并保存最后的参数,测试样本测试得预测图。本发明能充分利用深层与浅层信息,实现缺陷的整体感知,更有利于缺陷的检测与定位。

Description

基于多尺度显著信息和双向特征融合的表面缺陷检测方法
技术领域
本发明涉及一种表面缺陷检测方法,具体为基于多尺度显著信息和双向特征融合的表面缺陷检测方法,属于卷积神经网络、表面缺陷检测技术领域。
背景技术
表面缺陷对产品的美观度、舒适度和使用性能等都会带来不良影响,因此表面缺陷检测方法对产品质量控制起着至关重要的作用,是生产中不可或缺的一环。这类方法目前已经应用在金属、钢轨、织物、路面、铝板带等领域。表面缺陷种类繁多,通常表现低对比度、背景干扰强、尺度变化大等特点,因此,如何在复杂多变的干扰因素下实现自动化的缺陷检测是一个巨大挑战。
近年来,得益于卷积神经网络(CNN)强大的特征提取能力,基于深度学习的表面缺陷检测方法的核心是以CNN作为骨干网络提取特征,然后对特征进行相关操作生成最终的预测图来实现检测。在CNN提取的多层特征中,浅层特征含有位置细节信息,深层特征具有抽象语义信息,融合两种特征有利于缺陷的检测与定位,最常用的融合方法是逐步将深层特征通过线性上采样与相邻浅层特征融合,最终生成与输入图片尺寸一致的预测结果。但是这种单向融合方式较为单一,不能充分利用浅层特征中的信息,往往会忽略一些弱缺陷,造成检测精度的损失。而另一种单向融合方式是将提取的每层特征都上采样到原图像尺寸,拼接上采样后的结果,使用一个卷积层降低通道来获得最终的预测结果,然而这种方式上采样尺度过大,产生大量冗余信息,导致细节信息的弱化,信息不能充分利用,不利于缺陷的轮廓以及边缘的精准检测。因此,这两种单向融合方式均不利于对缺陷的整体感知。
发明内容
本发明的目的是克服上述不足,而提供一种基于多尺度显著信息和双向特征融合的表面缺陷检测方法,一方面融合多尺度显著信息来突出缺陷信息,增强缺陷特征,同时提出一种双向特征融合方式实现深层与浅层特征的双向融合,充分利用深层与浅层信息,实现缺陷的整体感知。
本发明采取的技术方案为:
基于多尺度显著信息和双向特征融合的表面缺陷检测方法,包括步骤如下:
S1.将数据集划分为普通训练集和测试集,抽取普通训练集中部分正常样本作对照集,普通训练集中其余正常样本和缺陷样本组成新的训练集,预处理对照集和新的训练集;
S2.将对照集中的所有样本输入到特征提取网络中提取n层特征,每一层的所有特征构成一个特征记忆库,共生成n个特征记忆库,对每个记忆库使用贪心核心集下采样算法来生成各自的核心子集M Ci ,i=1,2,3…n;
S3. 训练阶段,将新的训练集的样本输入到特征提取网络中提取n层特征F i,i=1,2,3…n,将每层特征F i输入到多尺度显著性信息模块中提取显著性信息,先采用最近邻算法在核心子集M C i 中寻找与F i中每个空间位置所在的特征最相似的特征并计算保存二者的距离,再将计算的距离经过Sigmoid函数归一化到[0,1]之间,并进行reshape操作得到多尺度显著性信息图S i ,i=1,2,3…n;
S4.将n个多尺度显著性信息图与对应相同尺度的特征F i拼接,并通过信息融合模块得到n个融合后的特征 F i ,将 F i 输入到双向特征融合模块中,生成n个融合特征K i,i=1,2,3…n;
S5.将融合特征K 1-K n 分别通过1×1卷积降低通道,并上采样到输入训练集样本尺寸获得n个通道为1的特征图;将融合特征K 2 K n 上采样到最大特征图尺寸,分别得到尺寸均为T 1K 1尺寸)的特征K 2 -K n ,拼接n个尺寸为T 1的特征图K 1 K 2 -K n ,上采样拼接后的结果到输入训练集样本尺寸,并使用1×1卷积降低通道得到训练阶段输出结果;
S6.将训练阶段输出结果与标签图片逐像素计算BCE损失,将n个通道为1的特征图与标签图片逐像素计算BCE损失,加和计算总损失,训练网络执行深度监督,更新网络并保存最后的参数;
S7.测试阶段,将测试样本输入到特征提取网络中提取n层特征,将n层特征输入到多尺度显著性信息模块中得到多尺度显著性信息图,将n个多尺度显著性信息图与对应相同尺度的特征F i拼接,并通过信息融合模块得到n个融合后的特征F i ,将F i 输入到双向特征融合模块中,生成n个融合特征K 1-K n;将融合特征K 2 K n上采样到最大特征图尺寸,分别得到尺寸均为T 1的特征K 2 -K n ,拼接n个尺寸为T 1的特征图K 1K 2 -K n ,上采样拼接后的结果到输入测试样本尺寸并使用1×1卷积降低通道得到输出结果,使用Sigmoid将输出归一化到[0,1]得到预测图,直到测试集遍历完成。
上述方法中,由于特征提取网络提取共5层特征,对应5个尺寸,因此n取5。
上述步骤S2所述的对每个记忆库使用贪心核心集下采样算法来生成各自的核心子集,算法流程为:将每个核心子集中的特征数量设置为对应记忆库中总特征数量的1%,各层特征对应的核心子集记为M Ci ,每个核心子集中的特征数量记为C i(取整,i取1,2,3,4,…n),对于任一记忆库M i,取其内任意一条特征E i 0,将其添加到核心子集M Ci 中,以E i 0为簇中心然后计算记忆库中所有特征与E i 0的欧式距离,得到一个距离向量,记为D i 0,找到与E i 0距离最远的特征E i 1,然后将E i 1添加到核心子集M Ci 中,同时以E i 1为簇中心,计算记忆库中所有特征与E i 1的欧式距离,记为D i 1,比较D i 0D i 1,取每个索引值(索引值表示对应特征在记忆库M i中所在的位置)下的距离最小值,新生成的距离向量记为D i min;取D i min中的距离最大值所在的索引值,并在记忆库M i取出该索引值对应的特征向量E i 2,将E i 2加入到核心子集M Ci 中,将其做为新的簇中心,计算记忆库中所有特征与E i 2的距离,记为D i 2,比较D i 1D i min中相同索引值下的值并取最小值更新D i min,以此类推,不断计算最小值更新D i min,直到核心子集中特征数量达到C i结束。
上述步骤S2、S3和S7中所述的特征提取网络均为ResNet50结构,步骤S2特征提取网络不参与训练,在训练之前对其进行参数冻结。
上述步骤S3,在多尺度显著性信息模块中,本发明采用K最近邻(KNN)搜索算法在核心子集M Ci 中搜索与F i中每个空间位置的特征最相似的特征,即:搜索欧式距离L2最小的特征,L2距离定义如下:
其中X表示n维向量Y表示n维向量/>dist表示XY的L2距离。
步骤S4中信息融合模块为将输入特征首先通过一个3×3卷积进行信息融合得到特征,之后在通道维度上对特征/>使用全局平局池化操作得到特征向量Vi,特征向量Vi中每个值表征了各通道内的全局特征,将特征向量Vi通过第一个全连接层FC1,在FC1减少通道数,通道数变为原来的1/2,再使用非线性激活函数ReLU提高泛化性,之后通过FC2将通道数恢复到F i的通道数,最后使用Sigmoid将结果中的数值归一化为[0,1]之间得到特征向量Vi ,将得到的特征向量Vi 与上述融合得到特征/>执行像素级相乘得到特征F i
步骤S4中双向特征融合模块为对输入的特征F i (尺寸为T i),将每个特征均映射到n个不同的尺寸T i(i=1,2,3…n)上,将映射后具有相同尺寸的特征进行拼接,拼接后的结果通道数相同,然后通过一个3×3卷积进行深层与浅层特征的双向融合,同时通道数下降,最终会生成n个不同尺寸的融合特征,记为K i 。优选将每个特征均映射到五个尺寸T i(i=1,2,3…5), 对于尺寸最大的特征F 1 (尺寸为T 1),将其映射到五个尺寸T i(i=1,2,3…5),映射公式如下:
对于特征F 2 (尺寸为T 2),其映射到五个尺寸T i(i=1,2,3…5),映射公式如下:
,/>
对于特征F 3 (尺寸为T 3),其映射到五个尺寸T i(i=1,2,3…5)的映射公式如下:
,/>
对于特征F 4 (尺寸为T 4),其映射到五个尺寸T i(i=1,2,3…5)的映射公式如下:
,/>
对于特征F 5 (尺寸为T 5),其映射到五个尺寸T i(i=1,2,3…5)其映射公式如下:
其中,表示映射后的输出特征,共计输出25个特征,σ表示ReLU激活函数,bn表示批归一化操作,down表示核大小与步长相等的卷积,up表示核大小与步长相等的转置卷积,Conv表示卷积核为3,步长为1的卷积。
步骤S6中,使用的交叉熵损失BCE公式定义如下:
其中,W表示输入样本的宽,H表示输入样本的高;y i,j表示样本(i,j)位置的像素标签,取值为0或1,1表示缺陷像素,0表示正常像素;p i,j表示样本(i,j)位置像素的预测值,表示该位置的像素预测为缺陷的概率,一个样本计算的总损失定义如下:
其中I表示在深度监督中计算损失时所用的特征图的数量,在这里I优选为6,包含由特征K i上采样到原图像尺寸的5个输出特征图以及训练阶段的输出结果分别与GT计算的损失。
本发明的有益效果是:
(1)本发明通过融合多尺度显著信息来突出缺陷信息,并在显著性信息引导下赋予缺陷响应程度更高的特征更大的权重,突出缺陷信息,进一步增强缺陷特征。
(2)本发明所用的双向特征融合方式,其有效性在于该方式可以学习缺陷特征在不同层次上的多个表征,丰富各层特征所具有的上下文信息(抽象语义信息以及位置细节信息),扩大感受野,通过融合相同尺寸的表征来实现深层与浅层特征的双向融合,从而充分利用上下文信息,实现缺陷的整体感知,克服单向特征融合方式中不能充分利用浅层特征中的信息,造成对弱缺陷检测效果差以及跨度较大的上采样导致缺陷细节信息弱化的缺点。
(3)本发明方法能够更好地融合浅层和深层两种特征,更有利于缺陷的检测与定位。
附图说明
图1为本发明方法训练阶段流程图;
图2为本发明方法测试阶段流程图;
图3为本发明方法训练阶段模型结构示意图;
图4为本发明方法所用特征提取网络结构示意图;其中conv1表示卷积操作,bn1表示批归一化操作,relu表示非线性激活函数,maxpooling表示最大池化操作,layer1、layer2、layer3、layer4分别由卷积以及残差结构组成;
图5为本发明方法中多尺度显著性信息模块结构示意图;
图6为本发明方法中信息融合模块结构示意图;其中FC1与FC2均表示全连接层,ReLU表示非线性激活函数,Sigmoid表示S型函数;
图7为本发明方法中双向特征融合模块结构示意图。
具体实施方式
下面结合具体实施例进一步说明本发明。
实施例1: 基于多尺度显著信息和双向特征融合的表面缺陷检测方法,包括步骤如下:
S1. 将数据集划分为普通训练集和测试集,抽取普通训练集中部分正常样本作对照集,普通训练集中其余正常样本和缺陷样本组成新的训练集,预处理对照集和新的训练集:
一般情况下,缺陷检测数据集分为训练集和测试集,数据集中每个样本都有对应的标签图片(GT)。为满足要求,本发明实施例将缺陷检测数据集划分为3个不同的样本集,分别是对照集、新的训练集、测试集。对照集由原始训练集中所有正常样本的1/10构成,新的训练集由原始训练集中剩余正常样本与缺陷样本构成,测试集保持不变。所有样本尺寸设置为224×224,同时,以RGB形式读取所有样本,以灰度图形式读取对应的GT,得到样本尺寸为3×224×224,GT尺寸为1×224×224。
S2.将对照集中的所有样本输入到特征提取网络中提取n层特征,每一层的所有特征构成一个特征记忆库,共生成n个特征记忆库,对每个记忆库使用贪心核心集下采样算法来生成各自的核心子集M Ci (i=1,2,3…n):
对照集样本不参与训练,只用于记忆库核心子集的构建。我们使用预训练特征提取网络ResNet50结构中的conv1、bn1、relu、maxpooling、layer1、layer2、layer3,layer4设计了一个新的特征提取网络来提取特征,n取5,结构如图4所示。layer1、layer2、layer3,layer4的组成如表1所示。注意,特征提取网络不参与训练,在训练之前对其进行参数冻结。
表1 特征提取网络结构组成
将对照集中的所有样本输入到特征提取网络中提取5层特征,每一层的所有特征构成一个特征记忆库,共生成5个特征记忆库。每个记忆库内存庞大,如果直接用于多尺度显著性信息的计算,会耗费大量时间,为此,需要从每个记忆库中寻找一个核心子集,使得在核心子集上得到的计算解与在对应记忆库上得到的计算解最接近,而且还是快速地接近。因此,我们使用Greedy Coreset Subsampling(贪心核心集采样)算法,旨在使用贪心算法的思想来对每个特征记忆库进行下采样找出可以替代每个特征记忆库的核心子集,以核心子集中的特征代表整个记忆库的特征,从而在计算每种尺寸的显著性信息时节省大量时间。核心子集中的特征数量设置的越大越好,但是考虑到构建过程的计算复杂度,我们将每个核心子集中的特征数量设置为对应记忆库中总特征数量的1%,各层特征对应的核心子集记为M Ci ,每个核心子集中的特征数量记为C i(取整,i取1,2,3,4,5)。
假设对照集中有N个样本,所有样本经过上述网络提取特征,得到5个特征图,尺寸分别为[N, 64, 112, 112]、[N, 256, 56, 56]、[N, 512, 28, 28]、[N, 1024, 14, 14]、[N, 2048, 7, 7],每个特征图有4个维度,从左到右每个维度表示的含义依次为样本数、通道数、特征宽、特征高。因此,用这五层特征生成的五个记忆库M i(i=1,2,3,4,5),大小分别为[N×112×112, 64]、[N×56×56, 256]、[N×28×28, 512]、[N×14×14, 1024]、[N×7×7, 2048]。对每个记忆库使用贪心核心集下采样算法来寻找其内的核心子集,算法流程如下:
对于任一记忆库M i,取其内任意一条特征E i 0,将其添加到核心子集M Ci 中,以E i 0为簇中心然后计算记忆库中所有特征与E i 0的欧式距离,得到一个距离向量,记为D i 0,找到与E i 0距离最远的特征E i 1,然后将E i 1添加到核心子集M Ci 中,同时以E i 1为簇中心,计算记忆库中所有特征与E i 1的欧式距离,记为D i 1,比较D i 0D i 1,取每个索引值(索引值表示对应特征在记忆库M i中所在的位置)下的距离最小值,新生成的距离向量记为D i min;举一例,记忆库中的某特征E(索引值记为k)E i 0的距离小于其到E i 1的距离(即:特征EE i 0更相似),则E应属于E i 0所在的簇内(即:E可以用E i 0粗略近似),因此在D i min中索引值为k的位置存储特征EE i 0的距离,记忆库中其他特征以此类推。记忆库M i被分了两簇,即:簇中心分别为E i 0E i 1,一簇中的特征到E i 0的距离最小,一簇中的特征到E i 1的距离最小,D i min记录了这些特征到E i 0E i 1的距离。取D i min中的距离最大值所在的索引值,并在记忆库M i取出该索引值对应的特征向量E i 2,将E i 2加入到核心子集M Ci 中,这样取的原因是E i 2距离E i 0E i 1太远,用二者任意一个替代都不适合,需要将其做为新的簇中心。计算记忆库中所有特征与E i 2的距离,记为D i 2,比较D i 2D i min中相同索引值下的值并取最小值更新D i min,然后取D i min中的距离最大值所在的索引对应的特征向量E i 3,并将其加入到核心子集M Ci 中,计算记忆库中所有特征与E i 3的距离,记为D i 3,比较D i 3D i min中相同索引值下的值并取最小值更新D i min,以此类推,直到核心子集中特征数量达到C i结束。核心子集M Ci 构建完成,也就是说M i被分成C i个簇,记忆库M i中的任一特征总能在C i个特征中找到一个特征与其近似。5个记忆库M 1-M 5生成5个核心子集,记为M C1 -M C5 。构建完毕的核心子集用于训练与测试阶段,由于对照集中只包含正常样本,因此每个核心子集中只包含正常特征。
S3. 训练阶段,将新的训练集的样本输入到特征提取网络中提取n层特征F i,i=1,2,3…n,将每层特征F i输入到多尺度显著性信息模块中提取显著性信息(如图1和图3所示),先采用最近邻算法在核心子集M Ci 中寻找与F i中每个空间位置所在的特征最相似的特征并计算保存二者的距离,再将计算的距离经过Sigmoid函数归一化到[0,1]之间,并进行reshape操作得到多尺度显著性信息图S i ,(i=1,2,3…n):
将训练集的每张图片输入到特征提取网络中提取5层特征F 1-F 5,然后将每层特征F i输入到多尺度显著性信息模块(如图5)中,在对应核心子集M i中寻找与F i中每个空间位置所在的特征最相似的特征并计算二者的距离值,最终输出5个距离向量。我们使用Sigmoid函数将距离值归一化为[0,1]之间,然后进行reshape操作得到多尺度显著性信息图S 1- S 5。在显著性信息图中距离值表示特征的缺陷程度,距离越大,表明对应空间位置的特征为缺陷特征的概率越大;距离越小,表示该条特征为缺陷特征的概率越小,因此显著性信息图在一定程度上表示了空间位置上的缺陷响应程度。多尺度显著性信息图S 1-S 5的尺寸分别为[1, 1, 112, 112],[1, 1, 56, 56],[1, 1, 28, 28],[1, 1, 14, 14],[1, 1, 7, 7]。在多尺度显著性信息模块中,本发明采用K最近邻(KNN)搜索算法在核心子集M Ci 中搜索与F i中每个空间位置的特征最相似的特征,即:搜索欧式(L2)距离最小的特征。L2距离定义如下:
其中X表示n维向量Y表示n维向量/>dist表示XY的L2距离。
例如,一个样本提取的F 1特征(尺寸为[1, 64, 112, 112])中有112×112个特征向量,尺寸为1×64,每个特征向量与核心子集M C1 所有的特征计算L2距离,取最小的距离,得到一个[1,112×112]的向量,其内记录了F 1中每个空间位置的特征与M Ci 中对应最相似特征的距离值,我们使用Sigmoid函数将向量内的数值归一化到[0,1]之间,并将其维度reshape成[1, 1, 112, 112],得到显著性信息图S 1,特征F 2F 3F 4F 5以此类推。
S4.将n个多尺度显著性信息图与对应相同尺度的特征F i拼接,并通过信息融合模块得到n个融合后的特征F i ,将F i 输入到双向特征融合模块中,生成n个融合特征K i,(i=1,2,3…n):
将得到的5个显著性信息图S 1- S 5分别与对应相同尺寸的特征F 1- F 5在通道维度上进行拼接,得到特征,其中ch i表示F i的通道数,W i表示特征F i的宽度,H i表示特征F i的高度。同时,为了充分融合显著性信息,我们设计了一个信息融合模块,旨在在显著性信息引导下赋予缺陷响应程度更高的特征更大的权重,突出缺陷信息,结构如图6所示。我们将特征/>输入到信息融合模块中,首先通过一个3×3卷积(后面接批归一化和非线性激活函数ReLU)进行信息融合得到特征/>,之后在通道维度上对特征/>使用全局平局池化操作得到特征向量/>,特征向量Vi中每个值表征了各通道内的全局特征,将特征向量Vi通过第一个全连接层FC1,为了减少参数量与计算复杂度,在FC1减少通道数,通道数变为原来的1/2,再使用非线性激活函数ReLU提高泛化性,之后通过FC2将通道数恢复到ch i,最后使用Sigmoid将结果中的数值归一化为[0,1]之间得到特征向量Vi ,将得到的特征向量Vi 与上述融合得到特征/>执行像素级相乘得到特征
接下来进行双向特征融合。在特征提取网络提取的每层特征中,不同尺寸特征所包含的上下文信息以及感受野是不同的,由于每层特征尺寸都是固定的,其内所包含的上下文信息都被限制在对应的尺寸上,不利于缺陷的感知,因此在特征融合之前,我们将每个特征均映射到5个不同的尺寸上,以学习缺陷特征在不同层次上的多个表示,丰富各层特征的上下文信息,扩大感受野。最后将映射后的同尺寸特征进行融合,实现深层特征与浅层特征的双向融合,从而更好地感知整体缺陷。双向特征融合模块如图7所示。将经过信息融合模块得到的特征F i (尺寸为T i)输入到双向特征融合模块中进行特征的双向融合。
在图7中,上采样采用卷积核大小与步长相同的转置卷积操作,下采样采用卷积核大小与步长相同的卷积操作,对于同尺寸之间的映射,我们采用一个3×3卷积操作。无论什么类型的卷积操作,后面都接着批归一化与非线性激活函数ReLU。注意,在上采样与下采样所用的转置卷积与卷积操作中,padding均设置为0;3×3卷积的步长设置为1,padding设置为1。所有映射后的特征通道数均设为128。不同特征映射到不同尺寸所需要的卷积设置如表2所列。
表2 特征映射设置
对于尺寸最大的特征F 1 (尺寸为T 1),将其映射到五个尺寸T i(i=1,2,3…5),映射公式如下:
对于特征F 2 (尺寸为T 2),其映射到五个尺寸T i(i=1,2,3…5),映射公式如下:
;
对于特征F 3 (尺寸为T 3),其映射到五个尺寸T i(i=1,2,3…5)的映射公式如下:
,
对于特征F 4 (尺寸为T 4),其映射到五个尺寸T i(i=1,2,3…5)的映射公式如下:
,
对于特征F 5 (尺寸为T 5),其映射到五个尺寸T i(i=1,2,3…5)其映射公式如下:
其中,表示映射后的输出特征,共计输出25个特征,σ表示ReLU激活函数,bn表示批归一化操作,down表示核大小与步长相等的卷积,up表示核大小与步长相等的转置卷积,Conv表示卷积核为3,步长为1的卷积。
以上公式中所用的卷积设置具体参照表2。我们将映射后具有相同尺寸的特征进行拼接,拼接后的结果通道数均为640,然后通过一个3×3卷积进行深层与浅层特征的双向融合,同时通道数降为128,最终会生成5个不同尺寸的融合特征,记为K i。举一例,将映射后尺寸均为T 1的特征O k 1k =1,2,3,4,5)进行拼接,得到一个通道数为640的拼接特征,经过一个3×3卷积,得到融合特征K 1,尺寸为T 1,通道数为128。其余相同尺寸的映射特征O k 2(尺寸为T 2)、O k 3(尺寸为T 3)、O k 4(尺寸为T 4)、O k 5(尺寸为T 5)以此类推。
S5.将融合特征K 1-K n分别通过1×1卷积降低通道,并上采样到输入测试集样本尺寸(224×224)获得n个通道为1的特征图;将融合特征K 2-K n上采样到最大特征图尺寸,分别得到尺寸均为T 1K 1尺寸)的特征K 2 -K n ,拼接n个尺寸为T 1的特征图K 1K 2 -K n ,上采样拼接后的结果到输入测试集样本尺寸(224×224),并使用1×1卷积降低通道得到训练阶段输出结果:
虽然通过双向特征融合模块得到包含丰富感知信息的K i,但是由于使用了各种卷积,导致参数量明显增加,可能为模型带来额外的优化难度,因此本发明采用深度监督的形式进行监督不同层次的特征,加速网络模型的优化,同时也为了监督不同层次特征的上下文信息。
首先使用1×1卷积将K i的通道数降为1,然后再使用双线性插值上采样到原始图片大小,得到5个通道为1、尺寸为224×224的特征图。而在上述操作中,跨度较大的上采样会导致细节信息的损失,不利于缺陷边缘的检测(例如:特征K 5恢复到224×224需要扩大32倍),另外K i中每个特征虽然包含丰富的感知信息,但是在不同尺度上融合的信息应该进一步汇总以进行上下文信息互补,来实现更好的检测。因此,我们将小于最大特征图尺寸(T 1=(112×112))的特征K 2K 3K 4K 5通过双线性插值上采样到T 1尺寸,分别得到K 2 K 3 K 4 K 5 ,尺寸均为T 1,通道数128保持不变,之后,将尺寸均为T 1的特征K 1K 2 K 3 K 4 K 5 进行像素级相加融合,并使用双线性插值将融合后的特征图上采样2倍恢复到原图像尺寸,然后使用1×1卷积降低通道,生成最终的输出。
S6.将训练阶段输出结果与标签图片逐像素计算BCE损失,将n个通道为1的特征图与标签图片逐像素计算BCE损失,加和计算总损失,训练网络执行深度监督,更新网络并保存最后的参数:
对得到5个通道为1、尺寸为224×224的特征图逐像素计算每个特征图与GT之间的二值交叉熵(BCE)损失,得到5个损失。最终的输出与GT逐像素计算BCE损失。模型训练使用的交叉熵损失公式定义如下:
其中,W表示输入样本的宽,H表示输入样本的高;y i,j表示样本(i,j)位置的像素标签,取值为0或1,1表示缺陷像素,0表示正常像素;p i,j表示样本(i,j)位置像素的预测值,表示该位置的像素预测为缺陷的概率。一个样本计算的总损失定义如下:
其中I表示在深度监督中计算损失时所用的特征图的数量,在这里I为6(包含由特征K i上采样到原图像尺寸的5个输出以及训练阶段最终的输出分别与GT计算的损失,如图3虚线所示);Loss i表示第i个结果与GT计算出来的BCE损失。
在模型训练过程中使用Adam优化器,权重衰减系数设置为0.0005,初始学习率设置为0.001,采用阶段性衰减策略改变学习率,每500次迭代将学习率降为原来的0.1,以进一步加速模型的收敛。批次大小设置为16,即每次读取16张训练集图片作为一次迭代,每次迭代分别计算总损失并进行梯度回传、模型参数更新。共迭代5000次,取迭代完后的模型作为最终的模型并保存参数。
S7.测试阶段,读取最终的模型参数,同时使用由对照集生成的记忆库核心子集,将测试集样本数据输入到模型中,通过特征提取网络提取5层特征,将5层特征输入到多尺度显著性信息模块中,得到每层特征的显著性信息图,拼接每层特征与对应的显著性信息图,通过信息融合模块充分融合显著性信息,融合后的5层特征进行深层和浅层特征的双向融合,之后,将小于最大尺寸(T 1=(112×112))的特征K 2K 3K 4K 5通过双线性插值上采样到T 1尺寸,分别得到K 2 K 3 K 4 K 5 ,尺寸均为T 1,通道数128保持不变,最后,将尺寸均为T 1的特征K 1K 2 K 3 K 4 K 5 进行像素级相加融合,并使用双线性插值将融合后的特征图上采样2倍恢复到原图像尺寸,然后使用1×1卷积降低通道,生成一个尺寸为224×224的输出结果(注意:测试阶段不需要将生成的K i上采样原图像尺寸),对输出结果取Sigmoid得到预测图作为最后的结果。测试阶段流程如图2所示。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,包括步骤如下:
S1.将数据集划分为普通训练集和测试集,抽取普通训练集中部分正常样本作对照集,普通训练集中其余正常样本和缺陷样本组成新的训练集,预处理对照集和新的训练集;
S2.将对照集中的所有样本输入到特征提取网络中提取n层特征,每一层的所有特征构成一个特征记忆库,共生成n个特征记忆库,对每个记忆库使用贪心核心集下采样算法来生成各自的核心子集M Ci
S3.训练阶段,将新的训练集的样本输入到特征提取网络中提取n层特征F i,将每层特征F i输入到多尺度显著性信息模块中提取显著性信息,先采用最近邻算法在核心子集M Ci 中寻找与F i中每个空间位置所在的特征最相似的特征并计算保存二者的距离,再将计算的距离经过Sigmoid函数归一化,并进行reshape操作得到多尺度显著性信息图S i
S4.将n个多尺度显著性信息图与对应相同尺度的特征F i拼接,并通过信息融合模块得到n个融合后的特征F i ,将F i 输入到双向特征融合模块中,生成n个融合特征K i
S5.将融合特征K 1-K n分别降低通道,并上采样到输入训练集样本尺寸获得n个通道为1特征图;将融合特征K 2 K n上采样到最大特征图尺寸,分别得到尺寸均为T1的特征K 2 -K n ,拼接n个尺寸为T1的特征图K 1K 2 -K n ,上采样拼接后的结果到输入训练集样本尺寸并降低通道得到训练阶段输出结果;
S6.将训练阶段输出结果与标签图片逐像素计算BCE损失,将n个通道为1的特征图与标签图片逐像素计算BCE损失,加和计算总损失,训练网络执行深度监督,更新网络并保存最后的参数;
S7.测试阶段,将测试样本输入到特征提取网络中重复S3和S4的步骤生成n个融合特征K 1-K n;将融合特征K 2-K n上采样到最大特征图尺寸,分别得到尺寸均为T1的特征K 2 -K n ,拼接n个尺寸为T1的特征图K 1K 2 -K n ,上采样拼接后的结果到输入测试样本尺寸并降低通道得到输出结果,使用Sigmoid将输出归一化得到预测图,直到测试集遍历完成。
2.根据权利要求1所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,n取5。
3.根据权利要求1所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,步骤S2所述的对每个记忆库使用贪心核心集下采样算法来生成各自的核心子集,算法流程为:将每个核心子集中的特征数量设置为对应记忆库中总特征数量的1%,各层特征对应的核心子集记为M Ci ,每个核心子集中的特征数量记为C i,对于任一记忆库M i,取其内任意一条特征E i 0,将其添加到核心子集M Ci 中,以E i 0为簇中心然后计算记忆库中所有特征与E i 0的欧式距离,得到一个距离向量,记为D i 0,找到与E i 0距离最远的特征E i 1,然后将E i 1添加到核心子集M Ci 中,同时以E i 1为簇中心,计算记忆库中所有特征与E i 1的欧式距离,记为D i 1,比较D i 0D i 1,取每个索引值下的距离最小值,新生成的距离向量记为D i min;取D i min中的距离最大值所在的索引值,并在记忆库M i取出该索引值对应的特征向量E i 2,将E i 2加入到核心子集M Ci 中,将其做为新的簇中心,计算记忆库中所有特征与E i 2的距离,记为D i 2,比较D i 1D i min中相同索引值下的值并取最小值更新D i min以此类推,不断计算最小值更新D i min,直到核心子集中特征数量达到C i结束。
4.根据权利要求1所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,步骤S2、S3和S7中所述的特征提取网络均为ResNet50结构,步骤S2特征提取网络不参与训练,在训练之前对其进行参数冻结。
5. 根据权利要求1所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,步骤S3在多尺度显著性信息模块中,采用K最近邻搜索算法在核心子集M Ci 中搜索与F i中每个空间位置的特征最相似的特征,即:搜索欧式距离L2最小的特征,L2距离定义如下:
其中X表示n维向量Y表示n维向量/>dist表示XY的L2距离。
6. 根据权利要求1所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,步骤S4中信息融合模块为将输入特征首先通过一个3×3卷积进行信息融合得到特征,之后在通道维度上对特征/>使用全局平局池化操作得到特征向量Vi,特征向量Vi中每个值表征了各通道内的全局特征,将特征向量Vi通过第一个全连接层FC1,在FC1减少通道数,通道数变为原来的1/2,再使用非线性激活函数ReLU提高泛化性,之后通过FC2将通道数恢复到F i的通道数,最后使用Sigmoid将结果中的数值归一化为[0,1]之间得到特征向量Vi ,将得到的特征向量Vi 与上述融合得到特征/>执行像素级相乘得到特征F i
7. 根据权利要求1所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,步骤S4中双向特征融合模块为对输入的特征F i ,尺寸为T i,将每个特征均映射到n个不同的尺寸T i上,i=1,2,3…n,将映射后具有相同尺寸的特征进行拼接,拼接后的结果通道数相同,然后通过一个3×3卷积进行深层与浅层特征的双向融合,同时通道数下降,最终会生成n个不同尺寸的融合特征,记为K i
8. 根据权利要求7所述的基于多尺度显著信息和双向特征融合的表面缺陷检测方法,其特征是,步骤S4中将每个特征均映射到五个尺寸T i,i=1,2,3…5, 对于尺寸最大的特征F 1 ,尺寸为T 1,将其映射到五个尺寸T i,映射公式如下:
对于特征F 2 ,尺寸为T 2,其映射到五个尺寸T i,映射公式如下:
,/>
对于特征F 3 ,尺寸为T 3,其映射到五个尺寸T i,映射公式如下:
,/>
对于特征F 4 ,尺寸为T 4,其映射到五个尺寸T i的映射公式如下:
,/>
对于特征F 5 ,尺寸为T 5,其映射到五个尺寸T i,其映射公式如下:
其中,表示映射后的输出特征,共计输出25个特征,σ表示ReLU激活函数,bn表示批归一化操作,down表示核大小与步长相等的卷积,up表示核大小与步长相等的转置卷积,Conv表示卷积核为3,步长为1的卷积。
CN202311020629.8A 2023-08-15 2023-08-15 基于多尺度显著信息和双向特征融合的表面缺陷检测方法 Active CN116740069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311020629.8A CN116740069B (zh) 2023-08-15 2023-08-15 基于多尺度显著信息和双向特征融合的表面缺陷检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311020629.8A CN116740069B (zh) 2023-08-15 2023-08-15 基于多尺度显著信息和双向特征融合的表面缺陷检测方法

Publications (2)

Publication Number Publication Date
CN116740069A true CN116740069A (zh) 2023-09-12
CN116740069B CN116740069B (zh) 2023-11-07

Family

ID=87917244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311020629.8A Active CN116740069B (zh) 2023-08-15 2023-08-15 基于多尺度显著信息和双向特征融合的表面缺陷检测方法

Country Status (1)

Country Link
CN (1) CN116740069B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408996A (zh) * 2023-12-13 2024-01-16 山东锋士信息技术有限公司 基于缺陷专注和边缘权重损失的表面缺陷检测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270522A1 (en) * 2013-03-15 2014-09-18 Yahoo! Inc. Identifying regions characterized by labeled measurements
US20200143194A1 (en) * 2017-06-23 2020-05-07 Huawei Technologies Co., Ltd. Method and Apparatus for Detecting Salient Object in Image
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
CN112347888A (zh) * 2020-10-29 2021-02-09 河海大学 基于双向特征迭代融合的遥感图像场景分类方法
US20210319546A1 (en) * 2020-04-10 2021-10-14 Samsung Display Co., Ltd. Image-based defects identification and semi-supervised localization
CN114187454A (zh) * 2021-12-09 2022-03-15 西南科技大学 一种新的基于轻量级网络的显著性目标检测方法
CN114299305A (zh) * 2021-12-30 2022-04-08 安徽理工大学 聚合密集和注意力多尺度特征的显著性目标检测算法
US20220309674A1 (en) * 2021-03-26 2022-09-29 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-net
CN115620118A (zh) * 2022-09-15 2023-01-17 河北汉光重工有限责任公司 一种基于多尺度扩张卷积神经网络的显著性目标检测方法
CN115661065A (zh) * 2022-10-20 2023-01-31 安徽理工大学 小目标缺陷的轻量化检测模型、方法、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140270522A1 (en) * 2013-03-15 2014-09-18 Yahoo! Inc. Identifying regions characterized by labeled measurements
US20200143194A1 (en) * 2017-06-23 2020-05-07 Huawei Technologies Co., Ltd. Method and Apparatus for Detecting Salient Object in Image
CN111242138A (zh) * 2020-01-11 2020-06-05 杭州电子科技大学 一种基于多尺度特征融合的rgbd显著性检测方法
US20210319546A1 (en) * 2020-04-10 2021-10-14 Samsung Display Co., Ltd. Image-based defects identification and semi-supervised localization
CN112347888A (zh) * 2020-10-29 2021-02-09 河海大学 基于双向特征迭代融合的遥感图像场景分类方法
US20220309674A1 (en) * 2021-03-26 2022-09-29 Nanjing University Of Posts And Telecommunications Medical image segmentation method based on u-net
CN114187454A (zh) * 2021-12-09 2022-03-15 西南科技大学 一种新的基于轻量级网络的显著性目标检测方法
CN114299305A (zh) * 2021-12-30 2022-04-08 安徽理工大学 聚合密集和注意力多尺度特征的显著性目标检测算法
CN115620118A (zh) * 2022-09-15 2023-01-17 河北汉光重工有限责任公司 一种基于多尺度扩张卷积神经网络的显著性目标检测方法
CN115661065A (zh) * 2022-10-20 2023-01-31 安徽理工大学 小目标缺陷的轻量化检测模型、方法、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DILLON FRAME: "Eigenvector continuation with subspace learning", ARXIV *
JING HU等: "A Multiscale Fusion Convolutional Neural Network for Plant Leaf Recognition", IEEE SIGNAL PROCESSING LETTERS *
张守东;杨明;胡太;: "基于多特征融合的显著性目标检测算法", 计算机科学与探索, no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408996A (zh) * 2023-12-13 2024-01-16 山东锋士信息技术有限公司 基于缺陷专注和边缘权重损失的表面缺陷检测方法
CN117408996B (zh) * 2023-12-13 2024-04-19 山东锋士信息技术有限公司 基于缺陷专注和边缘权重损失的表面缺陷检测方法

Also Published As

Publication number Publication date
CN116740069B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
Hou et al. Cross attention network for few-shot classification
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN110555399A (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN116740069B (zh) 基于多尺度显著信息和双向特征融合的表面缺陷检测方法
CN113129234B (zh) 一种场内外特征融合的残缺图像精细修复方法
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN115222998B (zh) 一种图像分类方法
CN111709516A (zh) 神经网络模型的压缩方法及压缩装置、存储介质、设备
CN114418853B (zh) 基于相似图像检索的图像超分辨率优化方法、介质及设备
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN116266387A (zh) 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统
CN115994558A (zh) 医学影像编码网络的预训练方法、装置、设备及存储介质
CN113344110A (zh) 一种基于超分辨率重建的模糊图像分类方法
CN116758340A (zh) 基于超分辨率特征金字塔和注意力机制的小目标检测方法
CN117974693B (zh) 图像分割方法、装置、计算机设备和存储介质
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN117315090A (zh) 基于跨模态风格学习的图像生成方法及装置
CN110458849B (zh) 一种基于特征修正的图像分割方法
CN116524070A (zh) 一种基于文本的场景图片编辑方法及系统
CN114972959A (zh) 深度学习中样本生成和类内排序损失的遥感图像检索方法
Li et al. MA-NET: Multi-scale attention-aware network for optical flow estimation
CN117408996B (zh) 基于缺陷专注和边缘权重损失的表面缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant