CN112085735B - 一种基于自适应锚框的铝材质图像缺陷检测方法 - Google Patents
一种基于自适应锚框的铝材质图像缺陷检测方法 Download PDFInfo
- Publication number
- CN112085735B CN112085735B CN202011043557.5A CN202011043557A CN112085735B CN 112085735 B CN112085735 B CN 112085735B CN 202011043557 A CN202011043557 A CN 202011043557A CN 112085735 B CN112085735 B CN 112085735B
- Authority
- CN
- China
- Prior art keywords
- anchor frame
- network
- attention
- representing
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30168—Image quality inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于自适应锚框的铝材质图像缺陷检测方法,以解决当前缺陷检测方法不够灵活且检测精度较低等问题。首先,本发明采用了使用分组卷积和可形变卷积思想的ResNeXt‑101作为骨干网络,将包含注意力机制的特征增强模块集成到骨干网络,然后送入到特征金字塔网络中进行多尺度特征融合,从而提高缺陷检测精度;其次,本发明使用了一个自适应锚框神经网络,自动根据缺陷特征学习对应的锚框参数,提高锚框定位检测的精度;然后,在框预测阶段采用级联网络结构,解决训练阶段和预测阶段精度不匹配的问题;最后,本发明对形状差异大的缺陷和小目标缺陷的检测精度均有大幅提升,对铝材质图像缺陷检测的总体精度较高,在缺陷检测领域有较高的应用价值。
Description
技术领域
本发明属于计算机视觉和缺陷检测领域,主要采用深度学习的思想,具体涉及一种基于自适应锚框的铝材质图像缺陷检测方法。
背景技术
铝型材是所有工业化国家的支柱产业,具有强度高,重量轻,耐磨,装饰性好,环保和经济等特点,越来越多的建筑师开始使用铝型材作为建筑材料。因此,质量已成为铝型材的关键评估标准。然而在实际生产中,由于生产流程的影响,铝材质表面可能产生不导电,刮擦,粗粒,外露板,起泡,凹坑,突起的颗粒,板角暴露,油漆痕迹和杂色等缺陷。由于恶劣的环境和高成本,非接触式检测是确保产品质量的重要步骤。
缺陷检测的困难如下:1)边界不明显,缺陷与背景的边界模糊;2)人工标注时可能不统一;3)传统方法只能统计特定类别的特征;4)缺陷的尺寸和形状不规则,很难准确预测位置。在实际工业生产中,这些缺陷可能会出现在任何地方,使用计算机自动识别并定位这些缺陷是不可缺少的步骤。
最初的缺陷检测方法为人工肉眼检测,但是这不足以满足快速生产的需要。后来业界开始采用传统的机器学习方法,比如纹理统计算法,Halcon软件等,但由于铝型材的表面可能包含很难与缺陷区分的图案,使得这些方法也有很大的局限性,缺乏泛化导致效率和准确性降低。最近,铝型材制造商正在尝试应用最新的人工智能(AI)技术来彻底改变现有的质检流程。AI技术使用卷积神经网络(CNN),从图像中提取缺陷特征并抽象为非线性模型。这种方法只需要少量的人工参与,且可以在整个流程中充分掌握产品表面质量的状态。
经过调研,我们发现现有的缺陷检测方法主要存在以下几点不足:1)CNN可以更好地定位缺陷,但是在许多先进的检测器中,需要预先设置锚的形状和大小。设置锚框的步骤如下:首先人工统计所有缺陷特征,可以采用数学统计工具,然后将这些特征进行归一化操作,分析出一些尽量符合所有特征的锚框的长宽比及大小的参数,最后根据这些参数信息,设置锚框的参数。但由于缺陷的复杂性和多样性,这种人工设计的锚框无法完全覆盖所有的缺陷,且不具备灵活性。因此,我们提出了一种根据所有缺陷特征自动生成锚框的模型,同时结合了一个特征增强的注意力模块,用于在特征提取阶段增强缺陷特征。
发明内容
本发明的目的在于提供一种基于自适应锚框的铝材质图像缺陷检测方法,以解决当前检测方法效果不好,检测手段不够灵活的问题。
为了达到上述目的,本发明采用以下技术方案:
步骤一,采用图片下采样技术,将所有的图片下采样至统一尺寸,从而使输入维度具有一致性;
步骤二,将步骤一中得到的图片输入到一个使用分组卷积和可形变卷积思想的残差神经网络中,从而得到输入图片的特征图;
步骤三,把步骤二输出的特征图输入到使用通道注意力和空间注意力机制的特征增强模块中,进行缺陷特征的表达增强;
步骤四,将步骤三中生成的增强后的特征图,输入到特征金字塔网络进行特征融合,进一步完成特征增强;
步骤五,将步骤四得到的增强后的特征输入到加入了自适应锚框的RPN网络中,进行锚框参数的学习,并生成相应的候选框;
步骤六,将所有候选框输入到框预测模块中,采用soft-NMS选择得分较高的候选框,并做框的回归,使其更接近真实值,从而得到最终的预测缺陷区域及缺陷识别结果。
并且包含一个训练过程,使用阿里天池比赛中提供的真实生产线上的缺陷数据集对提出的模型进行训练;
训练过程采用反向传播机制,根据损失函数的大小不断更新模型参数,直到损失收敛到一个稳定的且较小的值,保存模型参数;
步骤七,使用训练出的模型和参数构成基于自适应锚框和注意力机制的铝材质缺陷检测模型。
进一步的,步骤一中,对输入图像I(W×H)进行s倍下采样操作,即将原始图像中每(s×s)窗口内的像素进行均值运算,得到(W/s)×(H/s)尺寸的图像,其中W为图像的长度,H为图像的高度;
进一步的,步骤二中,骨干网络使用基于ResNeXt-101的神经网络,并引入了split-transform-merge的思想,在特征提取环节,原始输入图像通过一个卷积核为7×7的卷积层和一个批归一化层后,分成64组进入Conv2-Conv5中,分组卷积可以实现在参数量不变的情况下,防止对特定数据集的过拟合,达到一个更好的效果。
进一步的,步骤二中,基于分组卷积思想的特征提取网络中,Conv1.0-Conv1.2经过3组conv+BN层后,使用3×3的卷积核,步长为2,采用最大池化的方式进行下采样。conv1-conv3的构成为1×1卷积、3×3卷积组和1×1卷积,特征图经过1×1卷积后,会根据通道的维度分为不同的子特征图,其中第一个子特征图会直接输出,其余会通过3×3卷积后输出,从第三个特征图起,每个子特征图会和前一个进行相加操作再进行3×3的卷积操作,最后将所有的子特征图采用1×1卷积映射融合得到总输出。
Conv2.0在conv2采用了可形变卷积,给每个采样点加一个offset,增强学习能力,最后加入了3×3的最大池化层进行下采样。
进一步的,步骤二中,Conv2.0中除了3组conv+BN层外,还在conv2采用了可形变卷积,给每个采样点加一个offset,增强学习能力,最后加入了3×3的最大池化层进行下采样。Conv2.1-Conv2.3和Conv2.0结构类似,Conv3.0、Conv4.0和Conv2.0的结构类似,Conv3.1-Conv3.22、Conv4.1-Conv4.2和Conv2.1的结构相似。
进一步的,步骤三中采用具有可形变卷积的通道注意力和空间注意力结合的注意力机制,根据通道和空间的两个独立维度推导注意力映射,然后将其与输入特征相乘。可形变卷积在每个点上学习一个偏移,然后找到一个更合适的位置来提取特征。
进一步的,Ac是尺寸为C×1×1的一维通道注意力特征图,其注意力特征图谱Ac(M(l,w,x))计算如下:
其中,代表通道平均池化操作,代表通道最大池化操作,代表通道中值池化操作,w1和w0是多层感知器(MLP)学习到的权重,该权重可用于所有输入特征,RL代表ReLU激活函数,用于激活逐个元素求和后,合并得到的特征向量。
进一步的,As是尺寸为1×W×H的二维空间注意力特征图,空间注意力是通道注意力的补充,空间注意力描述为:
其中,代表空间平均池化操作,代表空间最大池化操作,代表空间中值池化操作,基于通道注意力和输入特征,通过具有可形变卷积的平均池化最大池化和中值池化获得空间权重系数,RL代表ReLU激活函数,Γ7×7是具有可变形卷积的7×7卷积核,offset表示偏移量。
最后,两个注意力模块相乘,·表示将每一个元素进行相乘操作。M(l,w,x)表示可形变卷积运算后的特征图,可以定义为:
其中W(ln)和w代表学习到的权重,ln表示实数集R中的任意数字,l是线性插值的参数,x是输入的特征图谱。B(·,·)代表N维的双线性插值算法,其一维形式如下所示:
其中mi和ni分别代表m和n在第i维的情况。
M′(l,w,x)是利用通道间关系构成的注意力特征图谱,M″(l,w″,x)是最终输出的特征图谱,因此,含有注意力机制的形变卷积模块的公式表示如下:
M′(l,w′,x)=AC(M(l,w,x))·M(l,w,x),M″(l,w″,x)=As(M′(l,w′,x))·M′(l,w′,x)
进一步的,步骤四中采用特征金字塔做特征增强,低层特征包含的语义信息较少,但缺陷定位更准确;高层特征语义信息丰富,但缺陷定位不准,特征金字塔采用多尺度特征融合,其中顶层特征通过上采样和低层特征做融合,但每层都会进行独立预测。
进一步的,步骤五中的自适应锚框RPN是缺陷检测模块的核心,该网络由四个子模块构成,分别是中心坐标预测网络,锚框长预测网络,锚框宽预测网络和特征融合网络。主要学习的关键参数为锚框的中心点坐标,长度和宽度信息。
进一步的,中心坐标预测网络是一个二分类网络,该网络根据输入图像I上的像素点(is,js)生成了一个概率图谱p(·|MI),其中s代表相关锚框的相对距离,MI表示图像的特征图,图像I上的点由带有激活函数的点级别的卷积生成。该网络通过中心区域的真实坐标(xg,yg)映射到对应特征图谱中相应的坐标(xa,ya),标记为正样本,其余坐标点为负样本,进而学习到中心点坐标的生成模型。
进一步的,锚框长预测网络和锚框宽预测网络用于学习锚框的长和宽,这两个网络会为每个特征图谱预测出最适合每个中心点的锚框的长宽,得到映射pw和ph。每个网络包含一层大小为1×1×1的像素级别的变换层。
进一步的,使用特征融合网络将锚框信息和特征图进行融合,合并的特征会适应每个位置的锚框形状。原始特征图通过3×3可形变卷积进行校正,偏移量通过1×1×2卷积获得最终的融合结果。
进一步的,步骤六中采用级联网络的结构进行框的预测和回归,一共级联3个网络,候选框和真实值的交并比IoU分别为0.5、0.6、0.7,采用soft-NMS进行框的选择,相比于传统的NMS,soft-NMS只是降低了置信度,若候选框与真值只有少部分重叠,候选框的置信度分数不会变化过大。
进一步的,步骤六在训练过程中通过损失函数判断模型训练情况,并在反向传播时调整参数。本模型采用多任务损失函数进行训练,公式如下:
L=Lrpn+ηLbbox
其中Lrpn是计算锚框的损失函数,Lbbox是预测框分类回归产生的损失函数。
进一步的,在损失函数中主要依靠预测框和真值之间的数学关系计算损失函数,公式如下:
其中b*表示预测框的各参数向量,bg*是真值的各参数向量,x和y分别代表预测框的中心坐标,w和h分别代表预测框的宽和长,xa,ya,wa和ha都是锚框的参数,xg,yg,wg,hg代表真实值的参数。
进一步的,预测框损失函数公式定义如下:
其中p代表类别预测的概率,pg是对应真值的概率图,b代表框回归后的参数向量,bg代表真值的参数向量,λ为超参,可设为1。其中pg可经过如下公式计算得到:
进一步的,预测框的分类损失函数可通过如下公式计算得到:
其中pi和pig分别表示每一个候选框和对应真值的x,y,w,h。
预测框的回归损失函数可通过如下公式计算得到:
其中bi和big分别表示回归后的预测框和对应真值的x,y,w,h。
其中L1是最小化绝对误差函数,本模型中L1均为相同含义,其计算公式如下:
其中x是预测值和真值之间的差值。
进一步的,RPN的损失函数可根据如下公式计算:
其中cls是分类总数,根据缺陷类别数目进行设置,γ是超参数,可设为2。
与现有技术相比,本发明根据缺陷特征,设计了一种自动化缺陷检测方法,主要内容为一个结合注意力机制的自适应锚框神经网络,该网络可以学习并自动生成和缺陷更加匹配的锚框,从而提升检测精度,具体如下:增加了结合通道注意力和空间注意力的特征增强模块,加强特征的表达,为后续提取候选框降低了难度;采用特征金字塔做多尺度特征融合,同样是在增强特征表达;候选区域由结合了自适应锚框的RPN网络生成,该网络可以生成和缺陷目标更加匹配的锚框,从而大大提高检测的精度;预测和回归模块采用级联结构解决训练和预测阶段的不匹配问题,使得该网络在检测形状变化差异大的缺陷时具有更优的普适性,对小目标的缺陷检测结果也有较大提升。
附图说明
图1是本发明的流程图;
图2是本发明骨干网络的结构图;
图3是本发明的注意力模块结构图;
图4是本发明自适应锚框网络的结构图;
图5是本发明的部分检测结果图。
具体实施方式
以下结合附图,对本发明进一步说明:
参见图1,本发明包括以下步骤:
步骤101,使用摄像头获取图像数据或者直接上传图像数据作为图像输入。
步骤102,对原始图像(W×S)进行s倍下采样操作,得到(W/s)×(H/s)尺寸的图像。
步骤103,采用结合分组卷积和可形变卷积思想的ResNeXt-101作为骨干网进行特征提取,将原始输入图像通过一个卷积核为7×7的卷积层和一个批归一化层处理后,分成64组进入Conv2-Conv5中,分组卷积可以实现在参数量不变的情况下,防止对特定数据集的过拟合,从而达到一个更为精准的效果。
步骤104,将步骤103提取到的特征输入到注意力模块中进行特征增强,注意力模块由通道注意力模块和空间注意力模块两个子模块,该模块结构图如图3。
步骤105,将步骤104增强后的特征图谱输入特征金字塔网络中做多尺度特征融合,其中顶层特征通过上采样和低层特征做融合,但每层都会进行独立预测,使所得特征更有效的代表缺陷。
步骤106,将步骤105结果输入到自适应锚框网络中,并进行候选框的提取,该网络可以根据特征自动选取适合的锚框,减少了手工设置的带来的误差,可以更好的适应不同大小的特征,该网络结构如图4。
步骤107,将步骤106中的候选框输入到预测模块进行候选框的选择和回归,从而找到更适合的候选框。
步骤108,根据候选框置信度排名进行筛选,得到最终的检测结果。
参见图2,其描绘了本发明的骨干网络的结构图,包括以下部分:
步骤201,将铝材质缺陷数据集中的图片做预处理后,下采样到同一尺寸,输入到骨干网络中。
步骤202,经过3组卷积核为7×7,步长为2的卷积层和一个批归一化层后,进行3×3的最大池化操作处理。
步骤203,骨干网络采用分组卷积的思想,将步骤202的输出分为64组,每一组中,conv+BN由1×1卷积、3×3卷积组和1×1卷积组成,特征图经过1×1卷积后,会根据通道的维度分为不同的子特征图,其中第一个子特征图会直接输出,其余会通过3×3卷积后输出,从第三个特征图起,每个子特征图会和前一个进行相加操作再进行3×3的卷积操作,最后将所有的子特征图采用1×1卷积映射融合得到总输出。每一组都采用了残差网络的思想,具体内容如图2所示,最后将这64组处理后的特征图进行融合。
步骤204,Conv3在Conv2的基础上加入了可形变卷积的思想,给每个采样点加一个offset,帮助网络更好的学习特征,同时分为64组做分组卷积操作,网络细节如图2所示。
步骤205,Conv4在Conv2的基础上加入了可形变卷积的思想,给每个采样点加一个offset,帮助网络更好的学习特征,同时分为64组做分组卷积操作,网络细节如图2所示。
步骤206,Conv5在Conv2的基础上加入了可形变卷积的思想,给每个采样点加一个offset,帮助网络更好的学习特征,同时分为64组做分组卷积操作,网络细节如图2所示。
参见图3,其描绘了本发明的注意力模块结构图,包括以下部分:
步骤301,输入增强过后的网络特征图谱,输出到通道注意力模块。
步骤302,将步骤301输出特征送入通道注意力模块,该模块Ac是尺寸为C×1×1的一维通道注意力特征图,其注意力特征图谱Ac(M(l,w,x))计算如下:
其中,代表通道平均池化操作,代表通道最大池化操作,代表通道中值池化操作,w1和w0是多层感知器(MLP)学习到的权重,该权重可用于所有输入特征,RL代表ReLU激活函数,用于激活逐个元素求和后,合并得到的特征向量。
步骤303,将步骤302和步骤303所得结果相乘后送入空间注意力模块,该模块As是尺寸为1×W×H的二维空间注意力特征图,空间注意力是通道注意力的补充,空间注意力描述为:
其中,代表空间平均池化操作,代表空间最大池化操作,代表空间中值池化操作,基于通道注意力和输入特征,通过具有可形变卷积的平均池化最大池化和中值池化获得空间权重系数,RL代表ReLU激活函数,Γ7×7是具有可变形卷积的7×7卷积核,offset表示偏移量。
步骤304,将两个注意力模块所得结果相乘得到最后的特征,·表示将每一个元素进行相乘操作。M(l,w,x)表示可形变卷积运算后的特征图,可以定义为:
其中mi和ni分别代表m和n在第i维的情况。
M′(l,w,x)是利用通道间关系构成的注意力特征图谱,M″(l,w″,x)是最终输出的特征图谱。因此,含有注意力机制的形变卷积模块的公式表示如下:
M′(l,w′,x)=AC(M(l,w,x))·M(l,w,x),M″(l,w″,x)=As(M′(l,w′,x))·M′(l,w′,x)
参见图4,其描绘了本发明自适应锚框网络的结构图,包括以下部分:
步骤401,输入到自适应锚框网络的特征图谱。
步骤402,将输入特征图谱送入中心坐标预测网络,该网络是一个二分类网络,该网络根据输入图像I上的像素点(is,js)生成了一个概率图谱p(·|MI),其中s代表相关锚框的相对距离,MI表示图像的特征图,图像I上的点由带有激活函数的点级别的卷积生成。该网络通过中心区域的真实坐标(xg,yg)映射到对应特征图谱中相应的坐标(xa,ya),标记为正样本,其余坐标点为负样本,进而学习到中心点坐标的生成模型。
步骤403,将步骤402所得结果和输入特征图谱融合得到新的特征图谱,送入锚框长预测网络。该网络这两个网络会为每个特征图谱预测出最适合每个中心点的锚框的长,得到映射ph,每个网络包含一层大小为1×1×1的像素级别的变换层,方便后续步骤选择候选框。
步骤404,将步骤402所得结果和输入特征图谱融合得到新的特征图谱,送入锚框宽预测网络,该网络这两个网络会为每个特征图谱预测出最适合每个中心点的锚框的宽,得到映射pw,每个网络包含一层大小为1×1×1的像素级别的变换层,方便后续步骤选择候选框。
步骤405,经过步骤403会产生许多学习到的锚框,用于后续选择合适的候选框。
步骤406,将学习到锚框使用特征融合网络将锚框信息和特征图进行融合,合并的特征会适应每个位置的锚框形状。原始特征图通过3×3可形变卷积进行校正,偏移量通过1×1×2卷积获得。
步骤407,由步骤405和步骤406执行后得到最终的特征图和候选框。
参见图5,其描绘了本发明的部分检测结果图。
以上结合附图对本发明的具体实施方式进行了描述。本行业的技术人员应该了解,本发明不受上述实施例的限制。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围之内。
Claims (7)
1.基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,包括以下步骤:
步骤一,采用图片下采样技术,将所有图片下采样至统一尺寸,使输入维度具有一致性;
步骤二,将步骤一中得到的图片输入到一个使用分组卷积和可形变卷积思想的残差神经网络中,从而得到输入图片的特征图;
步骤三,把步骤二输出的特征图输入到使用通道注意力和空间注意力机制的特征增强模块中,进行缺陷特征的表达增强;
步骤三中采用具有可形变卷积的通道注意力和空间注意力结合的注意力机制,根据通道和空间的两个独立维度推导注意力映射,然后将其与输入特征相乘,可形变卷积在每个点上学习一个偏移,然后找到一个更合适的位置来提取特征;
其中,代表通道平均池化操作,代表通道最大池化操作,代表通道中值池化操作,w1和w0是多层感知器(MLP)学习到的权重,该权重可用于所有输入特征,RL代表ReLU激活函数,用于激活逐个元素求和后,合并得到的特征向量;
As是尺寸为1×W×H的二维空间注意力特征图,空间注意力是通道注意力的补充,空间注意力描述为:
其中,代表空间平均池化操作,代表空间最大池化操作,代表空间中值池化操作,基于通道注意力和输入特征,通过具有可形变卷积的平均池化最大池化和中值池化获得空间权重系数,RL代表ReLU激活函数,Γ7×7是具有可变形卷积的7×7卷积核,offset表示偏移量;
其中mi和ni分别代表m和n在第i维的情况;
步骤四,将步骤三中生成的增强后的特征图,输入到特征金字塔网络中进行多尺度特征融合;
步骤五,将步骤四得到的增强后的特征输入到加入了自适应锚框的RPN网络中,进行锚框参数的学习,并生成相应的候选框;
步骤六,将所有候选框输入到框预测模块中,采用soft-NMS选择得分较高的候选框,并做框的回归,使其更接近真实标签,步骤一至步骤六搭建的网络构成基于自适应锚框和注意力机制的检测模型;该检测模型基于反向传播机制,根据损失函数的大小不断更新模型参数,直到损失收敛到一个稳定的且较小的值,保存模型参数;
步骤七,基于步骤一至步骤六搭建的模型结构,使用阿里天池比赛中提供的真实生产线上的缺陷数据集进行模型参数的训练,训练出的模型及参数构成基于自适应锚框和注意力机制的铝材质缺陷检测模型。
2.根据权利要求1所述的基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,步骤一中,对输入图像I(W×H)进行s倍下采样操作,即将原始图像中每(s×s)窗口内的像素进行均值运算,得到(W/s)×(H/s)尺寸的图像,其中W为图像的长度,H为图像的高度。
3.根据权利要求1所述的基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,步骤四中采用多尺度特征融合的特征金字塔做特征增强,其中顶层特征通过上采样和低层特征做融合,但每层都会进行独立预测。
4.根据权利要求1所述的基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,步骤五中的自适应锚框RPN是缺陷检测模块的核心,该网络由四个子模块构成,分别是中心坐标预测网络,锚框长预测网络,锚框宽预测网络和特征融合网络,主要学习的关键参数为锚框的中心点坐标,长度和宽度信息。
5.根据权利要求1所述的基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,中心坐标预测网络,该网络根据输入图像I上的像素点(is,js)生成了一个概率图谱p(·|MI),其中s代表相关锚框的相对距离,MI表示图像的特征图,图像I上的点由带有激活函数的点级别的卷积操作生成,该网络通过中心区域的真实坐标(xg,yg)映射到对应特征图谱中相应的坐标(xa,ya),标记为正样本,其余坐标点为负样本,进而学习到中心点坐标的生成模型,锚框宽预测网络和锚框长预测网络,这两个网络会为每个特征图谱预测出最适合每个中心点的锚框的长宽,得到映射pw和ph,每个网络包含一层大小为1×1×1的像素级别的变换层,特征融合网络,原始特征图通过3×3可形变卷积进行校正,偏移量通过1×1×2卷积获得最终的融合结果。
6.根据权利要求1所述的基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,步骤六中采用级联网络的结构进行框的预测和回归,一共级联3个网络,候选框和真实值的交并比IoU分别为0.5、0.6、0.7。
7.根据权利要求1所述的基于自适应锚框的铝材质图像缺陷检测方法,其特征在于,步骤六在训练过程中使用损失函数,公式如下:
L=Lrpn+ηLbbox
其中Lrpn是计算锚框的损失函数,Lbbox是预测框分类回归产生的损失函数;
在损失函数中主要依靠预测框和真值之间的数学关系计算损失函数,公式如下:
预测框损失函数公式定义如下:
其中p代表类别预测的概率,pg是对应真实标签的概率图,b代表框回归后的参数向量,bg代表真实标签的参数向量,λ为超参,可设为1,其中pg可由下式计算:
预测框的分类损失函数可通过如下公式计算得到:
预测框的回归损失函数可通过如下公式计算得到:
其中L1是最小化绝对误差函数,本模型中L1均为相同含义,其计算公式如下:
其中x是预测值和真实标签之间的差值,
RPN的损失函数可根据如下公式计算:
其中cls是分类总数,根据缺陷类别数目进行设置,γ是超参数,可设为2;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043557.5A CN112085735B (zh) | 2020-09-28 | 2020-09-28 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043557.5A CN112085735B (zh) | 2020-09-28 | 2020-09-28 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085735A CN112085735A (zh) | 2020-12-15 |
CN112085735B true CN112085735B (zh) | 2022-10-25 |
Family
ID=73738412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011043557.5A Active CN112085735B (zh) | 2020-09-28 | 2020-09-28 | 一种基于自适应锚框的铝材质图像缺陷检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085735B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112561880B (zh) * | 2020-12-16 | 2022-07-08 | 华东师范大学 | 一种将先验知识融入深度学习引导磁共振图像分类的方法 |
CN112712513A (zh) * | 2021-01-05 | 2021-04-27 | 歌尔股份有限公司 | 产品缺陷检测方法、装置、设备及计算机可读存储介质 |
CN112766195B (zh) * | 2021-01-26 | 2022-03-29 | 西南交通大学 | 一种电气化铁路弓网燃弧视觉检测方法 |
CN113160117A (zh) * | 2021-02-04 | 2021-07-23 | 成都信息工程大学 | 一种自动驾驶场景下的三维点云目标检测方法 |
CN113065400A (zh) * | 2021-03-04 | 2021-07-02 | 国网河北省电力有限公司 | 基于无锚框两阶段网络检测发票印章的方法及装置 |
CN112950615B (zh) * | 2021-03-23 | 2022-03-04 | 内蒙古大学 | 一种基于深度学习分割网络的甲状腺结节侵袭性预测方法 |
CN113344857B (zh) * | 2021-05-13 | 2022-05-03 | 深圳市华汉伟业科技有限公司 | 缺陷检测网络的训练方法、缺陷检测方法和存储介质 |
CN113344886A (zh) * | 2021-06-11 | 2021-09-03 | 长江存储科技有限责任公司 | 晶圆表面缺陷检测方法和设备 |
CN113763321B (zh) * | 2021-07-29 | 2024-05-31 | 国网江苏省电力有限公司电力科学研究院 | 一种电缆附件主绝缘体施工缺陷检测方法及系统 |
CN113610822B (zh) * | 2021-08-13 | 2022-09-09 | 湖南大学 | 一种基于多尺度信息融合的表面缺陷检测方法 |
CN113378864B (zh) * | 2021-08-16 | 2021-11-12 | 浙江啄云智能科技有限公司 | 一种锚框参数的确定方法、装置、设备及可读存储介质 |
CN113808099A (zh) * | 2021-09-11 | 2021-12-17 | 苏州兆能视觉科技有限公司 | 一种铝材表面缺陷检测装置与方法 |
CN113971660B (zh) * | 2021-09-30 | 2022-11-08 | 哈尔滨工业大学 | 桥梁健康诊断的计算机视觉方法和智能摄像系统 |
CN114092813B (zh) * | 2021-11-25 | 2022-08-05 | 中国科学院空天信息创新研究院 | 一种工业园区图像提取方法、系统、电子设备和存储介质 |
CN114677355A (zh) * | 2022-04-06 | 2022-06-28 | 淮阴工学院 | 基于GAYOLOv3_Tiny电子元器件表面缺陷检测方法 |
CN115330754B (zh) * | 2022-10-10 | 2022-12-23 | 楚大智能(武汉)技术研究院有限公司 | 玻璃瓶口缺陷检测方法、装置、设备及存储介质 |
CN116071309B (zh) * | 2022-12-27 | 2024-05-17 | 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) | 元器件的声扫缺陷检测方法、装置、设备和存储介质 |
CN116883393B (zh) * | 2023-09-05 | 2023-12-01 | 青岛理工大学 | 一种基于无锚框目标检测算法的金属表面缺陷检测方法 |
CN116912605A (zh) * | 2023-09-12 | 2023-10-20 | 法施达(天津)智能科技有限公司 | 基于锚栓图像数据特征识别的故障检测方法和系统 |
CN117274263B (zh) * | 2023-11-22 | 2024-01-26 | 泸州通源电子科技有限公司 | 一种显示器瘢痕缺陷检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111027547A (zh) * | 2019-12-06 | 2020-04-17 | 南京大学 | 一种针对二维图像中的多尺度多形态目标的自动检测方法 |
CN111666836A (zh) * | 2020-05-22 | 2020-09-15 | 北京工业大学 | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018165753A1 (en) * | 2017-03-14 | 2018-09-20 | University Of Manitoba | Structure defect detection using machine learning algorithms |
CN108345911B (zh) * | 2018-04-16 | 2021-06-29 | 东北大学 | 基于卷积神经网络多级特征的钢板表面缺陷检测方法 |
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
CN109829893B (zh) * | 2019-01-03 | 2021-05-25 | 武汉精测电子集团股份有限公司 | 一种基于注意力机制的缺陷目标检测方法 |
CN110555842A (zh) * | 2019-09-10 | 2019-12-10 | 太原科技大学 | 一种基于锚点集优化的硅片图像缺陷检测方法 |
-
2020
- 2020-09-28 CN CN202011043557.5A patent/CN112085735B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111027547A (zh) * | 2019-12-06 | 2020-04-17 | 南京大学 | 一种针对二维图像中的多尺度多形态目标的自动检测方法 |
CN111666836A (zh) * | 2020-05-22 | 2020-09-15 | 北京工业大学 | M-f-y型轻量化卷积神经网络的高分辨率遥感影像目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112085735A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085735B (zh) | 一种基于自适应锚框的铝材质图像缺陷检测方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN111598861A (zh) | 基于改进的Faster R-CNN模型的非均匀纹理小缺陷的检测方法 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN112862811B (zh) | 基于深度学习的材料显微图像缺陷识别方法、设备及装置 | |
CN109886066A (zh) | 基于多尺度和多层特征融合的快速目标检测方法 | |
CN114972213A (zh) | 一种基于机器视觉的两阶段主板图像缺陷检测及定位方法 | |
CN112070727B (zh) | 一种基于机器学习的金属表面缺陷检测方法 | |
CN113221647B (zh) | 一种融合点云局部特征的6d位姿估计方法 | |
CN114048822A (zh) | 一种图像的注意力机制特征融合分割方法 | |
CN112184655A (zh) | 一种基于卷积神经网络的宽厚板轮廓检测方法 | |
CN113643268A (zh) | 基于深度学习的工业制品缺陷质检方法、装置及存储介质 | |
CN114757904A (zh) | 一种基于ai深度学习算法的表面缺陷检测方法 | |
CN114821014A (zh) | 基于多模态与对抗学习的多任务目标检测识别方法及装置 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN114359245A (zh) | 一种工业场景下产品表面缺陷检测方法 | |
CN113240665A (zh) | 一种基于深度学习的工业自动表面缺陷检测方法 | |
CN115439694A (zh) | 一种基于深度学习的高精度点云补全方法及装置 | |
CN115527072A (zh) | 一种基于稀疏空间感知与元学习的芯片表面缺陷检测方法 | |
CN115238758A (zh) | 一种基于点云特征增强的多任务三维目标检测方法 | |
CN115775236A (zh) | 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统 | |
CN114565594A (zh) | 基于软掩膜对比损失的图像异常检测方法 | |
CN115049945A (zh) | 一种基于无人机图像的小麦倒伏面积提取方法和装置 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN113538342B (zh) | 一种基于卷积神经网络的铝质气雾罐涂层质量检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |