CN113610822A

CN113610822A - 一种基于多尺度信息融合的表面缺陷检测方法

Info

Publication number: CN113610822A
Application number: CN202110927828.1A
Authority: CN
Inventors: 张辉; 赵晨阳; 李晨; 吴刘宸; 陈瑞博; 毛建旭; 曹意宏
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-05
Anticipated expiration: 2041-08-13
Also published as: CN113610822B

Abstract

本发明公开了一种基于多尺度信息融合的表面缺陷检测方法，包括：获取待测物品的表面缺陷图像以及标注了缺陷真实坐标值与缺陷类别的标签文件，构建缺陷数据集；对缺陷数据集进行预处理，得到预处理后的缺陷数据集；搭建缺陷检测网络，缺陷检测网络包括特征提取模块和缺陷预测模块，特征提取模块包括主干网络、高层特征融合模块和相邻特征融合模块，缺陷预测模块包括目标区域提议模块和缺陷定位网络；根据预处理后的缺陷数据集对缺陷检测网络进行训练，得到缺陷检测模型；获取待测物品的待检测表面图像，根据待检测表面图像和缺陷检测模型得到表面缺陷检测结果。有效提高检测效率和准确性。

Description

一种基于多尺度信息融合的表面缺陷检测方法

技术领域

本发明属于深度学习领域和目标检测领域，特别是涉及一种基于多尺度信息融合的表面缺陷检测方法。

背景技术

表面缺陷检测方法包括传统缺陷检测方法与基于深度学习的缺陷检测方法。传统缺陷检测方法主要包括统计法、谱方法和模型法等，主要通过分析纹理特性，如同向性、同质性等，提取图像特征，识别缺陷纹理，从而区分缺陷产品图像和正常产品图像，随着工业自动化进程的推进，表面缺陷检测的应用场景越来越多样化，工业现场灰尘、脏污的干扰、不连续缺陷、对检测的高实时性和高准确率的要求，使得表面缺陷检测依然是一个极富挑战且亟待解决的问题。深度学习方法是2012年深层神经网络成功应用于大规模图像分类以后逐渐发展起来的，与传统方法相比，深度学习方法利用标注数据自动提取特征，避免了手工设计特征的困难，同时对目标的识别能力强。基于深度学习的缺陷检测方法越来越广泛地应用于各种工业场景，成为缺陷检测的主流方法。而工业场景下的缺陷数据集标注成本高导致训练数据量较少，少量数据在训练单一缺陷检测任务时，检测模型复杂而样本稀少，容易发生过拟合，造成泛化性能低，严重影响模型的检测性能。

目前工业生产线主要基于人工检测，检测效率低，且准确性不高，无法满足当今智能工业生产线的需求，具体表现如下：(1)人眼检测精度差、容易受到主观因素的影响，且由于瑕疵种类多样、体积小不易察觉，质检工作人员在检测缺陷的过程中极易造成漏检；(2)在工业流水线模式下不满足效率要求；(3)检测成本较高。而针对工业场景下的缺陷目标存在的三大难点：(1)小样本问题；(2)数据类内特征差异大，缺陷形状不规则，(3)数据量少，且呈长尾分布，易造成网络过拟合，泛化性能不佳。因此及时检测缺陷，对于提高表面质量和产品经济效益具有重要意义。

发明内容

针对以上技术问题，本发明提供一种可有效提高检测效率和准确率的一种基于多尺度信息融合的表面缺陷检测方法。

本发明解决其技术问题采用的技术方案是：

在一个实施例中，一种基于多尺度信息融合的表面缺陷检测方法，方法包括以下步骤：

步骤S100：获取待测物品的表面缺陷图像以及标注了缺陷真实坐标值与缺陷类别的标签文件，构建缺陷数据集；

步骤S200：对缺陷数据集进行预处理，得到预处理后的缺陷数据集；

步骤S300：搭建缺陷检测网络，缺陷检测网络包括特征提取模块和缺陷预测模块，特征提取模块包括主干网络、高层特征融合模块和相邻特征融合模块，缺陷预测模块包括目标区域提议模块和缺陷定位网络；

步骤S400：根据预处理后的缺陷数据集对缺陷检测网络进行训练，得到缺陷检测模型；

步骤S500：获取待测物品的待检测表面图像，根据待检测表面图像和缺陷检测模型得到表面缺陷检测结果。

优选地，步骤S200包括：

步骤S210：根据预设的划分比例对缺陷数据集进行划分，得到训练数据集、测试数据集和验证数据集；

步骤S220：对缺陷数据集中的表面缺陷图像进行归一化，对归一化后的缺陷数据集进行数据增强操作。

优选地，步骤S220中对缺陷数据集中的表面缺陷图像进行归一化，具体为：

(1)计算缺陷数据集中的样本均值与方差：

其中，μ表示缺陷数据集的样本数据的均值，σ代表缺陷数据集中样本数据的方差，x_ι代表缺陷数据集中的第ι个样本数据，ι＝1,2,L N，N表示大于1的正整数；

(2)根据以下公式对缺陷数据集进行归一化处理：

其中，x_ι′代表归一化后的缺陷数据集中的第ι个样本数据，ε代表极小值。

优选地，步骤S220中对归一化后的缺陷数据集进行数据增强操作，具体为：

步骤S221：对归一化后的缺陷数据集中的表面缺陷图像以预设的概率进行随机翻转；

步骤S222：对翻转后的缺陷数据集中的表面缺陷图像进行随机裁剪和随机缩放；

步骤S223：对经过随机裁剪和随机缩放后的表面缺陷图像进行随机亮度增强和随机对比度增强；

步骤S224：对经过随机亮度增强和随机对比度增强后的表面缺陷图像进行GridMask数据增强。

优选地，步骤S222具体为：

设置缺陷检测网络的图像裁剪尺寸img_scale＝[(h₁,w₁)，(h₂,w₂),…(h_φ,w_φ)]，若φ＝1，表示缺陷检测网络为单尺寸输入，若φ＞1，表示缺陷检测网络为多尺寸输入，

当缺陷检测网络为单尺寸输入：

max_long_edge＝max(img_scale)

min_short_edge＝min(img_scale)

其中，max_long_edge指设置尺度的长边，max_short_edge指设置尺度的短边，scale_factor指缩放因子，max(h,w)指输入的表面缺陷图像的长边，min(h,w)指输入的表面缺陷图像的短边；

最终输入的表面缺陷图像的尺寸为：

scale_w＝(w*image_scale)，scale_h＝(h*image_scale)

其中，scale_w指最终输入的表面缺陷图像的尺寸的宽，scale_h指最终输入的表面缺陷图像的尺寸的高，w为获取到的表面缺陷图像的尺寸的宽，h为获取到的表面缺陷图像的尺寸的高；

若缺陷检测网络为多尺寸输入：

max_long_edge＝max(h₁′,h₂′L h_φ′)，h_j′＝max(h_j,w_j)，j＝1,2,Lφ

min_long_edge＝max(w₁′,w₂′L w_φ′)，w_j′＝min(h_j,w_j)，j＝1,2,Lφ

其中，max_long_edge指设置尺度的长边，max_short_edge指设置尺度的短边；从max_long_edge与max_short_edge中随机选取一个值作为新的图像裁剪尺寸img_scale'，

最终输入的表面缺陷图像的尺寸为：

scale_w＝(w*img_scale')，scale_h＝(h*img_scale')。

优选地，步骤S400包括：

步骤S410：根据主干网络对训练数据集进行特征提取，其中，主干网络包括m个阶段，将第i个阶段输出的特征图定义为A_i，i＝1,2,...,m；

步骤S420：对特征图A_m进行下采样，得到A_m+1；

步骤S430：将第i级特征图A_i，i＝1,2,...,m，与其所有高层特征图A_n，n＝i+1,L,m+1输入高层特征融合模块得到特征图A_i'；

步骤S440：将高层特征融合模块输出的相邻的特征图A_i-1′，A_i′，A_i+1′输入相邻特征融合模块，相邻特征融合模块根据接收的相邻的特征图A_i-1′，A_i′，A_i+1′进行融合输出具有全局关系信息的m个特征图F_i，i＝1,2,...,m；

步骤S450：采用RPN对m个特征图F_i进行目标候选区域提取，得到多个目标区域提议候选区域，将多个候选区域映射到对应的特征图，得到多个目标区域提议特征图并输入至缺陷定位网络；

步骤S460：缺陷定位网络对多个目标区域提议特征图进行固定尺寸裁剪，得到多个统一尺寸的目标区域提议特征图，对多个统一尺寸的目标区域提议特征图进行目标框分类和回归，再结合预设的IOU阈值组得到预测缺陷检测结果；

步骤S470：设计分类和回归的损失函数，根据预测目标检测结果和损失函数进行反向传播，调整缺陷检测网络的网络参数，直至训练次数达到预设的次数，得到缺陷检测模型。

优选地，步骤S430包括：

步骤S431：利用步长为1，padding为0的1×1的卷积，对输入的第i级的特征图A_i，与其所有高层特征图A_n进行通道数统一；

步骤S432：利用双线性插值对步骤S431输出的通道数统一的高层特征图分别进行2^(m-i)的上采样至与特征图A_i的尺寸一致；

步骤S433：将步骤S431输出的通道数统一后的第i级特征图与步骤S432输出的与特征图A_i尺寸一致的所有高层特征图进行Concat操作得到Concat操作后的特征图，再使用1×1的卷积改变Concat操作后的特征图的通道数至与步骤S431输入的第i级的特征图A_i相同；

步骤S434：将步骤S433的结果输入所述高层特征融合模块的CBAM注意力模块得到更新后的特征图；

步骤S435：将所述更新后的特征图与步骤S431输入的第i级的特征图A_i进行逐元素相加，得到特征图A_i′。

优选地，步骤S440包括：

步骤S441：利用步长为1，padding为0的1×1的卷积，将高层特征融合模块输出的特征图A_i-1′、A_i′和A_i+1′的通道数统一；

步骤S442：对经过步骤S441处理的A_i-1′特征图进行步长为2，padding为1的3×3卷积，利用双线性插值对经过步骤S441处理的A_i+1′特征图进行上采样，使A_i-1′、A_i+1′尺寸与A_i′一致，并将A_i-1′特征图、A_i′特征图和A_i+1′特征图进行逐元素相加，进行相邻特征融合，得到相邻特征融合结果；

步骤S443：将步骤S442输出的相邻特征融合结果与经过步骤S441处理的A_i′进行逐元素相加，得到相加后的特征图；

步骤S444：将步骤S443输出的所述相加后的特征图输入所述相邻特征融合模块的CBAM注意力模块，输出m个特征图F_i，i＝1,2,...,m。

优选地，缺陷定位网络的结构为双分支三级联网络，每一级联网络的head均包括两个分支，分别为fc_head和conv-head，步骤S460具体为：

步骤S461：将RPN输出的多个目标区域提议特征图输入双分支三级联网络的第一级联至第三级联网络；

步骤S462：第一级联网络的Roi Align对接收的多个目标区域提议特征图进行固定尺寸裁剪，得到多个第一目标区域提议特征图并输入至第一级联网络的fc_head和conv-head，第一级联的fc_head和conv-head根据接收的第一目标区域提议特征图进行分类和回归得到第一预测缺陷检测结果，根据预设的第一IOU阈值和第一预测缺陷检测结果得到一阶段输出目标回归框，将一阶段输出目标回归框映射到对应的一阶段输入特征图得到第一映射特征图，并将第一映射特征图传入至第二级联网络；

步骤S463：第二级联网络的Roi Align对接收的第一级联输出的第一映射特征图和多个目标区域提议特征图进行固定尺寸裁剪，得到多个第二目标区域提议特征图并输入至第二级联网络的fc_head和conv-head，第二级联网络的fc_head和conv-head对多个第二目标区域提议特征图进行分类和回归得到第二预测缺陷检测结果，根据预设的第二IOU阈值和第二预测缺陷检测结果得到二阶段输出目标回归框，将二阶段输出目标回归框映射到对应的二阶段网络输入特征图得到第二映射特征图，并将第二映射特征图传入至第三级联网络；

步骤S464：第三级联网络的Roi Align对接收的第二级联输出的第二映射特征图和多个目标区域提议特征图进行固定尺寸裁剪，得到多个第三目标区域提议特征图并输入至第三级联网络的fc_head和conv-head，第三级联网络的fc_head和conv-head对多个第三目标区域提议特征图进行分类和回归得到第三预测缺陷检测结果，根据预设的第三IOU阈值和第三预测缺陷检测结果得到最终的预测缺陷检测结果。

优选地，步骤S470中的损失函数具体为：

L(x^t,g)＝α^fcL^fc+α^convL^conv

其中，L^fc，L^conv分别对应fc_head，conv_head的损失，α^fc,α^conv分别表示fc_head，conv_head损失的权重；

L^conv位置损失函数使用smooth L1损失：

其中x_υ表示第υ张图像，b_υ表示第υ张图像的预测边界框，g_υ表示第υ张图像的真实边界框，(f(x_υ,b_υ),g_υ)表示将图像x_υ的预测边界框b_υ向标注的边界框进行回归，L_loc表示smooth L1损失；

L^fc分类损失函数使用交叉熵损失：

其中，h(x_υ)表示类别后验分布概率估计值，y_υ表示类别标签，L_cls表示交叉熵损失。

上述一种基于多尺度信息融合的表面缺陷检测方法，通过对表面缺陷图像进行预处理，输入特征提取模块的主干网络提取特征，再利用高层特征模块和相邻特征模块对特征进行融合操作得到融合特征，利用融合特征对搭建的缺陷检测网络进行训练，最后利用搭建的缺陷检测网络对待测物品的待检测表面图像进行缺陷检测，极大提高了待测物品缺陷检测精度和效率。

附图说明

图1为本发明的瓶盖缺陷示例图；

图2为本发明的标贴缺陷示例图；

图3为本发明一实施例提供的一种基于多尺度信息融合的表面缺陷检测方法流程图；

图4为本发明的GridMask处理过程示意图；

图5为本发明的GridMask掩码参数示意图；

图6为本发明的特征提取模块结构示意图；

图7为本发明的高层特征融合模块流程示意图，以A2为例；

图8为本发明的相邻特征融合模块流程示意图；

图9为基于双分支三级联的缺陷定位网络结构示意图；

图10为瓶盖表面缺陷检测结果图；

图11为瓶身表面缺陷检测结果图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

玻璃瓶由于性质稳定、坚硬耐用、可反复多次使用等优点，广泛应用于食品饮料行业，已经成为白酒生产中最重要的包装物之一，其质量好坏不仅对生产过程有影响，还会影响产品形象，因此做好酒瓶的检验工作十分重要。瓶装酒的生产过程中，由于生产工艺的局限性，会受到原材料质量以及加工工艺等因素的影响，产品中可能存在各类瑕疵影响产品质量，如瓶盖破损、瓶盖变形、瓶盖断点、瓶身破损、瓶身气泡等，对应示例图如图1、图2所示，下面以酒瓶缺陷为例，对本发明进行详细介绍。

在一个实施例中，如图3所示，一种基于多尺度信息融合的表面缺陷检测方法，方法包括以下步骤：

步骤S100：获取待测物品的表面缺陷图像以及标注了缺陷真实坐标值与缺陷类别的标签文件，构建缺陷数据集。

具体地，以待测物品为酒瓶为例，获取的训练数据包含12类酒瓶缺陷图像以及标注了缺陷真实坐标值与缺陷类别的标签文件，共计3370张，以构建缺陷数据集，酒瓶缺陷图像的缺陷类别包括瓶盖破损、瓶盖变形、瓶盖坏边、瓶盖打旋、瓶盖断点、标贴歪斜、标贴起皱、标贴气泡、喷码正常、喷码异常、瓶身破损、瓶身气泡12类，瓶盖缺陷尺寸为658×492，瓶身缺陷尺寸为4096×3000，标签文件类别为coco格式，标注信息为每个缺陷像素位置坐标及缺陷类别信息。

步骤S200：对缺陷数据集进行预处理，得到预处理后的缺陷数据集。

在一个实施例中，步骤S200包括：

步骤S210：根据预设的划分比例对缺陷数据集进行划分，得到训练数据集、测试数据集和验证数据集。

具体地，预设的划分比例为6：2：2，将3370张缺陷数据集随机划分为训练数据集，测试数据集和验证数据集，其中训练数据集2022张，测试数据集675张，验证数据集673张。

具体地，缺陷数据集在输入网络前，需要进行归一化，然后再进行数据增强操作，以增加缺陷的多样性。

在一个实施例中，步骤S220中对缺陷数据集中的表面缺陷图像进行归一化，具体为：

(1)计算缺陷数据集中的样本均值与方差：

(2)根据以下公式对缺陷数据集进行归一化处理：

在一个实施例中，步骤S220中对归一化后的缺陷数据集进行数据增强操作，具体为：

步骤S221：对归一化后的缺陷数据集中的表面缺陷图像以预设的概率进行随机翻转。

具体地，在输入缺陷检测网络前，对所有归一化后的缺陷数据集中的表面缺陷图像以0.5的概率随机翻转。

步骤S222：对翻转后的缺陷数据集中的表面缺陷图像进行随机裁剪和随机缩放。

具体地，设置缺陷检测网络的图像裁剪尺寸img_scale＝[(h₁,w₁)，(h₂,w₂),…(h_φ,w_φ)]，若φ＝1，表示缺陷检测网络为单尺寸输入，若φ＞1，表示缺陷检测网络为多尺寸输入，

当缺陷检测网络为单尺寸输入：

max_long_edge＝max(img_scale)

min_short_edge＝min(img_scale)

最终输入的表面缺陷图像的尺寸为：

scale_w＝(w*scale_factor)，scale_h＝(h*scale_factor)

若缺陷检测网络为多尺寸输入：

最终输入的表面缺陷图像的尺寸为：

scale_w＝(w*img_scale')，scale_h＝(h*img_scale')。

步骤S223：对经过随机裁剪和随机缩放后的表面缺陷图像进行随机亮度增强和随机对比度增强。

步骤S224：对经过随机亮度增强和随机对比度增强后的表面缺陷图像进行GridMask(一种数据增强方法)数据增强。

具体地，如图4所示，使用GridMask数据增强方法，通过生成一个和输入的表面缺陷图像相同分辨率的Mask(掩码)，然后将该Mask与输入的表面缺陷图像相乘得到一个图像。Mask中灰色区域的值为1，黑色区域的值为0，从而实现特定区域的informationdropping(信息丢失)，本发明中GridMask的概率不是定值，概率随训练时间线性增加，直到达到一个上界P。

进一步，GridMask通过四个参数(x,y,r,d)确定一组特定的Mask，如图5所示：

x(y)＝random(0,d-1)

其中，x,y表示第一个完整单元到图像边界的距离，图5中虚线框部分对应为一个完整单元，d表示一个单位的长度，k代表输入的表面缺陷图像的保留率，H表示输入的表面缺陷图像的高度，W表示输入的表面缺陷图像的宽度，M表示一个掩码的面积，r是单位内较短边的灰度边的比值。

步骤S300：搭建缺陷检测网络，缺陷检测网络包括特征提取模块和缺陷预测模块，特征提取模块包括主干网络、高层特征融合模块和相邻特征融合模块，缺陷预测模块包括目标区域提议模块和缺陷定位网络。

具体地，缺陷检测网络为融合多尺度上下文信息的级联网络(Cascade RCNN)，包括特征提取模块与缺陷预测模块。如图6所示，特征提取模块采用Resnet 101作为主干网络，在主干网络的第三和第四个stage(对应conv3和conv4)使用可变形卷积代替原有卷积，并融入设计的双阶段多尺度信息融合模块进行上下文特征融合，丰富特征图的表达能力，其中，双阶段多尺度信息融合模块包括高层特征融合模块和相邻特征融合模块，缺陷预测模块包括目标区域提议模块和缺陷定位网络，缺陷定位网络包含级联结构与双分支结构，级联结构指利用RPN(RegionProposal Network，区域生成网络)进行目标区域提议后分三路特征，对每一路特征设置不同的IOU(Intersection over Union，交并比)阈值，并对三路预测目标框映射的特征图进行级联操作，第三级级联输出的分类与回归结果作为最终的目标检测结果；在每一级级联网络中使用双分支结构进行分类与回归，双分支结构分别为FC-head(全连接头)和Conv-head(卷积头)，FC-head做分类任务，Conv-head做回归任务。

步骤S400：根据预处理后的缺陷数据集对缺陷检测网络进行训练，得到缺陷检测模型。

在一个实施例中，步骤S400包括：

步骤S410：根据主干网络对训练数据集进行特征提取，其中，主干网络包括m个阶段，将第i个阶段输出的特征图定义为A_i，i＝1,2,...m。

具体地，使用Resnet101作为模型主干网络，对训练数据集进行特征提取，在本实施例中，m＝5，该主干网络包含5个阶段，将第i个阶段的最后一个残差网络结构输出的特征图定义为A_i，i＝1,2,3,4,5，每个特征图的尺寸记为C_i×W_i×H_i，i＝1,2,3,4,5。

步骤S420：对特征图A_m进行下采样，得到A_m+1。

具体地，对特征图A5进行降采样，得到特征图A6。

步骤S430：将第i级特征图A_i，i＝1,2,...,m，与其所有高层特征图A_n，n＝i+1,L,m+1输入高层特征融合模块得到特征图A_i'。

具体地，将第i级特征图A_i，i＝1,2,...,5，与其所有高层特征图A_n，n＝i+1,L，6输入高层特征融合模块HFF，高层特征通过双线性插值进行上采样，使低层特征与高层特征融合；

A_i′＝HFF(A_i)，i＝1,2,3,4,5

其中，HFF(.)表示对输入进行高层特征融合，A_i′为融合后的结果。

进一步地，如图7所示，步骤S430包括：

步骤S431：利用步长为1，padding(填充)为0的1×1的卷积，对输入的第i级的特征图A_i，与其所有高层特征图A_n进行通道数统一；

步骤S433：将步骤S431输出的通道数统一后的第i级特征图与步骤S432输出的与特征图A_i尺寸一致的所有高层特征图进行Concat操作得到Concat操作后的特征图，再使用1×1的卷积改变Concat操作后的特征图的通道数至与步骤S431输入的第i级的特征图A_i的通道数相同；

步骤S434：将步骤S433的结果输入高层特征融合模块的CBAM(ConvolutionalBlock Attention Module)注意力模块得到更新后的特征图；

具体地，在CBAM注意力模块，在空间与维度上关注重要的特征，抑制不重要的特征，提高特征图的表征能力。

步骤S440：将高层特征融合模块输出的相邻的特征图A_i-1′，A_i′，A_i+1′输入相邻特征融合模块，相邻特征融合模块根据接收的相邻的特征图A_i-1′，A_i′，A_i+1′进行融合输出具有全局关系信息的m个特征图F_i，i＝1,2,...,m。

具体地，将高层特征融合模块输出的相邻的特征图A_i-1′，A_i′，A_i+1′输入相邻特征融合模块，若i＝1，仅输入相邻一个特征图，即输入特征图A₁′、A₂′，输出具有融合全局关系信息的5个特征图F_i，i＝1,2,3,4,5。

进一步地，如图8所示，步骤S440包括：

步骤S442：对经过步骤S441处理的A_i-1′特征图进行步长为2，padding为1的3×3卷积，利用双线性插值经过步骤S441处理的A_i+1′特征图进行上采样，使A_i-1′、A_i+1′尺寸与A_i′一致，并将A_i-1′特征图、A_i′特征图和A_i+1′特征图进行逐元素相加，进行相邻特征融合，得到相邻特征融合结果；

步骤S444：将步骤S443输出的相加后的特征图输入相邻特征融合模块的CBAM注意力模块，输出m个特征图F_i，i＝1,2,...,m。

步骤S450：采用RPN对m个特征图F_i进行目标候选区域提取，得到多个目标区域提议候选区域，将多个候选区域映射到对应的特征图，得到多个目标区域提议特征图并输入至缺陷定位网络。

具体地，采用改进的Anchor(锚框)进行区域特征提取，每层特征图使用5个anchors，anchors的窗口面积尺寸为8²、16²、32²、64²、128²，五种不同的长宽比例分别为1:5、1:2、1:1、2:1、5:1，得到多个目标区域提议候选区域，将多个候选区域映射到对应的特征图，得到多个目标区域提议特征图。

步骤S460：缺陷定位网络对多个目标区域提议特征图进行固定尺寸裁剪，得到多个统一尺寸的目标区域提议特征图，对多个统一尺寸的目标区域提议特征图进行目标框分类和回归，再结合预设的IOU阈值组得到预测缺陷检测结果。

具体地，由于缺陷区域较小，本发明将ROI(Region of Interest)Pooling替换为ROI Align，对目标区域提议特征图进行统一处理即进行统一裁剪，产生固定大小为7×7×256的特征图，进而得到多个统一尺寸的目标区域提议特征图，可进一步提高检测准确性。

在得到多个目标区域提议特征图后，输入至基于双分支级联的缺陷定位网络，分别输入三个级联的head，并设置不同的IOU阈值，进行缺陷检测。

在每个head中，首先将多个目标区域提议特征图输入ROI Align，生成多个统一尺寸的目标区域提议特征图，然后输入双分支结构进行后续的分类与回归，双分支结构分别为FC-head和Conv-head，FC-head做分类网络，Conv-head做回归网络。

在一个实施例中，如图9所示，缺陷定位网络的结构为双分支三级联网络，每一级联网络的head均包括两个分支，分别为fc_head和conv-head，步骤S460具体为：

具体地，由于缺陷区域较小，本发明将ROI Pooling替换为ROI Align，对多个目标区域提议特征图进行统一处理即进行统一裁剪，产生固定大小为7×7×256的特征图，进而得到多个统一尺寸的目标区域提议特征图，可进一步提高检测准确性。

步骤S462：第一级联网络的Roi Align对接收的多个目标区域提议特征图进行固定尺寸裁剪，得到多个第一目标区域提议特征图并输入至第一级联网络的fc_head和conv-head，第一级联的fc_head和conv-head根据接收的第一目标区域提议特征图进行分类和回归得到第一预测缺陷检测结果，根据预设的第一IOU阈值和第一预测缺陷检测结果得到一阶段输出目标回归框，将一阶段输出目标回归框映射到对应的一阶段输入特征图得到第一映射特征图，并将第一映射特征图传入至第二级联网络。

步骤S463：第二级联网络的Roi Align对接收的第一级联输出的第一映射特征图和多个目标区域提议特征图进行固定尺寸裁剪，得到多个第二目标区域提议特征图并输入至第二级联网络的fc_head和conv-head，第二级联网络的fc_head和conv-head对多个第二目标区域提议特征图进行分类和回归得到第二预测缺陷检测结果，根据预设的第二IOU阈值和第二预测缺陷检测结果得到二阶段输出目标回归框，将二阶段输出目标回归框映射到对应的二阶段网络输入特征图得到第二映射特征图，并将第二映射特征图传入至第三级联网络。

具体地，预设的第一IOU阈值小于预设的第二IOU阈值，预设的第二IOU阈值小于预设的第三IOU阈值，通过三级级联方式进行分类和回归，可提高最终的预测缺陷检测结果的准确性。

进一步地，如图9所示，fc-head为串联两个全连接层，两个全连接层后直接进行分类，计算分类损失；conv_head为通道变换模块、残差通道模块与non-local模块的组合，通道变换模块可以将经过Roi Align裁剪后特征图的256通道增加至1024通道；使用的残差通道模块与主干网络Resnet的残差结构一致，non-local结构(使特征图的每个像素点处的响应是其他所有点处的特征权重和，提高长距离依赖)用于增强前景，引入非局部信息，最后使用Avg Pooling获得大小为1024的特征向量，然后进行bbox回归，并将输出的特征向量作为输入传入下一个级联的head。

具体的，本发明设计的Conv_head共五个模块，依次为道变换模块、第一non-local模块、第一残差通道模块、第二non-local模块和第二残差通道模块。

Conv_head具体步骤为：首先将Roi Align输出的特征图7×7×256输入conv_head进行通道变换，conv_head中通道变换模块包括两个并行分支，分支1使用1×1的卷积将通道数从256增至1024，分支2首先使用3×3卷积对输入特征图进行处理，增加局部上下文信息，之后使用1×1的卷积将通道数增至1024，之后将分支1与分支2输出的特征图逐元素相加，然后使用Relu激活函数增加非线性因素，再依次输入第一non-local模块、第一残差通道模块、第二non-local模块以及第二残差通道模块进行处理，之后使用Avg Pooling获得大小为1024的特征向量，将特征向量传入下一个head(第三个head不用传)，最后进行目标框回归，计算回归损失。

在一个实施例中，步骤S470中的损失函数具体为：

L(x^t,g)＝α^fcL^fc+α^convL^conv

L^conv位置损失函数使用smooth L1损失：

L^fc分类损失函数使用交叉熵损失：

步骤S500：获取待测物品的表面图像，根据表面图像和缺陷检测模型得到表面缺陷检测结果。

具体地，在缺陷检测模型训练完成后，通过获取到的待测物品的表面图像，可高效准确进行缺陷检测，得到缺陷检测结果，缺陷检测结果具体包括缺陷分类和缺陷位置，如图10和11所示。

上述一种基于多尺度信息融合的表面缺陷检测方法，通过对缺陷图像进行增强处理，输入主干网络提取特征，再利用双阶段特征融合模块将高层特征及相邻特征依次融合，使每一级特征既包含局部细节，又包含全局上下文信息，极大增强了特征的表征能力，利用融合特征对缺陷检测网络进行训练，缺陷检测网络中基于双分支级联的缺陷定位网络利用fc_head结构具有空间敏感性，有利于分类的特点，以及conv_head有利于目标框回归的特点，在每一层级联的分类回归网络中使用双分支结构，从而提高分类与回归精度，最后利用搭建的缺陷检测网络对待检酒瓶图像进行缺陷检测，极大提高了酒瓶缺陷检测精度。

以上对本发明所提供的一种基于多尺度信息融合的表面缺陷检测方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于多尺度信息融合的表面缺陷检测方法，其特征在于，所述方法包括以下步骤：

步骤S200：对所述缺陷数据集进行预处理，得到预处理后的缺陷数据集；

步骤S300：搭建缺陷检测网络，所述缺陷检测网络包括特征提取模块和缺陷预测模块，所述特征提取模块包括主干网络、高层特征融合模块和相邻特征融合模块，所述缺陷预测模块包括目标区域提议模块和缺陷定位网络；

步骤S400：根据预处理后的缺陷数据集对所述缺陷检测网络进行训练，得到缺陷检测模型；

步骤S500：获取待测物品的待检测表面图像，根据所述待检测表面图像和所述缺陷检测模型得到表面缺陷检测结果。

2.根据权利要求1所述的方法，其特征在于，步骤S200包括：

步骤S210：根据预设的划分比例对所述缺陷数据集进行划分，得到训练数据集、测试数据集和验证数据集；

步骤S220：对所述缺陷数据集中的表面缺陷图像进行归一化，对归一化后的缺陷数据集进行数据增强操作。

3.根据权利要求2所述的方法，其特征在于，步骤S220中对所述缺陷数据集中的表面缺陷图像进行归一化，具体为：

(1)计算所述缺陷数据集中的样本均值与方差：

(2)根据以下公式对缺陷数据集进行归一化处理：

4.根据权利要求2所述的方法，其特征在于，步骤S220中对归一化后的缺陷数据集进行数据增强操作，具体为：

步骤S221：对所述归一化后的缺陷数据集中的表面缺陷图像以预设的概率进行随机翻转；

5.根据权利要求4所述的方法，其特征在于，步骤S222具体为：

设置缺陷检测网络的图像裁剪尺寸img_scale＝[(h₁,w₁)，(h₂,w₂),…(h_φ,w_φ)]，若φ＝1，表示所述缺陷检测网络为单尺寸输入，若φ＞1，表示所述缺陷检测网络为多尺寸输入，

当所述缺陷检测网络为单尺寸输入：

max_long_edge＝max(img_scale)

min_short_edge＝min(img_scale)

最终输入的表面缺陷图像的尺寸为：

scale_w＝(w*image_scale)，scale_h＝(h*image_scale)

若所述缺陷检测网络为多尺寸输入：

最终输入的表面缺陷图像的尺寸为：

scale_w＝(w*img_scale')，scale_h＝(h*img_scale')。

6.根据权利要求2所述的方法，其特征在于，步骤S400包括：

步骤S410：根据所述主干网络对所述训练数据集进行特征提取，其中，所述主干网络包括m个阶段，将第i个阶段输出的特征图定义为A_i，i＝1,2,...,m；

步骤S420：对特征图A_m进行下采样，得到A_m+1；

步骤S430：将第i级特征图A_i，i＝1,2,...,m，与其所有高层特征图A_n，n＝i+1,L,m+1输入所述高层特征融合模块得到特征图A_i'；

步骤S440：将所述高层特征融合模块输出的相邻的特征图A_i-1′，A_i′，A_i+1′输入所述相邻特征融合模块，所述相邻特征融合模块根据接收的所述相邻的特征图A_i-1′，A_i′，A_i+1′进行融合输出具有全局关系信息的m个特征图F_i，i＝1,2,...,m；

步骤S450：采用RPN对m个特征图F_i进行目标候选区域提取，得到多个目标区域提议候选区域，将所述多个候选区域映射到对应的特征图，得到多个目标区域提议特征图并输入至所述缺陷定位网络；

步骤S460：所述缺陷定位网络对所述多个目标区域提议特征图进行固定尺寸裁剪，得到多个统一尺寸的目标区域提议特征图，对所述多个统一尺寸的目标区域提议特征图进行目标框分类和回归，再结合预设的IOU阈值组得到预测缺陷检测结果；

步骤S470：设计分类和回归的损失函数，根据所述预测目标检测结果和所述损失函数进行反向传播，调整所述缺陷检测网络的网络参数，直至训练次数达到预设的次数，得到缺陷检测模型。

7.根据权利要求6所述的方法，其特征在于，步骤S430包括：

8.根据权利要求6所述的方法，其特征在于，步骤S440包括：

9.根据权利要求6所述的方法，其特征在于，所述缺陷定位网络的结构为双分支三级联网络，每一级联网络的head均包括两个分支，分别为fc_head和conv-head，步骤S460具体为：

步骤S462：所述第一级联网络的RoiAlign对接收的所述多个目标区域提议特征图进行固定尺寸裁剪，得到多个第一目标区域提议特征图并输入至所述第一级联网络的fc_head和conv-head，所述第一级联的fc_head和conv-head根据接收的第一目标区域提议特征图进行分类和回归得到第一预测缺陷检测结果，根据预设的第一IOU阈值和所述第一预测缺陷检测结果得到一阶段输出目标回归框，将所述一阶段输出目标回归框映射到对应的一阶段输入特征图得到第一映射特征图，并将所述第一映射特征图传入至第二级联网络；

步骤S463：所述第二级联网络的RoiAlign对接收的第一级联输出的第一映射特征图和所述多个目标区域提议特征图进行固定尺寸裁剪，得到多个第二目标区域提议特征图并输入至第二级联网络的fc_head和conv-head，所述第二级联网络的fc_head和conv-head对所述多个第二目标区域提议特征图进行分类和回归得到第二预测缺陷检测结果，根据预设的第二IOU阈值和所述第二预测缺陷检测结果得到二阶段输出目标回归框，将所述二阶段输出目标回归框映射到对应的二阶段网络输入特征图得到第二映射特征图，并将所述第二映射特征图传入至第三级联网络；

步骤S464：所述第三级联网络的RoiAlign对接收的第二级联输出的第二映射特征图和所述多个目标区域提议特征图进行固定尺寸裁剪，得到多个第三目标区域提议特征图并输入至第三级联网络的fc_head和conv-head，所述第三级联网络的fc_head和conv-head对所述多个第三目标区域提议特征图进行分类和回归得到第三预测缺陷检测结果，根据预设的第三IOU阈值和所述第三预测缺陷检测结果得到最终的预测缺陷检测结果。

10.根据权利要求9所述的方法，其特征在于，步骤S470中的损失函数具体为：

L(x^t,g)＝α^fcL^fc+α^convL^conv

L^conv位置损失函数使用smooth L1损失：

其中x_υ表示第υ张图像，b_υ表示第υ张图像的预测边界框，g_υ表示第υ张图像的真实边界框，(f(x_υ,b_υ),g_υ)表示将图像x_υ的预测边界框b_υ向标注的边界框进行回归，L_loc表示smoothL1损失；

L^fc分类损失函数使用交叉熵损失：