CN115661094A - 基于改进yolox模型的工业瑕疵检测方法 - Google Patents

基于改进yolox模型的工业瑕疵检测方法 Download PDF

Info

Publication number
CN115661094A
CN115661094A CN202211358411.9A CN202211358411A CN115661094A CN 115661094 A CN115661094 A CN 115661094A CN 202211358411 A CN202211358411 A CN 202211358411A CN 115661094 A CN115661094 A CN 115661094A
Authority
CN
China
Prior art keywords
network
yolox
industrial
picture
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211358411.9A
Other languages
English (en)
Inventor
陈宇
郝慧娟
唐勇伟
袁慧苗
张羽
赵媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qilu University of Technology
Priority to CN202211358411.9A priority Critical patent/CN115661094A/zh
Publication of CN115661094A publication Critical patent/CN115661094A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及工业缺陷检测技术领域,公开了基于改进YOLOX模型的工业瑕疵检测方法,包括通过工业深度相机对流水线的工业产品进行拍照,所拍摄的高分辨率工业图片经过标准尺寸切割后预处理为标准图片,再对每一张标准图片的每个像素进行归一化后作为输入信息传入基于改进YOLOX模型的工业瑕疵检测网络,最终获得图片的检测框坐标、置信度和类别;网络针对获取到的图片信息进行后处理,将检测框坐标、置信度和类别信息绘制到原始图片,将绘制后的处理图片进行输出。本发明在特征提取网络内加入注意力机制和自适应特征融合,使网络能更好地聚焦目标物体。最终在网络预测时不过多损失速度的情况下提高了预测的准确率,达到速度与准确率的平衡。

Description

基于改进YOLOX模型的工业瑕疵检测方法
技术领域
本发明涉及工业缺陷检测技术领域,具体涉及基于改进YOLOX模型的工业瑕疵检测方法。
背景技术
在工业制造领域,保证工业产品的质量是工业制造的重要任务。对于工业产品来说,一个小的瑕疵有时会危害到整体的效果。例如,印刷电路板中的断点会影响设备的信号的稳定传导;金属裂痕会影响产品的美观和强度。通常,一般的工业产品质量检测是通过人为操作,这样带来了诸多问题,比如前期检测人员需要经过大量培训,使人员培训成本增加;随着人员在岗检测的时间增加,自身原因导致的误检率升高。随着计算机视觉的发展,使用自动化质检已经成为行业的解决方案。视觉检测工业瑕疵可以减少成本,提升效率。
现有技术中,Kou等人发表的“Development of a YOLO-V3-based model fordetecting defects on steel strip surface”中,公开了基于YOLOv3利用无锚框的特征选择机制来选择理想的特征尺度进行钢材瑕疵检测。虽然上述检测器已经达到了比较好的速度,但是未取得较高的准确率,无法做到速度与准确率较好的平衡,难以满足实际工业需求。现有检测器往往只能检测特定的瑕疵目标,工业场景比较常见的细小缺陷检测不到,多类瑕疵检测不全,模型的整体泛化能力不足。
发明内容
本发明针对上述问题,提供了基于改进YOLOX模型的工业瑕疵检测方法。
本发明将主干网络中的瓶颈结构进行减少激活函数和归一化操作,在特征提取网络内加入注意力机制和自适应特征融合,使网络能更好地聚焦目标物体。最终在网络预测时不过多损失速度的情况下提高了预测的准确率,达到速度与准确率的平衡。实验表明,本发明提出的方法以业界标准评估方法mAP@0.5:0.95和mAP@0.5为基准,在NRSD数据集的平均准确率分别达到61.06%和85.00%;在PCB数据集的平均准确率分别达到51.58%和91.09%;在NEU-DET数据集的平均准确率分别达到49.08%和80.84%。大量对比和消融实验验证了模型在工业瑕疵检测场景的有效性和泛化能力。
本发明解决技术问题的技术方案为:
基于改进YOLOX模型的工业瑕疵检测方法,包括通过工业深度相机对流水线的工业产品进行拍照,所拍摄的高分辨率工业图片经过标准尺寸切割后预处理为标准图片,再对每一张标准图片的每个像素进行归一化后作为输入信息传入基于改进YOLOX模型的工业瑕疵检测网络;
基于改进YOLOX模型的工业瑕疵检测网络,包括基于注意力的主干网络、基于注意力的多尺度特征层和自适应特征提取与融合网络和解耦头网络;
所述的基于注意力的主干网络包括在原YOLOX网络的主干网络的基础上,在主干网络后三层的输出位置增加ECA通道注意力机制;
所述的基于注意力的多尺度特征层和自适应特征提取与融合网络包括在原YOLOX网络的特征提取与融合网络的基础上,在PANet特征提取网络的Fpn层-2的输出位置、三个pan层的输出位置分别增加ECA通道注意力机制,并且以PANet特征提取网络的注意力模块输出的20×20、40×40和80×80的不同尺度的特征图为输入,进行加权融合运算后所计算出来的结果以20×20、40×40和80×80的尺度为输出,分别进入各自的解耦头网络;
在基于注意力的主干网络部分,输入的工业图片分别经过五次尺寸减半和通道扩大两倍的卷积操作,对工业图片完成初步的特征提取与融合,最后将主干网络部分的第三次、第四次和第五次的工业图片特征信息作为输出;在基于注意力的多尺度特征层和自适应特征提取与融合网络中,主干网络的三层输出的图片特征信息分别作为输入部分,将输入部分分别和多尺度特征层的特征提取自下而上和自上而下结构做叠加融合,完成图片特征信息的深层次自适应特征提取与融合并输出;在解耦头网络中,图片最终的特征信息在此处进行矩阵计算,最终获得图片的检测框坐标、置信度和类别;网络针对获取到的图片信息进行后处理,将检测框坐标、置信度和类别信息绘制到原始图片,将绘制后的处理图片进行输出。
进一步地,所述的加权融合运算通过自适应空间特征融合模块完成,运算方法为:
Figure BDA0003921267110000031
分别代表从PANet特征提取层的三层注意力机制eca1、eca2、eca3的特征信息;
将以上特征信息与权重参数
Figure BDA0003921267110000032
进行相乘,调整为相同大小的特征图后相加,得到融合层
Figure BDA0003921267110000033
Figure BDA0003921267110000034
为该层最终的输出,公式为:
Figure BDA0003921267110000035
Figure BDA0003921267110000036
Figure BDA0003921267110000037
Figure BDA0003921267110000038
公式(1)中
Figure BDA0003921267110000039
分别为α、β、γ在位置(i,j)的通道中共享的权重参数,公式(2)和公式(3)中的
Figure BDA00039212671100000310
是通过softmax函数定义为和为1并且范围属于[0,1]的权重参数,公式(4)是权重参数
Figure BDA00039212671100000311
Figure BDA00039212671100000312
的计算方法,其中
Figure BDA00039212671100000313
是通过卷积在Xeca1→level、Xeca2→level、Xeca3→level计算所得,θ是权重参数α、β、γ的集合,
Figure BDA00039212671100000314
是计算的权重参数名
Figure BDA00039212671100000315
的统称。
进一步地,删除原YOLOX网络中瓶颈结构的第一个1×1卷积后的SiLU激活函数保留一个归一化函数,删除原YOLOX网络中瓶颈结构的第二个3×3卷积后的归一化函数保留一个SiLU激活函数。
一种计算机可读介质其上存储有计算机程序用于执行如上所述的方法。
发明有益效果:
1、本发明通过对特征提取网络部分进行了优化改进,通过在合理位置加入了注意力机制和自适应特征融合,使特征提取网络具有很强的对象聚焦性。
2、本发明的自适应空间特征融合解决了多尺度特征之间的不一致问题,使网络能够直接学习如何在其他级别对特征进行空间滤波,从而仅保留有用的信息以进行组合。如图6所示,本发明特征提取层通过保留从注意力模块中输出的三种不同尺度的特征图,自适应空间特征融合机制将这三种特征图尺度分别为20×20、40×40和80×80的不同尺度的特征图信息进行加权求和,计算出相应的权重,丰富多尺度信息,达到一个空间注意力的效果。本发明在PANet特征提取网络结束位置引入自适应空间特征融合模块,对于网络而言,实现简单,即插即用,附加计算成本适合,没有引入额外的推理开销,明显提升实验结果。
3、本发明通过删除原YOLOX网络中瓶颈结构的第一个1×1卷积后的SiLU激活函数、第二个3×3卷积后的归一化函数,使网络计算量减少,加快了模型的收敛速度。
4、通过与其他主流模型的对比实验证明,本发明模型在检测工业瑕疵时的效果显著,体现了模型整体的有效性;通过广泛的对比与消融实验证明,改进后的模型检测效果在VOC数据集和公开工业数据集中有所提升,验证了各模块的有效性和泛化能力。
附图说明
图1为原YOLOX网络结构图;
图2为本发明网络模型的结构图;
图3为原YOLOX网络的PANet结构图;
图4为本发明的PANet结构图;
图5为ECA通道注意力机制结构图;
图6为本发明的空间特征融合模块结构图;
图7为瓶颈结构设计结构改进对比图,其中图7a为原始YOLOX网络的瓶颈结构图,图7b为本发明的瓶颈结构图;
图8为NRSD检测结果图,其中图8a为数据集真实标签,图8b为原始YOLOX网络预测标签,图8c为本发明的模型预测标签;
图9为PCB检测结果图,其中图9a为数据集真实标签,图9b为原始YOLOX网络预测标签,图9c为本文的模型预测标签;
图10为NEU-DET检测结果图,其中图10a为数据集真实标签,图10b为原始YOLOX网络预测标签,图10c为本文的模型预测标签。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
名词解释:mAP的意思是平均准确率,是一种目标检测领域评价模型准确率的标准;
mAP@0.5:0.95:0.5代表起始交并比阈值,0.95是结束交并比阈值,也就是将在0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9和0.95的范围内对所有类别依次进行计算准确率平均值后求和再计算整个区间准确率平均值;
mAP@0.5:在交并比阈值为0.5时对所有类别进行准确率计算后计算平均值;
FPS:每秒传输帧率;
ASFF:自适应空间特征融合。
基于改进YOLOX模型的工业瑕疵检测方法的操作如下,通过工业深度相机对流水线的工业产品进行拍照,所拍摄的高分辨率工业图片经过640×640尺寸切割后预处理为标准图片,再对每一张标准图片的每个像素进行归一化后作为输入信息传入基于改进YOLOX模型的工业瑕疵检测网络;在基于注意力的主干网络部分,输入的工业图片分别经过五次尺寸减半和通道扩大两倍的卷积操作,对工业图片完成初步的特征提取与融合,最后将主干网络部分的第三次、第四次和第五次的工业图片特征信息作为输出;在基于注意力的多尺度特征层和自适应特征提取与融合网络中,主干网络的三层输出的图片特征信息分别作为输入部分,将输入部分分别和多尺度特征层的特征提取自下而上和自上而下结构做叠加融合,完成图片特征信息的深层次自适应特征提取与融合并输出;在解耦头网络中,图片最终的特征信息在此处进行矩阵计算,最终获得图片的检测框坐标、置信度和类别,网络针对获取到的图片信息进行后处理,将检测框坐标、置信度和类别信息绘制到原始图片,将绘制后的处理图片进行输出。
现有技术中,YOLOX有6种不同型号分别是YOLOX-nano、YOLOX-tiny、YOLOX-s、YOLOX-m、YOLOX-l和YOLOX-x。现有技术中“YOLOv4:Optimal Speed and Accuracy ofObject Detection”、“Spatial pyramid pooling in deep convolutional networks forvisual recognition”两篇论文公开了,YOLOX使用CSP-Darknet和SPP作为主干网络结构,现有技术中“Path aggregation network for instance segmentation”公开了PANet作为Neck部分网络,Head部分采用与前代YOLO系列不同的解耦结构。
本发明选用的基准目标检测器为YOLOX,该检测器在总体结构和每个子结构做到速度和精度之间取得良好的平衡,并且在训练时的收敛性更优秀。
如图1所示,YOLOX的原网络结构分为主干网络、特征提取与融合网络和解耦头网络。本发明改进了原始的YOLOX整体结构,改进后的网络结构分为主干网络、基于注意力的特征提取网络、检测网络。
如图3所示,原YOLOX网络的PANet结构仅含有基础卷积、上采样、合并函数和CSP层。
如图4所示,在现有技术的YOLOX网络的主干网络的后三层的输出位置、PANet网络所有CSP层后输出位置分别增加ECA通道注意力机制。
实施例1
如图2所示,基于改进YOLOX模型的工业瑕疵检测网络,基于YOLOX网络,包括基于注意力的主干网络、基于注意力的多尺度特征层和自适应特征提取与融合网络、解耦头网络;
所述的基于注意力的主干网络包括在原YOLOX网络的主干网络的基础上,在主干网络后三层的输出位置增加ECA通道注意力机制;
所述的基于注意力的多尺度特征层和自适应特征提取与融合网络包括在原YOLOX网络的特征提取与融合网络的基础上,在PANet特征提取网络的Fpn层-2的输出位置、三个pan层的输出位置分别增加ECA通道注意力机制,并且以PANet特征提取网络的注意力模块输出的20×20、40×40和80×80的不同尺度的特征图为输入,进行加权融合运算后所计算出来的结果以20×20、40×40和80×80的尺度为输出,分别进入各自的解耦头网络;
如图2所示,为了能更好地对工业瑕疵进行重点聚焦,在现有技术的YOLOX网络的主干网络的后三层的输出位置、Fpn层-2的输出位置、三个pan层的输出位置分别增加ECA通道注意力机制,通过增加ECA通道注意力机制,改变了部分特征提取和融合后的输出位置,提升模型各个结构之间的融合性。使用ECA通道注意力机制对于本发明的模型来说不会增加太多的参数,同时它将不同特征图的相关程度赋予加权系数,从而做到强化重点特征的作用。本发明在PANet特征提取网络后增加了自适应空间特征融合,它将特征提取网络后三层的三个尺度特征信息输出进行加权求和,提升特征尺度的不变性。
如图5所示,ECA通道注意力机制是一种简单的、有效的、即插即用的注意力机制,是一个轻量级注意力模块,在使用过程中避免使用降维措施,利用一维卷积高效实现了局部跨通道交互,提取通道间的依赖关系,避免增加网络额外参数,强化上一层传入的重点特征。为了使网络每次都能学到所需要的特征,本发明在改进的模型中加入了ECA注意力模块。CSP层可以增强整体网络学习特征的能力,在进行完特征提取后传入ECA注意力机制。ECA首先将传入的特征图进行平均池化操作,再使用卷积核为3的一维卷积操作并经过Sigmoid激活函数得到各个通道的权重。最后通过一个基础卷积作为网络学习的过度,将结果输出到后续的基础卷积块或是单独输出。通过ECA注意力模块的加入,对整体模型可以更好的定位和强化感兴趣的区域。
所述的加权融合运算通过经过自适应空间特征融合模块完成,运算方法为:
Figure BDA0003921267110000081
分别代表从PANet的三层注意力机制eca1、eca2、eca3的特征信息,我们将以上特征信息与权重参数
Figure BDA0003921267110000082
Figure BDA0003921267110000083
进行相乘,调整为相同大小的特征图后相加,得到融合层
Figure BDA0003921267110000084
Figure BDA0003921267110000085
为该层最终的输出,公式为:
Figure BDA0003921267110000086
Figure BDA0003921267110000087
Figure BDA0003921267110000088
Figure BDA0003921267110000089
公式(1)中
Figure BDA00039212671100000810
分别为α、β、γ在位置(i,j)的通道中共享的标量,公式(2)和公式(3)中的
Figure BDA00039212671100000811
是通过softmax函数定义为和为1并且范围属于[0,1]的参数,公式(4)是权重参数
Figure BDA00039212671100000812
Figure BDA00039212671100000813
的计算方法,其中
Figure BDA00039212671100000814
是通过卷积在Xeca1→level、Xeca2→level、Xeca3→level计算所得,θ是权重参数α、β、γ的集合,
Figure BDA00039212671100000815
是计算的权重参数名
Figure BDA00039212671100000816
的统称。
注意力模块输出的20×20、40×40和80×80的不同尺度的特征图为输入,经过自适应空间特征融合模块进行加权融合运算后所计算出来的结果以20×20、40×40和80×80的尺度为输出,分别进入各自的解耦头层。
自适应空间特征融合提出原因是解决多尺度特征之间的不一致问题,使网络能够直接学习如何在其他级别对特征进行空间滤波,从而仅保留有用的信息以进行组合。如图6所示,本发明特征提取层通过保留从注意力模块中输出的三种不同尺度的特征图,自适应空间特征融合机制将这三种特征图尺度分别为20×20、40×40和80×80的不同尺度的特征图信息进行加权求和,计算出相应的权重,丰富多尺度信息,达到一个空间注意力的效果。本发明在PANet结束位置引入自适应空间特征融合模块,对于网络而言,实现简单,即插即用,附加计算成本适合,没有引入额外的推理开销,明显提升实验结果。
实施例二
与实施例一的区别在于,原YOLOX网络中的瓶颈结构的结构是第一个1×1卷积后使用了一个归一化函数和一个SiLU激活函数,在第二个3×3卷积后使用了一个归一化函数和一个SiLU激活函数。本实施例删除原YOLOX网络中瓶颈结构的第一个1×1卷积后的SiLU激活函数保留一个归一化函数,删除原YOLOX网络中瓶颈结构的第二个3×3卷积后的归一化函数保留一个SiLU激活函数,如图7所示。
实施例三
一种实现如实施例1、2所述方法的计算机可读介质。
本发明使用3个公开工业数据集来评估本发明的模型,并报告了在检测实验中每一个数据集的mAP@0.5、mAP@0.5:0.95和FPS。
本实验中使用了以下公开数据集:NRSD数据集、PCB检测数据集和NEU-DET检测数据集,NRSD数据集、PCB检测数据集和NEU-DET检测数据集分别在“MCnet:multiple contextinformation segmentation network of No-service rail surface defects”、“A PCBdataset for defects detection and classification”、“A noise robust methodbased on completed local binary patterns for hot-rolled steel strip surfacedefects”中公开。其中,NRSD数据集有1类共计4101张图片,图片尺寸在600到800像素范围内不等。实验中将其划分为2971张训练集,1130张验证集;PCB检测数据集有6类共计693张图片,图片尺寸均在1000像素以上。实验中将其划分为554张训练集,139张验证集;NEU-DET检测数据集有6类1800张图片,图片尺寸为200×200像素。实验中将其划分为1620张训练集,180张验证集。
早期的工业数据集存在种类较少、特征不明显图像、分辨率低、识别精度较差等问题,因此此类数据集无法满足当前检测任务的要求。为了检测复杂或多种缺陷情况,不仅限于检测缺陷的目标框。本发明在现有公开的NRSD数据集上,为实验额外标注了检测所需的标注文件。
数据处理:
数据增强是数据处理中的关键一环,通过对图片数据样式上多样性处理可以保证数据种类的丰富性,扩充数据量大小。在训练开始阶段,本发明对图片进行随机切割、缩放、翻转等基础增强操作,还对图片进行Mosaic和MixUp处理,使数据集样式更加丰富,其中Mosaic和MixUp处理分别在“YOLOv4:Optimal Speed and Accuracy of ObjectDetection”、“mixup:Beyond empirical risk minimization”中公开。
实验设置:
本发明的实验环境是Ubuntu 18.04、Python 3.8、Pytorch 1.8、CUDA11,所有模型训练和测试都是使用同一张显存为12GB的NVIDIA RTX 3060。
在训练之前,为了尽可能保留模型学习特征后有更好的效果,本发明的训练设置如下:输入的图像尺寸大小为416×416或640×640;模型训练周期为200次,前5次使用warmup;优化器选择为随机梯度下降法;学习率=lr×batch size/64,使用初始0.01的学习率和余弦退火方法。为了防止训练时显存溢出,每次批处理大小设置为8,网络未使用预训练权重。在进行NRSD检测数据集训练时,实验采用全程开启Mosaic和Mixup数据增强;在PCB和NEU-DET检测数据集训练时,实验采用后25个训练周期关闭Mosaic和Mixup数据增强。
在训练结束后,为了验证训练后对比实验与消融实验的效果,对比实验均与YOLOv3-tiny、YOLOv5-s和YOLOX-tiny和YOLOX-s比较,消融实验均进行独立的模块对比,以确保实验的严谨性。
模型的评估指标:
对于模型评估指标,常用的是precision、recall和mAP。
precision、recall和mAP公式如下:
Figure BDA0003921267110000111
Figure BDA0003921267110000112
Figure BDA0003921267110000113
其中,precision代表精度;recall代表召回率。TP代表被模型预测为正类的正样本;FP代表被模型预测为正类的负样本;FN代表被模型预测为负类的正样本。精度是模型对正样本预测准确率;召回率是计算模型正确识别的工业瑕疵占所有该类型图片的比例。mAP是分别计算范围内精度和召回率的面积的平均值。
实验结果及分析:
在本发明的研究中,设计了1组对比实验和4组消融实验,并以mAP@0.5:0.95、mAP@0.5和FPS作为评价标准。检测器以原版YOLOX为基线。在目标检测实验中,使用YOLOX的tiny和s模型作为基本模型,与YOLOv3-tiny和YOLOv5-s模型进行对比。在对比实验中,(a)代表图片的真实标签;(b)代表原始YOLOX网络的预测标签;(c)代表本发明模型的预测标签。在消融实验中,本实验使用A代表ECA注意力机制;使用B代表自适应空间特征融合;使用C代表改进型瓶颈结构。
对比实验结果及分析
如表1所示,本发明模型在所选数据集中均得到了较好的效果。在NRSD数据集中的得分为61.06,高于基线模型最高分57.74,高于YOLOv5-s的最高分52.10,远超YOLOv3-tiny的最高分46.29。在PCB数据集中,本发明的模型得分为了51.58,高于基线模型最高分49.72,高于YOLOv5-s最高分45.19,高于YOLOv3-tiny最高分42.48;在NEU-DET数据集中,本发明模型得分为49.08,高于基线模型最高分47.61,远高于YOLOv5-s和YOLOv3-tiny最高分。
表1工业瑕疵数据集上的检测对比实验结果
Figure BDA0003921267110000121
本发明模型在NRSD数据集在不同亮度场景结果图片如图8所示。可以看出,如图8b中的第一、二、三幅照片所示,原始YOLOX网络模型在第一张、第二张图片中存在检测不全现象,在第三张图片存在多检现象。如图8c所示,图8c的第一、三张图片中,本发明的模型检测准确;在图8c的第二张图片中,本发明的模型出现了多检测框现象,但本发明模型在使用比原始YOLOX网络模型准确检测框的情况下将缺陷检测完全,综上所述,本发明模型在不同亮度场景中总体检测效果合适,达到检测预期。
如图9所示,检查PCB数据集上实验结果时发现,本发明模型和原始YOLOX网络模型都存在漏检现象。如图9c的第一、三张图片中,本发明的模型检测准确,如图9c的第二张图片所示,本发明模型也存在漏检现象,但总体漏检的数量少于原始YOLOX网络的数量。
在NEU-DET数据集实验结果如图10所示,在检查预测后结果时发现,如图10b的第一、二、三张图片所示,原始YOLOX网络在单图片进行一种类型预测时,第一张图片存在漏检现象,第二张图片存在多检现象,第三张存在检测不全现象。如图10b的第四张图片所示,原始YOLOX网络在单图片进行多种类型预测时,第四张图片存在漏检现象。如图10c所示,第二、三张图片中,本发明的模型检测准确,本发明模型在第一张和第四张预测时,虽然不存在漏检、多检和检测不全现象,但存在较小的误差。总体来说,本发明的模型在改进后有较为不错的表现。
为了验证本发明模型的每一个模块的有效性,首先在经典的VOC数据集上做了消融实验。如表2所示,实验使用YOLOX-tiny作为基线模型,将输入尺寸设置为416×416,其他训练设置与基本设置一致,模型在逐一添加模块的mAP和FPS结果。在YOLOX-tiny分别在FPN和PAN不同位置上分别加入注意力机制,最终发现在整个特征提取网络都加入注意力机制的效果比仅在FPN的提升0.11%。在特征提取网络后加入ASFF网络相比于原网络提升0.81%。同时加入注意力机制和ASFF网络相比于基准网络提升1.56%。因此,本发明网络选择在整体特征提取网络加入注意力机制和ASFF网络的模型作为实验模型。
表2 VOC公开数据集消融实验结果
网络名称 mAP@0.5:0.95(%) mAP@0.5(%) FPS
原始YOLOX网络 35.85 59.49 340
+A(FPN) 36.62 60.45 320
+A(FPN+PAN) 36.73 60.10 328
+B 36.66 60.84 288
+A(FPN)+B 37.10 60.93 289
+A(FPN+PAN)+B 37.41 61.06 298
本发明选用的模块分别在NRSD数据集、PCB数据集和NEU-DET数据集上做消融实验验证。将YOLOX-s作为基线模型,将输入尺寸统一设置为640×640。通过YOLOX-tiny在VOC公开数据集上的测试,比较有效的实验方法提取出来并将其添加在本发明的基线模型中。
表3为逐一添加模块的mAP和FPS结果,从表3可以看出本发明所提模型的每个部分对所有指标的结果性能的影响。实验在NRSD数据集中单独使用ECA注意力机制后比基线模型提升了0.98%;单独使用自适应空间特征融合后比基线模型提升了1.40%;单独使用修改后的瓶颈结构后比基线模型提升了0.52%。将所有模块全部加入到基线模型中,比基线模型提升了2.79%。可以看出,本发明加入的模块在NRSD这种单一瑕疵种类数据集上的结果在与基线的比较中提升较多,尽管FPS在较小损失范围内,但最终本发明的模型速度和准确率达到了一个比较好的平衡。
表3 NRSD数据集下的消融实验结果
网络名称 NRSD mAP@0.5:0.95(%) NRSD mAP@0.5(%) FPS
原始YOLOX网络 58.27 81.89 144
+A 59.25 83.92 142
+B 59.67 83.55 124
+C 58.79 83.29 151
+A+B+C 61.06 85.00 125
PCB数据集下的消融实验结果如表4所示,以原始YOLOX网络为基线模型,逐一添加模块的mAP和FPS结果。单独使用ECA注意力机制后比基线模型提升了0.72%;单独使用自适应空间特征融合后比基线模型提升了1.55%;单独使用修改后的瓶颈结构后比基线模型提升了1.30%。将所有模块全部加入到基线模型中,比基线模型提升了1.86%。可以看出,本发明加入的模块在PCB这种多瑕疵种类的高分辨率数据集上的结果在基线上有明显提升,FPS也在合理损失范围内。
表4 PCB数据集下的消融实验结果
Figure BDA0003921267110000141
Figure BDA0003921267110000151
NEU-DET数据集下的消融实验结果,如表5所示,以原始YOLOX网络为基线模型,逐一添加模块的mAP和FPS结果。在单独使用ECA注意力机制后比基线模型提升了0.87%;单独使用自适应空间特征融合后比基线模型提升了0.57%;单独使用修改后的瓶颈结构后比基线模型提升了0.92%。将所有模块全部加入到基线模型中,比基线模型提升了1.47%。
表5 NEU-DET数据集下的消融实验结果
Figure BDA0003921267110000152
为了满足缺陷检测的需求,本发明对数量较少的工业数据集进行多种数据增强以保证数据的多样性,基于Z.Ge,S.Liu,F.Wang,Z.Li and J.Sun等人发表的“Yolox:Exceeding yolo series in 2021”中的YOLOX模型提出了一种改进型工业瑕疵检测器,将注意力机制和自适应空间特征融合加入到特征提取网络,对于主干网络中的瓶颈结构减少了激活函数和归一化操作,满足对多复杂场景工业瑕疵识别定位需求,提升检测器的精度。所提方法在NRSD数据集中检测mAP@0.5:0.95为61.06%,相较于原始YOLOX网络提升了2.79%,相较于YOLOv5-s在检测中提升了8.96%;在PCB数据集中检测mAP@0.5:0.95为51.58%,相较于原始YOLOX网络提升了1.86%,相较于YOLOv5-s在检测中提升了6.39%;在NEU-DET数据集中检测mAP@0.5:0.95为49.08%,相较于原始YOLOX网络提升了1.47%,相较于YOLOv5-s在检测中提升了11.61%。
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (4)

1.基于改进YOLOX模型的工业瑕疵检测方法,其特征在于,包括通过工业深度相机对流水线的工业产品进行拍照,所拍摄的高分辨率工业图片经过标准尺寸切割后预处理为标准图片,再对每一张标准图片的每个像素进行归一化后作为输入信息传入基于改进YOLOX模型的工业瑕疵检测网络;
基于改进YOLOX模型的工业瑕疵检测网络,包括基于注意力的主干网络、基于注意力的多尺度特征层和自适应特征提取与融合网络和解耦头网络;
所述的基于注意力的主干网络包括在原YOLOX网络的主干网络的基础上,在主干网络后三层的输出位置增加ECA通道注意力机制;
所述的基于注意力的多尺度特征层和自适应特征提取与融合网络包括在原YOLOX网络的特征提取与融合网络的基础上,在PANet特征提取网络的Fpn层-2的输出位置、三个pan层的输出位置分别增加ECA通道注意力机制,并且以PANet特征提取网络的注意力模块输出的20×20、40×40和80×80的不同尺度的特征图为输入,进行加权融合运算后所计算出来的结果以20×20、40×40和80×80的尺度为输出,分别进入各自的解耦头网络;
在基于注意力的主干网络部分,输入的工业图片分别经过五次尺寸减半和通道扩大两倍的卷积操作,对工业图片完成初步的特征提取与融合,最后将主干网络部分的第三次、第四次和第五次的工业图片特征信息作为输出;在基于注意力的多尺度特征层和自适应特征提取与融合网络中,主干网络的三层输出的图片特征信息分别作为输入部分,将输入部分分别和多尺度特征层的特征提取自下而上和自上而下结构做叠加融合,完成图片特征信息的深层次自适应特征提取与融合并输出;在解耦头网络中,图片最终的特征信息在此处进行矩阵计算,最终获得图片的检测框坐标、置信度和类别;网络针对获取到的图片信息进行后处理,将检测框坐标、置信度和类别信息绘制到原始图片,将绘制后的处理图片进行输出。
2.如权利要求1所述的基于改进YOLOX模型的工业瑕疵检测方法,其特征在于,删除原YOLOX网络中瓶颈结构的第一个1×1卷积后的SiLU激活函数保留一个归一化函数,删除原YOLOX网络中瓶颈结构的第二个3×3卷积后的归一化函数保留一个SiLU激活函数。
3.如权利要求1或2所述的基于改进YOLOX模型的工业瑕疵检测方法,其特征在于,所述的加权融合运算通过自适应空间特征融合模块完成,运算方法为:
Figure FDA0003921267100000021
分别代表从PANet特征提取层的三层注意力机制eca1、eca2、eca3的特征信息;
将以上特征信息与权重参数
Figure FDA0003921267100000022
进行相乘,调整为相同大小的特征图后相加,得到融合层
Figure FDA0003921267100000023
为该层最终的输出,公式为:
Figure FDA0003921267100000024
Figure FDA0003921267100000025
Figure FDA0003921267100000026
Figure FDA0003921267100000027
公式(1)中
Figure FDA0003921267100000028
分别为α、β、γ在位置(i,j)的通道中共享的权重参数,公式(2)和公式(3)中的
Figure FDA0003921267100000029
是通过softmax函数定义为和为1并且范围属于[0,1]的权重参数,公式(4)是权重参数
Figure FDA00039212671000000210
Figure FDA00039212671000000211
的计算方法,其中
Figure FDA00039212671000000212
是通过卷积在Xeca1→level、Xeca2→level、Xeca3→level计算所得,θ是权重参数α、β、γ的集合,
Figure FDA00039212671000000213
是计算的权重参数名
Figure FDA00039212671000000214
的统称。
4.一种计算机可读介质,其特征在于,其上存储有计算机程序用于执行如权利要求1-3任意一项所述的方法。
CN202211358411.9A 2022-11-01 2022-11-01 基于改进yolox模型的工业瑕疵检测方法 Pending CN115661094A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211358411.9A CN115661094A (zh) 2022-11-01 2022-11-01 基于改进yolox模型的工业瑕疵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211358411.9A CN115661094A (zh) 2022-11-01 2022-11-01 基于改进yolox模型的工业瑕疵检测方法

Publications (1)

Publication Number Publication Date
CN115661094A true CN115661094A (zh) 2023-01-31

Family

ID=84994424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211358411.9A Pending CN115661094A (zh) 2022-11-01 2022-11-01 基于改进yolox模型的工业瑕疵检测方法

Country Status (1)

Country Link
CN (1) CN115661094A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710377A (zh) * 2024-02-06 2024-03-15 中国科学院长春光学精密机械与物理研究所 一种基于深度学习算法的cmos的缺陷检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117710377A (zh) * 2024-02-06 2024-03-15 中国科学院长春光学精密机械与物理研究所 一种基于深度学习算法的cmos的缺陷检测方法
CN117710377B (zh) * 2024-02-06 2024-05-24 中国科学院长春光学精密机械与物理研究所 一种基于深度学习算法的cmos的缺陷检测方法

Similar Documents

Publication Publication Date Title
CN108428227B (zh) 基于全卷积神经网络的无参考图像质量评价方法
CN111310862A (zh) 复杂环境下基于图像增强的深度神经网络车牌定位方法
CN111325713A (zh) 基于神经网络的木材缺陷检测方法、系统及存储介质
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN110378232B (zh) 改进的ssd双网络的考场考生位置快速检测方法
CN111914917A (zh) 一种基于特征金字塔网络和注意力机制的目标检测改进算法
CN114240821A (zh) 一种基于改进型yolox的焊缝缺陷检测方法
CN104977313A (zh) 一种焊缝x射线图像缺陷检测与识别方法和装置
CN112200045A (zh) 基于上下文增强的遥感图像目标检测模型建立方法及应用
CN112132196B (zh) 一种结合深度学习和图像处理的烟盒缺陷识别方法
CN110647802A (zh) 基于深度学习的遥感影像舰船目标检测方法
CN110020658B (zh) 一种基于多任务深度学习的显著目标检测方法
CN112819748B (zh) 一种带钢表面缺陷识别模型的训练方法及装置
CN106355579A (zh) 烟条表面褶皱的缺陷检测方法
CN111539456B (zh) 一种目标识别方法及设备
CN113379686A (zh) 一种pcb板缺陷检测方法及装置
CN114781514A (zh) 一种融合注意力机制的漂浮物目标检测方法及系统
CN115661094A (zh) 基于改进yolox模型的工业瑕疵检测方法
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN114926826A (zh) 场景文本检测系统
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
CN114596244A (zh) 基于视觉处理和多特征融合的红外图像识别方法及系统
CN116485766A (zh) 一种基于改进yolox的粮食不完善粒检测和计数方法
CN110084777A (zh) 一种基于深度学习的微小零件定位跟踪方法
CN114677670A (zh) 一种身份证篡改自动识别与定位的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination