CN116580393A

CN116580393A - 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置

Info

Publication number: CN116580393A
Application number: CN202310553842.9A
Authority: CN
Inventors: 燕并男; 李嘉欣; 王聪慧; 张鑫鹏; 孙会珠
Original assignee: Xian Shiyou University
Current assignee: Xian Shiyou University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-11

Abstract

本发明公开了基于改进YOLOv5的钢中非金属夹杂物识别方法及装置，该方法包括：将原始金相图像输入至YOLOv5网络检测模型，以通过骨干网络进行特征提取得到不同尺度特征图；输入至CEM上下文增强模块进行上下文信息提取及融合以得到上下文增强特征图；将上下文增强特征图输入至PANet网络以双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图；将原始金相图像通过多级小波变换分解后得到的高低频信息和初始融合特征图进行特征融合输出得到多路特征图，并将多路特征图输入至检测头进行小目标检测以通过非极大值抑制处理后得到小目标检测结果。本发明解决了金相图像中非金属夹杂物尺寸小，特征提取过程中存在信息丢失而造成的漏检、误检问题。

Description

基于改进YOLOv5的钢中非金属夹杂物识别方法及装置

技术领域

本发明涉及钢微结构计算机图像处理技术领域，特别是涉及基于改进YOLOv5的钢中非金属夹杂物识别方法及装置。

背景技术

非金属夹杂物检测旨在判断金相图像中夹杂物的类别，准确检测工业钢中的微小非金属夹杂物，对于后续缺陷的定性和定量分析极为重要。目前，金属材料非金属夹杂物的检测方法主要分为传统检测方法和基于深度学习的检测方法。传统检测方法，如金相分析、电解分析等，存在检测人员专业依赖程度极高，检测成本高、工作量大、检测时间长、对比差和不具有代表性等缺点，难以满足材料工作人员在考察与改善材料性能过程中对材料检测精度和检测效率的需要。

基于深度学习的目标检测算法具有高效检测与自动化检测的潜力，可以完成对目标的识别与定位。其中YOLOv5模型权衡了速度与检测精度，有着计算开销小、精度高和易部署的优异性能，可满足大多数工业场景的检测需求。然而，相较于常规尺寸目标，微小非金属夹杂物属于小目标检测范畴，其具有携带信息少、容易受背景干扰等特点。现有YOLOv5在设计时只考虑通用性，在特征提取过程中容易造成信息丢失，难以满足工业钢中非金属夹杂物的检测任务。因此，有必要提出改进的YOLOv5目标检测算法，弥补已有算法在小目标检测上的缺陷，依次提升工业钢中非金属夹杂物的检测精度。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明提出一种基于改进YOLOv5的钢中非金属夹杂物识别方法。主要解决金相图像中非金属夹杂物尺寸小，特征提取过程中存在信息丢失而造成的漏检、误检问题。

本发明的另一个目的在于提出一种基于改进YOLOv5的钢中非金属夹杂物识别装置。

为达上述目的，本发明一方面提出一种基于改进YOLOv5的钢中非金属夹杂物识别方法，包括：

将原始金相图像输入至YOLOv5网络检测模型，以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图；其中，所述不同尺度特征图，包括浅层特征图和深层特征图；

将所述不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图；

将所述上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图；

利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图，并将所述多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果；其中，所述小目标识别结果，包括原始金相图像的钢中非金属夹杂物的识别结果。

另外，根据本发明上述实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法还可以具有以下附加的技术特征：

进一步地，所述最高层级特征图，包括通过骨干网络对所述原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图；所述CEM上下文增强模块的计算公式为：

其中，表示卷积核大小为1×1的标准卷积操作，/>表示卷积核大小为5的深度卷积操作，/>表示扩张率为3、卷积核大小为7的深度扩张卷积，/>表示特征图按位相乘操作，Cat表示特征图拼接操作；F表示输入的特征图，W₁表示输出感受野大小为21×21的特征图，W₂、W₃及W₄表示输出感受野大小分别为5×5、9×9、13×13的特征图，Y表示上下文增强后的新特征图。

进一步地，所述利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图，包括：

利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图；

将所述不同分辨率特征图拼接后与所述初始融合特征图进行拼接融合得到所述多路特征图。

进一步地，所述多级分解操作的每一级分解操作，包括：

利用预设参数和步幅的Haar小波滤波器(f_LL、f_LH、f_HL、f_HH)对所述原始金相图像进行分解，得到x_LL、x_LH、x_HL、x_HH四个子带图像；其中，所述四个子带图像，依次包括分解后的低频图像、竖直细节图像、水平细节图像和对角细节图像。

进一步地，所述Haar小波滤波器为：

输入图像为x(i,j)，其中i为行，j为列，则2D DWT表示为：

为进一步强化目标的边缘信息，利用式(8)将与低频子带x_LL同级的3个高频子带x_LH、x_HL、x_HH进行显著性增强，获得增强后的综合高频子带K_HH，同级低频子带表示为K_LL，最终参与特征融合的高低频信息为K_LLi与K_HHi，其中，i＝3,4,5；

为达上述目的，本发明另一方面提出一种基于改进YOLOv5的钢中非金属夹杂物识别装置，包括：

第一特征分类模块，用于将原始金相图像输入至YOLOv5网络检测模型，以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图；其中，所述不同尺度特征图，包括浅层特征图和深层特征图；

第二特征分类模块，用于将所述不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图；

第三特征分类模块，用于将所述上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图；

目标检测识别模块，用于利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图，并将所述多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果；其中，所述小目标识别结果，包括原始金相图像的钢中非金属夹杂物的识别结果。

本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法和装置，解决了金相图像中非金属夹杂物尺寸小，特征提取过程中存在信息丢失而造成的漏检、误检问题。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法的流程图；

图2是根据本发明实施例的改进的YOLOv5网络检测模型结构图；

图3是根据本发明实施例的CEM上下文增强模块结构图；

图4是根据本发明实施例中将高低频信息和初始融合特征图进行特征融合输出得到多路特征图的流程图；

图5是根据本发明实施例基于改进YOLOv5的钢中非金属夹杂物识别装置的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面参照附图描述根据本发明实施例提出的基于改进YOLOv5的钢中非金属夹杂物识别方法和装置。

图1是本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法的流程图。

如图1所示，该方法包括但不限于以下步骤：

S1，将原始金相图像输入至YOLOv5网络检测模型，以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图；其中，不同尺度特征图，包括浅层特征图和深层特征图；

S2，将不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图；

S3，将上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图；

S4，利用第四特征分类操作将原始金相图像通过多级小波变换分解后得到的高低频信息和初始融合特征图进行特征融合输出得到多路特征图，并将多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果；其中，小目标识别结果，包括原始金相图像的钢中非金属夹杂物的识别结果。

在本发明的一些实施例中，图2为本发明的改进YOLOv5网络检测模型。如图2所示，由骨干网络、CEM、基于小波变换的PANet和检测头4部分组成。

进一步地，利用骨干网络用于从目标图像中提取特征，并从浅到深输出不同尺度的特征图。{C1,C2,C3,C4,C5}表示输入图像经过{2,4,8,16,32}次下采样后的特征图。

进一步地，在骨干网络提取的最高层级特征图(经骨干网络的C5提取到的最后一层特征图)后输入CEM上下文增强模块以获取小目标丰富的上下文信息。该模块采用多路结构横向增加网络宽度以获取图像的全局和局部信息，增强了网络对小目标特征提取的覆盖范围与敏感程度，同时利用注意力分支提升背景噪声抑制能力。

在本发明的一些实施例中，CEM上下文增强模块结构如图3所示，首先使用1×1卷积对输入通道进行降维，将通道数降为原来的二分之一以减少网络的参数量与计算量，然后将等效感受野大小为5×5、9×9、13×13和21×21的特征层与输入映射并行拼接，获得多尺度感受野输出。为进一步提升结构效率，采用串行3个5×5MaxPool的方式获得感受野大小分别为5×5、9×9、13×13的特征输出。其中，串行2个5×5的MaxPool与1个9x9的MaxPool等效，串行2个5×5的MaxPool与1个13×13的MaxPool等效。考虑采用卷积核大小为21×21的标准卷积会显著增加网络的参数量与计算量，本发明将1个21×21卷积分解为1个膨胀系数为3的7×7深度扩张卷积(DW-D-Conv)、1个5×5深度卷积(DW-Conv)和1×1标准卷积。对复杂背景下的小目标来说，使用大核卷积提取到的上下文信息会存在大量背景噪声，因此本发明引入跳跃连接分支进行element-wise相乘操作以构建注意力特征图，从而增强小目标的特征响应，抑制背景干扰。

上下文增强模块CEM计算过程可表示为：

式中：表示卷积核大小为1×1的标准卷积操作，/>表示卷积核大小为5的深度卷积操作，/>表示扩张率为3、卷积核大小为7的深度扩张卷积，/>表示特征图按位相乘操作，Cat表示特征图拼接操作；F表示输入的特征图，W₁表示输出感受野大小为21×21的特征图，W₂、W₃及W₄表示输出感受野大小分别为5×5、9×9、13×13的特征图，Y表示上下文增强后的新特征图。

在本发明的一些实施例中，图4为本发明实施例的对高低频信息和初始融合特征图进行特征融合输出得到多路特征图的子流程图，如图4所示包括：

S41，利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图；

S42，将不同分辨率特征图拼接后与初始融合特征图进行拼接融合得到多路特征图。

具体地，本发明采用2D Haar小波变换的离散小波变换将原始图像x分解成四个子带图像，获得后续参与多尺度融合的高低频信息。将上下文增强后的特征图送入PAnet结构双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图，将输入图像为金属材料的金相图像，经过第3、4、5级小波变换分解后得到的高低频信息参与PANet的特征融合，增加小目标的可视化特征，以解决原始YOLOv5特征提取后小目标特征逐渐消失的问题。

作为本发明的一个实施例，小波变换参与多尺度特征融合的具体实现为：小波变换对原图进行三级、四级以及五级分解后特征图分辨率分别为80×80、40×40和20×20与{P3,P4,P5}分辨率一致。将小波变换每一级分解的高低频信息拼接后再与{P3,P4,P5}拼接融合。每一级分解操作：采用四个参数固定、步幅为2的滤波器(f_LL、f_LH、f_HL、f_HH)对原始图像x进行分解，获得x_LL、x_LH、x_HL、x_HH四个子带图像。其中，四个子带图像分别代表分解后的低频图像、竖直细节图像、水平细节图像以及对角细节图像。Haar小波滤波器为：

输入图像为x(i,j)，其中i为行，j为列，则2D DWT可表示为：

为进一步强化目标的边缘信息，利用式(8)将与低频子带x_LL同级的3个高频子带x_LH、x_HL、x_HH进行显著性增强，获得增强后的综合高频子带K_HH。同级低频子带表示为K_LL，最终参与特征融合的高低频信息为K_LLi与K_HHi，其中，i＝3,4,5。

进一步地，基于由小波变换参与的特征融合后输出的三路特征图进行小目标检测(检测头)，并经过非极大值抑制处理后得到最终的小目标检测结果，也即是在预测过程中，利用多次迭代选择，滤除IoU值大于预设阈值的检测框。

根据本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法，通过融合具有不同尺度感受野的特征，获取小目标丰富的上下文信息，提升网络对图像中小目标的敏感性与适应性；引入跳跃连接分支在空间和通道两个方向对特征进行重标定获得注意力特征图，从而增强小目标的特征响应，抑制背景噪声干扰；针对卷积神经网络对小目标的多次下采样和池化操作导致的特征丢失问题，利用小波变换的多分辨率和多尺度分析特性，将经过小波变换分离的原始图像的高低频信息参与多尺度特征融合，增强小目标的特征表达能力，提高多尺度特征融合的效果。本发明用轻微的计算代价和参数获得了检测精度的有效提升，克服了原始YOLOv5目标检测模型在面向小目标场景检测时检测效果不佳的问题，提高了钢中非金属夹杂物检测的可靠性。

为了实现上述实施例，如图5所示，本实施例中还提供了基于改进YOLOv5的钢中非金属夹杂物识别装置10，该装置10包括，第一特征分类模块100、第二特征分类模块200、第三特征分类模块300和目标检测识别模块400。

第一特征分类模块100，用于将原始金相图像输入至YOLOv5网络检测模型，以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图；其中，不同尺度特征图，包括浅层特征图和深层特征图；

第二特征分类模块200，用于将不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图；

第三特征分类模块300，用于将上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图；

目标检测识别模块400，用于利用第四特征分类操作将原始金相图像通过多级小波变换分解后得到的高低频信息和初始融合特征图进行特征融合输出得到多路特征图，并将多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果；其中，小目标识别结果，包括原始金相图像的钢中非金属夹杂物的识别结果。

进一步地，最高层级特征图，包括通过骨干网络对原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图；CEM上下文增强模块的计算公式为：

其中，表示卷积核大小为1*1的常规卷积操作，/>表示卷积核大小为5的深度卷积操作，/>表示扩张率为3、卷积核大小为7的深度扩张卷积，/>表示特征图按位相乘操作，Cat表示特征图拼接操作，F表示输入的特征图，W₁表示输出感受野大小为21*21的特征图，W₂、W₃及W₄表示输出感受野大小分别为5*5、9*9、13*13的特征图，Y表示上下文增强后的新特征图。

进一步地，上述目标检测识别模块400，包括：

多级分解子单元，用于利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图；

特征拼接融合子单元，用于将不同分辨率特征图拼接后与初始融合特征图进行拼接融合得到多路特征图。

进一步地，上述多级分解子单元，还用于：

利用预设参数和步幅的Haar小波滤波器(f_LL、f_LH、f_HL、f_HH)对原始金相图像进行分解，得到x_LL、x_LH、x_HL、x_HH四个子带图像；其中，四个子带图像，依次包括分解后的低频图像、竖直细节图像、水平细节图像和对角细节图像。

进一步地，Haar小波滤波器为：

输入图像为x(i,j)，其中i为行，j为列，则2D Haar滤波器表示为：

利用式(8)将x_LH、x_HL、x_HH进行显著性特征增强得到增强后的综合高频子带K_HH：

根据本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别装置，通过融合具有不同尺度感受野的特征，获取小目标丰富的上下文信息，提升网络对图像中小目标的敏感性与适应性；引入跳跃连接分支在空间和通道两个方向对特征进行重标定获得注意力特征图，从而增强小目标的特征响应，抑制背景噪声干扰；针对卷积神经网络对小目标的多次下采样和池化操作导致的特征丢失问题，利用小波变换的多分辨率和多尺度分析特性，将经过小波变换分离的原始图像的高低频信息参与多尺度特征融合，增强小目标的特征表达能力，提高多尺度特征融合的效果。本发明用轻微的计算代价和参数获得了检测精度的有效提升，克服了原始YOLOv5目标检测模型在面向小目标场景检测时检测效果不佳的问题，提高了钢中非金属夹杂物检测的可靠性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

Claims

1.一种基于改进YOLOv5的钢中非金属夹杂物识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述最高层级特征图，包括通过骨干网络对所述原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图；所述CEM上下文增强模块的计算公式为：

3.根据权利要求2所述的方法，其特征在于，所述利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图，包括：

4.根据权利要求3所述的方法，其特征在于，所述多级分解操作的每一级分解操作，包括：

5.根据权利要求4所述的方法，其特征在于，所述Haar小波滤波器为：

输入图像为x(i,j)，其中i为行，j为列，则2D DWT表示为：

6.一种基于改进YOLOv5的钢中非金属夹杂物识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述最高层级特征图，包括通过骨干网络对所述原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图；所述CEM上下文增强模块的计算公式为：

8.根据权利要求7所述的装置，其特征在于，所述目标检测识别模块，包括：

特征拼接融合子单元，用于将所述不同分辨率特征图拼接后与所述初始融合特征图进行拼接融合得到所述多路特征图。

9.根据权利要求8所述的装置，其特征在于，所述多级分解子单元，还用于：

10.根据权利要求9所述的装置，其特征在于，所述Haar小波滤波器为：