CN116580393A - 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置 - Google Patents

基于改进YOLOv5的钢中非金属夹杂物识别方法及装置 Download PDF

Info

Publication number
CN116580393A
CN116580393A CN202310553842.9A CN202310553842A CN116580393A CN 116580393 A CN116580393 A CN 116580393A CN 202310553842 A CN202310553842 A CN 202310553842A CN 116580393 A CN116580393 A CN 116580393A
Authority
CN
China
Prior art keywords
feature
image
feature map
images
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310553842.9A
Other languages
English (en)
Inventor
燕并男
李嘉欣
王聪慧
张鑫鹏
孙会珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Shiyou University
Original Assignee
Xian Shiyou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Shiyou University filed Critical Xian Shiyou University
Priority to CN202310553842.9A priority Critical patent/CN116580393A/zh
Publication of CN116580393A publication Critical patent/CN116580393A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进YOLOv5的钢中非金属夹杂物识别方法及装置,该方法包括:将原始金相图像输入至YOLOv5网络检测模型,以通过骨干网络进行特征提取得到不同尺度特征图;输入至CEM上下文增强模块进行上下文信息提取及融合以得到上下文增强特征图;将上下文增强特征图输入至PANet网络以双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;将原始金相图像通过多级小波变换分解后得到的高低频信息和初始融合特征图进行特征融合输出得到多路特征图,并将多路特征图输入至检测头进行小目标检测以通过非极大值抑制处理后得到小目标检测结果。本发明解决了金相图像中非金属夹杂物尺寸小,特征提取过程中存在信息丢失而造成的漏检、误检问题。

Description

基于改进YOLOv5的钢中非金属夹杂物识别方法及装置
技术领域
本发明涉及钢微结构计算机图像处理技术领域,特别是涉及基于改进YOLOv5的钢中非金属夹杂物识别方法及装置。
背景技术
非金属夹杂物检测旨在判断金相图像中夹杂物的类别,准确检测工业钢中的微小非金属夹杂物,对于后续缺陷的定性和定量分析极为重要。目前,金属材料非金属夹杂物的检测方法主要分为传统检测方法和基于深度学习的检测方法。传统检测方法,如金相分析、电解分析等,存在检测人员专业依赖程度极高,检测成本高、工作量大、检测时间长、对比差和不具有代表性等缺点,难以满足材料工作人员在考察与改善材料性能过程中对材料检测精度和检测效率的需要。
基于深度学习的目标检测算法具有高效检测与自动化检测的潜力,可以完成对目标的识别与定位。其中YOLOv5模型权衡了速度与检测精度,有着计算开销小、精度高和易部署的优异性能,可满足大多数工业场景的检测需求。然而,相较于常规尺寸目标,微小非金属夹杂物属于小目标检测范畴,其具有携带信息少、容易受背景干扰等特点。现有YOLOv5在设计时只考虑通用性,在特征提取过程中容易造成信息丢失,难以满足工业钢中非金属夹杂物的检测任务。因此,有必要提出改进的YOLOv5目标检测算法,弥补已有算法在小目标检测上的缺陷,依次提升工业钢中非金属夹杂物的检测精度。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种基于改进YOLOv5的钢中非金属夹杂物识别方法。主要解决金相图像中非金属夹杂物尺寸小,特征提取过程中存在信息丢失而造成的漏检、误检问题。
本发明的另一个目的在于提出一种基于改进YOLOv5的钢中非金属夹杂物识别装置。
为达上述目的,本发明一方面提出一种基于改进YOLOv5的钢中非金属夹杂物识别方法,包括:
将原始金相图像输入至YOLOv5网络检测模型,以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图;其中,所述不同尺度特征图,包括浅层特征图和深层特征图;
将所述不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图;
将所述上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;
利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图,并将所述多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果;其中,所述小目标识别结果,包括原始金相图像的钢中非金属夹杂物的识别结果。
另外,根据本发明上述实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法还可以具有以下附加的技术特征:
进一步地,所述最高层级特征图,包括通过骨干网络对所述原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图;所述CEM上下文增强模块的计算公式为:
其中,表示卷积核大小为1×1的标准卷积操作,/>表示卷积核大小为5的深度卷积操作,/>表示扩张率为3、卷积核大小为7的深度扩张卷积,/>表示特征图按位相乘操作,Cat表示特征图拼接操作;F表示输入的特征图,W1表示输出感受野大小为21×21的特征图,W2、W3及W4表示输出感受野大小分别为5×5、9×9、13×13的特征图,Y表示上下文增强后的新特征图。
进一步地,所述利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图,包括:
利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图;
将所述不同分辨率特征图拼接后与所述初始融合特征图进行拼接融合得到所述多路特征图。
进一步地,所述多级分解操作的每一级分解操作,包括:
利用预设参数和步幅的Haar小波滤波器(fLL、fLH、fHL、fHH)对所述原始金相图像进行分解,得到xLL、xLH、xHL、xHH四个子带图像;其中,所述四个子带图像,依次包括分解后的低频图像、竖直细节图像、水平细节图像和对角细节图像。
进一步地,所述Haar小波滤波器为:
输入图像为x(i,j),其中i为行,j为列,则2D DWT表示为:
为进一步强化目标的边缘信息,利用式(8)将与低频子带xLL同级的3个高频子带xLH、xHL、xHH进行显著性增强,获得增强后的综合高频子带KHH,同级低频子带表示为KLL,最终参与特征融合的高低频信息为KLLi与KHHi,其中,i=3,4,5;
为达上述目的,本发明另一方面提出一种基于改进YOLOv5的钢中非金属夹杂物识别装置,包括:
第一特征分类模块,用于将原始金相图像输入至YOLOv5网络检测模型,以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图;其中,所述不同尺度特征图,包括浅层特征图和深层特征图;
第二特征分类模块,用于将所述不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图;
第三特征分类模块,用于将所述上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;
目标检测识别模块,用于利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图,并将所述多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果;其中,所述小目标识别结果,包括原始金相图像的钢中非金属夹杂物的识别结果。
本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法和装置,解决了金相图像中非金属夹杂物尺寸小,特征提取过程中存在信息丢失而造成的漏检、误检问题。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法的流程图;
图2是根据本发明实施例的改进的YOLOv5网络检测模型结构图;
图3是根据本发明实施例的CEM上下文增强模块结构图;
图4是根据本发明实施例中将高低频信息和初始融合特征图进行特征融合输出得到多路特征图的流程图;
图5是根据本发明实施例基于改进YOLOv5的钢中非金属夹杂物识别装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的基于改进YOLOv5的钢中非金属夹杂物识别方法和装置。
图1是本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法的流程图。
如图1所示,该方法包括但不限于以下步骤:
S1,将原始金相图像输入至YOLOv5网络检测模型,以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图;其中,不同尺度特征图,包括浅层特征图和深层特征图;
S2,将不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图;
S3,将上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;
S4,利用第四特征分类操作将原始金相图像通过多级小波变换分解后得到的高低频信息和初始融合特征图进行特征融合输出得到多路特征图,并将多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果;其中,小目标识别结果,包括原始金相图像的钢中非金属夹杂物的识别结果。
在本发明的一些实施例中,图2为本发明的改进YOLOv5网络检测模型。如图2所示,由骨干网络、CEM、基于小波变换的PANet和检测头4部分组成。
进一步地,利用骨干网络用于从目标图像中提取特征,并从浅到深输出不同尺度的特征图。{C1,C2,C3,C4,C5}表示输入图像经过{2,4,8,16,32}次下采样后的特征图。
进一步地,在骨干网络提取的最高层级特征图(经骨干网络的C5提取到的最后一层特征图)后输入CEM上下文增强模块以获取小目标丰富的上下文信息。该模块采用多路结构横向增加网络宽度以获取图像的全局和局部信息,增强了网络对小目标特征提取的覆盖范围与敏感程度,同时利用注意力分支提升背景噪声抑制能力。
在本发明的一些实施例中,CEM上下文增强模块结构如图3所示,首先使用1×1卷积对输入通道进行降维,将通道数降为原来的二分之一以减少网络的参数量与计算量,然后将等效感受野大小为5×5、9×9、13×13和21×21的特征层与输入映射并行拼接,获得多尺度感受野输出。为进一步提升结构效率,采用串行3个5×5MaxPool的方式获得感受野大小分别为5×5、9×9、13×13的特征输出。其中,串行2个5×5的MaxPool与1个9x9的MaxPool等效,串行2个5×5的MaxPool与1个13×13的MaxPool等效。考虑采用卷积核大小为21×21的标准卷积会显著增加网络的参数量与计算量,本发明将1个21×21卷积分解为1个膨胀系数为3的7×7深度扩张卷积(DW-D-Conv)、1个5×5深度卷积(DW-Conv)和1×1标准卷积。对复杂背景下的小目标来说,使用大核卷积提取到的上下文信息会存在大量背景噪声,因此本发明引入跳跃连接分支进行element-wise相乘操作以构建注意力特征图,从而增强小目标的特征响应,抑制背景干扰。
上下文增强模块CEM计算过程可表示为:
式中:表示卷积核大小为1×1的标准卷积操作,/>表示卷积核大小为5的深度卷积操作,/>表示扩张率为3、卷积核大小为7的深度扩张卷积,/>表示特征图按位相乘操作,Cat表示特征图拼接操作;F表示输入的特征图,W1表示输出感受野大小为21×21的特征图,W2、W3及W4表示输出感受野大小分别为5×5、9×9、13×13的特征图,Y表示上下文增强后的新特征图。
在本发明的一些实施例中,图4为本发明实施例的对高低频信息和初始融合特征图进行特征融合输出得到多路特征图的子流程图,如图4所示包括:
S41,利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图;
S42,将不同分辨率特征图拼接后与初始融合特征图进行拼接融合得到多路特征图。
具体地,本发明采用2D Haar小波变换的离散小波变换将原始图像x分解成四个子带图像,获得后续参与多尺度融合的高低频信息。将上下文增强后的特征图送入PAnet结构双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图,将输入图像为金属材料的金相图像,经过第3、4、5级小波变换分解后得到的高低频信息参与PANet的特征融合,增加小目标的可视化特征,以解决原始YOLOv5特征提取后小目标特征逐渐消失的问题。
作为本发明的一个实施例,小波变换参与多尺度特征融合的具体实现为:小波变换对原图进行三级、四级以及五级分解后特征图分辨率分别为80×80、40×40和20×20与{P3,P4,P5}分辨率一致。将小波变换每一级分解的高低频信息拼接后再与{P3,P4,P5}拼接融合。每一级分解操作:采用四个参数固定、步幅为2的滤波器(fLL、fLH、fHL、fHH)对原始图像x进行分解,获得xLL、xLH、xHL、xHH四个子带图像。其中,四个子带图像分别代表分解后的低频图像、竖直细节图像、水平细节图像以及对角细节图像。Haar小波滤波器为:
输入图像为x(i,j),其中i为行,j为列,则2D DWT可表示为:
为进一步强化目标的边缘信息,利用式(8)将与低频子带xLL同级的3个高频子带xLH、xHL、xHH进行显著性增强,获得增强后的综合高频子带KHH。同级低频子带表示为KLL,最终参与特征融合的高低频信息为KLLi与KHHi,其中,i=3,4,5。
进一步地,基于由小波变换参与的特征融合后输出的三路特征图进行小目标检测(检测头),并经过非极大值抑制处理后得到最终的小目标检测结果,也即是在预测过程中,利用多次迭代选择,滤除IoU值大于预设阈值的检测框。
根据本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别方法,通过融合具有不同尺度感受野的特征,获取小目标丰富的上下文信息,提升网络对图像中小目标的敏感性与适应性;引入跳跃连接分支在空间和通道两个方向对特征进行重标定获得注意力特征图,从而增强小目标的特征响应,抑制背景噪声干扰;针对卷积神经网络对小目标的多次下采样和池化操作导致的特征丢失问题,利用小波变换的多分辨率和多尺度分析特性,将经过小波变换分离的原始图像的高低频信息参与多尺度特征融合,增强小目标的特征表达能力,提高多尺度特征融合的效果。本发明用轻微的计算代价和参数获得了检测精度的有效提升,克服了原始YOLOv5目标检测模型在面向小目标场景检测时检测效果不佳的问题,提高了钢中非金属夹杂物检测的可靠性。
为了实现上述实施例,如图5所示,本实施例中还提供了基于改进YOLOv5的钢中非金属夹杂物识别装置10,该装置10包括,第一特征分类模块100、第二特征分类模块200、第三特征分类模块300和目标检测识别模块400。
第一特征分类模块100,用于将原始金相图像输入至YOLOv5网络检测模型,以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图;其中,不同尺度特征图,包括浅层特征图和深层特征图;
第二特征分类模块200,用于将不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图;
第三特征分类模块300,用于将上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;
目标检测识别模块400,用于利用第四特征分类操作将原始金相图像通过多级小波变换分解后得到的高低频信息和初始融合特征图进行特征融合输出得到多路特征图,并将多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果;其中,小目标识别结果,包括原始金相图像的钢中非金属夹杂物的识别结果。
进一步地,最高层级特征图,包括通过骨干网络对原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图;CEM上下文增强模块的计算公式为:
其中,表示卷积核大小为1*1的常规卷积操作,/>表示卷积核大小为5的深度卷积操作,/>表示扩张率为3、卷积核大小为7的深度扩张卷积,/>表示特征图按位相乘操作,Cat表示特征图拼接操作,F表示输入的特征图,W1表示输出感受野大小为21*21的特征图,W2、W3及W4表示输出感受野大小分别为5*5、9*9、13*13的特征图,Y表示上下文增强后的新特征图。
进一步地,上述目标检测识别模块400,包括:
多级分解子单元,用于利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图;
特征拼接融合子单元,用于将不同分辨率特征图拼接后与初始融合特征图进行拼接融合得到多路特征图。
进一步地,上述多级分解子单元,还用于:
利用预设参数和步幅的Haar小波滤波器(fLL、fLH、fHL、fHH)对原始金相图像进行分解,得到xLL、xLH、xHL、xHH四个子带图像;其中,四个子带图像,依次包括分解后的低频图像、竖直细节图像、水平细节图像和对角细节图像。
进一步地,Haar小波滤波器为:
输入图像为x(i,j),其中i为行,j为列,则2D Haar滤波器表示为:
利用式(8)将xLH、xHL、xHH进行显著性特征增强得到增强后的综合高频子带KHH
根据本发明实施例的基于改进YOLOv5的钢中非金属夹杂物识别装置,通过融合具有不同尺度感受野的特征,获取小目标丰富的上下文信息,提升网络对图像中小目标的敏感性与适应性;引入跳跃连接分支在空间和通道两个方向对特征进行重标定获得注意力特征图,从而增强小目标的特征响应,抑制背景噪声干扰;针对卷积神经网络对小目标的多次下采样和池化操作导致的特征丢失问题,利用小波变换的多分辨率和多尺度分析特性,将经过小波变换分离的原始图像的高低频信息参与多尺度特征融合,增强小目标的特征表达能力,提高多尺度特征融合的效果。本发明用轻微的计算代价和参数获得了检测精度的有效提升,克服了原始YOLOv5目标检测模型在面向小目标场景检测时检测效果不佳的问题,提高了钢中非金属夹杂物检测的可靠性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

Claims (10)

1.一种基于改进YOLOv5的钢中非金属夹杂物识别方法,其特征在于,包括以下步骤:
将原始金相图像输入至YOLOv5网络检测模型,以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图;其中,所述不同尺度特征图,包括浅层特征图和深层特征图;
将所述不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图;
将所述上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;
利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图,并将所述多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果;其中,所述小目标识别结果,包括原始金相图像的钢中非金属夹杂物的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述最高层级特征图,包括通过骨干网络对所述原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图;所述CEM上下文增强模块的计算公式为:
其中,表示卷积核大小为1×1的标准卷积操作,/>表示卷积核大小为5的深度卷积操作,/>表示扩张率为3、卷积核大小为7的深度扩张卷积,/>表示特征图按位相乘操作,Cat表示特征图拼接操作;F表示输入的特征图,W1表示输出感受野大小为21×21的特征图,W2、W3及W4表示输出感受野大小分别为5×5、9×9、13×13的特征图,Y表示上下文增强后的新特征图。
3.根据权利要求2所述的方法,其特征在于,所述利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图,包括:
利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图;
将所述不同分辨率特征图拼接后与所述初始融合特征图进行拼接融合得到所述多路特征图。
4.根据权利要求3所述的方法,其特征在于,所述多级分解操作的每一级分解操作,包括:
利用预设参数和步幅的Haar小波滤波器(fLL、fLH、fHL、fHH)对所述原始金相图像进行分解,得到xLL、xLH、xHL、xHH四个子带图像;其中,所述四个子带图像,依次包括分解后的低频图像、竖直细节图像、水平细节图像和对角细节图像。
5.根据权利要求4所述的方法,其特征在于,所述Haar小波滤波器为:
输入图像为x(i,j),其中i为行,j为列,则2D DWT表示为:
为进一步强化目标的边缘信息,利用式(8)将与低频子带xLL同级的3个高频子带xLH、xHL、xHH进行显著性增强,获得增强后的综合高频子带KHH,同级低频子带表示为KLL,最终参与特征融合的高低频信息为KLLi与KHHi,其中,i=3,4,5;
6.一种基于改进YOLOv5的钢中非金属夹杂物识别装置,其特征在于,包括:
第一特征分类模块,用于将原始金相图像输入至YOLOv5网络检测模型,以通过对骨干网络提取的特征进行第一特征分类操作得到不同尺度特征图;其中,所述不同尺度特征图,包括浅层特征图和深层特征图;
第二特征分类模块,用于将所述不同尺度特征图中的最高层级特征图输入至CEM上下文增强模块以通过第二特征分类操作进行上下文信息提取及融合以得到上下文增强特征图;
第三特征分类模块,用于将所述上下文增强特征图输入至基于小波变换的PANet网络以利用第三特征分类操作进行双向融合深层特征图的语义信息和浅层特征图的定位信息得到初始融合特征图;
目标检测识别模块,用于利用第四特征分类操作将所述原始金相图像通过多级小波变换分解后得到的高低频信息和所述初始融合特征图进行特征融合输出得到多路特征图,并将所述多路特征图输入至检测头进行小目标识别以通过非极大值抑制处理后得到小目标识别结果;其中,所述小目标识别结果,包括原始金相图像的钢中非金属夹杂物的识别结果。
7.根据权利要求6所述的装置,其特征在于,所述最高层级特征图,包括通过骨干网络对所述原始金相图像依次进行下采样后得到的最后一次下采样输出的特征图;所述CEM上下文增强模块的计算公式为:
其中,表示卷积核大小为1*1的常规卷积操作,/>表示卷积核大小为5的深度卷积操作,/>表示扩张率为3、卷积核大小为7的深度扩张卷积,/>表示特征图按位相乘操作,Cat表示特征图拼接操作,F表示输入的特征图,W1表示输出感受野大小为21*21的特征图,W2、W3及W4表示输出感受野大小分别为5*5、9*9、13*13的特征图,Y表示上下文增强后的新特征图。
8.根据权利要求7所述的装置,其特征在于,所述目标检测识别模块,包括:
多级分解子单元,用于利用2D Haar滤波器对原始金相图像依次进行多级分解操作后得到不同分辨率特征图;
特征拼接融合子单元,用于将所述不同分辨率特征图拼接后与所述初始融合特征图进行拼接融合得到所述多路特征图。
9.根据权利要求8所述的装置,其特征在于,所述多级分解子单元,还用于:
利用预设参数和步幅的Haar小波滤波器(fLL、fLH、fHL、fHH)对所述原始金相图像进行分解,得到xLL、xLH、xHL、xHH四个子带图像;其中,所述四个子带图像,依次包括分解后的低频图像、竖直细节图像、水平细节图像和对角细节图像。
10.根据权利要求9所述的装置,其特征在于,所述Haar小波滤波器为:
输入图像为x(i,j),其中i为行,j为列,则2D Haar滤波器表示为:
利用式(8)将xLH、xHL、xHH进行显著性特征增强得到增强后的综合高频子带KHH
CN202310553842.9A 2023-05-16 2023-05-16 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置 Pending CN116580393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553842.9A CN116580393A (zh) 2023-05-16 2023-05-16 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553842.9A CN116580393A (zh) 2023-05-16 2023-05-16 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置

Publications (1)

Publication Number Publication Date
CN116580393A true CN116580393A (zh) 2023-08-11

Family

ID=87537268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553842.9A Pending CN116580393A (zh) 2023-05-16 2023-05-16 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置

Country Status (1)

Country Link
CN (1) CN116580393A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292193A (zh) * 2023-10-08 2023-12-26 无锡科维智能物流装备有限公司 多工位智能物流输送系统
CN117706058A (zh) * 2024-02-04 2024-03-15 浙江恒逸石化有限公司 丝锭数据的处理方法、装置、设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAN, B: ""AIE-YOLO: Auxiliary Information Enhanced YOLO for Small Object Detection"", 《SENSORS》, pages 1 - 13 *
知乎用户VCBFY5: ""AI技术助阵钢铁夹杂物分析,引领金相分析新革命"", pages 1 - 3, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/568257346> *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117292193A (zh) * 2023-10-08 2023-12-26 无锡科维智能物流装备有限公司 多工位智能物流输送系统
CN117706058A (zh) * 2024-02-04 2024-03-15 浙江恒逸石化有限公司 丝锭数据的处理方法、装置、设备以及存储介质
CN117706058B (zh) * 2024-02-04 2024-05-10 浙江恒逸石化有限公司 丝锭数据的处理方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN116580393A (zh) 基于改进YOLOv5的钢中非金属夹杂物识别方法及装置
CN108197326B (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN107563433B (zh) 一种基于卷积神经网络的红外小目标检测方法
CN111833273B (zh) 基于长距离依赖的语义边界增强方法
CN117079139B (zh) 一种基于多尺度语义特征的遥感图像目标检测方法及系统
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN113658200B (zh) 基于自适应特征融合的边缘感知图像语义分割方法
CN111524117A (zh) 一种基于特征金字塔网络的隧道表面缺陷检测方法
CN112115871B (zh) 适用于行人目标检测的高低频交织边缘特征增强方法
CN112990065A (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN110929635A (zh) 基于信任机制下面部交并比的假脸视频检测方法及系统
CN114998756A (zh) 一种基于yolov5的遥感图像检测方法、装置及存储介质
CN109508639B (zh) 基于多尺度带孔卷积神经网络的道路场景语义分割方法
CN113392728B (zh) 一种基于ssa锐化注意机制的目标检测方法
CN112800932B (zh) 海上背景下显著船舶目标的检测方法及电子设备
CN107170004A (zh) 一种无人车单目视觉定位中对匹配矩阵的图像匹配方法
CN113298037B (zh) 一种基于胶囊网络的车辆重识别方法
CN113269734B (zh) 一种基于元学习特征融合策略的肿瘤图像检测方法及装置
Li et al. A novel convolutional neural network for pavement crack segmentation
CN112215868A (zh) 基于生成对抗网络的去除手势图像背景的方法
CN116486203B (zh) 一种基于孪生网络和在线模板更新的单目标跟踪方法
CN117173476B (zh) 一种单源域泛化行人再识别方法
CN113034502B (zh) 一种排水管道缺陷去冗余方法
CN113762478A (zh) 射频干扰检测模型、射频干扰检测方法及装置
CN114581953B (zh) 一种基于关节点难例挖掘的人体姿态估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination