CN116152226A - 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 - Google Patents

基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 Download PDF

Info

Publication number
CN116152226A
CN116152226A CN202310350973.7A CN202310350973A CN116152226A CN 116152226 A CN116152226 A CN 116152226A CN 202310350973 A CN202310350973 A CN 202310350973A CN 116152226 A CN116152226 A CN 116152226A
Authority
CN
China
Prior art keywords
feature
commutator
pyramid
network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310350973.7A
Other languages
English (en)
Inventor
舒雨锋
刘志伟
梅阳寒
左大利
郑炜彬
陶丽勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Chiwei Intelligent Technology Co ltd
Dongguan Polytechnic
Original Assignee
Guangdong Chiwei Intelligent Technology Co ltd
Dongguan Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Chiwei Intelligent Technology Co ltd, Dongguan Polytechnic filed Critical Guangdong Chiwei Intelligent Technology Co ltd
Priority to CN202310350973.7A priority Critical patent/CN116152226A/zh
Publication of CN116152226A publication Critical patent/CN116152226A/zh
Priority to PCT/CN2024/084862 priority patent/WO2024208100A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,包括:步骤S1,特征提取网络将提取的多级别特征输入多尺度特征金字塔网络的特征拼接模块;步骤S2,所述特征拼接模块对输入的多级别特征进行拼接,并将拼接后的多级别特征输入多尺度特征金字塔网络中的编解码模块;步骤S3,所述编解码模块根据所述特征拼接模块输入的特征生成具有多个尺度的特征;步骤S4,所述多尺度特征金字塔网络的特征聚合模块将所述步骤S1中的多级别特征与所述步骤S3中的多尺度特征聚合为可融合的特征金字塔,检测网络通过在可融合的特征金字塔后添加数个卷积层获取卷积神经网络;步骤S5,对卷积神经网络进行训练,获取检测结果。

Description

基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
技术领域
本发明涉及目标检测领域,尤其涉及基于可融合的特征金字塔的换向器内侧图像缺陷检测方法。
背景技术
近些年,不同结构的特征金字塔被提出,功能也不断被完善,但是目前使用的特征金字塔只是根据其具有多尺度金字塔结构的特征提取网络构建特征金字塔模块,而这些特征金字塔的多尺度主要为了分类任务设计的,在换向器内侧图像缺陷检测领域中检测缺陷图像不太契合,对检测任务具有局限性,无法将多级别特征和多尺度特征进行融合,从而得到更丰富的特征信息,提高换向器内侧图像缺陷检测的精度和速度。
中国专利ZL201910242976.2公开了基于特征金字塔网络的特征增强目标检测方法,其技术特征为在送入目标检测器之前采用的骨干网络模型中增加自顶向下模块TDM、自底向上模块BUM和融合扩展模块FEM,从而形成新型的增强特征金字塔网络eFPN,但其只考虑到了骨干网络输出的特征,获取的特征信息较少且不够准确。
发明内容
为此,本发明提供基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,可以解决无法将多层级特征和多尺度特征融合以解决特征金字塔在对换向器内侧图像缺陷检测中的局限性的技术问题。
为实现上述目的,本发明提供基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,包括:
步骤S1,特征提取网络提取待检测换向器内侧图像的多级别特征,并将提取的多级别特征输入多尺度特征金字塔网络的特征拼接模块;
步骤S2,所述特征拼接模块对输入的多级别特征进行拼接,并将拼接后的多级别特征输入多尺度特征金字塔网络中的编解码模块;
步骤S3,所述编解码模块根据所述特征拼接模块输入的特征生成具有多个尺度的特征;
步骤S4,所述多尺度特征金字塔网络的特征聚合模块将所述步骤S1中的多级别特征与所述步骤S3中的多尺度特征聚合为可融合的特征金字塔,检测网络通过在可融合的特征金字塔后添加数个卷积层获取卷积神经网络,其中,所述特征聚合模块对多级别特征和多尺度特征的聚合过程包括:
步骤S41,沿相等比例的通道维度将多尺度特征与多级别特征进行特征连接,形成特征块;
步骤S42,将全局空间信息压缩为一个通道描述,并对特征块进行全局平均池化;
步骤S43,全面捕获通道依赖性以利用压缩操作中汇聚的信息;
步骤S44,将特征块重新加权输出;
步骤S5,对卷积神经网络进行训练,并将待检测换向器内侧图像的图片集依次输入训练完成的卷积神经网络,得到预测框集合,将预测框的坐标值在图片上标注,获取检测结果。
进一步地,在所述步骤S42中,所述特征聚合模块通过Squeeze操作将全局空间信息压缩为一个通道描述,并对特征块进行全局平均池化,形式上,统计z∈RC是通过在空间维度上W×H收缩U生成的,其中,z的第c个元素为,
Figure BDA0004161501870000021
其中,uc(i,j)表示第c个元素在空间维度W×H上第(i,j)位置处的统计信息。
进一步地,在所述步骤S43中,所述特征聚合模块通过Excitation操作全面捕获通道依赖性,即聚合特征,
s=Fex(z,W)=σ(W2δ(W1z))
其中,σ代表ReLU函数,δ代表sigmoid函数,
Figure BDA0004161501870000022
R代表减少的比率,使用两个全连接(FC)层的瓶颈来参数化门机制,即降维层参数为W1,降维比例为r,W2为升维层,以对U重新加权输出X。
进一步地,在所述步骤S44中,所述特征聚合模块将特征块重新加权输出,其中,
Figure BDA0004161501870000023
其中,X代表SE块的最终输出,
Figure BDA0004161501870000024
代表融合金字塔特征
Figure BDA0004161501870000025
与sc的乘积。
进一步地,在所述步骤S1中,所述特征提取网络由Darknet-53网络使用梭形残差结构的堆叠搭建,并使用步长为2的Mobilenet结构进行下采样操作,其中,所述梭形残差结构时由YOLOv3中Darknet的结构与残差结构相联结形成。
进一步地,在所述步骤S2中,所述特征拼接模块对输入的多级别特征进行上采样操作,并在做连接操作前将深度特征缩放到相同尺度。
进一步地,在所述步骤S3中,所述编解码模块包括编码器和解码器,并使用连续的3×3卷积层对所述特征拼接模块输入的特征进行卷积下采样操作,其中,所述编码器每层的特征输出作为参考特征集,所述解码器是一系列3×3,步长为1的卷积层,解码器的分支上包括上采样层和逐像素求和操作。
进一步地,在所述步骤S5中,卷积神经网络的训练包括,
步骤S51,所述检测网络获取若干个三维张量编码的预测框、对象和类预测,并结合损失函数进行边框回归和类别回归;
步骤S52,采用Soft-NMS方法对高度重叠的预测框进行过滤以得到最终预测边界框。
进一步地,在所述步骤S51中,所述检测网络对预测框的参数x,y,w和h进行归一化处理,其中,
Figure BDA0004161501870000031
Figure BDA0004161501870000032
其中,所述检测网络将待检测换向器图像划分为s×s的网格,S=s,(x0,y0)为预测得到的边界框中心点坐标,中心点所在网格坐标为(row,col),widthimg为待检测换向器图像的宽度,heightimg为待检测换向器图像的高度,widthbox为预测得到的边界框的宽度,heightbox为预测得到的边界框的宽度,其中,预测得到的边界框包含x,y,w和h四个参数,x,y指预测框中心点的X,Y坐标,w,h指预测框的宽度、高度,点(x0,y0)为边界框中心点,其所在网格坐标为(row,col),widthimg和heightimg代表整幅图像的宽度和高度,widthbox和heightbox代表边界框的宽度和高度。
进一步地,在所述步骤S52中,Soft-NMS算法为,
Figure BDA0004161501870000041
其中,B代表初始列表;S代表检测分数,函数f(IOU(M,bi))为:
Figure BDA0004161501870000042
其中,M代表得分最高的检测框,bi代表处理的盒子,Nt代表阈值,a代表参数。
与现有技术相比,本发明的有益效果在于,本发明提供了一种多尺度特征金字塔网络,可以将特征提取网络提取的多级别特征进行处理生成多尺度特征,并将多尺度特征与多级别特征进行融合形成可融合的特征金字塔,可融合的特征金字塔结构不只是考虑到了骨干网络输出的特征,而是采用了一种以U形的编解码器为主的新的特征金字塔结构,并且,本发明对传统的残差块进行更新改造提出了一种新的梭形残差块,以加入深度可分离卷积并且在减少计算量的前提下保持残差块的特征表达能力,更适应于换向器内侧图像缺陷的检测,提高检测准确度和速度。
尤其,所述特征聚合模块通过多级别特征和多尺度特征融合形成可融合的特征金字塔,可融合的特征金字塔特征提取更加的规范化,可以进一步得到更丰富、有效的多层级特征信息,突破特征金字塔卷积后的特征图主要是单一层次的特征表征而成的局限性,更适用于换向器内侧图像缺陷的检测。
尤其,所述梭形残差结构是在MobileNet中将传统的卷积模块设计成深度卷积结构与点卷积结构的融合形式,所述特征提取网络由Darknet-53网络使用梭形残差结构的堆叠搭建,对特征的提取更加全面,并且可以在保持精度基本不变的情况下,通过减少计算量而提高检测效率。
尤其,在所述解码器的分支上添加上采样层和逐像素求和操作的目的是为了保持特征图大小一样,增强学习能力并保持特征的平滑性。
尤其,所述检测网络对预测框参数进行归一化处理,可以减少奇异样本数据的影响,加快网络学习速度。
尤其,NMS算法直接将得分大于某个阈值的最大框的IOU设置为零,算法较为粗暴,因此所述检测网络使用Soft-NMS算法,检测网络设定阈值,将类别置信度低于阈值的预测框剔除,得到最终的预测框,提高检测精度。
附图说明
图1为发明实施例基于可融合的特征金字塔的换向器内侧图像缺陷检测系统结构示意图;
图2为发明实施例基于可融合的特征金字塔的换向器内侧图像缺陷检测方法流程图;
图3为发明实施例特征聚合模块具体构造示意图;
图4为发明实施例梭形残差结构示意图;
图5为发明实施例特征拼接模块具体构造示意图;
图6为发明实施例编解码模块具体构造示意图;
图7为发明实施例LSVM+DPM算法与RCNN算法在本文上的测试结果;
图8为发明实施例Faster R-CNN算法与Faster R-CNN_ResNet_101算法在本文上的测试结果;
图9为发明实施例Multi-task CNN算法与YOLOv2算法在本文上的测试结果;
图10为发明实施例Aston-EAS算法与F-ConvNet算法在本文上的测试结果;
图11为发明实施例MonoGRNet算法与LTN算法在本文上的测试结果;
图12为发明实施例YOLOv3算法与本文算法在本文上的测试结果。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明实施例基于可融合的特征金字塔的换向器内侧图像缺陷检测系统结构示意图,包括,
特征提取网络,其用于提取待检测换向器内侧图像多级别特征;
多尺度特征金字塔网络,其与所述特征提取网络相连接,包括特征拼接模块、编解码模块以及特征聚合模块,其中,所述特征拼接模块用于从特征提取网络的多个不同级别特征拼接,所述编解码模块用于根据特征拼接模块输入的特征生成多尺度特征,所述特征聚合模块用于将多级别特征和多尺度特征融合为可融合的特征金字塔;
检测网络,其与所述多尺度特征金字塔网络相连接,用于获取待检测换向器内侧图像缺陷的预测框。
请阅图2所示,其为本发明实施例基于可融合的特征金字塔的换向器内侧图像缺陷检测方法流程图,包括,
步骤S1,特征提取网络提取待检测换向器内侧图像的多级别特征,并将提取的多级别特征输入多尺度特征金字塔网络的特征拼接模块;
步骤S2,所述特征拼接模块对输入的多级别特征进行拼接,并将拼接后的多级别特征输入多尺度特征金字塔网络中的编解码模块;
步骤S3,所述编解码模块根据所述特征拼接模块输入的特征生成具有多个尺度的特征;
步骤S4,所述多尺度特征金字塔网络的特征聚合模块将所述步骤S1中的多级别特征与所述步骤S3中的多尺度特征聚合为可融合的特征金字塔,检测网络通过在可融合的特征金字塔后添加数个卷积层获取卷积神经网络,其中,所述特征聚合模块对多级别特征和多尺度特征的聚合过程包括,
步骤S41,沿相等比例的通道维度将多尺度特征与多级别特征进行特征连接,形成特征块;
步骤S42,将全局空间信息压缩为一个通道描述,并对特征块进行全局平均池化;
步骤S43,全面捕获通道依赖性以利用压缩操作中汇聚的信息;
步骤S44,将特征块重新加权输出;
步骤S5,对卷积神经网络进行训练,并将待检测换向器内侧图像的图片集依次输入训练完成的卷积神经网络,得到预测框集合,将预测框的坐标值在图片上标注,获取检测结果。
在所述步骤S42中,所述特征聚合模块通过Squeeze操作将全局空间信息压缩为一个通道描述,并对特征块进行全局平均池化,形式上,统计z∈RC是通过在空间维度上W×H收缩U生成的,其中,z的第c个元素为,
Figure BDA0004161501870000071
其中,uc(i,j)表示第c个元素在空间维度W×H上第(i,j)位置处的统计信息。
在所述步骤S43中,所述特征聚合模块通过Excitation操作全面捕获通道依赖性,即聚合特征,
s=Fex(z,W)=σ(W2δ(W1z))
其中,σ代表ReLU函数,δ代表sigmoid函数,
Figure BDA0004161501870000072
R代表减少的比率,使用两个全连接(FC)层的瓶颈来参数化门机制,即降维层参数为W1,降维比例为r,W2为升维层参数,从而对U重新加权输出X:
在所述步骤S44中,所述特征聚合模块将特征块重新加权输出,其中,
Figure BDA0004161501870000073
其中,X代表SE块的最终输出,
Figure BDA0004161501870000081
代表融合金字塔特征
Figure BDA0004161501870000082
与sc的乘积。
具体而言,所述特征聚合模块通过多级别特征和多尺度特征融合形成可融合的特征金字塔,可融合的特征金字塔特征提取更加的规范化,可以进一步得到更丰富、有效的多层级特征信息,突破特征金字塔卷积后的特征图主要是单一层次的特征表征而成的局限性,更适用于换向器内侧图像缺陷的检测。
具体而言,本发明对特征聚合模块的构造不做具体限定,只要能满足其功能要求即可,本发明实施例提供一种优选的特征聚合模块具体构造,请参阅图3所示,其为本发明实施例特征聚合模块具体构造示意图。
在所述步骤S1中,所述特征提取网络由Darknet-53网络使用梭形残差结构的堆叠搭建,并使用步长为2的Mobilenet结构进行下采样操作,其中,所述梭形残差结构时由YOLOv3中Darknet的结构与残差结构相联结形成。
具体而言,所述梭形残差结构是在MobileNet中将传统的卷积模块设计成深度卷积结构与点卷积结构的融合形式,所述特征提取网络由Darknet-53网络使用梭形残差结构的堆叠搭建,对特征的提取更加全面,并且可以在保持精度基本不变的情况下,通过减少计算量而提高检测效率。
具体而言,请参阅图4所示,其为本发明实施例梭形残差结构示意图,本发明不对梭形残差结构进行限定,只要能满足特征提取需求即可,本发明实施例提供一种优先实施例,包括,首先设置输入通道数目为Ci,运用1×1卷积块升维成t×Ci,然后通过3×3的滤波器进行滤波操作,最后通过1×1的卷积块降维成Ci。
在所述步骤S2中,所述特征拼接模块对输入的多级别特征进行上采样操作,并在做连接操作前将深度特征缩放到相同尺度。
具体而言,本发明对所述特征拼接模块的构造不做具体限定,只要能对不同级别特征进行拼接即可,本发明实施例提供一种优选的特征拼接模块具体构造,请参阅图5所示,其为本发明实施例特征拼接模块具体构造示意图,其中,F1,F2,F3是特征拼接模块的输入特征,896,1×1,256指的是输入通道为896,卷积核大小为1×1,输出通道为256。
在所述步骤S3中,所述编解码模块包括编码器和解码器,并使用连续的3×3卷积层对所述特征拼接模块输入的特征进行卷积下采样操作,其中,所述编码器每层的特征输出作为参考特征集,所述解码器是一系列3×3,步长为1的卷积层,解码器的分支上包括上采样层和逐像素求和操作。
具体而言,在所述解码器的分支上添加上采样层和逐像素求和操作的目的是为了保持特征图大小一样,增强学习能力并保持特征的平滑性。
具体而言,本发明对所述编解码模块的构造不做具体限定,能实现其功能即可,本发明实施例提供一种优选的编解码模块具体构造,请参阅图6所示,其为本发明实施例编解码模块具体构造示意图,其中,256,1,256表示:输入通道为256,步长为1,输出通道为256,符号⊕表示的是逐像素相加。
在所述步骤S5中,卷积神经网络的训练包括:
步骤S51,所述检测网络获取若干个三维张量编码的预测框、对象和类预测,并结合损失函数进行边框回归和类别回归;
步骤S52,采用Soft-NMS方法对高度重叠的预测框进行过滤以得到最终预测边界框。
在所述步骤S51中,所述检测网络对预测框的参数x,y,w和h进行归一化处理,预测得到的边界框包含x,y,w和h四个参数,x,y指预测框中心点的X,Y坐标,w,h指预测框的宽度、高度,我们设S=7,将图像划分为7×7的网格,虚线区域表示边界框位置,点(x0,y0)为边界框中心点,其所在网格坐标为(row,col),widthimg和heightimg代表整幅图像的宽度和高度,widthbox和heightbox代表边界框的宽度和高度。因此,归一化过程为:
Figure BDA0004161501870000091
Figure BDA0004161501870000092
其中,所述检测网络将待检测换向器图像划分为s×s的网格,S=s,(x0,y0)为预测得到的边界框中心点坐标,中心点所在网格坐标为(row,col),widthimg为待检测换向器图像的宽度,heightimg为待检测换向器图像的高度,widthbox为预测得到的边界框的宽度,heightbox为预测得到的边界框的宽度。
具体而言,所述检测网络使用K-Means聚类确定预测框先验。
具体而言,所述检测网络对预测框参数进行归一化处理,可以减少奇异样本数据的影响,加快网络学习速度。
在所述步骤S52中,Soft-NMS算法为,
Figure BDA0004161501870000101
其中,B代表初始列表;S代表检测分数,函数f(IOU(M,bi))为
Figure BDA0004161501870000102
其中,M代表得分最高的检测框,bi代表处理的盒子。Nt代表阈值,a代表参数。如果边界框的重叠高,那么分配较低的分数,相反,那么保持原始检测分数。
具体而言,NMS算法直接将得分大于某个阈值的最大框的IOU设置为零,算法较为粗暴,因此所述检测网络使用Soft-NMS算法,检测网络设定阈值,将类别置信度低于阈值的预测框剔除,得到最终的预测框,提高检测精度。
具体而言,本发明对卷积神经网络的训练流程不做具体限定,只要能完成训练即可,本发明实施例提供一种优选实施例,包括,
步骤s1,捕获现实场景下交通换向器内测图像缺陷数据图片集合,记作X:[X1,X2,X3···Xn];
步骤s2,通过裁剪、缩放等操作将图片尺寸统一至长:416像素,宽:416像素,通过数据集标注软件Labelimg对图片集合X标注,得到换向器表面缺陷数据集称为SD_data;
步骤s3,将特征提取网络在Imagenet数据集上进行预训练,得到预训练完成的特征提取网络,将SD_data结合损失函数对整体模型进行训练;
步骤s4,训练图片经过特征提取网络得到卷积特征图,然后经过一系列卷积和上采样过程,得到了N×N(N为卷积特征图的长和宽)个三维张量编码的边界框、对象和类预测,结合损失函数,进行边框回归,类别回归,最后采用Soft-NMS方法对高度重叠的区域进行过滤。
具体而言,本发明对检测方法的实施不做具体限定,能使检测结果符合预设标准即可,本发明实施例提供一种优选实施方案,包括:
步骤S10,得到图片集X。
步骤S20,将图片X依次输入训练完成的卷积神经网络,得到预测框集合。采用Soft-NMS对重叠度高的预测框筛选,输出通过神经网络得到的最终结果:预测框左上角的坐标(x,y),预测框的宽W和高H。
步骤S30,将坐标值在图片上进行标注,得到最终的预测框。
具体而言,本发明实施例提供一种测试结果和分析,包括,本文算法和YOLOv3算法在不同亮度下的对比试验与不同道路拥挤状态下对比试验。在实验中,设定只有检测换向器内测图像缺陷区域与真实标注换向器内测图像缺陷区域的IOU大于70%时才认为检测到了标注换向器内测图像缺陷。进而计算召回率和准确率得到F值。每个实验重复3次对比试验,取3个F值的均值作为评价结果。
不同光强下对比试验:在实际图像检测中,不同光强会对检测效果有所影响,因此对比试验共设置3个条件,分别是:大尺度、中尺度和小尺度,目的是对比两种算法在不同环境下的检测性能。试验首先从原始测试集中随机抽取若干幅图像,对应3个条件进行分类,再次随机抽取直到3个条件类别中均达到100幅图像,每次对比试验中,从每个对比条件随机抽取50幅图像作为实验的测试集,使用2种算法对测试集的图像进行检测,检测结果如表1所示。
表1YOLOv3与本文算法在不同环境条件下的图像对比试验结果
Figure BDA0004161501870000111
表1中的综合结果计算方式为:将每次对比试验的数据集总换向器内测图像缺陷数、被检测到的换向器内测图像缺陷数和被检测到的正确的换向器内测图像缺陷数分别求和,然后采用与每次试验相同的方法计算总体的召回率、正确率和F值。从表1的结果可以看出,与YOLOv3相比,该方法提高了在不同光照条件下的检测性能。其中,大尺度的检测精度提高5.64%,中尺度缺陷检测提高了5.17%,小尺度提高了7.09%,与YOLOv3相比,该方法可以更好地适应光照的变化。
本文中的数据集均为换向器上捕获的图像,将提出的方法在本文数据集上进行了训练和测试,对本文方法进行了全面评估,将其与经典的目标检测方法和最近的换向器内测图像缺陷检测方法如LSVM+DPM、RCNN、Faster R-CNN、Faster R-CNN(ResNet版)、Multi-task CNN、Aston-EAS、F-ConverNet、MonoGRNet、LTN、YOLOv2、YOLOv3等进行了比较。在图6-12中分别展示了上述方法的P-R图。将各个算法在本文数据集下三个不同难度中的AP值在表2中展列。
表2本文数据集下三个不同难度中的平均准确率
Figure BDA0004161501870000121
本文数据集均是由车载摄像头在道路上的实拍图像,对于本文换向器内测图像缺陷检测算法在本文数据集上进行试验较贴合实际应用场景。由各个算法的P-R图与表2中可以看出,本文算法在本文数据集下三个不同标准(Easy/Moderate/Hard)下的AP分别达到95.29%、92.42%、82.32%。与基算法YOLOv3目标检测模型相比各个难度下的AP均有提升,分别为:0.29%、3.50%、4.63%。在此,精度提升的原因与特征金字塔模块的加入有着巨大的关系,因为在YOLOv3目标检测模型当中,它只是将底部的卷积特征图向上进行2倍的上采样,然后与其上阶段进行特征拼接得到本阶段的特征图;而在本文的换向器内测图像缺陷检测模型中,首先将从骨干网络当中产生的三尺度特征图行融合,形成基本特征图传入一个U型结构的编解码器,从而产生更高阶的多尺度特征图,随后我们将U型编解码器当中产生的多尺度特征图与最初骨干网络中生成的三尺度特征图进行特征融合并且加入特征注意力模块以提高特征表达能力。相较于YOLOv3检测模型中使用的类FPN多尺度检测方法,本文模型的特征金字塔具有更高的特征表达能力,可以更好地发现检测图片中的小目标,并且可以产生较多的语义信息,从而进一步提高了总体检测效果。同样,这也是在Hard难度下提升较大的原因之一。
根据表2中与R-CNN系列算法比较的结果可以看出,相较于R-CNN与Faster R-CNN等二阶段的目标检测算法来说,本文算法由于是基于YOLOv3单阶段目标检测算法改进而来,将换向器内测图像缺陷检测过程视为回归问题处理,并没有像RCNN系列先利用区域推荐网络(RPN)生成大量的候选框,然后才进换向器内测图像缺陷识别,这样做的结果是,速度将会大大提高,可根据表中看出R-CNN系列检测算法的运行时间均在1000m以上,而本文算法以及YOLO系列等一阶段算法的运行时间(ms)均不超过2位数;而精度相较于R-CNN系列也有着一定的提高,主要是因为充分结合了浅层的空间信息与深层的语义信息(YOLOv2算法除外),YOLOv2算法速度是表中所列算法中速度最快的换向器内测图像缺陷检测方法,但是此算法并没有考虑到图像的多尺度检测问题。相较于目前流行的换向器内测图像缺陷检测算法,本文算法较于例Multi-task CNN算法、Aston-AES算法、MonoGRNet算法、LTN算法在精度上也均有一定程度上的提高,并且速度也处于优先行列。本文算法与F-ConverNet算法相比,虽然在Easy难度下精度不如前者,但是速度却比F-ConverNet算法快数倍。我们认为本文算法在实际情况下处理换向器内测图像缺陷检测时更加有效。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,包括:
步骤S1,特征提取网络提取待检测换向器内侧图像的多级别特征,并将提取的多级别特征输入多尺度特征金字塔网络的特征拼接模块;
步骤S2,所述特征拼接模块对输入的多级别特征进行拼接,并将拼接后的多级别特征输入多尺度特征金字塔网络中的编解码模块;
步骤S3,所述编解码模块根据所述特征拼接模块输入的特征生成具有多个尺度的特征;
步骤S4,所述多尺度特征金字塔网络的特征聚合模块将所述步骤S1中的多级别特征与所述步骤S3中的多尺度特征聚合为可融合的特征金字塔,检测网络通过在可融合的特征金字塔后添加数个卷积层获取卷积神经网络,其中,所述特征聚合模块对多级别特征和多尺度特征的聚合过程包括:
步骤S41,沿相等比例的通道维度将多尺度特征与多级别特征进行特征连接,形成特征块;
步骤S42,将全局空间信息压缩为一个通道描述,并对特征块进行全局平均池化;
步骤S43,全面捕获通道依赖性以利用压缩操作中汇聚的信息;
步骤S44,将特征块重新加权输出;
步骤S5,对卷积神经网络进行训练,并将待检测换向器内侧图像的图片集依次输入训练完成的卷积神经网络,得到预测框集合,将预测框的坐标值在图片上标注,获取检测结果。
2.根据权利要求1所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S42中,所述特征聚合模块通过Squeeze操作将全局空间信息压缩为一个通道描述,并对特征块进行全局平均池化,形式上,统计z∈RC是通过在空间维度上W×H收缩U生成的,其中,z的第c个元素为,
Figure FDA0004161501860000011
其中,uc(i,j)表示第c个元素在空间维度W×H上第(i,j)位置处的统计信息。
3.根据权利要求2所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S43中,所述特征聚合模块通过Excitation操作全面捕获通道依赖性,即聚合特征,
s=Fex(z,W)=σ(W2δ(W1z))
其中,σ代表ReLU函数,δ代表sigmoid函数,
Figure FDA0004161501860000021
R代表减少的比率,使用两个全连接(FC)层的瓶颈来参数化门机制,即降维层参数为W1,降维比例为r,W2为升维层参数,以对U重新加权输出X。
4.根据权利要求3所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S44中,所述特征聚合模块将特征块重新加权输出,其中,
Figure FDA0004161501860000022
其中,X代表SE块的最终输出,
Figure FDA0004161501860000023
代表融合金字塔特征
Figure FDA0004161501860000024
与sc的乘积。
5.根据权利要求4所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S1中,所述特征提取网络由Darknet-53网络使用梭形残差结构的堆叠搭建,并使用步长为2的Mobilenet结构进行下采样操作,其中,所述梭形残差结构时由YOLOv3中Darknet的结构与残差结构相联结形成。
6.根据权利要求5所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S2中,所述特征拼接模块对输入的多级别特征进行上采样操作,并在做连接操作前将深度特征缩放到相同尺度。
7.根据权利要求6所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S3中,所述编解码模块包括编码器和解码器,并使用连续的3×3卷积层对所述特征拼接模块输入的特征进行卷积下采样操作,其中,所述编码器每层的特征输出作为参考特征集,所述解码器是一系列3×3,步长为1的卷积层,解码器的分支上包括上采样层和逐像素求和操作。
8.根据权利要求7所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S5中,卷积神经网络的训练包括,
步骤S51,所述检测网络获取若干个三维张量编码的预测框、对象和类预测,并结合损失函数进行边框回归和类别回归;
步骤S52,采用Soft-NMS方法对高度重叠的预测框进行过滤以得到最终预测边界框。
9.根据权利要求8所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S51中,所述检测网络对预测框的参数x,y,w和h进行归一化处理,其中,
Figure FDA0004161501860000031
Figure FDA0004161501860000032
其中,所述检测网络将待检测换向器图像划分为s×s的网格,S=s,(x0,y0)为预测得到的边界框中心点坐标,中心点所在网格坐标为(row,col),widthimg为待检测换向器图像的宽度,heightimg为待检测换向器图像的高度,widthbox为预测得到的边界框的宽度,heightbox为预测得到的边界框的宽度,其中,预测得到的边界框包含x,y,w和h四个参数,x,y指预测框中心点的X,Y坐标,w,h指预测框的宽度、高度,点(x0,y0)为边界框中心点,其所在网格坐标为(row,col),widthimg和heightimg代表整幅图像的宽度和高度,widthbox和heightbox代表边界框的宽度和高度。
10.根据权利要求9所述的基于可融合的特征金字塔的换向器内侧图像缺陷检测方法,其特征在于,在所述步骤S52中,Soft-NMS算法为:
Figure FDA0004161501860000033
Figure FDA0004161501860000041
其中,B代表初始列表;S代表检测分数,函数f(IOU(M,bi))为:
Figure FDA0004161501860000042
其中,M代表得分最高的检测框,bi代表处理的盒子,Nt代表阈值,a代表参数。
CN202310350973.7A 2023-04-04 2023-04-04 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法 Pending CN116152226A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310350973.7A CN116152226A (zh) 2023-04-04 2023-04-04 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
PCT/CN2024/084862 WO2024208100A1 (zh) 2023-04-04 2024-03-29 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310350973.7A CN116152226A (zh) 2023-04-04 2023-04-04 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法

Publications (1)

Publication Number Publication Date
CN116152226A true CN116152226A (zh) 2023-05-23

Family

ID=86362057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310350973.7A Pending CN116152226A (zh) 2023-04-04 2023-04-04 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法

Country Status (2)

Country Link
CN (1) CN116152226A (zh)
WO (1) WO2024208100A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542974A (zh) * 2023-07-05 2023-08-04 杭州百子尖科技股份有限公司 一种基于多尺度网格化的覆铜板表面缺陷检测方法
CN117495884A (zh) * 2024-01-02 2024-02-02 湖北工业大学 一种钢铁表面缺陷分割方法、装置、电子设备及存储介质
WO2024208100A1 (zh) * 2023-04-04 2024-10-10 东莞职业技术学院 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544253A (zh) * 2019-09-12 2019-12-06 福州大学 基于图像金字塔和列模板的织物瑕疵检测方法
CN111598861A (zh) * 2020-05-13 2020-08-28 河北工业大学 基于改进的Faster R-CNN模型的非均匀纹理小缺陷的检测方法
CN113052834A (zh) * 2021-04-20 2021-06-29 河南大学 一种基于卷积神经网络多尺度特征的管道缺陷检测方法
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
WO2022088628A1 (zh) * 2020-10-30 2022-05-05 北京市商汤科技开发有限公司 缺陷检测方法、装置、计算机设备及存储介质
CN115526864A (zh) * 2022-09-30 2022-12-27 郑州轻工业大学 基于改进的特征金字塔网络和度量学习的钢轨表面缺陷检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018125580A1 (en) * 2016-12-30 2018-07-05 Konica Minolta Laboratory U.S.A., Inc. Gland segmentation with deeply-supervised multi-level deconvolution networks
CN112699953B (zh) * 2021-01-07 2024-03-19 北京大学 基于多信息路径聚合的特征金字塔神经网络架构搜索方法
CN112784779A (zh) * 2021-01-28 2021-05-11 武汉大学 一种基于特征金字塔多级特征融合的遥感影像场景分类方法
CN113205502A (zh) * 2021-05-10 2021-08-03 内蒙古大学 一种基于深度学习的绝缘子缺陷检测方法及其系统
CN116152226A (zh) * 2023-04-04 2023-05-23 东莞职业技术学院 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110544253A (zh) * 2019-09-12 2019-12-06 福州大学 基于图像金字塔和列模板的织物瑕疵检测方法
CN111598861A (zh) * 2020-05-13 2020-08-28 河北工业大学 基于改进的Faster R-CNN模型的非均匀纹理小缺陷的检测方法
WO2022088628A1 (zh) * 2020-10-30 2022-05-05 北京市商汤科技开发有限公司 缺陷检测方法、装置、计算机设备及存储介质
CN113052834A (zh) * 2021-04-20 2021-06-29 河南大学 一种基于卷积神经网络多尺度特征的管道缺陷检测方法
CN113674247A (zh) * 2021-08-23 2021-11-19 河北工业大学 一种基于卷积神经网络的x射线焊缝缺陷检测方法
CN115526864A (zh) * 2022-09-30 2022-12-27 郑州轻工业大学 基于改进的特征金字塔网络和度量学习的钢轨表面缺陷检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭启帆;刘磊;张珹;徐文娟;靖稳峰;: "基于特征金字塔的多尺度特征融合网络", 工程数学学报, no. 05, 15 October 2020 (2020-10-15) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024208100A1 (zh) * 2023-04-04 2024-10-10 东莞职业技术学院 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN116542974A (zh) * 2023-07-05 2023-08-04 杭州百子尖科技股份有限公司 一种基于多尺度网格化的覆铜板表面缺陷检测方法
CN116542974B (zh) * 2023-07-05 2023-09-26 杭州百子尖科技股份有限公司 一种基于多尺度网格化的覆铜板表面缺陷检测方法
CN117495884A (zh) * 2024-01-02 2024-02-02 湖北工业大学 一种钢铁表面缺陷分割方法、装置、电子设备及存储介质
CN117495884B (zh) * 2024-01-02 2024-03-22 湖北工业大学 一种钢铁表面缺陷分割方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2024208100A1 (zh) 2024-10-10

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN109977943B (zh) 一种基于yolo的图像目标识别方法、系统和存储介质
CN110929593B (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN116152226A (zh) 基于可融合的特征金字塔的换向器内侧图像缺陷检测方法
CN112766188B (zh) 一种基于改进yolo算法的小目标行人检测方法
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN114841972A (zh) 基于显著性图和语义嵌入特征金字塔的输电线路缺陷识别方法
CN111783819B (zh) 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN109886159B (zh) 一种非限定条件下的人脸检测方法
CN110781980B (zh) 目标检测模型的训练方法、目标检测方法及装置
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN111368636A (zh) 目标分类方法、装置、计算机设备和存储介质
CN113870286B (zh) 一种基于多级特征和掩码融合的前景分割方法
CN114648714A (zh) 一种基于yolo的车间规范行为的监测方法
CN116416244A (zh) 一种基于深度学习的裂缝检测方法及系统
CN115019039A (zh) 一种结合自监督和全局信息增强的实例分割方法及系统
CN112991239A (zh) 一种基于深度学习的图像反向恢复方法
CN115482529A (zh) 近景色水果图像识别方法、设备、存储介质及装置
CN110728238A (zh) 一种融合型神经网络的人员再检测方法
CN113936299A (zh) 建筑工地中危险区域检测方法
CN116206248B (zh) 一种基于机器学习引导深度学习的目标检测方法
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN117372853A (zh) 一种基于图像增强和注意力机制的水下目标检测算法
CN117351409A (zh) 混凝土坝面作业风险智能识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Xiaomian

Inventor after: Shu Yufeng

Inventor after: Chen Yongtao

Inventor after: Liu Zhiwei

Inventor after: Mei Yanghan

Inventor after: Zuo Dali

Inventor after: Zheng Weibin

Inventor after: Tao Lixun

Inventor before: Shu Yufeng

Inventor before: Liu Zhiwei

Inventor before: Mei Yanghan

Inventor before: Zuo Dali

Inventor before: Zheng Weibin

Inventor before: Tao Lixun