CN116363105A - 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法 - Google Patents

一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法 Download PDF

Info

Publication number
CN116363105A
CN116363105A CN202310349651.0A CN202310349651A CN116363105A CN 116363105 A CN116363105 A CN 116363105A CN 202310349651 A CN202310349651 A CN 202310349651A CN 116363105 A CN116363105 A CN 116363105A
Authority
CN
China
Prior art keywords
contact net
characteristic
speed rail
layer
rail contact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310349651.0A
Other languages
English (en)
Inventor
郭文娟
邹启杰
王世杰
胡琪涛
魏兴普
曹杰
高兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University
Original Assignee
Dalian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University filed Critical Dalian University
Priority to CN202310349651.0A priority Critical patent/CN116363105A/zh
Publication of CN116363105A publication Critical patent/CN116363105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于FasterR‑CNN的高铁接触网零部件识别与定位的方法,包括对高铁接触网图像数据集先进行离线增强,再进行在线增强;通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图,并加入SK注意力机制,自适应调整感受野大小;将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合,得到多尺度特征信息后再送至区域建议网络RPN生成候选框;然后通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图;最后分类网络对候选框内的物体进行类别预测并调整边界框。本发明提高了多种零部件在图像背景复杂、噪声大、部分模糊不清情况下的识别准确度;降低了零部件在密集遮挡时的误检率和漏检率;具有更强的泛化能力、鲁棒性更高。

Description

一种基于Faster R-CNN的高铁接触网零部件识别与定位的 方法
技术领域
本发明涉及接触网图像智能检测技术领域,具体涉及一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法。
背景技术
接触网作为高铁的牵引供电系统,是影响行车安全的重中之重。基于传统图像处理技术的接触网部件检测需人工设计大量提取特征,其存在效率低、普适性差等问题,无法满足高铁的实际检测精度和速度需求。随着深度学习和计算机视觉的快速发展,基于深度学习的目标检测技术准确度高、检测速度快、鲁棒性强、适用于大型数据集,将深度学习引入接触网的零部件检测中,已成为一种主流发展趋势。对接触网部件进行精准检测,实现关键部件识别与定位是后续故障排除的前提,也是一项尤其具有挑战性的任务。由于接触网图像中待检测部件大小不一、结构复杂且背景干扰因素多,现有的深度学习部件检测方法普遍存在以下问题:(1)检测高铁零部件种类相对较少,难以满足多形态、多种类的准确性需求;(2)对于一些面积占比小的部件,识别精度低甚至发生漏检;(3)算法处理抗遮挡目标的能力差,难以识别被遮挡部件。
中国专利文献CN106485701B公开了一种基于模板特征匹配的承力索底座部件定位法,该方法虽融合了多个角度的特征信息,但仅靠旋转双耳作为匹配特征,误匹配度较高,且人工设计模板时间成本高、仅能检测单一目标,无法满足高铁多形态、多种类的实际检测需求。
中国专利文献CN110569841B公开了基于YOLOv3卷积神经网络的接触网关键部件的目标检测方法,该方法检测的部件主要有平腕臂绝缘子、斜腕臂绝缘子、腕臂上底座、腕臂下底座和定位器线夹套管双耳等,部分部件面积占比较小,而该方法将图像大小由6600×4400统一调整至448×448像素,进一步导致小部件的特征信息丢失,因此对于小部件的检测不友好。且单阶段算法会因正负样本筛选不均衡导致在接触网多类部件检测中性能较差。
中国专利文献CN 115272700A公开了基于多尺度特征自增强的改进SSD小目标检测方法,其中使用的多尺度辅助特征提取模块MAFE补充了特征层的细粒度信息,并捕获了局部和全局上下文信息,但过度关注于层间特征交互而忽略了层内特征表示,会导致遮挡情况下以及部件分布密集情况下零部件检测性能差。
发明内容
本发明的目的在于,提出一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其提高了多种零部件在图像背景复杂、噪声大、部分模糊不清情况下的识别准确度;降低了零部件在密集遮挡时的误检率和漏检率;面对多形态多角度且比例差异大的零部件,具有更强的泛化能力、鲁棒性更高。
为实现上述目的,本申请提出的一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,包括:
对高铁接触网图像数据集先进行离线增强,再进行在线增强;
基于改进的Faster R-CNN算法对高铁接触网图像进行特征提取:先通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图,并在提取过程中加入SK注意力机制,自适应调整感受野大小;将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合,得到多尺度特征信息后再送至区域建议网络RPN生成候选框;然后通过ROI Align层为每一个候选框生成固定尺寸大小的特征图;最后分类网络对候选框内的物体进行类别预测并调整边界框。
进一步的,使用Mixup方法对高铁接触网图像数据集进行离线增强,其公式为:
λ=Beta(α,β)
mixed_batchx=λ*batchx1+(1-λ)*batchx2
mixed_batchy=λ*batchy1+(1-λ)*batchy2
其中,batchx1、batchx2是数据增强Mixup的两个bach样本,batchy1、batchy2是每个bach样本对应的标签;mixed_batchx是混合后的样本,mixed_batchy是混合后bach样本对应的标签;Beta表示贝塔分布,λ是由参数α,β贝塔分布计算出来的混合系数。
进一步的,离线增强后,以8:1:1的比例将高铁接触网图像数据集划分为训练集、测试集、验证集。
进一步的,在线增强具体为:以一定概率对训练集的高铁接触网图像进行随机翻转、裁剪、缩放、添加高斯噪声、调整HSV对比度、调节亮度。
进一步的,SK注意力机制包括Split操作、Fuse操作、Select操作;
所述Split操作:对于任意输入的高铁接触网特征图X,进行
Figure BDA0004161017610000041
Figure BDA0004161017610000042
两个卷积变换,使用的卷积核大小分别为3x3和5x5,公式如下:
Figure BDA0004161017610000043
Figure BDA0004161017610000044
其中,H、W为变换后高铁接触网特征图X的长、宽,C为通道数,
Figure BDA0004161017610000045
为卷积变换公式,/>
Figure BDA0004161017610000046
和/>
Figure BDA0004161017610000047
为卷积操作后得到的特征图信息;
所述Fuse操作:先将上述两个特征图信息
Figure BDA0004161017610000048
和/>
Figure BDA0004161017610000049
进行逐元素相加融合得到特征U,如下式所示:
Figure BDA00041610176100000410
然后使用全局平均池化操作来获取特征U的全局信息,如下式所示:
Figure BDA00041610176100000411
其中,Sc是有C个元素的列向量,
Figure BDA00041610176100000412
为全局平均池化操作函数;
最后,通过全连接层将全局信息Sc压缩为特征信息z;如下式所示:
Figure BDA00041610176100000413
其中
Figure BDA00041610176100000414
是全连接层的操作函数,δ是ReLU函数,/>
Figure BDA00041610176100000415
是批量归一化操作,Ws是权重矩阵。
Select操作:压缩特征信息z通过卷积核A、卷积核B进行卷积操作,再经过Softmax处理,得到卷积核对应的通道注意力信息a、b,具体如下:
Figure BDA0004161017610000051
其中,卷积核A,B∈RC×d,a、b表示特征图信息
Figure BDA0004161017610000052
和/>
Figure BDA0004161017610000053
的通道注意力信息,Ac∈R1×d是A的第c行,Bc∈R1×d是B的第c行,ac是a的第c个元素,bc是b的第c个元素;最终的特征映射V通过将各卷积核的通道注意力特征图加权相加获得,如下式所示:
Figure BDA0004161017610000054
其中V=[V1,V2,...,VC],Vc∈RH×W
Figure BDA0004161017610000055
表示第c个通道的特征图上的每个点都乘以ac;/>
Figure BDA0004161017610000056
表示第c个通道的特征图上的每个点都乘以bc
更进一步的,在特征金字塔模块FPN内进行自底向上操作,自顶向下操作和横向连接操作;
自底向上操作即卷积网络的前向传播过程,以2的整数倍进行降采样;对于不改变特征图的层,将其归为一个级stage,抽取每个级stage的最后一层作为输出构成特征金字塔;
自顶向下操作是将高层得到的特征图进行上采样然后往下传递;
横向连接操作分为三个步骤:先对每个级stage输出的特征图Cn进行1×1的卷积;再与上一层特征图Pn+1进行融合;最后再进行3×3的卷积,得到本层输出的特征图Pn
更进一步的,所述区域建议网络RPN分为分类层和边界回归层;分类层用来判断锚框内是否含有物体,该层通过Softmax将锚框进行前景背景的二分类,输出锚框中含有物体的概率,具体概率计算过程为:对于每一个锚框,如果它与真实物体标注框的IOU值大于0.7,判为前景,即表示该锚框中包含物体;如果IOU值小于0.1则判为背景,即表示该锚框中不包含物体;如果IOU值大于等于0.1且小于等于0.7,则忽略,如下式所示:
Figure BDA0004161017610000061
边界回归层用来获取边界框的偏移值,以此来调整锚框位置更好地框住物体,该层只对前景计算边界回归损失。
更进一步的,通过ROI Align层为每一个候选框生成固定尺寸大小的特征图,具体为:
遍历每个候选框,保持浮点数边界不做量化;
将所述候选框平均划分为k×k个单元,保持每个单元的边界不做量化;
对于每个单元取固定4个点的坐标,使用双线性插值法得到这四个位置的加权值,然后进行最大池化操作。
本发明采用的以上技术方案,与现有技术相比,具有的优点是:在预处理阶段,提供的图像数据增强方案更适合高铁接触网图像数据集,能够有效防止过拟合;在训练阶段,改进算法使小部件的检测精确度进一步提高,且面对复杂的铁路场景表现得鲁棒性更强、泛化能力更高,为实际高铁接触网智能检测提供了一套高精度的可行方案。
附图说明
图1本申请实施例提供的整体流程图;
图2是本申请实施例提供的改进的Faster R-CNN框架图;
图3是本申请实施例提供的真实框尺寸分析结果图。
具体实施方法
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请,即所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
实施例1
如图1所示,本发明公开了一种高铁接触网零部件目标检测方法,针对多形态多角度且比例差异大的零部件,本发明根据高铁接触网图像的特点,使用离线与在线增强的方式进行图像增强,使数据集更接近于真实检测场景,提高泛化能力;其次,根据对标注样本中真实框的分析结果,调整RPN网络的锚框参数,加强对多尺寸部件的检测性能。针对图像背景复杂、噪声大、部分模糊不清的情况,本发明加入特征金字塔模块FPN进行多尺度特征融合,在一定程度上减少了浅层特征信息的丢失,增强对小部件的检测性能;其次在骨干网络中引入SK注意力机制,使算法能够自适应得调整感受野大小,进一步提升分类能力,加强鲁棒性。针对密集遮挡时部件难以判别的情况,本发明使用更精确的ROI Align层替换原始的ROI Pooling层,减少量化计算带来的偏差,提高算法分类和定位的准确性,降低误检率、漏检率。其具体实现方法为:
S1.对高铁接触网图像数据集先进行离线增强,再进行在线增强;
具体的,高铁接触网图像中常呈现多角度、多形态、多背景,本发明根据上述特点,使用离线与在线结合方式进行数据增强,使高铁接触网图像数据集更加接近铁路的各种真实场景。
S1.1离线增强是训练前对高铁接触网图像数据集进行处理,在离线状态下扩充数据集数量;本发明使用Mixup方法对高铁接触网图像数据集进行离线增强,从4768张扩增至6500张,并以8:1:1的比例将数据集划分为训练集、测试集、验证集;
Mixup是一种以线性插值方式构建新的训练样本和标签的混类增强算法;其公式为:
λ=Beta(α,β)
mixed_batchx=λ*batchx1 +(1-λ)*batchx2
mixed_batchy=λ*batchy1 +(1-λ)*batchy2
其中,batchx1、batchx2是数据增强Mixup的两个bach样本,batchy1、batchy2是每个bach样本对应的标签;mixed_batchx是混合后的样本,mixed_batchy是混合后bach样本对应的标签;Beta表示贝塔分布,λ是由参数α,β贝塔分布计算出来的混合系数。
S1.2在线增强是在训练时对加载到的数据进行预处理,不改变实际训练数据的数量。本实施例以0.4的概率对训练数据进行随机翻转、裁剪、缩放、添加高斯噪声、调整HSV对比度、调节亮度,再送入神经网络进行训练。
S2.基于改进的Faster R-CNN算法对高铁接触网图像进行特征提取;
具体的,针对高铁接触网图像背景复杂、零部件尺寸较小且存在遮挡导致识别率较低的问题,本发明提出一种改进的Faster R-CNN算法。如图2所示先通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图,并在提取过程中加入SK注意力机制,自适应调整感受野大小;将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合,得到多尺度特征信息后再送至区域建议网络RPN生成候选框;然后通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图;最后分类网络对候选框内的物体进行类别预测并调整边界框。
SK注意力机制可以自适应调节感受野大小,针对不同尺度的高铁接触网图像动态生成卷积核。对于输入的高铁接触网特征图,可以在不改变其大小的情况下增强通道信息的表达。其中,主要包括Split、Fuse、Select三个操作,具体解释如下:
1)所述Split操作:对于任意输入的高铁接触网特征图X,进行
Figure BDA0004161017610000091
两个卷积变换,使用的卷积核大小分别为3x3和5x5,公式如下:
Figure BDA0004161017610000092
Figure BDA0004161017610000093
其中,H、W为变换后高铁接触网特征图X的长、宽,C为通道数,
Figure BDA0004161017610000094
为卷积变换公式,/>
Figure BDA0004161017610000095
和/>
Figure BDA0004161017610000096
为卷积操作后得到的特征图信息;
2)所述Fuse操作:先将上述两个特征图信息
Figure BDA0004161017610000101
和/>
Figure BDA0004161017610000102
进行逐元素相加融合得到特征U,如下式所示:
Figure BDA0004161017610000103
然后使用全局平均池化操作来获取特征U的全局信息,如下式所示:
Figure BDA0004161017610000104
其中,Sc是有C个元素的列向量,
Figure BDA0004161017610000105
为全局平均池化操作函数;
最后,通过全连接层将全局信息Sc压缩为特征信息z;如下式所示:
Figure BDA0004161017610000106
其中
Figure BDA0004161017610000107
是全连接层的操作函数,δ是ReLU函数,/>
Figure BDA0004161017610000108
是批量归一化操作,Ws是权重矩阵;
3)Select操作:压缩特征信息z通过卷积核A、卷积核B进行卷积操作,再经过Softmax处理,得到卷积核对应的通道注意力信息a、b,具体如下:
Figure BDA0004161017610000109
其中,卷积核A,B∈RC×d,a、b表示特征图信息
Figure BDA00041610176100001010
和/>
Figure BDA00041610176100001011
的通道注意力信息,Ac∈R1×d是A的第c行,Bc∈R1×d是B的第c行,ac是a的第c个元素,bc是b的第c个元素;最终的特征映射V通过将各卷积核的通道注意力特征图加权相加获得,如下式所示:
Figure BDA00041610176100001012
其中V=[V1,V2,...,VC],Vc∈RH×W
Figure BDA0004161017610000111
表示第c个通道的特征图上的每个点都乘以ac;/>
Figure BDA0004161017610000112
表示第c个通道的特征图上的每个点都乘以bc
特征金字塔模块FPN(Feature Pyramid Networks)将高层的强语义特征与低卷积层的强分辨率信息进行融合,使算法适应多尺度检测带来的位置多样性。由于接触网中零部件尺寸不一且差异较大,所以本发明在骨干网络后加入特征金字塔模块FPN,提高算法对不同尺度的零部件尤其是小部件的检测准确性。其主要包括三个部分:自底向上(bottom-up pathway),自顶向下(top-down pathway)和横向连接(lateral connections)。
1)自底向上即卷积网络的前向传播过程,以2的整数倍进行降采样;对于不改变特征图的层,将其归为一个级stage,抽取每个级stage的最后一层作为输出构成特征金字塔;
2)自顶向下是将高层得到的特征图进行上采样然后往下传递;
3)横向连接分为三个步骤:先对每个级stage输出的特征图Cn进行1×1的卷积;再与上一层特征图Pn+1进行融合;最后再进行3×3的卷积,得到本层输出的特征图Pn
以每个像素为中心,生成多个缩放比和宽高比(Aspectratio)不同的边界框,这些边界框被称为锚框(Anchorbox)。在网络中输入合适大小的锚框,可以使算法收敛得更快更好。本实施例对标注样本中12个类别对应的真实框值进行分析,分别统计对应的真实框长宽比和面积,然后取分析数据的中值作为区域建议网络RPN生成锚框时的锚框参数,分析结果如图3所示。
在Faster R-CNN中,ROI Pooling(感兴趣区域池化)负责将RPN输出的候选框映射成大小固定(w*h)的矩形框。但在该过程中存在多次量化操作,每一次量化操作都会对应着轻微的区域特征错位,进而影响整个网络的精确性。RoI Align层针对此问题做了改进,其具体为:
1)遍历每个候选框,保持浮点数边界不做量化;
2)将所述候选框平均划分为k×k个单元,保持每个单元的边界不做量化;
3)对于每个单元取固定4个点的坐标,使用双线性插值法得到这四个位置的加权值,然后进行最大池化操作。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims (8)

1.一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,包括:
对高铁接触网图像数据集先进行离线增强,再进行在线增强;
基于改进的Faster R-CNN算法对高铁接触网图像进行特征提取:先通过Resnet50骨干网络对高铁接触网图像进行特征提取得到高铁接触网特征图,并在提取过程中加入SK注意力机制,自适应调整感受野大小;将调整后的高铁接触网特征图送至特征金字塔模块FPN进行特征融合,得到多尺度特征信息后再送至区域建议网络RPN生成候选框;然后通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图;最后分类网络对候选框内的物体进行类别预测并调整边界框。
2.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,使用Mixup方法对高铁接触网图像数据集进行离线增强,其公式为:
λ=Beta(α,β)
mixed_batchx=λ*batchx1+(1-λ)*batchx2
mixed_batchy=λ*batchy1+(1-λ)*batchy2
其中,batchx1、batchx2是数据增强Mixup的两个bach样本,batchy1、batchy2是每个bach样本对应的标签;mixed_batchx是混合后的样本,mixed_batchy是混合后bach样本对应的标签;Beta表示贝塔分布,λ是由参数α,β贝塔分布计算出来的混合系数。
3.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,离线增强后,以8:1:1的比例将高铁接触网图像数据集划分为训练集、测试集、验证集。
4.根据权利要求3所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,在线增强具体为:以一定概率对训练集的高铁接触网图像进行随机翻转、裁剪、缩放、添加高斯噪声、调整HSV对比度、调节亮度。
5.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,SK注意力机制包括Split操作、Fuse操作、Select操作;
所述Split操作:对于任意输入的高铁接触网特征图X,进行
Figure FDA0004161017600000021
Figure FDA0004161017600000022
两个卷积变换,使用的卷积核大小分别为3x3和5x5,公式如下:
Figure FDA0004161017600000023
Figure FDA0004161017600000024
其中,H、W为变换后高铁接触网特征图X的长、宽,C为通道数,
Figure FDA0004161017600000025
为卷积变换公式,/>
Figure FDA0004161017600000026
和/>
Figure FDA0004161017600000027
为卷积操作后得到的特征图信息;
所述Fuse操作:先将上述两个特征图信息
Figure FDA0004161017600000028
和/>
Figure FDA0004161017600000029
进行逐元素相加融合得到特征U,如下式所示:
Figure FDA00041610176000000210
然后使用全局平均池化操作来获取特征U的全局信息,如下式所示:
Figure FDA00041610176000000211
其中,Sc是有C个元素的列向量,
Figure FDA00041610176000000212
为全局平均池化操作函数;
最后,通过全连接层将全局信息Sc压缩为特征信息z;如下式所示:
Figure FDA0004161017600000031
其中
Figure FDA0004161017600000032
是全连接层的操作函数,δ是ReLU函数,/>
Figure FDA0004161017600000033
是批量归一化操作,Ws是权重矩阵;
Select操作:压缩特征信息z通过卷积核A、卷积核B进行卷积操作,再经过Softmax处理,得到卷积核对应的通道注意力信息a、b,具体如下:
Figure FDA0004161017600000034
其中,卷积核A,B∈RC×d,a、b表示特征图信息
Figure FDA0004161017600000035
和/>
Figure FDA0004161017600000036
的通道注意力信息,Ac∈R1×d是A的第c行,Bc∈R1×d是B的第c行,ac是a的第c个元素,bc是b的第c个元素;最终的特征映射V通过将各卷积核的通道注意力特征图加权相加获得,如下式所示:
Figure FDA0004161017600000037
其中V=[V1,V2,...,VC],Vc∈RH×W
Figure FDA0004161017600000038
表示第c个通道的特征图上的每个点都乘以ac;/>
Figure FDA0004161017600000039
表示第c个通道的特征图上的每个点都乘以bc
6.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,在特征金字塔模块FPN内进行自底向上操作,自顶向下操作和横向连接操作;
自底向上操作即卷积网络的前向传播过程,以2的整数倍进行降采样;对于不改变特征图的层,将其归为一个级stage,抽取每个级stage的最后一层作为输出构成特征金字塔;
自顶向下操作是将高层得到的特征图进行上采样然后往下传递;
横向连接操作分为三个步骤:先对每个级stage输出的特征图Cn进行1×1的卷积;再与上一层特征图Pn+1进行融合;最后再进行3×3的卷积,得到本层输出的特征图Pn
7.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,所述区域建议网络RPN分为分类层和边界回归层;分类层用来判断锚框内是否含有物体,该层通过Softmax将锚框进行前景背景的二分类,输出锚框中含有物体的概率,具体概率计算过程为:对于每一个锚框,如果它与真实物体标注框的IOU值大于0.7,判为前景,即表示该锚框中包含物体;如果IOU值小于0.1则判为背景,即表示该锚框中不包含物体;如果IOU值大于等于0.1且小于等于0.7,则忽略,如下式所示:
Figure FDA0004161017600000041
边界回归层用来获取边界框的偏移值,以此来调整锚框位置更好地框住物体,该层只对前景计算边界回归损失。
8.根据权利要求1所述一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法,其特征在于,通过ROIAlign层为每一个候选框生成固定尺寸大小的特征图,具体为:
遍历每个候选框,保持浮点数边界不做量化;
将所述候选框平均划分为k×k个单元,保持每个单元的边界不做量化;
对于每个单元取固定4个点的坐标,使用双线性插值法得到这四个位置的加权值,然后进行最大池化操作。
CN202310349651.0A 2023-04-04 2023-04-04 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法 Pending CN116363105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310349651.0A CN116363105A (zh) 2023-04-04 2023-04-04 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310349651.0A CN116363105A (zh) 2023-04-04 2023-04-04 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法

Publications (1)

Publication Number Publication Date
CN116363105A true CN116363105A (zh) 2023-06-30

Family

ID=86904530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310349651.0A Pending CN116363105A (zh) 2023-04-04 2023-04-04 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法

Country Status (1)

Country Link
CN (1) CN116363105A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132761A (zh) * 2023-08-25 2023-11-28 京东方科技集团股份有限公司 目标检测方法及装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132761A (zh) * 2023-08-25 2023-11-28 京东方科技集团股份有限公司 目标检测方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
Rahman et al. Defects inspection in polycrystalline solar cells electroluminescence images using deep learning
Anagnostopoulos et al. A license plate-recognition algorithm for intelligent transportation system applications
CN112508090A (zh) 一种外包装缺陷检测方法
CN110569782A (zh) 一种基于深度学习目标检测方法
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN111008632A (zh) 一种基于深度学习的车牌字符分割方法
CN116363105A (zh) 一种基于Faster R-CNN的高铁接触网零部件识别与定位的方法
CN114742799A (zh) 基于自监督异构网络的工业场景未知类型缺陷分割方法
Asgarian Dehkordi et al. Vehicle type recognition based on dimension estimation and bag of word classification
CN116758340A (zh) 基于超分辨率特征金字塔和注意力机制的小目标检测方法
CN116092179A (zh) 一种改进的yolox跌倒检测系统
CN113920468A (zh) 一种基于跨尺度特征增强的多分支行人检测方法
CN117037119A (zh) 基于改进YOLOv8的道路目标检测方法及系统
CN116246059A (zh) 一种基于改进的yolo多尺度检测的车辆目标识别方法
CN114820541A (zh) 基于重构网络的缺陷检测方法
CN114048789A (zh) 基于改进Cascade R-CNN的酒瓶瑕疵检测
CN111612803B (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN117252815A (zh) 基于2d-3d多模态图像的工业零件缺陷检测方法、系统、设备及存储介质
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
CN112257708A (zh) 一种字符级文本检测方法、装置、计算机设备及存储介质
CN111881914A (zh) 一种基于自学习阈值的车牌字符分割方法及系统
CN114078106A (zh) 基于改进Faster R-CNN的疵点检测方法
CN115578339A (zh) 工业产品表面缺陷检测与定位方法、系统及设备
CN114581722A (zh) 一种基于孪生残差网络的二阶段多分类工业图像缺陷检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination