CN116912574A - 一种基于孪生网络的多尺度目标感知分类方法及系统 - Google Patents
一种基于孪生网络的多尺度目标感知分类方法及系统 Download PDFInfo
- Publication number
- CN116912574A CN116912574A CN202310860208.XA CN202310860208A CN116912574A CN 116912574 A CN116912574 A CN 116912574A CN 202310860208 A CN202310860208 A CN 202310860208A CN 116912574 A CN116912574 A CN 116912574A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- scale target
- target perception
- twin network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008447 perception Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013145 classification model Methods 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000007547 defect Effects 0.000 claims abstract description 45
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000012360 testing method Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 28
- 238000001914 filtration Methods 0.000 claims description 23
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000013100 final test Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000010030 laminating Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 10
- 238000005286 illumination Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于孪生网络的多尺度目标感知分类方法及系统,包括:获取已定位的支撑管卡子各项点图像并进行预处理,得到预处理后的各项点图像;根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;对基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。本发明方法对接触网4C定位支撑管卡子区域缺陷识别准确度高,且识别效率高。
Description
技术领域
本发明涉及接触网4C定位支撑管卡子区域缺陷分类技术领域,具体涉及一种基于孪生网络的多尺度目标感知分类方法及系统。
背景技术
现有的孪生神经网络缺陷检测技术方案目前主要有:申请号为“201911394231.4”、名称为“基于孪生神经网络利用模板比对的缺陷检测系统及方法”的现有技术,利用孪生神经网络,将待检图像与模板图像输入到两个ResNet主干网络中提取特征信息并且共享权重,最后利用softmax对拼接向量进行计算得到缺陷的检测结果。
然而,基于接触网现场缺陷数量少,同类型差异大的问题,且自然拍摄环境存在诸多干扰包括遮挡、光照变化、运动模糊、旋转等特点,直接采用以上方法会造成定位支撑管卡子区域缺陷分类及识别准确度不高、效率低等问题。因此,以上现有方法并不适应接触网4C定位支撑管卡子区域缺陷分类。
发明内容
本发明目的在于提供一种基于孪生网络的多尺度目标感知分类方法及系统,本发明将孪生神经网络在铁路4C接触网领域应用,将切合接触网现场缺陷数量少,及自然拍摄环境存在诸多干扰包括遮挡、光照变化、运动模糊、旋转等特点,对孪生神经网络结构进行优化改良来设计合理、有效的算法,使其达到实时、高效、泛化性强的效果;并通过将待检测定位支撑管卡子各项点图像与模板图像输入到已训练的网络中得出检测结果。本发明方法对接触网4C定位支撑管卡子区域缺陷分类准确度高,且效率高。
本发明通过下述技术方案实现:
第一方面,本发明提供了一种基于孪生网络的多尺度目标感知分类方法,该方法包括:
获取已定位的支撑管卡子各项点图像并进行预处理,得到预处理后的各项点图像;
根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;
对基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;
利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。
进一步地,预处理包括:
将获取的已定位的支撑管卡子各项点图像数据(此为小样本图像数据)进行分类,形成不同的缺陷样本集和合格样本集;
采用数据增强图像翻转结合加权加法,对已定位的支撑管卡子项点少的样本集进行扩充操作,得到扩充后的对应样本集;
根据扩充后的对应样本集,将各样本集进行划分为训练集、验证集和测试集,训练集样本用以训练优化模型,测试集样本用以预测评估模型性能,验证集样本用以评估模型的泛化能力调整选择网络参数。
进一步地,数据增强图像翻转结合加权加法包括均值滤波法和图像翻转结合加权加法;
首先,通过均值滤波法对已定位的支撑管卡子项点少的样本集进行滤波处理,得到滤波处理后的样本集;
其次,采用图像翻转结合加权加法对滤波处理后的样本集进行旋转、镜像和调整对比度处理,得到翻转后的样本集,并作为扩充后的对应样本集。
进一步地,图像翻转结合加权加法的公式为:
其中,dstij表示加权平均翻转后第i行j列个元素的像素值,src表示滤波处理后的样本集图像,表示滤波处理后的样本集图像的权重,γ表示校正偏移量,调节对比度。
进一步地,不同的缺陷样本集包括螺栓区域正面朝向样本集和螺栓区域反面朝向样本集;
螺栓区域正面朝向样本集包括螺母缺失、螺栓缺失、螺母松动和开口销缺失;
螺栓区域反面朝向样本集包括螺栓松动。
进一步地,基于孪生网络的多尺度目标感知分类模型包括特征聚合模块、注意力模块和多尺寸对象感知模块;
特征聚合模块,用于通过改进后的主干网络resnet50提取模板块和测试块之间的特征信息;
注意力模块,用于分别结合模板特征、测试特征的关键局部信息对相关特征信息进行微调;
多尺寸对象感知模块,用于通过固定感受野得到多尺度空间信息。
进一步地,基于孪生网络的多尺度目标感知分类模型进行特征提取的步骤为:
分别接收两个输入图像,两个输入图像包括项点模板图像和项点测试图像;
经过改进后的主干网络resnet50进行三层特征提取后,得到项点模板图像特征和项点测试图像特征;
将项点模板图像特征和项点测试图像特征两两进行像素相关后按通道连接,并进行特征融合生成一个更高维的融合特征;
将融合特征输入注意力模块中,将融合特征的每一层特征图通过全局平均池化层压缩成一条压缩向量;
将压缩向量输入一个两层的多层感知机,使用sigmoid函数将通道注意力权重映射到0-1之间;
将通道注意力权重与融合特征逐通道进行元素相乘,再将相乘后的融合结果与融合特征相加完成非局部注意力优化,得到优化后的相关特征;
将相关特征并行输入三个相似卷积模块,获得三个特征;并将获得的三个特征按比例线性相加,得到聚合多尺度对象信息后的最终特征。
进而,在后续使用基于孪生网络的多尺度目标感知分类模型进行分类时,根据最终特征,计算欧氏距离;并通过欧氏距离结果进行分类预测。
进一步地,通过改进后的主干网络resnet50提取模板块和测试块之间的特征信息,包括:
通过激活函数将预处理后的各项点图像输入至两个并行的残差块中,通过两个并行的残差块增强特征的提取;
经过两个并行的残差块的图像输出至三个串行残差块和反卷积块中增强超分辨率,获得超分辨率图像。
进一步地,对基于孪生网络的多尺度目标感知分类模型进行模型训练,训练过程中采用随机梯度下降算法迭代训练若干次,并保存每次训练结果;每次训练的具体步骤为:
分别将项点模板图像和项点测试图像输入至基于孪生网络的多尺度目标感知分类模型中,提取得到聚合多尺度对象信息后的最终模板特征和最终测试特征;
计算最终模板特征和最终测试特征之间的欧氏距离;
对欧氏距离进行两次全连接,且第二次全连接到一个神经元上,并对这份神经元的结果进行sigmoid激活,得到两个输入图像的相似程度并作为训练结果。
第二方面,本发明又提供了一种基于孪生网络的多尺度目标感知分类系统,该系统使用上述的一种基于孪生网络的多尺度目标感知分类方法;该系统包括:
获取单元,用于获取已定位的支撑管卡子各项点图像;
预处理单元,用于对各项点图像进行预处理,得到预处理后的各项点图像;
分类模型构建单元,用于根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;
模型训练单元,用于对基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;
缺陷分类单元,用于利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明一种基于孪生网络的多尺度目标感知分类方法及系统,本发明将孪生神经网络在铁路4C接触网领域应用,将切合接触网现场缺陷数量少,及自然拍摄环境存在诸多干扰包括遮挡、光照变化、运动模糊、旋转等特点,对孪生神经网络结构进行优化改良来设计合理、有效的算法,使其达到实时、高效、泛化性强的效果;并通过将待检测定位支撑管卡子各项点图像与模板图像输入到已训练的网络中得出检测结果。本发明方法对接触网4C定位支撑管卡子区域缺陷分类准确度高,且效率高。其中:
(1)针对于数据集受环境变化存在光照影响和空间运动状态分布不同的特点,通过数据增强图像翻转结合加权加法的方法来扩充样本集。
(2)针对于缺陷样本较少,同类型差异大的问题,本发明在SiamMOP网络中采取了一种特征融合方法,通过提取ResNet三层卷积层输出特征利用像素级相关通道结合的方式提升算法鲁棒性。
(3)针对于运动模糊,缺陷不明显的问题,提出了增加注意力机制,结合融合特征和注意力权值完成非局部注意力优化。
(4)对主干网络进行改良,在残差模块中将串行连接改为多个并行连接网络,在SiamMOP网络中增加多尺度感知模块获得更全面更准确的特征信息。
(5)针对于本发明SiamMOP网络的深层结构训练时效性问题,引入了一种梯度下降快速迭代的优化算法。
(6)针对于样本分辨率,无法有效提取特征的情况,本发明引入了超分辨率模块,有效的提升算法表面特征提取效果。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种基于孪生网络的多尺度目标感知分类方法流程图;
图2为本发明改进后的主干网络resnet50流程图;
图3为本发明改进的残差模块图;
图4为本发明超分辨率模块结构图;
图5为本发明原始图像与超分辨率效果图对比图;
图6为本发明改进后的SiamMOP网络结构图;
图7为本发明正面朝向样本集示意图;
图8为本发明反面朝向的样本集示意图;
图9为本发明开口销缺失数据旋转对比度提升示意图;
图10为本发明缺陷样本和正常样本的相似度对比示意图;
图11为本发明正常样本相似度对比示意图;
图12为本发明一种基于孪生网络的多尺度目标感知分类系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
基于接触网现场缺陷数量少,同类型差异大的问题,且自然拍摄环境存在诸多干扰包括遮挡、光照变化、运动模糊、旋转等特点,直接采用现有缺陷分类方法会造成定位支撑管卡子区域缺陷分类及识别准确度不高、效率低等问题。因此,现有缺陷方法并不适应接触网4C定位支撑管卡子区域缺陷分类。
本发明设计了一种基于孪生网络的多尺度目标感知分类方法及系统,本发明将孪生神经网络在铁路4C接触网领域应用,将切合接触网现场缺陷数量少,及自然拍摄环境存在诸多干扰包括遮挡、光照变化、运动模糊、旋转等特点,对孪生神经网络结构进行优化改良来设计合理、有效的算法,使其达到实时、高效、泛化性强的效果;并通过将待检测定位支撑管卡子各项点图像与模板图像输入到已训练的网络中得出检测结果。本发明方法对接触网4C定位支撑管卡子区域缺陷分类准确度高,且效率高。
具体地,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型,如下:
第一,主干网络设计,设计如下:
本发明的主干网络将使用在图像分类任务性能表现更好的resnet50残差网络,网络层数的增加能够提取到的特征更加抽象,对于传统的CNN网络单一的增加网络深度容易导致梯度消失和爆炸,通过构建恒等映射来解决退化问题。
H(x)=F(x)+x
其中F(x)是求和前网络映射,H(x)是输入到求和后的网络映射,引入残差的映射堆输出变化更加明显,对权重的调整作用更大,效果更好。
其中残差块(Bottleneck)结构,引入了1*1卷积对通道数进行了升维和降维,实现了多个特征图的线性组合,保留了原有特征图大小,同时每个卷积层增加一个relu激活函数,引入更多的非线性映射降低运算复杂度。
针对于同类型样本分布差异大,导致分类器难以正确分类识别,本发明对主干网络resnet50进行改进,得到改进后的主干网络resnet50,改进后的主干网络resnet50的流程如图2所示;
本发明三个改进部分如图2所示,针对于layer5改进了第一个Bottlneck里下采样顺序步骤并将其与第二个Bottlneck进行并行连接和增加最大池化的操作,同时引入两个串行Bottlneck和一个反卷积块组成超分辨率结构。layer3、layer4同理,相较于layer5少了一个下采样改进步骤。
三个改进部分如下:
(1)改进下采样(downsample)部分
根据表1所示输入图像进入到最后一个卷积层后首先会经历一个1*1,stride=2的卷积,其会导致最终的输入特征图3/4的信息不被利用,为了避免特征信息大量流失,将下采样移到后面3*3卷积去做,并且移除全局平均池化层以及后面部分。
表1RestNet50特征提取网络结构
(2)改进的残差块
将原始残差块中的串行连接网络变成多个并行连接网络,可以在多尺度上同时进行卷积再聚合,提取到不同尺度的特征,使其变成一个稀疏性、高计算性能的网络结构;通过直接将输入信息绕道传输,保护信息的完整性。其改进的残差模块如图3所示。
(3)增加超分辨率模块
在实际场景中,往往存在数据集分辨率过低,从而无法有效提取特征的情况。低分辨率的图像会对表面特征学习造成负面影响,因此本发明设计了一个超分辨率模块。主要使用了多个残差块作为提取特征的主要结构,最后使用反卷积模块增大特征图尺寸。如图4所示,超分辨率模块主体由3个残差块组成和一个反卷积块组成。为了平衡算法特征提取效果,本发明对原始分辨率a×a低于64的目标模板进行超分辨率,得到分辨率为2a×2a的超分辨率目标模板,其效果如图5所示。
第二,基于孪生网络的多尺度目标感知分类模型,设计如下:
(1)、基于孪生网络的多尺度目标感知分类模型的SiamMOP网络
由于样本数据集受变化的外部环境特征影响明显和存在空间形态多样化以及模糊的特点导致其同类型样本相似度差距也较大,为了更好地得到全局特征,提升算法鲁棒性。本发明结合ResNet网络和孪生网络框架改良了SiamMOP网络结构如图6所示。
本发明摒弃了之前SiamMOP的无锚预测模块,针对于模板输入和测试输入分支为两个分路通过精细特征聚合之后,分别引入注意力模块和多尺度感知模块,再将最终得到的特征取欧氏距离进行分类预测。
为了对比两个输入的相似度,孪生网络是个极佳的结构,可以满足实时性提取特征并共享权重。改进的SiamMOP网络共分为三个子模块:精细特征聚合模块、注意力模块、多尺度感知模块,SiamMOP从共享的特征提取网络ResNet开始,通过精细特征聚合模块聚合模板块和测试块之间的特征信息;然后注意力模块分别结合模板、测试特征的关键局部信息对相关特征进行微调;多尺度感知模块通过固定感受野得到多尺度空间信息。
(2)SiamMOP特征提取方法设计
分别接收两个输入图像,两个输入图像包括项点模板图像和项点测试图像;
经过改进后的主干网络resnet50进行三层特征提取后,得到项点模板图像特征和项点测试图像特征;
将项点模板图像特征和项点测试图像特征两两进行像素相关(pixel-wisecorrelation)后按通道连接,并进行特征融合生成一个更高维的融合特征;
将融合特征输入注意力模块中,将融合特征的每一层特征图通过全局平均池化层(global average pooling layer)压缩成一条压缩向量;
将压缩向量输入一个两层的多层感知机,使用sigmoid函数将通道注意力权重映射到0-1之间;
将通道注意力权重与融合特征逐通道进行元素相乘,再将相乘后的融合结果与融合特征相加完成非局部注意力优化,得到优化后的相关特征;
将相关特征并行输入三个相似卷积模块,获得三个特征;并将获得的三个特征按比例线性相加,得到聚合多尺度对象信息后的最终特征;
进而,在后续使用基于孪生网络的多尺度目标感知分类模型进行分类时,根据最终特征,计算欧氏距离;并通过欧氏距离结果进行分类预测。
另外,针对于数据集受环境变化存在光照影响和空间运动状态分布不同的特点,本发明还提出了通过数据增强图像翻转结合加权加法的方法来扩充样本集。
实施例1
如图1所示,本发明一种基于孪生网络的多尺度目标感知分类方法,该方法包括:
获取已定位的支撑管卡子各项点图像并进行预处理,得到预处理后的各项点图像;
根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;
对基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;
利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。
作为进一步地实施,基于孪生网络的多尺度目标感知分类模型包括特征聚合模块、注意力模块和多尺寸对象感知模块;
特征聚合模块,用于通过改进后的主干网络resnet50提取模板块和测试块之间的特征信息;
注意力模块,用于分别结合模板特征、测试特征的关键局部信息对相关特征信息进行微调;
多尺寸对象感知模块,用于通过固定感受野得到多尺度空间信息。
作为进一步地实施,通过基于孪生网络的多尺度目标感知分类模型进行特征提取的步骤为:
分别接收两个输入:项点模板图像xtemp与项点测试图像xtest,经过主干backbone网络(CONV3,CONV4,CONV5)后三层特征提取之后得到项点模板图像特征项点测试图像特征/>以项点模板图像输入为例,把项点模板图像特征/>分解为h×w个子卷积核ki∈Rc,i∈{1,…,h*w},将每个子卷积核与/>进行基础相关后按通道进行连接,其中w、h为特征/>的宽、高,c为通道数,Rk为得到的特征,其数学公式如下:
将获得的特征和/>两两进行像素相关(pixel-wise correlation)后按通道连接,进行特征融合生成一个更高维的融合特征Rc:
将融合特征Rc输入通道注意力模块SENet中,将融合特征Rc每一层特征图通过全局平均池化层(global average pooling layer)压缩成一条向量。其公式如下:
其中H和W是融合特征Rc的高和宽,然后将向量输入一个两层的多层感知机((multi-layer perception),使用sigmoid函数将通道注意力权重映射到0-1之间,数学表达式如下:
AC=σ(L2RELU(L1S))
其中和/>是两个全连接层,σ表示激活函数,AC是获得的通道注意力权值,将通道注意力权值与融合特征Rc逐通道进行元素相乘,其中⊙表示元素相乘:
其中最后与融合特征Rc相加完成非局部注意力优化,其中表示元素间求和,公式如下:
将相关特征RA并行输入三个相似卷积模块φa,b,(a,b)∈{(7,7),(7,13),(13,7),将获得的三个特征φa,b按比例线性相加:
其中a,b表示卷积模块的总卷积核尺寸,Xmop是聚合多尺度对象信息后的特征,aa,b是网络一起训练的超参数,分别使用了串联的三个小卷积层φ7,7、φ7,13、φ13,7,kernelsize分别为(3,3),(3,5),(5,3),stride均为1,padding分别为(0,0),(0,1),(1,1),三个卷积核分别具有不同的卷积感受野。
作为进一步地实施,如图2所示,通过改进后的主干网络resnet50提取模板块和测试块之间的特征信息,包括:
通过激活函数将预处理后的各项点图像输入至两个并行的残差块中,通过两个并行的残差块增强特征的提取;
经过两个并行的残差块的图像输出至三个串行残差块和反卷积块中增强超分辨率,获得超分辨率图像。
具体实施如下:
1、图像预处理
步骤A,将获取的已定位的支撑管卡子各项点图像数据(此为小样本图像数据)进行分类,形成不同的缺陷样本集和合格样本集;本次试验涉及到定位到的螺栓区域有不同朝向,正面朝向样本集划分为(正常、螺母缺失、螺栓缺失、螺母松动、开口销缺失),反面朝向的样本集划分为(正常、螺栓松动),如图7、图8所示,样本集数量如表2所示;
表2定位支撑管各项点样本数量
步骤B,针对于数据集受环境变化存在光照影响和空间运动状态分布不同的特点,采用数据增强图像翻转结合加权加法,对于表2中对部分项点较少的样本集进行扩充操作,得到扩充后的对应样本集;
如图9所示,orignal为原图,通过数据增强图像翻转结合加权加法运算得到了不同角度和对比度的效果。
具体地,数据增强图像翻转结合加权加法包括均值滤波法和图像翻转结合加权加法;
首先,通过均值滤波法对已定位的支撑管卡子项点少的样本集进行滤波处理,得到滤波处理后的样本集;
其次,采用图像翻转结合加权加法对滤波处理后的样本集进行旋转、镜像和调整对比度处理,得到翻转后的样本集,并作为扩充后的对应样本集。
其中,均值滤波公式如下:
sxy表示中心点在(x,y)处,K表示大小为m×n的滤波器窗口,K=(2m+1)(2n+1),g(s,t)表示原始图像,f(x,y)表示均值滤波后得到的图像。
其中,图像翻转结合加权加法的公式为:
其中,dstij表示加权平均翻转后第i行j列个元素的像素值,src表示滤波处理后的样本集图像,表示滤波处理后的样本集图像的权重,γ表示校正偏移量,调节对比度。
步骤C,根据扩充后的对应样本集,将各样本集进行划分为训练集、验证集和测试集,训练集样本占比60%用以训练优化模型,测试集样本占比20%用以预测评估模型性能,验证集样本占比20%用以评估模型的泛化能力调整选择网络参数。
2、基于孪生网络的多尺度目标感知分类模型进行模型训练
对基于孪生网络的多尺度目标感知分类模型进行模型训练,训练过程中采用随机梯度下降算法迭代训练若干次,并保存每次训练结果;每次训练的具体步骤为:
分别将项点模板图像和项点测试图像输入至基于孪生网络的多尺度目标感知分类模型中,提取得到聚合多尺度对象信息后的最终模板特征和最终测试特征;
计算最终模板特征和最终测试特征之间的欧氏距离;
对欧氏距离进行两次全连接,且第二次全连接到一个神经元上,并对这份神经元的结果进行sigmoid激活,得到两个输入图像的相似程度并作为训练结果。
具体实施时,分别输入尺寸为124*96的模板图片和测试图片,通过基于孪生网络的多尺度目标感知分类模型进行特征提取的步骤提取特征,最后分别得到具有多尺度目标感知的特征的Xmop-temp和Xmop-test,计算其欧氏距离:
Eω(xtemp,xtest)=|Xmop-temp-Xmop-test|
对这个距离进行两次全连接,第二次全连接到一个神经元上,对这份神经元的结果取sigmoid,代表两个输入图片的相似程度。
p=σ(RELU(Eω(xtemp,xtest)))
将网络的输出结果和真实标签进行交叉熵运算,就可以作为最终的loss了,其公式如下:
其中,y是二元标签0或1,p(y)是输出属于y标签的概率。作为损失函数,二元交叉熵是用来评判一个二分类模型预测结果的好坏程度。
训练过程中采用随机梯度下降算法(Stochastic Gradient Descent,SGD)迭代训练30次,保存每次结果,前十次迭代冻结ResNet的参数,后十次迭代以整体网络学习率十分之一开始训练。
3、基于孪生网络的多尺度目标感知分类模型进行模型验证
为了验证上述两种不同训练集所训练的孪生神经网络性能,本次试验将不同朝向的缺陷数据集分别和正常数据集分别输入到两个模型中进行验证。当两个输入指向同一类型标签为1,不同类型为0。每一个正常样本对应不同缺陷类型的样本进行相似对比验证。其验证结果如图10、图11所示,其中Similarity为Loss计算的相似度。
开口销缺失、螺栓缺失、螺母缺失的样本数分别用n1、n2、n3、n4、n5表示,识别正确个数用k表示。其各项点识别率结果p1、p2、p3、p4、p5公式如下:
将上述训练集训练150次,验证20%的数据集其结果如表3所示,共进行5组实验,其三项实验的准确率达到90%以上,在训练样本较少,缺陷明显的情况下说明了此方法缺陷判断的优越性,但缺陷不明显,样本图不均匀的条件下,此方法仍有不足。
表3验证集各项点数量和准确率
4、利用训练及验证好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果即可。
本申请的优点在于孪生神经网络把分类任务转换成一个模板相似度匹配的问题而不是一个常见的二分类问题。(1)针对于数据集受环境变化存在光照影响和空间运动状态分布不同的特点,通过数据增强图像翻转结合加权加法的方法来扩充样本集。(2)针对于缺陷样本较少,同类型差异大的问题,本发明在SiamMOP网络中采取了一种特征融合方法,通过提取ResNet三层卷积层输出特征利用像素级相关通道结合的方式提升算法鲁棒性。(3)针对于运动模糊,缺陷不明显的问题,提出了增加注意力机制,结合融合特征和注意力权值完成非局部注意力优化。(4)对主干网络进行改良,在残差模块中将串行连接改为多个并行连接网络,在SiamMOP网络中增加多尺度感知模块获得更全面更准确的特征信息。(5)针对于本发明SiamMOP网络的深层结构训练时效性问题,引入了一种梯度下降快速迭代的优化算法。(6)针对于样本分辨率,无法有效提取特征的情况,本发明引入了超分辨率模块,有效的提升算法表面特征提取效果。
实施例2
如图12所示,本实施例与实施例1的区别在于,本实施例提供了一种基于孪生网络的多尺度目标感知分类系统,该系统使用实施例1的一种基于孪生网络的多尺度目标感知分类方法;该系统包括:
获取单元,用于获取已定位的支撑管卡子各项点图像;
预处理单元,用于对各项点图像进行预处理,得到预处理后的各项点图像;
分类模型构建单元,用于根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;
模型训练单元,用于对基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;
缺陷分类单元,用于利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。
其中,各个单元的执行过程按照实施例1的一种基于孪生网络的多尺度目标感知分类方法流程步骤执行即可,此实施例中不再一一赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于孪生网络的多尺度目标感知分类方法,其特征在于,该方法包括:
获取已定位的支撑管卡子各项点图像并进行预处理,得到预处理后的各项点图像;
根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;
对所述基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;
利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。
2.根据权利要求1所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述预处理包括:
将获取的已定位的支撑管卡子各项点图像数据进行分类,形成不同的缺陷样本集和合格样本集;
采用数据增强图像翻转结合加权加法,对已定位的支撑管卡子项点少的样本集进行扩充操作,得到扩充后的对应样本集;
根据扩充后的对应样本集,将各样本集进行划分为训练集、验证集和测试集,所述训练集样本用以训练优化模型,所述测试集样本用以预测评估模型性能,所述验证集样本用以评估模型的泛化能力调整选择网络参数。
3.根据权利要求2所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述数据增强图像翻转结合加权加法包括均值滤波法和图像翻转结合加权加法;
通过均值滤波法对已定位的支撑管卡子项点少的样本集进行滤波处理,得到滤波处理后的样本集;
采用图像翻转结合加权加法对滤波处理后的样本集进行旋转、镜像和调整对比度处理,得到翻转后的样本集,并作为扩充后的对应样本集。
4.根据权利要求3所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述图像翻转结合加权加法的公式为:
其中,dstij表示加权平均翻转后第i行j列个元素的像素值,src表示滤波处理后的样本集图像,表示滤波处理后的样本集图像的权重,γ表示校正偏移量,调节对比度。
5.根据权利要求2所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,不同的缺陷样本集包括螺栓区域正面朝向样本集和螺栓区域反面朝向样本集;
所述螺栓区域正面朝向样本集包括螺母缺失、螺栓缺失、螺母松动和开口销缺失;
所述螺栓区域反面朝向样本集包括螺栓松动。
6.根据权利要求1所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述基于孪生网络的多尺度目标感知分类模型包括特征聚合模块、注意力模块和多尺寸对象感知模块;
特征聚合模块,用于通过改进后的主干网络resnet50提取模板块和测试块之间的特征信息;
注意力模块,用于分别结合模板特征、测试特征的关键局部信息对相关特征信息进行微调;
多尺寸对象感知模块,用于通过固定感受野得到多尺度空间信息。
7.根据权利要求6所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述基于孪生网络的多尺度目标感知分类模型进行特征提取的步骤为:
分别接收两个输入图像,两个输入图像包括项点模板图像和项点测试图像;
经过改进后的主干网络resnet50进行三层特征提取后,得到项点模板图像特征和项点测试图像特征;
将所述项点模板图像特征和项点测试图像特征两两进行像素相关后按通道连接,并进行特征融合生成一个更高维的融合特征;
将所述融合特征输入注意力模块中,将所述融合特征的每一层特征图通过全局平均池化层压缩成一条压缩向量;
将所述压缩向量输入一个两层的多层感知机,使用sigmoid函数将通道注意力权重映射到0-1之间;
将所述通道注意力权重与所述融合特征逐通道进行元素相乘,再将相乘后的融合结果与所述融合特征相加完成非局部注意力优化,得到优化后的相关特征;
将所述相关特征并行输入三个卷积模块,获得三个特征;并将获得的三个特征按比例线性相加,得到聚合多尺度对象信息后的最终特征。
8.根据权利要求6所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述的通过改进后的主干网络resnet50提取模板块和测试块之间的特征信息,包括:
通过激活函数将预处理后的各项点图像输入至两个并行的残差块中,通过两个并行的残差块增强特征的提取;
经过两个并行的残差块的图像输出至三个串行残差块和反卷积块中增强超分辨率,获得超分辨率图像。
9.根据权利要求7所述的一种基于孪生网络的多尺度目标感知分类方法,其特征在于,所述的对所述基于孪生网络的多尺度目标感知分类模型进行模型训练,训练过程中采用随机梯度下降算法迭代训练若干次,并保存每次训练结果;每次训练的具体步骤为:
分别将项点模板图像和项点测试图像输入至所述基于孪生网络的多尺度目标感知分类模型中,提取得到聚合多尺度对象信息后的最终模板特征和最终测试特征;
计算所述最终模板特征和最终测试特征之间的欧氏距离;
对所述欧氏距离进行两次全连接,且第二次全连接到一个神经元上,并对这份神经元的结果进行sigmoid激活,得到两个输入图像的相似程度并作为训练结果。
10.一种基于孪生网络的多尺度目标感知分类系统,其特征在于,该系统包括:
获取单元,用于获取已定位的支撑管卡子各项点图像;
预处理单元,用于对各项点图像进行预处理,得到预处理后的各项点图像;
分类模型构建单元,用于根据预处理后的各项点图像,结合改进后的主干网络resnet50和孪生神经网络,构建基于孪生网络的多尺度目标感知分类模型;
模型训练单元,用于对所述基于孪生网络的多尺度目标感知分类模型进行模型训练,得到训练好的基于孪生网络的多尺度目标感知分类模型;
缺陷分类单元,用于利用训练好的基于孪生网络的多尺度目标感知分类模型,对待检测定位的支撑管卡子各项点图像进行缺陷分类,得到分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310860208.XA CN116912574A (zh) | 2023-07-13 | 2023-07-13 | 一种基于孪生网络的多尺度目标感知分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310860208.XA CN116912574A (zh) | 2023-07-13 | 2023-07-13 | 一种基于孪生网络的多尺度目标感知分类方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912574A true CN116912574A (zh) | 2023-10-20 |
Family
ID=88354349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310860208.XA Pending CN116912574A (zh) | 2023-07-13 | 2023-07-13 | 一种基于孪生网络的多尺度目标感知分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912574A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668528A (zh) * | 2024-02-01 | 2024-03-08 | 成都华泰数智科技有限公司 | 基于物联网的天然气调压器故障检测方法及系统 |
CN117853491A (zh) * | 2024-03-08 | 2024-04-09 | 山东省计算中心(国家超级计算济南中心) | 基于多场景任务下的少样本工业产品异常检测方法及系统 |
CN117853491B (zh) * | 2024-03-08 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于多场景任务下的少样本工业产品异常检测方法及系统 |
-
2023
- 2023-07-13 CN CN202310860208.XA patent/CN116912574A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668528A (zh) * | 2024-02-01 | 2024-03-08 | 成都华泰数智科技有限公司 | 基于物联网的天然气调压器故障检测方法及系统 |
CN117668528B (zh) * | 2024-02-01 | 2024-04-12 | 成都华泰数智科技有限公司 | 基于物联网的天然气调压器故障检测方法及系统 |
CN117853491A (zh) * | 2024-03-08 | 2024-04-09 | 山东省计算中心(国家超级计算济南中心) | 基于多场景任务下的少样本工业产品异常检测方法及系统 |
CN117853491B (zh) * | 2024-03-08 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于多场景任务下的少样本工业产品异常检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
CN109840556B (zh) | 一种基于孪生网络的图像分类识别方法 | |
CN111723732B (zh) | 一种光学遥感图像变化检测方法、存储介质及计算设备 | |
Liu et al. | Fg-net: A fast and accurate framework for large-scale lidar point cloud understanding | |
Liang et al. | Convolutional neural networks with intra-layer recurrent connections for scene labeling | |
CN106845341B (zh) | 一种基于虚拟号牌的无牌车辆识别方法 | |
Chen et al. | Local patch network with global attention for infrared small target detection | |
CN112750148B (zh) | 一种基于孪生网络的多尺度目标感知跟踪方法 | |
CN108154133B (zh) | 基于非对称联合学习的人脸画像-照片识别方法 | |
CN111680705B (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
CN113052185A (zh) | 一种基于Faster R-CNN的小样本目标检测方法 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN116912574A (zh) | 一种基于孪生网络的多尺度目标感知分类方法及系统 | |
CN111582091A (zh) | 基于多分支卷积神经网络的行人识别方法 | |
CN116052016A (zh) | 基于深度学习的遥感图像云和云影的精细分割检测方法 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN111488937A (zh) | 一种基于多尺度邻居深度神经网络的图像匹配方法 | |
CN114419406A (zh) | 图像变化检测方法、训练方法、装置和计算机设备 | |
Singh et al. | Semantic segmentation using deep convolutional neural network: A review | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
CN114119621A (zh) | 基于深度编解码融合网络的sar遥感图像水域分割方法 | |
CN111967408A (zh) | 基于“预测-恢复-识别”的低分辨率行人重识别方法及系统 | |
CN108960285B (zh) | 一种分类模型生成方法、舌体图像分类方法及装置 | |
CN116310323A (zh) | 一种飞机目标实例分割方法、系统和可读存储介质 | |
CN106846366B (zh) | 使用gpu硬件的tld视频运动目标跟踪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |