CN114926733A - 一种改进区域卷积神经网络的传送带撕裂检测方法 - Google Patents
一种改进区域卷积神经网络的传送带撕裂检测方法 Download PDFInfo
- Publication number
- CN114926733A CN114926733A CN202210523702.2A CN202210523702A CN114926733A CN 114926733 A CN114926733 A CN 114926733A CN 202210523702 A CN202210523702 A CN 202210523702A CN 114926733 A CN114926733 A CN 114926733A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- conveyor belt
- module
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 238000011897 real-time detection Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 23
- 230000006872 improvement Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000007547 defect Effects 0.000 description 5
- 238000005299 abrasion Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 229910000906 Bronze Inorganic materials 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000010974 bronze Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003245 coal Substances 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种改进区域卷积神经网络的传送带撕裂检测方法,将特征提取模块设置为轻量化卷积网络MoblieNetV2有效降低模型参数,并采用大尺度卷积核扩大网络感受野,增强模型特征提取能力;引入特征金字塔结构融合不同层次的特征信息,优化模型对微小破损的识别效果;结合注意力机制对特征权重进行调整,突出破损目标的特征信息。实验结果表明,所提算法对传送带破损目标的平均检测精度提高了2.78%,检测速度提高了22.9%,具有良好的实时检测效果。
Description
技术领域
本发明属于图像检测技术领域,尤其涉及一种改进区域卷积神经网络的传送带撕裂检测方法。
背景技术
在矿井开采中,传送带对煤炭的长距离输送具有重要作用,但传动带本身较为脆弱,在运输过程中撕裂现象经常发生。目前,针对传送带撕裂的检测方式主要分为接触式检测和非接触式检测。接触式检测一般通过实时监测传送带表面的压力情况来间接判断传送带的运行状态。但该方法仅在传送带产生较大撕裂形变时才会发出中断信号,检测灵敏度较低。非接触式检测主要使用机器视觉方法,运用边缘检测、图像分割等获取破损区域的纹理特征并进行分类。然而,该方法在识别传送带破损目标与背景纹理相近的图像时易产生误判,造成误检和漏检。
近年来,深度学习以其良好的泛化能力、自动学习特征分布等优势在目标检测等领域迅速发展。其中,基于深度学习的目标检测算法主要分为基于回归的方法和基于区域的方法。前者通过卷积模块完成特征提取,采用输出层特征直接预测目标的位置及类别,满足了检测实时性的要求。如文献提出了YOLO(you only look once)算法,在特征提取阶段,利用全卷积模块完成特征提取,使用均等划分的网格进行回归计算,完成目标的分类和定位。但在检测过程中,每个网格对单一目标具有较好的鲁棒性,对重叠的多类别目标检测精度较低。文献在此基础上,采用多尺度检测的思想,利用卷积模块不同层次的特征信息进行检测,模型可以兼顾不同大小的目标信息,使得网络的精度有所提升。但该方法未结合特征间的相关性,容易出现同一目标多次检测的问题。而基于区域的深度学习目标检测方法引入了区域生成模块,利用提取的特征信息生成目标候选区域,并采用全连接层对候选区域精细调整,由于对预测权重进行两次调整,有效消除了回归方法单次预测识别精度不高的弊端,提高了目标的定位及分类的精确度。如文献提出了基于区域的全卷积神经网络(region-based fully convolutional network,R-FCN),通过综合考虑分类任务和定位任务的特性,引入位置敏感区域池化模块(Position-Sensitive ROI Pooling),对生成候选区域的位置信息进行编码,使得提取的特征对位置具有较强的敏感性,但该方法在位置敏感区域池化模块输出特征图的参数较多,延长了模型的推理时间。文献针对选择性搜索算法计算缓慢的问题,使用候选区域生成模块对其改进,并在检测的过程中采用共享卷积的方式,解决了卷积模块重复计算的问题,进一步提高了模型的检测效率。但是为达到检测的准确性,区域卷积神经网络及其相关算法,在生成候选框时映射的特征图维数过大,或者在网络末端使用的全连接层参数过多,将耗费较多计算时间,严重影响破损的检测速度。文献又提出一种轻量化的区域卷积神经网络(light-head regional convolutional neuralnetwork,Light-Head R-CNN),该网络在区域生成中使用大尺度分离卷积降低特征图维度,并在网络预测时减少全连接层的参数,进一步提升了网络的检测性能,做到检测精度与速度的平衡。但在实际应用中,Light-Head R-CNN网络依然存在以下问题:
(1)网络在提取特征时采用卷积层次较深、输出特征维数过大。在预测过程中,全连接层仍存在较多参数。因此,网络的计算复杂度较高,模型的训练和推理时间缓慢,不能满足检测实时性的要求。
(2)网络仅采用深层次特征来生成目标候选区域,并没有结合网络浅层特征的细节信息,随着特征抽象程度的增加,网络浅层的小目标信息逐渐消失,因此,算法对于微小破损的识别精度不高。
发明内容
本发明提供一种改进区域卷积神经网络的传送带撕裂检测方法,旨在解决上述存在的问题。
本发明是这样实现的,一种改进区域卷积神经网络的传送带撕裂检测方法,包括以下步骤:
S1:通过CCD工业相机采集带有区域光源的传送带图像,对传送带图像中存在的破损部位进行破损类型标注,形成传送带破损数据集,破损类型包括划痕、划伤和撕裂;
S2:构建基于区域方法的轻量级网络Light-Head R-CNN,包括特征提取模块、多尺度特征融合模块、注意力模块和分类回归模块;
所述特征提取模块设置为轻量的卷积网络MoblieNetV2,使用深度卷积对特征逐通道分解,采用点卷积改变特征维度;
所述多尺度特征融合模块,引入特征金字塔结构,采用自上而下和横向连接两种方式来融合不同层次的特征信息;
所述注意力模块,计算特征通道的权重信息,并对特征图相应的特征通道进行加权,完成权重的调整;
所述分类回归模块,获取特征信息,并对特征图像进行分类;
S3:将传送带破损数据集输入到Light-Head R-CNN网络进行训练,直至损失值下降到最低并趋于稳定;在训练过程中,获得划痕、划伤、撕裂部位的特征信息,并预测传送带图像的破损类型;
S4:实时获取传送带图像,将传送带图像输入到训练好的Light-Head R-CNN网络中;
若图像特征包含撕裂,则控制传送带立即停止;
若图像特征包含划伤,则发出警告,不控制传送带停止;
若图像特征包含划痕,则传送带正常运行。
在步骤S2中,所述MobileNetV2网络由一个标准卷积层和17个反向残差模块组成,每个反向残差模块包含1×1卷积、5×5深度卷积和Relu6激活函数。
在步骤S2中,所述多尺度特征融合模块的融合过程表示为:
其中,是融合后的第i-1层的特征图,是特征提取模块输出的四种尺度的特征图,up(.)表示上采样操作,选择双线性插值不断将特征图上采样2倍进行融合;Attention(.)表示注意力模块,对融合后的特征图权重进调整;表示相加操作;
通过上采样操作和1×1的卷积分别将低级特征图与高级特征图调整到相同的维度后,使用注意力机制对通道权重进行调整,突出融合后的目标区域。
在步骤S2中,在融合过程中加入注意力模块,在权重提取过程中使用全局池化操作对特征图进行压缩,得到特征的全局信息,对于任意输入的特征图X∈RH×W×C,计算公式如下:
Gmax=max(X(i,j))
其中,H、W为特征图的长和宽,C为特征图的维度;Gmax,Gavg分别表示经过全局最大池化和全局平均池化操作后获得的特征向量,它们具有相同的维度大小,即Gmax,Gavg∈R1×1×C。
在步骤S2中,使用1×1的卷积对连接后的特征向量进行聚合,并调整特征的维度;使用Relu激活函数进一步提高网络的非线性能力,最后利用Sigmoid函数将权重参数归一化,计算公式如下:
Y=σ(δ(conv1×1([Gmax;Gavg])))
式中,Y∈R1×1×C为网络最终输出的权重向量,σ,δ分别表示Sigmoid激活函数和Relu激活函数,[.]为连接操作,conv1×1为1×1的卷积操作。
在步骤S2中,采用网络学习的特征权重Y,对原始特征图的通道信息进行调整,得到增强后的注意力特征图G:
与现有技术相比,本发明的有益效果是:本发明公开一种改进区域卷积神经网络的传送带撕裂检测方法,针对特征提取时,网络卷积层次较深易导致计算复杂度高的问题,引入轻量化网络MobileNetV2,使用深度可分离卷积保留特征表征能力,显著降低模型参数;同时,针对网络感受野较小的问题,通过扩大深度卷积核的大小来提升感受野增量,增强网络的特征提取能力;针对微小破损检测精度不高的问题,引入了特征金字塔结构,通过多尺度特征融合使网络能够同时学习深层和浅层的特征信息,有助于增强微小破损的检测能力;针对特征融合中,特征尺度变换造成精度损失的问题,采用注意力模块对特征权重进行调整,使网络可以有效选择重要的通道信息,突出目标区域的特征。
附图说明
图1为本发明总体网络架构图;
图2为本发明MobileNetV2网络架构图;
图3为本发明反向残差模块结构图;
图4为本发明多尺度特征融合模块结构图;
图5为本发明注意力模块结构图;
图6为本发明网络损失函数图;
图7为本发明多类别平均精度对比结果图;
图8为本发明传送带破损样本检测效果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
实施例
如图1所示,本发明采用基于区域方法的轻量级网络Light-Head R-CNN对传送带缺陷进行检测,构建基于区域方法的轻量级网络Light-Head R-CNN;
首先将该网络的特征提取模块设置为轻量的卷积网络MoblieNetV2,使用深度卷积对特征逐通道分解,采用点卷积改变特征维度,可以带来计算量的显著下降,大幅提升算法的检测效率。
为提升算法的检测精度,在特征融合模块,采用自上而下和横向连接两种方式来融合不同层次的特征信息,提升不同破损目标的识别精度。
采用注意力机制对特征权重进行调整,使网络注重学习关键特征,抑制无关特征。
通过将特征提取网络替换为轻量的卷积网络MoblieNetV2来提升检测速度,同时扩大网络的感受野增强特征提取能力,如图1中的“特征提取模块”;
引入特征金字塔结构融合不同层次的特征信息,提升微小破损的检测能力,如图1中的“多尺度特征融合模块”;
结合注意力机制调整融合后的特征权重,突出目标区域的特征,如图1中的“注意力模块”。
本发明通过以上改进,可以做到对破损目标实时精确的检测。
为进一步提升算法的检测效率,本发明采用轻量化卷积网络MobileNetV2替换Light-Head R-CNN的特征提取模块,其中,MobileNetV2网络结构如图2所示。
由图2可以看出,MobileNetV2网络主要由一个标准卷积层和17个反向残差模块(Inverted Residual)组成。
其中,反向残差模块如图3所示,每个模块包含1×1卷积、3×3深度卷积(depth-wise convolution,Dwise)和Relu6激活函数。左图中的反向残差模块需要加和操作,所以输入与输出特征维度相同。右图为降采样的残差块,输出特征的尺寸将会减半。MobileNetV2借鉴了残差网络的思想,在反向残差模块中采用短路连接(shortcutconnections)可以有效防止梯度消失,在反向传播过程中能够将梯度信息传递到网络深层,形成有效的训练。
在卷积神经网络中,感受野(receptive field)指网络某一层输出特征图的像素点在输入图像上映射的区域大小。较大的感受野意味着网络能够更好地整合像素间的依赖关系,提取到更加丰富和全局的特征信息。其中,感受野的计算方式表示如下:
式中,RFi和RFi-1分别表示网络第i与第i-1层感受野的大小,sk表示第k层卷积核的步长,ki为网络第i层卷积核的尺寸。可以得出,当网络采用的卷积核尺度较大、下采样卷积操作数量较多时,网络的感受野也随之增加。在MobileNetV2网络中,反向残差模块采用3×3的卷积操作,带来的视野增量不是很大,并且网络为保留特征信息,使用的下采样残差模块数量不多。因此,整个网络感受野增幅较小,不能很好的整合上下文信息,严重影响了提取特征的能力。
基于以上分析,本发明对网络的反向残差模块进行改进,在网络输出不同尺度大小的特征图上使用5×5的深度卷积来代替3×3的深度卷积操作,通过改变卷积核的大小可以在网络迭代过程中显著增加网络的感受野,从而提取到更加丰富的语义信息。而网络的浅层特征图分辨率较大,采用较大的卷积核可以有效保留图像的细节信息,提高对传送带微小破损的定位能力。
本发明在网络中引入了特征金字塔结构(feature pyramid network,FPN),并设计了多尺度特征融合模块,如图4所示。
采用自顶向下和横向连接两种方式来融合网络的特征信息,经过特征提取,网络可以输出四种尺度的特征图,相对于输入图像具有{4、8、16、32}像素的步长,记为{C2、C3、C4、C5}。为更加全面融合不同层级的特征信息,本发明对网络输出的4种尺度的特征图都加以利用。融合过程可以表示为:
其中,是融合后的第i-1层的特征图,对应图中的{P2、P3、P4、P5}。是特征提取模块输出的四种尺度的特征图{C2、C3、C4、C5}。up(.)表示上采样操作,为简单起见,选择双线性插值不断将特征图上采样2倍进行融合。Attention(.)表示注意力模块,对融合后的特征图权重进调整。表示相加操作。通过上采样操作和1×1的卷积分别将低级特征图与高级特征图调整到相同的维度后,使用注意力机制对通道权重进行调整,突出融合后的目标区域。最后,本发明将特征图C5采用步长为2的最大池化操作生成特征图P6,并与融合后的特征图{P2、P3、P4、P5}一起用于候选区域生成阶段的训练,进一步提升算法对候选框的预测精度。
通过该方式,网络有效结合了特征金字塔对不同尺寸特征图融合的优势,并利用注意力机制对特征信息进行增强,使网络输出的特征图可以很好的融合高层特征的语义信息和底层特征的细节信息,有助于网络检测精度的提升。
本发明为提升网络的性能,受注意力机制的启发,在融合过程中加入了如图5所示的注意力模块,对特征的融合方式进行改善。该模块通过右分支来计算通道的权重信息,然后对左分支特征图相应的通道加权,完成权重的调整。
具体过程如下:
为减少空间信息的干扰,提高网络对通道信息的敏感程度。本发明在在权重提取过程中使用全局池化操作对特征图进行压缩,得到特征的全局信息,对于任意输入的特征图X∈RH×W×C,计算公式如下:
Gmax=max(X(i,j))
其中,H、W为特征图的长和宽,C为特征图的维度;Gmax,Gavg分别表示经过全局最大池化和全局平均池化操作后获得的特征向量,它们具有相同的维度大小,即Gmax,Gavg∈R1×1×C。
为更好的获取通道间的依赖关系,对权重信息进行分配。本发明使用1×1的卷积对连接后的特征向量进行聚合,并调整特征的维度;使用Relu激活函数进一步提高网络的非线性能力,最后利用Sigmoid函数将权重参数归一化,计算公式如下:
Y=σ(δ(conv1×1([Gmax;Gavg])))
式中,Y∈R1×1×C为网络最终输出的权重向量,σ,δ分别表示Sigmoid激活函数和Relu激活函数,[.]为连接操作,conv1×1为1×1的卷积操作。
采用网络学习的特征权重Y,对原始特征图的通道信息进行调整,得到增强后的注意力特征图G:
本发明采用基于区域方法的轻量级网络Light-Head R-CNN对传送带缺陷进行检测,具体检测流程如下:
构建样本数据集:通过CCD工业相机采集带有区域光源的传送带图像,针对其中的破损部位进行标注,形成一个完备的传送带破损数据集。
迁移学习:基于已在数据集上预训练的MobileNetV2网络进行微调。冻结模型前2个阶段的权重参数,并不断调节模型的配置信息,使网络达到较好的分类精确度。
训练网络:使用深度学习框架搭建模型结构并进行训练。在实验过程中,当损失值下降到最低并趋于稳定,则表明模型已收敛。根据实验结果获得划痕、划伤、撕裂部位的特征信息,预测传送带图像的破损类型。
系统做出实时响应:若传送带表面正常或出现磨损,系统正常运行;若出现划伤,系统发出警告;若出现撕裂,传送带立即停止。
试验例
实验采用迈德威视工业相机(MV-GED200M-T)拍摄传送带图像,采集速度可达27帧/s,能够在皮带的运转过程中清晰捕捉到图像信息。开启皮带机待其转速达到稳定状态时加入面光源,调整面光源与传送带之间的距离,使光线可以均匀的照射在皮带表面。通过工业相机实时捕获传送带表面图像并经数据线传输到计算机。在NVIDIA GPU的加速下,处理模块将图像中的破损信息分类定位,控制模块根据破损类型实时响应。
本发明在实验中共采集皮带图像6000张,分为6组实验,每组包含1000幅图像。为增加数据集中样本的多样性,本发明通过调节皮带转速、CCD相机高度和分辨率来控制图像的清晰度和尺寸大小。在第一组实验中,皮带以低速0.5m/s运行,CCD相机高度为0.4m,分辨率为640×480;在第二组实验中,皮带仍以低速0.5m/s运行,CCD相机高度为0.8m,分辨率为1600×1200;在第三组实验中,皮带以中速1m/s运行,CCD相机高度为0.4m,分辨率为640×480;在第四组实验中,皮带仍以中速1m/s运行,CCD相机高度为0.8m,分辨率为1600×1200;在第五组实验中,皮带以高速1.5m/s运行,CCD相机高度为0.4m,分辨率为640×480;在第六组实验中,皮带仍以高速1.5m/s运行,CCD相机高度为0.8m,分辨率为1600×1200。
本实验在Windows10操作系统下配置,PyCharm软件平台上运行,CPU为IntelXeonBronze 3104,GPU为NVIDIA GeForce RTX 1080Ti,采用Python编程语言,在PyTorch深度学习框架下搭建模型结构。经多次实验后,本发明依据精度最优原则,将动量因子设置为0.9,初始学习率设置为0.002,使用随机梯度下降法(stochastic gradientdescent,SGD)优化网络参数。在实验中,采用批处理的方式加载数据,本发明将批处理的大小设置为4,即每次同时加载4张图片进行处理。在训练过程中,算法在迭代30个周期后精度趋于稳定,若再增加迭代次数,则会出现过拟合,因此,本发明将Epoch大小设置为30。将采集的6000幅皮带图像作为训练样本并进行标记,使用xml文件记录图样本的尺度信息和破损区域的位置类别信息。标记完成后,从中随机抽取5000幅图像作为训练样本,1000幅图像作为测试样本。
本发明采用多类别平均精确率(mean average precision,mAP)来评估模型的整体性能,计算公式如下:
式中,AP(i)为类别i的平均精确率,n表示类别总数。在实验中使用真实位置与预测位置的交并比(intersection overunion,IOU)来评估预测的准确度,计算公式如下:
式中,G表示人工标注的缺陷位置,P表示网络预测的缺陷位置。设置IOU阈值为0.5,即当真实位置与预测位置的IOU>0.5时认为对目标成功进行了预测。
为验证改进模型的稳定性,本发明设置四组对比实验,分别选取文献[14]、文献[16]、文献[17]与本发明模型进行对比。在训练过程中,所有网络均冻结前2个阶段的卷积层,不对其参数进行更新。采用均值为0、标准差为0.01的正态分布对训练参数进行初始化。实验共进行30周期的训练,模型已达到充分收敛并趋于稳定,得到如图6所示的网络损失函数图。
其中,文献[9]为Wang G,Zhang L,Sun H,et al.Longitudinal tear detectionof conveyorbelt underuneven lightbased on Haar-AdaBoost and Cascade algorithm[J].Measurement,2021,168(1):108341.
文献[14]为Chiu Y C,Tsai C Y,MD Ruan,et al.Mobilenet-SSDv2:An ImprovedObject Detection Model for Embedded Systems[C]//2020International Conferenceon System Science and Engineering(ICSSE),2020:1-5.
文献[16]为Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-TimeObject Detection with Region Proposal Networks[J].IEEE Transactions onPattern Analysis&Machine Intelligence,2017,39(6):1137-1149.
文献[17]为Li Z,Peng C,Yu G,et al.Light-Head R-CNN:in defense of two-stage object detector[J].arXiv preprint arXiv:1711.07264,2017.
在图6中,纵坐标表示网络训练损失值,横坐标表示网络迭代周期。从图6可以看出,文献[14]损失曲线下降缓慢,网络收敛时损失值较高为0.1717,说明网络的学习能力较差,在训练过程中出现了欠拟合现象;文献[16]与文献[17]在训练完成时,两者的损失值分别为0.07293和0.07286,相差不大。相比于文献[16]和文献[17],在迭代5周期后,本发明算法具有更快的收敛速度。在训练完成时,本发明算法的损失值稳定在0.06988,损失值最低。因此,本发明算法具有更好的稳定性。
为验证本发明算法改进的有效性,选取文献[17]的基础算法与本发明算法进行比较。由此得到算法的平均精度对比结果图,如图7所示。
图7中,纵坐标表示算法的多类别平均精度,横坐标表示网络迭代周期。由图7可以看出:本发明模型在训练前期,网络平均精度上升较慢,这是因为本发明模型在特征提取模块的权重参数较少,网络初期的学习能力较弱。在迭代10周期后,文献[17]模型的检测精度增幅变得缓慢,而本发明模型仍具有较大上升空间。在第18个周期时,文献[17]的精度曲线发生抖动,说明网络在训练过程中出现了不稳定现象,而本发明算法的精度曲线波动范围较小,模型在训练中比较稳定。在训练完成时,本发明算法的平均精度相比于文献[17]提高2.78%。因此,本发明模型优于文献[17]采用的模型。
为验证模型的整体性能,选取文献[9]、文献[14]、文献[16]、文献[17]与本发明模型进行对比,对比结果如表1所示。在进行对比实验时,本发明选取常见破损类型为磨损、划伤、撕裂的图像,测试样本为1000幅。
表1
比较算法在三种缺陷上的检测精度,可以看出:文献[9]对于磨损、划伤和撕裂的平均精度相较于其他算法均具有较大差距,可见与传统机器学习方法相比,本发明采用的深度学习算法更有优势。文献[14]在训练中出现了欠拟合现象,网络对于破损特征的学习能力较差,检测精度较低。同文献[16]和文献[17]相比,本发明模型对于皮带划伤、撕裂的检测精度均有所提升,对于磨损的提升较大。因此,本发明模型的检测精度更好。
比较算法的平均推理时间,可以看出:文献[9]和文献[14]在速度上相较于其他算法优势较大,但其检测精度较低。文献[16]和文献[17]在精度上有所提升,但网络在特征提取阶段参数量较大,延长了模型的推理时间。同文献[16]和文献[17]相比,本发明将网络的推理时间降低了22.9%,提高了算法的检测效率,同时,本发明将网络的检测精度提高到90.9%,可以实现较好的检测效果。因此,本发明模型的总体性能优于其它算法。
为证明各改进模块的提升效果,本发明采用消融实验对不同模块的性能进行分析,并得到表2所示的实验结果。其中,改进1为优化特征提取模块,改进2为加入多尺度特征融合模块,改进3为引入注意力机制。
表2
由表2可知,在文献[17]基础模型上加入改进1后,模型推理时间减少31.4%,表明将特征提取模块设置为轻量化的MobileNetV2网络可极大减少模型的参数量,有效提升模型的检测效率及预测速度;在实验一的基础上加入改进2后,网络通过融合不同层级的特征,优化了模型对微小破损目标的敏感程度,检测精度相比文献[17]提升了0.44%,相比于实验一提升0.94%;在实验二的基础上加入改进3后,经注意力机制对特征权重调整,检测精度进一步上升,相比于文献[17]和实验二分别提升2.78%、2.34%,而推理时间仅增加6.6%,未引入较大的计算代价。采用以上三项改进后,相较于文献[17]的基础模型具有更高的实时性和精确度,在检测传送带破损任务上更加稳定可靠。
如图8所示,为传送带破损样本检测效果对比图,从左到右依次为磨损、划伤、撕裂及多破损目标的传送带图像,图中白色框为检测结果。可以看出,文献[17]与本发明模型都能实现对传送带破损的分类与定位。但当破损目标的尺度较小时,如图8(d)所示,文献[17]预测的边框位置误差较大,不能实现与破损目标精确贴合,而本发明模型预测边框贴合程度高,更接近于人工标注的真实边框。经对比分析可知,当图像中存在单一类型破损或多种类型破损时,本发明模型都能获得精准预测。
本发明通过对传送带实时检测的需求进行研究,提出一种基于区域卷积神经网络Light-Head R-CNN的改进方法。针对传送带运转较快导致检测不及时的问题,本发明算法在特征提取模块采用轻量级网络MobileNetV2,有效降低模型参数量,缩短网络预测时间,相较原始的Light-Head R-CNN算法,模型的检测速度提高了22.9%,满足传送带撕裂检测任务对实时性的要求;针对井下环境较差导致采集图像存在较多噪声的问题,本发明通过引入特征金字模块融合网络浅层信息,提升微小破损的检测精度。利用注意力机制改善特征融合方式,突出破损区域的特征信息。相较于Light-Head R-CNN算法,模型对磨损、划伤、撕裂目标的平均检测精度分别提升3.72%、2.28%、2.32%,改善了破损目标的识别效果。实验结果表明,本发明算法的检测效率和平均检测精度均有所提升,尤其对微小的破损目标也具有较好的识别精度,在实际应用中有一定的参考价值,也为研究传送带撕裂检测任务提供了新的解决思路。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种改进区域卷积神经网络的传送带撕裂检测方法,其特征在于,包括以下步骤:
S1:通过CCD工业相机采集带有区域光源的传送带图像,对传送带图像中存在的破损部位进行破损类型标注,形成传送带破损数据集,破损类型包括划痕、划伤和撕裂;
S2:构建基于区域方法的轻量级网络Light-Head R-CNN,包括特征提取模块、多尺度特征融合模块、注意力模块和分类回归模块;
所述特征提取模块设置为轻量的卷积网络MoblieNetV2,使用深度卷积对特征逐通道分解,采用点卷积改变特征维度;
所述多尺度特征融合模块,引入特征金字塔结构,采用自上而下和横向连接两种方式来融合不同层次的特征信息;
所述注意力模块,计算特征通道的权重信息,并对特征图相应的特征通道进行加权,完成权重的调整;
所述分类回归模块,获取特征信息,并对特征图像进行分类;
S3:将传送带破损数据集输入到Light-Head R-CNN网络进行训练,直至损失值下降到最低并趋于稳定;在训练过程中,获得划痕、划伤、撕裂部位的特征信息,并预测传送带图像的破损类型;
S4:实时获取传送带图像,将传送带图像输入到训练好的Light-Head R-CNN网络中;
若图像特征包含撕裂,则控制传送带立即停止;
若图像特征包含划伤,则发出警告,不控制传送带停止;
若图像特征包含划痕,则传送带正常运行。
2.根据权利要求1所述的一种改进区域卷积神经网络的传送带撕裂检测方法,其特征在于,在步骤S2中,所述MobileNetV2网络由一个标准卷积层和17个反向残差模块组成,每个反向残差模块包含1×1卷积、5×5深度卷积和Relu6激活函数。
5.根据权利要求1所述的一种改进区域卷积神经网络的传送带撕裂检测方法,其特征在于:在步骤S2中,使用1×1的卷积对连接后的特征向量进行聚合,并调整特征的维度;使用Relu激活函数进一步提高网络的非线性能力,最后利用Sigmoid函数将权重参数归一化,计算公式如下:
Y=σ(δ(conv1×1([Gmax;Gavg])))
式中,Y∈R1×1×C为网络最终输出的权重向量,σ,δ分别表示Sigmoid激活函数和Relu激活函数,[.]为连接操作,conv1×1为1×1的卷积操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210523702.2A CN114926733A (zh) | 2022-05-13 | 2022-05-13 | 一种改进区域卷积神经网络的传送带撕裂检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210523702.2A CN114926733A (zh) | 2022-05-13 | 2022-05-13 | 一种改进区域卷积神经网络的传送带撕裂检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114926733A true CN114926733A (zh) | 2022-08-19 |
Family
ID=82809460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210523702.2A Pending CN114926733A (zh) | 2022-05-13 | 2022-05-13 | 一种改进区域卷积神经网络的传送带撕裂检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114926733A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131738A (zh) * | 2022-08-30 | 2022-09-30 | 海门市重型矿山机械厂 | 输送机传送带撕裂预警方法与装置 |
CN115359055A (zh) * | 2022-10-19 | 2022-11-18 | 煤炭科学技术研究院有限公司 | 运输机皮带边缘检测方法、装置、电子设备和存储介质 |
CN116720701A (zh) * | 2023-06-13 | 2023-09-08 | 武汉烽火技术服务有限公司 | 一种基于数字孪生模型的机房资产管理方法和系统 |
CN116883409A (zh) * | 2023-09-08 | 2023-10-13 | 山东省科学院激光研究所 | 一种基于深度学习的输送带缺陷检测方法及系统 |
CN117237359A (zh) * | 2023-11-15 | 2023-12-15 | 天津市恒一机电科技有限公司 | 传送带撕裂检测方法、装置、存储介质和电子设备 |
-
2022
- 2022-05-13 CN CN202210523702.2A patent/CN114926733A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115131738A (zh) * | 2022-08-30 | 2022-09-30 | 海门市重型矿山机械厂 | 输送机传送带撕裂预警方法与装置 |
CN115359055A (zh) * | 2022-10-19 | 2022-11-18 | 煤炭科学技术研究院有限公司 | 运输机皮带边缘检测方法、装置、电子设备和存储介质 |
CN115359055B (zh) * | 2022-10-19 | 2023-02-07 | 煤炭科学技术研究院有限公司 | 运输机皮带边缘检测方法、装置、电子设备和存储介质 |
CN116720701A (zh) * | 2023-06-13 | 2023-09-08 | 武汉烽火技术服务有限公司 | 一种基于数字孪生模型的机房资产管理方法和系统 |
CN116883409A (zh) * | 2023-09-08 | 2023-10-13 | 山东省科学院激光研究所 | 一种基于深度学习的输送带缺陷检测方法及系统 |
CN116883409B (zh) * | 2023-09-08 | 2023-11-24 | 山东省科学院激光研究所 | 一种基于深度学习的输送带缺陷检测方法及系统 |
CN117237359A (zh) * | 2023-11-15 | 2023-12-15 | 天津市恒一机电科技有限公司 | 传送带撕裂检测方法、装置、存储介质和电子设备 |
CN117237359B (zh) * | 2023-11-15 | 2024-02-20 | 天津市恒一机电科技有限公司 | 传送带撕裂检测方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114926733A (zh) | 一种改进区域卷积神经网络的传送带撕裂检测方法 | |
US11144889B2 (en) | Automatic assessment of damage and repair costs in vehicles | |
Tsintotas et al. | Assigning visual words to places for loop closure detection | |
US10438068B2 (en) | Adapting to appearance variations of a target object when tracking the target object in a video sequence | |
CN107909082B (zh) | 基于深度学习技术的声呐图像目标识别方法 | |
CN109615016B (zh) | 一种基于金字塔输入增益的卷积神经网络的目标检测方法 | |
CN112861635B (zh) | 一种基于深度学习的火灾及烟雾实时检测方法 | |
CN113160192A (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN111932583A (zh) | 一种基于复杂背景下的时空信息一体化智能跟踪方法 | |
CN104954741B (zh) | 深层次自我学习网络实现矿车空满状态的检测方法和系统 | |
CN115439458A (zh) | 基于深度图注意力的工业图像缺陷目标检测算法 | |
CN113111727A (zh) | 一种基于特征对齐的遥感场景下旋转目标检测方法 | |
CN113496480A (zh) | 一种焊缝图像缺陷的检测方法 | |
CN115937659A (zh) | 基于Mask-RCNN的室内复杂环境下多目标检测方法 | |
CN113989179B (zh) | 基于目标检测算法的列车轮对踏面缺陷检测方法及系统 | |
CN118297984A (zh) | 智慧城市摄像机多目标追踪方法及系统 | |
CN112949634B (zh) | 一种铁路接触网鸟窝检测方法 | |
Singh et al. | Detection of changes in Landsat Images using Hybrid PSO-FCM | |
CN114078106B (zh) | 基于改进Faster R-CNN的疵点检测方法 | |
CN114219763A (zh) | 基于Faster RCNN算法的配电设备异常发热点红外图片检测方法 | |
CN109887004A (zh) | 一种基于tld算法的无人船海域目标跟踪方法 | |
He et al. | Automatic detection and mapping of solar photovoltaic arrays with deep convolutional neural networks in high resolution satellite images | |
CN115830302A (zh) | 一种多尺度特征提取融合配电网设备定位识别方法 | |
CN116309270A (zh) | 一种基于双目图像的输电线路典型缺陷识别方法 | |
CN115620121A (zh) | 一种基于数字孪生的光电目标高精度检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |