CN116958786A - 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 - Google Patents
一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 Download PDFInfo
- Publication number
- CN116958786A CN116958786A CN202310989543.XA CN202310989543A CN116958786A CN 116958786 A CN116958786 A CN 116958786A CN 202310989543 A CN202310989543 A CN 202310989543A CN 116958786 A CN116958786 A CN 116958786A
- Authority
- CN
- China
- Prior art keywords
- model
- waste residue
- chemical waste
- neural network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002894 chemical waste Substances 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 49
- 230000000007 visual effect Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 27
- 239000002699 waste material Substances 0.000 claims abstract description 21
- 238000013145 classification model Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 239000000126 substance Substances 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 42
- 238000010586 diagram Methods 0.000 claims description 37
- 238000012360 testing method Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000008014 freezing Effects 0.000 claims description 6
- 238000007710 freezing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000002440 industrial waste Substances 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 5
- 230000006872 improvement Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,包括实时录制化工设备产物的视频;构建YOLOv5神经网络模型,并利用化工废渣数据集对该模型进行训练,获得化工废渣检测模型;利用化工废渣检测模型检测录制的视频,若该模型检测出视频出现的产物属于化工废渣,则在视频外接矩形框,裁剪出该产物的图像;构建ResNet50神经网络基础模型,并对该模型进行优化和改进,同时利用化工废渣数据集对该模型进行训练,获得化工废渣图像识别分类模型;利化工废渣图像识别分类模型对裁剪出的图像中出现的产物进行识别和分类。本发明解决了现有技术中使用卷积神经网络对化工废渣视频中显示的废渣进行识别分类时,准确率较低的问题。
Description
技术领域
本发明涉及动态视觉识别技术领域,特别是涉及一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法。
背景技术
动态视觉识别技术的核心是基于图像识别,而卷积神经网络是目前较为主流的图像识别算法。与传统的图像识别算法相比,卷积神经网络通过训练来提取更加稳健的特征,无需手工设计特征提取器,在图像识别任务中表现出色。近年来,卷积神经网络得到了迅速发展,涌现出一系列优秀的网络结构,如GoogLeNet、VGGNet、ResNet、YOLOv5等,不断改进了图像识别的准确率。
然而动态视觉识别技术是依据化工厂产生的废渣视频进行识别,废渣视频可能存在变形、遮挡、运动模糊等问题,使得图像信息难以清晰获取,此外废渣外观之间可能存在相似性,导致区分不同类别的废渣变得困难,同时真实场景中未知的分布偏差也可能对识别结果造成影响。因此直接使用卷积神经网络对化工废渣视频中显示的废渣进行识别分类时,准确率相对较低,需要进一步研究和改进算法,以提高动态视觉识别在废渣视频中的准确性和鲁棒性。
发明内容
发明目的:本发明的目的是提供一种化工废渣识别分类准确率高的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法。
技术方案:为实现上述目的,本发明所述的一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,包含以下步骤:
步骤S1:实时录制化工设备产物的视频;
步骤S2:构建YOLOv5神经网络模型,并利用化工废渣数据集对该模型进行训练,获得化工废渣检测模型;
步骤S3:利用化工废渣检测模型检测步骤S1录制视频,若该模型检测出视频图像出现的产物属于化工废渣,则在视频外接矩形框,裁剪出该产物的图像;
步骤S4:构建ResNet50神经网络基础模型,并对该模型进行优化和改进,同时利用化工废渣数据集对该模型进行训练,获得化工废渣图像识别分类模型;
步骤S5:利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的产物进行识别和分类。
步骤S2所述构建的YOLOv5神经网络模型,包括输入端、骨干网络、颈部、输出端四个部分;
其中,在输入端,YOLOv5模型将化工设备产物的视频按帧数获取图像,再使用Mosaic数据增强技术,对这些获取的图像进行随机的翻转、缩放、色域变化操作;将图像按照设定的位置进行重新放置,并将图像进行组合,生成最终的图像,该图像作为骨干网络的输入特征图,设输入特征图的大小为N×N×C,其中N为特征图的尺寸,C为通道数;
所述骨干网络包括Focus结构和CSP结构,其中Focus结构将输入特征图划分成四个子图,并将这四个子图进行通道拼接,从而得到一个更小的特征图,具体过程为:
将输入特征图进行通道分离,得到两个大小为N×N×C/4的特征图,记为x和y;
对x和y分别进行横向和纵向的步长为2的卷积操作,得到两个大小为N/2×N/2×C/4的特征图,记为x1和y1;
将x1和y1进行通道拼接,得到一个大小为N/2×N/2×C/2的特征图,记为z;
对z进行横向和纵向的步长为2的卷积操作,得到一个大小为N/4×N/4×C/2的特征图,即为Focus结构的输出特征图;
所述CSP结构将Focus结构的输出特征图分成两部分,一部分经过子网络进行处理,另一部分进行下一层的处理,再将这两部分特征图拼接起来,作为下一层的输入,具体过程为:
在子网络中,先使用一个卷积层将输入特征图进行压缩,再进行一系列卷积操作、使用一个卷积层进行扩张,以提取出输入特征图中相对较少的高层次特征;
在下一层中,将经过子网络处理的特征图与直接处理的特征图进行拼接,再进行一系列卷积操作,以将输入特征图中低层次的细节特征和高层次的抽象特征结合起来,提高特征提取的效率;
所述颈部中,YOLOv5神经网络采用特征金字塔FPN和路径聚合网络PANet结构对骨干网络输出的特征图进一步处理;其中PANet在FPN结构后面进一步加入自底向上的特征金字塔结构,在深层次提取更强的语义信息;
所述输出层中,YOLOv5神经网络通过使用anchor box来预测颈部输出的特征图的边界框位置和大小,同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率,输出图像中目标的位置、大小和类别信息。
步骤S2所述的化工废渣数据集是多组包含废渣和不包含废渣的图像,并将该数据集随机划分为训练集和测试集。
利用化工废渣数据集对YOLOv5神经网络模型进行训练,获得化工废渣检测模型,具体过程为:冻结YOLOv5神经网络模型中靠近输入端的卷积块,保持起始层权重不变,用训练集训练剩余靠近输出端的卷积块和Softmax分类器,得到新的权重;其中新的权重是用初始权重减去反向传播的误差,当反向传播的误差为正时,减小当前权重的数值,当反向传播的误差为负时,增加当前权重的数值,训练及微调权重值后的YOLOv5神经网络模型即为化工废渣检测模型;用测试集检验化工废渣检测模型的性能,包括判断测试集图像中出现的产物是否为化工废渣的准确率和损失率。
步骤S4所述的构建ResNet50神经网络基础模型,并对该模型进行优化和改进,包括以下子步骤:
步骤S401:构建ResNet50神经网络基础模型,包括五个阶段:
第一阶段:输入有关废渣产物的图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层,最后输出相应的特征图;
第二阶段至第五个阶段均由卷积层和卷积核组成的瓶颈层Bottleneck构成,分别包含3、4、6、3个瓶颈层Bottleneck,并依次对上一阶段输出的特征图进行卷积处理;
步骤S402:加入邻域风格自适应模型IBN对构建的ResNet50神经网络基础模型进行该改进;
步骤S403:加入卷积注意力机制CBAM对ResNet50神经网络基础模型进行改进和优化。
步骤S401所述的第一阶段输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层,最后输出特征图,具体过程为:
卷积层对输入图像像素值计算过程为:
其中,x表示输入图像样本像素值数组;padding表示输入的每一条边补充0的层数,为维持卷积层前后的特征图尺寸一致,ker nelsize表示卷积核的大小,stride表示卷积步长;
BN层对卷积层生成的特征图计算均值过程为:
其中,m表示输入特征图样本总量,xi表示输入的某一组特征图像素值数组,i=1,2,...,m;
BN层对卷积层生成的特征图计算标准差过程为:
BN层对卷积层生成的特征图进行归一化处理过程为:
其中,ε代表偏移量;
BN层对归一化处理后的特征图进行重构变化:
其中,γ和β表示为线型调节参数;
ReLU激活函数对归一化后的特征图进行处理:
f(x)=max(0,x);
MaxPooling层:整个特征图被不重叠的分割成若干个同样大小的小块,每个小块内,只取最大的数字,再舍弃其余节点后,保持原有的平面结构得到输出特征图。
步骤S402所述的加入邻域风格自适应模型IBN对ResNet50神经网络基础模型进行该改进,具体过程为:
IBN结构包括BN和IN,在ResNet50浅层网络Conv_2_x、Conv 3_x、Conv4_x中引入IN和BN结构对输出的特征图进行归一化处理,即将特征通道分为两部分,一半通过BN计算,另一半通过IN进行计算;在深层网络Conv 5_x中使用BN进行归一化处理。
步骤S403所述的加入卷积注意力机制CBAM对ResNet50神经网络模型进行改进和优化,具体是在ResNet50的每个残差块中依次加入通道注意力模块Mc和空间注意力模块Ms,其中通道注意力模块Mc是对各卷积模块之间的通道进行处理,空间注意力模块Ms是基于空间维度下对Mc输入的特征图进行最大池化和平均池化处理,计算过程分别为:
式中,F为特征图;Mc和Ms分别表示基于通道和基于空间的注意力;表示逐元素相乘;F1和F2分别表示进行通道注意力和空间注意力后的输出特征图。
步骤S4所述的利用化工废渣数据集对ResNet50神经网络基础模型进行训练,是指将包含大量工业废渣图像的化工废渣数据集随机划分为训练集和测试集,用训练集对改进优化后的ResNet50神经网络基础模型进行训练,用测试集对该模型的性能进行检测,具体过程为:
利用训练集对ResNet50神经网络模型进行训练,即冻结预训练模型中靠近输入端的卷积块,保持起始层权重不变,用训练集训练剩余靠近输出端的卷积块和Softmax分类器,得到新的权重,其中新的权重是用初始权重减去反向传播的误差,当反向传播的误差为正时,减小当前权重的数值,当反向传播的误差为负时,增加当前权重的数值,训练及微调权重值后的ResNet50神经网络模型即为化工废渣图像识别分类模型;用测试集检验化工废渣图像识别分类模型的性能,包括图像识别分类的准确率和损失率。
步骤S5所述的利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的化工废渣产物进行识别和分类,具体为将裁剪出的有关废渣图像中的图像值输入到化工废渣图像识别分类模型中,利用该模型中Softmax分类器获得每个图像分类结果的概率,使得每个概率值的取值范围为[0,1],且所有概率值之和为1,其中概率最大的即为图像中所显示废渣的识别分类结果。
有益效果:本发明具有如下优点:1、本发明结合了YOLOv5和ResNet50两种不同的神经网络模型,能够更加准确地识别初步图像中因运动模糊的化工废渣产物,并对其进行分类;同时也能精准识别出因运动模糊的图像中显示的产物;此外还引入了邻域风格自适应模块IBN对ResNet50神经网络模型进行改进,保持了模型的学习能力,同时过滤了由于变形、遮挡、运动模糊的外观差异,提高模型的泛化能力;
2、本发明所述的图像识别分类方法在带有邻域风格自适应模块IBN的ResNet50基础上,引入了卷积注意力机制CBAM结构对其模型进行了进一步优化,更进一步降低复杂背景差异对化工废渣识别的影响,提升模型的域适应能力。
附图说明
图1为本发明方法流程示意图;
图2为YOLOv5和ResNet50神经网络训练过程示意图。
具体实施方式
下面结合实施例和附图对本发明的技术方案作详细说明。
如图1所示,本发明所述的一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,包含以下步骤:
步骤S1:实时录制化工设备产物的视频;
步骤S2:构建YOLOv5神经网络模型,并利用化工废渣数据集对该模型进行训练,获得化工废渣检测模型;
步骤S3:利用化工废渣检测模型检测步骤S1录制视频,若该模型检测出视频图像出现的产物属于化工废渣,则在视频外接矩形框,裁剪出该产物的图像;
步骤S4:构建ResNet50神经网络基础模型,并对该模型进行优化和改进,同时利用化工废渣数据集对该模型进行训练,获得化工废渣图像识别分类模型;
步骤S5:利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的产物进行识别和分类。
其中,步骤S2所述构建的YOLOv5神经网络模型,包括输入端、骨干网络、颈部、输出端四个部分;
所述在输入端,YOLOv5模型将视频按帧数获取图像,再使用Mosaic数据增强技术,对这些获取的图像进行随机的翻转、缩放、色域变化操作,再将图像按照设定的位置进行重新放置,并将图像进行组合,生成最终的图像,该图像作为骨干网络的输入特征图,设输入特征图的大小为N×N×C,其中N为特征图的尺寸,C为通道数;
所述骨干网络包括Focus结构和CSP结构,其中Focus结构将输入特征图划分成四个子图,并将这四个子图进行通道拼接,从而得到一个更小的特征图,具体过程为:
将输入特征图进行通道分离,得到两个大小为N×N×C/4的特征图,记为x和y;
对x和y分别进行横向和纵向的步长为2的卷积操作,得到两个大小为N/2×N/2×C/4的特征图,记为x1和y1;
将x1和y1进行通道拼接,得到一个大小为N/2×N/2×C/2的特征图,记为z;
对z进行横向和纵向的步长为2的卷积操作,得到一个大小为N/4×N/4×C/2的特征图,即为Focus结构的输出特征图;
所述CSP(Cross Stage Partial)结构将Focus结构的输出特征图分成两部分,一部分经过子网络进行处理,另一部分进行下一层的处理,再将这两部分特征图拼接起来,作为下一层的输入,具体过程为:
在子网络中,先使用一个卷积层将输入特征图进行压缩,再进行一系列卷积操作、使用一个卷积层进行扩张,以提取出输入特征图中相对较少的高层次特征;
在下一层中,将经过子网络处理的特征图与直接处理的特征图进行拼接,再进行一系列卷积操作,以将输入特征图中低层次的细节特征和高层次的抽象特征结合起来,提高特征提取的效率;
所述颈部中,YOLOv5神经网络采用特征金字塔FPN和路径聚合网络PANet)结构对骨干网络输出的特征图进一步处理;其中PANet在FPN结构后面进一步加入自底向上的特征金字塔结构,在深层次提取更强的语义信息;
所述输出层中,YOLOv5神经网络通过使用anchor box来预测颈部输出的特征图的边界框位置和大小,同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率,输出图像中目标的位置、大小和类别信息。
步骤S2所述的化工废渣数据集是多组包含废渣和不包含废渣的图像,并将该数据集随机划分为训练集和测试集。
如图2所述,利用化工废渣数据集对YOLOv5神经网络模型进行训练,获得化工废渣检测模型,具体过程为:冻结YOLOv5神经网络模型中靠近输入端的卷积块,保持起始层权重不变,用训练集训练剩余靠近输出端的卷积块和Softmax分类器,得到新的权重;其中新的权重是用初始权重减去反向传播的误差,当反向传播的误差为正时,减小当前权重的数值,当反向传播的误差为负时,增加当前权重的数值,训练及微调权重值后的YOLOv5神经网络模型即为化工废渣检测模型;用测试集检验化工废渣检测模型的性能,包括判断测试集图像中出现的产物是否为化工废渣的准确率和损失率。
步骤S4所述的构建ResNet50神经网络基础模型,并对该模型进行优化和改进,包括以下子步骤:
步骤S401:构建ResNet50神经网络基础模型,包括五个阶段:
第一阶段:输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层,最后输出相应的特征图;
第二阶段至第五个阶段均由卷积层和卷积核组成的瓶颈层Bottleneck构成,分别包含3、4、6、3个瓶颈层Bottleneck,并依次对上一阶段输出的特征图进行卷积处理;
步骤S402:加入邻域风格自适应模型IBN对构建的ResNet50神经网络基础模型进行该改进;
步骤S403:加入卷积注意力机制CBAM对ResNet50神经网络基础模型进行改进和优化。
其中,步骤S401所述的第一阶段输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层,最后输出特征图,具体过程为:
卷积层对输入图像像素值计算过程为:
其中,x表示输入图像样本像素值数组;padding表示输入的每一条边补充0的层数,为维持卷积层前后的特征图尺寸一致,ker nelsize表示卷积核的大小,stride表示卷积步长;
BN层对卷积层生成的特征图计算均值过程为:
其中,m表示输入特征图样本总量,xi表示输入的某一组特征图像素值数组,i=1,2,...,m;
BN层对卷积层生成的特征图计算标准差过程为:
BN层对卷积层生成的特征图进行归一化处理过程为:
其中,ε代表偏移量;
BN层对归一化处理后的特征图进行重构变化:
其中,γ和β表示为线型调节参数;
ReLU激活函数对归一化后的特征图进行处理:
f(x)=max(0,x);
MaxPooling层:整个特征图被不重叠的分割成若干个同样大小的小块,每个小块内,只取最大的数字,再舍弃其余节点后,保持原有的平面结构得到输出特征图。
步骤S402所述的加入邻域风格自适应模型IBN对ResNet50神经网络基础模型进行该改进,具体过程为:
IBN是一种新型卷积架构,可以显著增强网络模型在一个域上的建模能力及在另一个域上的泛化能力,IBN结构包括BN和IN,在ResNet50浅层网络Conv_2_x、Conv 3_x、Conv4_x中引入IN和BN结构对输出的特征图进行归一化处理,即将特征通道分为两部分,一半通过BN计算,另一半通过IN进行计算;在深层网络C onv 5_x中使用BN进行归一化处理。
步骤S403所述的加入卷积注意力机制CBAM对ResNet50神经网络模型进行改进和优化,具体是在ResNet50的每个残差块中依次加入通道注意力模块Mc和空间注意力模块Ms,其中通道注意力模块Mc是对各卷积模块之间的通道进行处理,空间注意力模块Ms是基于空间维度下对Mc输入的特征图进行最大池化和平均池化处理,计算过程为:
式中,F为特征图;Mc和Ms分别表示基于通道和基于空间的注意力;表示逐元素相乘;F1和F2分别表示进行通道注意力和空间注意力后的输出特征图。
步骤S4所述的利用化工废渣数据集对ResNet50神经网络基础模型进行训练,是指将包含大量工业废渣图像的化工废渣数据集随机划分为训练集和测试集,用训练集对改进优化后的ResNet50神经网络基础模型进行训练,用测试集对该模型的性能进行检测,具体过程为:
利用训练集对ResNet50神经网络模型进行训练,即冻结预训练模型中靠近输入端的卷积块,保持起始层权重不变,用训练集训练剩余靠近输出端的卷积块和Softmax分类器,得到新的权重,其中新的权重是用初始权重减去反向传播的误差,当反向传播的误差为正时,减小当前权重的数值,当反向传播的误差为负时,增加当前权重的数值,训练及微调权重值后的ResNet50神经网络模型即为化工废渣图像识别分类模型;用测试集检验化工废渣图像识别分类模型的性能,包括图像识别分类的准确率和损失率。
步骤S5所述的利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的化工废渣产物进行识别和分类,具体为将裁剪出的有关废渣图像中的图像值输入到化工废渣图像识别分类模型中,利用该模型中Softmax分类器获得每个图像分类结果的概率,使得每个概率值的取值范围为[0,1],且所有概率值之和为1,其中概率最大的即为图像中所显示废渣的识别分类结果。
Claims (10)
1.一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,包含以下步骤:
步骤S1:实时录制化工设备产物的视频;
步骤S2:构建YOLOv5神经网络模型,并利用化工废渣数据集对该模型进行训练,获得化工废渣检测模型;
步骤S3:利用化工废渣检测模型检测步骤S1录制视频,若该模型检测出视频图像出现的产物属于化工废渣,则在视频外接矩形框,裁剪出该产物的图像;
步骤S4:构建ResNet50神经网络基础模型,并对该模型进行优化和改进,同时利用化工废渣数据集对该模型进行训练,获得化工废渣图像识别分类模型;
步骤S5:利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的产物进行识别和分类。
2.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S2所述构建的YOLOv5神经网络模型,包括输入端、骨干网络、颈部、输出端四个部分;
其中,在输入端,YOLOv5模型将化工设备产物的视频按帧数获取图像,再使用Mosaic数据增强技术,对这些获取的图像进行随机的翻转、缩放、色域变化操作;将图像按照设定的位置进行重新放置,并将图像进行组合,生成最终的图像,该图像作为骨干网络的输入特征图,设输入特征图的大小为N×N×C,其中N为特征图的尺寸,C为通道数;
所述骨干网络包括Focus结构和CSP结构,其中Focus结构将输入特征图划分成四个子图,并将这四个子图进行通道拼接,从而得到一个更小的特征图,具体过程为:
将输入特征图进行通道分离,得到两个大小为N×N×C/4的特征图,记为x和y;
对x和y分别进行横向和纵向的步长为2的卷积操作,得到两个大小为N/2×N/2×C/4的特征图,记为x1和y1;
将x1和y1进行通道拼接,得到一个大小为N/2×N/2×C/2的特征图,记为z;
对z进行横向和纵向的步长为2的卷积操作,得到一个大小为N/4×N/4×C/2的特征图,即为Focus结构的输出特征图;
所述CSP结构将Focus结构的输出特征图分成两部分,一部分经过子网络进行处理,另一部分进行下一层的处理,再将这两部分特征图拼接起来,作为下一层的输入,具体过程为:
在子网络中,先使用一个卷积层将输入特征图进行压缩,再进行一系列卷积操作、使用一个卷积层进行扩张,以提取出输入特征图中相对较少的高层次特征;
在下一层中,将经过子网络处理的特征图与直接处理的特征图进行拼接,再进行一系列卷积操作,以将输入特征图中低层次的细节特征和高层次的抽象特征结合起来,提高特征提取的效率;
所述颈部中,YOLOv5神经网络采用特征金字塔FPN和路径聚合网络PANet结构对骨干网络输出的特征图进一步处理;其中PANet在FPN结构后面进一步加入自底向上的特征金字塔结构,在深层次提取更强的语义信息;
所述输出层中,YOLOv5神经网络通过使用anchor box来预测颈部输出的特征图的边界框位置和大小,同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率,输出图像中目标的位置、大小和类别信息。
3.根据权利要求2所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S2所述的化工废渣数据集是多组包含废渣和不包含废渣的图像,并将该数据集随机划分为训练集和测试集。
4.根据权利要求3所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,利用化工废渣数据集对YOLOv5神经网络模型进行训练,获得化工废渣检测模型,具体过程为:冻结YOLOv5神经网络模型中靠近输入端的卷积块,保持起始层权重不变,用训练集训练剩余靠近输出端的卷积块和Softmax分类器,得到新的权重;其中新的权重是用初始权重减去反向传播的误差,当反向传播的误差为正时,减小当前权重的数值,当反向传播的误差为负时,增加当前权重的数值,训练及微调权重值后的YOLOv5神经网络模型即为化工废渣检测模型;用测试集检验化工废渣检测模型的性能,包括判断测试集图像中出现的产物是否为化工废渣的准确率和损失率。
5.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S4所述的构建ResNet50神经网络基础模型,并对该模型进行优化和改进,包括以下子步骤:
步骤S401:构建ResNet50神经网络基础模型,包括五个阶段:
第一阶段:输入有关废渣产物的图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层,最后输出相应的特征图;
第二阶段至第五个阶段均由卷积层和卷积核组成的瓶颈层Bottleneck构成,分别包含3、4、6、3个瓶颈层Bottleneck,并依次对上一阶段输出的特征图进行卷积处理;
步骤S402:加入邻域风格自适应模型IBN对构建的ResNet50神经网络基础模型进行该改进;
步骤S403:加入卷积注意力机制CBAM对ResNet50神经网络基础模型进行改进和优化。
6.根据权利要求5所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S401所述的第一阶段输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层,最后输出特征图,具体过程为:
卷积层对输入图像像素值计算过程为:
其中,x表示输入图像样本像素值数组;padding表示输入的每一条边补充0的层数,为维持卷积层前后的特征图尺寸一致,kernelsize表示卷积核的大小,stride表示卷积步长;
BN层对卷积层生成的特征图计算均值过程为:
其中,m表示输入特征图样本总量,xi表示输入的某一组特征图像素值数组,i=1,2,...,m;
BN层对卷积层生成的特征图计算标准差过程为:
BN层对卷积层生成的特征图进行归一化处理过程为:
其中,ε代表偏移量;
BN层对归一化处理后的特征图进行重构变化:
其中,γ和β表示为线型调节参数;
ReLU激活函数对归一化后的特征图进行处理:
f(x)=max(0,x);
MaxPooling层:整个特征图被不重叠的分割成若干个同样大小的小块,每个小块内,只取最大的数字,再舍弃其余节点后,保持原有的平面结构得到输出特征图。
7.根据权利要求5所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S402所述的加入邻域风格自适应模型IBN对ResNet50神经网络基础模型进行该改进,具体过程为:
IBN结构包括BN和IN,在ResNet50浅层网络Conv_2_x、Conv 3_x、Conv4_x中引入IN和BN结构对输出的特征图进行归一化处理,即将特征通道分为两部分,一半通过BN计算,另一半通过IN进行计算;在深层网络Conv 5_x中使用BN进行归一化处理。
8.根据权利要5所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S403所述的加入卷积注意力机制CBAM对ResNet50神经网络模型进行改进和优化,具体是在ResNet50的每个残差块中依次加入通道注意力模块Mc和空间注意力模块Ms,其中通道注意力模块Mc是对各卷积模块之间的通道进行处理,空间注意力模块Ms是基于空间维度下对Mc输入的特征图进行最大池化和平均池化处理,计算过程分别为:
式中,F为特征图;Mc和Ms分别表示基于通道和基于空间的注意力;表示逐元素相乘;F1和F2分别表示进行通道注意力和空间注意力后的输出特征图。
9.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S4所述的利用化工废渣数据集对ResNet50神经网络基础模型进行训练,是指将包含大量工业废渣图像的化工废渣数据集随机划分为训练集和测试集,用训练集对改进优化后的ResNet50神经网络基础模型进行训练,用测试集对该模型的性能进行检测,具体过程为:
利用训练集对ResNet50神经网络模型进行训练,即冻结预训练模型中靠近输入端的卷积块,保持起始层权重不变,用训练集训练剩余靠近输出端的卷积块和Softmax分类器,得到新的权重,其中新的权重是用初始权重减去反向传播的误差,当反向传播的误差为正时,减小当前权重的数值,当反向传播的误差为负时,增加当前权重的数值,训练及微调权重值后的ResNet50神经网络模型即为化工废渣图像识别分类模型;用测试集检验化工废渣图像识别分类模型的性能,包括图像识别分类的准确率和损失率。
10.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法,其特征在于,步骤S5所述的利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的化工废渣产物进行识别和分类,具体为将裁剪出的有关废渣图像中的图像值输入到化工废渣图像识别分类模型中,利用该模型中Softmax分类器获得每个图像分类结果的概率,使得每个概率值的取值范围为[0,1],且所有概率值之和为1,其中概率最大的即为图像中所显示废渣的识别分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310989543.XA CN116958786A (zh) | 2023-08-08 | 2023-08-08 | 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310989543.XA CN116958786A (zh) | 2023-08-08 | 2023-08-08 | 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958786A true CN116958786A (zh) | 2023-10-27 |
Family
ID=88454641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310989543.XA Pending CN116958786A (zh) | 2023-08-08 | 2023-08-08 | 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649364A (zh) * | 2024-01-30 | 2024-03-05 | 安徽大学 | 基于改进DeblurGANv2模型的真菌孢子显微图像去模糊方法 |
-
2023
- 2023-08-08 CN CN202310989543.XA patent/CN116958786A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649364A (zh) * | 2024-01-30 | 2024-03-05 | 安徽大学 | 基于改进DeblurGANv2模型的真菌孢子显微图像去模糊方法 |
CN117649364B (zh) * | 2024-01-30 | 2024-05-07 | 安徽大学 | 基于改进DeblurGANv2模型的真菌孢子显微图像去模糊方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
CN113158723B (zh) | 一种端到端的视频动作检测定位系统 | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN109919032B (zh) | 一种基于动作预测的视频异常行为检测方法 | |
CN113642634A (zh) | 一种基于混合注意力的阴影检测方法 | |
CN112766195B (zh) | 一种电气化铁路弓网燃弧视觉检测方法 | |
CN111968150B (zh) | 一种基于全卷积神经网络的弱监督视频目标分割方法 | |
CN112561910A (zh) | 一种基于多尺度特征融合的工业表面缺陷检测方法 | |
CN112183240B (zh) | 一种基于3d时间流和并行空间流的双流卷积行为识别方法 | |
CN113255616B (zh) | 一种基于深度学习的视频行为识别方法 | |
CN112381763A (zh) | 一种表面缺陷检测方法 | |
CN111160356A (zh) | 一种图像分割分类方法和装置 | |
CN116958786A (zh) | 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法 | |
CN114155474A (zh) | 基于视频语义分割算法的损伤识别技术 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 | |
Wang | A survey on IQA | |
CN115239672A (zh) | 缺陷检测方法及装置、设备、存储介质 | |
CN111199255A (zh) | 基于darknet53网络的小目标检测网络模型及检测方法 | |
CN114943840A (zh) | 机器学习模型的训练方法、图像的处理方法和电子设备 | |
CN111027472A (zh) | 一种基于视频光流和图像空间特征权重融合的视频识别方法 | |
CN111612803B (zh) | 一种基于图像清晰度的车辆图像语义分割方法 | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |