CN116958786A

CN116958786A - 一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法

Info

Publication number: CN116958786A
Application number: CN202310989543.XA
Authority: CN
Inventors: 臧建东; 沈骞; 胡婷; 吴金花; 徐寅
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-10-27

Abstract

本发明公开了一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，包括实时录制化工设备产物的视频；构建YOLOv5神经网络模型，并利用化工废渣数据集对该模型进行训练，获得化工废渣检测模型；利用化工废渣检测模型检测录制的视频，若该模型检测出视频出现的产物属于化工废渣，则在视频外接矩形框，裁剪出该产物的图像；构建ResNet50神经网络基础模型，并对该模型进行优化和改进，同时利用化工废渣数据集对该模型进行训练，获得化工废渣图像识别分类模型；利化工废渣图像识别分类模型对裁剪出的图像中出现的产物进行识别和分类。本发明解决了现有技术中使用卷积神经网络对化工废渣视频中显示的废渣进行识别分类时，准确率较低的问题。

Description

一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法

技术领域

本发明涉及动态视觉识别技术领域，特别是涉及一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法。

背景技术

动态视觉识别技术的核心是基于图像识别，而卷积神经网络是目前较为主流的图像识别算法。与传统的图像识别算法相比，卷积神经网络通过训练来提取更加稳健的特征，无需手工设计特征提取器，在图像识别任务中表现出色。近年来，卷积神经网络得到了迅速发展，涌现出一系列优秀的网络结构，如GoogLeNet、VGGNet、ResNet、YOLOv5等，不断改进了图像识别的准确率。

然而动态视觉识别技术是依据化工厂产生的废渣视频进行识别，废渣视频可能存在变形、遮挡、运动模糊等问题，使得图像信息难以清晰获取，此外废渣外观之间可能存在相似性，导致区分不同类别的废渣变得困难，同时真实场景中未知的分布偏差也可能对识别结果造成影响。因此直接使用卷积神经网络对化工废渣视频中显示的废渣进行识别分类时，准确率相对较低，需要进一步研究和改进算法，以提高动态视觉识别在废渣视频中的准确性和鲁棒性。

发明内容

发明目的：本发明的目的是提供一种化工废渣识别分类准确率高的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法。

技术方案：为实现上述目的，本发明所述的一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，包含以下步骤：

步骤S1：实时录制化工设备产物的视频；

步骤S2：构建YOLOv5神经网络模型，并利用化工废渣数据集对该模型进行训练，获得化工废渣检测模型；

步骤S3：利用化工废渣检测模型检测步骤S1录制视频，若该模型检测出视频图像出现的产物属于化工废渣，则在视频外接矩形框，裁剪出该产物的图像；

步骤S4：构建ResNet50神经网络基础模型，并对该模型进行优化和改进，同时利用化工废渣数据集对该模型进行训练，获得化工废渣图像识别分类模型；

步骤S5：利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的产物进行识别和分类。

步骤S2所述构建的YOLOv5神经网络模型，包括输入端、骨干网络、颈部、输出端四个部分；

其中，在输入端，YOLOv5模型将化工设备产物的视频按帧数获取图像，再使用Mosaic数据增强技术，对这些获取的图像进行随机的翻转、缩放、色域变化操作；将图像按照设定的位置进行重新放置，并将图像进行组合，生成最终的图像，该图像作为骨干网络的输入特征图，设输入特征图的大小为N×N×C，其中N为特征图的尺寸，C为通道数；

所述骨干网络包括Focus结构和CSP结构，其中Focus结构将输入特征图划分成四个子图，并将这四个子图进行通道拼接，从而得到一个更小的特征图，具体过程为：

将输入特征图进行通道分离，得到两个大小为N×N×C/4的特征图，记为x和y；

对x和y分别进行横向和纵向的步长为2的卷积操作，得到两个大小为N/2×N/2×C/4的特征图，记为x¹和y¹；

将x¹和y¹进行通道拼接，得到一个大小为N/2×N/2×C/2的特征图，记为z；

对z进行横向和纵向的步长为2的卷积操作，得到一个大小为N/4×N/4×C/2的特征图，即为Focus结构的输出特征图；

所述CSP结构将Focus结构的输出特征图分成两部分，一部分经过子网络进行处理，另一部分进行下一层的处理，再将这两部分特征图拼接起来，作为下一层的输入，具体过程为：

在子网络中，先使用一个卷积层将输入特征图进行压缩，再进行一系列卷积操作、使用一个卷积层进行扩张，以提取出输入特征图中相对较少的高层次特征；

在下一层中，将经过子网络处理的特征图与直接处理的特征图进行拼接，再进行一系列卷积操作，以将输入特征图中低层次的细节特征和高层次的抽象特征结合起来，提高特征提取的效率；

所述颈部中，YOLOv5神经网络采用特征金字塔FPN和路径聚合网络PANet结构对骨干网络输出的特征图进一步处理；其中PANet在FPN结构后面进一步加入自底向上的特征金字塔结构，在深层次提取更强的语义信息；

所述输出层中，YOLOv5神经网络通过使用anchor box来预测颈部输出的特征图的边界框位置和大小，同时对每个anchor box对应的预测结果使用softmax函数来计算类别概率，输出图像中目标的位置、大小和类别信息。

步骤S2所述的化工废渣数据集是多组包含废渣和不包含废渣的图像，并将该数据集随机划分为训练集和测试集。

利用化工废渣数据集对YOLOv5神经网络模型进行训练，获得化工废渣检测模型，具体过程为：冻结YOLOv5神经网络模型中靠近输入端的卷积块，保持起始层权重不变，用训练集训练剩余靠近输出端的卷积块和Softmax分类器，得到新的权重；其中新的权重是用初始权重减去反向传播的误差，当反向传播的误差为正时，减小当前权重的数值，当反向传播的误差为负时，增加当前权重的数值，训练及微调权重值后的YOLOv5神经网络模型即为化工废渣检测模型；用测试集检验化工废渣检测模型的性能，包括判断测试集图像中出现的产物是否为化工废渣的准确率和损失率。

步骤S4所述的构建ResNet50神经网络基础模型，并对该模型进行优化和改进，包括以下子步骤：

步骤S401：构建ResNet50神经网络基础模型，包括五个阶段：

第一阶段：输入有关废渣产物的图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层，最后输出相应的特征图；

第二阶段至第五个阶段均由卷积层和卷积核组成的瓶颈层Bottleneck构成，分别包含3、4、6、3个瓶颈层Bottleneck，并依次对上一阶段输出的特征图进行卷积处理；

步骤S402：加入邻域风格自适应模型IBN对构建的ResNet50神经网络基础模型进行该改进；

步骤S403：加入卷积注意力机制CBAM对ResNet50神经网络基础模型进行改进和优化。

步骤S401所述的第一阶段输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层，最后输出特征图，具体过程为：

卷积层对输入图像像素值计算过程为：

其中，x表示输入图像样本像素值数组；padding表示输入的每一条边补充0的层数，为维持卷积层前后的特征图尺寸一致，ker nelsize表示卷积核的大小，stride表示卷积步长；

BN层对卷积层生成的特征图计算均值过程为：

其中，m表示输入特征图样本总量，xi表示输入的某一组特征图像素值数组，i＝1,2,...,m；

BN层对卷积层生成的特征图计算标准差过程为：

BN层对卷积层生成的特征图进行归一化处理过程为：

其中，ε代表偏移量；

BN层对归一化处理后的特征图进行重构变化：

其中，γ和β表示为线型调节参数；

ReLU激活函数对归一化后的特征图进行处理：

f(x)＝max(0,x)；

MaxPooling层：整个特征图被不重叠的分割成若干个同样大小的小块，每个小块内，只取最大的数字，再舍弃其余节点后，保持原有的平面结构得到输出特征图。

步骤S402所述的加入邻域风格自适应模型IBN对ResNet50神经网络基础模型进行该改进，具体过程为：

IBN结构包括BN和IN，在ResNet50浅层网络Conv_2＿x、Conv 3＿x、Conv4＿x中引入IN和BN结构对输出的特征图进行归一化处理，即将特征通道分为两部分，一半通过BN计算，另一半通过IN进行计算；在深层网络Conv 5＿x中使用BN进行归一化处理。

步骤S403所述的加入卷积注意力机制CBAM对ResNet50神经网络模型进行改进和优化，具体是在ResNet50的每个残差块中依次加入通道注意力模块Mc和空间注意力模块Ms，其中通道注意力模块Mc是对各卷积模块之间的通道进行处理，空间注意力模块Ms是基于空间维度下对Mc输入的特征图进行最大池化和平均池化处理，计算过程分别为：

式中，F为特征图；M_c和M_s分别表示基于通道和基于空间的注意力；表示逐元素相乘；F¹和F²分别表示进行通道注意力和空间注意力后的输出特征图。

步骤S4所述的利用化工废渣数据集对ResNet50神经网络基础模型进行训练，是指将包含大量工业废渣图像的化工废渣数据集随机划分为训练集和测试集，用训练集对改进优化后的ResNet50神经网络基础模型进行训练，用测试集对该模型的性能进行检测，具体过程为：

利用训练集对ResNet50神经网络模型进行训练，即冻结预训练模型中靠近输入端的卷积块，保持起始层权重不变，用训练集训练剩余靠近输出端的卷积块和Softmax分类器，得到新的权重，其中新的权重是用初始权重减去反向传播的误差，当反向传播的误差为正时，减小当前权重的数值，当反向传播的误差为负时，增加当前权重的数值，训练及微调权重值后的ResNet50神经网络模型即为化工废渣图像识别分类模型；用测试集检验化工废渣图像识别分类模型的性能，包括图像识别分类的准确率和损失率。

步骤S5所述的利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的化工废渣产物进行识别和分类，具体为将裁剪出的有关废渣图像中的图像值输入到化工废渣图像识别分类模型中，利用该模型中Softmax分类器获得每个图像分类结果的概率，使得每个概率值的取值范围为[0,1]，且所有概率值之和为1，其中概率最大的即为图像中所显示废渣的识别分类结果。

有益效果：本发明具有如下优点：1、本发明结合了YOLOv5和ResNet50两种不同的神经网络模型，能够更加准确地识别初步图像中因运动模糊的化工废渣产物，并对其进行分类；同时也能精准识别出因运动模糊的图像中显示的产物；此外还引入了邻域风格自适应模块IBN对ResNet50神经网络模型进行改进，保持了模型的学习能力，同时过滤了由于变形、遮挡、运动模糊的外观差异，提高模型的泛化能力；

2、本发明所述的图像识别分类方法在带有邻域风格自适应模块IBN的ResNet50基础上，引入了卷积注意力机制CBAM结构对其模型进行了进一步优化，更进一步降低复杂背景差异对化工废渣识别的影响，提升模型的域适应能力。

附图说明

图1为本发明方法流程示意图；

图2为YOLOv5和ResNet50神经网络训练过程示意图。

具体实施方式

下面结合实施例和附图对本发明的技术方案作详细说明。

如图1所示，本发明所述的一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，包含以下步骤：

步骤S1：实时录制化工设备产物的视频；

其中，步骤S2所述构建的YOLOv5神经网络模型，包括输入端、骨干网络、颈部、输出端四个部分；

所述在输入端，YOLOv5模型将视频按帧数获取图像，再使用Mosaic数据增强技术，对这些获取的图像进行随机的翻转、缩放、色域变化操作，再将图像按照设定的位置进行重新放置，并将图像进行组合，生成最终的图像，该图像作为骨干网络的输入特征图，设输入特征图的大小为N×N×C，其中N为特征图的尺寸，C为通道数；

所述CSP(Cross Stage Partial)结构将Focus结构的输出特征图分成两部分，一部分经过子网络进行处理，另一部分进行下一层的处理，再将这两部分特征图拼接起来，作为下一层的输入，具体过程为：

所述颈部中，YOLOv5神经网络采用特征金字塔FPN和路径聚合网络PANet)结构对骨干网络输出的特征图进一步处理；其中PANet在FPN结构后面进一步加入自底向上的特征金字塔结构，在深层次提取更强的语义信息；

如图2所述，利用化工废渣数据集对YOLOv5神经网络模型进行训练，获得化工废渣检测模型，具体过程为：冻结YOLOv5神经网络模型中靠近输入端的卷积块，保持起始层权重不变，用训练集训练剩余靠近输出端的卷积块和Softmax分类器，得到新的权重；其中新的权重是用初始权重减去反向传播的误差，当反向传播的误差为正时，减小当前权重的数值，当反向传播的误差为负时，增加当前权重的数值，训练及微调权重值后的YOLOv5神经网络模型即为化工废渣检测模型；用测试集检验化工废渣检测模型的性能，包括判断测试集图像中出现的产物是否为化工废渣的准确率和损失率。

步骤S401：构建ResNet50神经网络基础模型，包括五个阶段：

第一阶段：输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层，最后输出相应的特征图；

其中，步骤S401所述的第一阶段输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层，最后输出特征图，具体过程为：

卷积层对输入图像像素值计算过程为：

BN层对卷积层生成的特征图计算均值过程为：

其中，m表示输入特征图样本总量，x_i表示输入的某一组特征图像素值数组，i＝1,2,...,m；

BN层对卷积层生成的特征图计算标准差过程为：

BN层对卷积层生成的特征图进行归一化处理过程为：

其中，ε代表偏移量；

BN层对归一化处理后的特征图进行重构变化：

其中，γ和β表示为线型调节参数；

ReLU激活函数对归一化后的特征图进行处理：

f(x)＝max(0,x)；

IBN是一种新型卷积架构，可以显著增强网络模型在一个域上的建模能力及在另一个域上的泛化能力，IBN结构包括BN和IN，在ResNet50浅层网络Conv_2＿x、Conv 3＿x、Conv4＿x中引入IN和BN结构对输出的特征图进行归一化处理，即将特征通道分为两部分，一半通过BN计算，另一半通过IN进行计算；在深层网络C onv 5＿x中使用BN进行归一化处理。

步骤S403所述的加入卷积注意力机制CBAM对ResNet50神经网络模型进行改进和优化，具体是在ResNet50的每个残差块中依次加入通道注意力模块Mc和空间注意力模块Ms，其中通道注意力模块Mc是对各卷积模块之间的通道进行处理，空间注意力模块Ms是基于空间维度下对Mc输入的特征图进行最大池化和平均池化处理，计算过程为：

Claims

1.一种基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，包含以下步骤：

步骤S1：实时录制化工设备产物的视频；

2.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S2所述构建的YOLOv5神经网络模型，包括输入端、骨干网络、颈部、输出端四个部分；

3.根据权利要求2所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S2所述的化工废渣数据集是多组包含废渣和不包含废渣的图像，并将该数据集随机划分为训练集和测试集。

4.根据权利要求3所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，利用化工废渣数据集对YOLOv5神经网络模型进行训练，获得化工废渣检测模型，具体过程为：冻结YOLOv5神经网络模型中靠近输入端的卷积块，保持起始层权重不变，用训练集训练剩余靠近输出端的卷积块和Softmax分类器，得到新的权重；其中新的权重是用初始权重减去反向传播的误差，当反向传播的误差为正时，减小当前权重的数值，当反向传播的误差为负时，增加当前权重的数值，训练及微调权重值后的YOLOv5神经网络模型即为化工废渣检测模型；用测试集检验化工废渣检测模型的性能，包括判断测试集图像中出现的产物是否为化工废渣的准确率和损失率。

5.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S4所述的构建ResNet50神经网络基础模型，并对该模型进行优化和改进，包括以下子步骤：

步骤S401：构建ResNet50神经网络基础模型，包括五个阶段：

6.根据权利要求5所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S401所述的第一阶段输入图像像素值依次经过卷积层、BN层、ReLU激活函数、MaxPooling层，最后输出特征图，具体过程为：

卷积层对输入图像像素值计算过程为：

其中，x表示输入图像样本像素值数组；padding表示输入的每一条边补充0的层数，为维持卷积层前后的特征图尺寸一致，kernelsize表示卷积核的大小，stride表示卷积步长；

BN层对卷积层生成的特征图计算均值过程为：

BN层对卷积层生成的特征图计算标准差过程为：

BN层对卷积层生成的特征图进行归一化处理过程为：

其中，ε代表偏移量；

BN层对归一化处理后的特征图进行重构变化：

其中，γ和β表示为线型调节参数；

ReLU激活函数对归一化后的特征图进行处理：

f(x)＝max(0,x)；

7.根据权利要求5所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S402所述的加入邻域风格自适应模型IBN对ResNet50神经网络基础模型进行该改进，具体过程为：

8.根据权利要5所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S403所述的加入卷积注意力机制CBAM对ResNet50神经网络模型进行改进和优化，具体是在ResNet50的每个残差块中依次加入通道注意力模块Mc和空间注意力模块Ms，其中通道注意力模块Mc是对各卷积模块之间的通道进行处理，空间注意力模块Ms是基于空间维度下对Mc输入的特征图进行最大池化和平均池化处理，计算过程分别为：

9.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S4所述的利用化工废渣数据集对ResNet50神经网络基础模型进行训练，是指将包含大量工业废渣图像的化工废渣数据集随机划分为训练集和测试集，用训练集对改进优化后的ResNet50神经网络基础模型进行训练，用测试集对该模型的性能进行检测，具体过程为：

10.根据权利要求1所述的基于YOLOv5和ResNet50神经网络的化工废渣动态视觉识别方法，其特征在于，步骤S5所述的利化工废渣图像识别分类模型对步骤S3裁剪出的图像中出现的化工废渣产物进行识别和分类，具体为将裁剪出的有关废渣图像中的图像值输入到化工废渣图像识别分类模型中，利用该模型中Softmax分类器获得每个图像分类结果的概率，使得每个概率值的取值范围为[0,1]，且所有概率值之和为1，其中概率最大的即为图像中所显示废渣的识别分类结果。