CN115019173A

CN115019173A - 基于ResNet50的垃圾识别与分类方法

Info

Publication number: CN115019173A
Application number: CN202210661728.3A
Authority: CN
Inventors: 倪晓军; 刘玲
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-09-06

Abstract

本发明属于图像识别技术领域，具体地说，是一种基于ResNet50的垃圾识别与分类方法，包括：选取涵盖有实际生活中常见的多种垃圾图片的公开数据集，创建成适合垃圾分类研究所需要的数据集，然后将数据集分为训练集与测试集，对训练集中的图像进行预处理操作；搭建网络模型，选取ResNet50卷积神经网络模型作为基准模型，引入深度可分离卷积，添加CBMA和SE两种注意力机制，从而创建出新型卷积神经网络模型；设置网络模型的超参数，选择损失函数和优化方法对创建出的网络模型进行训练，可得到训练好的模型；利用训练好的卷积神经网络模型去识别测试集中的图片，最后得到识别的精度。

Description

基于ResNet50的垃圾识别与分类方法

技术领域

本发明属于图像识别技术领域，具体地说，是一种基于ResNet50的垃圾识别与分类方法。

背景技术

近年来，随着社会生活水平的逐渐提高，相应的垃圾产量也在迅速增长，因此对垃圾进行合理的分类以及实行相应的回收利用操作，是具有非常重大意义的，同时对于目前提倡的绿色发展以及可持续发展也起到至关重要的作用。然而事实证明，针对实际我们生活中的垃圾的分类来说，仍然具有很多的困难，尽管目前我国很多的省份已经颁布了垃圾分类的强制性政策，但是由于人们长期以来对于垃圾分类的认识是不够充分的，甚至对垃圾能够正确分类的知识也是不足的，以至于垃圾分类在目前的生活中实现的不是很理想的。因为对不同种类的垃圾应该采取属于它们的分类方法，如果分类不当，不仅会使得回收利用收到阻碍，还可能会导致各种环境污染问题，所以对垃圾进行合理的分类是刻不容缓的。

同时，随着深度学习的快速发展，深度学习方法已经在图像分类领域以及图像检测领域达到了十分广泛的应用，多类别的图像分类问题被有效地解决，其最基础的研究目标之一就是对若干不完全相关的类别图像进行分类。该技术已被逐步转化成以数据为驱动的一种新型深度学习技术，并且得到很大的改善和发展。像我们现有的经典网络，如VGG、ResNet、SENet等也都是在此基础上进行研究而来的。虽然目前关于图像识别分类的研究已较为成熟，但较少研究是针对垃圾图像进行分类的。

所以目前为止，针对基于ResNet50的垃圾识别与分类技术而言，如何在网络层次相对较深的网路模型的基础上，进行优化改进，从而去适应图像背景信息更丰富、规模更大的数据集，如何在保证较高的识别准确率的前提下，去降低模型复杂度，减少算法所需要的时间和所使用到的计算资源，更好地满足实时性应用和需求等方面，未来仍然需要进行大量的研究工作。

发明内容

本发明的目的对于选用的ResNet50模型进行优化改进从而进一步地提高垃圾识别的速度以及分类的准确度。其方案是：1.对选用的图片进行预处理的操作，2.选用ResNet50作为基准模型进行优化改进，首先是在残差结构中采用深度可分离卷积，3.其次同时添加两种注意力机制：CBMA注意力机制和SE注意力机制，在ResNet50第一个Block前添加CBMA注意力机制，在最后一个Block后添加SE注意力机制；4.学习中通过采用余弦退火学习率衰减政策，开始增大学习率跳过局部最优，之后使学习率缓慢的下降，使用小学习率，来使网络逐渐收敛，从而提高图像的识别速率与图像分类的准确度。

为了实现上述目的，本发明采用的具体技术方案如下：

基于ResNet50的垃圾识别与分类方法，包括以下步骤：

步骤1：选取涵盖有实际生活中常见的多种垃圾图片的公开数据集，创建成适合垃圾分类研究所需要的数据集，然后将数据集分为训练集与测试集，并对训练集中的图像进行预处理操作。

步骤2：选取ResNet50网络作为基准模型，在残差结构中添加深度可分离卷积，在网络中添加注意力机制，从而搭建出新型网络模型；

步骤3：设置网络模型超参数，选择损失函数和优化方法对训练集中图像进行训练，经过不断验证以及训练的过程，然后获得训练好的网络模型；

步骤4：使用训练好的网络模型去检测没有训练过的测试集中的垃圾图片，最终得到垃圾识别以及分类的结果。

在上述技术方案中，图像分类是对输入图像经过一些操作，最终输出一组描述了该图像内容的分类或是该图像内容分类的概率；图像分类的输入是图片的分辨率和尺寸，即输入x＝h×w×c的像素值数组，h、w和c分别表示图像的各个属性，即高度，宽度和深度。深度就是色彩通道的数量。例如，RGB图像的深度为3，而灰度图像的深度为1。对应的数组就有h×w×c个元素，其中每个数字的值，从0到255不等，描述了对应那一点的像素灰度。输出则是描述该图像属于某一特定分类的概率的数字。

本发明的进一步改进，步骤1对于图像进行预处理操作的方法具体包括：

步骤1.1，首先将输入图片的尺寸转化成512×512的输入特征图；

步骤1.2，将步骤1.1转化后的图像进行随机旋转，旋转的角度可由自己设定，例如设置为15度；

步骤1.3，将步骤1.2随机旋转后获得的图像，进行随机的水平翻转；

步骤1.4，将步骤1.3随机水平翻转后获得的图像，进行中心裁剪的操作；

步骤1.5，将步骤1.4中心裁剪后获得的图像，转换为张量；

步骤1.6，将步骤1.5获得的张量，进行归一化处理。

本发明的进一步改进，对图像预处理操作使用的是工具集torchvision中的转换函数transforms，具体方法如下：

步骤1.1的图片尺寸转化的方法：transforms.Resize([h，w])，其中的h和w分别代表图片的高度和宽度；

步骤1.2的图片随机旋转的方法：transforms.RandomRotation(degrees)，其中degrees表示角度，即按degrees随机旋转一定的角度；

步骤1.3的图片随机水平翻转的方法：transforms.RandomHorizontalFlip()；

步骤1.4的图片进行中心裁剪的方法：transforms.CenterCrop(crop_size)，其中crop_size表示将图片裁剪成的大小，即以输入图片的中心点为中心做指定crop_size的裁剪操作；

步骤1.5的图片转换为张量的方法：transforms.ToTensor()，将数据从[0,255]范围转换到[0,1]，具体做法就是将原始数据除以255；同时将尺寸为(h,w,c)的图片转为尺寸为(c,h,w),其中的h、w和c分别代表图片的高度、宽度和深度；

步骤1.6进行归一化处理的方法：transforms.Normalize(mean,std)，使用公式

对数据按通道进行标准化，即先减均值mean，再除以标准差std，将每个元素分布到(-1,1)。

本发明的进一步改进，步骤2中所述的ResNet50结构分为5个阶段，第一个阶段较为简单，后面四个阶段都由Bottleneck组成，第二、三、四和五个阶段分别包含3、4、6和3个Bottleneck。

ResNet50的第一阶段输入x先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到输出。

①卷积层的计算方法：输出

其中x表示输入x＝h×w×c的像素值数组，h、w和c分别表示图像的各个属性，即高度，宽度和深度；padding表示输入的每一条边补充0的层数，高、宽都增加2×padding，如果要维持卷积层前后的特征图尺寸一致，

kernel_size表示卷积核的大小；stride表示卷积步长，即将输入扩大的倍数。

②BN层，即Batch Normalization，计算方法如下：

第一步：计算均值

其中x表示输入，m表示mini-batch size，

第二步：计算标准差

第三步，归一化

第四步，重构变化y_i＝γ×x′_i+β；

③ReLU激活函数是一个分段函数，公式是：f(x)＝max(0,x);

④MaxPooling层：整个图片被不重叠的分割成若干个同样大小的小块(poolingsize)。每个小块内，只取最大的数字，再舍弃其他节点后，保持原有的平面结构得出output。

1.进一步地，Bottleneck有2种结构，一种是输入与输出通道数相同的结构称为Identity Block，另一种是输入与输出通道数不同的结构称为Conv Block；

Identity Block左侧的3个卷积块(以及相关BN和ReLU)为函数F(x),与输入x相加得F(x)+x，再经过一个ReLU函数，最后得到Identity Block的输出；

ConvBlock与IdentityBlock相比多了一个右侧的卷积层，令其为函数G(x)，同样左侧的3个卷积块(以及相关BN和ReLU)为函数F(x)，由F(x)+G(x)，得到Conv Block的输出。

本发明的进一步改进，步骤2中在网络中添加的注意力机制有CBMA注意力机制和SE注意力机制，其中CBMA注意力机制添加在ResNet50的第一个阶段之后，SE注意力机制添加在第五个阶段之后。

①CBMA(Convolutional Block Attention Module)，CBAM包含2个独立的子模块，通道注意力模块(Channel Attention Module，CAM)和空间注意力模块(SpartialAttention Module，SAM)；

CAM的计算公式是：M_c(F)＝σ(MLP(AvgPool(F))+MLP(MaxPool(F)))

即将输入的特征图F(h×w×c)分别经过基于width和height的global maxpooling(全局最大池化)和global average pooling(全局平均池化)，得到两个1×1×c的特征图，接着，再将它们分别送入一个两层的神经网络(MLP)，第一层神经元个数为c/r(r为减少率)，激活函数为ReLU，第二层神经元个数为c，这个两层的神经网络是共享的。而后，将MLP输出的特征进行基于element-wise的加和操作，再经过σ(表示sigmoid)激活操作，生成最终的channel attention feature，即M_c。最后，将M_c和输入特征图F做element-wise乘法操作，生成Spatial attention模块需要的输入特征；

SAM的计算公式是：M_s(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

即将Channel attention模块输出的特征图F作为本模块的输入特征图。首先做一个基于channel的global max pooling和global average pooling，得到两个h×w×1的特征图，然后将这2个特征图基于channel做concat操作(通道拼接)。然后经过一个7×7卷积操作，将维度降为1个channel，即h×w×1。再经过sigmoid生成spatial attentionfeature，即M_S。最后将该feature和该模块的输入feature做乘法，得到最终生成的特征。

②SE注意力机制(Squeeze-and-Excitation Networks)，在通道维度增加注意力机制，关键操作包含：Squeeze和Excitation两部分。

通过自动学习的方式，即使用另外一个新的神经网络，获取到特征图的每个通道的重要程度，然后用这个重要程度去给每个特征赋予一个权重值，从而让神经网络重点关注某些特征通道。提升对当前任务有用的特征图的通道，并抑制对当前任务用处不大的特征通道。

实现过程如下：

(1)Squeeze：特征图经过全局平均池化，将每个通道的二维特征(h×w)压缩为1个实数，即将特征图，从[h，w，c]压缩成特征向量[1，1，c]；

(2)Excitation：通过全连接层，将特征图向量的通道维度降低为原来的1/r，即[1，1，c×1/r]；然后经过Swish激活函数；再通过一个全连接层，将特征图向量的特征图上升回原来[1，1，c]；然后经过sigmoid函数转化为一个(0，1)之间的归一化权重向量。

(3)Scale：将归一化权重和原输入特征图，逐通道相乘，生成加权后的特征图。

最大池化是指对邻域内特征点，取最大；sigmoid函数是将实数范围内的数值压缩到(0，1)之间，其公式为

其中z表示的是线性回归的方程式。

本发明的进一步改进，步骤3所述的模型训练的方法为：使用torch深度学习框架，优化函数设置为AdamW，初始学习率设置为1e-4，学习率衰减类型采用的是余弦衰减；优化函数AdamW，计算过程如下:

①首先是计算梯度的指数移动平均数

m＝β₁×m+(1-β₁)×dx，其中m初始化为0，d_x是t时刻的梯度。m是综合考虑之前时间步的梯度动量，β₁系数是指数衰减率，控制权重的分配，通常取值接近于1，比如0.99。

②其次是计算梯度平方的指数移动平均数

v＝β₂×v+(1-β₂)×(dx)²，其中v的初始值是0，β₂是指数衰减系数，控制之前梯度的影响，对梯度平方进行加权均值，β₂经常采用0.999。

③最后是更新参数

初始的学习率lr乘以梯度均值与梯度方差的平方根之比，其中lr默认学习率α＝0.001；ε＝10^-8，wd为权重衰减系数，经常为0.01。

余弦衰减就是采用余弦的相关方式进行学习率的衰减，衰减图和余弦函数相似。计算公式如下：

global_step＝min(global_step，decay_steps)，

decaved_learning_rate＝learning_rate×decay_rate；

其中，global_step表示当前迭代的轮数，decay_steps表示完整使用一遍训练数据所需迭代轮数，从公式可以看到，学习率learning_rate乘以的衰减系数decay_rate从1随着global_step增大衰减到α，最终衰减部分曲线类似于cosine曲线，下降速度率逐渐变快。

与现有技术相比，本发明的有益效果：

(1)本发明是基于ResNet50网络进行优化改进的，从而可以解决现有网络的退化以及多层神经网络的问题；

(2)本发明在残差网络结构中引入了深度可分离卷积，其相比于普通卷积，当网络的深度相同时，深度可分离卷积可大大减少网络的参数量和计算量，从而加快模型收敛的速度以及提升模型分类的精度；

(3)本发明同时添加了CBAM注意力机制模块和SE注意力机制模块两种注意力机制，显性的将特征进行极大的优化；

(4)本发明的优化器采用的是adamw。基于所使用的大型模型以及较大的数据集的情况下，adamw优化算法相对于其他的优化器在解决局部深度学习问题上具有更加的高效性；

(5)本发明的学习率衰减类型采用的是余弦衰减，开始增大学习率来跳过局部最优，之后使学习率缓慢的下降，使用小学习率来是网络逐渐收敛。

附图说明

图1是本发明的流程示意图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例：如图1所示，基于ResNet50的垃圾识别与分类方法，包括以下步骤：

其中，步骤1对于图像进行预处理操作的方法具体包括：

步骤1.5，将步骤1.4中心裁剪后获得的图像，转换为张量；

步骤1.6，将步骤1.5获得的张量，进行归一化处理。

步骤2中所述的ResNet50结构分为5个阶段，第一个阶段较为简单，后面四个阶段都由Bottleneck组成，第二、三、四和五个阶段分别包含3、4、6和3个Bottleneck；步骤2中在网络中添加的注意力机制有CBMA注意力机制和SE注意力机制，其中CBMA注意力机制添加在ResNet50的第一个阶段之后，SE注意力机制添加在第五个阶段之后。

步骤3所述的模型训练的方法为：使用torch深度学习框架，优化函数设置为AdamW，初始学习率设置为1e-4，学习率衰减类型采用的是余弦衰减；优化函数AdamW，计算过程如下:

首先是计算梯度的指数移动平均数

m＝β₁×m+(1-β₁)×dx，其中m初始化为0，dx是t时刻的梯度。m是综合考虑之前时间步的梯度动量，β₁系数是指数衰减率，控制权重的分配，通常取值接近于1，比如0.99。

其次是计算梯度平方的指数移动平均数

最后是更新参数

初始的学习率1r乘以梯度均值与梯度方差的平方根之比，其中1r默认学习率α＝0.001；ε＝10^-8，wd为权重衰减系数，经常为0.01。

global_step＝min(global_step，decay_steps)，

decayed_learning_rate＝learning_rate×decay_rate;

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于ResNet50的垃圾识别与分类方法，其特征在于，包括以下步骤：

步骤1：选取涵盖有实际生活中常见的多种垃圾图片的公开数据集，创建成适合垃圾分类研究所需要的数据集，然后将数据集分为训练集与测试集，并对训练集中的图像进行预处理操作；

2.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法，其特征在于，所述步骤1对于图像进行预处理操作的方法具体包括：

步骤1.2，将步骤1.1转化后的图像进行随机旋转；

步骤1.5，将步骤1.4中心裁剪后获得的图像，转换为张量；

步骤1.6，将步骤1.5获得的张量，进行归一化处理。

3.根据权利要求2所述的基于ResNet50的垃圾识别与分类方法，其特征在于，所述步骤1中对图像预处理操作使用的是工具集torchvision中的转换函数transforms，具体方法如下：

步骤1.5的图片转换为张量的方法：transforms.ToTensor()，将数据从[0，255]范围转换到[0，1]，具体做法就是将原始数据除以255；同时将尺寸为(h，w，c)的图片转为尺寸为(c，h，w)，其中的h、w和c分别代表图片的高度、宽度和深度；

步骤1.6进行归一化处理的方法：transforms.Normalize(mean，std)，使用公式

对数据按通道进行标准化，即先减均值mean，再除以标准差std，将每个元素分布到(-1，1)。

4.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法，其特征在于，步骤2中所述的ResNet50结构分为5个阶段：

第一阶段：输入x先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到输出：

①卷积层的计算方法：输出

其中x表示输入x＝h×w×c的像素值数组，h、w和c分别表示图像的各个属性，即高度，宽度和深度，padding表示输入的每一条边补充0的层数，高、宽都增加2×padding，维持卷积层前后的特征图尺寸一致，

kernel_size表示卷积核的大小，stride表示卷积步长，输入扩大的倍数；

②BN层，即Batch Normalization，计算方法如下：

第一步：计算均值

其中x表示输入，m表示mini-batch size，

第二步：计算标准差

第三步，归一化

第四步，重构变化y_i＝γ×x_i′+β；

③ReLU激活函数是一个分段函数，公式是：f(x)＝max(0，x)；

④MaxPooling层：整个图片被不重叠的分割成若干个同样大小的小块，每个小块内，只取最大的数字，再舍弃其他节点后，保持原有的平面结构得出output；

第二阶段至第五个阶段都由Bottleneck组成，第二、三、四和五个阶段分别包含3、4、6和3个Bottleneck。

5.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法，其特征在于，步骤2中在网络中添加的注意力机制有CBMA注意力机制和SE注意力机制，其中CBMA注意力机制添加在ResNet50的第一个阶段之后，SE注意力机制添加在第五个阶段之后。

6.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法，其特征在于，步骤3所述的模型训练的方法为：使用torch深度学习框架，优化函数设置为AdamW，初始学习率设置为1e-4，学习率衰减类型采用的是余弦衰减。

7.根据权利要求6所述的基于ResNet50的垃圾识别与分类方法，其特征在于，优化函数AdamW，计算过程如下：

①首先是计算梯度的指数移动平均数

m＝β₁×m+(1-β₁)×dx，其中m初始化为0，dx是t时刻的梯度，m是综合考虑之前时间步的梯度动量，β₁系数是指数衰减率，控制权重的分配，通常取值接近于1；

②其次是计算梯度平方的指数移动平均数

v＝β₂×v+(1-β₂)×(dx)²，其中v的初始值是0，β₂是指数衰减系数，控制之前梯度的影响，对梯度平方进行加权均值，β₂采用0.999。

③最后是更新参数

初始的学习率lr乘以梯度均值与梯度方差的平方根之比，其中lr默认学习率α＝0.001；ε＝10^-8，wd为权重衰减系数为0.01。

8.根据权利要求7所述的基于ResNet50的垃圾识别与分类方法，其特征在于，余弦衰减就是采用余弦的相关方式进行学习率的衰减，计算公式如下：

global_step＝min(global_step，decay_steps)，

decayed_learning_rate＝learning_rate×decay_rate