CN115019173A - 基于ResNet50的垃圾识别与分类方法 - Google Patents

基于ResNet50的垃圾识别与分类方法 Download PDF

Info

Publication number
CN115019173A
CN115019173A CN202210661728.3A CN202210661728A CN115019173A CN 115019173 A CN115019173 A CN 115019173A CN 202210661728 A CN202210661728 A CN 202210661728A CN 115019173 A CN115019173 A CN 115019173A
Authority
CN
China
Prior art keywords
picture
resnet50
size
garbage
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210661728.3A
Other languages
English (en)
Inventor
倪晓军
刘玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210661728.3A priority Critical patent/CN115019173A/zh
Publication of CN115019173A publication Critical patent/CN115019173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02WCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
    • Y02W30/00Technologies for solid waste management
    • Y02W30/10Waste collection, transportation, transfer or storage, e.g. segregated refuse collecting, electric or hybrid propulsion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于图像识别技术领域,具体地说,是一种基于ResNet50的垃圾识别与分类方法,包括:选取涵盖有实际生活中常见的多种垃圾图片的公开数据集,创建成适合垃圾分类研究所需要的数据集,然后将数据集分为训练集与测试集,对训练集中的图像进行预处理操作;搭建网络模型,选取ResNet50卷积神经网络模型作为基准模型,引入深度可分离卷积,添加CBMA和SE两种注意力机制,从而创建出新型卷积神经网络模型;设置网络模型的超参数,选择损失函数和优化方法对创建出的网络模型进行训练,可得到训练好的模型;利用训练好的卷积神经网络模型去识别测试集中的图片,最后得到识别的精度。

Description

基于ResNet50的垃圾识别与分类方法
技术领域
本发明属于图像识别技术领域,具体地说,是一种基于ResNet50的垃圾识别与分类方法。
背景技术
近年来,随着社会生活水平的逐渐提高,相应的垃圾产量也在迅速增长,因此对垃圾进行合理的分类以及实行相应的回收利用操作,是具有非常重大意义的,同时对于目前提倡的绿色发展以及可持续发展也起到至关重要的作用。然而事实证明,针对实际我们生活中的垃圾的分类来说,仍然具有很多的困难,尽管目前我国很多的省份已经颁布了垃圾分类的强制性政策,但是由于人们长期以来对于垃圾分类的认识是不够充分的,甚至对垃圾能够正确分类的知识也是不足的,以至于垃圾分类在目前的生活中实现的不是很理想的。因为对不同种类的垃圾应该采取属于它们的分类方法,如果分类不当,不仅会使得回收利用收到阻碍,还可能会导致各种环境污染问题,所以对垃圾进行合理的分类是刻不容缓的。
同时,随着深度学习的快速发展,深度学习方法已经在图像分类领域以及图像检测领域达到了十分广泛的应用,多类别的图像分类问题被有效地解决,其最基础的研究目标之一就是对若干不完全相关的类别图像进行分类。该技术已被逐步转化成以数据为驱动的一种新型深度学习技术,并且得到很大的改善和发展。像我们现有的经典网络,如VGG、ResNet、SENet等也都是在此基础上进行研究而来的。虽然目前关于图像识别分类的研究已较为成熟,但较少研究是针对垃圾图像进行分类的。
所以目前为止,针对基于ResNet50的垃圾识别与分类技术而言,如何在网络层次相对较深的网路模型的基础上,进行优化改进,从而去适应图像背景信息更丰富、规模更大的数据集,如何在保证较高的识别准确率的前提下,去降低模型复杂度,减少算法所需要的时间和所使用到的计算资源,更好地满足实时性应用和需求等方面,未来仍然需要进行大量的研究工作。
发明内容
本发明的目的对于选用的ResNet50模型进行优化改进从而进一步地提高垃圾识别的速度以及分类的准确度。其方案是:1.对选用的图片进行预处理的操作,2.选用ResNet50作为基准模型进行优化改进,首先是在残差结构中采用深度可分离卷积,3.其次同时添加两种注意力机制:CBMA注意力机制和SE注意力机制,在ResNet50第一个Block前添加CBMA注意力机制,在最后一个Block后添加SE注意力机制;4.学习中通过采用余弦退火学习率衰减政策,开始增大学习率跳过局部最优,之后使学习率缓慢的下降,使用小学习率,来使网络逐渐收敛,从而提高图像的识别速率与图像分类的准确度。
为了实现上述目的,本发明采用的具体技术方案如下:
基于ResNet50的垃圾识别与分类方法,包括以下步骤:
步骤1:选取涵盖有实际生活中常见的多种垃圾图片的公开数据集,创建成适合垃圾分类研究所需要的数据集,然后将数据集分为训练集与测试集,并对训练集中的图像进行预处理操作。
步骤2:选取ResNet50网络作为基准模型,在残差结构中添加深度可分离卷积,在网络中添加注意力机制,从而搭建出新型网络模型;
步骤3:设置网络模型超参数,选择损失函数和优化方法对训练集中图像进行训练,经过不断验证以及训练的过程,然后获得训练好的网络模型;
步骤4:使用训练好的网络模型去检测没有训练过的测试集中的垃圾图片,最终得到垃圾识别以及分类的结果。
在上述技术方案中,图像分类是对输入图像经过一些操作,最终输出一组描述了该图像内容的分类或是该图像内容分类的概率;图像分类的输入是图片的分辨率和尺寸,即输入x=h×w×c的像素值数组,h、w和c分别表示图像的各个属性,即高度,宽度和深度。深度就是色彩通道的数量。例如,RGB图像的深度为3,而灰度图像的深度为1。对应的数组就有h×w×c个元素,其中每个数字的值,从0到255不等,描述了对应那一点的像素灰度。输出则是描述该图像属于某一特定分类的概率的数字。
本发明的进一步改进,步骤1对于图像进行预处理操作的方法具体包括:
步骤1.1,首先将输入图片的尺寸转化成512×512的输入特征图;
步骤1.2,将步骤1.1转化后的图像进行随机旋转,旋转的角度可由自己设定,例如设置为15度;
步骤1.3,将步骤1.2随机旋转后获得的图像,进行随机的水平翻转;
步骤1.4,将步骤1.3随机水平翻转后获得的图像,进行中心裁剪的操作;
步骤1.5,将步骤1.4中心裁剪后获得的图像,转换为张量;
步骤1.6,将步骤1.5获得的张量,进行归一化处理。
本发明的进一步改进,对图像预处理操作使用的是工具集torchvision中的转换函数transforms,具体方法如下:
步骤1.1的图片尺寸转化的方法:transforms.Resize([h,w]),其中的h和w分别代表图片的高度和宽度;
步骤1.2的图片随机旋转的方法:transforms.RandomRotation(degrees),其中degrees表示角度,即按degrees随机旋转一定的角度;
步骤1.3的图片随机水平翻转的方法:transforms.RandomHorizontalFlip();
步骤1.4的图片进行中心裁剪的方法:transforms.CenterCrop(crop_size),其中crop_size表示将图片裁剪成的大小,即以输入图片的中心点为中心做指定crop_size的裁剪操作;
步骤1.5的图片转换为张量的方法:transforms.ToTensor(),将数据从[0,255]范围转换到[0,1],具体做法就是将原始数据除以255;同时将尺寸为(h,w,c)的图片转为尺寸为(c,h,w),其中的h、w和c分别代表图片的高度、宽度和深度;
步骤1.6进行归一化处理的方法:transforms.Normalize(mean,std),使用公式
Figure BDA0003690985740000031
对数据按通道进行标准化,即先减均值mean,再除以标准差std,将每个元素分布到(-1,1)。
本发明的进一步改进,步骤2中所述的ResNet50结构分为5个阶段,第一个阶段较为简单,后面四个阶段都由Bottleneck组成,第二、三、四和五个阶段分别包含3、4、6和3个Bottleneck。
ResNet50的第一阶段输入x先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到输出。
①卷积层的计算方法:输出
Figure BDA0003690985740000041
其中x表示输入x=h×w×c的像素值数组,h、w和c分别表示图像的各个属性,即高度,宽度和深度;padding表示输入的每一条边补充0的层数,高、宽都增加2×padding,如果要维持卷积层前后的特征图尺寸一致,
Figure BDA0003690985740000042
kernel_size表示卷积核的大小;stride表示卷积步长,即将输入扩大的倍数。
②BN层,即Batch Normalization,计算方法如下:
第一步:计算均值
Figure BDA0003690985740000043
其中x表示输入,m表示mini-batch size,
第二步:计算标准差
Figure BDA0003690985740000044
第三步,归一化
Figure BDA0003690985740000045
第四步,重构变化yi=γ×x′i+β;
③ReLU激活函数是一个分段函数,公式是:f(x)=max(0,x);
④MaxPooling层:整个图片被不重叠的分割成若干个同样大小的小块(poolingsize)。每个小块内,只取最大的数字,再舍弃其他节点后,保持原有的平面结构得出output。
1.进一步地,Bottleneck有2种结构,一种是输入与输出通道数相同的结构称为Identity Block,另一种是输入与输出通道数不同的结构称为Conv Block;
Identity Block左侧的3个卷积块(以及相关BN和ReLU)为函数F(x),与输入x相加得F(x)+x,再经过一个ReLU函数,最后得到Identity Block的输出;
ConvBlock与IdentityBlock相比多了一个右侧的卷积层,令其为函数G(x),同样左侧的3个卷积块(以及相关BN和ReLU)为函数F(x),由F(x)+G(x),得到Conv Block的输出。
本发明的进一步改进,步骤2中在网络中添加的注意力机制有CBMA注意力机制和SE注意力机制,其中CBMA注意力机制添加在ResNet50的第一个阶段之后,SE注意力机制添加在第五个阶段之后。
①CBMA(Convolutional Block Attention Module),CBAM包含2个独立的子模块,通道注意力模块(Channel Attention Module,CAM)和空间注意力模块(SpartialAttention Module,SAM);
CAM的计算公式是:Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
即将输入的特征图F(h×w×c)分别经过基于width和height的global maxpooling(全局最大池化)和global average pooling(全局平均池化),得到两个1×1×c的特征图,接着,再将它们分别送入一个两层的神经网络(MLP),第一层神经元个数为c/r(r为减少率),激活函数为ReLU,第二层神经元个数为c,这个两层的神经网络是共享的。而后,将MLP输出的特征进行基于element-wise的加和操作,再经过σ(表示sigmoid)激活操作,生成最终的channel attention feature,即Mc。最后,将Mc和输入特征图F做element-wise乘法操作,生成Spatial attention模块需要的输入特征;
SAM的计算公式是:Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
即将Channel attention模块输出的特征图F作为本模块的输入特征图。首先做一个基于channel的global max pooling和global average pooling,得到两个h×w×1的特征图,然后将这2个特征图基于channel做concat操作(通道拼接)。然后经过一个7×7卷积操作,将维度降为1个channel,即h×w×1。再经过sigmoid生成spatial attentionfeature,即MS。最后将该feature和该模块的输入feature做乘法,得到最终生成的特征。
②SE注意力机制(Squeeze-and-Excitation Networks),在通道维度增加注意力机制,关键操作包含:Squeeze和Excitation两部分。
通过自动学习的方式,即使用另外一个新的神经网络,获取到特征图的每个通道的重要程度,然后用这个重要程度去给每个特征赋予一个权重值,从而让神经网络重点关注某些特征通道。提升对当前任务有用的特征图的通道,并抑制对当前任务用处不大的特征通道。
实现过程如下:
(1)Squeeze:特征图经过全局平均池化,将每个通道的二维特征(h×w)压缩为1个实数,即将特征图,从[h,w,c]压缩成特征向量[1,1,c];
(2)Excitation:通过全连接层,将特征图向量的通道维度降低为原来的1/r,即[1,1,c×1/r];然后经过Swish激活函数;再通过一个全连接层,将特征图向量的特征图上升回原来[1,1,c];然后经过sigmoid函数转化为一个(0,1)之间的归一化权重向量。
(3)Scale:将归一化权重和原输入特征图,逐通道相乘,生成加权后的特征图。
最大池化是指对邻域内特征点,取最大;sigmoid函数是将实数范围内的数值压缩到(0,1)之间,其公式为
Figure BDA0003690985740000061
其中z表示的是线性回归的方程式。
本发明的进一步改进,步骤3所述的模型训练的方法为:使用torch深度学习框架,优化函数设置为AdamW,初始学习率设置为1e-4,学习率衰减类型采用的是余弦衰减;优化函数AdamW,计算过程如下:
①首先是计算梯度的指数移动平均数
m=β1×m+(1-β1)×dx,其中m初始化为0,dx是t时刻的梯度。m是综合考虑之前时间步的梯度动量,β1系数是指数衰减率,控制权重的分配,通常取值接近于1,比如0.99。
②其次是计算梯度平方的指数移动平均数
v=β2×v+(1-β2)×(dx)2,其中v的初始值是0,β2是指数衰减系数,控制之前梯度的影响,对梯度平方进行加权均值,β2经常采用0.999。
③最后是更新参数
Figure BDA0003690985740000071
初始的学习率lr乘以梯度均值与梯度方差的平方根之比,其中lr默认学习率α=0.001;ε=10-8,wd为权重衰减系数,经常为0.01。
余弦衰减就是采用余弦的相关方式进行学习率的衰减,衰减图和余弦函数相似。计算公式如下:
global_step=min(global_step,decay_steps),
Figure BDA0003690985740000072
decaved_learning_rate=learning_rate×decay_rate;
其中,global_step表示当前迭代的轮数,decay_steps表示完整使用一遍训练数据所需迭代轮数,从公式可以看到,学习率learning_rate乘以的衰减系数decay_rate从1随着global_step增大衰减到α,最终衰减部分曲线类似于cosine曲线,下降速度率逐渐变快。
与现有技术相比,本发明的有益效果:
(1)本发明是基于ResNet50网络进行优化改进的,从而可以解决现有网络的退化以及多层神经网络的问题;
(2)本发明在残差网络结构中引入了深度可分离卷积,其相比于普通卷积,当网络的深度相同时,深度可分离卷积可大大减少网络的参数量和计算量,从而加快模型收敛的速度以及提升模型分类的精度;
(3)本发明同时添加了CBAM注意力机制模块和SE注意力机制模块两种注意力机制,显性的将特征进行极大的优化;
(4)本发明的优化器采用的是adamw。基于所使用的大型模型以及较大的数据集的情况下,adamw优化算法相对于其他的优化器在解决局部深度学习问题上具有更加的高效性;
(5)本发明的学习率衰减类型采用的是余弦衰减,开始增大学习率来跳过局部最优,之后使学习率缓慢的下降,使用小学习率来是网络逐渐收敛。
附图说明
图1是本发明的流程示意图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例:如图1所示,基于ResNet50的垃圾识别与分类方法,包括以下步骤:
步骤1:选取涵盖有实际生活中常见的多种垃圾图片的公开数据集,创建成适合垃圾分类研究所需要的数据集,然后将数据集分为训练集与测试集,并对训练集中的图像进行预处理操作。
步骤2:选取ResNet50网络作为基准模型,在残差结构中添加深度可分离卷积,在网络中添加注意力机制,从而搭建出新型网络模型;
步骤3:设置网络模型超参数,选择损失函数和优化方法对训练集中图像进行训练,经过不断验证以及训练的过程,然后获得训练好的网络模型;
步骤4:使用训练好的网络模型去检测没有训练过的测试集中的垃圾图片,最终得到垃圾识别以及分类的结果。
其中,步骤1对于图像进行预处理操作的方法具体包括:
步骤1.1,首先将输入图片的尺寸转化成512×512的输入特征图;
步骤1.2,将步骤1.1转化后的图像进行随机旋转,旋转的角度可由自己设定,例如设置为15度;
步骤1.3,将步骤1.2随机旋转后获得的图像,进行随机的水平翻转;
步骤1.4,将步骤1.3随机水平翻转后获得的图像,进行中心裁剪的操作;
步骤1.5,将步骤1.4中心裁剪后获得的图像,转换为张量;
步骤1.6,将步骤1.5获得的张量,进行归一化处理。
步骤1.1的图片尺寸转化的方法:transforms.Resize([h,w]),其中的h和w分别代表图片的高度和宽度;
步骤1.2的图片随机旋转的方法:transforms.RandomRotation(degrees),其中degrees表示角度,即按degrees随机旋转一定的角度;
步骤1.3的图片随机水平翻转的方法:transforms.RandomHorizontalFlip();
步骤1.4的图片进行中心裁剪的方法:transforms.CenterCrop(crop_size),其中crop_size表示将图片裁剪成的大小,即以输入图片的中心点为中心做指定crop_size的裁剪操作;
步骤1.5的图片转换为张量的方法:transforms.ToTensor(),将数据从[0,255]范围转换到[0,1],具体做法就是将原始数据除以255;同时将尺寸为(h,w,c)的图片转为尺寸为(c,h,w),其中的h、w和c分别代表图片的高度、宽度和深度;
步骤1.6进行归一化处理的方法:transforms.Normalize(mean,std),使用公式
Figure BDA0003690985740000091
对数据按通道进行标准化,即先减均值mean,再除以标准差std,将每个元素分布到(-1,1)。
步骤2中所述的ResNet50结构分为5个阶段,第一个阶段较为简单,后面四个阶段都由Bottleneck组成,第二、三、四和五个阶段分别包含3、4、6和3个Bottleneck;步骤2中在网络中添加的注意力机制有CBMA注意力机制和SE注意力机制,其中CBMA注意力机制添加在ResNet50的第一个阶段之后,SE注意力机制添加在第五个阶段之后。
步骤3所述的模型训练的方法为:使用torch深度学习框架,优化函数设置为AdamW,初始学习率设置为1e-4,学习率衰减类型采用的是余弦衰减;优化函数AdamW,计算过程如下:
首先是计算梯度的指数移动平均数
m=β1×m+(1-β1)×dx,其中m初始化为0,dx是t时刻的梯度。m是综合考虑之前时间步的梯度动量,β1系数是指数衰减率,控制权重的分配,通常取值接近于1,比如0.99。
其次是计算梯度平方的指数移动平均数
v=β2×v+(1-β2)×(dx)2,其中v的初始值是0,β2是指数衰减系数,控制之前梯度的影响,对梯度平方进行加权均值,β2经常采用0.999。
最后是更新参数
Figure BDA0003690985740000101
初始的学习率1r乘以梯度均值与梯度方差的平方根之比,其中1r默认学习率α=0.001;ε=10-8,wd为权重衰减系数,经常为0.01。
余弦衰减就是采用余弦的相关方式进行学习率的衰减,衰减图和余弦函数相似。计算公式如下:
global_step=min(global_step,decay_steps),
Figure BDA0003690985740000102
decayed_learning_rate=learning_rate×decay_rate;
其中,global_step表示当前迭代的轮数,decay_steps表示完整使用一遍训练数据所需迭代轮数,从公式可以看到,学习率learning_rate乘以的衰减系数decay_rate从1随着global_step增大衰减到α,最终衰减部分曲线类似于cosine曲线,下降速度率逐渐变快。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种基于ResNet50的垃圾识别与分类方法,其特征在于,包括以下步骤:
步骤1:选取涵盖有实际生活中常见的多种垃圾图片的公开数据集,创建成适合垃圾分类研究所需要的数据集,然后将数据集分为训练集与测试集,并对训练集中的图像进行预处理操作;
步骤2:选取ResNet50网络作为基准模型,在残差结构中添加深度可分离卷积,在网络中添加注意力机制,从而搭建出新型网络模型;
步骤3:设置网络模型超参数,选择损失函数和优化方法对训练集中图像进行训练,经过不断验证以及训练的过程,然后获得训练好的网络模型;
步骤4:使用训练好的网络模型去检测没有训练过的测试集中的垃圾图片,最终得到垃圾识别以及分类的结果。
2.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法,其特征在于,所述步骤1对于图像进行预处理操作的方法具体包括:
步骤1.1,首先将输入图片的尺寸转化成512×512的输入特征图;
步骤1.2,将步骤1.1转化后的图像进行随机旋转;
步骤1.3,将步骤1.2随机旋转后获得的图像,进行随机的水平翻转;
步骤1.4,将步骤1.3随机水平翻转后获得的图像,进行中心裁剪的操作;
步骤1.5,将步骤1.4中心裁剪后获得的图像,转换为张量;
步骤1.6,将步骤1.5获得的张量,进行归一化处理。
3.根据权利要求2所述的基于ResNet50的垃圾识别与分类方法,其特征在于,所述步骤1中对图像预处理操作使用的是工具集torchvision中的转换函数transforms,具体方法如下:
步骤1.1的图片尺寸转化的方法:transforms.Resize([h,w]),其中的h和w分别代表图片的高度和宽度;
步骤1.2的图片随机旋转的方法:transforms.RandomRotation(degrees),其中degrees表示角度,即按degrees随机旋转一定的角度;
步骤1.3的图片随机水平翻转的方法:transforms.RandomHorizontalFlip();
步骤1.4的图片进行中心裁剪的方法:transforms.CenterCrop(crop_size),其中crop_size表示将图片裁剪成的大小,即以输入图片的中心点为中心做指定crop_size的裁剪操作;
步骤1.5的图片转换为张量的方法:transforms.ToTensor(),将数据从[0,255]范围转换到[0,1],具体做法就是将原始数据除以255;同时将尺寸为(h,w,c)的图片转为尺寸为(c,h,w),其中的h、w和c分别代表图片的高度、宽度和深度;
步骤1.6进行归一化处理的方法:transforms.Normalize(mean,std),使用公式
Figure FDA0003690985730000021
对数据按通道进行标准化,即先减均值mean,再除以标准差std,将每个元素分布到(-1,1)。
4.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法,其特征在于,步骤2中所述的ResNet50结构分为5个阶段:
第一阶段:输入x先后经过卷积层、BN层、ReLU激活函数、MaxPooling层得到输出:
①卷积层的计算方法:输出
Figure FDA0003690985730000022
其中x表示输入x=h×w×c的像素值数组,h、w和c分别表示图像的各个属性,即高度,宽度和深度,padding表示输入的每一条边补充0的层数,高、宽都增加2×padding,维持卷积层前后的特征图尺寸一致,
Figure FDA0003690985730000023
kernel_size表示卷积核的大小,stride表示卷积步长,输入扩大的倍数;
②BN层,即Batch Normalization,计算方法如下:
第一步:计算均值
Figure FDA0003690985730000024
其中x表示输入,m表示mini-batch size,
第二步:计算标准差
Figure FDA0003690985730000025
第三步,归一化
Figure FDA0003690985730000026
第四步,重构变化yi=γ×xi′+β;
③ReLU激活函数是一个分段函数,公式是:f(x)=max(0,x);
④MaxPooling层:整个图片被不重叠的分割成若干个同样大小的小块,每个小块内,只取最大的数字,再舍弃其他节点后,保持原有的平面结构得出output;
第二阶段至第五个阶段都由Bottleneck组成,第二、三、四和五个阶段分别包含3、4、6和3个Bottleneck。
5.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法,其特征在于,步骤2中在网络中添加的注意力机制有CBMA注意力机制和SE注意力机制,其中CBMA注意力机制添加在ResNet50的第一个阶段之后,SE注意力机制添加在第五个阶段之后。
6.根据权利要求1所述的基于ResNet50的垃圾识别与分类方法,其特征在于,步骤3所述的模型训练的方法为:使用torch深度学习框架,优化函数设置为AdamW,初始学习率设置为1e-4,学习率衰减类型采用的是余弦衰减。
7.根据权利要求6所述的基于ResNet50的垃圾识别与分类方法,其特征在于,优化函数AdamW,计算过程如下:
①首先是计算梯度的指数移动平均数
m=β1×m+(1-β1)×dx,其中m初始化为0,dx是t时刻的梯度,m是综合考虑之前时间步的梯度动量,β1系数是指数衰减率,控制权重的分配,通常取值接近于1;
②其次是计算梯度平方的指数移动平均数
v=β2×v+(1-β2)×(dx)2,其中v的初始值是0,β2是指数衰减系数,控制之前梯度的影响,对梯度平方进行加权均值,β2采用0.999。
③最后是更新参数
Figure FDA0003690985730000031
初始的学习率lr乘以梯度均值与梯度方差的平方根之比,其中lr默认学习率α=0.001;ε=10-8,wd为权重衰减系数为0.01。
8.根据权利要求7所述的基于ResNet50的垃圾识别与分类方法,其特征在于,余弦衰减就是采用余弦的相关方式进行学习率的衰减,计算公式如下:
global_step=min(global_step,decay_steps),
Figure FDA0003690985730000041
decayed_learning_rate=learning_rate×decay_rate
其中,global_step表示当前迭代的轮数,decay_steps表示完整使用一遍训练数据所需迭代轮数,从公式可以看到,学习率learning_rate乘以的衰减系数decay_rate从1随着global_step增大衰减到α,最终衰减部分曲线类似于cosine曲线,下降速度率逐渐变快。
CN202210661728.3A 2022-06-13 2022-06-13 基于ResNet50的垃圾识别与分类方法 Pending CN115019173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210661728.3A CN115019173A (zh) 2022-06-13 2022-06-13 基于ResNet50的垃圾识别与分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210661728.3A CN115019173A (zh) 2022-06-13 2022-06-13 基于ResNet50的垃圾识别与分类方法

Publications (1)

Publication Number Publication Date
CN115019173A true CN115019173A (zh) 2022-09-06

Family

ID=83074791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210661728.3A Pending CN115019173A (zh) 2022-06-13 2022-06-13 基于ResNet50的垃圾识别与分类方法

Country Status (1)

Country Link
CN (1) CN115019173A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542884A (zh) * 2023-07-07 2023-08-04 合肥市正茂科技有限公司 模糊图像清晰化模型的训练方法、装置、设备及介质
CN117058443A (zh) * 2023-07-26 2023-11-14 东北石油大学 一种基于改进残差收缩网络的管道漏磁图像识别方法
CN117130394A (zh) * 2023-10-26 2023-11-28 科莱克芯电科技(深圳)有限公司 一种基于人工智能的光伏设备控制方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542884A (zh) * 2023-07-07 2023-08-04 合肥市正茂科技有限公司 模糊图像清晰化模型的训练方法、装置、设备及介质
CN116542884B (zh) * 2023-07-07 2023-10-13 合肥市正茂科技有限公司 模糊图像清晰化模型的训练方法、装置、设备及介质
CN117058443A (zh) * 2023-07-26 2023-11-14 东北石油大学 一种基于改进残差收缩网络的管道漏磁图像识别方法
CN117058443B (zh) * 2023-07-26 2024-02-27 东北石油大学 一种基于改进残差收缩网络的管道漏磁图像识别方法
CN117130394A (zh) * 2023-10-26 2023-11-28 科莱克芯电科技(深圳)有限公司 一种基于人工智能的光伏设备控制方法及系统

Similar Documents

Publication Publication Date Title
JP6980958B1 (ja) 深層学習に基づく農村地域分けゴミ識別方法
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
WO2022252272A1 (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN115019173A (zh) 基于ResNet50的垃圾识别与分类方法
CN108520206B (zh) 一种基于全卷积神经网络的真菌显微图像识别方法
WO2019120110A1 (zh) 图像重建方法及设备
CN116503676B (zh) 一种基于知识蒸馏小样本增量学习的图片分类方法及系统
CN112418261B (zh) 一种基于先验原型注意力机制的人体图像多属性分类方法
CN113723295A (zh) 一种基于图像域频域双流网络的人脸伪造检测方法
CN112183742A (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN115222998B (zh) 一种图像分类方法
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN111126155B (zh) 一种基于语义约束生成对抗网络的行人再识别方法
CN115797835A (zh) 一种基于异构Transformer的无监督视频目标分割算法
CN116993975A (zh) 基于深度学习无监督领域适应的全景相机语义分割方法
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN113869396A (zh) 基于高效注意力机制的pc屏幕语义分割方法
CN117036711A (zh) 一种基于注意力调节的弱监督语义分割方法
CN110490053B (zh) 一种基于三目摄像头深度估计的人脸属性识别方法
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN114419341B (zh) 一种基于迁移学习改进的卷积神经网络图像识别方法
US20220138554A1 (en) Systems and methods utilizing machine learning techniques for training neural networks to generate distributions
CN114972851A (zh) 一种基于遥感影像的船只目标智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination