CN114239676A

CN114239676A - 一种基于改进的ResNet网络的图像分类方法

Info

Publication number: CN114239676A
Application number: CN202111315741.5A
Authority: CN
Inventors: 邵心怡; 薛超; 李剑锋; 范延军
Original assignee: Suzhou Nageu Environmental Protection Technology Co ltd
Current assignee: Suzhou Nageu Environmental Protection Technology Co ltd
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-03-25

Abstract

本发明提出的一种基于改进的ResNet网络的图像分类方法，包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤；本发明通过对输入图像进行多特征融合，能够进一步提取图像特征，提高了模型的性能；同时，通过对各个残差块的特征重用，进一步提高了特征提取的效果；此外，通过设计新的激活函数，在特征值较大的情况下，也能够有效的解决梯度爆炸的问题。相对于现有的ResNet网络，本发明改进的ResNet网络能够实现更高的分类精度以及更快的分类速度。

Description

一种基于改进的ResNet网络的图像分类方法

技术领域

本发明涉及图像处理领域，尤其是涉及一种基于改进的ResNet网络的图像分类方法。

背景技术

卷积神经网络长期以来是图像识别领域的核心算法之一，并在学习数据充足时有稳定的表现。对于一般的大规模图像分类问题，卷积神经网络可用于构建阶层分类器(hierarchical classifier)，也可以在精细分类识别(fine-grained recognition)中用于提取图像的判别特征以供其它分类器进行学习。现有的卷积网络包括LetNet、AlexNet、VGG、Google的Inception系列以及ResNet，其中，ResNet网路通过residual(残差)结构，能够搭建超深的网络结构，解决传统卷积神经网络随着网络深度的加深而出现的梯度消失或者梯度爆炸的问题，对缓解深度网络的退化问题有较好的效果，但在垃圾分类场景中，现有的ResNet网络对图片的分类效果并不尽如意。

发明内容

为解决上述问题，本发明提出了一种基于改进的ResNet网络的图像分类方法。

本发明的主要内容包括：

一种基于改进的ResNet网络的图像分类方法，包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤；其中，将待分类的图像输入到改进的ResNet网络包括如下步骤：

S1.采用多个并行结构提取输入图像的特征，经多特征融合后作为改进的ResNet网络的输入；

S2.通过多个向下采样，对ResNet网络的各个残差块的特征输出至其之后的其他残差块的输出端和/或输入端，以实现特征重用；

S3.经全连接和激活函数后，得到分类结果。

优选的，S1中采用多个并行结构提取输入图像的特征包括如下子步骤：

S11.创建多个并行结构：多个并行结构包括第一路线、第二路线以及第三路线；其中，所述第一路线为执行一个卷积核为1*1卷积操作；所述第二路线为执行两个卷积操作，卷积核分别为1*1、3*3；所述第三路线为执行三个卷积操作，卷积核分别为1*1、3*3、3*3；

S12.执行多个并行结构，得到三个输出结果；

S13.对三个输出结果进行卷积核为4*4的卷积操作，得到多特征融合后的输入图像。

优选的，S2的具体步骤如下：

通过向下采样将ResNet网络的第一残差块的特征信息输出至第三残差块的输入端、第四残差块的输入和输出端；通过向下采样将ResNet网络的第二残差块的特征信息输出至第四残差块的输入端和输出端；通过向下采样将第三残差块的特征信息输出至第四残差块的输出端。

优选的，S3中的激活函数为Relu函数。

优选的，S3中的激活函数为

其中，g(x)＝x·softsign(softplus(x))，设x_m+1，x_m+2,，……x_n为(n-m)个正整数，其将[0,+∞]，分隔为(n-m)个子区间，则每个子区间分段中g(x)-h(x)均表示一个线性函数，其中k_n和k_m+1表示相应分段线性函数的斜率，为常数；b_m+1和b_n表示相应分段线性函数的截距。。

优选的，g(x)的定义为：

g(x)＝x·ln(e^x+1)/(1+|ln(e^x+1)|,x∈(-∞,+∞)。

本发明的有益效果在于：本发明提出的一种基于改进的ResNet网络的图像分类方法，通过对输入图像进行多特征融合，能够进一步提取图像特征，提高了模型的性能；同时，通过对各个残差块的特征重用，进一步提高了特征提取的效果；此外，通过设计新的激活函数，在特征值较大的情况下，也能够有效的解决梯度爆炸的问题。相对于现有的ResNet网络，本发明改进的ResNet网络能够实现更高的分类精度以及更快的分类速度。

附图说明

图1为改进的ResNet网络的结构示意图。

具体实施方式

以下结合附图对本发明所保护的技术方案做具体说明。

请参照图1，本发明提出了一种基于改进的ResNet网络的图像分类方法，包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤；本发明中使用的网络结构是在现有的经典ResNet网络结构上改进了各残差块的路径，以实现残差块的特征重用的改进结构。

具体地，改进的ResNet网络包括第一残差块、第二残差块、第三残差块以及第四残差块，在本实施例中，第一残差块输入的图像规格为224*224*16，所述第二残差块输入的图像规格也为224*224*16；所述第三残差块输入的图像规格为112*112*32，而所述第四残差块输入的图像规格为56*56*64，本发明改进的ResNet网络可以是在ResNet18、ResNet34、ResNet50、ResNet101或者ResNet152基础上作出的改进，尤其是针对ResNet101或者ResNet152改进的效果更加具有优势。下面将详细介绍各步骤。

在本实施例中待输入到改进的ResNet网络中的输入图像的规格为224*224*3，若待分类的图像为灰度图像需要经过处理后转换成为深度为3的图像；或者直接采集得到待分类的图像为RGB图像。

将规格为224*224*3的输入图像使用包含三条路线的并行结构实现对输入图像的特征提取，具体步骤如下：

S11.创建多个并行结构：多个并行结构包括第一路线、第二路线以及第三路线；其中，所述第一路线为执行一个卷积核为1*1卷积操作；所述第二路线为执行两个卷积操作，卷积核分别为1*1、3*3；所述第三路线为执行三个卷积操作，卷积核分别为1*1、3*3、3*3；同时，由于输入第一残差块的图像的通道数为16，因此，第一路线、第二路线和第三路线中各个卷积核的通道也为16。

S12.执行多个并行结构，得到三个输出结果；

随后，通过多个向下采样，对ResNet网络的各个残差块的特征输出至其之后的其他残差块的输出端和/或输入端，以实现特征重用；具体如下：

通过向下采样将ResNet网络的第一残差块的特征信息输出至第三残差块的输入端、第四残差块的输入和输出端；通过向下采样将ResNet网络的第二残差块的特征信息输出至第四残差块的输入端和输出端；通过向下采样将第三残差块的特征信息输出至第四残差块的输出端；其中，由于第一残差块输出224*224的特征信息，故将其输出至第三残差块的输入比例需要更改为112*112；同样地，将其输出至第四残差块的输入端和输出端的比例需要分别更改为56*56和28*28；而第二残差块的特征信息输出至第四残差块的输入端和输出端以及第三残差块的特征信息输出至第四残差块的输出端的输入比例也需要进行相应的更改。

最后，经全连接和激活函数后，得到分类结果；在其中一个实施例中，S3中的激活函数为Relu函数；为了更好的适用特征值较大的应用场景，本发明还提出了一个新的激活函数，其融合了softsign(x)函数以及softplus(x)函数的有点，不仅可以抑制特征值，还能够减少参数的计算，加速收敛速度，新的激活函数可以表示为可以表示为g(x)-h(x)；其中，g(x)＝x·softsign(softplus(x))，g(x)的具体定义形式为：g(x)＝x·ln(e^x+1)/(1+|ln(e^x+1)|,x∈(-∞,+∞)；而S3中的激活函数则可以表示为

其中，设x_m+1，x_m+2,，……x_n为(n-m)个正整数，其将[0,+∞]，分隔为(n-m)个子区间，则每个子区间分段中g(x)-h(x)均表示一个线性函数，其中k_n和k_m+1表示相应分段线性函数的斜率，为常数；b_m+1和b_n表示相应分段线性函数的截距。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于改进的ResNet网络的图像分类方法，其特征在于，包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤；其中，将待分类的图像输入到改进的ResNet网络包括如下步骤：

S3.经全连接和激活函数后，得到分类结果。

2.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法，其特征在于，S1中采用多个并行结构提取输入图像的特征包括如下子步骤：

S12.执行多个并行结构，得到三个输出结果；

3.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法，其特征在于，S2的具体步骤如下：

4.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法，其特征在于，S3中的激活函数为Relu函数。

5.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法，其特征在于，S3中的激活函数为

其中，g(x)＝x·softsign(softplus(x))，设x_m+1，x_m+2,，……x_n为(n-m)个正整数，其将[0,+∞]，分隔为(n-m)个子区间，则每个子区间分段中g(x)-h(x)均表示一个线性函数，其中k_n和k_m+1表示相应分段线性函数的斜率，为常数；b_m+1和b_n表示相应分段线性函数的截距。

6.根据权利要求5所述的一种基于改进的ResNet网络的图像分类方法，其特征在于，

g(x)的定义为：

g(x)＝x·ln(e^x+1)/(1+|ln(e^x+1)|,x∈(-∞,+∞)。

7.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法，其特征在于，所述待分类的图像为RGB图像。