CN114239676A - 一种基于改进的ResNet网络的图像分类方法 - Google Patents

一种基于改进的ResNet网络的图像分类方法 Download PDF

Info

Publication number
CN114239676A
CN114239676A CN202111315741.5A CN202111315741A CN114239676A CN 114239676 A CN114239676 A CN 114239676A CN 202111315741 A CN202111315741 A CN 202111315741A CN 114239676 A CN114239676 A CN 114239676A
Authority
CN
China
Prior art keywords
resnet network
image
residual block
improved
route
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111315741.5A
Other languages
English (en)
Inventor
邵心怡
薛超
李剑锋
范延军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Nageu Environmental Protection Technology Co ltd
Original Assignee
Suzhou Nageu Environmental Protection Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Nageu Environmental Protection Technology Co ltd filed Critical Suzhou Nageu Environmental Protection Technology Co ltd
Priority to CN202111315741.5A priority Critical patent/CN114239676A/zh
Publication of CN114239676A publication Critical patent/CN114239676A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出的一种基于改进的ResNet网络的图像分类方法,包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤;本发明通过对输入图像进行多特征融合,能够进一步提取图像特征,提高了模型的性能;同时,通过对各个残差块的特征重用,进一步提高了特征提取的效果;此外,通过设计新的激活函数,在特征值较大的情况下,也能够有效的解决梯度爆炸的问题。相对于现有的ResNet网络,本发明改进的ResNet网络能够实现更高的分类精度以及更快的分类速度。

Description

一种基于改进的ResNet网络的图像分类方法
技术领域
本发明涉及图像处理领域,尤其是涉及一种基于改进的ResNet网络的图像分类方法。
背景技术
卷积神经网络长期以来是图像识别领域的核心算法之一,并在学习数据充足时有稳定的表现。对于一般的大规模图像分类问题,卷积神经网络可用于构建阶层分类器(hierarchical classifier),也可以在精细分类识别(fine-grained recognition)中用于提取图像的判别特征以供其它分类器进行学习。现有的卷积网络包括LetNet、AlexNet、VGG、Google的Inception系列以及ResNet,其中,ResNet网路通过residual(残差)结构,能够搭建超深的网络结构,解决传统卷积神经网络随着网络深度的加深而出现的梯度消失或者梯度爆炸的问题,对缓解深度网络的退化问题有较好的效果,但在垃圾分类场景中,现有的ResNet网络对图片的分类效果并不尽如意。
发明内容
为解决上述问题,本发明提出了一种基于改进的ResNet网络的图像分类方法。
本发明的主要内容包括:
一种基于改进的ResNet网络的图像分类方法,包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤;其中,将待分类的图像输入到改进的ResNet网络包括如下步骤:
S1.采用多个并行结构提取输入图像的特征,经多特征融合后作为改进的ResNet网络的输入;
S2.通过多个向下采样,对ResNet网络的各个残差块的特征输出至其之后的其他残差块的输出端和/或输入端,以实现特征重用;
S3.经全连接和激活函数后,得到分类结果。
优选的,S1中采用多个并行结构提取输入图像的特征包括如下子步骤:
S11.创建多个并行结构:多个并行结构包括第一路线、第二路线以及第三路线;其中,所述第一路线为执行一个卷积核为1*1卷积操作;所述第二路线为执行两个卷积操作,卷积核分别为1*1、3*3;所述第三路线为执行三个卷积操作,卷积核分别为1*1、3*3、3*3;
S12.执行多个并行结构,得到三个输出结果;
S13.对三个输出结果进行卷积核为4*4的卷积操作,得到多特征融合后的输入图像。
优选的,S2的具体步骤如下:
通过向下采样将ResNet网络的第一残差块的特征信息输出至第三残差块的输入端、第四残差块的输入和输出端;通过向下采样将ResNet网络的第二残差块的特征信息输出至第四残差块的输入端和输出端;通过向下采样将第三残差块的特征信息输出至第四残差块的输出端。
优选的,S3中的激活函数为Relu函数。
优选的,S3中的激活函数为
Figure BDA0003343569450000021
其中,g(x)=x·softsign(softplus(x)),设xm+1,xm+2,,……xn为(n-m)个正整数,其将[0,+∞],分隔为(n-m)个子区间,则每个子区间分段中g(x)-h(x)均表示一个线性函数,其中kn和km+1表示相应分段线性函数的斜率,为常数;bm+1和bn表示相应分段线性函数的截距。。
优选的,g(x)的定义为:
g(x)=x·ln(ex+1)/(1+|ln(ex+1)|,x∈(-∞,+∞)。
本发明的有益效果在于:本发明提出的一种基于改进的ResNet网络的图像分类方法,通过对输入图像进行多特征融合,能够进一步提取图像特征,提高了模型的性能;同时,通过对各个残差块的特征重用,进一步提高了特征提取的效果;此外,通过设计新的激活函数,在特征值较大的情况下,也能够有效的解决梯度爆炸的问题。相对于现有的ResNet网络,本发明改进的ResNet网络能够实现更高的分类精度以及更快的分类速度。
附图说明
图1为改进的ResNet网络的结构示意图。
具体实施方式
以下结合附图对本发明所保护的技术方案做具体说明。
请参照图1,本发明提出了一种基于改进的ResNet网络的图像分类方法,包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤;本发明中使用的网络结构是在现有的经典ResNet网络结构上改进了各残差块的路径,以实现残差块的特征重用的改进结构。
具体地,改进的ResNet网络包括第一残差块、第二残差块、第三残差块以及第四残差块,在本实施例中,第一残差块输入的图像规格为224*224*16,所述第二残差块输入的图像规格也为224*224*16;所述第三残差块输入的图像规格为112*112*32,而所述第四残差块输入的图像规格为56*56*64,本发明改进的ResNet网络可以是在ResNet18、ResNet34、ResNet50、ResNet101或者ResNet152基础上作出的改进,尤其是针对ResNet101或者ResNet152改进的效果更加具有优势。下面将详细介绍各步骤。
在本实施例中待输入到改进的ResNet网络中的输入图像的规格为224*224*3,若待分类的图像为灰度图像需要经过处理后转换成为深度为3的图像;或者直接采集得到待分类的图像为RGB图像。
将规格为224*224*3的输入图像使用包含三条路线的并行结构实现对输入图像的特征提取,具体步骤如下:
S11.创建多个并行结构:多个并行结构包括第一路线、第二路线以及第三路线;其中,所述第一路线为执行一个卷积核为1*1卷积操作;所述第二路线为执行两个卷积操作,卷积核分别为1*1、3*3;所述第三路线为执行三个卷积操作,卷积核分别为1*1、3*3、3*3;同时,由于输入第一残差块的图像的通道数为16,因此,第一路线、第二路线和第三路线中各个卷积核的通道也为16。
S12.执行多个并行结构,得到三个输出结果;
S13.对三个输出结果进行卷积核为4*4的卷积操作,得到多特征融合后的输入图像。
随后,通过多个向下采样,对ResNet网络的各个残差块的特征输出至其之后的其他残差块的输出端和/或输入端,以实现特征重用;具体如下:
通过向下采样将ResNet网络的第一残差块的特征信息输出至第三残差块的输入端、第四残差块的输入和输出端;通过向下采样将ResNet网络的第二残差块的特征信息输出至第四残差块的输入端和输出端;通过向下采样将第三残差块的特征信息输出至第四残差块的输出端;其中,由于第一残差块输出224*224的特征信息,故将其输出至第三残差块的输入比例需要更改为112*112;同样地,将其输出至第四残差块的输入端和输出端的比例需要分别更改为56*56和28*28;而第二残差块的特征信息输出至第四残差块的输入端和输出端以及第三残差块的特征信息输出至第四残差块的输出端的输入比例也需要进行相应的更改。
最后,经全连接和激活函数后,得到分类结果;在其中一个实施例中,S3中的激活函数为Relu函数;为了更好的适用特征值较大的应用场景,本发明还提出了一个新的激活函数,其融合了softsign(x)函数以及softplus(x)函数的有点,不仅可以抑制特征值,还能够减少参数的计算,加速收敛速度,新的激活函数可以表示为可以表示为g(x)-h(x);其中,g(x)=x·softsign(softplus(x)),g(x)的具体定义形式为:g(x)=x·ln(ex+1)/(1+|ln(ex+1)|,x∈(-∞,+∞);而S3中的激活函数则可以表示为
Figure BDA0003343569450000041
其中,设xm+1,xm+2,,……xn为(n-m)个正整数,其将[0,+∞],分隔为(n-m)个子区间,则每个子区间分段中g(x)-h(x)均表示一个线性函数,其中kn和km+1表示相应分段线性函数的斜率,为常数;bm+1和bn表示相应分段线性函数的截距。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于改进的ResNet网络的图像分类方法,其特征在于,包括获取待分类的图像以及将待分类的图像输入改进的ResNet网络的步骤;其中,将待分类的图像输入到改进的ResNet网络包括如下步骤:
S1.采用多个并行结构提取输入图像的特征,经多特征融合后作为改进的ResNet网络的输入;
S2.通过多个向下采样,对ResNet网络的各个残差块的特征输出至其之后的其他残差块的输出端和/或输入端,以实现特征重用;
S3.经全连接和激活函数后,得到分类结果。
2.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法,其特征在于,S1中采用多个并行结构提取输入图像的特征包括如下子步骤:
S11.创建多个并行结构:多个并行结构包括第一路线、第二路线以及第三路线;其中,所述第一路线为执行一个卷积核为1*1卷积操作;所述第二路线为执行两个卷积操作,卷积核分别为1*1、3*3;所述第三路线为执行三个卷积操作,卷积核分别为1*1、3*3、3*3;
S12.执行多个并行结构,得到三个输出结果;
S13.对三个输出结果进行卷积核为4*4的卷积操作,得到多特征融合后的输入图像。
3.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法,其特征在于,S2的具体步骤如下:
通过向下采样将ResNet网络的第一残差块的特征信息输出至第三残差块的输入端、第四残差块的输入和输出端;通过向下采样将ResNet网络的第二残差块的特征信息输出至第四残差块的输入端和输出端;通过向下采样将第三残差块的特征信息输出至第四残差块的输出端。
4.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法,其特征在于,S3中的激活函数为Relu函数。
5.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法,其特征在于,S3中的激活函数为
Figure FDA0003343569440000011
其中,g(x)=x·softsign(softplus(x)),设xm+1,xm+2,,……xn为(n-m)个正整数,其将[0,+∞],分隔为(n-m)个子区间,则每个子区间分段中g(x)-h(x)均表示一个线性函数,其中kn和km+1表示相应分段线性函数的斜率,为常数;bm+1和bn表示相应分段线性函数的截距。
6.根据权利要求5所述的一种基于改进的ResNet网络的图像分类方法,其特征在于,
g(x)的定义为:
g(x)=x·ln(ex+1)/(1+|ln(ex+1)|,x∈(-∞,+∞)。
7.根据权利要求1所述的一种基于改进的ResNet网络的图像分类方法,其特征在于,所述待分类的图像为RGB图像。
CN202111315741.5A 2021-11-08 2021-11-08 一种基于改进的ResNet网络的图像分类方法 Pending CN114239676A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111315741.5A CN114239676A (zh) 2021-11-08 2021-11-08 一种基于改进的ResNet网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111315741.5A CN114239676A (zh) 2021-11-08 2021-11-08 一种基于改进的ResNet网络的图像分类方法

Publications (1)

Publication Number Publication Date
CN114239676A true CN114239676A (zh) 2022-03-25

Family

ID=80748866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111315741.5A Pending CN114239676A (zh) 2021-11-08 2021-11-08 一种基于改进的ResNet网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN114239676A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344878A (zh) * 2018-09-06 2019-02-15 北京航空航天大学 一种基于ResNet的仿鹰脑特征整合小目标识别方法
CN110589282A (zh) * 2019-08-16 2019-12-20 喻鑫童 基于机器学习的智能垃圾分类方法和垃圾自动分拣装置
CN110924340A (zh) * 2019-11-25 2020-03-27 武汉思睿博特自动化系统有限公司 一种用于智能捡垃圾的移动机器人系统与实现方法
CN111368895A (zh) * 2020-02-28 2020-07-03 上海海事大学 一种湿垃圾中垃圾袋目标检测方法及检测系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344878A (zh) * 2018-09-06 2019-02-15 北京航空航天大学 一种基于ResNet的仿鹰脑特征整合小目标识别方法
CN110589282A (zh) * 2019-08-16 2019-12-20 喻鑫童 基于机器学习的智能垃圾分类方法和垃圾自动分拣装置
CN110924340A (zh) * 2019-11-25 2020-03-27 武汉思睿博特自动化系统有限公司 一种用于智能捡垃圾的移动机器人系统与实现方法
CN111368895A (zh) * 2020-02-28 2020-07-03 上海海事大学 一种湿垃圾中垃圾袋目标检测方法及检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHUANG KANG ET AL: "《An Automatic Garbage Classification System Based on Deep Learning》", 《IEEE》 *
ZHUANG KANG ET AL: "《An Automatic Garbage Classification System Based on Deep Learning》", 《IEEE》, 20 July 2020 (2020-07-20), pages 1 *

Similar Documents

Publication Publication Date Title
Anwar et al. Image colorization: A survey and dataset
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及系统
WO2022017025A1 (zh) 图像处理方法、装置、存储介质以及电子设备
KR20210134528A (ko) 비디오 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN111091130A (zh) 基于轻量级卷积神经网络的实时图像语义分割方法及系统
Li et al. Depth-wise asymmetric bottleneck with point-wise aggregation decoder for real-time semantic segmentation in urban scenes
CN109816659B (zh) 图像分割方法、装置及系统
CN111028235A (zh) 一种利用特征融合增强边缘和细节信息的图像分割方法
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN110909874A (zh) 一种神经网络模型的卷积运算优化方法和装置
CN111429466A (zh) 一种基于多尺度信息融合网络的空基人群计数与密度估计方法
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN111210432A (zh) 一种基于多尺度多级注意力机制的图像语义分割方法
CN107463932A (zh) 一种使用二进制瓶颈神经网络来抽取图片特征的方法
CN115082675A (zh) 一种透明物体图像分割方法及系统
CN111553840A (zh) 图像超分辨的模型训练和处理方法、装置、设备和介质
CN115082928A (zh) 面向复杂场景的不对称双分支实时语义分割网络的方法
CN109670506B (zh) 基于克罗内克卷积的场景分割方法和系统
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
Cong et al. CAN: Contextual aggregating network for semantic segmentation
CN111753714B (zh) 基于字符分割的多方向自然场景文本检测方法
CN116434039B (zh) 一种基于多尺度拆分注意力机制的目标检测方法
CN114239676A (zh) 一种基于改进的ResNet网络的图像分类方法
CN110826545A (zh) 一种视频类别识别的方法及相关装置
CN108287817B (zh) 一种信息处理方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination