CN112036454A - 一种基于多核密集连接网络的图像分类方法 - Google Patents

一种基于多核密集连接网络的图像分类方法 Download PDF

Info

Publication number
CN112036454A
CN112036454A CN202010823347.1A CN202010823347A CN112036454A CN 112036454 A CN112036454 A CN 112036454A CN 202010823347 A CN202010823347 A CN 202010823347A CN 112036454 A CN112036454 A CN 112036454A
Authority
CN
China
Prior art keywords
layer
dense connection
bottleneck
activation function
transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010823347.1A
Other languages
English (en)
Other versions
CN112036454B (zh
Inventor
王道累
张天宇
朱瑞
孙嘉珺
李明山
李超
韩清鹏
袁斌霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Electric Power University
Original Assignee
Shanghai Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Electric Power University filed Critical Shanghai Electric Power University
Priority to CN202010823347.1A priority Critical patent/CN112036454B/zh
Publication of CN112036454A publication Critical patent/CN112036454A/zh
Application granted granted Critical
Publication of CN112036454B publication Critical patent/CN112036454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多核密集连接网络的图像分类方法,包括以下步骤:S1:建立图像集;S2:构建多核密度连接网络模型,多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,密集连接单元包括至少两个密集连接模块,密集连接模块包括多个瓶颈层,瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;S3:训练多核密集连接网络模型,得到训练好的多核密集连接网络模型;S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。与现有技术相比,本发明通过不同大小的卷积核,能够有效提取出极端图像上存在的不同尺度的深度特征,实现更优的分类效果。

Description

一种基于多核密集连接网络的图像分类方法
技术领域
本发明涉及一种图像分类方法,尤其是涉及一种基于多核密集连接网络的图像分类方法。
背景技术
对于图像细粒度分类、极端图像分类等任务,需要CNN模型能够有效识别出相似物体之间存在的细微差异,例如需要根据一张图像区分出狗或鸟的品种,根据图像上的细微环境背景差异区分出拍摄时所处的环境状况,这些任务都对分类模型有着较高的要求,需要能够更加有效的提取出图像上不同尺度的深度特征,CNN模型需要具有更高的鲁棒性。由于现有的DenseNet等模型只使用一个大小的卷积核从原始图像上提取特征,不能提取出图像上不同尺度的深度特征,其在上述这些任务中的表现并不好,因此提出了一种用于图像分类的多核密集连接网络模型,能够有效提高这类任务的分类准确率。
现有技术中对于细微差异识别的方法都较为复杂。中国专利CN201811556747.X公开了一种基于判别关键域和深度学习的植物图像细粒度分类方法,提出了一种用于植物图像细粒度分类的方法,将图像进行语义分割,识别出关键域图像,再使用CNN网络对关监域图形进行分类,其训练模型的过程较为繁琐且图像类型单一,只能针对某一类图像。而DenseNet、ResNet等现有的CNN网络模型对于大部分的分类任务都具有较好的分类效果,但是在图像细粒度分类、极端图像分类等任务上也无法取得较好的效果。首先,其输入图像尺寸较小,过小的尺寸会导致图像上部分细节信息丢失,而这些细节信息对于上述的分类任务来说却是极为重要的。另外,DenseNet等模型对于输入图像只采用一个卷积核进行特征提取,并不能完整的提取出图像上存在的不同尺度的深度信息,因此,会导致分类准确率较低,对图像识别时极容易出现误判的情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多核密集连接网络的图像分类方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多核密集连接网络的图像分类方法,包括以下步骤:
S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集;
S2:构建多核密度连接网络模型,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型;
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
优选地,所述的密集连接模块包括六个上采样模块和依次连接的瓶颈层1、过渡层1、瓶颈层2、过渡层2、瓶颈层3、过渡层3、瓶颈层4、过渡层4、第一拼接模块、瓶颈层5、过渡层5、第二拼接模块、瓶颈层6、过渡层6和第三拼接模块,所述的过渡层1的输出端与第二拼接模块输入端连接,所述的过渡层2的输出端与第一拼接模块的输入端连接,所述的瓶颈层1的输入端与第三拼接模块的输入端连接,所述的瓶颈层2、瓶颈层3、瓶颈层4、瓶颈层5、瓶颈层6的输入端和过渡层6的输出端分别通过六个上采样模块与第三拼接模块的输入端连接。
进一步地,瓶颈层5的输入图像为瓶颈层2和瓶颈层4的输出图像在第一拼接模块上进行通道维度上拼接后的特征图,瓶颈层6的输入图像为瓶颈层1和瓶颈层5的输出图像在第二拼接模块上进行通道维度上拼接后的特征图,瓶颈层1的输入图像送入第三拼接模块,过渡层1、过渡层2、过渡层3、过渡层4、过渡层5、过渡层6的输出图像经过上采样模块送入第三拼接模块,第三拼接模块其输入图像在通道维度上进行拼接,拼接后的特征图即为密集连接模块的输出特征图。
优选地,所述的瓶颈层包括卷积层、批量归一化层、ReLu激活函数、卷积层、批量归一化层和ReLu激活函数,所述的瓶颈层的输出为瓶颈层的输入特征图和最后ReLu激活函数输出的特征图在通道维度上拼接后形成的瓶颈层特征图。
进一步地,所述的瓶颈层的结构为:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(不同的密集连接模块中卷积核的大小不同)→批量归一化层→ReLu激活函数。
优选地,所述的过渡层包括三类:过渡放大层、过渡缩小层和过渡恒定层,所述的过渡放大层包括依次连接的批量归一化层、ReLu激活函数、卷积层、上采样层,所述的过渡缩小层包括依次连接的批量归一化层、ReLu激活函数、卷积层、平均池化层,所述的过渡恒定层包括依次连接的批量归一化层、ReLu激活函数、卷积层。
进一步地,过渡放大层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→上采样层,过渡缩小层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→平均池化层(步长为2),过渡恒顶层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)。
优选地,所述的上采样模块包括依次连接的卷积层、批量归一化层、ReLu激活函数、上采样,所述的上采样模块中的卷积层的输入通道数与上一层的输出通道数相同,所述的上采样模块中的卷积层的输出通道数为1。
进一步地,上采样模块的结构为卷积层(卷积核大小为3×3)→批量归一化层→ReLu激活函数→上采样,在上采样模块中,卷积层的输入通道数不固定,卷积层的输入通道数的数值与上一层的输出通道数相同,卷积层的输出通道数固定,均为1。
优选地,所述的密集连接单元包括三个密集连接模块,所述的三个密集连接模块的的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
进一步地,密集连接模块的输入图像大小为为3×512×512。
优选地,所述的注意力单元的包括依次连接的通道注意力模块、卷积层、批量归一化层、ReLu激活函数、空间注意力模块和TanH激活函数。
进一步地,原始图像和多个密集连接模块的输出图像在通道维度上拼接后送入注意力部分。
进一步地,注意力单元的结构为:通道注意力模块→卷积层(卷积核为3×3)→批量归一化层→ReLu激活函数→空间注意力模块→TanH激活函数。
优选地,所述的通道注意力模块包括全局池化层、全连接层和Sigmoid激活函数。
进一步地,通道注意力模块的结构为:输入图像→全局池化层→全连接层1→全连接层2→Sigmoid激活函数,通道注意力模块的输出为Sigmoid激活函数与通道注意力模块输入的乘积。
进一步地,通道注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的大小,经过一次在空间维度上的全局池化后大小变为c×1×1,随后经过全连接层1,该全连接层的输入大小为c×1×1,输出大小为(c/a)×1×1,a为通道注意力模块的缩放比,为可调整参数,在此处的缩放比a均为3,随后经过全连接层2,该全连接层的输入大小为(c/a)×1×1,输出大小为c×1×1,随后经过一个Sigmoid激活函数,将激活函数的输出值与通道注意力模块的输入值进行相乘作为通道注意力模块的输出,即实现为每一个通道分配不同权重的效果,实现通道注意力的功能。
优选地,所述的空间注意力模块包括平均池化层、最大池化层、卷积层和Sigmoid激活函数。
进一步地,空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数,空间注意力模块的输出为Sigmoid激活函数与空间注意力模块输入的乘积。
进一步地,空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数。其具体流程为:空间注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的尺寸,在通道维度上对特征图取最大值和平均值分别得到最大特征图和平均特征图两个不同的特征描述,此时最大特征图和平均特征图的大小均为1×h×w,然后将最大特征图和平均特征图在通道维度上进行合并,大小为2×h×w,并使用卷积层对合并后的特征图进行卷积,该卷积层的输入通道数为2,输出通道数为1,卷积核大小为7×7,卷积层输出的特征图大小为1×h×w,最后经过一个Sigmoid激活函数即得为在空间上的各个位置的权重,将输入图像与该权重在空间维度上逐一相乘即得到经过空间注意力机制后的特征图。
优选地,所述的分类单元包括依次连接的卷积层、批量归一化层、ReLu激活函数、卷积层、ReLu激活函数、平均池化层、碾平层、全连接层、ReLu激活函数、Dropout函数和全连接层。
进一步地,分类单元的结构为:卷积层(卷积核3×3)→批量归一化层→ReLu激活函数→卷积层(卷积核3×3)→ReLu激活函数→平均池化(池化核5×5)→碾平层→全连接层→ReLu激活函数→Dropout函数→全连接层。
优选地,图像集包括五类极端图像和一类清晰图像,五类极端图像为:雾霾图像,在雾天条件下拍摄到的雾霾遮挡图像信息的图像;模糊图像:由于相机或者目标物体在快速移动而导致图像上出现运动模糊的图像;雨滴图像,相机镜头被溅射上水珠,导致图像上部分细节被遮挡的图像;雨条纹图像,在雨天条件下,拍摄出的图像上会存在大量的雨条纹;阴影图像,由于拍摄角度或者光照较强,拍摄到的图像上部分细节被阴影遮挡。清晰图像,图像细节清晰,不存在上述五类极端情况的图像。
密集连接单元采用多个瓶颈层内的第二个卷积层的卷积核的大小不同的密集连接模块对输入图像进行不同维度的特征提取,并将提取出的特征图通过上采样恢复到与输入图像相同大小,采用注意力单元对特征图进行权重分配,放大特征图中的有用特征,减小特征图中的无用特征,对注意力单元输出的特征图采用卷积层进行特征提取,最后送入分类单元中进行分类。
与现有技术相比,本发明具有如下优点:
(1)本发明构建多核密度连接网络模型,其密集连接单元中不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同,通过不同大小的卷积核,能够有效提取出极端图像上存在的不同尺度的深度特征,实现更优的分类效果;
(2)本发明的多核密度连接网络模型的整体设计适用于尺寸较大的输入图像,较大的尺寸能够有效保留图像上的细小特征,如果输入尺寸较小将会导致图像上微小细节信息的丢失;
(3)在注意力单元中,本发明采用卷积层对空间注意力模块的输入图像进行通道压缩,避免采用过多的通道出现信息冗余,导致空间注意力模块无法有效的放大特征图上的有用信息,提高本发明的分类准确率。
附图说明
图1为多核密度连接网络模型的整体结构图;
图2为密集连接模块的结构图;
图3为瓶颈层的结构图;
图4为过渡层的结构图;
图5为上采样模块的结构图;
图6为注意力单元的结构图;
图7为通道注意力模块的结构图;
图8为空间注意力模块的结构图;
图9为分类单元结构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于多核密集连接网络的图像分类方法,包括以下步骤:
S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集;
S2:构建多核密度连接网络模型,如图1所示,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型;
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
如图2所示,密集连接模块包括六个上采样模块和依次连接的瓶颈层1、过渡层1、瓶颈层2、过渡层2、瓶颈层3、过渡层3、瓶颈层4、过渡层4、第一拼接模块、瓶颈层5、过渡层5、第二拼接模块、瓶颈层6、过渡层6和第三拼接模块,所述的过渡层1的输出端与第二拼接模块输入端连接,所述的过渡层2的输出端与第一拼接模块的输入端连接,所述的瓶颈层1的输入端与第三拼接模块的输入端连接,所述的瓶颈层2、瓶颈层3、瓶颈层4、瓶颈层5、瓶颈层6的输入端和过渡层6的输出端分别通过六个上采样模块与第三拼接模块的输入端连接。
具体地,密集连接模块的输入图像大小为3×512×512,瓶颈层5的输入图像为瓶颈层2和瓶颈层4的输出图像在第一拼接模块上进行通道维度上拼接后的特征图,瓶颈层6的输入图像为瓶颈层1和瓶颈层5的输出图像在第二拼接模块上进行通道维度上拼接后的特征图,瓶颈层1的输入图像送入第三拼接模块,过渡层1、过渡层2、过渡层3、过渡层4、过渡层5、过渡层6的输出图像经过上采样模块送入第三拼接模块,第三拼接模块其输入图像在通道维度上进行拼接,拼接后的特征图即为密集连接模块的输出特征图,输出特征图大小为9×512×512。
所述的瓶颈层包括卷积层、批量归一化层、ReLu激活函数、卷积层、批量归一化层和ReLu激活函数,所述的瓶颈层的输出为瓶颈层的输入特征图和最后ReLu激活函数输出的特征图在通道维度上拼接后形成的瓶颈层特征图。
具体地,所述的瓶颈层的结构为:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(不同的密集连接模块中卷积核的大小不同)→批量归一化层→ReLu激活函数。
本实施例中,所述的密集连接单元包括三个密集连接模块,如图1所示,分别为密集连接模块1、密集连接模块2、密集连接模块3,所述的三个密集连接模块的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
因此,本实施例中,密集连接模块1、密集连接模块2、密集连接模块3的瓶颈层分别为瓶颈层A、瓶颈层B、瓶颈层C。如图3所示,分别为瓶颈层A:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(卷积核大小为3×3)→批量归一化层→ReLu激活函数、瓶颈层B:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(卷积核大小为5×5)→批量归一化层→ReLu激活函数、瓶颈层C:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(卷积核大小为7×7)→批量归一化层→ReLu激活函数。
本实施例中,密集连接模块1、密集连接模块2、密集连接模块3中各瓶颈层的输入通道数和输出通道数如表1所示,其中括号内第一位为瓶颈层的输入通道数,第二层为瓶颈层的输出通道数。
表1瓶颈层的输入、输出通道数
Figure BDA0002635143020000081
具体地,本实施例中,所述的过渡层包括三类:过渡放大层、过渡缩小层和过渡恒定层,所述的过渡放大层包括依次连接的批量归一化层、ReLu激活函数、卷积层、上采样层,所述的过渡缩小层包括依次连接的批量归一化层、ReLu激活函数、卷积层、平均池化层,所述的过渡恒定层包括依次连接的批量归一化层、ReLu激活函数、卷积层。本实施例中,将过渡放大层、过渡缩小层和过渡恒定层分别命名为过渡层A,过渡层B、过渡层C,如图4所示,为三类过渡层的结构图。
对应的,过渡放大层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→上采样层,过渡缩小层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→平均池化层(步长为2),过渡恒顶层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)。
本实施例中,密集连接模块1、密集连接模块2、密集连接模块3中各过渡层的输入通道数和输出通道数,如表2所示,其中括号内第一位为过渡层的输入通道数,第二层为过渡层的输出通道数,表2中A、B、C分别代表过渡层为过渡放大层、过渡缩小层、过渡恒定层。
表2过渡层的输入、输出通道数
Figure BDA0002635143020000082
如图5所示,上采样模块包括依次连接的卷积层、批量归一化层、ReLu激活函数、上采样,所述的上采样模块中的卷积层的输入通道数与上一层的输出通道数相同,所述的上采样模块中的卷积层的输出通道数为1。
本实施例中,具体地,上采样模块的结构为卷积层(卷积核大小为3×3)→批量归一化层→ReLu激活函数→上采样,在上采样模块中,卷积层的输入通道数不固定,卷积层的输入通道数的数值与上一层的输出通道数相同,卷积层的输出通道数固定,均为1。
如图6所示,所述的注意力单元的包括依次连接的通道注意力模块、卷积层、批量归一化层、ReLu激活函数、空间注意力模块和TanH激活函数。原始图像和多个密集连接模块的输出图像在通道维度上拼接后送入注意力部分。
注意力单元的结构为:通道注意力模块→卷积层(卷积核为3×3)→批量归一化层→ReLu激活函数→空间注意力模块→TanH激活函数。
如图7所示,具体地,所述的通道注意力模块包括全局池化层、全连接层和Sigmoid激活函数,通道注意力模块的输出为Sigmoid激活函数与通道注意力模块输入的乘积。
通道注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的大小,经过一次在空间维度上的全局池化后大小变为c×1×1,随后经过全连接层1,该全连接层的输入大小为c×1×1,输出大小为(c/a)×1×1,a为通道注意力模块的缩放比,为可调整参数,在此处的缩放比a均为3,随后经过全连接层2,该全连接层的输入大小为(c/a)×1×1,输出大小为c×1×1,随后经过一个Sigmoid激活函数,将激活函数的输出值与通道注意力模块的输入值进行相乘作为通道注意力模块的输出,即实现为每一个通道分配不同权重的效果,实现通道注意力的功能。
如图8所示,空间注意力模块包括平均池化层、最大池化层、卷积层和Sigmoid激活函数,空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数,空间注意力模块的输出为Sigmoid激活函数与空间注意力模块输入的乘积。
空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数。其具体流程为:空间注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的尺寸,在通道维度上对特征图取最大值和平均值分别得到最大特征图和平均特征图两个不同的特征描述,此时最大特征图和平均特征图的大小均为1×h×w,然后将最大特征图和平均特征图在通道维度上进行合并,大小为2×h×w,并使用卷积层对合并后的特征图进行卷积,该卷积层的输入通道数为2,输出通道数为1,卷积核大小为7×7,卷积层输出的特征图大小为1×h×w,最后经过一个Sigmoid激活函数即得为在空间上的各个位置的权重,将输入图像与该权重在空间维度上逐一相乘即得到经过空间注意力机制后的特征图。
如图9所示,分类单元包括依次连接的卷积层、批量归一化层、ReLu激活函数、卷积层、ReLu激活函数、平均池化层、碾平层、全连接层、ReLu激活函数、Dropout函数和全连接层。
本实施例中,如图9所示,分类单元的结构为:卷积层(输入通道数3,输出通道数64,卷积核3×3)→批量归一化层→ReLu激活函数→卷积层(输入通道数64,输出通道数24,卷积核3×3)→ReLu激活函数→平均池化(池化核5×5)→碾平层→全连接层→ReLu激活函数→Dropout函数→全连接层,其中,碾平层将上一层的四维数据碾平为一维数据,方便输入后面的全连接层。
本发明的密集连接单元采用多个瓶颈层内的第二个卷积层的卷积核的大小不同的密集连接模块对输入图像进行不同维度的特征提取,并将提取出的特征图通过上采样恢复到与输入图像相同大小,采用注意力单元对特征图进行权重分配,放大特征图中的有用特征,减小特征图中的无用特征,对注意力单元输出的特征图采用卷积层进行特征提取,最后送入分类单元中进行分类。
本发明具体实施时,S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集。
本实施例中,图像集包括五类极端图像和一类清晰图像,五类极端图像为:雾霾图像,在雾天条件下拍摄到的雾霾遮挡图像信息的图像;模糊图像:由于相机或者目标物体在快速移动而导致图像上出现运动模糊的图像;雨滴图像,相机镜头被溅射上水珠,导致图像上部分细节被遮挡的图像;雨条纹图像,在雨天条件下,拍摄出的图像上会存在大量的雨条纹;阴影图像,由于拍摄角度或者光照较强,拍摄到的图像上部分细节被阴影遮挡。清晰图像,图像细节清晰,不存在上述五类极端情况的图像。
具体地,五类极端图像和一类清晰图像的每类图像均为1200张,共7200张。在每类图像中,随机取出800张图像作为训练集,随机取出200张作为验证集,剩余的200张图像作为测试集,即训练集共4800张,验证集1200张,测试集1200张。
S2:构建多核密度连接网络模型,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同。
本实施例中所述的三个密集连接模块的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型。
在本实施例中,对多核密集连接网络训练时,采用Pytorch深度学习框架,显卡为Tesla P00,批尺寸(Batch Size)设置为8,损失函数采用交叉熵损失函数。
交叉熵损失函数的公式为:
Figure BDA0002635143020000111
其中yi为标签,Pi为预测结果,n为批尺寸。
优化器采用Adam,学习率采用衰减的方式,初始学习率为0.0002,当损失函数的loss损失小于等于0.35,大于0.24时,学习率调整为0.0001;当loss损失小于等于0.24时,学习率调整为0.00005。当连续三轮loss损失不下降(即三个loss损失值的方差小于0.00001),认为训练完成,结束训练。每轮迭代完成后在验证集上进行准确率测试,保存在验证集上准确率最高的模型作为最终模型。
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
本发明的多核密集连接网络模型与DenseNet、ResNet模型采用相同的数据集进行训练,三者分类准确率如表3所示,本发明的多核密集连接网络模型准确率高于DenseNet、ResNet模型。
表3多核密集连接网络模型与DenseNet ResNet模型分类准确率
清晰 雾霾 雨滴 雨条纹 阴影 模糊 平均
本发明 93.50% 94.00% 97.00% 92.00% 90.00% 89.00% 92.58%
DenseNet 65.00% 86.50% 77.50% 85.50% 88.50% 84.00% 81.17%
ResNet 88.50% 93.00% 87.00% 92.00% 83.50% 92.31% 88.00%
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims (10)

1.一种基于多核密集连接网络的图像分类方法,其特征在于,包括以下步骤:
S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集;
S2:构建多核密度连接网络模型,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型;
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
2.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的密集连接模块包括六个上采样模块和依次连接的瓶颈层1、过渡层1、瓶颈层2、过渡层2、瓶颈层3、过渡层3、瓶颈层4、过渡层4、第一拼接模块、瓶颈层5、过渡层5、第二拼接模块、瓶颈层6、过渡层6和第三拼接模块,
所述的过渡层1的输出端与第二拼接模块输入端连接,所述的过渡层2的输出端与第一拼接模块的输入端连接,所述的瓶颈层1的输入端与第三拼接模块的输入端连接,所述的瓶颈层2、瓶颈层3、瓶颈层4、瓶颈层5、瓶颈层6的输入端和过渡层6的输出端分别通过六个上采样模块与第三拼接模块的输入端连接。
3.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的瓶颈层包括卷积层、批量归一化层、ReLu激活函数、卷积层、批量归一化层和ReLu激活函数,所述的瓶颈层的输出为瓶颈层的输入特征图和最后ReLu激活函数输出的特征图在通道维度上拼接后形成的瓶颈层特征图。
4.根据权利要求2所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的过渡层包括三类:过渡放大层、过渡缩小层和过渡恒定层,所述的过渡放大层包括依次连接的批量归一化层、ReLu激活函数、卷积层、上采样层,所述的过渡缩小层包括依次连接的批量归一化层、ReLu激活函数、卷积层、平均池化层,所述的过渡恒定层包括依次连接的批量归一化层、ReLu激活函数、卷积层。
5.根据权利要求2所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的上采样模块包括依次连接的卷积层、批量归一化层、ReLu激活函数、上采样,所述的上采样模块中的卷积层的输入通道数与上一层的输出通道数相同,所述的上采样模块中的卷积层的输出通道数为1。
6.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的密集连接单元包括三个密集连接模块,所述的三个密集连接模块的的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
7.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的注意力单元的包括依次连接的通道注意力模块、卷积层、批量归一化层、ReLu激活函数、空间注意力模块和TanH激活函数。
8.根据权利要求7所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的通道注意力模块包括全局池化层、全连接层和Sigmoid激活函数,所述的通道注意力模块的输出为通道注意力模块中Sigmoid激活函数与通道注意力模块的输入值的乘积。
9.根据权利要求7所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的空间注意力模块包括平均池化层、最大池化层、卷积层和Sigmoid激活函数。
10.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的分类单元包括依次连接的卷积层、批量归一化层、ReLu激活函数、卷积层、ReLu激活函数、平均池化层、碾平层、全连接层、ReLu激活函数、Dropout函数和全连接层。
CN202010823347.1A 2020-08-17 2020-08-17 一种基于多核密集连接网络的图像分类方法 Active CN112036454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010823347.1A CN112036454B (zh) 2020-08-17 2020-08-17 一种基于多核密集连接网络的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010823347.1A CN112036454B (zh) 2020-08-17 2020-08-17 一种基于多核密集连接网络的图像分类方法

Publications (2)

Publication Number Publication Date
CN112036454A true CN112036454A (zh) 2020-12-04
CN112036454B CN112036454B (zh) 2022-12-16

Family

ID=73576796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010823347.1A Active CN112036454B (zh) 2020-08-17 2020-08-17 一种基于多核密集连接网络的图像分类方法

Country Status (1)

Country Link
CN (1) CN112036454B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488963A (zh) * 2020-12-18 2021-03-12 中国科学院合肥物质科学研究院 一种用于农作物病害数据的增强方法
CN112541576A (zh) * 2020-12-14 2021-03-23 四川翼飞视科技有限公司 Rgb单目图像的生物活体识别神经网络及其构建方法
CN112686856A (zh) * 2020-12-29 2021-04-20 杭州优视泰信息技术有限公司 一种基于深度学习的实时肠镜息肉检测装置
CN113128360A (zh) * 2021-03-30 2021-07-16 苏州乐达纳米科技有限公司 基于深度学习的司机驾驶行为检测与识别方法
CN114492560A (zh) * 2021-12-06 2022-05-13 陕西师范大学 一种基于迁移学习的脑电情绪分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN111461233A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于MDCLSTM-LDenseNet网络的核磁共振图像自动分类方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728224A (zh) * 2019-10-08 2020-01-24 西安电子科技大学 一种基于注意力机制深度Contourlet网络的遥感图像分类方法
CN111461233A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于MDCLSTM-LDenseNet网络的核磁共振图像自动分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HE ZHANG ET AL.: ""Density-aware Single Image De-raining using a Multi-stream Dense Network", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
XIAOLEI ZHAO ET AL.: "Residual Dense Network Based on Channel-Spatial Attention for the Scene Classification of a High-Resolution Remote Sensing Image", 《REMOTE SENSING》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541576A (zh) * 2020-12-14 2021-03-23 四川翼飞视科技有限公司 Rgb单目图像的生物活体识别神经网络及其构建方法
CN112541576B (zh) * 2020-12-14 2024-02-20 四川翼飞视科技有限公司 Rgb单目图像的生物活体识别神经网络构建方法
CN112488963A (zh) * 2020-12-18 2021-03-12 中国科学院合肥物质科学研究院 一种用于农作物病害数据的增强方法
CN112686856A (zh) * 2020-12-29 2021-04-20 杭州优视泰信息技术有限公司 一种基于深度学习的实时肠镜息肉检测装置
CN113128360A (zh) * 2021-03-30 2021-07-16 苏州乐达纳米科技有限公司 基于深度学习的司机驾驶行为检测与识别方法
CN114492560A (zh) * 2021-12-06 2022-05-13 陕西师范大学 一种基于迁移学习的脑电情绪分类方法

Also Published As

Publication number Publication date
CN112036454B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN112036454B (zh) 一种基于多核密集连接网络的图像分类方法
CN110188795B (zh) 图像分类方法、数据处理方法和装置
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110334765B (zh) 基于注意力机制多尺度深度学习的遥感影像分类方法
CN109241982B (zh) 基于深浅层卷积神经网络的目标检测方法
CN109726657B (zh) 一种深度学习场景文本序列识别方法
CN109840560B (zh) 基于胶囊网络中融入聚类的图像分类方法
CN109410146A (zh) 一种基于Bi-Skip-Net的图像去模糊算法
CN110516716B (zh) 基于多分支相似度网络的无参考图像质量评价方法
CN110443761B (zh) 一种基于多尺度聚合特征的单幅图像去雨方法
CN111445418A (zh) 图像去雾处理方法、装置及计算机设备
CN112132145B (zh) 一种基于模型扩展卷积神经网络的图像分类方法及系统
CN109949200B (zh) 基于滤波器子集选择和cnn的隐写分析框架构建方法
CN111832650A (zh) 基于生成对抗网络局部聚合编码半监督的图像分类方法
CN112580662A (zh) 一种基于图像特征识别鱼体方向的方法及系统
CN110598746A (zh) 一种基于ode求解器自适应的场景分类方法
CN116363535A (zh) 基于卷积神经网络的无人机航拍影像中的船舶检测方法
CN110532959B (zh) 基于双通道三维卷积神经网络的实时暴力行为检测系统
CN111126185A (zh) 一种针对道路卡口场景的深度学习车辆目标识别方法
CN115272691A (zh) 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备
CN114626984A (zh) 中文文本图像的超分辨率重建方法
CN111681236B (zh) 一种带注意力机制的目标密度估计方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN111881803A (zh) 一种基于改进YOLOv3的畜脸识别方法
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant