CN112036454B - 一种基于多核密集连接网络的图像分类方法 - Google Patents
一种基于多核密集连接网络的图像分类方法 Download PDFInfo
- Publication number
- CN112036454B CN112036454B CN202010823347.1A CN202010823347A CN112036454B CN 112036454 B CN112036454 B CN 112036454B CN 202010823347 A CN202010823347 A CN 202010823347A CN 112036454 B CN112036454 B CN 112036454B
- Authority
- CN
- China
- Prior art keywords
- layer
- bottleneck
- dense connection
- convolution
- activation function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims description 86
- 230000007704 transition Effects 0.000 claims description 82
- 238000010606 normalization Methods 0.000 claims description 46
- 238000011176 pooling Methods 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 81
- 238000010586 diagram Methods 0.000 description 21
- 238000005070 sampling Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多核密集连接网络的图像分类方法,包括以下步骤:S1:建立图像集;S2:构建多核密度连接网络模型,多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,密集连接单元包括至少两个密集连接模块,密集连接模块包括多个瓶颈层,瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;S3:训练多核密集连接网络模型,得到训练好的多核密集连接网络模型;S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。与现有技术相比,本发明通过不同大小的卷积核,能够有效提取出极端图像上存在的不同尺度的深度特征,实现更优的分类效果。
Description
技术领域
本发明涉及一种图像分类方法,尤其是涉及一种基于多核密集连接网络的图像分类方法。
背景技术
对于图像细粒度分类、极端图像分类等任务,需要CNN模型能够有效识别出相似物体之间存在的细微差异,例如需要根据一张图像区分出狗或鸟的品种,根据图像上的细微环境背景差异区分出拍摄时所处的环境状况,这些任务都对分类模型有着较高的要求,需要能够更加有效的提取出图像上不同尺度的深度特征,CNN模型需要具有更高的鲁棒性。由于现有的DenseNet等模型只使用一个大小的卷积核从原始图像上提取特征,不能提取出图像上不同尺度的深度特征,其在上述这些任务中的表现并不好,因此提出了一种用于图像分类的多核密集连接网络模型,能够有效提高这类任务的分类准确率。
现有技术中对于细微差异识别的方法都较为复杂。中国专利CN201811556747.X公开了一种基于判别关键域和深度学习的植物图像细粒度分类方法,提出了一种用于植物图像细粒度分类的方法,将图像进行语义分割,识别出关键域图像,再使用CNN网络对关监域图形进行分类,其训练模型的过程较为繁琐且图像类型单一,只能针对某一类图像。而DenseNet、ResNet等现有的CNN网络模型对于大部分的分类任务都具有较好的分类效果,但是在图像细粒度分类、极端图像分类等任务上也无法取得较好的效果。首先,其输入图像尺寸较小,过小的尺寸会导致图像上部分细节信息丢失,而这些细节信息对于上述的分类任务来说却是极为重要的。另外,DenseNet等模型对于输入图像只采用一个卷积核进行特征提取,并不能完整的提取出图像上存在的不同尺度的深度信息,因此,会导致分类准确率较低,对图像识别时极容易出现误判的情况。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于多核密集连接网络的图像分类方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多核密集连接网络的图像分类方法,包括以下步骤:
S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集;
S2:构建多核密度连接网络模型,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型;
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
优选地,所述的密集连接模块包括六个上采样模块和依次连接的瓶颈层1、过渡层1、瓶颈层2、过渡层2、瓶颈层3、过渡层3、瓶颈层4、过渡层4、第一拼接模块、瓶颈层5、过渡层5、第二拼接模块、瓶颈层6、过渡层6和第三拼接模块,所述的过渡层1的输出端与第二拼接模块输入端连接,所述的过渡层2的输出端与第一拼接模块的输入端连接,所述的瓶颈层1的输入端与第三拼接模块的输入端连接,所述的瓶颈层2、瓶颈层3、瓶颈层4、瓶颈层5、瓶颈层6的输入端和过渡层6的输出端分别通过六个上采样模块与第三拼接模块的输入端连接。
进一步地,瓶颈层5的输入图像为瓶颈层2和瓶颈层4的输出图像在第一拼接模块上进行通道维度上拼接后的特征图,瓶颈层6的输入图像为瓶颈层1和瓶颈层5的输出图像在第二拼接模块上进行通道维度上拼接后的特征图,瓶颈层1的输入图像送入第三拼接模块,过渡层1、过渡层2、过渡层3、过渡层4、过渡层5、过渡层6的输出图像经过上采样模块送入第三拼接模块,第三拼接模块其输入图像在通道维度上进行拼接,拼接后的特征图即为密集连接模块的输出特征图。
优选地,所述的瓶颈层包括卷积层、批量归一化层、ReLu激活函数、卷积层、批量归一化层和ReLu激活函数,所述的瓶颈层的输出为瓶颈层的输入特征图和最后ReLu激活函数输出的特征图在通道维度上拼接后形成的瓶颈层特征图。
进一步地,所述的瓶颈层的结构为:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(不同的密集连接模块中卷积核的大小不同)→批量归一化层→ReLu激活函数。
优选地,所述的过渡层包括三类:过渡放大层、过渡缩小层和过渡恒定层,所述的过渡放大层包括依次连接的批量归一化层、ReLu激活函数、卷积层、上采样层,所述的过渡缩小层包括依次连接的批量归一化层、ReLu激活函数、卷积层、平均池化层,所述的过渡恒定层包括依次连接的批量归一化层、ReLu激活函数、卷积层。
进一步地,过渡放大层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→上采样层,过渡缩小层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→平均池化层(步长为2),过渡恒顶层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)。
优选地,所述的上采样模块包括依次连接的卷积层、批量归一化层、ReLu激活函数、上采样,所述的上采样模块中的卷积层的输入通道数与上一层的输出通道数相同,所述的上采样模块中的卷积层的输出通道数为1。
进一步地,上采样模块的结构为卷积层(卷积核大小为3×3)→批量归一化层→ReLu激活函数→上采样,在上采样模块中,卷积层的输入通道数不固定,卷积层的输入通道数的数值与上一层的输出通道数相同,卷积层的输出通道数固定,均为1。
优选地,所述的密集连接单元包括三个密集连接模块,所述的三个密集连接模块的的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
进一步地,密集连接模块的输入图像大小为为3×512×512。
优选地,所述的注意力单元的包括依次连接的通道注意力模块、卷积层、批量归一化层、ReLu激活函数、空间注意力模块和TanH激活函数。
进一步地,原始图像和多个密集连接模块的输出图像在通道维度上拼接后送入注意力部分。
进一步地,注意力单元的结构为:通道注意力模块→卷积层(卷积核为3×3)→批量归一化层→ReLu激活函数→空间注意力模块→TanH激活函数。
优选地,所述的通道注意力模块包括全局池化层、全连接层和Sigmoid激活函数。
进一步地,通道注意力模块的结构为:输入图像→全局池化层→全连接层1→全连接层2→Sigmoid激活函数,通道注意力模块的输出为Sigmoid激活函数与通道注意力模块输入的乘积。
进一步地,通道注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的大小,经过一次在空间维度上的全局池化后大小变为c×1×1,随后经过全连接层1,该全连接层的输入大小为c×1×1,输出大小为(c/a)×1×1,a为通道注意力模块的缩放比,为可调整参数,在此处的缩放比a均为3,随后经过全连接层2,该全连接层的输入大小为(c/a)×1×1,输出大小为c×1×1,随后经过一个Sigmoid激活函数,将激活函数的输出值与通道注意力模块的输入值进行相乘作为通道注意力模块的输出,即实现为每一个通道分配不同权重的效果,实现通道注意力的功能。
优选地,所述的空间注意力模块包括平均池化层、最大池化层、卷积层和Sigmoid激活函数。
进一步地,空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数,空间注意力模块的输出为Sigmoid激活函数与空间注意力模块输入的乘积。
进一步地,空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数。其具体流程为:空间注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的尺寸,在通道维度上对特征图取最大值和平均值分别得到最大特征图和平均特征图两个不同的特征描述,此时最大特征图和平均特征图的大小均为1×h×w,然后将最大特征图和平均特征图在通道维度上进行合并,大小为2×h×w,并使用卷积层对合并后的特征图进行卷积,该卷积层的输入通道数为2,输出通道数为1,卷积核大小为7×7,卷积层输出的特征图大小为1×h×w,最后经过一个Sigmoid激活函数即得为在空间上的各个位置的权重,将输入图像与该权重在空间维度上逐一相乘即得到经过空间注意力机制后的特征图。
优选地,所述的分类单元包括依次连接的卷积层、批量归一化层、ReLu激活函数、卷积层、ReLu激活函数、平均池化层、碾平层、全连接层、ReLu激活函数、Dropout函数和全连接层。
进一步地,分类单元的结构为:卷积层(卷积核3×3)→批量归一化层→ReLu激活函数→卷积层(卷积核3×3)→ReLu激活函数→平均池化(池化核5×5)→碾平层→全连接层→ReLu激活函数→Dropout函数→全连接层。
优选地,图像集包括五类极端图像和一类清晰图像,五类极端图像为:雾霾图像,在雾天条件下拍摄到的雾霾遮挡图像信息的图像;模糊图像:由于相机或者目标物体在快速移动而导致图像上出现运动模糊的图像;雨滴图像,相机镜头被溅射上水珠,导致图像上部分细节被遮挡的图像;雨条纹图像,在雨天条件下,拍摄出的图像上会存在大量的雨条纹;阴影图像,由于拍摄角度或者光照较强,拍摄到的图像上部分细节被阴影遮挡。清晰图像,图像细节清晰,不存在上述五类极端情况的图像。
密集连接单元采用多个瓶颈层内的第二个卷积层的卷积核的大小不同的密集连接模块对输入图像进行不同维度的特征提取,并将提取出的特征图通过上采样恢复到与输入图像相同大小,采用注意力单元对特征图进行权重分配,放大特征图中的有用特征,减小特征图中的无用特征,对注意力单元输出的特征图采用卷积层进行特征提取,最后送入分类单元中进行分类。
与现有技术相比,本发明具有如下优点:
(1)本发明构建多核密度连接网络模型,其密集连接单元中不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同,通过不同大小的卷积核,能够有效提取出极端图像上存在的不同尺度的深度特征,实现更优的分类效果;
(2)本发明的多核密度连接网络模型的整体设计适用于尺寸较大的输入图像,较大的尺寸能够有效保留图像上的细小特征,如果输入尺寸较小将会导致图像上微小细节信息的丢失;
(3)在注意力单元中,本发明采用卷积层对空间注意力模块的输入图像进行通道压缩,避免采用过多的通道出现信息冗余,导致空间注意力模块无法有效的放大特征图上的有用信息,提高本发明的分类准确率。
附图说明
图1为多核密度连接网络模型的整体结构图;
图2为密集连接模块的结构图;
图3为瓶颈层的结构图;
图4为过渡层的结构图;
图5为上采样模块的结构图;
图6为注意力单元的结构图;
图7为通道注意力模块的结构图;
图8为空间注意力模块的结构图;
图9为分类单元结构图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。注意,以下的实施方式的说明只是实质上的例示,本发明并不意在对其适用物或其用途进行限定,且本发明并不限定于以下的实施方式。
实施例
一种基于多核密集连接网络的图像分类方法,包括以下步骤:
S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集;
S2:构建多核密度连接网络模型,如图1所示,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型;
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
如图2所示,密集连接模块包括六个上采样模块和依次连接的瓶颈层1、过渡层1、瓶颈层2、过渡层2、瓶颈层3、过渡层3、瓶颈层4、过渡层4、第一拼接模块、瓶颈层5、过渡层5、第二拼接模块、瓶颈层6、过渡层6和第三拼接模块,所述的过渡层1的输出端与第二拼接模块输入端连接,所述的过渡层2的输出端与第一拼接模块的输入端连接,所述的瓶颈层1的输入端与第三拼接模块的输入端连接,所述的瓶颈层2、瓶颈层3、瓶颈层4、瓶颈层5、瓶颈层6的输入端和过渡层6的输出端分别通过六个上采样模块与第三拼接模块的输入端连接。
具体地,密集连接模块的输入图像大小为3×512×512,瓶颈层5的输入图像为瓶颈层2和瓶颈层4的输出图像在第一拼接模块上进行通道维度上拼接后的特征图,瓶颈层6的输入图像为瓶颈层1和瓶颈层5的输出图像在第二拼接模块上进行通道维度上拼接后的特征图,瓶颈层1的输入图像送入第三拼接模块,过渡层1、过渡层2、过渡层3、过渡层4、过渡层5、过渡层6的输出图像经过上采样模块送入第三拼接模块,第三拼接模块其输入图像在通道维度上进行拼接,拼接后的特征图即为密集连接模块的输出特征图,输出特征图大小为9×512×512。
所述的瓶颈层包括卷积层、批量归一化层、ReLu激活函数、卷积层、批量归一化层和ReLu激活函数,所述的瓶颈层的输出为瓶颈层的输入特征图和最后ReLu激活函数输出的特征图在通道维度上拼接后形成的瓶颈层特征图。
具体地,所述的瓶颈层的结构为:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(不同的密集连接模块中卷积核的大小不同)→批量归一化层→ReLu激活函数。
本实施例中,所述的密集连接单元包括三个密集连接模块,如图1所示,分别为密集连接模块1、密集连接模块2、密集连接模块3,所述的三个密集连接模块的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
因此,本实施例中,密集连接模块1、密集连接模块2、密集连接模块3的瓶颈层分别为瓶颈层A、瓶颈层B、瓶颈层C。如图3所示,分别为瓶颈层A:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(卷积核大小为3×3)→批量归一化层→ReLu激活函数、瓶颈层B:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(卷积核大小为5×5)→批量归一化层→ReLu激活函数、瓶颈层C:卷积层(卷积核大小为1×1)→批量归一化层→ReLu激活函数→卷积层(卷积核大小为7×7)→批量归一化层→ReLu激活函数。
本实施例中,密集连接模块1、密集连接模块2、密集连接模块3中各瓶颈层的输入通道数和输出通道数如表1所示,其中括号内第一位为瓶颈层的输入通道数,第二层为瓶颈层的输出通道数。
表1瓶颈层的输入、输出通道数
具体地,本实施例中,所述的过渡层包括三类:过渡放大层、过渡缩小层和过渡恒定层,所述的过渡放大层包括依次连接的批量归一化层、ReLu激活函数、卷积层、上采样层,所述的过渡缩小层包括依次连接的批量归一化层、ReLu激活函数、卷积层、平均池化层,所述的过渡恒定层包括依次连接的批量归一化层、ReLu激活函数、卷积层。本实施例中,将过渡放大层、过渡缩小层和过渡恒定层分别命名为过渡层A,过渡层B、过渡层C,如图4所示,为三类过渡层的结构图。
对应的,过渡放大层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→上采样层,过渡缩小层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)→平均池化层(步长为2),过渡恒顶层的结构为:批量归一化层→ReLu激活函数→卷积层(卷积核大小为1×1)。
本实施例中,密集连接模块1、密集连接模块2、密集连接模块3中各过渡层的输入通道数和输出通道数,如表2所示,其中括号内第一位为过渡层的输入通道数,第二层为过渡层的输出通道数,表2中A、B、C分别代表过渡层为过渡放大层、过渡缩小层、过渡恒定层。
表2过渡层的输入、输出通道数
如图5所示,上采样模块包括依次连接的卷积层、批量归一化层、ReLu激活函数、上采样,所述的上采样模块中的卷积层的输入通道数与上一层的输出通道数相同,所述的上采样模块中的卷积层的输出通道数为1。
本实施例中,具体地,上采样模块的结构为卷积层(卷积核大小为3×3)→批量归一化层→ReLu激活函数→上采样,在上采样模块中,卷积层的输入通道数不固定,卷积层的输入通道数的数值与上一层的输出通道数相同,卷积层的输出通道数固定,均为1。
如图6所示,所述的注意力单元的包括依次连接的通道注意力模块、卷积层、批量归一化层、ReLu激活函数、空间注意力模块和TanH激活函数。原始图像和多个密集连接模块的输出图像在通道维度上拼接后送入注意力部分。
注意力单元的结构为:通道注意力模块→卷积层(卷积核为3×3)→批量归一化层→ReLu激活函数→空间注意力模块→TanH激活函数。
如图7所示,具体地,所述的通道注意力模块包括全局池化层、全连接层和Sigmoid激活函数,通道注意力模块的输出为Sigmoid激活函数与通道注意力模块输入的乘积。
通道注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的大小,经过一次在空间维度上的全局池化后大小变为c×1×1,随后经过全连接层1,该全连接层的输入大小为c×1×1,输出大小为(c/a)×1×1,a为通道注意力模块的缩放比,为可调整参数,在此处的缩放比a均为3,随后经过全连接层2,该全连接层的输入大小为(c/a)×1×1,输出大小为c×1×1,随后经过一个Sigmoid激活函数,将激活函数的输出值与通道注意力模块的输入值进行相乘作为通道注意力模块的输出,即实现为每一个通道分配不同权重的效果,实现通道注意力的功能。
如图8所示,空间注意力模块包括平均池化层、最大池化层、卷积层和Sigmoid激活函数,空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数,空间注意力模块的输出为Sigmoid激活函数与空间注意力模块输入的乘积。
空间注意力模块的结构为:输入图像→平均池化层和最大池化层→卷积层→Sigmoid激活函数。其具体流程为:空间注意力模块的输入特征图大小为c×h×w,c为通道数,h×w为特征图的尺寸,在通道维度上对特征图取最大值和平均值分别得到最大特征图和平均特征图两个不同的特征描述,此时最大特征图和平均特征图的大小均为1×h×w,然后将最大特征图和平均特征图在通道维度上进行合并,大小为2×h×w,并使用卷积层对合并后的特征图进行卷积,该卷积层的输入通道数为2,输出通道数为1,卷积核大小为7×7,卷积层输出的特征图大小为1×h×w,最后经过一个Sigmoid激活函数即得为在空间上的各个位置的权重,将输入图像与该权重在空间维度上逐一相乘即得到经过空间注意力机制后的特征图。
如图9所示,分类单元包括依次连接的卷积层、批量归一化层、ReLu激活函数、卷积层、ReLu激活函数、平均池化层、碾平层、全连接层、ReLu激活函数、Dropout函数和全连接层。
本实施例中,如图9所示,分类单元的结构为:卷积层(输入通道数3,输出通道数64,卷积核3×3)→批量归一化层→ReLu激活函数→卷积层(输入通道数64,输出通道数24,卷积核3×3)→ReLu激活函数→平均池化(池化核5×5)→碾平层→全连接层→ReLu激活函数→Dropout函数→全连接层,其中,碾平层将上一层的四维数据碾平为一维数据,方便输入后面的全连接层。
本发明的密集连接单元采用多个瓶颈层内的第二个卷积层的卷积核的大小不同的密集连接模块对输入图像进行不同维度的特征提取,并将提取出的特征图通过上采样恢复到与输入图像相同大小,采用注意力单元对特征图进行权重分配,放大特征图中的有用特征,减小特征图中的无用特征,对注意力单元输出的特征图采用卷积层进行特征提取,最后送入分类单元中进行分类。
本发明具体实施时,S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集。
本实施例中,图像集包括五类极端图像和一类清晰图像,五类极端图像为:雾霾图像,在雾天条件下拍摄到的雾霾遮挡图像信息的图像;模糊图像:由于相机或者目标物体在快速移动而导致图像上出现运动模糊的图像;雨滴图像,相机镜头被溅射上水珠,导致图像上部分细节被遮挡的图像;雨条纹图像,在雨天条件下,拍摄出的图像上会存在大量的雨条纹;阴影图像,由于拍摄角度或者光照较强,拍摄到的图像上部分细节被阴影遮挡。清晰图像,图像细节清晰,不存在上述五类极端情况的图像。
具体地,五类极端图像和一类清晰图像的每类图像均为1200张,共7200张。在每类图像中,随机取出800张图像作为训练集,随机取出200张作为验证集,剩余的200张图像作为测试集,即训练集共4800张,验证集1200张,测试集1200张。
S2:构建多核密度连接网络模型,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同。
本实施例中所述的三个密集连接模块的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型。
在本实施例中,对多核密集连接网络训练时,采用Pytorch深度学习框架,显卡为Tesla P00,批尺寸(Batch Size)设置为8,损失函数采用交叉熵损失函数。
优化器采用Adam,学习率采用衰减的方式,初始学习率为0.0002,当损失函数的loss损失小于等于0.35,大于0.24时,学习率调整为0.0001;当loss损失小于等于0.24时,学习率调整为0.00005。当连续三轮loss损失不下降(即三个loss损失值的方差小于0.00001),认为训练完成,结束训练。每轮迭代完成后在验证集上进行准确率测试,保存在验证集上准确率最高的模型作为最终模型。
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果。
本发明的多核密集连接网络模型与DenseNet、ResNet模型采用相同的数据集进行训练,三者分类准确率如表3所示,本发明的多核密集连接网络模型准确率高于DenseNet、ResNet模型。
表3多核密集连接网络模型与DenseNet ResNet模型分类准确率
清晰 | 雾霾 | 雨滴 | 雨条纹 | 阴影 | 模糊 | 平均 | |
本发明 | 93.50% | 94.00% | 97.00% | 92.00% | 90.00% | 89.00% | 92.58% |
DenseNet | 65.00% | 86.50% | 77.50% | 85.50% | 88.50% | 84.00% | 81.17% |
ResNet | 88.50% | 93.00% | 87.00% | 92.00% | 83.50% | 92.31% | 88.00% |
上述实施方式仅为例举,不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施,且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。
Claims (9)
1.一种基于多核密集连接网络的图像分类方法,其特征在于,包括以下步骤:
S1:建立图像集,对图像集中的图像进行标签标记,将图像集中的图像划分为训练集、验证集和测试集;
S2:构建多核密度连接网络模型,所述的多核密度连接网络模型包括密集连接单元、注意力单元和分类单元,所述的密集连接单元包括至少两个密集连接模块,所述的密集连接模块包括多个瓶颈层,所述的瓶颈层内包括依次设置的两个卷积层,不同的密集连接模块中的瓶颈层内的第二个卷积层的卷积核的大小不同;
S3:将训练集、验证集中的图像输入到多核密集连接网络模型,得到训练好的多核密集连接网络模型;
S4:将测试集输入到训练好的多核密集连接网络模型,输出图像分类结果;
所述的密集连接模块包括六个上采样模块和依次连接的瓶颈层1、过渡层1、瓶颈层2、过渡层2、瓶颈层3、过渡层3、瓶颈层4、过渡层4、第一拼接模块、瓶颈层5、过渡层5、第二拼接模块、瓶颈层6、过渡层6和第三拼接模块,
所述的过渡层1的输出端与第二拼接模块输入端连接,所述的过渡层2的输出端与第一拼接模块的输入端连接,所述的瓶颈层1的输入端与第三拼接模块的输入端连接,所述的瓶颈层2、瓶颈层3、瓶颈层4、瓶颈层5、瓶颈层6的输入端和过渡层6的输出端分别通过六个上采样模块与第三拼接模块的输入端连接。
2.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的瓶颈层包括卷积层、批量归一化层、ReLu激活函数、卷积层、批量归一化层和ReLu激活函数,所述的瓶颈层的输出为瓶颈层的输入特征图和最后ReLu激活函数输出的特征图在通道维度上拼接后形成的瓶颈层特征图。
3.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的过渡层包括三类:过渡放大层、过渡缩小层和过渡恒定层,所述的过渡放大层包括依次连接的批量归一化层、ReLu激活函数、卷积层、上采样层,所述的过渡缩小层包括依次连接的批量归一化层、ReLu激活函数、卷积层、平均池化层,所述的过渡恒定层包括依次连接的批量归一化层、ReLu激活函数、卷积层。
4.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的上采样模块包括依次连接的卷积层、批量归一化层、ReLu激活函数、上采样,所述的上采样模块中的卷积层的输入通道数与上一层的输出通道数相同,所述的上采样模块中的卷积层的输出通道数为1。
5.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的密集连接单元包括三个密集连接模块,所述的三个密集连接模块的瓶颈层内的第二个卷积层的卷积核的大小分别为3×3、5×5和7×7。
6.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的注意力单元的包括依次连接的通道注意力模块、卷积层、批量归一化层、ReLu激活函数、空间注意力模块和TanH激活函数。
7.根据权利要求6所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的通道注意力模块包括全局池化层、全连接层和Sigmoid激活函数,所述的通道注意力模块的输出为通道注意力模块中Sigmoid激活函数与通道注意力模块的输入值的乘积。
8.根据权利要求6所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的空间注意力模块包括平均池化层、最大池化层、卷积层和Sigmoid激活函数。
9.根据权利要求1所述的一种基于多核密集连接网络的图像分类方法,其特征在于,所述的分类单元包括依次连接的卷积层、批量归一化层、ReLu激活函数、卷积层、ReLu激活函数、平均池化层、碾平层、全连接层、ReLu激活函数、Dropout函数和全连接层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010823347.1A CN112036454B (zh) | 2020-08-17 | 2020-08-17 | 一种基于多核密集连接网络的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010823347.1A CN112036454B (zh) | 2020-08-17 | 2020-08-17 | 一种基于多核密集连接网络的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112036454A CN112036454A (zh) | 2020-12-04 |
CN112036454B true CN112036454B (zh) | 2022-12-16 |
Family
ID=73576796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010823347.1A Active CN112036454B (zh) | 2020-08-17 | 2020-08-17 | 一种基于多核密集连接网络的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112036454B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541576B (zh) * | 2020-12-14 | 2024-02-20 | 四川翼飞视科技有限公司 | Rgb单目图像的生物活体识别神经网络构建方法 |
CN112488963A (zh) * | 2020-12-18 | 2021-03-12 | 中国科学院合肥物质科学研究院 | 一种用于农作物病害数据的增强方法 |
CN112686856B (zh) * | 2020-12-29 | 2024-07-09 | 杭州优视泰信息技术有限公司 | 一种基于深度学习的实时肠镜息肉检测装置 |
CN113128360A (zh) * | 2021-03-30 | 2021-07-16 | 苏州乐达纳米科技有限公司 | 基于深度学习的司机驾驶行为检测与识别方法 |
CN114492560A (zh) * | 2021-12-06 | 2022-05-13 | 陕西师范大学 | 一种基于迁移学习的脑电情绪分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN111461233A (zh) * | 2020-04-02 | 2020-07-28 | 大连海事大学 | 一种基于MDCLSTM-LDenseNet网络的核磁共振图像自动分类方法及装置 |
-
2020
- 2020-08-17 CN CN202010823347.1A patent/CN112036454B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728224A (zh) * | 2019-10-08 | 2020-01-24 | 西安电子科技大学 | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 |
CN111461233A (zh) * | 2020-04-02 | 2020-07-28 | 大连海事大学 | 一种基于MDCLSTM-LDenseNet网络的核磁共振图像自动分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
"Density-aware Single Image De-raining using a Multi-stream Dense Network;He Zhang et al.;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181217;第695-704页 * |
Residual Dense Network Based on Channel-Spatial Attention for the Scene Classification of a High-Resolution Remote Sensing Image;Xiaolei Zhao et al.;《remote sensing》;20200610;第1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112036454A (zh) | 2020-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112036454B (zh) | 一种基于多核密集连接网络的图像分类方法 | |
CN108427920B (zh) | 一种基于深度学习的边海防目标检测方法 | |
CN110188795B (zh) | 图像分类方法、数据处理方法和装置 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN114937151B (zh) | 基于多感受野和注意力特征金字塔的轻量级目标检测方法 | |
CN110334765B (zh) | 基于注意力机制多尺度深度学习的遥感影像分类方法 | |
CN109410146A (zh) | 一种基于Bi-Skip-Net的图像去模糊算法 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN109840560B (zh) | 基于胶囊网络中融入聚类的图像分类方法 | |
CN111340814A (zh) | 一种基于多模态自适应卷积的rgb-d图像语义分割方法 | |
CN112132145B (zh) | 一种基于模型扩展卷积神经网络的图像分类方法及系统 | |
CN109753996B (zh) | 基于三维轻量化深度网络的高光谱图像分类方法 | |
CN109949200B (zh) | 基于滤波器子集选择和cnn的隐写分析框架构建方法 | |
CN113344110B (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN111597920A (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN113012068A (zh) | 图像去噪方法、装置、电子设备及计算机可读存储介质 | |
CN115861799A (zh) | 基于注意力梯度的轻量化空对地目标检测方法 | |
CN117036243A (zh) | 刨花板表面缺陷检测的方法、装置、设备和存储介质 | |
CN115272691A (zh) | 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 | |
CN118397367A (zh) | 一种基于卷积视觉Mamba的篡改检测方法 | |
CN113239829B (zh) | 基于空间占用概率特征的跨维度遥感数据目标识别方法 | |
CN111523561A (zh) | 图像风格识别方法、装置、计算机设备及存储介质 | |
CN111126185A (zh) | 一种针对道路卡口场景的深度学习车辆目标识别方法 | |
CN117671540A (zh) | 基于多谱频率通道注意力航拍图像小目标检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |