CN115861696A - 一种使用特征混合网络模型进行图像分类的方法 - Google Patents

一种使用特征混合网络模型进行图像分类的方法 Download PDF

Info

Publication number
CN115861696A
CN115861696A CN202211558094.5A CN202211558094A CN115861696A CN 115861696 A CN115861696 A CN 115861696A CN 202211558094 A CN202211558094 A CN 202211558094A CN 115861696 A CN115861696 A CN 115861696A
Authority
CN
China
Prior art keywords
feature
network model
mixer
frequency mixer
image classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211558094.5A
Other languages
English (en)
Inventor
郑忠龙
陈相漆
王志刚
陈灏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN202211558094.5A priority Critical patent/CN115861696A/zh
Publication of CN115861696A publication Critical patent/CN115861696A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开一种使用特征混合网络模型进行图像分类的方法,包括以下步骤:步骤一、给定一个图像作为输入,采用卷积层和激活函数提取浅层特征;步骤二、将提取的特征使用通道分裂机制按通道维度进行划分为Xh和Xl;步骤三、将Xh和Xl分别输入到CSPNeXt mixer特征混合器中,得到输出特征Yh和Yl;步骤四、通过串联操作将步骤三得到的输出特征,按维度方向进行串联得到特征Yc;步骤五、采用卷积层对特征Yc进行有效融合;该发明能够使用通道分裂机制提取图像特征的不同频率信号,使得模型能够从局部和全局上对图像进行处理,此外,使用不同的通道分裂机制使得模型在不同的阶段处理不同频率信号的能力有所不同,从而进一步提高模型特征混合的能力。

Description

一种使用特征混合网络模型进行图像分类的方法
技术领域
本发明涉及图像分类技术领域,特别是涉及一种使用特征混合网络模型进行图像分类的方法。
背景技术
卷积神经网络(CNN)长期以来一直是计算机视觉建模的主流。自从AlexNet首次将卷积神经网络用于图像分类任务以来,它取得了巨大成功。CNN体系结构正朝着更复杂、更大规模和更广泛连接的卷积形式发展。CNN成为各种计算机视觉任务的实际骨干网络,推动了整个领域前所未有的发展。
CNN是计算机视觉任务的事实模型,因为它们可以建模局部依赖关系并提取高频信息。涂正中等人正在将串行或并行模式的CNN引入Transformer模型。例如,戴子航等人以有原则的方式垂直堆叠卷积层和注意层。在夏新等人的TRT-ViT中还指出,仅使用Transformer模型部署在有限资源设备上是不切实际的,并概述了一组设计模型的原则,该模型的性能与Transformer模型一样好,预测与ResNet一样快。但是,以某种方式对卷积和注意力进行分组意味着不能同时处理高频和低频分量。
从MLP Mixer开始,基于MLP架构的模型通过用MLP完全取代ViT的基于自我注意的机制,在ImageNet数据集上实现了具有竞争力的性能。这一研究方向使我们对自我注意机制的使用提出了质疑。并且基于Transformer的注意力机制计算复杂度和输入图片的宽高成二次方复杂度。一些研究表明,卷积层通常具有更好的泛化能力和更快的收敛速度,因为它具有很强的归纳偏置先验知识。阿列克谢·多索维茨基等人在An image is worth16x16 words:Transformers for image recognition at scale论文中提出了VisionTransformer(ViT)使用一系列嵌入式图像块作为标准转换器的输入,是第一种表现出与CNN模型相当的性能的无卷积转换器。然而,ViT需要非常大的数据集,例如ImageNet21K和JFT300M进行训练,而且缺乏CNN所特有的归纳偏置。李源,陈云鹏等人在Tokens-to-tokenvit:Training vision transformers from scratch on imagenet论文中提出了T2T-ViT引入了层级的Tokens-to-Token(T2T)转换来编码每个标记的重要局部结构,而不是ViT中使用的普通标记化。与这些方法不同的是,我们提出了一个双路径架构,同时关注高频和低频信号(局部和全局)的特征,而ViT只关注了全局特征,T2T-ViT只关注了局部特征。我们的研究表明,深度可分离卷积可以通过简单的特征混合器有效地合并到层中。
发明内容
本发明针对现有技术中的图像分类方法并不能很好的同时考虑到低频信息和高频信息特征的不足,提供一种使用特征混合网络模型进行图像分类的方法,该发明能够提取高频和低频信号的特征,并且使用新的通道分裂机制,使得模型能够在不同层对高低频信号处理有不同的能力。
为解决此技术问题,本发明的技术方案是:一种使用特征混合网络模型进行图像分类的方法,
步骤一、给定一个图像I作为输入,采用1×1卷积层和激活函数提取浅层特征H0,并且将特征图的通道数扩大为原来的两倍。
H0=F1(Bn(I))
其中F1代表1×1卷积操作,Bn代表激活函数;
步骤二、将提取的特征使用通道分裂机制按通道维度进行划分为Xh和Xl
Xh,Xh=Split(H0)
其中Split代表通道分裂机制;
步骤三、将Xh和Xl分别输入到多个CSPNeXt mixer特征混合器中,每个CSPNeXtmixer得到输出特征Yh和Yl,每个CSPNeXt mixer由低频混合器和高频混合器组成,其中高频混合器由线性层(Linear)和深度可分离卷积(DwConv),其中低频混合器由空洞卷积(Dilated Convolution)、平均池化(AvePool)和上采样(Upsample)组成:
Yh=DwConv(Linear(Xh))
Y1=Upsample(AvePooling(DilateConv(Xl)))
步骤四、通过串联操作将步骤三得到的输出特征Yh和Yl,按特征图的维度方向进行串联得到特征Yc
Yc=Concat(Yl,Yh)
其中,Concat为串联操作,通过串联操作将通道维数恢复为分裂操作之前;
步骤五、采用1×1卷积对串联高低频特征的Yc再次对特征进行有效的融合。再对特征融合后的特征H1输入到分类头得到最终的分类结果;
A=ClsHead(H1)
其中,A代表最终分类结果,ClsHead代表分类头;
优选所述CSPNeXt mixer模块包含低频混合器和高频混合器。一种适用于图像分类的特征混合网络模型,它由多个CSPNeXt mixer模块和通道分裂机制组成。通过分裂机制对特征进行划分,然后再由CSPNeXt mixer对全局和局部的特征进行交互融合。
进一步优选所述CSPNeXt mixer模块具体的工作方式如下:
CSPNeXt mixer模块的输入将被拆分为Xh和Xl
将Xh输入到高频混合器对特征中的高频信号进行处理,首先使用Liner进行线性投影,然后使用核大小为7×7的DWConv,7×7的大核卷积有利于扩大感受野,能够有效的提取高频信号,例如:边缘和角度。同时将输入的特征Xl输入到低频混合器中,经过DilatedConvolution获取全局的感受野,再经过全局的平均池化(Ave Pool)进行全局的特征交互同时将特征图的宽高进行缩减,最后再经过上采样层(Upsample)将特征图的尺度复原。
Yh=DwConv(Linear(Xh))
Y1=Upsample(AvePooling(DilateConv(Xl)))
进一步优选所述通道分裂机制;在将特征输入到CSPNeXt mixer之前,对特征按通道维度进行划分,在模型浅层时划分更多的通道维度给高频混合器,在模型的深层时划分更多的通道给低频混合器。不同层呈现出对高低频信号不同的捕获能力。
优选使用随机裁减、水平翻转、垂直翻转来扩充训练数据。
优选在PyTorch平台上实现多通道聚合网络,并用Nvidia A100显卡实验。
优选所述激活函数为LeakyReLU函数或Relu函数。
技术方案,本发明的有益效果是:
本发明提出了一种使用特征混合网络模型进行图像分类的方法,在提高网络模型分类的性能的同时保持高效性,本发明的CSPNeXt mixer能够提取高频和低频信号(局部和全局)的特征,并且使用新的通道分裂机制,使得模型能够在不同层对高低频信号处理有不同的能力。
在多个基准数据集上进行的大量实验表明,所提出的网络与一些基于Transformer的最新方法中相比具有更好的精度和更少的参数量;该方法在精度和计算量方面具有优越性。
从而实现本发明的上述目的。
附图说明
图1是本发明涉及的一种使用特征混合网络模型的整体架构流程图;
图2是本发明中CSPNeXt mixer模块图及通道分裂机制示意图;
图3是本发明中特征混合模型与Swin Transformer对比热力图;
图4提供了本发明中特征混合模型每一层的特征可视化图。
具体实施方式
为了进一步解释本发明的技术方案,下面通过具体实施例来对本发明进行详细阐述。
本实施例公开一种使用特征混合网络模型进行图像分类的方法,具体流程如图1所示,包括以下步骤:
步骤一、给定一个图像I作为输入,采用1×1卷积层和激活函数提取浅层特征H0,并且将特征图的通道数扩大为原来的两倍。
H0=F1(Bn(I))
其中F1代表1×1卷积操作,Bn代表激活函数;
步骤二、将提取的特征使用通道分裂机制按通道维度进行划分为Xh和Xl
Xh,Xl=Split(H0)
其中Split代表通道分裂机制;
步骤三、将Xh和Xl分别输入到CSPNeXt mixer特征混合器中得到输出特征Yh和Yl,CSPNeXt mixer由低频混合器和高频混合器组成,其中高频混合器由线性层(Linear)和深度可分离卷积(DwConv),其中低频混合器由空洞卷积(Dilated Convolution)、平均池化(AvePool)和上采样(Upsample)组成:
Yh=DwConv(Linear(Xh))
Y1=Upsample(AvePooling(DilateConv(Xl)))
步骤四、通过串联操作将步骤三得到的输出特征Yh和Yl,按特征图的维度方向进行串联得到特征Yc
Yc=Concat(Yl,Yh)
其中,Concat为串联操作,通过串联操作将通道维数恢复为分裂操作之前;
步骤五、采用1×1卷积对串联高低频特征的Yc再次对特征进行有效的融合。再对特征融合后的特征H1输入到分类头得到最终的分类结果;
A=ClsHead(H1)
其中,A代表最终分类结果,ClsHead代表分类头;
为了提高模型的特征表示能力,以及平衡模型对高低频信号的捕获能力,我们在特征提取阶段分为四个阶段,每个阶段模型通道输入的维度是前面一阶段的两倍,逐渐扩大输入的维度,提高特征提取能力;同时在保持每阶段的通道数不变的情况下,进行通道划分,根据模型在每一阶段特征提取方面侧重的不同,如图4所示,模型在浅层时倾向于提取高频信号(局部纹理),而模型在深层时倾向于提取低频信号(全局空间信息),从而我们在设计输入到高低频信号时维度不再保持一致,而是在浅层时输入更高维度给高频混合器,在深层时输入更多高维度给低频混合器,以此达到高低频信号提取的平衡性。模型的具体配置如表4所示。
在本实施例中,依次进行数据集、评估指标和实现细节,具体如下:
(1)数据集
我们选择公开数据集Imagenet-1k作为训练数据集,一个在计算机视觉广泛应用的数据集,来测试网络模型的性能。
(2)评估指标
为了评估模型在ImageNet数据集上的有效性采用精度、模型参数量(Params)、模型计算量GFLOPs作为评价估计图像分类性能的好坏。网络模型的参数量Params可以用于衡量网络模型的复杂程度,卷积核的尺寸和数量越多参数量也就越大;而网络模型的计算量GLOPs即浮点型运算量,表示网络模型的运算速度。将用这三个指标来综合评价网络模型性能。
(3)实现细节
在对特征混合网络模型进行实验时,在特征提取阶段设置为四个阶段,通道数C从一阶段的64到最后阶段的512,其中,每个阶段的重复堆叠次数为(3,3,27,3)。在训练过程中使用随机裁减、水平翻转、垂直翻转来扩充训练数据。使用AdamW优化器对模型进行300epoch训练,权重衰减为0.05,学习率lr=1e-3*批量大小/1024。我们在PyTorch平台上实现了特征混合网络模型,并用Nvidia A100显卡进行了实验。
(4)实验结果分析
本实验的目的是为了验证特征混合网络模型在ImageNet数据集上图像分类任务中优越的性能,并且验证模型的优越性对模型的结果进行热力图可视化及对比如图3所示。
在ImageNet数据集上测试并对比了其他CNN或者基于Transformer的模型,并且在表1中给出各个模型在数据集上测试的精确率、参数量Params、计算量GFLOPs。在图3的热力图可视化结果中我们可以看到,我们的模型可以有效的考虑全局和局部的信息,例如在袋熊图像中,我们的模型能够跳过手臂,精确聚焦于整个wombat,包括四肢。
表1不同类型模型在ImageNet-1K分类上的表现。所有这些模型仅在ImageNet-1K训练集上进行训练,并报告了验证集的准确性
Figure BDA0003983414540000081
Figure BDA0003983414540000091
本实施例通过消融实验验证所提出的CSPNeXt mixer、高频混合器中使内核大小和通道分裂机制的有效性。
首先分析CSPNeXt mixer模型对网络性能的影响,然后通过相应的去除CSPNeXtmixer中的各个模块,然后在表2中报告相应结果。打勾代表是否使用了对应的分支。值得注意的是,我们单独使用DwConv并结合平均池化实现了出色的性能,而不是单独使用卷积。这表明我们的CSPNeXt mixer确实有效。
表2ImageNet-1K上CSPNeXt mixer的消融研究。所有模型都训练了200个epoch。
Figure BDA0003983414540000092
为了验证大内核卷积的好处,我们尝试了几种内核大小,包括3、5、7和9。网络的性能从79.4%(3×3)提高到80.6%(7×7),而网络的FLOPs保持不变,实验结果如表3所示。此外,较大内核的增益在7×7处饱和。
表3ImageNet-1K上不同内核大小对CSPNeXt mixer影响的消融研究。所有模型都训练了200个epoch。
Figure BDA0003983414540000101
为了验证新的信道分裂机制的有效性,我们设计了多种信道划分方案,详细配置如表4所示,从表中可以看出,CSPNeXt-S3在浅层使用了更多的高频分量,并且更多深层低频分量维度,模型整体性能优于原CSPNeXt-S1。
表4Imagenet-1K上不同通道划分对CSPNeXt mixer影响的消融研究。其中Ch表示馈入高频分量的维度,Cl表示馈入低频分量的维度,C表示未分割的特征图的维度。所有模型都训练了200个epoch。
Figure BDA0003983414540000102
Figure BDA0003983414540000111
本发明提出了一种使用特征混合网络模型,特征提取由四个阶段组成,每个阶段由通道分裂机制和高低频混合器组成,通过高低频混合器实现对特征的高低频信号的处理。此外通过设计的通道分裂机制平衡了模型在不同阶段对高低频处理的能力。在ImageNet数据集上的大量实验表明,本发明在准确性和计算量上优于其他先进的网络模型。
文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (11)

1.一种使用特征混合网络模型进行图像分类的方法,其特征在于:包括以下步骤:
步骤一、给定一个图像I作为输入,采用1×1卷积层和激活函数提取浅层特征H0,并且将特征图的通道数扩大为原来的两倍:
H0=F1(Bn(I))
其中F1代表1×1卷积操作,Bn代表激活函数;
步骤二、将提取的特征图使用通道分裂机制按通道维度进行划分为Xh和Xl
Xh,Xl=Split(H0)
其中Split代表通道分裂机制;
步骤三、将Xh和Xl分别输入到多个CSPNeXt mixer特征混合器中,每个CSPNeXt mixer混合器得到输出特征Yh和Yl,每个CSPNeXt mixer特征混合器由低频混合器和高频混合器组成,其中高频混合器包括线性层和深度可分离卷积层,其中低频混合器包括空洞卷积、平均池化和上采样:
Yh=DwConv(Linear(Xh))
Y1=Upsample(AvePooling(DilateConv(Xl)))
步骤四、通过串联操作将步骤三得到的输出特征Yh和Yl,按特征图的维度方向进行串联得到特征Yc
Yc=Concat(Yl,Yh)
其中,Concat为串联操作,通过串联操作将通道维数恢复为分裂操作之前;
步骤五、采用1×1卷积对串联高低频特征的Yc再次对特征进行有效的融合,再对特征融合后的特征H1输入到分类头得到最终的分类结果;
A=ClsHead(H1)
其中,A代表最终分类结果,ClsHead代表分类头。
2.如权利要求1所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:每个CSPNeXt mixer特征混合器包括一个高频混合器和一个低频混合器。
3.如权利要求2所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:所述高频混合器包含多个DwConv卷积和Linear层。
4.如权利要求2所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:所述低频混合器包含多个DilatedConv卷积、平均池化层和上采样层。
5.如权利要求3所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:
所述通道分裂机制具体的工作方式如下:在模型浅层时划分更多的通道维度给高频混合器,在模型的深层时划分更多的通道给低频混合器,不同层呈现出对高低频信号不同的捕获能力。
6.如权利要求2所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:
所述高频混合器首先将输入的特征Xh使用Liner进行线性投影,然后使用核大小为7×7的DwConv。
7.如权利要求5所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:每个低频混合器,首先将输入的特征Xl经过Dilated Convolution获取全局的感受野,再经过全局的平均池化进行全局的特征交互同时将特征图的宽高进行缩减,最后再经过上采样层将特征图的尺度复原。
8.如权利要求1所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:
特征混合网络模型在训练时使用Adam优化算法,同时将最小批次大小设置为400,初始学习率设置为10e-3,在200次迭代,将初始学习率缩减为原来的十分之一,总共迭代300次。
9.如权利要求1所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:对输入图像I使用随机裁减、水平翻转、垂直翻转进行数据增强,来扩充训练数据。
10.如权利要求1所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:特征混合网络模型需在PyTorch平台上实现多通道聚合网络。
11.如权利要求1所述的一种使用特征混合网络模型进行图像分类的方法,其特征在于:所述激活函数为LeakyReLU函数或Relu函数。
CN202211558094.5A 2022-12-06 2022-12-06 一种使用特征混合网络模型进行图像分类的方法 Pending CN115861696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211558094.5A CN115861696A (zh) 2022-12-06 2022-12-06 一种使用特征混合网络模型进行图像分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211558094.5A CN115861696A (zh) 2022-12-06 2022-12-06 一种使用特征混合网络模型进行图像分类的方法

Publications (1)

Publication Number Publication Date
CN115861696A true CN115861696A (zh) 2023-03-28

Family

ID=85670408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211558094.5A Pending CN115861696A (zh) 2022-12-06 2022-12-06 一种使用特征混合网络模型进行图像分类的方法

Country Status (1)

Country Link
CN (1) CN115861696A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681657A (zh) * 2023-05-18 2023-09-01 中南大学 基于改进YOLOv7模型的沥青路面病害检测方法
CN117094451A (zh) * 2023-10-20 2023-11-21 邯郸欣和电力建设有限公司 一种耗电量的预测方法、装置及终端

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116681657A (zh) * 2023-05-18 2023-09-01 中南大学 基于改进YOLOv7模型的沥青路面病害检测方法
CN116681657B (zh) * 2023-05-18 2024-03-22 中南大学 基于改进YOLOv7模型的沥青路面病害检测方法
CN117094451A (zh) * 2023-10-20 2023-11-21 邯郸欣和电力建设有限公司 一种耗电量的预测方法、装置及终端
CN117094451B (zh) * 2023-10-20 2024-01-16 邯郸欣和电力建设有限公司 一种耗电量的预测方法、装置及终端

Similar Documents

Publication Publication Date Title
Wu et al. Shift: A zero flop, zero parameter alternative to spatial convolutions
CN115861696A (zh) 一种使用特征混合网络模型进行图像分类的方法
Zhang et al. Split to be slim: An overlooked redundancy in vanilla convolution
CN111626300A (zh) 基于上下文感知的图像语义分割模型及建模方法
CN110223304B (zh) 一种基于多路径聚合的图像分割方法、装置和计算机可读存储介质
CN111046917B (zh) 基于深度神经网络的对象性增强目标检测方法
CN112489164B (zh) 基于改进深度可分离卷积神经网络的图像着色方法
CN114138919B (zh) 一种基于非局部注意力卷积神经网络的地震数据重建方法
CN114219824A (zh) 基于深度网络的可见光-红外目标跟踪方法及系统
CN117575915B (zh) 一种图像超分辨率重建方法、终端设备及存储介质
CN115546032A (zh) 一种基于特征融合与注意力机制的单帧图像超分辨率方法
CN113192076A (zh) 联合分类预测和多尺度特征提取的mri脑肿瘤图像分割方法
Wang et al. QSFM: Model pruning based on quantified similarity between feature maps for AI on edge
Wang et al. Model pruning based on quantified similarity of feature maps
CN111783862A (zh) 多注意力导向神经网络的立体显著性物体检测技术
Qi et al. Learning low resource consumption cnn through pruning and quantization
CN110599495A (zh) 一种基于语义信息挖掘的图像分割方法
CN115661340B (zh) 一种基于源信息融合的三维点云上采样方法与系统
CN116701681A (zh) 一种用于语义分割的多查询网络
Wang et al. Face super-resolution via hierarchical multi-scale residual fusion network
Zhu et al. FSConv: Flexible and separable convolution for convolutional neural networks compression
Li et al. Towards optimal filter pruning with balanced performance and pruning speed
CN116188882A (zh) 融合自注意力和多路路径图卷积的点云上采样方法及系统
CN117437557A (zh) 一种基于双通道特征增强的高光谱图像分类方法
Wei et al. Structured network pruning via adversarial multi-indicator architecture selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination