CN115100470A - 小样本图像分类系统及其方法 - Google Patents

小样本图像分类系统及其方法 Download PDF

Info

Publication number
CN115100470A
CN115100470A CN202210719747.7A CN202210719747A CN115100470A CN 115100470 A CN115100470 A CN 115100470A CN 202210719747 A CN202210719747 A CN 202210719747A CN 115100470 A CN115100470 A CN 115100470A
Authority
CN
China
Prior art keywords
network
module
layer
global
resolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210719747.7A
Other languages
English (en)
Inventor
奚雪峰
仇真
顾晨凯
崔志明
胡伏原
左严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu New Hope Technology Co ltd
Suzhou University of Science and Technology
Original Assignee
Jiangsu New Hope Technology Co ltd
Suzhou University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu New Hope Technology Co ltd, Suzhou University of Science and Technology filed Critical Jiangsu New Hope Technology Co ltd
Priority to CN202210719747.7A priority Critical patent/CN115100470A/zh
Publication of CN115100470A publication Critical patent/CN115100470A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种小样本图像分类系统及方法,多分辨率模块,学习不同分辨率图像的特征嵌入,为输入图像生成深度局部描述符学习不同分辨率图像的特征嵌入,每个查询图像和每个支持类的分布都可在深度局部描述符的级别上表示;全局注意力模块,放大跨维度接受区域,捕获全局维度的重要交互特征;自适应融合模块,联合学习得到的权值向量将局部关系和全局关系自适应地融合在一起,采用非参数最近邻分类器作为动态分类器;自蒸馏模块,将深层网络分类器作为教师网络,对共享第二层卷积模块权重的浅层网络进行蒸馏。卷积神经网络中使用多分辨率学习的方法,全局注意力机制融入自蒸馏方法中,解决小样本学习任务中图像空间冗余问题。

Description

小样本图像分类系统及其方法
技术领域
本发明涉及一种小样本图像分类系统及其方法。
背景技术
目前,深度神经网络(DNN)已经在图像分类、目标检测和语义分割等方面取得了非常好的效果,一般提升神经网络精度的方法是增加网络的深度和宽度,但是常常会带来增加的精度与计算量不对等的弊端。为了能够让网络在计算资源受限的平台上运行,则需要优化的目标是在满足资源限制的基础上,尽可能的提高网络模型的精度。知识蒸馏是网络模型压缩中常用的方法,与传统的知识蒸馏方法不同,自蒸馏学习(Self-KnowledgeDistillation,SKD)不需要预先训练一个教师网络以提供有效增益信息给学生模型,而是对具有相同架构的单个模型进行知识蒸馏,以减少对复杂的教师网络训练所耗费的成本,并在最大程度上对网络的精度进行提升;然而,深度学习模型在学习时不可避免地会出现过拟合问题。人类可以从少量的样本中快速学习某一类事物,并且拥有很强的泛化能力。受此启发,小样本学习(Few-shot Learning,FSL)的概念应运而生,小样本学习旨在让深度学习模型利用训练任务之间的共性,将所学到的先验知识快速推广到只含少量标注样本的新任务当中,极大地降低了样本数据的获取成本和难度,并且缓解了深度学习中常见的过拟合问题;因此,如何充分发挥小样本学习在图像分类任务上的潜力,正逐渐成为业内研究热点。在小样本学习任务中,对于图像分类结果的可靠性有着严格的要求,而图像中相似冗余背景会对目标特征的识别存在显著的干扰。在面对背景非常复杂并且含有大量的冗余信息的输入图像时,感兴趣区域(Region of Interest,ROI)能够引起计算机视觉的注意,通过对提取到的图像中感兴趣区域的处理,从而忽略掉图像的冗余信息。基于度量学习的方法在小样本分类任务上取得了很好的效果,图像在分类过程中使用顶层的特征进行度量学习。从特征提取的角度来看,顶层的样本特征分辨率较低,图像的通道信息和空间信息等细节信息基本丢失,导致小样本图像分类任务的精度较差。空间注意机制和通道注意机制来减少分类过程中细节信息的损失,使模型获得了较高的准确性;然而由于信息减少和维度分离,这些注意力机制仅仅利用了来自有限的接受域的视觉表征。在这个过程中,失去了全局空间通道的相互作用,从而削弱了图像的全局表征信息。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种小样本图像分类系统及其方法。
本发明的目的通过以下技术方案来实现:
小样本图像分类系统,特点是:包含多分辨率模块、全局注意力模块、自适应融合模块以及自蒸馏模块;
多分辨率模块,学习不同分辨率图像的特征嵌入,为输入图像生成深度局部描述符学习不同分辨率图像的特征嵌入,每个查询图像和每个支持类的分布都可在深度局部描述符的级别上表示;
全局注意力模块,放大跨维度接受区域,捕获全局维度的重要交互特征;
自适应融合模块,联合学习得到的权值向量将局部关系和全局关系自适应地融合在一起,采用非参数最近邻分类器作为动态分类器;
自蒸馏模块,将深层网络分类器作为教师网络,对共享第二层卷积模块权重的浅层网络进行蒸馏。
进一步地,上述的小样本图像分类系统,其中,多分辨率模块,采用多尺度的体系结构和密集连接的方法构建多分辨率网络,为生成具有高分辨率的新特征图作为输入,构建一个Regular-conv层,该层由一个bottleneck层和一个regular convolution层组成,每一层均包含一个批处理归一化层、一个ReLU层和一个卷积层;先利用Regular-conv层在卷积过程中对图像特征以双线性插值的方式进行上采样,然后将得到的特征图通过密集连接进行融合;再将Regular-conv层中的regular convolution的stride设为2,构建一个stride-conv层,将其嵌入到带有下采样的融合块中,再将得到的不同分辨率样本数据输入到网络中,并且为输入图像生成深度局部描述符,使每个查询图像和每个支持类的分布均能在深度局部描述符的级别上表示。
进一步地,上述的小样本图像分类系统,其中,全局注意力模块,采用CBAM中的顺序通道-空间注意机制,重新设计通道注意子模块与空间注意子模块;在通道注意子模块中采用三维排列的方式保留三维信息,利用一个两层的多层感知器放大跨维的通道-空间依赖关系;在空间注意子模块中采用两个卷积层进行空间信息融合;同时,删除池化以进一步保留特性映射,采用带有通道混洗的组卷积防止参数增加。
进一步地,上述的小样本图像分类系统,其中,自适应融合模块的基于多分辨率自蒸馏网络通过Conv Block定义查询分布和支持类分布之间的联合非对称分布度量,同时考虑到不对称的局部关系和全局关系,分别采用KL散度测度计算全局级关系和I2C测度产生局部级关系,并设计融合策略将局部关系和全局关系自适应地融合在一起;采用可学习的二维权值向量实现融合,因KL散度表示不相似性而不是相似性,采用散度的负值来获得相似性。
进一步地,上述的小样本图像分类系统,其中,自蒸馏模块,深度学习网络中绝大多数预测任务使用softmax层给大量标签分配概率分布;根据目标卷积神经网络的原始结构,将原始网络分出一个浅层神经网络作为学生网络,在训练期间深层网络被视为教师网络,将注意力机制融入到自蒸馏学习中,构建一个从深层到浅层的反馈连接,通过共享不同层次的注意力权重,将不同层次网络提取到的注意力特征图送入分类器中,分别得到高维与低维预测的概率分布,然后根据预测的概率分布将深层网络对浅层神经网络进行蒸馏。
本发明小样本图像分类方法,包括以下步骤:
首先,将原始网络分出一个浅层子网络来识别图像的低分辨率表示,并且保持该原始网络识别高分辨率图像特征的能力;
然后,在多分辨率网络中添加全局注意力机制,用以减少信息损失和放大全局交互表示;
接着,对分出来的浅层子网络使用自蒸馏学习的方法,将网络中更深层的知识压缩到浅层子网络中,用以提升浅层网络的泛化能力;
最后,将低分辨率网络中的粗粒度特征重用并融合到高分辨率网络当中,用以提升模型提取图像表征的能力。
更进一步地,上述的基于多分辨率自蒸馏网络的小样本图像分类方法,由多分辨率模块,生成具有不同分辨率的新特征图作为输入;由全局注意力模块,放大跨维度接受区域,捕获全局维度的重要交互特征;自适应融合模块,将局部关系和全局关系自适应地融合在一起;由自蒸馏模块,促进连续层次之间的交互学习,使模型在全局特征中提取图像的通用特征,提高模型的泛化能力。
更进一步地,上述的小样本图像分类方法,多分辨率模块,学习不同分辨率图像的特征嵌入,空间低分辨率的特征映射送入浅层网络中避免卷积运算时所引起的高压缩代价,并将空间高分辨率的图像送入深层网络中获得图像的高级映射;浅层子网络使用其对应的基本特征图获取的图像低分辨率特征,并结合深层网络中第二层卷积模块的高分辨率特征进行分类任务;
全局注意力模块,设计全局注意力机制,放大跨维度接受区域,捕获全局维度的重要交互特征,采用CBAM中的顺序通道-空间注意机制,并重新设计子模块;给定输入特征图F1∈RC×H×W,中间状态F2和输出F3被定义为:
Figure BDA0003709983030000051
Figure BDA0003709983030000052
其中,Mc和Ms分别为通道注意图和空间注意图,
Figure BDA0003709983030000053
表示元素级乘法;
在通道注意子模块中,使用三维排列的方式来保留三维信息并利用一个两层的多层感知器放大跨维的通道-空间依赖关系;为关注空间信息,在空间注意子模块中使用两个卷积层进行空间信息融合;由于最大池化会减少信息,并产生负向贡献,删除池化以进一步保留特性映射;采用带有通道混洗的组卷积防止参数的增加;
在进行分组卷积时,采用通道间稀疏连接使每个卷积操作只作用于所需的特征图,做有利于减小模型的参数与计算量,避免内存频繁交互所耗费的大量时间;为保证组卷积之后不同组的特征图之间的信息交流,采用通道混洗的方法,对组卷积之后的特征图进行重新组合,通道混洗的具体方式如下:假定将输入层分为k组,总通道数为k×n,首先将维度拆分为(k,n)两个维度,然后将这两个维度转置变成(n,k),最后重新reshape成一个维度,实现均匀的通道混洗;对于来自前一层的特征图,利用通道混洗的方式将前一层特征图分为多个不同的子组,再将子组特征输入到下一层的组中;
自适应融合模块,通过Conv Block定义查询分布和支持类分布之间的联合非对称分布度量,同时考虑到不对称的局部关系和全局关系,分别使用KL散度测度计算全局级关系和I2C测度产生局部级关系,设计融合策略将局部关系和全局关系自适应地融合在一起;采用可学习的二维权值向量w=[w1,w2]来实现融合;由于KL散度表示不相似性而不是相似性,使用散度的负值来获得相似性,查询集Q和类S之间的最终融合相似度D定义如下:
D(Q,S)=-W1·DKL(Q||S)+W2·DI2C(Q,S) (3)
对于一个5-way 1-shot任务和一个特定的查询集Q,I2C分支或KL分支的输出是一个5维相似度向量;将这两个向量连接在一起,得到一个10维的向量;然后,应用一个核大小为1×1的一维卷积层,膨胀值为5;通过学习二维权值w得到一个加权的5维相似向量;在一维卷积层之前添加一个批处理归一化层,以平衡两个相似之处的规模;使用非参数最近邻分类器得到最终的分类结果;同时,交叉熵损失也被用来学习整个网络;
自蒸馏模块,在深度学习网络中,绝大多数预测任务都会使用softmax层来给大量标签分配概率分布;为了充分利用类别之间的相似性,利用参数T来改变概率分布,使其变得更加平缓,以便更好地蒸馏;
Figure BDA0003709983030000061
其中,对于每个输入类别x,模型产生对应logit向量z(x),通过提高参数T使softmax层的映射曲线平缓,概率映射集中,得到概率分布p;
由此可通过缩放教师网络的softmax输出PT(X)和学生网络的PS(X),对学生网络使用损失函数LKD进行训练,其中H为交叉熵损失,α为超参数,T为映射参数;
Figure BDA0003709983030000071
根据目标卷积神经网络的深度和原始结构,将其分出一个浅层神经网络;在训练期间,深层网络被视为教师网络,利用深层网络中提取到的注意力特征图,将编码丰富的图像信息在网络中执行分层注意蒸馏,使网络能从图像的多分辨率角度进行表征学习,将注意力机制融入到自蒸馏学习中,通过共享不同层次的注意力权重,将不同层次网络提取到的注意力特征图送入分类器中,分别得到高维与低维预测的概率分布,然后根据预测的概率分布将深层网络对浅层神经网络进行蒸馏。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
①本发明系统的多分辨率模块、全局注意力模块、自适应融合模块以及自蒸馏模块以端到端的方式从头开始进行联合训练,有效地解决小样本学习中输入样本的空间冗余问题;
②多分辨率自蒸馏网络解决小样本学习任务中图像空间冗余问题,在卷积神经网络中使用多分辨率学习的方法,以扩充图像的输入信息;将全局注意力机制融入自蒸馏方法中,利用顺序通道-空间注意机制模块来保留信息并放大全局跨维度的相互作用,不但能够加快图像处理的速度,还提高模型分类的正确性;
③用于小样本图像分类的多分辨率自蒸馏网络(MRSDN),从多分辨率的角度出发,利用浅层子网络处理图像的粗粒度特征;同时,使用高分辨率网络来学习更加精细的特征来进行图像分类;其中,使用全局注意力从空间和通道特性角度,并使用自适应融合策略将全局与局部关系融合,有针对性地提取图像之间的空间和通道信息,丰富了网络提取图像特征的能力,通过使用自蒸馏的方法实现模型内高效的知识迁移。
④MRSDN在Mini-ImageNet和Tiered-ImageNet两个通用数据集上实现了最先进的小样本图像分类性能;通过详细的消融研究,MRSDN也显示了融合网络和多任务训练设置的好处;可考虑构建多组不同分辨率表示的学生分支,用来提取图像的关键特征,并尝试改变网络中共享权重的模块数量,以此提升小样本图像分类的准确率。
本发明的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明具体实施方式了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1:本发明系统的功能模块图;
图2:本发明系统的架构流程图;
图3:多分辨率模块的原理示意图;
图4:全局注意力模块的原理示意图;
图5:通道与空间注意力的原理示意图;
图6:自适应融合模块的原理示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,方位术语和次序术语等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本发明提出多分辨率自蒸馏网络(Multi-Resolution Self-KnowledgeDistillation Network,MRSDN)来解决小样本学习任务中图像空间冗余问题,与现有的关注网络结构中的计算冗余的工作相比,本发明方法是在卷积神经网络中使用多分辨率学习的方法,以扩充图像的输入信息。为提升整体网络的性能,将全局注意力机制(GlobalAttention Mechanism,GAM)融入自蒸馏方法中,利用顺序通道-空间注意机制模块来保留信息并放大全局跨维度的相互作用,不但能够加快图像处理的速度,而且可以提高模型分类的正确性。具体来说,MRSDN是由不同输入分辨率的网络组成,其中低分辨率网络与高分辨率网络共享第二层卷积模块。低分辨率样本由浅层子网络进行分类,其特征图具有最低的空间分辨率;同时,利用高分辨率网络识别图像中包含的高频信息,来作为识别样本的补充,最终将高分辨率网络对低分辨率网络进行蒸馏,不断优化低分辨率网络,并将低分辨率网络中的粗粒度特征重用并融合到高分辨率网络当中,以提高模型提取图像表征的能力。将多分辨率自蒸馏网络在小样本学习领域中的多个基准测试集上进行了大量实验,实验结果优于已有算法,验证了有效性。
如图1所示,小样本图像分类系统,包含多分辨率模块1、全局注意力模块2、自适应融合模块3以及自蒸馏模块4;
多分辨率模块1,学习不同分辨率图像的特征嵌入,为输入图像生成深度局部描述符学习不同分辨率图像的特征嵌入,每个查询图像和每个支持类的分布都可在深度局部描述符的级别上表示;
全局注意力模块2,放大跨维度接受区域,捕获全局维度的重要交互特征;
自适应融合模块3,联合学习得到的权值向量将局部关系和全局关系自适应地融合在一起,采用非参数最近邻分类器作为动态分类器;
自蒸馏模块4,将深层网络分类器作为教师网络,对共享第二层卷积模块权重的浅层网络进行蒸馏。促进连续层次之间的交互学习,使模型在全局特征中提取图像的通用特征,提高模型的泛化能力。
由多分辨率模块1,生成具有不同分辨率的新特征图作为输入;由全局注意力模块2,放大跨维度接受区域,捕获全局维度的重要交互特征;自适应融合模块3,将局部关系和全局关系自适应地融合在一起;由自蒸馏模块4,促进连续层次之间的交互学习,使模型在全局特征中提取图像的通用特征,提高模型的泛化能力。
如图2所示,小样本图像分类方法,包括以下步骤:
首先,将原始网络分出一个浅层子网络来识别图像的低分辨率表示,并且保持该原始网络识别高分辨率图像特征的能力;
然后,在多分辨率网络中添加全局注意力机制,用以减少信息损失和放大全局交互表示;
接着,对分出来的浅层子网络使用自蒸馏学习的方法,将网络中更深层的知识压缩到浅层子网络中,用以提升浅层网络的泛化能力;
最后,将低分辨率网络中的粗粒度特征重用并融合到高分辨率网络当中,用以提升模型提取图像表征的能力。
如图3所示,多分辨率模块1,学习不同分辨率图像的特征嵌入,空间低分辨率的特征映射送入浅层网络中避免卷积运算时所引起的高压缩代价,并将空间高分辨率的图像送入深层网络中获得图像的高级映射;浅层子网络使用其对应的基本特征图获取的图像低分辨率特征,并结合深层网络中第二层卷积模块的高分辨率特征进行分类任务;多分辨率模块构建方法如下:采用多尺度的体系结构和密集连接的方法构建多分辨率网络,为生成具有高分辨率的新特征图作为输入,构建一个Regular-conv层,该层由一个bottleneck层和一个regular convolution层组成,每一层均包含一个批处理归一化层、一个ReLU层和一个卷积层;先利用Regular-conv层在卷积过程中对图像特征以双线性插值的方式进行上采样,然后将得到的特征图通过密集连接进行融合;再将Regular-conv层中的regularconvolution的stride设为2,构建一个stride-conv层,将其嵌入到带有下采样的融合块中,再将得到的不同分辨率样本数据输入到网络中,并且为输入图像生成深度局部描述符,使每个查询图像和每个支持类的分布均能在深度局部描述符的级别上表示。
多分辨率模块1,学习不同分辨率图像的特征嵌入,空间低分辨率的特征映射送入浅层网络中避免卷积运算时所引起的高压缩代价,并将空间高分辨率的图像送入深层网络中获得图像的高级映射;浅层子网络使用其对应的基本特征图获取的图像低分辨率特征,并结合深层网络中第二层卷积模块的高分辨率特征进行分类任务;
如图4所示,全局注意力模块2,采用CBAM中的顺序通道-空间注意机制,重新设计通道注意子模块与空间注意子模块;在通道注意子模块中采用三维排列的方式保留三维信息,利用一个两层的多层感知器放大跨维的通道-空间依赖关系;在空间注意子模块中采用两个卷积层进行空间信息融合;同时,删除池化以进一步保留特性映射,采用带有通道混洗的组卷积防止参数增加;
全局注意力模块2,设计全局注意力机制,放大跨维度接受区域,捕获全局维度的重要交互特征,采用CBAM中的顺序通道-空间注意机制,并重新设计子模块;给定输入特征图F1∈RC×H×W,中间状态F2和输出F3被定义为:
Figure BDA0003709983030000121
Figure BDA0003709983030000122
其中,Mc和Ms分别为通道注意图和空间注意图,
Figure BDA0003709983030000123
表示元素级乘法;
如图5所示,在通道注意子模块中采用三维排列的方式保留三维信息,利用一个两层的多层感知器放大跨维的通道-空间依赖关系;在空间注意子模块中采用两个卷积层进行空间信息融合;同时,删除池化以进一步保留特性映射,采用带有通道混洗的组卷积防止参数的增加。在进行分组卷积时,采用通道间稀疏连接使每个卷积操作只作用于所需的特征图,做有利于减小模型的参数与计算量,避免内存频繁交互所耗费的大量时间;为保证组卷积之后不同组的特征图之间的信息交流,采用通道混洗的方法,对组卷积之后的特征图进行重新组合,通道混洗的具体方式如下:假定将输入层分为k组,总通道数为k×n,首先将维度拆分为(k,n)两个维度,然后将这两个维度转置变成(n,k),最后重新reshape成一个维度,实现均匀的通道混洗;对于来自前一层的特征图,利用通道混洗的方式将前一层的特征图分为多个不同的子组,再将子组特征输入到下一层的组中;充分发挥组卷积的优点,保证接下来采用的组卷积其输入来自不同的组,因此信息可在不同组之间流转,丰富不同维度的信息交互;
如图6所示,自适应融合模块3的基于多分辨率自蒸馏网络通过Conv Block定义查询分布和支持类分布之间的联合非对称分布度量,同时考虑到不对称的局部关系和全局关系,分别采用KL散度测度计算全局级关系和I2C测度产生局部级关系,并设计融合策略将局部关系和全局关系自适应地融合在一起;采用可学习的二维权值向量实现融合,因KL散度表示不相似性而不是相似性,采用散度的负值来获得相似性。
自适应融合模块3,通过Conv Block定义查询分布和支持类分布之间的联合非对称分布度量,同时考虑到不对称的局部关系和全局关系,分别使用KL散度测度计算全局级关系和I2C测度产生局部级关系,设计融合策略将局部关系和全局关系自适应地融合在一起;采用可学习的二维权值向量w=[w1,w2]来实现融合;由于KL散度表示不相似性而不是相似性,使用散度的负值来获得相似性,查询集Q和类S之间的最终融合相似度D定义如下:
D(Q,S)=-W1·DKL(Q||S)+W2·DI2C(Q,S) (3)
对于一个5-way 1-shot任务和一个特定的查询集Q,I2C分支或KL分支的输出是一个5维相似度向量;将这两个向量连接在一起,得到一个10维的向量;然后,应用一个核大小为1×1的一维卷积层,膨胀值为5;通过学习二维权值w得到一个加权的5维相似向量;在一维卷积层之前添加一个批处理归一化层,以平衡两个相似之处的规模;使用非参数最近邻分类器得到最终的分类结果;同时,交叉熵损失也被用来学习整个网络;
自蒸馏模块4,深度学习网络中绝大多数预测任务使用softmax层给大量标签分配概率分布;根据目标卷积神经网络的原始结构,将原始网络分出一个浅层神经网络作为学生网络,在训练期间深层网络被视为教师网络,将注意力机制融入到自蒸馏学习中,构建一个从深层到浅层的反馈连接,通过共享不同层次的注意力权重,将不同层次网络提取到的注意力特征图送入分类器中,分别得到高维与低维预测的概率分布,然后根据预测的概率分布将深层网络对浅层神经网络进行蒸馏;
自蒸馏模块4,在深度学习网络中,绝大多数预测任务都会使用softmax层来给大量标签分配概率分布;为了充分利用类别之间的相似性,利用参数T来改变概率分布,使其变得更加平缓,以便更好地蒸馏;
Figure BDA0003709983030000141
其中,对于每个输入类别x,模型产生对应logit向量z(x),通过提高参数T使softmax层的映射曲线平缓,因而概率映射将变得集中,最终得到概率分布p;
由此可通过缩放教师网络的softmax输出PT(X)和学生网络的PS(X),对学生网络使用损失函数LKD进行训练,其中H为交叉熵损失,α为超参数,T为映射参数;
Figure BDA0003709983030000142
根据目标卷积神经网络的深度和原始结构,将其分出一个浅层神经网络;在训练期间,深层网络被视为教师网络,利用深层网络中提取到的注意力特征图,将编码丰富的图像信息在网络中执行分层注意蒸馏,使网络能从图像的多分辨率角度进行表征学习,将注意力机制融入到自蒸馏学习中,通过共享不同层次的注意力权重,将不同层次网络提取到的注意力特征图送入分类器中,分别得到高维与低维预测的概率分布,然后根据预测的概率分布将深层网络对浅层神经网络进行蒸馏。
多分辨率模块学习不同分辨率图像的特征嵌入,并为输入图像生成丰富的深度局部描述符;然后,每个查询图像和每个支持类的分布都可以在深度局部描述符的级别上表示;全局注意力模块放大显著的跨维度接受区域,捕获全局维度的重要交互特征;自适应融合模块联合学习得到的权值向量将局部关系和全局关系自适应地融合在一起,然后采用非参数最近邻分类器作为动态分类器;对于自蒸馏模块,将深层网络分类器作为教师网络,对共享第二层卷积模块权重的浅层网络进行蒸馏。四模块以端到端的方式从头开始进行联合训练,有效地解决小样本学习中输入样本的空间冗余问题。
综上所述,本发明基于多分辨率自蒸馏网络的小样本图像分类系统及其方法,用于小样本图像分类的多分辨率自蒸馏网络(MRSDN),从多分辨率的角度出发,利用浅层子网络处理图像的粗粒度特征;同时,使用高分辨率网络来学习更加精细的特征来进行图像分类;其中,使用全局注意力从空间和通道特性角度,并使用自适应融合策略将全局与局部关系融合,有针对性地提取图像之间的空间和通道信息,丰富了网络提取图像特征的能力,最终通过使用自蒸馏的方法实现模型内高效的知识迁移。MRSDN在Mini-ImageNet和Tiered-ImageNet两个通用数据集上实现了最先进的小样本图像分类性能。通过详细的消融研究,MRSDN也显示了融合网络和多任务训练设置的好处。可考虑构建多组不同分辨率表示的学生分支,用来提取图像的关键特征,并尝试改变网络中共享权重的模块数量,以此提升小样本图像分类的准确率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
上述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.小样本图像分类系统,其特征在于:包含多分辨率模块(1)、全局注意力模块(2)、自适应融合模块(3)以及自蒸馏模块(4);
多分辨率模块(1),学习不同分辨率图像的特征嵌入,为输入图像生成深度局部描述符学习不同分辨率图像的特征嵌入,每个查询图像和每个支持类的分布都可在深度局部描述符的级别上表示;
全局注意力模块(2),放大跨维度接受区域,捕获全局维度的重要交互特征;
自适应融合模块(3),联合学习得到的权值向量将局部关系和全局关系自适应地融合在一起,采用非参数最近邻分类器作为动态分类器;
自蒸馏模块(4),将深层网络分类器作为教师网络,对共享第二层卷积模块权重的浅层网络进行蒸馏。
2.根据权利要求1所述的小样本图像分类系统,其特征在于:多分辨率模块(1),采用多尺度的体系结构和密集连接的方法构建多分辨率网络,为生成具有高分辨率的新特征图作为输入,构建一个Regular-conv层,该层由一个bottleneck层和一个regular convolution层组成,每一层均包含一个批处理归一化层、一个ReLU层和一个卷积层;先利用Regular-conv层在卷积过程中对图像特征以双线性插值的方式进行上采样,然后将得到的特征图通过密集连接进行融合;再将Regular-conv层中的regular convolution的stride设为2,构建一个stride-conv层,将其嵌入到带有下采样的融合块中,再将得到的不同分辨率样本数据输入到网络中,并且为输入图像生成深度局部描述符,使每个查询图像和每个支持类的分布均能在深度局部描述符的级别上表示。
3.根据权利要求1所述的小样本图像分类系统,其特征在于:全局注意力模块(2),采用CBAM中的顺序通道-空间注意机制,重新设计通道注意子模块与空间注意子模块;在通道注意子模块中采用三维排列的方式保留三维信息,利用一个两层的多层感知器放大跨维的通道-空间依赖关系;在空间注意子模块中采用两个卷积层进行空间信息融合;同时,删除池化以进一步保留特性映射,采用带有通道混洗的组卷积防止参数增加。
4.根据权利要求1所述的小样本图像分类系统,其特征在于:自适应融合模块(3)的基于多分辨率自蒸馏网络通过Conv Block定义查询分布和支持类分布之间的联合非对称分布度量,同时考虑到不对称的局部关系和全局关系,分别采用KL散度测度计算全局级关系和I2C测度产生局部级关系,并设计融合策略将局部关系和全局关系自适应地融合在一起;采用可学习的二维权值向量实现融合,因KL散度表示不相似性而不是相似性,采用散度的负值来获得相似性。
5.根据权利要求1所述的小样本图像分类系统,其特征在于:自蒸馏模块(4),深度学习网络中绝大多数预测任务使用softmax层给大量标签分配概率分布;根据目标卷积神经网络的原始结构,将原始网络分出一个浅层神经网络作为学生网络,在训练期间深层网络被视为教师网络,将注意力机制融入到自蒸馏学习中,构建一个从深层到浅层的反馈连接,通过共享不同层次的注意力权重,将不同层次网络提取到的注意力特征图送入分类器中,分别得到高维与低维预测的概率分布,然后根据预测的概率分布将深层网络对浅层神经网络进行蒸馏。
6.权利要求1所述的系统实现小样本图像分类方法,其特征在于:包括以下步骤:
首先,将原始网络分出一个浅层子网络来识别图像的低分辨率表示,并且保持该原始网络识别高分辨率图像特征的能力;
然后,在多分辨率网络中添加全局注意力机制,用以减少信息损失和放大全局交互表示;
接着,对分出来的浅层子网络使用自蒸馏学习的方法,将网络中更深层的知识压缩到浅层子网络中,用以提升浅层网络的泛化能力;
最后,将低分辨率网络中的粗粒度特征重用并融合到高分辨率网络当中,用以提升模型提取图像表征的能力。
7.根据权利要求6所述的小样本图像分类方法,其特征在于:由多分辨率模块(1),生成具有不同分辨率的新特征图作为输入;由全局注意力模块(2),放大跨维度接受区域,捕获全局维度的重要交互特征;自适应融合模块(3),将局部关系和全局关系自适应地融合在一起;由自蒸馏模块(4),促进连续层次之间的交互学习,使模型在全局特征中提取图像的通用特征,提高模型的泛化能力。
8.根据权利要求6所述的小样本图像分类方法,其特征在于:多分辨率模块(1),学习不同分辨率图像的特征嵌入,空间低分辨率的特征映射送入浅层网络中避免卷积运算时所引起的高压缩代价,并将空间高分辨率的图像送入深层网络中获得图像的高级映射;浅层子网络使用其对应的基本特征图获取的图像低分辨率特征,并结合深层网络中第二层卷积模块的高分辨率特征进行分类任务;
全局注意力模块(2),设计全局注意力机制,放大跨维度接受区域,捕获全局维度的重要交互特征,采用CBAM中的顺序通道-空间注意机制,并重新设计子模块;给定输入特征图F1∈RC×H×W,中间状态F2和输出F3被定义为:
Figure FDA0003709983020000031
Figure FDA0003709983020000032
其中,Mc和Ms分别为通道注意图和空间注意图,
Figure FDA0003709983020000033
表示元素级乘法;
在通道注意子模块中,使用三维排列的方式来保留三维信息并利用一个两层的多层感知器放大跨维的通道-空间依赖关系;为关注空间信息,在空间注意子模块中使用两个卷积层进行空间信息融合;由于最大池化会减少信息,并产生负向贡献,删除池化以进一步保留特性映射;采用带有通道混洗的组卷积防止参数的增加;
在进行分组卷积时,采用通道间稀疏连接使每个卷积操作只作用于所需的特征图,做有利于减小模型的参数与计算量,避免内存频繁交互所耗费的大量时间;为保证组卷积之后不同组的特征图之间的信息交流,采用通道混洗的方法,对组卷积之后的特征图进行重新组合,通道混洗的具体方式如下:假定将输入层分为k组,总通道数为k×n,首先将维度拆分为(k,n)两个维度,然后将这两个维度转置变成(n,k),最后重新reshape成一个维度,实现均匀的通道混洗;对于来自前一层的特征图,利用通道混洗的方式将前一层特征图分为多个不同的子组,再将子组特征输入到下一层的组中;
自适应融合模块(3),通过Conv Block定义查询分布和支持类分布之间的联合非对称分布度量,同时考虑到不对称的局部关系和全局关系,分别使用KL散度测度计算全局级关系和I2C测度产生局部级关系,设计融合策略将局部关系和全局关系自适应地融合在一起;采用可学习的二维权值向量w=[w1,w2]来实现融合;由于KL散度表示不相似性而不是相似性,使用散度的负值来获得相似性,查询集Q和类S之间的最终融合相似度D定义如下:
D(Q,S)=-W1·DKL(Q||S)+W2·DI2C(Q,S) (3)
对于一个5-way 1-shot任务和一个特定的查询集Q,I2C分支或KL分支的输出是一个5维相似度向量;将这两个向量连接在一起,得到一个10维的向量;然后,应用一个核大小为1×1的一维卷积层,膨胀值为5;通过学习二维权值w得到一个加权的5维相似向量;在一维卷积层之前添加一个批处理归一化层,以平衡两个相似之处的规模;使用非参数最近邻分类器得到最终的分类结果;同时,交叉熵损失也被用来学习整个网络;
自蒸馏模块(4),在深度学习网络中,绝大多数预测任务都会使用softmax层来给大量标签分配概率分布;为了充分利用类别之间的相似性,利用参数T来改变概率分布,使其变得更加平缓,以便更好地蒸馏;
Figure FDA0003709983020000051
其中,对于每个输入类别x,模型产生对应logit向量z(x),通过提高参数T使softmax层的映射曲线平缓,概率映射集中,得到概率分布p;
由此可通过缩放教师网络的softmax输出PT(X)和学生网络的PS(X),对学生网络使用损失函数LKD进行训练,其中H为交叉熵损失,α为超参数,T为映射参数;
Figure FDA0003709983020000052
根据目标卷积神经网络的深度和原始结构,将其分出一个浅层神经网络;在训练期间,深层网络被视为教师网络,利用深层网络中提取到的注意力特征图,将编码丰富的图像信息在网络中执行分层注意蒸馏,使网络能从图像的多分辨率角度进行表征学习,将注意力机制融入到自蒸馏学习中,通过共享不同层次的注意力权重,将不同层次网络提取到的注意力特征图送入分类器中,分别得到高维与低维预测的概率分布,然后根据预测的概率分布将深层网络对浅层神经网络进行蒸馏。
CN202210719747.7A 2022-06-23 2022-06-23 小样本图像分类系统及其方法 Pending CN115100470A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210719747.7A CN115100470A (zh) 2022-06-23 2022-06-23 小样本图像分类系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210719747.7A CN115100470A (zh) 2022-06-23 2022-06-23 小样本图像分类系统及其方法

Publications (1)

Publication Number Publication Date
CN115100470A true CN115100470A (zh) 2022-09-23

Family

ID=83292236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210719747.7A Pending CN115100470A (zh) 2022-06-23 2022-06-23 小样本图像分类系统及其方法

Country Status (1)

Country Link
CN (1) CN115100470A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359304A (zh) * 2022-10-17 2022-11-18 山东建筑大学 一种面向单幅图像特征分组的因果不变性学习方法及系统
CN115457042A (zh) * 2022-11-14 2022-12-09 四川路桥华东建设有限责任公司 一种基于蒸馏学习的螺纹套丝表面缺陷检测的方法及系统
CN116402671A (zh) * 2023-06-08 2023-07-07 北京万象创造科技有限公司 用于自动打码系统的样品打码图像处理方法
CN116416456A (zh) * 2023-01-13 2023-07-11 北京数美时代科技有限公司 基于自蒸馏的图像分类方法、系统、存储介质和电子设备
CN117173025A (zh) * 2023-11-01 2023-12-05 华侨大学 基于跨层混合注意力Transformer的单帧图像超分辨率方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359304A (zh) * 2022-10-17 2022-11-18 山东建筑大学 一种面向单幅图像特征分组的因果不变性学习方法及系统
CN115457042A (zh) * 2022-11-14 2022-12-09 四川路桥华东建设有限责任公司 一种基于蒸馏学习的螺纹套丝表面缺陷检测的方法及系统
CN116416456A (zh) * 2023-01-13 2023-07-11 北京数美时代科技有限公司 基于自蒸馏的图像分类方法、系统、存储介质和电子设备
CN116416456B (zh) * 2023-01-13 2023-10-24 北京数美时代科技有限公司 基于自蒸馏的图像分类方法、系统、存储介质和电子设备
CN116402671A (zh) * 2023-06-08 2023-07-07 北京万象创造科技有限公司 用于自动打码系统的样品打码图像处理方法
CN116402671B (zh) * 2023-06-08 2023-08-15 北京万象创造科技有限公司 用于自动打码系统的样品打码图像处理方法
CN117173025A (zh) * 2023-11-01 2023-12-05 华侨大学 基于跨层混合注意力Transformer的单帧图像超分辨率方法及系统
CN117173025B (zh) * 2023-11-01 2024-03-01 华侨大学 基于跨层混合注意力Transformer的单帧图像超分辨率方法及系统

Similar Documents

Publication Publication Date Title
Gao et al. A mutually supervised graph attention network for few-shot segmentation: The perspective of fully utilizing limited samples
CN115100470A (zh) 小样本图像分类系统及其方法
Zhang et al. A spatial attentive and temporal dilated (SATD) GCN for skeleton‐based action recognition
Li et al. Deep attention-based classification network for robust depth prediction
Min et al. Learning to compose hypercolumns for visual correspondence
Hussain et al. A deep neural network and classical features based scheme for objects recognition: an application for machine inspection
CN110580482B (zh) 图像分类模型训练、图像分类、个性化推荐方法及装置
Lin et al. Mask cross-modal hashing networks
Kim et al. SAFFNet: Self-attention-based feature fusion network for remote sensing few-shot scene classification
Hu et al. Learning hybrid convolutional features for edge detection
Zhang et al. A lightweight transformer network for hyperspectral image classification
Hashemi Hosseinabad et al. Multiple answers to a question: a new approach for visual question answering
Ribeiro et al. Learning with capsules: A survey
Alhichri et al. Tile‐Based Semisupervised Classification of Large‐Scale VHR Remote Sensing Images
Yuan et al. Scale attentive network for scene recognition
Jin et al. Research on image sentiment analysis technology based on sparse representation
Khan et al. Building discriminative features of scene recognition using multi-stages of inception-ResNet-v2
Cong et al. Gradient-semantic compensation for incremental semantic segmentation
Islam et al. Sensor-based transportation mode recognition using variational autoencoder
Guo et al. CRABR-Net: A contextual relational attention-based recognition network for remote sensing scene objective
Datta A review on convolutional neural networks
Sun et al. MPI: Multi‐receptive and parallel integration for salient object detection
Duan et al. Anonymity can help minority: A novel synthetic data over-sampling strategy on multi-label graphs
Zhong et al. Handwritten character recognition based on 13-point feature of skeleton and self-organizing competition network
CN116863260A (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination