CN117372782A - 一种基于频域分析的小样本图像分类方法 - Google Patents
一种基于频域分析的小样本图像分类方法 Download PDFInfo
- Publication number
- CN117372782A CN117372782A CN202311553329.6A CN202311553329A CN117372782A CN 117372782 A CN117372782 A CN 117372782A CN 202311553329 A CN202311553329 A CN 202311553329A CN 117372782 A CN117372782 A CN 117372782A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- classification
- channel
- network
- prototype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 21
- 230000004927 fusion Effects 0.000 claims description 19
- 230000008447 perception Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000008569 process Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于频域分析的小样本图像分类方法,包括S1、构建基类数据集和新类数据集;S2、在基类数据集上提取若干个N‑way‑K‑shot元任务,将每个元任务分为有标签支持集和有标签问询集,将有标签支持集和有标签问询集作为网络输入,输出为交叉熵分类损失,并反向传播损失调整网络参数;S3、在新类数据集上提取若干个N‑way‑K‑shot元任务,将每个元任务分为有标签支持集和无标签问询集,将无标签问询集作为网络输入,输出网络对无标签问询集的分类结果。本发明可以同时在训练和测试阶段采用空间域数据处理和频域数据处理。既保留了图像的空间位置信息,又保留了图像的分辨率信息。
Description
技术领域
本发明涉及图像分类方法技术领域,尤其涉及一种基于频域分析的小样本图像分类方法。
背景技术
深度学习的成功离不开庞大的数据支持,但在实际场景中因诸多因素的限制,往往难以获取足够大规模的高质量标注样本。许多领域不具有获得大规模数据集的条件,也有一些领域涉及到隐私、道德等问题难以获得高质量数据。此外,对大规模数据进行人工标注,人工成本巨大也会成为深度学习图像分类方法的困难之一。与需要大数据和算力资源支撑的深度学习模型不同的是,人类在面对新任务时可通过少量数据样本进行快速学习。为了使深度学习模型也能具备类似人类的能力,小样本学习成为一个重要且被广泛研究的问题。小样本学习通过在一个较大数据集上学习大量基类后,仅需少量样本就能快速学习新类,使模型适应于未知任务。小样本学习通常会面临严重的过拟合问题,提出一个能够从少量样本中提取丰富信息且具有泛化能力的模型仍是小样本图像分类研究领域的一大热点。
近年来,针对小样本图像分类领域的研究大致分为三类:分别是基于度量的方法、基于数据增强的方法、基于元学习的方法。尽管它们的方法各不相同,但是它们都是在空间域上对图像进行特征提取。以往方法认为大多数卷积神经网络只接受低分辨率的RGB图像,而大部分数据集(如ImageNet)的图像分辨率通常远大于卷积神经网络模型(如ResNet)的输入,在空间域上图像的缩放带来了信息损失,而从频域上进行特征提取通过灵活地控制输入图片大小,解决了这个问题。频域网络的好处不止于此,它从另一个角度审视图片,并且可以通过与空间域网络结合,更加有效互补地提取特征。最近,也有很多工作将注意力机制用于增强骨干网络的特征提取能力。注意力机制能使网络更加关注重要信息而减少与目标任务无关的信息的影响。以SENet为代表的通道注意力学习不同通道的重要性权重,通常为了节省开销,通道注意力方法的核心步骤是将每个通道通过全局平均池化压缩为一个标量进行计算,但是以均值代表一个通道过于简单,难以捕捉输入的复杂性。一些方法如CANet通过在通道注意力中嵌入位置信息来同时捕获空间上的长程依赖。但是其在通道方向上的压缩仍采用一维平均池化,没有解决信息丢失问题。因此,如何提供一种基于频域分析的小样本图像分类方法是本领域技术人员亟需解决的问题。
发明内容
本发明的一个目的在于提出一种基于频域分析的小样本图像分类方法,本发明可以同时在训练和测试阶段采用空间域数据处理和频域数据处理。既保留了图像的空间位置信息,又保留了图像的分辨率信息。
根据本发明实施例的一种基于频域分析的小样本图像分类方法,包括如下方法步骤:
S1、构建基类数据集和新类数据集;
S2、在基类数据集上提取若干个N-way-K-shot元任务,将每个元任务分为有标签支持集和有标签问询集,将有标签支持集和有标签问询集作为网络输入,输出为交叉熵分类损失,并反向传播损失调整网络参数;
S3、在新类数据集上提取若干个N-way-K-shot元任务,将每个元任务分为有标签支持集和无标签问询集,将无标签问询集作为网络输入,输出网络对无标签问询集的分类结果。
可选的,所述基类数据集提取的若干个N-way-K-shot元任务用于网络训练,所述新类数据集提取的若干个N-way-K-shot元任务用于网络测试。
可选的,所述S2和S3包括空域和频域两个分支,所述S2和S3包括数据处理、特征提取和原型分类三个阶段。
可选的,所述N-way-K-shot元任务包括:
给定一个有标签数据集:
D=(xi,yi);
其中,xi是样本的特征向量,yi是样本的类别标签;
数据集类别的集合C分为基类数据集Cb和新类数据集Cn:
Cb∪Cn=C。
可选的,一个所述N-way-K-shot元任务由两个部分组成:
一个含有标签样本的支持集:
另一个含无标记样本的问询集:
其中,N表示S和Q中的类别数,K表示S中每个类别的样本数,M表示Q中每个类别的样本数。
可选的,所述数据处理包括空间域数据处理和频域数据处理;
所述空间域数据处理包括对图像进行随机裁剪、抖动和翻转;
所述频域数据处理包括将图像通过离散余弦变换转换为频域表示:
随机裁剪、抖动和翻转;
将图像变换到YCbCr颜色空间;
将每个通道按块划分为f×f的大小,进行离散余弦变换得到变换后的图像特征图,并将相同频率下的离散余弦变换系数组合成一个通道,其中f是离散余弦变换滤波器的大小;
选择影响大的低频通道作为后续特征提取器的输入,按采样比例选取来自Y的低频通道和来自Cr和Cb的低频通道,得出选择的频率通道数Cfre;
对属于Cr和Cb的频率通道上采样到和Y的频率通道相同的大小,并将选择的各个通道特征图拼接起来,最终经过频域预处理后的输入大小:
其中Simg表示图像边长。
可选的,所述特征提取包括:
将支持集图像和问询集图像一同输入数据处理器,数据处理器分为空域和频域,分别用于将图像转换为空域形式x1和频域形式x2;
将空域形式x1和频域形式x2分别输入到空域提取网络和频域提取网络中,得到空域特征图F1和频域特征图F2;
将空域特征图F1和频域特征图F2进行加权融合得到融合特征F:
F=αF1+(1-α)F2;
其中,F表示融合特征图,F1表示空域特征图,F2表示频域特征图,α表示自适应加权系数;
将融合特征图F输入到原型分类器中进行分类;
根据分类结果计算交叉熵分类损失或直接输出分类结果。
可选的,所述空域特征提取器以ResNet为骨干网络并加入频域通道空间注意力,所述频域特征提取器以对输入层稍作修改的ResNet为骨干网络。
可选的,所述频域通道空间注意力为一种坐标注意力,所述坐标注意力为一种嵌入位置信息的通道注意力,所述坐标注意力包括:
给定输入X,分别沿高度和宽度方向进行离散余弦变换池化,产生高度感知特征图和宽度感知特征图;
将高度感知特征图和宽度感知特征图拼接起来送入卷积和激活层;
沿着空间维度将拼接后的特征图再拆分成两个张量,分别通过一个卷积层和激活层,得到输出gh和gw,坐标注意力的输出;
其中,x表示输入,y表示输出,c,w,h分别表示通道,宽度,高度,i,j分别表示w和h方向的坐标;
将频域通道空间注意力层插入到ResNet的残差模块中。
可选的,所述原型分类加入问询集信息在原型网络的基础上计算改进原型,使用改进原型对问询集样本做分类:
由支持集S融合特征的均值计算初始原型P;
用初始原型去计算问询集Q中每个样本的分类概率,每个样本x∈Q成为k类的概率根据其特征f(x)与原型P的相似度估计:
其中,d()表示两个向量的余弦相似度,τ表示一个可学习参数;
k类的概率作为样本权重,加权平均所有样本的融合特征,重新估计每个类的中心作为改进原型P’;
使用改进原型P’进行原型分类,在训练阶段采用交叉熵损失作为损失函数,输出交叉熵损失,在测试阶段直接输出分类结果。
本发明的有益效果是:
(1)本发明不同于先前的方法局限于在空间上对图像进行预处理,可以同时在训练和测试阶段采用空间域数据处理和频域数据处理。既保留了图像的空间位置信息,又保留了图像的分辨率信息。
(2)本发明模型使用两个特征提取器分别提取空域和频域特征,将提取的特征融合送入原型分类器用于分类任务。进一步提出一种应用于空域提取网络的频域通道空间注意力,用于增强空域骨干网络的特征提取能力。将通道注意力分解为两个空间方向的一维特征编码过程,并使用离散余弦变换代替平均池化做通道压缩,以最大程度的保留通道信息和位置信息。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于频域分析的小样本图像分类方法的的流程示意图;
图2为本发明提出的一种基于频域分析的小样本图像分类方法中频域数据处理的流程示意图;
图3为本发明提出的一种基于频域分析的小样本图像分类方法中频域通道空间注意力位置和细节示意图;
图4为本发明提出的一种基于频域分析的小样本图像分类方法中离散余弦变换池化示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参考图1,一种基于频域分析的小样本图像分类方法,包括如下方法步骤:
S1、构建基类数据集和新类数据集;
S2、在基类数据集上提取若干个N-way-K-shot元任务,将每个元任务分为有标签支持集和有标签问询集,将有标签支持集和有标签问询集作为网络输入,输出为交叉熵分类损失,并反向传播损失调整网络参数;
S3、在新类数据集上提取若干个N-way-K-shot元任务,将每个元任务分为有标签支持集和无标签问询集,将无标签问询集作为网络输入,输出网络对无标签问询集的分类结果。
本实施方式中,基类数据集提取的若干个N-way-K-shot元任务用于网络训练,新类数据集提取的若干个N-way-K-shot元任务用于网络测试。
本实施方式中,S2和S3包括空域和频域两个分支,S2和S3包括数据处理、特征提取和原型分类三个阶段。
本实施方式中,N-way-K-shot元任务包括:
给定一个有标签数据集:
D=(xi,yi);
其中,xi是样本的特征向量,yi是样本的类别标签;
数据集类别的集合C分为基类数据集Cb和新类数据集Cn:
Cb∪Cn=C。
本实施方式中,一个N-way-K-shot元任务由两个部分组成:
一个含有标签样本的支持集:
另一个含无标记样本的问询集:
其中,N表示S和Q中的类别数,K表示S中每个类别的样本数,M表示Q中每个类别的样本数,称这样的一个元任务为N-way-K-shot问题。
实施例1:
构建基类数据集和新类数据集,二者无交集,并从基类数据集中构建1200个epoch,每个epoch包含100个小样本元任务(5-way1-shot或是5-way 5-shot),用作训练集;从新类数据集中随机抽取600个元任务(5-way1-shot或是5-way5-shot)用于测试。
将基类集中的每个元任务分为支持集和问询集,这些图片一同作为网络输入,输出为交叉熵损失,并反向传播损失调整网络参数。
将新类数据集中元任务用于网络测试,将每个元任务分为有标签支持集和无标签问询集输入网络,输出网络对问询集的分类结果。
本实施方式中,数据处理包括空间域数据处理和频域数据处理;
空间域数据处理包括对图像进行随机裁剪、抖动和翻转;
频域数据处理包括将图像通过离散余弦变换转换为频域表示:
随机裁剪、抖动和翻转;
将图像变换到YCbCr颜色空间,这个过程采用常见的采样格式4:2:0;
将每个通道按块划分为f×f的大小,进行离散余弦变换得到变换后的图像特征图,并将相同频率下的离散余弦变换系数组合成一个通道,其中f是离散余弦变换滤波器的大小;
选择影响较大的低频通道作为后续特征提取器的输入。这里按采样比例选取来自Y的4×4个低频通道和来自Cr和Cb的各2×2个低频通道,即Cfre=24,Cfre为选择的频率通道;
对属于Cr和Cb的频率通道上采样到和Y的频率通道相同的大小,并将选择的各个通道特征图拼接起来,最终经过频域预处理后的输入大小:
其中Simg表示图像边长,如224,可以通过调整DCT滤波器大小来控制输入图像大小,比如使用f为8的滤波器就可以处理大小为448×448的输入图像。相比空域图像处理,可以处理更大的图像。
本实施方式中,在特征提取阶段,将经过预处理后的空间域表征和频域表征分别送入空域特征提取器和频域特征提取器中,将两个特征提取器提取到的特征图进行自适应加权融合,特征提取包括:
将支持集图像和问询集图像一同输入数据处理器,数据处理器分为空域和频域,分别用于将图像转换为空域形式x1和频域形式x2;
将空域形式x1和频域形式x2分别输入到空域提取网络和频域提取网络中,得到空域特征图F1和频域特征图F2;
将空域特征图F1和频域特征图F2进行加权融合得到融合特征F:
F=αF1+(1-α)F2;
其中,F表示融合特征图,F1表示空域特征图,F2表示频域特征图,α表示自适应加权系数,初始设置为0.5;
将融合特征图F输入到原型分类器中进行分类;
根据分类结果计算交叉熵分类损失或直接输出分类结果。
本实施方式中,空域特征提取器以ResNet为骨干网络并加入频域通道空间注意力,频域特征提取器以对输入层稍作修改的ResNet为骨干网络。
频域特征提取器为修改输入层后的ResNet,由于频域输入和空域输入的图像大小不同,在高度和宽度维度上较小,但在通道维度上较大,因此跳过ResNet的输入层,即一个步长为2的卷积层与一个最大值池化层,然后调整下一层的输入通道大小为频域输入通道数。
参考图3,本实施方式中,频域通道空间注意力为一种坐标注意力,坐标注意力为一种嵌入位置信息的通道注意力,坐标注意力包括:
给定输入X,分别沿高度和宽度方向进行离散余弦变换池化,产生高度感知特征图和宽度感知特征图;
将高度感知特征图和宽度感知特征图拼接起来送入1×1卷积和激活层;
沿着空间维度将拼接后的特征图再拆分成两个张量,分别通过一个1×1卷积层和激活层,得到输出gh和gw,坐标注意力的输出;
其中,x表示输入,y表示输出,c,w,h分别表示通道,宽度,高度,i,j分别表示w和h方向的坐标,图3中,r为用于控制块大小的缩减比率的系数,设置为r=16;
将频域通道空间注意力层插入到ResNet的残差模块中。
参考图4,其中,离散余弦变换池化是将平均池化操作看作一个压缩问题。平均池化操作是一维离散余弦变换的一个特例,它的结果等于离散余弦变换只取最低频元素的结果。
因此本发明提出频域通道空间注意力使用离散余弦变换代替平均池化操作对通道进行压缩,以获得更多频率信息,减少信息的丢失,只选取有限的频率成分用于坐标注意力。离散余弦变换池化选取低频分量去计算结果,选取频道数为最低频的前n个频道,如n=4。离散余弦变换池化过程如图4所示将特征沿通道维度分为n份,分别与计算出的n个频率的离散余弦变换系数逐元素相乘,计算的结果再进行拼接得到池化后特征。
本实施方式中,原型分类加入问询集信息在原型网络的基础上计算改进原型,使用改进原型对问询集样本做分类:
由支持集S融合特征的均值计算初始原型P;
用初始原型去计算问询集Q中每个样本的分类概率,每个样本x∈Q成为k类的概率根据其特征f(x)与原型P的相似度估计:
其中,d()表示两个向量的余弦相似度,τ表示一个可学习参数,其初始值设置为10;
k类的概率作为样本权重,加权平均所有样本的融合特征,重新估计每个类的中心作为改进原型P’;
使用改进原型P’进行原型分类,在训练阶段采用交叉熵损失作为损失函数,输出交叉熵损失,在测试阶段直接输出分类结果。
实施例1:
参考下表1,为了评估我们提出的方法在小样本场景下图像分类问题中的表现,本发明报告了本发明提出的方法与当前最先进的方法的性能对比。我们在miniImagenet和CUB-200-2011两个数据集上,对测试集中随机抽取的600个任务进行小样本分类,并以95%置信区间的平均准确率作为评价指标。每个5-way1-shot/5-way 5-shot任务中,每类随机采样15个问询样本进行评估。对于miniImagenet,我们的方法在5-way 1-shot和5-way 5-shot上的最佳准确率分别提高了3.1%和2.4%。对于CUB,两种任务的准确率分别提高了10.5%和4.7%。我们的方法在miniImagenet上的两种任务分别优于我们的基线ProtoNet19.3%和9.3%,在CUB上分别优于10.5%和6.4%。结果表明,我们的方法更加有效。此外,我们的方法在1-shot任务上的表现提升明显高于在5-shot任务上,因为1-shot任务中特征提取不准确的问题比5-shot任务更加明显。
表1本发明方法与先进方法对比性能结果
由上述表1的数据的实施例1可以看出,本发明通过同时提取并融合空域特征和频域特征,充分利用空间信息和频率信息,二者互补地提升了模型的分类精度;并通过对空域分支加入频域通道空间注意力,在注意力中引入离散余弦变换,减少了通道上的信息丢失。本发明在miniImagenet、CUB等两个真实数据集上进行了全面的实验,提高了小样本场景下图像的分类精度。
由上述实施方式可知,本发明首先提出一种空域频域结合的双域元学习网络,分为空域和频域两条支线,不同于先前的方法局限于在空间上对图像进行预处理,该方法同时在训练和测试阶段采用空间域数据处理和频域数据处理,通过空域和频域互补地提取特征来保留图像中尽可能多的重要信息,获得更加准确的类别中心。
其次,本发明提出一种频域通道空间注意力模块,将该模块应用于空域特征提取骨干网络,通过减少平均池化过程的信息丢失来提升网络对重要特征的提取能力。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于频域分析的小样本图像分类方法,其特征在于,包括如下方法步骤:
S1、构建基类数据集和新类数据集;
S2、在基类数据集上提取若干个N-way-K-shot元任务,将每个元任务分为有标签支持集和有标签问询集,将有标签支持集和有标签问询集作为网络输入,输出为交叉熵分类损失,并反向传播损失调整网络参数;
S3、在新类数据集上提取若干个N-way-K-shot元任务,将每个元任务分为有标签支持集和无标签问询集,将无标签问询集作为网络输入,输出网络对无标签问询集的分类结果。
2.根据权利要求1所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述基类数据集提取的若干个N-way-K-shot元任务用于网络训练,所述新类数据集提取的若干个N-way-K-shot元任务用于网络测试。
3.根据权利要求1所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述S2和S3包括空域和频域两个分支,所述S2和S3包括数据处理、特征提取和原型分类三个阶段。
4.根据权利要求1所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述N-way-K-shot元任务包括:
给定一个有标签数据集:
D=(xi,yi);
其中,xi是样本的特征向量,yi是样本的类别标签;
数据集类别的集合C分为基类数据集Cb和新类数据集Cn:
Cb∪Cn=C。
5.根据权利要求4所述的一种基于频域分析的小样本图像分类方法,其特征在于,一个所述N-way-K-shot元任务由两个部分组成:
一个含有标签样本的支持集:
另一个含无标记样本的问询集:
其中,N表示S和Q中的类别数,K表示S中每个类别的样本数,M表示Q中每个类别的样本数。
6.根据权利要求3所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述数据处理包括空间域数据处理和频域数据处理;
所述空间域数据处理包括对图像进行随机裁剪、抖动和翻转;
所述频域数据处理包括将图像通过离散余弦变换转换为频域表示:
随机裁剪、抖动和翻转;
将图像变换到YCbCr颜色空间;
将每个通道按块划分为f×f的大小,进行离散余弦变换得到变换后的图像特征图,并将相同频率下的离散余弦变换系数组合成一个通道,其中f是离散余弦变换滤波器的大小;
选择影响大的低频通道作为后续特征提取器的输入,按采样比例选取来自Y的低频通道和来自Cr和Cb的低频通道,得出选择的频率通道数Cfre;
对属于Cr和Cb的频率通道上采样到和Y的频率通道相同的大小,并将选择的各个通道特征图拼接起来,最终经过频域预处理后的输入大小:
其中Simg表示图像边长。
7.根据权利要求6所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述特征提取包括:
将支持集图像和问询集图像一同输入数据处理器,数据处理器分为空域和频域,分别用于将图像转换为空域形式x1和频域形式x2;
将空域形式x1和频域形式x2分别输入到空域提取网络和频域提取网络中,得到空域特征图F1和频域特征图F2;
将空域特征图F1和频域特征图F2进行加权融合得到融合特征F:
F=αF1+(1-α)F2;
其中,F表示融合特征图,F1表示空域特征图,F2表示频域特征图,α表示自适应加权系数;
将融合特征图F输入到原型分类器中进行分类;
根据分类结果计算交叉熵分类损失或直接输出分类结果。
8.根据权利要求7所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述空域特征提取器以ResNet为骨干网络并加入频域通道空间注意力,所述频域特征提取器以对输入层稍作修改的ResNet为骨干网络。
9.根据权利要求8所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述频域通道空间注意力为一种坐标注意力,所述坐标注意力为一种嵌入位置信息的通道注意力,所述坐标注意力包括:
给定输入X,分别沿高度和宽度方向进行离散余弦变换池化,产生高度感知特征图和宽度感知特征图;
将高度感知特征图和宽度感知特征图拼接起来送入卷积和激活层;
沿着空间维度将拼接后的特征图再拆分成两个张量,分别通过一个卷积层和激活层,得到输出gh和gw,坐标注意力的输出;
其中,x表示输入,y表示输出,c,w,h分别表示通道,宽度,高度,i,j分别表示w和h方向的坐标;
将频域通道空间注意力层插入到ResNet的残差模块中。
10.根据权利要求7所述的一种基于频域分析的小样本图像分类方法,其特征在于,所述原型分类加入问询集信息在原型网络的基础上计算改进原型,使用改进原型对问询集样本做分类:
由支持集S融合特征的均值计算初始原型P;
用初始原型去计算问询集Q中每个样本的分类概率,每个样本x∈Q成为k类的概率根据其特征f(x)与原型P的相似度估计:
其中,d()表示两个向量的余弦相似度,τ表示一个可学习参数;
k类的概率作为样本权重,加权平均所有样本的融合特征,重新估计每个类的中心作为改进原型P’;
使用改进原型P’进行原型分类,在训练阶段采用交叉熵损失作为损失函数,输出交叉熵损失,在测试阶段直接输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553329.6A CN117372782A (zh) | 2023-11-21 | 2023-11-21 | 一种基于频域分析的小样本图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311553329.6A CN117372782A (zh) | 2023-11-21 | 2023-11-21 | 一种基于频域分析的小样本图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117372782A true CN117372782A (zh) | 2024-01-09 |
Family
ID=89391093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311553329.6A Pending CN117372782A (zh) | 2023-11-21 | 2023-11-21 | 一种基于频域分析的小样本图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117372782A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635962A (zh) * | 2024-01-25 | 2024-03-01 | 云南大学 | 基于多频率融合的通道注意力图像处理方法 |
-
2023
- 2023-11-21 CN CN202311553329.6A patent/CN117372782A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117635962A (zh) * | 2024-01-25 | 2024-03-01 | 云南大学 | 基于多频率融合的通道注意力图像处理方法 |
CN117635962B (zh) * | 2024-01-25 | 2024-04-12 | 云南大学 | 基于多频率融合的通道注意力图像处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113674140B (zh) | 一种物理对抗样本生成方法及系统 | |
CN113191953B (zh) | 一种基于Transformer的人脸图像超分辨的方法 | |
CN112836646B (zh) | 一种基于通道注意力机制的视频行人重识别方法及应用 | |
CN113269787A (zh) | 一种基于门控融合的遥感图像语义分割方法 | |
CN117372782A (zh) | 一种基于频域分析的小样本图像分类方法 | |
CN111951164A (zh) | 一种图像超分辨率重建网络结构及图像重建效果分析方法 | |
CN114648535A (zh) | 一种基于动态transformer的食品图像分割方法及系统 | |
CN111046757A (zh) | 人脸画像生成模型的训练方法、装置及相关设备 | |
CN113066089A (zh) | 一种基于注意力引导机制的实时图像语义分割网络 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN110222568B (zh) | 一种基于时空图的跨视角步态识别方法 | |
CN109615576B (zh) | 基于级联回归基学习的单帧图像超分辨重建方法 | |
JP5892592B2 (ja) | 超解像画像処理装置及び超解像画像処理用コードブック作成装置 | |
CN115546236B (zh) | 基于小波变换的图像分割方法及装置 | |
CN111881794B (zh) | 一种视频行为识别方法及系统 | |
CN115171052A (zh) | 基于高分辨率上下文网络的拥挤人群姿态估计方法 | |
CN109215057B (zh) | 一种高性能视觉跟踪方法及装置 | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN115995079A (zh) | 图像语义相似度分析方法和同语义图像检索方法 | |
Ramesh Babu et al. | A Novel Framework design for Semantic based Image retrieval as a Cyber Forensic Tool | |
CN115861605A (zh) | 一种图像数据处理方法、计算机设备以及可读存储介质 | |
CN113177546A (zh) | 一种基于稀疏注意力模块的目标检测方法 | |
CN116758390B (zh) | 一种图像数据处理方法、装置、计算机设备以及介质 | |
Zhu et al. | Statistical image modeling for semantic segmentation | |
CN115063732B (zh) | 基于双流多分辨率综合建模的动作视频分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |