CN112990282B - 一种细粒度小样本图像的分类方法及装置 - Google Patents
一种细粒度小样本图像的分类方法及装置 Download PDFInfo
- Publication number
- CN112990282B CN112990282B CN202110233904.9A CN202110233904A CN112990282B CN 112990282 B CN112990282 B CN 112990282B CN 202110233904 A CN202110233904 A CN 202110233904A CN 112990282 B CN112990282 B CN 112990282B
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- network
- module
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种细粒度小样本图像的分类方法及装置,包括第一阶段网络即目标定位网络,包括相互连接的自注意力互补定位模块及VGG‑16网络,用于训练一个弱监督目标定位网络,得到查询图像和支持图像的类激活图;第二阶段网络包括特征提取模块、特征描述子筛选模块及语义对齐距离模块;所述特征提取模块,用于分别对查询图像和支持图像进行特征提取,得到其对应的特征图;特征描述子筛选模块,根据类激活图和特征提取模块提取的特征图,生成查询图像和支持图像的特征描述子表示;语义对齐距离模块获得查询图像和支持图像之间的语义对齐距离;本发明能实现高精度的细粒度小样本图像分类。
Description
技术领域
本发明涉及人工智能及计算机视觉领域,具体涉及一种细粒度小样本图像的分类方法及装置。
背景技术
现如今,随着人工智能技术和深度学习技术的飞速发展,出现了大量图像识别技术和图像分类技术,用于解决对应的计算机视觉任务。其中,细粒度小样本图像分类就是其中一个任务,它要求深度学习模型在样本数量极其有限的情况(例如每一类只有1张或者5张图像),能区分出图像之间的细微差距,进而完成细粒度图像分类。在数据量严重不够的情况下学习和理解新的细粒度图像类别,是深度学习领域一个极具挑战性的问题。
现有的大多数细粒度分类方法是基于有监督学习来实现,需要依靠大量带有详细标注的数据集。但是,对于细粒度的数据集,其标注需要具备专业的知识的人才能完成(比如鸟类,普通人可能无法分辨各种鸟类),这便决定了细粒度数据集的规模比常规的图像识别数据集小。此外,由于需要识别出图像间的细微差距,还可能需要标注出物体对应的位置信息,例如边界框标注等,这都会带来巨大的成本。当样本数量极其不足的时候,现有的许多基于深度学习的方法存在过拟合问题,无法实现较好的泛化性。相反的,我们人类却可以通过仅仅几张图像就可以学习到对应的类别,完成分类,尽管它们之间的差距非常细微。因此,细粒度小样本图像分类是一个具有较高实际应用价值的真实场景,解决该问题具有重要意义。
发明内容
为了克服现有技术存在的缺点与不足,本发明提供一种基于弱监督目标定位的细粒度小样本图像分类的方法及装置。
本发明采用如下技术方案:
一种细粒度小样本图像的分类装置,包括:
第一阶段网络即目标定位网络,包括相互连接的自注意力互补定位模块及VGG-16网络,用于训练一个弱监督目标定位网络,得到查询图像和支持图像的类激活图;
第二阶段网络,包括特征提取模块、特征描述子筛选模块及语义对齐距离模块;
所述特征提取模块,用于分别对查询图像和支持图像进行特征提取,得到其对应的特征图;
特征描述子筛选模块,根据类激活图和特征提取模块提取的特征图,生成查询图像和支持图像的特征描述子表示;
语义对齐距离模块,获得查询图像和支持图像之间的语义对齐距离;
第二阶段网络通过插曲训练机制进行端到端训练,实现细粒度小样本图像分类。
进一步,所述自注意力互补定位模块包括:
显著性掩膜生成模块,用于生成VGG-16网络输出的特征图的显著性掩膜,将显著性掩膜作用于VGG-16网络输出的特征图得到显著性特征图;同时基于显著性掩膜和预设定的阈值生成VGG-16网络输出的特征图的互补非显著性掩膜,将互补非显著性掩膜作用于VGG-16网络输出的特征图,得到互补非显著性特征图。
分类器模块,用于实现分类,进而根据显著性特征图及互补非显著性特征图得到类激活图。
进一步,目标定位网络在细粒度小样本数据集上进行训练,其训练过程为:
根据小样本数据集的划分规则,获取用于训练的数据集,将数据集划分为训练数据集、测试数据集和验证数据集;
将所述训练数据集的样本输入到第一阶段网络中进行迭代训练,在每轮迭代中,通过自注意力互补定位模块,得到一个显著性特征图和互补非显著性特征图;将这两个特征图分类到同一个类,其对应的损失值为显著性损失值和互补非显著性损失值;根据显著性损失值和互补非显著性损失值,确定目标损失值;
在每一轮迭代中,根据目标损失值,更新网络参数,直到迭代停止,得到训练完毕的第一阶段网络,实现弱监督目标定位。
进一步,所述根据类激活图和特征图,生成查询图像和支持图像的特征描述子表示,具体为:
将查询图像和支持图像的类激活图按设定的阈值进行二值化,得到二值化类激活掩膜;将二值化激活掩膜通过最近邻插值,得到尺寸为w×h的筛选掩膜;
将查询图像的筛选掩膜作用于查询图像的特征图,去除所有零向量,得到筛选之后的特征描述子;
将支持图像的筛选掩膜作用于支持图像的特征图,去除所有零向量,得到筛选之后的特征描述子;其中,w×h为支持图像和查询图像特征图的空间分辨率大小;零向量为各个维度上数值都为0的特征描述子;特征描述子是一个维度为d的向量,对应特征图空间分辨率的一个点;图像的特征描述子表示是筛选之后剩下的所有特征描述子组成的一个集合。
进一步,所述获得查询图像和支持图像之间的语义对齐距离,计算公式为:
其中,qk为查询图像的特征描述子表示,sk为支持图像的特征描述子表示,k为图像的类别,di为查询图像特征描述子表示中的一个特征描述子,表示di与支持图像的特征描述子表示中的特征描述子/>之间有最大余弦相似度,称为di到支持图像的最近邻余弦距离,n为查询图像特征描述子表示中的特征描述子的数量;
累加查询图像特征描述子表示中所有特征描述子到支持图像之间的最近邻余弦距离,得到查询图像到支持图像之间的语义对齐距离。
进一步,所述分类器模块包括第一分类器、一个全局最大池化操作和Softmax函数。
进一步,采用插曲机制进行训练的过程为:
构建的每一个插曲包括一个查询集和一个支持集;
获取插曲;将插曲输入第二阶段网络中进行迭代训练,在每一轮迭代中,确定目标损失值;在每一轮迭代中,根据目标损失值调整网络参数,直至迭代停止,完成训练;其中,网络参数包括特征提取器的参数;目标损失值为网络输出的概率和真实概率之间的交叉熵。
进一步,所述VGG-16网络去除全连接层。
进一步,所述特征提取模块提取的特征图为一个三维张量形式;所述三维张量形式为:d×w×h,其中d为通道数,w为空间分辨率的宽度,h为空间分辨率的高度。
一种细粒度小样本图像的分类装置的分类方法,包括
通过自注意力互补定位模块,得到查询图像和支持图像的类激活图;
对查询图像和支持图像,进行特征提取,得到其对应的特征图;
根据类激活图,对查询图像和支持图像进行特征描述子筛选,得到查询图像和支持图像的特征描述子表示;
计算查询图像和支持图像之间的语义对齐距离;
通过插曲训练机制进行端到端训练,实现细粒度小样本图像分类。
本发明的有益效果:
本发明在训练样本有限,且仅仅使用样本类别标签的情况下,精确地,完整地定位出物体的位置,进而利用所得到的定位信息进行特征描述子筛选,最后利用所提出的语义对齐距离,实现高精度的细粒度小样本图像分类。
本发明和其他主流的细粒度小样本图像分类方法相比,在5-way 1-shot设置下和5-way 5-shot设置下都取得了竞争性的准确率。
附图说明
图1是本发明的自注意力互补定位模块的结构图;
图2是显著性掩膜生成模块的结构示意图;
图3是分类器模块的结构示意图;
图4是本发明在5-way 1-shot设置下,细粒度小样本图像分类的流程示意图;
图5是本发明细粒度小样本图像分类的具体流程。
图6是本发明的整体结构示意图;
图7是本发明的弱监督目标定位效果图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1
细粒度小样本学习旨在从一个或者几个细粒度实例中学习和理解新的类别。由于每个细粒度类的样本在内容只有细微的差距,且每个类别只有一个或几个样本,这使得细粒度小样本图像分类变得十分的困难。传统的细粒度分类算法(例如SVM,深度神经网络等)在样本数量不足的情况下会遇到过拟合,泛化能力不足等情况。而且,为了识别出细粒度实例之间细微的差距,许多方法需要利用额外的标注信息,例如除了标签级别的标注,还需要标注目标的边界框来提供最显著性的区域。由于细粒度图像的标注需要花费大量的人力资源等,导致其样本量也极其有限。而且,很多细粒度数据集并没有提供边界框等像素级别标注。细粒度图像分类一般需要关注到图中最具区分性的区域,从而获得局部的,精细的语义信息。那么,如何在只有标签级别标注,且样本数量极其有限的情况下,学习如何识别新的细粒度类别至关重要。本发明主要解决了4个问题:
(1),如何在只有标签级别标注下,实现物体定位,获得细粒度分类时需要的最具区分性区域,甚至利用标签级别标注得到边界框标注;
(2),如何更加有效地利用弱监督目标定位信息;
(3),如何更加合理地计算和度量细粒度场景下查询图像和支持图像之间的距离。
(4),如何充分地利用训练集提供的数据学习类别无关的分类过程,使得网络在测试阶段仅仅利用少量样本就可以识别出全新的细粒度图像类别(训练阶段没出现过的类别)。
针对第一个问题,本发明中设计了一个自注意力互补定位模块,该模块是一个轻量级的,可兼容的模块,可以很简单地应用到许多现有的网络模型,例如VGG-16,VGG-19,Inception V1等。该模块相比之前CAM等工作,可以通过擦除和互补的方式,使得分类器可以输出更加全面,准确的类激活图,实现效果更好的弱监督目标定位,进而为接下来的细粒度小样本图像分类提供精确的位置信息。
针对第二个问题,本发明新设计的一个特征描述子筛选模块,该模块通过插值和图像掩膜的操作,进行特征描述子筛选,丢弃掉图像中会带来背景噪声的特征描述子,只保留了有用的特征描述子。特征描述子筛选过程有效地利用了弱监督目标定位提供的信息。
针对第三个问题,本发明提出了一种全新的度量方式,语义对齐距离。语义对齐距离是基于图像的特征描述子表示来进行计算的,它更加精细地计算了两个图中关键区域的相似度,非常适用于细粒度图像分类。
针对第四个问题,本发明引入了插曲训练机制。该训练机制可以使得训练阶段网络学习到的知识可迁移到测试阶段,从而识别出全新的类别。
本发明一种细粒度小样本图像的分类装置,包括第一阶段网络及第二阶段网络:
第一阶段网络即目标定位网络,包括相互连接的自注意力互补定位模块及VGG-16网络,所述VGG-16去除全连接层,用于训练一个弱监督目标定位网络,得到查询图像和支持图像的类激活图,进而定位出目标。
如图1所示,自注意力互补定位模块包括显著性掩膜生成模块和分类器模块。
其中,显著性掩膜生成模块,其结构如图2所示,显著性掩膜生成模块基于特征图空间域的自注意力机制,通过全局最大池化,全局平均池化和1×1卷积操作来获得VGG-16网络输出特征图的显著性掩膜1,显著性掩膜可以理解为特征图中最重要特征所在的区域,其作用于特征图之后得到显著性特征图2。基于生成的显著性掩膜,利用设定的阈值,一般经验值为0.9,可以得到特征图的互补非显著性掩膜3,互补非显著性掩膜作用于特征图,相当于将特征图中最重要的特征擦除,其作用于特征图之后得到互补非显著性特征图4。通过将显著性特征图和互补非显著性特征图分为同类,这样分类器便可以在显著性的区域和非显著的区域中搜索到更多有用的特征。通过这种擦除和互补的方式,本发明可以产生更加全面,准确的类激活图。
如图2中,在显著性掩膜和非显著性掩膜中,掩膜的数值在0~1之间;在掩膜中,对于感兴趣的区域,该区域的数值更加接近1,所以该区域呈现白色;同理,对于想要屏蔽的区域,该区域的数值更加接近0,所以该区域呈现黑色。
所述分类器模块,用于实现分类,进而根据显著性特征图及互补非显著性特征图得到类激活图,其结构如图3所示,包括第一分类器、全局平均池化和Softmax函数。所述第一分类器为一个子卷积网络,其结构为:3×3,1024→ReLU→3×3,1024→ReLU→3×3,1024→ReLU→1×1,C。其中3×3和1×1为卷积核大小;1024和C为卷积核数量,且C的数值等于训练集上类别数量;ReLU为激活函数。符号“→”用于表示两个卷积层的连接。
第一阶段网络在细粒度小样本数据集上进行训练。所述第一阶段网络的训练步骤包括:
根据小样本数据集的划分规则,获取用于训练的数据集;所述细粒度小样本数据集包括Stanford Dogs,Stanford Cars和CUB 200-2011数据集。所述划分规则将完整数据集划分为训练数据集,测试数据集和验证数据集。
将所述训练数据集的样本输入到第一阶段网络中进行迭代训练,在每轮迭代中,通过自注意力互补定位模块,得到一个显著性特征图和互补非显著性特征图;分类器将这两个特征图分类到同一个类,其对应的损失值为显著性损失值和互补非显著性损失值;根据显著性损失值和互补非显著性损失值,确定目标损失值。
其中,显著性损失值是网络为显著性特征图输出的概率和真实概率之间的交叉熵;互补非显著性损失值是网络为互补非显著性特征图输出的概率和其真实概率之间的交叉熵;目标损失值为显著性损失值和非显著性损失值之和。
在每一轮迭代中,根据目标损失值,更新网络参数,直到迭代停止,得到训练完毕的第一阶段网络;所述网络参数包括了VGG-16去除全连接层后剩余部分的参数和自注意力互补定位模块中的参数。
在进一步的实施例中,通过已训练的第一阶段网络,可获得输入图像的类激活图。所述类激活图的获取步骤为:
通过加权叠加显著性特征图得到显著性类激活图CAMs;通过加权叠加互补非显著性特征图得到互补非显著性类激活图利用显著性类激活图和互补非显著性类激活图计算得到融合的类激活图;所述的融合的类激活图即为图像最终的类激活图。融合的类激活图计算过程如下:
其中,max操作具体为:对于输入的两个矩阵,输出矩阵每个位置的元素为两个输入矩阵在对应位置的最大值。
所述加权叠加特征图的计算方式如下:
其中c表示第c类,K表示特征图的通道数,Sk表示第k个通道的特征图,表示第c个深度为k,核大小为1×1的卷积核的参数;*表示一次卷积操作。
为了评估本发明中提出的自注意力互补定位模块的性能,在CUB 200-2011数据集上和前沿的弱监督目标定位模型进行比较。本发明和对比模型的特征提取网络都采用VGG-16(去除全连接层)。对比的指标主要有3个:Top-1 Loc,Top-1 Clas和GT-Known Loc。其中,GT-Known Loc表示的是模型预测的边界框的准确率;Top-Clas表示模型预测类别的Top-1准确率;Top-1 Loc表示的是模型同时正确预测边界框和类别的准确率。其中Top-1 Loc是一个综合的性能指标,最能显示弱监督目标定位的性能。表1展示了本发明和CAM,Acol和ADL等主流方法定位性能的比较结果。可以知道,相比于各种方法,本发明在综合性能指标Top-1 Loc上取得了最好的成绩。说明了本发明通过自注意力互补定位的方式,可以更加全面地,准确地实现弱监督目标定位。
表1 CUB 200-2011上弱监督目标定位任务的性能比较
为了证明本发明弱监督目标定位的效果,给出了本发明在CUB 200-2011细粒度小样本数据集上,热力图和边界框预测的可视化结果。
参见图7,图7中展示了随机抽样的6个图像的热力图和边界框生成效果,其中,边界框该列中,深色的框是图像真实的边界框标注,浅色框是模型预测的边界框。本发明和主流的CAM方式进行了比较,可以知道,本发明所生成的热力图覆盖更加全面,更加准确,同时,本发明预测的边界框也更加准确。
可以理解,第一阶段网络是用于实现弱监督目标定位,为细粒度小样本图像分类提供显著性区域信息。
为了说明本方法进行细粒度小样本图像分类的具体流程,结合图4-图6进行说明。
在一个具体的实施例中,图4是5-way 1-shot设置下的细粒度小样本图像分类示意图,表示的是在有5个支持集,每个支持集都只有一张图像的时候,查询图像根据语义对齐距离比较进行分类的流程。
图5为本方法细粒度小样本图像分类的具体流程。
图6为本方法各个模块组合的整体结构图。其中,网络为2阶段网络,第一阶段网络为弱监督目标定位网络,第二阶段网络为细粒度小样本图像分类网络。第一阶段网络为查询图像和支持图像提供类激活图,用于在第二阶段网络提供特征描述子筛选。
在一个具体的实施例中,查询图像和支持图像通过第二阶段网络中的特征提取器,得到对应的特征图。所述特征图为一个3维张量,其形式为:d×w×h,其中d为通道数,w和h为空间分辨率的宽度和高度。
第二阶段网络,包括特征提取模块、特征描述子筛选模块及语义对齐距离模块,实现细粒度小样本图像分类。
所述特征提取模块,用于分别对查询图像和支持图像进行特征提取,得到其对应的特征图,本发明使用ResNet-12网络作为特征提取模块。所述ResNet-12为小样本学习中常用的卷积网络。
所述特征描述子筛选模块,根据第一阶段网络提供的类激活图,对查询图像和支持图像进行特征描述子筛选,得到查询图像和支持图像的特征描述子表示。其过程为:将查询图像和支持图像的类激活图按设定的阈值进行二值化,该阈值为类激活图的均值0.65,得到二值化类激活掩膜;将二值化激活掩膜通过最近邻插值,得到尺寸为w×h的筛选掩膜;将查询图像的筛选掩膜作用于查询图像的特征图后,去除所有零向量,得到筛选之后的特征描述子;将支持图像的筛选掩膜作用于支持图像的特征图后,去除所有零向量,得到筛选之后的特征描述子;其中,w×h为特征图的空间分辨率大小;零向量为各个维度上数值都为0的特征描述子;特征描述子是一个维度为d的向量;图像的特征描述子表示是筛选之后剩下的所有向量组成的一个集合。
语义对齐距离模块,获得查询图像和支持图像之间的语义对齐距离。
主要包括:对于查询图像的特征描述子表示中每个特征描述子,计算其到支持图像之间的最近邻余弦距离;累加查询图像特征描述子表示中所有特征描述子到支持图像之间的最近邻余弦距离,得到查询图像到支持图像之间的语义对齐距离;语义对齐距离的具体计算方式为:
其中,qk为查询图像的特征描述子表示,sk为支持图像的特征描述子表示,di为查询图像特征描述子表示中的一个特征描述子,k为图像的类别,表示di与支持图像的特征描述子表示中的特征描述子/>之间有最大余弦相似度,称为di到支持图像的最近邻余弦距离。n为查询图像特征描述子表示中的特征描述子的数量。
第二阶段网络采用插曲机制进行训练,具体步骤为:在训练阶段,构建的每一个插曲包括一个查询集和一个支持集;其中,对于5-way 1-shot分类任务,支持集包含5个类别,每个类别1张图像,查询集包括5个类别,每个类别15张图像;对于5-way 5-shot分类任务,支持集包含5个类别,每个类别5张图像,查询集包括5个类别,每个类别15张图像。在一个插曲中,查询集中每张图像的真实标签都为0-4,对应支持集中5个类别;通过插曲训练机制,模型可以学习到可迁移的知识,进而能在测试阶段识别全新的细粒度类别。
所述第二阶段网络的训练过程为:获取插曲;将插曲输入第二阶段网络中进行迭代训练,在每一轮迭代中,确定目标损失值;在每一轮迭代中,根据目标损失值调整网络参数,直至迭代停止,完成训练;其中,网络参数包括特征提取器的参数;目标损失值为网络输出的概率和真实概率之间的交叉熵。
所述的损失值为:
其中,N是查询图像的数量,C是支持集中类别数量。
为了评估本发明提出的细粒度小样本图像分类方法的性能,在3个小样本细粒度数据集上和8种前沿方法的细粒度小样本数据集进行了比较。细粒度小样本数据集包括了Stanford Cars,Stanford Dogs和CUB 200-2011。而8种前沿方法由匹配网络(MatchingNet),原型网络(Prototype Net),关系网络(Relation Net),图神经网络(GNN),协方差度量网络(CovaMNet),低秩成对对准双线性网络(LRPABN),多注意元学习网络(MattML)和深度最近邻网络(DN4)。由于各种方法其特征提取模块可能采用不同的网络结构,为了保证对比的公平性,我们显示的都是各种方法在5-way 1-shot和5-way 5-shot中的最佳准确率。
表2展示了各种对比方法在细粒度小样本数据集上的分类结果,从表中可以看出,本发明提出的方法在各种设置下都取得了更具竞争性的分类准确率。
表2细粒度小样本图像分类性能比较
实施例2
一种细粒度小样本图像的分类方法,包括:
S1通过自注意力互补定位模块,得到查询图像和支持图像的类激活图;
S2对查询图像和支持图像,进行特征提取,得到其对应的特征图;
S3根据类激活图,对查询图像和支持图像进行特征描述子筛选,得到查询图像和支持图像的特征描述子表示;
S4计算查询图像和支持图像间的语义对齐距离;
S5融合特征提取过程,特征描述子筛选过程和语义对齐距离计算过程到一个框架,即第二阶段网络,进行端到端训练,实现细粒度小样本图像分类。
本实施例中查询图像和支持图像均是从数据集中得到,也就是每次从数据集中选取C个类别的图像(每个类别的图像若干张),作为支持图像,然后获得一些待分类图像,作为查询图像,识别属于数据集C中的哪个类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种细粒度小样本图像的分类装置,其特征在于,包括:
第一阶段网络即目标定位网络,包括相互连接的自注意力互补定位模块及VGG-16网络,用于训练一个弱监督目标定位网络,得到查询图像和支持图像的类激活图;
第二阶段网络,包括特征提取模块、特征描述子筛选模块及语义对齐距离模块;
所述特征提取模块,用于分别对查询图像和支持图像进行特征提取,得到其对应的特征图;
特征描述子筛选模块,根据类激活图和特征提取模块提取的特征图,生成查询图像和支持图像的特征描述子表示;
语义对齐距离模块,获得查询图像和支持图像之间的语义对齐距离;
第二阶段网络通过插曲训练机制进行端到端训练,实现细粒度小样本图像分类;
所述自注意力互补定位模块包括:
显著性掩膜生成模块,用于生成VGG-16网络输出的特征图的显著性掩膜,将显著性掩膜作用于VGG-16网络输出的特征图得到显著性特征图;同时基于显著性掩膜和预设定的阈值生成VGG-16网络输出的特征图的互补非显著性掩膜,将互补非显著性掩膜作用于VGG-16网络输出的特征图,得到互补非显著特征图;
分类器模块,用于实现分类,进而根据显著性特征图及互补非显著性特征图得到类激活图;
所述根据类激活图和特征图,生成查询图像和支持图像的特征描述子表示,具体为:
将查询图像和支持图像的类激活图按设定的阈值进行二值化,得到二值化类激活掩膜;将二值化激活掩膜通过最近邻插值,得到尺寸为w×h的筛选掩膜;
将查询图像的筛选掩膜作用于查询图像的特征图,去除所有零向量,得到筛选之后的特征描述子;
将支持图像的筛选掩膜作用于支持图像的特征图,去除所有零向量,得到筛选之后的特征描述子;其中,w×h为支持图像和查询图像特征图的空间分辨率大小;零向量为各个维度上数值都为0的特征描述子;特征描述子是一个维度为d的向量,对应特征图上空间分辨率的一个点;图像的特征描述子表示是筛选之后剩下的所有特征描述子组成的一个集合;
所述获得查询图像和支持图像之间的语义对齐距离,具体计算公式为:
其中,qk为查询图像的特征描述子表示,sk持图像的特征描述子表示,k为图像的类别,di为查询图像特征描述子表示中的一个特征描述子,表示di与支持图像的特征描述子表示中的特征描述子/>之间有最大余弦相似度,称为di到支持图像的最近邻余弦距离,n为查询图像特征描述子表示中的特征描述子的数量;
累加查询图像特征描述子表示中所有特征描述子到支持图像之间的最近邻余弦距离,得到查询图像到支持图像之间的语义对齐距离。
2.根据权利要求1所述的分类装置,其特征在于,目标定位网络在细粒度小样本数据集上进行训练,其训练过程为:
根据小样本数据集的划分规则,获取用于训练的数据集,将数据集划分为训练数据集、测试数据集和验证数据集;
将所述训练数据集的样本输入到第一阶段网络中进行迭代训练,在每轮迭代中,通过自注意力互补定位模块,得到一个显著性特征图和互补非显著性特征图;将这两个特征图分类到同一个类,其对应的损失值为显著性损失值和互补非显著性损失值;根据显著性损失值和互补非显著性损失值,确定目标损失值;
在每一轮迭代中,根据目标损失值,更新网络参数,直到迭代停止,得到训练完毕的第一阶段网络,实现弱监督目标定位。
3.根据权利要求1所述的分类装置,其特征在于,所述分类器模块包括第一分类器、一个全局最大池化操作和Softmax函数。
4.根据权利要求3所述的分类装置,其特征在于,采用插曲机制进行训练的过程为:
构建的每一个插曲包括一个查询集和一个支持集;
获取插曲;将插曲输入第二阶段网络中进行迭代训练,在每一轮迭代中,确定目标损失值;在每一轮迭代中,根据目标损失值调整网络参数,直至迭代停止,完成训练;其中,网络参数包括特征提取器的参数;目标损失值为网络输出的概率和真实概率之间的交叉熵。
5.根据权利要求1所述的分类装置,其特征在于,所述VGG-16网络去除全连接层。
6.根据权利要求1所述的分类装置,其特征在于,所述特征提取模块提取的特征图为一个三维张量形式;所述三维张量形式为:d×w×h,其中d为通道数,w空间分辨率的宽度,h为空间分辨率的高度。
7.一种基于权利要求1-6任一项所述细粒度小样本图像的分类装置的分类方法,其特征在于,包括:
通过自注意力互补定位模块,得到查询图像和支持图像的类激活图;
对查询图像和支持图像,进行特征提取,得到其对应的特征图;
根据类激活图,对查询图像和支持图像进行特征描述子筛选,得到查询图像和支持图像的特征描述子表示;
计算查询图像和支持图像之间的语义对齐距离;
通过插曲训练机制进行端到端训练,实现细粒度小样本图像分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233904.9A CN112990282B (zh) | 2021-03-03 | 2021-03-03 | 一种细粒度小样本图像的分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110233904.9A CN112990282B (zh) | 2021-03-03 | 2021-03-03 | 一种细粒度小样本图像的分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112990282A CN112990282A (zh) | 2021-06-18 |
CN112990282B true CN112990282B (zh) | 2023-07-18 |
Family
ID=76352263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110233904.9A Active CN112990282B (zh) | 2021-03-03 | 2021-03-03 | 一种细粒度小样本图像的分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990282B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601605B (zh) * | 2022-12-13 | 2023-04-07 | 齐鲁空天信息研究院 | 地物分类方法、装置、设备、介质及计算机程序产品 |
CN116091867B (zh) * | 2023-01-12 | 2023-09-29 | 北京邮电大学 | 一种模型训练、图像识别方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582337A (zh) * | 2020-04-24 | 2020-08-25 | 东南大学 | 基于小样本细粒度图像分析的草莓畸形状态检测方法 |
CN111882000A (zh) * | 2020-08-04 | 2020-11-03 | 天津大学 | 一种应用于小样本细粒度学习的网络结构及方法 |
CN111985538A (zh) * | 2020-07-27 | 2020-11-24 | 成都考拉悠然科技有限公司 | 基于语义辅助注意力机制的小样本图片分类模型及方法 |
-
2021
- 2021-03-03 CN CN202110233904.9A patent/CN112990282B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582337A (zh) * | 2020-04-24 | 2020-08-25 | 东南大学 | 基于小样本细粒度图像分析的草莓畸形状态检测方法 |
CN111985538A (zh) * | 2020-07-27 | 2020-11-24 | 成都考拉悠然科技有限公司 | 基于语义辅助注意力机制的小样本图片分类模型及方法 |
CN111882000A (zh) * | 2020-08-04 | 2020-11-03 | 天津大学 | 一种应用于小样本细粒度学习的网络结构及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112990282A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chaudhuri et al. | Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method | |
Mou et al. | RiFCN: Recurrent network in fully convolutional network for semantic segmentation of high resolution remote sensing images | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
Alidoost et al. | A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image | |
CN109902806A (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
Kim et al. | Multi-task convolutional neural network system for license plate recognition | |
Zhang et al. | Road recognition from remote sensing imagery using incremental learning | |
CN109410184B (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
Gomez et al. | A fast hierarchical method for multi-script and arbitrary oriented scene text extraction | |
CN113011357A (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN106022254A (zh) | 图像识别技术 | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
WO2022062419A1 (zh) | 基于非督导金字塔相似性学习的目标重识别方法及系统 | |
CN112464983A (zh) | 一种用于苹果树叶病害图像分类的小样本学习方法 | |
Mo et al. | Vehicles detection in traffic flow | |
US20230095533A1 (en) | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling | |
CN111639697B (zh) | 基于非重复采样与原型网络的高光谱图像分类方法 | |
CN111626357B (zh) | 一种基于神经网络模型的图像识别方法 | |
Gyawali et al. | Age range estimation using MTCNN and vgg-face model | |
Akhlaghi et al. | Farsi handwritten phone number recognition using deep learning | |
Najibi et al. | Towards the success rate of one: Real-time unconstrained salient object detection | |
Sun et al. | Deep learning based pedestrian detection | |
CN112686242A (zh) | 一种基于多层聚焦注意力网络的细粒度图像分类方法 | |
Huu et al. | Proposing WPOD-NET combining SVM system for detecting car number plate | |
Zheng et al. | Bi-heterogeneous Convolutional Neural Network for UAV-based dynamic scene classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |