CN109165699B - 细粒度图像分类方法 - Google Patents

细粒度图像分类方法 Download PDF

Info

Publication number
CN109165699B
CN109165699B CN201811210182.XA CN201811210182A CN109165699B CN 109165699 B CN109165699 B CN 109165699B CN 201811210182 A CN201811210182 A CN 201811210182A CN 109165699 B CN109165699 B CN 109165699B
Authority
CN
China
Prior art keywords
mapping
pooling
network
fine
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811210182.XA
Other languages
English (en)
Other versions
CN109165699A (zh
Inventor
张勇东
闵少波
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201811210182.XA priority Critical patent/CN109165699B/zh
Publication of CN109165699A publication Critical patent/CN109165699A/zh
Application granted granted Critical
Publication of CN109165699B publication Critical patent/CN109165699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Abstract

本发明公开了一种细粒度图像分类方法,包括:利用特征提取器提取输入图像的特征;利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作中使用了针对提取到的特征所预测到的最优池化阶数,另一个映射操作中使用了针对提取到的特征中每一个像素位置的重要性程度;利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。通过上述方案可以解决样本异质性与区域异质性的问题,极大的提高了细粒度图像分类的准确率。

Description

细粒度图像分类方法
技术领域
本发明涉及图像分类技术领域,尤其涉及一种细粒度图像分类方法。
背景技术
细粒度图像分类在近几年间获得了广泛的关注,其目标为区分一个基本类别下的众多子类。由于细粒度级别的信息对于理解物体细节更加重要,细粒度图像分类技术比传统图像分类具有更加广阔的应用前景。
作为传统目标识别的一个子类,细粒度图像分类的难点在于如何识别出不同子类别图像间细微的差别。在众多细粒度图像分类方法中,双线性池化被广泛的运用于提取图像高阶信息。通过外积的重组方式,双线性池化能够将基础网络的一阶特征映射成更高阶的特征,从而显式地表达出更多的图像细节信息。然而目前的方法都不合理地将固定的高阶池化运用于所有的图像样本,没有考虑样本之前的差异性。除此之外,图像中不同区域的不同信息量导致了同一高阶池化对不同区域也有着不同的效果。
发明内容
本发明的目的是提供一种细粒度图像分类方法,可以提高细粒度图像分类的准确率。
本发明的目的是通过以下技术方案实现的:
一种细粒度图像分类方法,包括:
利用特征提取器提取输入图像的特征;
利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作能够根据图像内容预测一个最优的池化阶数,另一个映射操作能够对图像中的每一个像素点预测一个重要性权重;
利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。
由上述本发明提供的技术方案可以看出,一方面,能够对每一张输入图像学习到一个特定阶数的池化策略,来解决样本异质性的问题,另一方面,能够学习到图像中哪些区域包含更有价值的信息,解决的是区域异质性问题;该方案在三个广泛使用的基准数据集中都取得了当前最好的结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种细粒度图像分类方法的流程图;
图2为本发明实施例提供的实现细粒度图像分类方法的网络结构示意图;
图3为本发明实施例提供的自适应双线性池化的三种实现方式的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提出一种细粒度图像分类方法,其步骤如图1所示,相应的网络结构如图2所示,该方法的主要步骤如下:
步骤1、利用特征提取器提取输入图像的特征。
本发明实施例中,所述特征提取器可以通过卷积神经网络实现,所述卷积神经网络包含多组卷积层结构,每组卷积层结构中包含多个卷积层和ReLU激活函数;组与组之间设有一个最大池化层,每组卷积块层内部卷积层的卷积核数量一样,并且随着网络的加深,不同组的卷积核数量会依次递增,将最后一个卷积层输出的特征作为特征提取器的特征提取结果。
示例性的,特征提取器可以通过CNN模型实现,包括VGG-16或ResNet-101。例如VGG-16包含五组卷积层结构,每组结构中包含2-3个卷积层和ReLU激活函数。组与组之间插入一个最大池化层来降低特征维度和扩大感受野。每组卷积块层内部的卷积核数量一样,并且随着网路的加深,不同组的卷积核数量会依次递增。在VGG-16结构里,五组卷积结构的输出特征的通道数可以依次设置为:64,128,256,512,512。随着特征通道数目的增多,以及特征的空间维度变小,网络提取到的特征也包含了更高层语义上的信息。最后VGG-16输出的最后一个卷积层特征作为特征提取结果Xi
步骤2、利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达。
本发明实施例中,其中一个映射操作能够根据图像内容预测一个最优的池化阶数,而另一个映射操作能够对图像中的每一个像素点预测一个重要性权重。具体来说,利用P-order learning对给定的特征推断出一个最优的池化阶数pi。利用spatial attentionlearning学习一个向量ωi来帮助模型去挑选哪些区域的特征最具有区分性。
这两个特征映射函数分别记为fp与fs;fp、fs分别对应的通过P-net(P网络)、S-net(S网络)实现。
P-net和S-net共有三种组合方式,分别对应图3中的:(a)对称双路结构,P-net和S- net分别放置在双线性池化输入的两个输入端;(b)非对称结构,P-net和S-net都放置在同一路输入中;(c)S-net放置在双线性池化的输出位置。根据乘法交换律,图3中的三种组合方式在用原始的双线性池化会得到一样的结果。而当用核化的双线性池化时,结果却有很大的区别。因此通过实验验证选择最合适的一种网络结果,最后发现对称双路结构 (图3中的 (a))能同时与原始的和核化的双线性池化都兼容,并给出最好的结果。不仅如此,通过这种双路结构,P-Net和S-Net对输入图像生成的两种类型的特征能达到互补的效果,相应的结构也在图2所示的网络结构中示出。
前述步骤1所提取到的特征Xi将分别进行两种映射操作,主要如下:
1)P-net中,通过一个全局平均池化层(GAP)将提取到的特征Xi映射成一个全局向量,再依次通过一个全连接层(FC)与ReLU激活函数将全局向量映射成数值pi,所述数值pi为针对提取到的特征Xi预测的最优池化阶数,表示对每一个输入样本都预测了一个最优的高阶池化策略,最后利用数值pi对提取到的特征Xi中的每一个元素进行指数操作 (EXP),作为fp映射后的特征,其表示为:
Figure GDA0002408854300000031
上式中
Figure GDA0002408854300000032
是对提取到的特征Xi的每个元素做指数操作。
2)S-net中,通过一个1×1的卷积层(Conv)加上ReLU激活函数将提取到的特征Xi映射成一个通道数为1的特征图;然后通过softmax操作将特征图进行归一化得到一个向量ωi,向量ωi表示了提取到的特征Xi中的每一个像素位置的重要性程度,最后将向量ωi作为权重矩阵乘(MUL)在提取到的特征Xi上,作为fs映射后的特征其表示为:
fs(Xi)=Xidiag(ωi);
其中,diag(·)为对角化操作,其生成的对角矩阵中的对角线元素对应于向量中的元素。
需要主要的是,S-net中softmax的使用主要有两点原因:1.使用softmax能保证得到的向量ωi中的数值都较小,并且只有少部分大数值集中在最有区分性的区域内;2.使用softmax能抑制梯度爆炸的现象,从而使网络的训练更稳定。
本发明实施例提供的上述方案对每一副图像都学习一个特定的池化阶数,区别于传统技术中对所有样本使用固定的池化阶数,例如,对于一些内容简单,容易区分的图像来说,低阶的池化足以提取到足够的信息。而对于一些困难的样本来说,高阶的池化才有能力提取到具有分辨力的信息。另外由于与p-order learning互补,向量ωi能进一步使本发明的池化策略集中在那些富含信息量线索的区域,从而产生更鲁棒可靠的特征表达。
在后续池化过程中可以采用双线性池化(Bilinear Pooling)或核化的双线性池化 (Compact Bilinear Pooling),正是由于本发明实施例采用图3中的 (a)中的对称双路结构,使我们的模型能同时对以上两种池化策略兼容,并达到更好的结果。
获得最终图像表达过程如下:利用双线性池化或者核化的双线性池化将这两个映射操作结果组合得到表达Yi,然后将Yi形变成一个高维向量,最后通过l2规则化,得到最终图像表达。
本领域技术人员可以理解,所述的高维向量是指向量的维度足够高或者满足指定的维度要求,例如,其维度可以是8192维。
假设利用双线性池化将这两个映射操作结果组合得到表达Yi,其表示为:
Figure GDA0002408854300000041
步骤3、利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类。
由于本发明的任务是做细粒度图像分类,因此,由卷积神经网络、P-net与S-net组成的整个网络的目标损失函数采取softmax分类误差函数:
Figure GDA0002408854300000042
其中,yi表示真实的分类结果,即标签;ai表示网络输出层(整个网络的最后一层)的softmax的值。
另一方面,为了确保分类准确性,需要预先对整个网络进行训练;训练过程与之前介绍的步骤1~步骤3完全相同。
网络训练时,对训练集中的图像数据进行数据增广操作(例如,翻折,伸缩,随机裁剪等),并将数据打乱,再按照一定数量进行分批(例如batch size=8),同时固定图像数据的尺寸大小(例如448*448);
采用用随机梯度下降法作为优化器来训练整个网络的参数,其学习率衰减策略选择指数型衰减,并设定初始学习率(例如设为0.01),同时,设定正则化操作中Dropout的比率(例如设为1),以及L2惩罚项的系数数值(例如,设为0.0005);
对于网络中所有超参数的初始值,使用MSRA初始化方法,其原理为将网络中每层的权重参数初始化为满足
Figure GDA0002408854300000051
的正态分布;其中n为相应网络层权重参数的个数;且网络中的正则化操作L2惩罚也是基于对网络参数的高斯先验假设对其进行惩罚,所以在端到端训练中该初始化方法会提高网络训练效率并提高网络性能。
此外,为了验证本发明实施例上述方案的效果,还在三个广泛使用的基准数据集中进行了验证实验。
在三个基准数据集为别为两个细粒度物体分类任务集(CUB-200和Car-196)与一个动作识别任何集(MPII)。这三个基准数据集数据划分如下:
1、CUB-200:该数据集包含了来自200个鸟类别的11788张图片。整个数据集被划分为5994张训练图片和5794张测试图片。
2、Car-196:该数据集包含来自196类车的16185张图片,其中8114图片用于训练,8041张图片用于测试。
3、MPII:该数据集包含393个行为类别的15205张图片,其中8218张训练图片,6987张测试图片。
经过240个epoch(即训练轮次,每一个epoch包含所有的训练样本)的训练,本发明实施例上述方案在三个基准数据集中都取得了当前最好的结果。其中在CUB-200和 Car-196数据集的准确率分别为85.7%和91.8%,在MPII数据集的MAP(平均精度均值) 为32.5%。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种细粒度图像分类方法,其特征在于,包括:
利用特征提取器提取输入图像的特征;
利用两个特征映射函数对提取到的特征做映射操作,并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达;其中一个映射操作能够根据图像内容预测一个最优的池化阶数,另一个映射操作能够对图像中的每一个像素点预测一个重要性权重;
利用分类器对所述最终图像表达进行分类,从而实现对输入图像的分类;
其中,两个特征映射函数分别记为fp与fs;fp、fs分别对应的通过P-net、S-net实现;所述P-net和S-net分别放置在双线性池化输入的两个输入端,形成对称双路结构;两个映射操作分别如下:
所述P-net中,通过一个全局平均池化层将提取到的特征Xi映射成一个全局向量,再依次通过一个全连接层与ReLU激活函数将全局向量映射成数值pi,所述数值pi为针对提取到的特征Xi预测的最优池化阶数,最后利用数值pi对提取到的特征Xi中的每一个元素进行指数操作,作为fp映射后的特征;
所述S-net中,通过一个1×1的卷积层加上ReLU激活函数将提取到的特征Xi映射成一个通道数为1的特征图;然后通过softmax操作将特征图进行归一化得到一个向量ωi,向量ωi表示了提取到的特征Xi中的每一个像素位置的重要性程度,最后将向量ωi作为权重矩阵乘在提取到的特征Xi上,作为fs映射后的特征。
2.根据权利要求1所述的一种细粒度图像分类方法,其特征在于,所述特征提取器通过卷积神经网络实现,所述卷积神经网络包含多组卷积层结构,每组卷积层结构中包含多个卷积层和ReLU激活函数;组与组之间设有一个最大池化层,每组卷积块层内部卷积层的卷积核数量一样,并且随着网络的加深,不同组的卷积核数量会依次递增,将最后一个卷积层输出的特征作为特征提取器的特征提取结果。
3.根据权利要求1所述的一种细粒度图像分类方法,其特征在于,所述fp映射后的特征表示为:
Figure FDA0002408854290000011
4.根据权利要求1所述的一种细粒度图像分类方法,其特征在于,所述fs映射后的特征表示为:
fs(Xi)=Xidiag(ωi);
其中,diag(·)为对角化操作。
5.根据权利要求1所述的一种细粒度图像分类方法,其特征在于,所述利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达包括:
利用双线性池化或者核化的双线性池化将这两个映射操作结果组合得到表达Yi,然后将Yi形变成一个高维向量,最后通过l2 规则化,得到最终图像表达。
6.根据权利要求5所述的一种细粒度图像分类方法,其特征在于,假设利用双线性池化将这两个映射操作结果组合得到表达Yi,其表示为:
Figure FDA0002408854290000021
其中,diag(·)为对角化操作。
7.根据权利要求1所述的一种细粒度图像分类方法,其特征在于,由卷积神经网络、P-net与S-net组成的整个网络的目标损失函数采取softmax分类误差函数:
Figure FDA0002408854290000022
其中,yi表示真实的分类结果,即标签;ai表示网络输出层的softmax的值。
8.根据权利要求7所述的一种细粒度图像分类方法,其特征在于,该方法还包括:预先对整个网络进行训练;
网络训练时,对训练集中的图像数据进行数据增广操作,并将数据打乱,再按照一定数量进行分批,同时固定图像数据的尺寸大小;
采用用随机梯度下降法作为优化器来训练整个网络的参数,其学习率衰减策略选择指数型衰减,并设定初始学习率,同时,设定正则化操作中Dropout的比率,以及L2惩罚项的系数数值;
对于网络中所有超参数的初始值,使用MSRA初始化方法,其原理为将网络中每层的权重参数初始化为满足
Figure FDA0002408854290000023
的正态分布;其中n为相应网络层权重参数的个数;且网络中的正则化操作L2惩罚也是基于对网络参数的高斯先验假设对其进行惩罚。
CN201811210182.XA 2018-10-17 2018-10-17 细粒度图像分类方法 Active CN109165699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811210182.XA CN109165699B (zh) 2018-10-17 2018-10-17 细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811210182.XA CN109165699B (zh) 2018-10-17 2018-10-17 细粒度图像分类方法

Publications (2)

Publication Number Publication Date
CN109165699A CN109165699A (zh) 2019-01-08
CN109165699B true CN109165699B (zh) 2020-06-26

Family

ID=64878528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811210182.XA Active CN109165699B (zh) 2018-10-17 2018-10-17 细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN109165699B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390350B (zh) * 2019-06-24 2021-06-15 西北大学 一种基于双线性结构的层级分类方法
CN110378356B (zh) * 2019-07-16 2021-07-02 北京中科研究院 基于多目标拉格朗日正则的细粒度图像识别方法
CN110689091B (zh) * 2019-10-18 2021-05-07 中国科学技术大学 弱监督细粒度物体分类方法
CN110993094B (zh) * 2019-11-19 2023-05-23 中国科学院深圳先进技术研究院 一种基于医学图像的智能辅助诊断方法及终端
CN114830186A (zh) * 2020-01-10 2022-07-29 深圳市欢太科技有限公司 图像分类方法、装置、存储介质及电子设备
CN116452896B (zh) * 2023-06-16 2023-10-20 中国科学技术大学 用于提升细粒度图像分类性能的方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN107886073A (zh) * 2017-11-10 2018-04-06 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN107886073A (zh) * 2017-11-10 2018-04-06 重庆邮电大学 一种基于卷积神经网络的细粒度车辆多属性识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
细粒度图像分析进展综述;holy_hao;《holy_hao,https://blog.csdn.net/u011746554/article/details/75096674》;20170714;第1-9页 *

Also Published As

Publication number Publication date
CN109165699A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165699B (zh) 细粒度图像分类方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
Liu et al. Scene classification via triplet networks
Lee et al. Transfer learning for deep learning on graph-structured data
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN111126488A (zh) 一种基于双重注意力的图像识别方法
Jia et al. Deep multi-view learning using neuron-wise correlation-maximizing regularizers
CN111178319A (zh) 基于压缩奖惩机制的视频行为识别方法
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN113688894B (zh) 一种融合多粒度特征的细粒度图像分类方法
CN107133640A (zh) 基于局部图像块描述子和费舍尔向量的图像分类方法
CN105631469A (zh) 一种多层稀疏编码特征的鸟类图像识别方法
Zhang et al. Uncertainty modeling with second-order transformer for group re-identification
Chen et al. Convolutional neural network and convex optimization
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN103440332B (zh) 一种基于关系矩阵正则化增强表示的图像检索方法
Pondenkandath et al. Leveraging random label memorization for unsupervised pre-training
Zong et al. Research on data mining of sports wearable intelligent devices based on big data analysis
CN110992320A (zh) 一种基于双重交错的医学图像分割网络
Li et al. Otcmr: Bridging heterogeneity gap with optimal transport for cross-modal retrieval
Usha Kingsly Devi et al. Deep Convolutional Neural Networks with Transfer Learning for Visual Sentiment Analysis
CN114332491A (zh) 一种基于特征重构的显著性目标检测算法
Bai et al. Collaborative anomaly detection
Wang et al. Gender classification using selected independent-features based on genetic algorithm
CN113392724B (zh) 基于多任务学习的遥感场景分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant