CN110321942A

CN110321942A - 一种基于球形特征的细粒度图像分类方法与装置

Info

Publication number: CN110321942A
Application number: CN201910553288.8A
Authority: CN
Inventors: 尤新革; 余超剑; 彭勤牧; 张郑强
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2019-10-11

Abstract

本发明公开一种基于球形特征的细粒度图像分类方法：利用经过训练的通用卷积神经网络提取输入图像的通用特征；利用深度超球形镶嵌将输入图像的通用特征转换成图像球形特征；通过输入图像的图像球形特征与不同细粒度类别特征之间的角度对输入图像进行分类。本发明方法运算高效且时间复杂度小。传统双线性池化，将低维通用特征转换后的高维特征进行矢量间的Kronecker积运算，使得算法运算量非常巨大。使用球形特征时，将时间复杂度由传统双线性池化的O(N²)降低至现有的O(N)。并且网络方便进行可视化，有效理解细粒度识别原理。本发明还提供了相应的基于球形特征的细粒度图像分类装置。

Description

一种基于球形特征的细粒度图像分类方法与装置

技术领域

本发明属于图像分类技术领域，更具体地，涉及一种基于球形特征的细粒度图像分类方法与装置。

背景技术

相较于普通的图像分类任务，细粒度图像分类需要区分基本类别下的众多子类，更需要注意各个子类之间的细微差别。

细粒度图像分类的主要难点在于如何区分具有细微差别的不同子类别的图像。一方面，不同子类别的图像差异仅仅体现在图像的某些细节上。例如波音公司旗下的737Max型飞机相较于其前辈737型飞机，仅有发动机细节上的区别。另一方面，相同子类别的图像差异范围很大。例如，在不同光照、不同视角下拍摄的737型飞机有着几乎完全不同的图像结构和顔色光影。

现有解决方案大多采用双线性池化操作来提取图像的细节信息。具体来讲，先将图像输入到深度卷积网络当中去提取图像的抽象特征，然后再利用双线性池化操作将这些图像特征映射组合成更高阶的图像表达，以提取图像细节信息，最后再使用分类器对最终图像表达进行分类，从而实现对图像的细粒度分类。例如：论文(Hierarchical BilinearPooling for Fine-Grained Visual Recognition.ECCV，2018.)提出使用卷积神经网络提取输入图像的特征，并利用两个特征映射函数对提取到的特征进行高维映射，并利用哈达玛积融合网络中不同的层的特征，进行跨层双线性变换，最后使用分类器对所述最终图像表达进行分类，从而实现对输入图像的细粒度分类。其最大的特点是使用了卷积神经网络中多层的特征信息。然而，该文章提出的方法难以描述其几何意义，计算复杂度大，且不能有效进行可视化。专利申请(细粒度图像分类方法201811210182.X)提出使用特征提取器提取输入图像的特征，并利用两个特征映射函数对提取到的特征进行映射，并利用双线性池化或者核化的双线性池化将这两个映射操作结果组成更高阶的图像表达，最后使用分类器对所述最终图像表达进行分类，从而实现对输入图像的细粒度分类。其最大的特征是使用双线性池化提取高阶图像像素，并通过softmax分类器进行分类。然而该专利方法计算复杂度大，且不能有效进行可视化。

总体来说，双线性池化操作运算复杂，极大地占据了计算机运算内存和运行时间。此外，双线性操作将抽象特征进一步组合成高阶图像表达，不具备直观的可理解性，不能大规模可信性地运用于社会生产生活当中。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于球形特征的细粒度图像分类方法与装置，其目的在于使用球形特征(Hypersphere Feature)来代替双线性池化提取图像细节信息，由此解决现有技术中运算复杂且运算时间开销大，区分相似图像的类别困难，并缺乏可视化理解图像差异的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于球形特征的细粒度图像分类方法，包括：

利用经过训练的通用卷积神经网络提取输入图像的通用特征；

利用深度超球形镶嵌将输入图像的通用特征转换成图像球形特征；

通过输入图像的图像球形特征与不同细粒度类别特征之间的角度对输入图像进行分类。

本发明的一个实施例中，所述通用卷积神经网络由多个卷积层结构和池化层结构按特定的顺序交叉组成，每层卷积层结构包含多个卷积操作和激活操作，用于特征的转换与映射，每个池化层结构包括一个池化操作，用于特征的融合，最后一个卷积层结构的输出即为整个通用神经网络提取的图像通用特征。

本发明的一个实施例中，所述图像球形特征以其模长表征同类图像的差异，以其角度表征异类图像的差异。

本发明的一个实施例中，所述利用深度超球形镶嵌将输入图像的通用特征转换成图像球形特征，具体包括：首先将图像通用特征映射到高维特征空间；然后从全部像素级图像通用特征中提取图像级通用特征，并对其进行归一化得到归一化的图像球形特征；再将该图像球形特征进行伸缩变换，得到最终的可学习的图像球形特征。

本发明的一个实施例中，将图像通用特征映射到高维特征空间的方法包括卷积层、外积或傅里叶变换。

本发明的一个实施例中，采用全局池化操作从全部像素级图像通用特征中提取图像级通用特征。

本发明的一个实施例中，通过输入图像的图像球形特征与不同细粒度类别特征之间的角度对输入图像进行分类，具体为：对图像球形特征相对不同细粒度类别特征之间的角度进行衡量，从而区分出图像最终的类别。

本发明的一个实施例中，通过计算图像球形特征向量间的内积或外积运算得到特征之间角度信息，利用角度信息区分出图像最终的类别。

本发明的一个实施例中，通过计算图像球形特征向量间的内积或外积运算得到特征之间角度信息，利用角度信息区分出图像最终的类别，具体为：使用内积来度量球形特征与类别特征之间的角度大小，即score＝||S||||w||cosθ，其中θ即为球形特征与类别特征之间的角度差异，w为不同细粒度类别对应的类别特征，S为输入图像的图像球形特征。由于球形特征的模长为定值，即||S||＝ɑ，故球形特征只能通过其与类别特征之间的角度θ影响最后的类别得分。当图像球形特征与类别特征之间的角度越小，则相应余弦值将会越大，对应的score则更高。通过对不同细粒度类别设定不同的类别特征w，从输入图像中提取的球形特征可通过其与不同类别特征之间的角度差异，计算出不同类别的得分，从而对整幅图像进行细粒度分类。

按照本发明的另一方面，还提供了一种基于球形特征的细粒度图像分类装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行上述基于球形特征的细粒度图像分类方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

(1)运算高效且时间复杂度小。传统双线性池化时，会将低维通用特征转换后的高维特征进行矢量间的Kronecker积运算，使得算法运算量非常巨大。例如，一个维度为8192维的矢量进行自己与自己的Kronecker积运算，则会有8192x8192次乘法。而使用球形特征时，则只有8192次乘法与8192次加法运算，总操作的数目大幅减小，将时间复杂度由传统双线性池化的O(N²)降低至现有的O(N)；

(2)网络方便进行可视化，有效理解细粒度识别原理。例如图4所示，左则图片所示的是一只黄头黑鸟，其特征为全身都为黑色，只有头部部分是黄色；右侧图片所示的是一只红翅黑鸟，其特征为全身都为黑色，只有翅膀部分有红色羽毛。而两幅图片的右边即为可视化后的结果，该结果将以暖红色、黄色、青色、紫色和绛紫色代表从高到低的关注程度。左侧图的可视化结果将主要注意力放在鸟的头部部分，说明左侧图中的鸟与相近类型的细节差异主要体现在鸟的头部。右侧图的可视化结果将主要注意力放在鸟的翅膀部分，说明右侧图中的鸟与相近类型的细节差异主要体现在鸟的翅膀部分。而这正与鸟类学家分类这两种鸟的依据相同。

附图说明

图1是本发明实施例中一种基于球形特征的细粒度图像分类方法的流程示意图；

图2是本发明实施例中利用深度超球形镶嵌方法将图像通用特征转换成可学习的球形特征的流程示意图；

图3是本发明实施例中用于说明图像球形特征几何意义的示意图；

图4是本发明实施例中使用图像球形特征，得到不同鸟类差别细节信息的可视化示意图；

图5是本发明实施例中一种基于球形特征的细粒度图像分类装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明技术方案的实施主要包括细粒度图像分类网络的构建、训练、评估与可视化。

实施例1

如图1所示，在网络构建方面，本发明技术方案通过三个步骤构建实现细粒度图像分类方法。

(1)利用通用卷积神经网络提取输入图像的通用特征

在本发明技术方案中，将使用通用卷积神经网络提取图像通用特征。通用卷积神经网络一般由多个卷积层结构和池化层结构按特定的顺序交叉组成。每层卷积层结构包含多个卷积操作和激活操作，用于特征的转换与映射。而每个池化层结构包括一个池化操作，用于特征的融合。而最后一个卷积层结构的输出即为整个通用神经网络提取的图像通用特征X_i。

通用卷积神经网络包含众多不同的具体实施模型，对于本发明来说，其主要思想是使用球形特征来区别细粒度物体，不涉及具体网络，球形特征可自由添加到各个通用神经网络当中去，因此各种通用卷积神经网络都可适用。如通常使用的VGG-16和ResNet101。

本发明实施例中以VGG-16为例，该通用卷积神经网络包含了5个卷积层结构和4个池化层结构，具体顺序按卷积、池化、卷积的方式进行堆叠。前面两个卷积层结构使用了两个卷积操作和两个激活操作，并将特征维数从3扩展到128。后三个卷积层使用了三个卷积操作和三个激活操作，将特征维数继续扩展到512。而每个池化层结构使用了一个池化操作，每次将特征个数削减为原来的四分之一以进行特征的融合并减小计算量。通过这些卷积层结构和池化层结构，VGG16在第五层卷积层提取出整幅图像的通用图像特征。

(2)利用深度超球形镶嵌将图像通用特征转换成球形特征

如图2所示，在通用卷积神经网络提取图像通用特征后，本发明技术方案将使用新颖的深度超球形镶嵌(Deep Hypersphere Embedding，DHE)算法将该通用特征转换成可学习的球形特征，以提取图像当中的细节信息。球形特征以其模长表征同类图像的差异，以其角度表征异类图像的差异。

具体来讲，为了提取通用图像特征中的细节信息，该过程首先将图像通用特征X_i映射到高维特征空间，以提高特征空间的容量。具体来说，一般可使用卷积层、外积或傅里叶变换将低维特征映射到高维特征空间中。然后从全部像素级图像通用特征中提取图像级通用特征，并对其进行归一化，得到归一化的图像球形特征，以消除同类图像之间的特征差异(以特征的模长表示)，仅保留代表异类图像之间的细节信息差异的特征角度。此外，为了抑制梯度消失现象，又将该图像球形特征进行伸缩变换，确保梯度在通过球形特征反向传播时保持在一个合理的范围。经过以上步骤，我们最终得到了可学习的图像球形特征。

在本发明实施例中，为了适用整个技术方案的端到端训练，我们将使用卷积和矩阵操作具体实施深度超球形镶嵌。对于高维映射操作，本发明技术方案将使用1x1卷积进行映射，将特征维数从521维升到8192维，即M_i＝Conv1D(X_i)。之后，将使用普通的全局池化操作提取图像级通用特征，即P＝Pool(M_i)。然后，L2正则化被用于对图像级通用特征进行模长归一化，即N＝P/||P||₂。此处，L2正则化指||P||₂＝sum_j p_j ²。最后对得到的归一化的得到进行伸缩变换，即可得到可学习的图像球形特征，即S＝ɑN，其中ɑ为伸缩变换参数。

需说明的是：在使用神经网络进行物体细粒度分类的领域中，目前均是使用池化操作从像素级图像通用特征中提取出图像级通用特征。具体池化可能有求和池化，平均池化

(3)通过图像球形特征进行分类

如图3所示，本发明技术方案将使用图像球形特征来提取图像当中的细节信息，并通过长度表征同类图像的差异，通过角度表征异类图像的差异。在深度超球形镶嵌中，通过归一化从而使最终的图像球形特征具有相同的模长，从而丢弃了同类图像的差异，让图像球形特征更关注于异类图像之间的差异。该差异由球形特征的角度决定，故而本发明技术方案将对图像球形特征相对不同细粒度类别特征之间的角度进行衡量，从而区分出图像最终的类别。具体来说，向量间的内积或外积运算均可得到特征之间角度信息。

针对特定细粒度类别，设其相应的类别特征为w，本发明实施例中，将使用内积为例来度量球形特征与类别特征之间的角度大小，即score＝||S||||w||cosθ，其中θ即为球形特征与类别特征之间的角度差异。当球形特征与类别特征之间的角度越小，则证明两者之间的差异越小，而对应score则更高。通过对不同细粒度类别设定不同的类别特征w，可得到不同类别特征与球形特征之间的角度大小，从而对整幅图像进行细粒度分类。具体实例上，本发明技术方案将使用全连接层对球形特征进行处理，从而得到相应分类。

下面以一个具体实施例来说明本发明技术方案。

网络训练

在网络训练方面，本发明技术方案将网络分成预训练和联合训练两步进行训练。第一步将对通用卷积神经网络进行预训练。具体来讲，我们在通用卷积神经网络的最后面添加全局池化层和经典的sigmoid分类器，在流行的ImageNet数据集上进行训练，使通用卷积神经网络能得到有效的初始化权值，更好地提取图像通用特征。第二步为联合训练，我们首先对深度超球形镶钳和分类器中的权重进行范围为[0,1]的随机初始化，然后将通用卷积神经网络、深度超球形镶钳和分类器连接至一起，进行端到端的联合训练，以获得更有效的网络参数。更具体来讲，在联合训练中，我们将对训练集中的图像数据进行数据增强操作(如随机裁剪、水平翻转等)，并固定图像大小为448x448。然后将每16张图像进行分批处理，输入到网络当中。整个网络采用随机梯度下降法进行优化，将对图像通用特征提取过程中的参数、特征维数转换卷积层参数、伸缩变换参数ɑ以及类别特征W进行学习。初始学习率设定为1e-3，每隔固定间隔(如50epoches)减少为原来的十分之一。网络将同时以最小化分类结果交叉熵和最小化网络参数L2正则项为优化目标，相关权重为1e-4。

网络评估

训练好的网络将在三个广泛应用于细粒度分类的数据集上进行评估，以验证本发明技术方案的最终结果。三个数据集分别是：CUB-200-2011(共包含200个相近类别，其中有训练图片5994张，测试图片5794张)、StanfordCars(共包含196个相近类别，其中有训练图片8144张，测试图片8041张)和FGVC-Aircraft(共包含100个相近类别，其中训练图片6667张，测试图片3333张)。我们将使用广泛应用于细粒度分类中的分类准确率作为我们的评估的指标。在使用ResNet-101作为通用卷积神经网络的情况下，相较于最新的HBP、DFL-CNN等模型，我们的网络在三个数据集上分别提升了至少1.0、1.4和1.8个百分点，最终分类准确率达到了88.4％、94.5％和93.5％。

此外，我们还使用交叉验证测试了深度超球形镶钳在不同超参数设置下的网络分类准确率。针对高维映射操作，我们选取了多个不同的映射后的维度(如512、1024、2048等)。针对归一化操作，我们选取了多种不同的归一化方式(如l2正则化、l3正则化等)。针对伸缩变化，我们选取了不同的训练方式(如是否可训练)和不同的初始化值(如1、2、3等)。在使用ResNet-50作为通用卷积神经网络的情况下，针对CUB-200-2011数据集的实验表明，我们的模型对这些超参均有较好的鲁棒性，不同超参数设置下的网络分类准确率差别不超过两个百分点(最高分类准确率为87.5％,最低分类准确率为85.5％)。

网络可视化

此外，本发明技术方案在可视化方面有明显优势。通过使用球形特征进行可视化，能准确指出异类图片之间的细节差异，可以有效帮助理解网络的工作原理。具体来讲，本发明技术方案通过计算每个像素级特征对最终分类分数的贡献大小，从而描绘出网络对每个像素点的关注程度。由之前的深度超球形镶嵌模型易知，S＝ɑN＝ɑsum_i M_i/||P||₂。故而最终分类得分可写作Score＝SW＝ɑsum_i M_i W/||P||₂。其中M_i为第i个像素对应特征，W为具体类别特征。由此，单个像素对最终得分的贡献为Contribution_i＝ɑM_i W/||P||₂。为了更详细确定相对关注程度，本发明技术方案将通过归一化得到单个像素的相对贡献率，即ContributionRate_i＝Contribution_i/sum_i Contribution_i＝M_i W/sum_i M_i W。最终可视化结果即根据该相对贡献率进行渲染得到。

采用本发明实施例中技术方案的优势是：

1.运算高效，时间复杂度小。传统双线性池化时，会将低维通用特征转换后的高维特征进行矢量间的Kronecker积运算，使得算法运算量非常巨大。例如，一个维度为8192维的矢量进行自己与自己的Kronecker积运算，则会有8192x8192次乘法。而使用球形特征时，则只有8192次乘法与8192次加法运算，总操作的数目大幅减小，将时间复杂度由传统双线性池化的O(N²)降低至现有的O(N)。

2.网络方便进行可视化，有效理解细粒度识别原理。如图4所示，左则图片所示的是一只黄头黑鸟，其特征为全身都为黑色，只有头部部分是黄色；右侧图片所示的是一只红翅黑鸟，其特征为全身都为黑色，只有翅膀部分有红色羽毛。而两幅图片的右边即为可视化后的结果，左侧图的可视化结果将主要注意力放在鸟的头部部分，说明左侧图中的鸟与相近类型的细节差异主要体现在鸟的头部。右侧图的可视化结果将主要注意力放在鸟的翅膀部分，说明右侧图中的鸟与相近类型的细节差异主要体现在鸟的翅膀部分。而这正与鸟类学家分类这两种鸟的依据相同。

实施例2

进一步地，如图5所示，是本发明实施例中基于球形特征的细粒度图像分类装置的架构示意图。本实施例的基于球形特征的细粒度图像分类装置包括一个或多个处理器21以及存储器22。其中，图5中以一个处理器21为例。

处理器21和存储器22可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器22作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序和非易失性计算机可执行程序，如实施例1中的基于球形特征的细粒度图像分类的方法。处理器21通过运行存储在存储器22中的非易失性软件程序和指令，从而执行基于球形特征的细粒度图像分类的方法。

存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器22可选包括相对于处理器21远程设置的存储器，这些远程存储器可以通过网络连接至处理器21。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器22中，当被所述一个或者多个处理器21执行时，执行上述实施例1中的基于球形特征的细粒度图像分类的方法，例如，执行以上描述的图1或图2所示的各个步骤。

值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于球形特征的细粒度图像分类方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于球形特征的细粒度图像分类方法，其特征在于，所述通用卷积神经网络由多个卷积层结构和池化层结构按特定的顺序交叉组成，每层卷积层结构包含多个卷积操作和激活操作，用于特征的转换与映射，每个池化层结构包括一个池化操作，用于特征的融合，最后一个卷积层结构的输出即为整个通用神经网络提取的图像通用特征。

3.如权利要求1或2所述的基于球形特征的细粒度图像分类方法，其特征在于，所述图像球形特征以其模长表征同类图像的差异，以其角度表征异类图像的差异。

4.如权利要求1或2所述的基于球形特征的细粒度图像分类方法，其特征在于，所述利用深度超球形镶嵌将输入图像的通用特征转换成图像球形特征，具体包括：首先将图像通用特征映射到高维特征空间；然后从全部像素级图像通用特征中提取图像级通用特征，并对其进行归一化得到归一化的图像球形特征；再将该图像球形特征进行伸缩变换，得到最终的可学习的图像球形特征。

5.如权利要求4所述的基于球形特征的细粒度图像分类方法，其特征在于，将图像通用特征映射到高维特征空间的方法包括卷积层、外积或傅里叶变换。

6.如权利要求4所述的基于球形特征的细粒度图像分类方法，其特征在于，采用全局池化操作从全部像素级图像通用特征中提取图像级通用特征。

7.如权利要求1或2所述的基于球形特征的细粒度图像分类方法，其特征在于，通过输入图像的图像球形特征与不同细粒度类别特征之间的角度对输入图像进行分类，具体为：对图像球形特征相对不同细粒度类别特征之间的角度进行衡量，从而区分出图像最终的类别。

8.如权利要求7所述的基于球形特征的细粒度图像分类方法，其特征在于，通过计算图像球形特征向量间的内积或外积运算得到特征之间角度信息，利用角度信息区分出图像最终的类别。

9.如权利要求8所述的基于球形特征的细粒度图像分类方法，其特征在于，通过计算图像球形特征向量间的内积或外积运算得到特征之间角度信息，利用角度信息区分出图像最终的类别，具体为：

使用内积来度量球形特征与类别特征之间的角度大小，即score＝||S||||w||cosθ，其中θ为球形特征与类别特征之间的角度差异，w为不同细粒度类别对应的类别特征，S为输入图像的图像球形特征，球形特征通过其与类别特征之间的角度θ影响最后的类别得分，当图像球形特征与类别特征之间的角度越小，则相应余弦值将会越大，对应的score则更高，通过对不同细粒度类别设定不同的类别特征w，从输入图像中提取的球形特征通过其与不同类别特征之间的角度差异，计算出不同类别的得分，从而对整幅图像进行细粒度分类。

10.一种基于球形特征的细粒度图像分类装置，其特征在于，所述装置包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行权利要求1-9任一所述的基于球形特征的细粒度图像分类方法。