CN112446354A

CN112446354A - 一种基于多尺度显著图定位的细粒度图像分类方法

Info

Publication number: CN112446354A
Application number: CN202011471681.1A
Authority: CN
Inventors: 张雨晨; 邢建国
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-05

Abstract

本发明公开了一种基于多尺度显著图定位的细粒度图像分类方法，具体包括如下步骤：101）预处理步骤、102)获取代表性特征图步骤、103）图像块获取步骤、104）训练预测步骤；本发明提供基于特征图分组的显著性区域定位方法，将不同尺度，且不同部位的图像块放入网络，充分利用多粒度多尺度的信息；并且通过特征图语义分组方式，降低了整体算法的消耗，同时对显著性区域定位更加准确的一种基于多尺度显著图定位的细粒度图像分类方法。

Description

一种基于多尺度显著图定位的细粒度图像分类方法

技术领域

本发明涉及图像分类技术领域，更具体的说，它涉及一种基于多尺度显著图定位的细粒度图像分类方法。

背景技术

伴随着计算机技术的高速发展，数码产品得到广泛运用，随之而来，图像数据如雨后春笋一般急剧增长，使图像管理成为急需解决的问题。依靠传统人工方式对图像进行分类、组织和管理非常耗时且代价昂贵，所以，通过计算机对图像中目标内容进行自动分析和处理，从而将图像数据快速、规范、自动的进行组织、归类和管理，是一种有效解决图像管理问题的方法。图像分类一般是指粗粒度的图像分类，主要是对物体的不同类别进行分类，比如，“鸟”和“狗”，而相比较，细粒度图像分类是对同一类物体下不同子类进行分类，比如，“狗”类别下“博德猎犬”和“爱尔兰猎犬”的分类，图像分类是计算机视觉的核心问题，伴随着2017年最后一届ImageNet比赛结束，标志粗粒度图像分类已经走到一个拐点，Beyer等人针对粗粒度图像分类瓶颈展开分析，将预测错误图片分成“明显预测错误”、“实际预测正确”、“无法确定”三大类进行统计分析，其中，“无法确定”类主要是由于细粒度类别造成的错分类，因此解决细粒度图像分类难点有助于整个分类问题获得关键性突破，而且随着人们日常应用的需求，细粒度图像分类的应用也愈发普及，细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。

发明内容

本发明克服了现有技术的不足，提供基于特征图分组的显著性区域定位方法，将不同尺度，且不同部位的图像块放入网络，充分利用多粒度多尺度的信息；并且通过特征图语义分组方式，降低了整体算法的消耗，同时对显著性区域定位更加准确的一种基于多尺度显著图定位的细粒度图像分类方法。

本发明的技术方案如下：

一种基于多尺度显著图定位的细粒度图像分类方法，具体包括如下步骤：

101)预处理步骤：对图片进行预处理，将其统一大小为448×448×3，采用ResNet-50作为模型特征提取网络来对图片进行处理，分别对ResNet-50处理后的conv3_4、conv4_6层进行1×1卷积，卷积后进行SG约束，约束1×1卷积后的特征图按语义进行分组，分组数量为G个，此处G分别为5和3；

102)获取代表性特征图步骤：对步骤101)中分组后得到的特征图进行组内按通道进行求和，再取平均数，得到代表性特征图；对ResNet-50处理后的最后一层conv5_3处的特征图，进行按通道求和并求均值，得到数量为1的特征图，从而得到三组的每个通道的特征图，即conv3_4、conv4_6、conv5_3处分别得到5个通道、3个通道、1个通道的代表性特征图；

103)图像块获取步骤：对三组的每个通道的特征图进行激活得到梯度图，选择梯度图中最大响应点作为关键点，然后以关键点为中心生成边框，按边框四角坐标在原图上进行裁剪得到图像块；

104)训练预测步骤：将步骤103)获得的不同尺度不同位置的图像块，将其放入ResNet-50网络中进行训练得到训练模型；将原图进过训练模型预测的结果和所有图片块依次进过训练模型取得的预测结果进行取平均，得到最后的分类结果。

进一步的设定一个卷积特征X∈R^N×HW，将每个通道表示为一个特征图m_i∈R^HW，其中i∈[1,N]，m_i表示第i个通道上的特征图；X表示ResNet-50处理后的一个特征图，N表示通道数，H,W分别表示特征图的长和宽。

每一个特征图作为一个语义空间，将其划分为G组，则S(m_i)∈[1,G],S(m_i)是一个映射方程，该方程映射一个通道到语义组，卷积通道被均匀的分组，其中i∈[1,N]，m_i表示第i个通道上的特征图；若

则有S(m_i)＝S(m_j)；为了得到语义组各分组的特征，首先安排通道到语义分组的次序，具体的定义公式如下：

其中，A^T∈R^N×N为语义映射矩阵，由于不同的语义部分位于给定图像的不同区域，对应于卷积特征的不同位置，利用此信息进行语义分组；[m₁,m₂,…,m_N]为原特征图集合，

为原特征图经过语义映射矩阵A^T分组后的特征图集合。s.t.意为使…满足，表示前式要使得后式满足相等关系，

表示

通过语义映射后分到

组。

令所有的特征图即对相同或者不同语义组的通道进行优化，使其在空间上共享相应的大小重叠区，具体通过语义分组损失函数进行具体确认，具体公式如下：

其中，L_intra表示语义分组的组内损失，通过计算所有组组内两两特征图的距离，并进行累加求得。L_inter表示组间损失，通过计算不同组组间两两特征图之间的距离，并进行累加求得。m_i,m_j两两特征图的成对关系为

d_ij反映两个特征图的距离，即m_i,m_j特征相似性的程度。

进一步的，步骤103)的具体处理如下：

对每个通道p的平均输出相对于输入图像像素I_x,y的梯度，具体公式如下：

其中，

表示为图像I∈R^W×H经ResNet-50处理输出的特征图,p表示特征图的通道索引，1≤p≤P。j和j′是通道中输出元素的索引；

梯度的绝对值显示图像中哪些像素对通道的输出有最大的影响，使用最大激活点从这些图中计算训练图像的部分建议位置，具体公式如下：

I为训练图像，i＝1,…,N，p＝1,…,P为部分建议位置，对应CNN中的中间输出层的通道，μ_i,p是通过计算通道p对输入图像i的激活图，并定位最大响应来确定的；使用归一化将部分建议位置μ_i,p∈[0,1]²作为输入，若通道的激活映射等于0，则认为该部分建议是隐藏的，将此部分作为训练的一部分，实现了卷积神经网络学习了一个隐式检测器。

进一步的，还包括补偿步骤，采用中心损失和交叉熵损失联合对神经网络进行约束，中心损失具体采用如下公式：

其中，

表示第y_i个类别的特征中心，x_i表示全连接层之前的特征；m表示mini-batch的大小；

交叉熵损失具体采用如下公式：

其中，i表示图片，y_i表示图片预测的类别，

表示图片真实的标签；

两者整合后的最终约束公式如下：

本发明相比现有技术优点在于：

本发明采用更细尺度的判别性区域定位，帮助模型学习到更为精细的特征，而不同尺度的图像能够为模型提供不同层次的图像信息，融合不同尺度的图像特征能使最终的特征包含更为丰富的图像信息，有利于进一步提高细粒度图像的分类性能。

本发明根据卷积特征的通道数生成同样数量的关键点在进行筛选，在通道数较多的情况下计算消耗比较大，如果生成更少但具有更高代表性的关键点，不仅能够降低计算开销，同时也进一步提升算法的分类精度。

附图说明

图1为本发明的整体网络框架示意图；

图2为本发明的ResNet-50不同深度层次的特征图可视化示意图；

图3为本发明的卷积特征分组示意图；

图4为本发明实验的三个细粒度图像数据集部分图像示例图。

具体实施方式

下面详细描述本发明的实施方式，其中自始至终相同或类似的标号表示相同或类似的元件或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明而不能作为对本发明的限制。

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科技术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样的定义，不会用理想化或过于正式的含义来解释。

各实施方式中提到的有关于步骤的标号，仅仅是为了描述的方便，而没有实质上先后顺序的联系。各具体实施方式中的不同步骤，可以进行不同先后顺序的组合，实现本发明的发明目的。

下面结合附图和具体实施方式对本发明进一步说明。

实施例：

如图1至图4所示，一种基于多尺度显著图定位的细粒度图像分类方法，具体包括如下步骤：

101)预处理步骤：对图片进行预处理，将其统一大小为448×448×3，采用ResNet-50作为模型特征提取网络来对图片进行处理，分别对ResNet-50处理后的conv3_4、conv4_6层进行1×1卷积，卷积后进行SG约束，约束1×1卷积后的特征图按语义进行分组，分组数量为G个，此处G分别为5和3。

具体对ResNet-50不同深度层次的特征图进行可视化，如图2所示，Conv3_4、Conv4_6等低层次特征往往表示形状，纹理等方面的特征，而Conv5_3等高层次特征表示语义方面的特征。而细粒度图像分类，由于其类内差异性高，内间相似度高的问题，充分利用不同尺度的图像块进行训练和参与分类结果是尤为必要的。通过不同尺度不同粒度的特征信息进行相互补充，如全局信息对对象进行描述，局部不同尺度信息对细粒度的部件进行描述，以此，将不同层次信息的相互组合，对细粒度图像内容进行完整的特征表征，可以大大推进细粒度图像分类的性能。

因此，为了充分挖掘各层次信息，利用ResNet-50不同深度处的特征图进行显著性区域定位以获取多尺度部件信息。由于需要对浅层纹理形状信息进行细粒度的提取，所以，在浅层特征处进行小尺度的局部块定位，对高层语义信息进行全局特征的提取，故在高层特征处进行大尺度的图像块定位。

通过对ResNet-50处的conv3_4，conv4_6层的1×1卷积后添加SG约束，约束1×1卷积后的特征图按语义进行分组，分组数量为G个，此处G＝5，3，可将该处特征图按通道划分为若干组。

102)获取代表性特征图步骤：对步骤101)中分组后得到的特征图进行组内按通道进行求和，再取平均数，得到代表性特征图。

对ResNet-50处理后的最后一层conv5_3处的特征图，进行按通道求和并求均值，得到数量为1的特征图。即再将最后一层，即Conv5_3处的特征图进行按通道求和并求均值，得到数量为1的特征图，作为高层语义特征的代表性特征图，为全局显著性区域定位做准备。

通过设定一个卷积特征X∈R^N×HW，将每个通道表示为一个特征图m_i∈R^HW，其中i∈[1,N]，m_i表示第i个通道上的特征图；X表示ResNet-50处理后的一个特征图，N表示通道数，H,W分别表示特征图的长和宽；

表示

通过语义映射后分到

组。

d_ij反映两个特征图的距离，即m_i,m_j特征相似性的程度。

对conv5_3处的特征图按通道进行求和并取均值，通过上述操作，获得了按语义进行分组的conv3_4，conv4_6，conv5_3层处的特征图，数量分别为5张、3张、1张。

103)图像块获取步骤：对三组的每个通道的特征图进行激活得到梯度图，选择梯度图中最大响应点作为关键点，然后以关键点为中心生成边框，即完成多尺度多部件的显著性区域定位。按边框四角坐标在原图上进行裁剪得到图像块。具体处理如下：

其中，

梯度的绝对值显示图像中哪些像素对通道的输出有最大的影响，其类似于实际输出的层，它允许定位图像区域，该通道对相应对应图像区域是敏感的。但是因为深度神经激活图的分辨率要高得多，所以使用最大激活点从这些图中计算训练图像的部分建议位置，具体公式如下：

I为训练图像，i＝1,…,N，p＝1,…,P为部分建议位置，对应CNN中的中间输出层的通道，μ_i,p是通过计算通道p对输入图像i的激活图，并定位最大响应来确定的。使用归一化将部分建议位置μ_i,p∈[0,1]²作为输入，若通道的激活映射等于0，则认为该部分建议是隐藏的，这种稀疏性自然发生是由于使用了作为非线性激活的整流线性单元。因此运用这样方式实现图像定位，将此部分作为训练的一部分，而实现了卷积神经网络学习了一个隐式检测器。

104)训练预测步骤：将步骤103)获得的不同尺度不同位置的图像块，总共9张图像块，将其放入ResNet-50网络中进行训练得到训练模型；将原图进过训练模型预测的结果和所有图片块依次进过训练模型取得的预测结果进行取平均，得到最后的分类结果。

还可以包括补偿步骤，对训练模型就行调整，具体采用中心损失和交叉熵损失联合对神经网络进行约束，中心损失具体采用如下公式：

其中，

表示第y_i个类别的特征中心，x_i表示全连接层之前的特征。m表示mini-batch的大小；

交叉熵损失具体采用如下公式：

其中，i表示图片，y_i表示图片预测的类别，

表示图片真实的标签；

两者整合后的最终约束公式如下：

采用在三个常用的公开数据集，即CUB-200-2011、Stanford Cars和FGVC-Aircraft上进行了实验。如图4所示，图中选取了数据集中的部分图像作为示例，由图可见，同一数据集中不同子类具有高度的相似性。

评价标准采用分类准确度accuracy，其计算公式如下：

其中,n_t表示预测正确的图像数，n表示测试样本的总数量。

使用Pytorch在TITAN 2070super GPUs上进行所有实验。原始图片的大小统一调整为448×448，整个网络的使用SGD优化，动量为0.9，权重衰减率为1e-6，初始学习率、批处理大小和训练周期分别为1e-3，32和120，设置patience＝4，当网络测试精度连续4轮不提升时，就降低学习率为初始学习率的0.1倍。其他显著性图像块的大小统一调整为256×256，训练参数不变。

为了更好的验证，在CUB-200-2011、Stanford Dogs及FGVC-Aircraft三种细粒度分类的经典数据集上与近五年相关前沿算法进行比较。具体结果分如下表1、表2、表3：

表1 在CUB-200-2011数据集上的精度对比

表2 在Stanford Cars数据集上的精度对比

表3 在FGVC-Aircraft数据集上的精度对比

综上，本方案融合不同尺度的细粒度图像特征信息来提高分类精度。首先，利用不同阶段的特征图分组，然后对组进行组内平均池化，最后通过计算梯度图寻找最大相应位置来有效定位信息最为丰富的局部区域，利用这些更为多尺度多粒度的判别性特征为细粒度图像分类模型利用定位的多尺度多部件的显著性图像块，为网络训练提供更为丰富的细节信息。为最终的分类提供丰富的决策依据，提升细粒度模型的分类性能。与其他经典的细粒度图像分类算法相比，本方案获得了更好的分类效果，能够有效地提高细粒度图像的分类性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。