CN112528058A

CN112528058A - 基于图像属性主动学习的细粒度图像分类方法

Info

Publication number: CN112528058A
Application number: CN202011325873.1A
Authority: CN
Inventors: 宋凌云; 彭杨柳; 李伟; 尚学群; 俞梦真; 李建鳌; 李战怀; 贺梦婷
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-19
Anticipated expiration: 2040-11-23
Also published as: CN112528058B

Abstract

本发明提出一种基于图像属性主动学习的细粒度图像分类方法，该方法包括三个模块:1)多基于全卷积网络和VGG‑16的属性特征筛选模块、基于属性的图像分类模块、基于主动学习的图片选择模块。相比现有的细粒度分类模型，本方法融入了主动学习的思想，可适用于小样本数据集，且无需局部注释信息。引入目标的属性信息，以此来弥补视觉信息和语义注释之间的鸿沟，使模型具有可解释性，同时属性特征与视觉特征的融合使得模型具有良好的分类预测结果。本发明的贡献在于：①选择特定的视觉特征以预测不同的视觉属性。②基于视觉属性在不同细粒度类别之间的区别，将其作为中间层次的语义特征，弥补了分类时的语义鸿沟。③通过模仿人类专家根据属性对具有视觉相似性的目标进行辨别时的方法，使模型具有可解释性，在有限数量的标记数据上提高了细粒度的分类性能。

Description

基于图像属性主动学习的细粒度图像分类方法

技术领域

本发明属于计算机应用领域、计算机视觉、图像处理、细粒度图像分类研究，特别涉及一种弱监督的基于属性的可解释性的细粒度分类模型。

背景技术

近十年来，随着大规模标注数据集的出现以及复杂模型结构被不断地提出，图像分类工作已取得了不错的进展。然而，细粒度图像分类(Fine-grained ImageClassification)仍然是一项具有挑战性的任务。细粒度分类通常是指从视觉上看上去较为相似的超类别(如鸟类、飞机、汽车等)中识别出具有局部细微差异的子类别。该领域现有的分类方法大多依赖于附加的语义注释(如鸟的头部和两翼等)，通过训练一个定位子网使得模型能准确的定位到具有区别性的局部区域中，再训练一个分类网络以学习局部区域的特征，以此作为依据对细粒度级别的子类进行区分。这些方法带来了三个主要的缺点：①带有语义注释的局部定位信息收集成本较高，每张样例图片都需要标注一个或多个局部区域的边界框，对人力资源的要求较高，且人工结果难免出现误差；②两个子网络的目的具有细微的冲突，定位子网要求语义部分能在各个超类中共享，即每类鸟的头部或两翼要具有较高的相似性，这样才能准确的定位到具体的局部区域，而分类网络依赖局部信息的差别对子类别进行区分，这意味着局部区域应该具有较高的差异性，这种细微的冲突使得模型在两个子网之间权衡，可能会降低单个网络的性能；③这些方法不具有可解释性，对预测的分类结果无法提供相应的依据。

为了解决上述问题，我们提出了一种基于图像属性主动学习的细粒度图像分类方法。这种方法基于视觉属性在不同细粒度类别之间的区别，可以将其作为中间层次的语义特征，以弥补语义鸿沟，并具有可解释性；它可以选择特定的视觉特征以预测不同的视觉属性；它通过模仿人类专家根据属性对具有视觉相似性目标进行辨别的方式，在有限数量的标记数据上提高了细粒度的分类性能。

发明内容

针对现有技术的不足以及存在的问题，本发明提出了一种基于图像属性主动学习的细粒度图像分类方法，本方法融入了主动学习的思想，可适用于小样本数据集，且无需局部注释信息。引入目标的属性信息，以此来弥补视觉信息和语义注释之间的鸿沟，使模型具有可解释性，对不同的细粒度类别关注不同的属性信息，更符合人类专家辨别时的判断标准，同时属性特征与视觉特征的融合使得模型具有良好的分类预测结果。

本发明通过以下技术方案来实现：

步骤1，图像分类数据处理：

步骤1.1，属性预处理，将属性信息进行按类统计，删除其中出现频率小于20％的属性，对所得属性进行类别的合并，共得到N个属性分组；

步骤1.2，图像预处理，将图像随机翻转和裁剪为224×224×3的尺寸；

步骤2，提取和筛选图像属性特征：

步骤2.1，图像视觉特征提取：采用预训练的VGG-16网络对原始图像进行特征提取，取VGG-16网络第四个卷积块的输出(尺寸为28×28×512)作为图像的特征；

步骤2.2，生成属性掩模：使用预训练的全卷积网络得到224×224×N的分数矩阵，使用区域插值法将该矩阵尺寸缩小为28×28×N作为每组属性的权重，其中N表示属性组的个数；

步骤2.3，属性特征筛选：对每组得到的属性权重，与视觉特征进行按位相乘。因为每组的权重值不同，不同属性分组将放大其所关注的不同的视觉特征，而缩小对其不重要的视觉特征，从而筛选出每个大组所关注的不同视觉特征，共得到N个大小为28×28×512的属性特征。

步骤3，基于属性对图像进行分类：

步骤3.1，属性预测向量生成：将步骤2得到的属性特征通过卷积和池化操作生成属性预测向量，与真实的属性计算交叉熵损失Attribute_loss；

步骤3.2，基于属性的图像分类：分别将属性预测向量和真实向量通过基于属性的分类器得到预测的细粒度分类标签向量p1和p2，与真实的类别标签向量p0计算分类损失classification_loss2，计算过程如下：

classification_loss2＝L_{cross entropy}(p1，p2)+L_{cross entropy}(p1，p0)

其中L_{cross entropy}(·)表示交叉熵损失函数；

步骤4，基于主动学习进行图片选择；

步骤4.1，视觉特征分类预测。使用VGG-16网络得到的图像视觉特征进行细粒度分类，得到的类别预测标签向量记为p3；

步骤4.2，图片选择。利用步骤3得到的p1与p2计算置信度损失EC_loss：

EC_loss＝||p₁-p₂||₂+||p₂-p₃||₂

以此作为选择图片的依据，当输入图片EC_loss大于某个阈值时，才计算步骤3.1中的属性损失Attribute_loss，即在训练时加入该图片的真实属性信息，否则，模型只得到图片的细粒度预测类别标签向量p1。

进一步的，所述步骤2.3中所述的属性筛选方法，具体在于：

对不同属性组的视觉特征按属性的不同进行权重加成，采用如下步骤得到N个分组的属性特征图(尺寸为28×28×512)：

(1)对进行过像素分割的每张图像进行预处理。将分割图片中每个点的像素值设为该点对应的属性组标签，背景标签用0表示；

(2)在全卷积网络中输入图像和对应的分割图像，得到N个尺寸为224×224的分数矩阵。每个属性组都有一个分数矩阵，按通道进行softmax操作得到属性组权重，其值的大小表示每个像素点属于该属性组的概率大小；

(3)通过经典的分类模型VGG-16网络提取视觉特征，取第四个卷积块的输出结果作为图像特征(即Conv4)，VGG-16的前四层卷积块与全卷积共享权重参数，通过VGG-16网络输出尺寸为28×28×512的视觉特征；

(4)将全卷积得到的属性组权重作为掩模对视觉特征进行筛选。对224×224的分数矩阵进行区域插值计算使其尺寸缩小为28×28，与视觉特征保持一致。将N个缩小后的属性组权重矩阵分别与VGG-16提取到的视觉特征矩阵进行按位相乘，得到N个尺寸为28×28×512的被筛选后的特征矩阵，因为每组的权重值不同，与视觉特征进行乘法操作使得不同属性分组放大其关注的不同的视觉特征。

进一步的，所述步骤3.1中所述的属性预测向量生成方法，具体在于：

对于筛选后生成的属性特征，首先通过一个卷积核为7*7、步长为1的卷积层和一个卷积核为1*1的卷积层，再紧接一个全局平均池化层，之后进行sigmoid归一化得到属性预测向量。将得到的属性预测向量与图片真实的属性向量输入损失函数中，此处采用的损失函数为交叉熵(cross_entropy)损失，得到属性的损失值Attribute_loss。

进一步的，所述步骤3.2中所述的基于属性的图像分类方法，具体在于：

将预测的属性向量送入属性分类器中，属性分类器由两层双向长短期记忆网络(BiLSTM)外加注意力机制组成，得到的分类特征送入softmax分类层，输出分类预测结果向量p1，再将真实的属性向量同样送入该分类器中，输出分类预测结果向量p2。用p0表示图片真实的细粒度类别标签向量，则基于属性的分类网络的损失计算公式为:

classification_loss2＝L_{cross entropy}(p1，p2)+_{cross entropy}(p1，p0)

其中L_{cross entropy}(·)表示交叉熵损失函数；classification_loss2保证基于属性的分类器产生更加接近真实值的分类结果，此时分类器只关注合并后的属性大组所包含的各个细粒度对象标签。

进一步的，所述步骤4.2中所述的图片选择方法，具体在于：

将经典分类模型VGG-16前四层生成的视觉特征依次送入平均池化层和全连接层，输入尺寸为512×28×28，输出长度为1×C的预测标签向量，用p3表示，其中C表示细粒度类别；结合要求4中得到两个分类标签向量p1、p2计算可解释性置信度损失EC_loss：

EC_loss＝||p₁-p₂||₂+||p₂-p₃||₂

其中||·||₂表示求取向量的二范数。当EC_loss值较大时，说明图像本身仅利用视觉特征难以识别，所以需要专家进行标注，即从数据集中取到这个图片的真实属性标注信息加入训练，此时才在整个模型中加入要求3所述的属性损失Attribute_loss。模型训练刚开始时，属性预测不够准确，所以对刚输入的图像样例，都计算属性损失；

有了基于主动学习进行图片选择的模块，整个网络结构的分类损失计算如下：

loss＝classification_loss2+Attribute_loss

其中，Attribute_loss只有在选择到某张图像样例时才加入计算。

与现有技术相比，本发明具有以下有益的效果：

在预测分类结果的过程中，与传统的先定位到局部区域再根据其视觉特征进行分类的方法相比，本发明不需要分别训练两个相互权衡的子网，而是同时结合了视觉特征与属性特征作为分类依据，训练过程中不存在冲突，提高了网络的性能。此外，将图像的属性信息引入细粒度分类过程中，可以作为中层次的语义特征，弥补了视觉特征与局部注释之间的语义鸿沟。相比现有的细粒度分类方法，该发明不依赖于局部区域的注释信息，仅需要通过主动学习基于部分图像的属性信息，是一个弱监督的网络结构，在细粒度图像分类中应用场景更为广泛。

附图说明

图1为本发明实例中所述方法的模型图。

图2为本发明实例中所述方法的属性特征筛选模块图。

图3为本发明实例中所述方法中基于属性的图像分类模块图。

图4为本发明实例中所述方法中基于主动学习的图片选择模块图。

具体实施方案

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本方法基于图像属性主动学习的细粒度图像分类方法，该模型由三个子模块构成：基于全卷积网络和VGG-16的属性特征筛选模块、基于属性的图像分类模块、基于主动学习的图片选择模块。整体模型示意图如图1所示，具体过程如下所述：

步骤一：图像数据集的预处理

我们使用加州理工学院收集的CUB200-2011鸟类细粒度数据集进行实验，该数据集共有11788张鸟类图像，包含200类细粒度的鸟类子类，其中训练数据集有5994张图像，测试集有5794张图像，每张图像均提供了图像类标签信息以及鸟类的属性信息。数据集分别从15个局部区域对属性进行标注，具体信息如下表1所示。

表1：属性标注信息

将数据集的属性信息按类别进行统计，可以看出类别之间的属性分布大致分为有两种情况：两个类别之间的属性信息较为相似，或者两个类别之间的属性信息相差较大。这也说明了属性信息在细粒度类别的范畴内有一定的参考价值，某些类别具有特有的例如形状或颜色的属性特征，是其他类别没有的。我们可以依据类别之间的属性相似度，对细粒度的类别进行合并，得到基于属性特征的大组。首先，通过统计各个细粒度类别中每张图片的属性分布频率，参考该频率确定细粒度类别的属性信息，例如，如果一个属性在某个类别中出现了超过20％次，则认为该类别具有这个属性，否则认为该属性只出现在个别图片中，是噪声。其次，根据属性信息对细粒度类别两两求取皮尔逊系数，以表示类别之间的相似性。最后，将皮尔逊系数大于0.9的类别合并为一个大组，每个细粒度类别都对应一个大组组别标签group_label，由此达到组间类别的属性值差别大而组内属性差别小的结果。假设此处共得到N个属性组。

步骤二：基于全卷积网络和VGG-16的属性特征筛选

如上所述我们对图片的属性信息进行去噪，将每个类别中出现频率小于20％的属性从该类中剔除，使属性更能反映类别的特异性。随后在此数据集上分别对全卷积网络和传统分类网络VGG-16上进行微调，用得到的权重参数对整个模型进行训练。

2.1基于VGG-16的视觉特征生成

全卷积网络我们选择了经典的分类模型VGG-16用于提取视觉特征，对输入图像进行随机裁剪、翻转并将其尺寸统一处理为224×224×3，取第四个卷积块的输出结果作为提取到的图像特征(即Conv4)，VGG-16的前四层卷积块与全卷积共享权重参数，通过VGG-16网络输出得到尺寸为28×28×512的特征图。

2.2基于全卷积网络生成属性组掩模

为了使细粒度图像数据集用于全卷积网络的训练中，要先对进行过像素分割的每张图像进行预处理。将分割图片中每个点的像素值修改为该点对应的大组组别标签group_label，背景的group_label用0表示。全卷积网络参数利用在VOC数据集上预训练好的权重进行初始化，对细粒度图像数据集进行微调，使其准确度达到90％以上。

基于图像属性主动学习的细粒度图像分类方法的属性特征筛选模块如图2所示，对输入图像进行随机裁剪、翻转并将其尺寸统一处理为224×224×3，分割图片也做同样的处理，全卷积网络参数初始化为微调得到的权重值进行训练。全卷积网络的输出图像尺寸不变，即得到N个尺寸为224×224的分数矩阵。每个属性组都有一个分数矩阵，按通道进行softmax操作，其值的大小表示每个像素点属于该属性组的概率大小，也就是图2所示的属性组掩模。

2.3按属性进行视觉特征矩阵的筛选

将全卷积得到的属性组掩模作为权重矩阵对视觉特征进行筛选。先对224×224的分数矩阵进行区域插值计算使其缩小到28×28的尺寸，与视觉特征图保持一致。将N个缩小后的属性组权重分别与VGG-16提取到的视觉特征图进行按位相乘，得到N个尺寸为28×28×512的被筛选后的特征图，作为生成的属性特征向量。因为每组的权重值不同，与视觉特征进行乘法操作后，不同属性分组将放大其所关注的不同的视觉特征。

步骤三：基于属性的图像分类

基于图像属性主动学习的细粒度图像分类方法的基于属性的图像分类模块如图3所示。对于上述得到的属性特征向量，将其送入卷积层和全局平均池化层(Global AveragePooling)，得到属性预测向量，其中每层网络结构参数设置如下表2：

表2：生成属性预测向量

如图3所示，生成的属性预测向量通过sigmoid归一化后与图片真实的属性向量计算损失，此处采用的损失函数为交叉熵损失，得到属性的损失值Attribute_loss。分别将预测和真实的属性向量送入属性分类器中，属性分类器由两层双向长短期记忆网络(BiLSTM)外加注意力机制组成，得到的分类特征送入softmax分类层，分别输出由预测的属性向量得到的分类预测结果p1以及真实属性得到的分类结果p2。

用p0表示图片真实的细粒度类别标签向量，则基于属性的分类网络的损失计算公式为:

classification_loss2＝L_{cross entropy}(p1，p2)+L_{cross entropy}(p1，p0)

其中L_{cross entropy}(·)表示交叉熵损失函数。classification_loss2保证基于属性的分类器产生更加接近真实值的分类结果，此时分类器只关注合并后的属性大组所包含的各个细粒度对象标签。

步骤四：基于主动学习的图片选择

基于图像属性主动学习的细粒度图像分类方法的基于主动学习的图片选择模块如图4所示。在属性特征筛选模块中，我们得到通过VGG-16经典分类模型前四层卷积生成的视觉特征，将其送入由平均池化层和全连接层组成的简单分类结构中，网络结构的输入输出尺寸如下表3所示，其中C表示细粒度类别：

表3：生成图像标签向量

用p3表示上述直接用图像特征分类得到的图像标签向量。在基于属性的分类模块由预测的属性结果和真实属性结果分别得到两个分类标签向量p1、p2，由此计算可解释性置信度损失EC_loss，公式如下：

EC_loss＝||p₁-p₂||₂+||p₂-p₃||₂

其中||·||₂表示求取向量的二范数。基于可解释性置信度的主动学习模块可以衡量用生成的属性特征分类的结果和用图像视觉特征分类结果之间的差别，当差别较大即EC_loss值较大时，说明图像本身由于某种因素(比如目标形体不完整)难以识别，所以需要专家进行标注，即从数据集中取到这个图片的真实属性标注信息加入训练，此时才计算属性损失Attribute_loss。模型训练刚开始时，属性预测不够准确，所以对刚输入的图像样例，都计算属性损失。

loss＝classification_loss2+Attribute_loss

其中，Attribute_loss只有在选择到某张图像样例时才加入计算。Attribute_loss保证生成的属性特征向量更加接近真实属性值，classification_loss2保证基于属性的分类器产生更加接近真实图像标签的分类结果。由视觉特征进行分类产生的损失classification_loss1用来保证传统分类器的结果更加接近真实的标签向量，但由于传统模型在细粒度数据集上效果较差，本方法不需要让它的结果和基于属性的分类器结果接近，而且传统的分类模型参数事先应该在所用的细粒度数据集上进行预训练，因而在最终整个网络的损失中不计算这部分损失。

如上所述模型搭建在Pytorch深度学习框架中，使用GPU进行计算，CUDA版本为11.0。在训练过程中，主动学习模块图片选择的实现主要是EC_loss阈值的选择时，每完成一个epoch的训练后，求其EC_loss的平均值，作为下一轮训练时的阈值，进行新的epoch训练时，若图像的EC_loss大于此阈值，则选择该图片计算属性损失。

本方法的动机是模仿人类专家，根据属性判断物种应该比直接用视觉特征更加准确，因而我们在评估模型时，基于属性的分类结果应该比传统的分类模型预测的类别更加准确。即上述所采用的基于VGG-16网络得到的预测结果以及分类损失classification_loss1，可以作为baseline对模型的效果进行验证。本方法在不依赖于其他局部标注信息的情况下，保证了细粒度分类结果有更高的准确度，在性能上有较好的提升。

Claims

1.一种基于图像属性主动学习的细粒度图像分类方法，其特征在于包括以下步骤：

步骤1，图像分类数据处理：

步骤2，提取和筛选图像属性特征：

步骤3，基于属性对图像进行分类：

classification_loss2＝L_{cross entropy}(p1，p2)+L_{cross entropy}(p1，p0)

其中L_{cross entropy}(·)表示交叉熵损失函数；

步骤4，基于主动学习进行图片选择；

EC_loss＝||p₁-p₂||₂+||p₂-p₃||₂

2.根据权利要求1所述的基于图像属性主动学习的细粒度图像分类方法，其特征在于：所述步骤2.3中所述的属性筛选方法，具体在于：

3.根据权利要求1所述的基于图像属性主动学习的细粒度图像分类方法，其特征在于：所述步骤3.1中所述的属性预测向量生成方法，具体在于：

4.根据权利要求1所述的基于图像属性主动学习的细粒度图像分类方法，其特征在于：所述步骤3.2中所述的基于属性的图像分类方法，具体在于：

将预测的属性向量送入属性分类器中，属性分类器由两层双向长短期记忆网络(BiLSTM)外加注意力机制组成，得到的分类特征送入softmax分类层，输出分类预测结果向量p1，再将真实的属性向量同样送入该分类器中，输出分类预测结果向量p2。用p0表示图片真实的细粒度类别标签向量，则基于属性的分类网络的损失计算公式为：

classification_loss2＝L_{cross entropy}(p1，p2)L_{cross entropy}(p1，p0)

5.根据权利要求1所述的基于图像属性主动学习的细粒度图像分类方法，其特征在于：所述步骤4.2中所述的图片选择方法，具体在于：

EC_loss＝||p₁-p₂||₂+||p₂-p₃||₂

loss＝classification_loss2+Attribute_loss