CN111738355A

CN111738355A - 注意力融合互信息的图像分类方法、装置及存储介质

Info

Publication number: CN111738355A
Application number: CN202010710654.9A
Authority: CN
Inventors: 李硕豪; 王风雷; 张军; 张萌萌; 雷军; 何华; 谭真; 蒋林承
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-10-02
Anticipated expiration: 2040-07-22
Also published as: CN111738355B

Abstract

本发明提供了一注意力融合互信息的图像分类方法、装置及存储介质，在所述图像分类方法中，我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成所述图像分类网络，以提高分类网络的性能和获得良好的特性，在所述分类网络中，所述注意力分类网络用作提取区分零件特征的过滤器，所述聚类模块充当半监督学习指导，并利用语义相似性内部类来提高分类性能，此外所述分类网络可以使用没有任何类别标签的数据训练网络，适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。

Description

注意力融合互信息的图像分类方法、装置及存储介质

技术领域

本发明属于计算机图像识别技术领域，具体是涉及一种注意力融合互信息的图像分类方法、装置及存储介质。

背景技术

随着深度学习的发展，细粒度的图像分类备受关注。但是，这仍然是一个非常具有挑战性的问题，因为相同子类别中的对象可能呈现较大的外观变化，而来自不同子类别的对象可能呈现出更多相似的外观。图像分类中的传统问题，例如比例尺和视角的变化，复杂的背景和遮挡，由于标记细粒图像的成本大幅增加而变得更加难以处理。相比于通用的图像分类任务，细粒度图像分类拥有的数据集非常少。

一个好的模型应该能够发现并代表子类别中的细微视觉差异。为了获得目标局部特征表示，许多作品都引用了人工标注的边界框。由于大量的人力投入使部件的定义和标注既昂贵又主观，因此使用分类标签学习弱监督部件模型的方法取得了重大进展。这些方法通常由两个阶段组成，包括局部定位和细粒度特征学习。局部定位阶段旨在找到有判别性的部件，这通常被称为部件注意力学习阶段。研究人员提出作为多注意卷积神经网络（MA-CNN）进行细粒度识别，并在许多细粒度分类数据集中取得可喜的结果。但是，用于训练通道注意模型的监督信息是通过对所有训练数据集的峰值响应进行聚类来进行的，这会受到图像中对象的某些特定模式的频率影响。

发明内容

有鉴于此，本发明提供了一种注意力融合互信息的图像分类方法、装置及存储介质，以解决现有技术提供的分类网络准确性不高以及需要较多数据集的问题。

一种注意力融合互信息的图像分类方法，包括：

获取属于同一类别的第一输入图像和第二输入图像，

将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中，

分别提取所述第一输入图像和第二输入图像的全局特征，并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率，

提取所述第一输入图像的第一局部特征，并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图，并通过所述注意力图对所述第一局部特征进行加权，以获得注意力加权特征，

将所述加权特征输入至线性分类器中进行分类，并获取所述线性分类器的交叉熵损失，

根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息，并根据最大化的所述互信息获取不变信息聚类损失，

根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络，以进行所述第一输入图像的分类预测。

优选地，还包括构建注意力融合互信息的图像分类网络，所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络，根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络的步骤包括：

在获取所述交叉熵损失后，将所述交叉熵损失反向传播至所述注意力分类网络中，以训练所述注意力分类网络，

在获取所述不变信息聚类损失后，将所述不变信息聚类损失反向传播至所述聚类网络中，以训练所述聚类网络。

优选地，根据所述第一输入图像获取所述第二输入图像，所述第一输入图像为待分类图像，所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片，

所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。

优选地，根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述所述第一局部特征的注意力度, 并通过所述注意力图对所述第一局部特征进行加权，以获得注意力加权特征的步骤包括：

采用加法运算使所述第一局部特征中的每个像素位置的局部特征向量

和全局特征

组合在一起，然后学习从结果描述符到兼容性评分的单个全连接层映射，以定义兼容性评分函数

，使得

，其中，

，

对所述兼容性评分函数

进行归一化，以获得所述注意力图

，所述注意力图

中的第

个元素为

，其中，

使所述注意力图

对所述第一局部特征中的每个像素位置的局部特征向量

进行加权，以获得所述注意力加权特征

，其中，

所述全局特征的特征向量为

，所述第一局部特征的局部特征向量为

，

，所述

为所述第一局部特征向量中的第

个局部激活向量，

为学习与所述第一输入图象类别相关的权重向量。

优选地，使所述分类网络和聚类网络共享相同的特征提取参数。

一种注意力融合互信息的图像分类装置，其特征在于，包括：CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器，

所述CNN模块为双输入CNN模块，以分别接收属于同一类别的第一输入图像和第二输入图像，用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征，

所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图，

所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权，以获得注意力加权特征，

所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类，并获取交叉熵损失，

所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息，并根据最大化的所述互信息获取聚类网络的不变息聚类损失，

其中，所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练，以对所述第一输入图像进行分类预测，

所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络，所述CNN模块和所述不变信息聚类模块构成所述聚类网络。

优选地，所述的图像分类装置还包括所述第二输入图像获取模块，用于将所述第一输入图像进行随机扰动转换，以获得所述第二输入图像，所述第一输入图像为待分类图像，

所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种，

优选地，所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层，所述图像分类网络还包括第三完全卷积层，

所述第一卷积层用于接收所述第一输入图像和第二输入图像，以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层，所述第二卷积层输出所述第一输入图像的第一局部特征，所述第三卷积层与所述第二卷积层的输出相连，以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层，所述第一完全卷积层分别输出所述第一全局特征和第二全局特征，

所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率，

所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。

优选地，所述注意力图

的计算公式为：

所述注意力加权特征

的计算公式为：

所述全局特征的特征向量为

，所述第一局部特征的局部特征向量为

，

，所述

为所述第一局部特征向量中的第

个局部激活向量，

为学习与对象类别相关的权重向量，

为兼容性评分函数，

，以及

。

一种计算机可读存储介质，其特征在于，所述可读存储介质上存储的计算机程序被处理器执行时实现如上述任意一项所述图像分类方法。

本发明的有益效果为：本发明提供的所述图像分类方法中，我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络，以提高分类网络的性能和获得良好的特性，在所述分类网络中，所述注意力分类网络用作提取区分零件特征的过滤器，所述聚类模块充当半监督学习指导，并利用语义相似性内部类来提高分类性能，此外所述分类网络可以使用没有任何类别标签的数据训练网络，适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。

附图说明

图1为依据本发明提供的注意力融合互信息的图像分类网络框图；

图2为依据本发明提供的所述分类网络的注意力图的可视化图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例，都属于本发明保护的范围。此外需要说明的是，在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。

在本发明实施例中提供的注意力融合互信息的图像分类方法主要包括以下步骤步骤1至步骤5，但是在依据本发明的其它实施例中，下列各个步骤的先后顺序不局限于本实施例中所示的。

步骤1：获取属于同一类别的第一输入图像和第二输入图像，并将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中。

根据所述第一输入图像获取所述第二输入图像，所述第一输入图像为待分类图像，所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片，所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。

步骤2：分别提取所述第一输入图像和第二输入图像的全局特征，并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。

步骤3：提取所述第一输入图像的第一局部特征，并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图，并通过所述注意力图对所述第一局部特征进行加权，以获得注意力加权特征，

步骤4：将所述加权特征输入至线性分类器中进行分类，并获取所述线性分类器的交叉熵损失。

步骤5：根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息，并根据最大化的所述互信息获取不变信息聚类损失，

步骤6：根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络，以进行所述第一输入图像的分类预测。

在进行步骤2之前，还需先构建如图1所示的注意力融合互信息的图像分类网络，所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络，所述注意力类网络和聚类网络共用CNN模块提取二者所需要的特征参数，所述注意力类网络和聚类网络共享相同的特征提取参数。此外，在本发明实施例提供的所述图像分类方法中，在获取所述交叉熵损失后，将所述交叉熵损失反向传播至所述注意力分类网络中，以训练所述注意力分类网络，以及在获取所述不变信息聚类损失后，将所述不变信息聚类损失反向传播至所述聚类网络中，以训练所述聚类网络。而在依据本发明的其它实施例中，也可以先将所述交叉熵损失和不变聚类损失融合后，即将二者进行加权后获得的总损失传播到所述图像分类网络。

如图1所示，所述注意力融合互信息的图像分类网络，其特征在于，包括：CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器。所述CNN模块为双输入CNN模块，以分别接收属于同一类别的第一输入图像和第二输入图像，用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征，所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图，所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权，以获得注意力加权特征，所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类，并获取交叉熵损失，所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息，并根据最大化的所述互信息获取聚类网络的不变息聚类损失。其中，所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练，以对所述第一输入图像进行分类预测。所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络，所述CNN模块和所述不变信息聚类模块构成所述聚类网络。所述的图像分类装置还包括所述第二输入图像获取模块（图1中未画出），用于将所述第一输入图

像进行随机扰动转换，以获得所述第二输入图像

，所述第一输入图像为待分类图像，所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。如图1所示，所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层，所述图像分类网络还包括第三完全卷积层。所述第一卷积层用于接收所述第一输入图像和第二输入图像，以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层，所述第二卷积层输出所述第一输入图像的第一局部特征，所述第三卷积层与所述第二卷积层的输出相连，以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层，所述第一完全卷积层分别输出所述第一全局特征和第二全局特征。所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。

需要说明的是在图1中为了便于展示所述分类方法的分类过程示意了两个第一卷积层、两个第二卷积层、两个第三卷积层、两个第一完全卷积层、两个第二完全卷积层，但实际上所述分类网络仅仅包括一个第一卷积层、一个第二卷积层、一个第三卷积层、一个第一完全卷积层、一个第二完全卷积层。所述第一输入图像依次经过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第一语义概率后，再使第二输入图图像依次通过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第二语义概率，即在图1中，上一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是所述分类网络真正包含的，而下一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是为了便于示意分类方法画出的示意模块，并非真实存在的。

本发明的所述注意力分类网络基于加强全局特征向量与局部特征向量之间的兼容性进行特征提取和分类。让我们将所述第一全局特征的特征向量表示为

，将所述第一局部特征向量表示为

。然后我们得到

。在此，每个

是第一局部特征的第

个空间位置(共有

个空间位置)输出激活向量。基于注意力分类网络通过限制分类器仅使用局部特征向量的集合来工作，该集合由兼容性评分选择和加权，因此我们需要先定义兼容性评分函数。

我们在所述注意力估计模块中采用加法运算使所述第一局部特征中的每个像素位置的局部特征向量

和全局特征

，使得

，其中，

。在这里，权重向量

可以解释为学习与第一输入图像类别相关的通用特征集。如果

和

的维数不同，要学习一个线性函数，将

映射到

的维数，得到

。这样，对于所述第一局部特征的局部特征层，容易获得兼容性分数集

，其中

是图像特征在

到

的维数的线性映射下的局部特征。为了获得最终的注意力图，

然后在所述注意力估计模块中，我们通过Softmax操作对兼容性分数进行归一化，以获得所述注意力图

，其中：

在所述注意力加权模块中，注意力图

用于加权选择每个像素位置的特征向量。我们得到了所述注意力加权特征的特征向量

。在仅使用一个本地层的情况下，将

用作所述线性分类器分类的最终图像特征。在使用一个以上的局部层的情况下，我们将多个所述注意力加权特征的特征向量连接起来，然后将其输入到最终的线性分类器中，并计算获取所述线性分类器分类的交叉熵损失，以将所述交叉熵损失方向传播至所述注意力分类网络中训练所述注意力分类网络。

所述聚类网络为不变信息聚类网络，下面我们将具体阐述以下本发明提供的不变信息聚类聚类网络的如何根据所述第一语义概率和第二语义概率获得所述第一输入图像

和第二输入图像

的最大互信息。

假设

和

是为所述第一输入图像和第二输入图像，不变信息聚类可以形式化为最大化样本对投影之间的互信息：

当

是一个输出容量较小的网络（通常称为“瓶颈”）时，最大化编码变量之间的互信息可以学习特征表示

，该表示可以保留

和

之间的共同点，同时丢弃了特定于实例的详细信息。

为输出空间，

，这是一个有限的类标签集合。

分类网络

以Softmax层结尾，因此输出

可解释为离散随机变量

在

类上的分布，表示为

。我们首先使用所述分类网络和第一输入图像

和第二输入图像

计算对应的类别分配变量

和

。所述输入图像包含相同的对象，变量

与配对变量

应该具有很强的统计关系，在数据集上被边缘化之后，联合概率分布由

的矩阵

给出，其中

的

行和

列的元素构成

。

边际

和

可以通过对矩阵

的行和列求和而获得。对于每个样本对

，都有

，考虑对称问题，

使用

对称化。因此所述不变信息的聚类网络的目标函数可以通过将矩阵

插入到互信息表达式中来计算，从而获得所述最大化的互信息

，其结果为：

由于不变信息聚类的目标是最大化互信息

，使用随机梯度下降优化方法形成端到端的训练过程，因此不变信息聚类损失

的计算公式如下被表述为：

本发明还提供了一种如图所述的所述图像分类装置，还提供了一种计算机可读存储介质，所述可读存储介质上存储的计算机程序被处理器执行时实现本发明提供的意一项所述图像分类方法。

为了证明本发明提供的图像分类方法和图像分类装置的有效性，我们将本发明提供的所述图像分类网络模型在细粒度数据集Caltech-UCSD Birds(CUB-200-2011)上进行评估。我们以错误率作为模型评价的指标，以CUB-200-2011数据集用作评估数据集，其包含200类的11788张鸟类图片，其中5994张训练集，5794张测试集，将本发明提供的分类网络模型与几个基线模型进行对比，对比的结果如表1所示。其中，所述基线模型为：VGG模型，其是基础的深度网络分类模型；GOOGLE-GAP模型，其通过激活输出学习注意力机制，并用于指导模型的训练；GOOGLE-GAP模型，其的基础模型是GoogleNet；RN-34模型，其通过从教师模型到学生模型迁移注意力来提高模型性能，以及其基础模型是ResNet；LPA模型，其通过结合全局特征和局部特征计算注意力模型。

表1

评估结果表明，同样是基于VGG的结构，本发明提供的分类网络模型比原始VGG模型和LPA模型性能分别提升10.14%和2.3%，与GoogleNet结构相比，该模型比GOOGLE-GAP模型提升5%，与ResNet结构相比，该模型比RN-34模型性能提高2%。

此外，图如2所示，其为本发明提供的图像分类网络中的注意力图的可视化图，可以看到注意力分类网络起到把关注点集中到目标上同时抑制不重要的背景信息，在第10层学习到的注意力可以基本包含目标的全局信息，而第13层学习到的注意力主要集中在有判别性的头部和脖子部分信息。

由上可见，本发明提供的所述图像分类方法中，我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络，以提高分类网络的性能和获得良好的特性，在所述分类网络中，所述注意力分类网络用作提取区分零件特征的过滤器，所述聚类模块充当半监督学习指导，并利用语义相似性内部类来提高分类性能，此外所述分类网络可以使用没有任何类别标签的数据训练网络，适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。

我依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。