CN113657425B

CN113657425B - 基于多尺度与跨模态注意力机制的多标签图像分类方法

Info

Publication number: CN113657425B
Application number: CN202110721193.XA
Authority: CN
Inventors: 余松森; 许飞腾; 梁军
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2023-07-04
Anticipated expiration: 2041-06-28
Also published as: CN113657425A

Abstract

本发明公开了基于多尺度与跨模态注意力机制的多标签图像分类方法。所述方法包括以下步骤：构建标签图并通过图卷积神经网络学习标签特征；获取待分类图像，采用预训练好的卷积神经网络中提取图像特征；构建分类模型，分别将得到的标签特征和图像特征输入MSML‑GCN模块和GCN‑SGA模块中进行特征融合计算；将得到的预测结果进行融合，得到最终预测标签，并使用多标签分类损失函数对分类模型进行迭代训练，得到训练好的分类模型；将提取的待分类图像的图像特征输入训练好的分类模型，得到多标签图像分类结果。本发明能够解决现有图像分类方法每年充分学习标签之间的依赖关系，而导致图像分类效果不佳的技术问题。

Description

基于多尺度与跨模态注意力机制的多标签图像分类方法

技术领域

本发明涉及多标签图像分类领域，具体涉及一种基于多尺度与跨模态注意力机制的多标签图像分类方法。

背景技术

如今，多标签图像分类(Multi-label image classification)在计算机视觉领域得到了日渐广泛的应用，包括多目标识别、情感分析、医疗诊断识别等。由于每张图像中都包含多个对象，因此如何有效地学习这些对象之间的关联关系、以及如何将这些关系与图像特征进行融合依然充满着挑战性。关于如何学习标签特征上，主流的方法主要是通过简单的全连接网络学习以及近年流行的图神经网络，全连接网络学习对标签依赖关系的表征能力较弱，而图神经网络网络对于标签依赖关系的学习上具有天然优势。在如何挖掘图像特征和标签特征之间的关系上，有多种方法，不管是直接将图像特征和标签特征进行点乘运算，还是将图像特征和标签特征进行跨模态融合，还是直接将图像特征作为标签特征的组成部分进行关系学习，或者是将标签特征嵌入图像特征的学习过程中等等。这些方法都是将全局的图像特征和标签特征进行融合学习。而挖掘标签特征和局部图像特征关系的方法主要目的是进行图像重点区域的选择，将任务的注意力更多地聚焦到与标签相关的图像内容上，因此标签特征的表示是其中的关键。目前的方法在标签特征的学习方法上有改进的空间，在如何进行图像重点区域的选择方法上也有值得探讨的不同方式。

一般而言，现有的多标签图像分类方法首先利用卷积神经网络得到图像的特征向量，然后利用图卷积神经网络(Graph Convolutional Network，GCN)得到标签之间的共现关系词向量，最后直接采用向量的点积操作来融合图像特征和标签的共现关系词向量，该类方法可以抽象为从图像全局特征的角度挖掘其与标签之间的关系。除此之外，挖掘图像局部区域与标签关系的方法也是存在的，但是这些方法他们的标签特征的表征能力不足。

现有的多标签图像分类方法(CN201910051706.3:基于图卷积的多标签图像分类方法、装置及设备)存在以下缺点：

1.由于输入模型的图像大小固定，对于特征的提取会造成限制。

2.在单一模型中对于图像特征和标签特征的融合角度单一，对于标签特征和图像特征的利用不够充分。

对于建立图像局部区域与标签特征之间的关系上，存在标签特征表征能力不足的缺点，同时对于如何使用学习到的语义注意力上，存在更多值得探索的方式(CN2020111001588:一种基于跨模态的快速多标签图像分类方法和系统)。

发明内容

为了更好地挖掘标签特征和图像特征之间的关系，本发明首先使用图神经网络进行标签特征的学习，增强标签特征的表征能力；对于学习到的标签特征，本发明创造性地将图像全局和图像局部特征与标签特征之间的关系学习融合在单一模型中，在图像全局方法中，运用多尺度策略减少输入图像大小对学习效果的影响；在图像局部方法中，首次使用图神经网络学习到的标签特征学习其与图像局部区域之间的关系，这一过程是一种跨模态的语义注意力机制。本发明将学习到的注意力权重用于衡量类依赖图像特征的区域重要性，提出了一种带注意力权重的总和池化方法，达到有效地筛选重要图像局部特征的作用。

本发明的目的至少通过如下技术方案之一实现。

基于多尺度与跨模态注意力机制的多标签图像分类方法，包括以下步骤：

S1、构建标签图并通过图卷积神经网络学习标签特征；

S2、获取待分类图像，采用预训练好的卷积神经网络中提取图像特征；

S3、构建分类模型，包括MSML-GCN模块和GCN-SGA模块，分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算；

S4、将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合，得到最终预测标签，并使用多标签分类损失函数对分类模型进行迭代训练，得到训练好的分类模型；

S5、将步骤S2中提取的待分类图像的图像特征输入训练好的分类模型，得到多标签图像分类结果。

进一步地，步骤S1中，获取第一训练集，统计各类标签在第一训练集中出现的次数，根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率，所有条件概率构成关系矩阵A，将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中，以获得所有C类标签对应的共现关系词向量矩阵W。

进一步地，步骤S1具体包括以下步骤：

S1.1、对各类标签在第一训练集中出现的次数以及任意两类标签在第一训练集中同时出现的次数进行统计，获取任意两类标签之间的条件概率，具体如下：

P_ij＝P(o_i|o_j)＝T_ij/T_j；

其中，T_i和T_j分别表示一类标签o_i和另一类标签o_j在第一训练集中出现的次数，T_ij表示标签o_i和标签o_j同时在第一训练集中出现的次数，i和j均为正整数，且i和j均∈[1，C]，C为标签的总类数；P_ij表示在标签o_j出现的条件下，标签o_i出现的概率；

S1.2、将得到的任意两类标签之间的条件概率构建为C×C维关系矩阵A；使用阈值ε对关系矩阵A进行二值化处理，ε∈[0,1]，得到二值化后的关系矩阵A_ij：

S1.3、使用阈值δ对二值化后的关系矩阵A_ij进行处理，δ∈[0,1]，生成对最终的关系矩阵A‘_ij：

S1.4、对最终的关系矩阵A‘_ij进行标准化，具体如下：

其中，I_c是单位矩阵，

是对角矩阵且满足/>

S1.5、将标准化的关系矩阵

输入图卷积神经网络(GCN)中，以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵H^l+1，其中l∈[0,1]，最终得到的共现关系词向量矩阵H^l+1就是学习到的所有C类标签对应的共现关系标签特征：

其中，H^l，W^l和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数，初始的H⁰为与训练好的词向量。

进一步地，步骤S2包括以下步骤：

S2.1、获取待分类图像并将该待分类图像转换为多维张量；获取由N张图像所构成的第二训练集和由K张图像构成的测试集；

S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中，以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1,x2,…,xN}的D维特征向量：

X＝F_gmp(F_cnn(x,θ_cnn))；

其中N和K为自然数，且N>K，F_gmp表示全局最大池化操作，F_cnn表示ResNet-101网络，θ_cnn表示ResNet-101网络的参数，D＝2048，1024，512，256，表示ResNet-101网络从浅到深每一卷积层的输出维度；X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合；在此处使用了多尺度的策略，作为后面全局策略方法的输入。

进一步地，步骤S2.1中，使用Python图像库将该待分类图像转换为多维张量。

进一步地，步骤S3中，在MSML-GCN模块中，每一层图卷积神经网络(GCN)的输出特征矩阵H^l与ResNet-101网络的每一层卷积层的输出特征X_i进行点积，得到若干个C维的预测向量，取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量

具体如下：

其中，L的最大值为2即只取ResNet-101网络最后两个卷积层的输出以及MSML-GCN模块最后两层的输出。

进一步地，步骤S3中，在GCN-SGA模块中，具体包括以下步骤：

S3.1、首先取步骤S2中D＝2048时ResNet-101网络的最后一层卷积层的输出特征向量X，使用一系列1×1卷积层对特征向量X进行空间转换，使得维数从w×h×D转换为w×h×C，将特征向量X从视觉特征转换为语义特征X_tr，因此这里也是一种模态转换操作：

X_tr＝f_CMT(X)；

其中，f_CMT代表模态转换函数，具体结构是一系列1×1卷积层；

S3.2、对语义特征X_tr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵H^l计算的余弦相似度Z，为确保Z的非负性，使用ReLU函数进行约束；得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度：

其中，c的值代表其对应哪一类的标签，

代表X_tr特征在第p个特征区域上的特征向量，/>

代表c类标签最后一层图神经网络的输出标签特征，/>

代表了c类标签在图像特征区域k上的图像特征与标签特征的余弦相似度；T在上述公式中代表对向量的转置操作；

S3.3、对余弦相似度Z进行归一化：

其中，c的值代表其对应哪一类的标签，q是对特征图中某个区域的标识，m代表的是特征图的区域数量；

代表图像区域q与c类标签特征的注意力的值；

S3.4、对于D＝2048时ResNet101网络的最后一层卷积层的输出特征向量X，再次使用另一个由1×1卷积层构成的转化网络将特征向量X归类到每一个类别，得到类相关特征X_cf，类相关特征X_cf的维数为w×h×C；类相关特征X_cf中，每一个w×h的矩阵都代表了一个标签类对应的图像特征；

S3.5、对步骤S3.4中得到的类相关特征X_cf，用与之相对应的语义相似度矩阵M_c进行带权重的总和池化，得到C维的预测向量

具体如下：

其中，

代表了c类标签对应的/>

值，/>

代表了c类标签在第q个图像特征区域上的类相关图像特征向量。

进一步地，步骤S4中，将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合，得到最终预测标签，具体如下：

β是一个权重常量，

代表最终的预测标签。

进一步地，步骤S4中，根据得到的最终预测标签

使用多标签分类损失函数Loss对分类模型进行迭代训练，直到分类模型收敛为止，从而得到初次训练好的分类模型，并获得此时图像x的预测标签Y；将得到的K张图像构成的测试集对初次训练好的分类模型进行验证，直到得到的分类精度达到最优为止，从而得到最终训练好的分类模型。

进一步地，步骤S4中，多标签分类损失函数Loss为：

其中，σ()表示激活函数

y^c是真实标签值，/>

是预测标签值；y^c∈{1,0}表示图像x的c类标签是否出现在图像中,y^c＝1表示图像x的第c个标签出现在图像中，y^c＝0表示图像x的第c个标签没有出现在图像中。

相比与现有技术，本发明的优点在于：

(1)由于本发明在模型训练阶段首先将每张图像的标签转化成标签词向量，然后使用条件概率模拟了标签之间的依赖关系，进而采用GCN学习不同标签之间的共现关系，并将这些关系融入到标签词向量中，因此能够解决现有图像分类方法每年充分学习标签之间的依赖关系，而导致图像分类效果不佳的技术问题。

(2)本发明中的MSML-GCN模块相比现有方法ML-GCN来说，使用的多尺度策略能够减少图像大小对图像特征提取效果的限制，一定程度上增加了图像特征的丰富度，提升了预测效果；而GCN-SGA模块首次通过图神经网络学习到的标签特征来帮助衡量图像局部区域的重要性，获得每一类标签的图像区域权重矩阵，并且创造性地通过将高维图像特征转化为类依赖特征，将对应类别的图像区域权重矩阵与图像特征进行点对点相乘并求和，达到对图像是否包含某类标签视觉特征的良好评估。同时，本发明将MSML-GCN模块和GCN-SGA模块的预测结果进行融合，在单一模型中分别从图像的全局特征角度和局部特征角度进行了标签信息的利用，达到对图像特征和标签特征的更充分地利用，实验结果显示了这种融合策略的有效性，原因可能是其增加了信息利用的角度，两种策略达到了某种程度的互补。

附图说明

图1为本发明实施例中分类模型的整体框架图；

图2为本发明实施例中方法的整体流程图；

图3为本发明实施例中分类模型的具体流程图；

图4a和图4b为本发明实施例中在数据集MSCOCO上的对比实验图；

图5a和图5b为本发明实施例中在数据集在VOC2007上的对比实验图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合附图并举实施例，对本发明的具体实施进行详细说明。

实施例：

基于多尺度与跨模态注意力机制的多标签图像分类方法，如图1、图2所示，包括以下步骤：

S1、构建标签图并通过图卷积神经网络学习标签特征；

本实施例中，获取第一训练集MS-COCO，统计各类标签在第一训练集中出现的次数，根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率，所有条件概率构成关系矩阵A，将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中，以获得所有C类标签对应的共现关系词向量矩阵W。

步骤S1具体包括以下步骤：

P_ij＝P(o_i|o_j)＝T_ij/T_j；

S1.3、使用阈值δ对二值化后的关系矩阵A_ij进行处理，δ∈[0，1]，生成对最终的关系矩阵A‘_ij：

S1.4、对最终的关系矩阵A‘_ij进行标准化，具体如下：

其中，I_c是单位矩阵，

是对角矩阵且满足/>

S1.5、将标准化的关系矩阵

输入图卷积神经网络(GCN)中，以获取图卷积神经网络(GCN)中第l+1层的共现关系词向量矩阵H^l+1，其中1∈[0，1]，最终得到的共现关系词向量矩阵H^l+1就是学习到的所有C类标签对应的共现关系标签特征：

其中，H^l，W^l和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数，初始的H⁰为与训练好的词向量。本实施例中，选择了词向量模型Glove的预训练好的维数为300维的词向量。

S2、获取待分类图像，采用预训练好的卷积神经网络中提取图像特征，包括以下步骤：

S2.1、获取待分类图像，使用Python图像库将该待分类图像转换为多维张量；本实施例中，根据数据集VOC2007获取由N张图像所构成的第二训练集和由K张图像构成的测试集；

S2.2、将由第二训练集的图片转化来的N张多维张量一张一张输入到ResNet-101网络中，以从ResNet-101网络的池化层提取第二训练集中每张图像x{x1，x2，…，xN}的D维特征向量：

X＝F_gmp(F_cnn(x，θ_cnn))；

其中N和K为自然数，且N＞K，F_gmp表示全局最大池化操作，F_cnn表示ResNet-101网络，θ_cnn表示ResNet-101网络的参数，D＝2048，1024，512，256，表示ResNet-101网络从浅到深每一卷积层的输出维度；X为表示对应ResNet-101网络的每一层卷积层的输出特征的集合；在此处使用了多尺度的策略，作为后面全局策略方法的输入。

S3、如图3所示，构建分类模型，包括MSML-GCN模块和GCN-SGA模块，分别将得到的标签特征和图像特征输入MSML-GCN模块和GCN-SGA模块中进行特征融合计算；

在MSML-GCN模块中，每一层图卷积神经网络(GCN)的输出特征矩阵H^l与ResNet-101网络的每一层卷积层的输出特征X_i进行点积，得到若干个C维的预测向量，取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量

具体如下：

在GCN-SGA模块中，具体包括以下步骤：

X_tr＝f_CMT(X)；

S3.2、对语义特征X_tr和图卷积神经网络(GCN)最后一层的输出矩阵共现关系词向量矩阵H¹计算的余弦相似度Z，为确保Z的非负性，使用ReLU函数进行约束；得到的Z表示图像x的w×h个局部区域与每一个标签的余弦相似度：

其中，c的值代表其对应哪一类的标签，

代表X_tr特征在第p个特征区域上的特征向量，/>

代表c类标签最后一层图神经网络的输出标签特征，/>

S3.3、对余弦相似度Z进行归一化：

代表图像区域q与c类标签特征的注意力的值；

具体如下：

其中，

代表了c类标签对应的/>

值，/>

将MSML-GCN模块和GCN-SGA模块得到的预测结果进行融合，得到最终预测标签，具体如下：

β是一个权重常量，在后续实验中取0.5，

代表最终的预测标签。

根据得到的最终预测标签

多标签分类损失函数Loss为：

其中，σ()表示激活函数

y^c是真实标签值，/>

是预测标签值；y^c∈{1，0}表示图像x的c类标签是否出现在图像中，y^c＝1表示图像x的第c个标签出现在图像中，y^c＝0表示图像x的第c个标签没有出现在图像中。

对于本发明中的分类模型中的全局策略来讲，可以看做将全局的图像特征压缩成一个向量，学习该图像向量和其他标签特征之间的相似关系，相似度高的即可以预测为正标签，分类模型中的相似度高可以理解为该标签特征向量和图像向量在空间中的夹角小于等于90度.而对于局部策略，可以知道，该策略就是在学习标签特征和局部图像特征之间的相似性。所以，将全局策略和局部策略的学习结果进行融合，将充分挖掘标签特征和图像特征之间的关系。

数据集MSCOCO上的对比实验如图4a、图4b所示，其中，MSML-GCN、GCN-SGA、Combined model对应本发明中的全局策略模块、局部策略模块以及全局策略和局部策略相结合的整体分类模型。

式中，评价指标定义为：C是标签的类别数，

是第i个标签的正确预测的图片数量，/>

是真实具有标签o_i的图片数量，/>

是预测具有标签o_j的图片的数量。

数据集VOC2007上的对比实验如图5a、图5b所示，其中，MSML-GCN、GCN-SGA、Combined model对应本发明中的全局策略模块、局部策略模块以及全局策略和局部策略相结合的整体分类模型。

通过上述对比实验可以发现，本发明中的MSML-GCN模块，GCN-SGA模块，以及将两个模块融合在一起的整体分类模型，在公开数据集MSCOCO以及VOC2007上都取得了与当前主流方法具有一定竞争优势的准确度，证明了本发明提出的方法的有效性。

Claims

1.基于多尺度与跨模态注意力机制的多标签图像分类方法，其特征在于，包括以下步骤：

S1、构建标签图并通过图卷积神经网络学习标签特征；获取第一训练集，统计各类标签在第一训练集中出现的次数，根据每类标签在第一训练集中出现的次数计算任意两类标签之间的条件概率，所有条件概率构成关系矩阵A，将获取的标签词向量矩阵H和关系矩阵A输入到图卷积神经网络(GCN)中，以获得所有C类标签对应的共现关系词向量矩阵W；具体包括以下步骤：

P_ij＝P(o_i|o_j)＝T_ij/T_j；

S1.4、对最终的关系矩阵A‘_ij进行标准化，具体如下：

其中，I_C是单位矩阵，

是对角矩阵且满足/>

S1.5、将标准化的关系矩阵

其中，H^l，W^l和h分别表示图卷积神经网络(GCN)中第l层的输出特征矩阵、第l层的权重矩阵和第l层的非线性激活函数，初始的H⁰为与训练好的词向量；

2.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法，其特征在于，步骤S2包括以下步骤：

X＝F_gmp(F_cnn(x,θ_cnn))；

3.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法，其特征在于，步骤S2.1中，使用Python图像库将该待分类图像转换为多维张量。

4.根据权利要求1所述的基于多尺度与跨模态注意力机制的多标签图像分类方法，其特征在于，步骤S3中，在MSML-GCN模块中，每一层图卷积神经网络(GCN)的输出特征矩阵H^l与ResNet-101网络的每一层卷积层的输出特征X_i进行点积，得到若干个C维的预测向量，取所有C维的预测向量的平均值得到最终的全局策略的预测结果向量