CN114612681A

CN114612681A - 基于gcn的多标签图像分类方法、模型构建方法及装置

Info

Publication number: CN114612681A
Application number: CN202210274122.4A
Authority: CN
Inventors: 赵国英; 任梅; 彭进业; 李展; 王琳; 赵万青; 杨文静
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2022-01-30
Filing date: 2022-03-20
Publication date: 2022-06-10

Abstract

本发明公开了一种基于GCN的多标签图像分类方法、模型构建方法及装置，包括预处理模块、模型构建模块和训练模块；预处理模块，用于对已知数据集进行预处理，得到预处理后的数据集图像；训练模块，用于将预处理后的数据集图像输入多标签图像分类模型进行训练，以多个标签在图像上出现的概率为输出，得到训练好的多标签图像分类模型；模型构建模块，用于构建多标签图像分类模型并将其发送给训练模块。本发明结合了注意力机制模块和图卷积网络，通过对原始图像特征在空间和通道上获取注意力图以及通过图卷积网络获取更具鉴别意义的类别语义，有效加强了图像显著部分的特征和避免了感兴趣部分特征的丢失，提升了网络的输出精度。

Description

基于GCN的多标签图像分类方法、模型构建方法及装置

技术领域

本发明属于分类技术领域，涉及一种基于图卷积网络的多标签图像分类方法，具体是一种基于GCN的多标签图像分类方法、模型构建方法及装置。

背景技术

多标签图像分类作为计算机视觉一项最基本而有意义的任务之一，它的目的就是为一幅图像分配两个及两个以上的标签。相对于单标签分类，它更符合生活实际，所应用的领域也更加广泛，例如：标签推荐、行人重识别、医疗诊断等，所以对它的研究与发展更加能引起人们的注意。

对于多标签图像分类最传统的方法就是不考虑标签之间的相关性，一种是将其看作是二分类问题，单独训练多个分类器，即转化为传统的单标签图像分类，或者是将对象建议与CNN结合起来进行训练的方式。虽然由于CNN网络的出现这样的方法得到了很高的精确度，但却大大增加了运算成本，不利于实现。基于此，对标签相关性进行探索成为研究多标签分类的一大主流。例如RNN/LSTM网络，RNN网络可用来隐式的建立标签相关性以及标签语义依赖，但需要预先确定标签的顺序，使得预测的准确率大大降低。同时一些注意力机制也成为获取标签相关性的手段，它们通过建立语义区域之间的依赖关系进而捕获标签语义的相关性。以上模型都只考虑了每张图片标签之间的局部相关性，忽略了数据集中标签的先验特征。还有图网络也被用来建模标签之间的相关性，但以往对图网络的运用仅仅考虑了标签的先验特征或单张图像的标签相关性，并没有考虑到标签的先验特征对局部语义依赖的影响。

发明内容

针对现有技术存在的不足，本发明的目的在于，提供一种基于GCN的多标签图像分类方法、模型构建方法及装置，以解决现有技术中并没有考虑标签先验特征对局部语义依赖的技术问题。

为了解决上述技术问题，本发明采用如下技术方案予以实现：

一种基于图卷积网络的多标签图像分类模型构建装置，包括预处理模块、模型构建模块和训练模块；其中：

预处理模块，用于对已知数据集进行预处理，得到预处理后的数据集图像，并将其发送给训练模块；

训练模块，用于将预处理后的数据集图像输入多标签图像分类模型进行训练，以多个标签在图像上出现的概率为输出，得到训练好的多标签图像分类模型；

模型构建模块，用于构建多标签图像分类模型并将其发送给训练模块；该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块：其中：

特征提取模块，用于对预处理后的数据集图像进行图像特征提取，得到图像的特征图，并将特征图发送给注意力机制模块；

注意力机制模块，用于对输入的特征图F进行注意力机制处理，得到新的特征图f，然后将新的特征图f发送给特征向量转换模块；

特征向量转换模块，用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义，并将其送入图卷积网络混合模块；

图卷积网络乘积模块，包含第一图卷积网络、第二图卷积网络和乘法器；所述第一图卷积网络的输入端连接特征向量转换模块的输出端，用于对特征向量模块发来的类别语义o进行处理，获取单张图像标签之间的相关性，并发送给乘法器；所述第二图卷积网络以数据集的标签的先验特征为输入，得到标签嵌入，并发送给乘法器；乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘，得到类别语义O＝{O₀,O₁,…O_C-1}，并将类别语义O送入输出预测模块；

输出预测模块，用于实现以下功能：将图卷积网络混合模块发送来的类别语义O采用全连接网络转换成各个标签相对应的得分，从而得到所有标签对应的得分向量为s＝{s₀,s₁…,s_C-1}；然后通过sigmoid函数得到得分向量s对应的概率向量p＝{p₀,p₁…,p_C-1}。

进一步的，所述预处理包括对图像进行翻转、分割和尺寸统一。

进一步的，所述特征提取模块采用残差网络，并对残差网络输出的数据采用池化操作进行处理，得到特征图F。

进一步的，所述注意力机制模块包括通道注意力模块、空间注意力模块、两个乘法器和加法器，其中，所述特征提取模块输出的特征图F分别送入通道注意力模块和空间注意力模块，通道注意力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取，得到通道注意力特征图Mc；所述空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特征图的提取，得到空间注意力特征图Ms；所述特征提取模块输出的特征图F分别与通道注意力特征图Mc和空间注意力特征图Ms通过乘法器相乘，得到通道特征图和空间特征图，通道特征图和空间特征图分别输出到加法器，加法器用于实现通道特征图和空间特征图的自适应参数相加，得到新的特征图f，并发送给特征向量转换模块。

进一步的，通过注意力机制模块中获得新的特征图f：

f＝γ(M_C*F)+(1-γ)(M_SF)

M_C＝σ(MLP(AugPool(F))

M_S＝σ(f^7*7(MaxPool(F))

式中，γ为自适应参数，M_C为通道注意力特征图，M_S为空间注意力特征图，F为特征提取模块发来的特征图F，σ为激活函数，AvgPool、MxaPool分别代表平均池化和最大池化，f^7*7()是卷积核大小为7*7的卷积操作。

另一方面，本发明还提供了一种基于图卷积网络的多标签图像分类模型的构建方法，包括如下步骤：

步骤1，对数据集分别进行预处理，得到预处理后的数据集图像；

步骤2，构建多标签图像分类模型；

所述多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块；其中：

步骤3，训练模型：

将步骤1预处理后的数据集图像输入步骤2输出的多标签图像分类模型进行训练，以多个标签在图像上出现的概率为输出，得到训练好的多标签图像分类模型。

另一方面，本发明还提供了一种基于图卷积网络的多标签图像分类方法，具体包括以下步骤：

步骤1，采集待测试的图像，对其进行预处理；

步骤2，对处理后的图像输入至权利要求1～6任一项得到的训练好的基于图卷积网络的多标签图像分类模型中，获得标签输出概率。

本发明与现有技术相比，具有如下技术效果：

(Ⅰ)本发明利用图卷积网络对类别语义进行处理，捕获图像的局部语义依赖，从而减少训练成本。

(Ⅱ)本发明结合利用图卷积网络处理过的标签的先验特征，生成更具有代表性意义的语义依赖，减少过拟合，提高了多标签图像分类模型的泛化能力，从而有效解决了现有技术中并没有考虑标签先验特征对局部语义依赖的技术问题。

(Ⅲ)本发明利用注意力机制模块获取图像显著部分或感兴趣的内容，减小了误差，提升了训练精度。

综上，本发明结合了注意力机制模块和图卷积网络，通过对原始图像特征在空间和通道上获取注意力图以及通过图卷积网络获取更具鉴别意义的类别语义，有效加强了图像显著部分的特征和避免了感兴趣部分特征的丢失，提升了输出精度。

附图说明

图1为本发明的基于图卷积网络的多标签图像分类模型构建的流程示意图。

图2为通道注意力模块、空间注意力模块的原理图。其中，(a)为通道注意力模块，(b)为空间注意力模块。

图3为注意力机制模块的结构示意图。

图4为图卷积网络乘积模块的结构示意图。

以下结合实施例对本发明的具体内容作进一步详细解释说明。

具体实施方式

首先，对本发明涉及的技术术语进行说明：

MS-COCO数据集：是一种标准图像数据集。

Pascal VOC2007数据集：是一种标准图像数据集。

以下给出本发明的具体实施例，需要说明的是本发明并不局限于以下具体实施例，凡在本申请技术方案基础上做的等同变换均落入本发明的保护范围。

实施例1：

本实施例给出一种基于图卷积网络的多标签图像分类模型构建装置，包括预处理模块、模型构建模块和训练模块；

预处理模块，用于对现有MS-COCO和Pascal VOC2007数据集分别进行预处理，得到预处理后的数据集图像，并将其发送给训练模块。

具体的，预处理包括对图像进行翻转、分割和尺寸统一，本实施例中将图像缩放至统一尺寸448*448。

训练模块，用于将预处理后的数据集图像输入多标签图像分类模型进行训练，以多个标签在图像上出现的概率为输出，得到训练好的多标签图像分类模型。

模型构建模块，用于构建多标签图像分类模型并将其发送给训练模块；该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块：

特征提取模块，用于对预处理后的数据集图像进行图像特征提取，得到图像的特征图，并将特征图发送给注意力机制模块。

具体的，本发明采用现有的残差网络进行图像特征的提取，为了得到更深层次的特征，残差网络选取ResNet-101作为提取特征的主干网络；(不用池化操作2048*14*14)优选的，为了保留主要特征的同时减少参数、防止过拟合、提高模型的泛化能力，对残差网络输出的数据采用池化操作MaxPool2D进行处理，得到图像的特征图F。本实施例得到的特征图F的维度为2048*7*7。

注意力机制模块，用于对输入的特征图F进行注意力机制处理，得到新的特征图f的维度为2048*7*7，然后将新的特征图发送给特征向量转换模块。该模块的作用是使注意力集中在部分显著或者更感兴趣的地方。

具体的，如图3所示，注意力机制模块包括通道注意力模块、空间注意力模块、两个乘法器和加法器，其中，特征提取模块输出的特征图F分别送入通道注意力模块和空间注意力模块，通道注意力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取(见图2(a))，得到通道注意力特征图Mc；空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特征图的提取(见图2(b))，得到空间注意力特征图Ms；特征提取模块输出的特征图F分别与通道注意力特征图Mc和空间注意力特征图Ms通过乘法器相乘，得到通道特征图和空间特征图，通道特征图和空间特征图分别输出到加法器，加法器用于实现通道特征图和空间特征图的自适应参数相加，以得到更具鉴别意义的新的特征图f，并发送给特征向量转换模块的输入端。

上述技术方案中，空间注意力模块、通道注意力模块均通过原始特征图(即特征提取模块输出的特征图F)获得在空间注意力特征图和通道注意力特征图，其本质上是赋予原始特征图不同位置一定的权重，所以在获得空间或者通道注意力特征图之后，还需要与原始特征图相乘才能获得用于训练的空间特征图和通道特征图，然后通过加法器实现将空间特征图和通道特征图这两个用于训练的图相加得到新的特征图f，也即注意力机制模块的最终输出。)

具体的，通过注意力机制模块中获得新的特征图f如下式所示：

f＝γ(M_C*F)+(1-γ)(M_SF)

M_C＝σ(MLP(AvgPool(F))

M_S＝σ(f^7*7(MaxPool(F))

式中，γ为自适应参数，M_C为通道注意力特征图，M_S为空间注意力特征图，F为特征提取模块发来的特征图F，σ为激活函数，选用sigmoid，AvgPool、MxaPool分别代表平均池化和最大池化，f^7*7()是卷积核大小为7*7的卷积操作。

特征向量转换模块，用于将注意力机制模块发来的新的特征图f进行维度的转换得到类别语义，并将其送入图卷积网络混合模块。

具体是：通过类激活映射(CAM)或者低秩双线性池的方法将新的特征图f(维度为2048*7*7)转换为类别语义o(维度为C*2048)，C为数据集标签个数。比如，采用低秩双线性池的方法时，则注意力机制模块发来的新的特征图f的每一个类别标签c利用下式处理，转化为维度是的类别语义s；

s_c,wh＝P^T(tanh((Z^TU_c)⊙(X^Tf_c,wh)))+b；

其中,(w,h)表示图像的某位置，tanh()为双曲正切函数，Uc∈R^C*300为标签嵌入，P∈R^d1*d2、Z∈R^2048*d1、Z∈R^300*d1、b∈R^d2是需要训练的参数，⊙是逐个元素相乘运算，d1和d2用于连接标签嵌入和图像特征的维度。最终，得到类别语义o＝{o₀,o₁…,o_c-1}。

图卷积网络乘积模块，如图4所示，包含第一图卷积网络、第二图卷积网络和乘法器。第一图卷积网络的输入端连接特征向量转换模块的输出端，用于对特征向量模块发来的类别语义o进行处理，获取单张图像标签之间的相关性，并发送给乘法器；第二图卷积网络以数据集的标签的先验特征(先验特征即为标签向量，维数为C*300)为输入，得到C*2048维度的标签嵌入(该操作目的是获得各个数据集与单张图像无关的标签之间的全局相关性)，并发送给乘法器；乘法器用于将第一图卷积网络和第二图卷积网络的输出进行相乘，得到维数是C*2048的类别语义O＝{O₀,O₁,…O_C-1}，并将类别语义O送入输出预测模块。

具体的，第一图卷积网络和第二图卷积相同，通过下式实现：

H^l+1＝f(H^l,A)＝AH^lW^l

其中，H^l为图卷积网络的第l层输入，(l-1)层的输出，A为图卷积网络的邻接矩阵，f()为一个非线性函数，W是训练的参数；

在具体操作中，第一图卷积网络的输入为维度是C*2048的类别语义o，第二图卷积网络的输入为C*2048的标签嵌入，它们分别作为最底层输入进入图卷积网络。邻接矩阵我们使用数据集各个标签彼此之间出现的概率构成的矩阵。

输出预测模块，用于实现以下功能：将图卷积网络混合模块发送来的类别语义O采用2048-1的全连接网络转换成各个标签相对应的得分s_c，从而得到所有标签对应的得分为s＝{s₀,s₁…,s_C-1}；然后通过sigmoid函数得到得分向量s对应的概率向量p＝{p₀,p₁…,p_C-1}；

本实施例认为当预测的概率p_c大于0.5时，此标签被认为正标签。

在本实施例中，采用公开数据集MS-COCO2014和Pascal Voc2007的训练集作为基于图卷积网络的多标签分类模型的输入。其中，MS-COCO2014训练集中有82081张图像，Pascal Voc2007为5011张图像，MS-COCO2014验证集中有40504张图像，Pascal Voc2007为4952张图像。此外，MS-COCO2014有80个类别，Pascal Voc2007为20个类别。

本发明的基于图卷积网络的多标签分类检测模型训练所用到损失函数如下所示：

其中，y^c＝{0,1}，0代表负标签，1代表正标签。

实施例2：

本实施例给出了一种基于图卷积网络的多标签图像分类模型的构建方法，包括如下步骤：

步骤1，对现有MS-COCO和Pascal VOC2007数据集分别进行预处理，得到预处理后的数据集图像；具体的，预处理包括对图像进行翻转、分割和尺寸统一，本实施例中将图像缩放至统一尺寸448*448。

步骤2，构建多标签图像分类模型；

该多标签图像分类模型包括依次相连接的图像特征提取模块、注意力机制模块、特征向量转换模块、图卷积网络乘积模块和输出预测模块。其中，各模块的设计内容与实施例1的方法中的对应模块相同，此处不再赘述。

步骤3，训练模型。

将步骤1预处理后的数据集图像输入步骤2构建得到的多标签图像分类模型进行训练，以多个标签在图像上出现的概率为输出，得到训练好的多标签图像分类模型。

实施例3：

本实施例给出一种基于图卷积网络的多标签图像分类方法，具体包括以下步骤：

步骤1，采集待测试的图像，对其进行预处理；具体的，预处理包括对图像进行翻转、分割和尺寸统一，本实施例中将图像缩放至统一尺寸448*448；

步骤2，对处理后的图像输入至实施例1得到的训练好的基于图卷积网络的多标签图像分类模型中，获得标签输出概率。

为了验证本发明的可行性和有效性，本申请在MS-COCO数据集和PASCOL-VOC数据集上分别采用本发明的方法和现有方法进行处理，得到表1和表2的结果，其中，表1是在MS-COCO数据集上本发明的方法与现有方法所做的比较，表2是在PASCOL-VOC数据集上本发明的方法与现有方法所做的比较。

表1 MS-COCO

表2 PASCOL-VOC

从表1和表2可以看出，本发明构建的模型在这两个数据集上均获得更好的效果，其中，在MS-COCO数据集上比现有效果最好模型的Map提高了约0.5％，在PASCOL-VOC数据集上比现有效果最好模型的Map提高了约1.4％。

Claims

1.一种基于图卷积网络的多标签图像分类模型构建装置，其特征在于，包括预处理模块、模型构建模块和训练模块；其中：

2.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置，其特征在于，所述预处理包括对图像进行翻转、分割和尺寸统一。

3.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置，其特征在于，所述特征提取模块采用残差网络，并对残差网络输出的数据采用池化操作进行处理，得到特征图F。

4.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置，其特征在于，所述注意力机制模块包括通道注意力模块、空间注意力模块、两个乘法器和加法器，其中，所述特征提取模块输出的特征图F分别送入通道注意力模块和空间注意力模块，通道注意力模块用于对特征提取模块发来的特征图F进行通道注意力特征图的提取，得到通道注意力特征图Mc；所述空间注意力模块用于对特征提取模块发来的特征图F进行空间注意力特征图的提取，得到空间注意力特征图Ms；所述特征提取模块输出的特征图F分别与通道注意力特征图Mc和空间注意力特征图Ms通过乘法器相乘，得到通道特征图和空间特征图，通道特征图和空间特征图分别输出到加法器，加法器用于实现通道特征图和空间特征图的自适应参数相加，得到新的特征图f，并发送给特征向量转换模块。

5.如权利要求1所述的基于图卷积网络的多标签图像分类模型构建装置，其特征在于，通过注意力机制模块中获得新的特征图f：

f＝γ(M_C*F)+(1-γ)(M_S*F)

M_C＝σ(MLP(Avgpool(F))

M_S＝σ(f^7*7(MaxPool(F))

6.一种基于图卷积网络的多标签图像分类模型的构建方法，其特征在于，包括如下步骤：

步骤2，构建多标签图像分类模型；

步骤3，训练模型：

7.一种基于图卷积网络的多标签图像分类方法，其特征在于，具体包括以下步骤：

步骤1，采集待测试的图像，对其进行预处理；