CN113642602B

CN113642602B - 一种基于全局与局部标签关系的多标签图像分类方法

Info

Publication number: CN113642602B
Application number: CN202110755393.7A
Authority: CN
Inventors: 白鹤翔; 任炜; 王飞
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-07-18
Anticipated expiration: 2041-07-05
Also published as: CN113642602A

Abstract

本发明一种基于全局与局部标签关系的多标签图像分类方法。包括步骤A：获取已标记所包含物体类别的图像集合作为训练样本集，对训练样本集中的每一幅图像进行预处理；步骤B：对训练样本进行训练，得到训练好的局部深度学习模型；步骤C：对训练样本进行训练，得到训练好的全局深度学习模型；步骤D：利用知识蒸馏操作，将训练好的全局深度学习模型设置为教师模型，将训练好的局部深度学习模型设置为学生模型，再根据预设的知识蒸馏损失函数进行训练，得到训练好的全局与局部深度学习模型；步骤E：对没有任何类别标签的多标签图像，根据训练好的全局与局部深度学习模型对其进行预测。本发明通过对全局与局部标签之间关系建模以提升分类精度。

Description

一种基于全局与局部标签关系的多标签图像分类方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于全局与局部标签关系的多标签图像分类方法。

背景技术

如何对不同标签之间存在的关系进行建模一直以来就是多标签分类，尤其是多标签图像分类中的一个重要问题。以深度卷积神经网络(CNN)为例。在一些大型单标签图像数据集上(例如ImageNet)中精度已能够达到90％以上。然而，由于CNN将目标独立对待，将多标签问题转化为一组二分类问题来预测每个目标是否存在，忽视了标签之间的依赖关系，因此很多相关研究工作发现其对多标签图像(例如MSCOCO)的分类精度通常仅有80％左右。因此，对标签关系进行建模是提高多标签图像分类精度的关键。

基于循环神经网络(RNN)的模型是目前多标签图像分类中最具代表性的一类方法。一些研究者提出了使用RNN模型来对标签关系进行建模并提出了 CNN-RNN模型。这一模型使用CNN和RNN的联合嵌入空间来表征图像与语义结构。CNN-RNN模型保存了交叉标签相关性，提高了多标签分类精度。然而，在CNN-RNN训练时需要根据训练数据中各标签边缘概率来定义标签顺序。这种预定义的标签预测顺序可能错误的对标签依赖关系进行建模。例如，根据标签频率可能得到{餐桌，花，叉子}，然而从语义的角度上，由于“餐桌” 与“叉子”有更强的依赖关系，所以正确顺序应为{餐桌，叉子，花}。此外，这一模型仍然难以完全避免RNN模型自身的缺陷，即以序列方式逐个预测标签。这同标签之间关系的双向性相矛盾，从而导致RNN模型无法完整的对标签之间关系进行建模。

此外，CNN-RNN系列模型仅对每张图像自身的标签相关性，即局部标签关系，而忽略了整个数据集上的全局标签关系。为了解决这一问题一些研究者提出了基于图卷积神经网络(GCN)的多标签图像识别模型(ML-GCN)。这一模型在整个训练集中统计全局标签关系，目的是利用GCN在全局标签关系的指导下建立多个标签之间的共现概率，进而提高多标签分类精度。然而，该方法过渡依赖标签共现概率的问题，容易导致弱关系情况下缺标签和强关系情况下多标记的问题。例如，若在某个数据集中电视机与沙发有很高的共现率，但是ML-GCN 模型若判断出某图像中存在电视机则会强制标记沙发，即使图像中不存在沙发。

本发明为解决上述两个技术问题，提出了一种基于全局与局部标签关系的多标签图像分类方法。

发明内容

本发明提供了一种基于全局与局部标签关系的多标签图像分类方法，通过对全局与局部标签之间关系建模以提升分类精度。

本发明的具体技术方案包含以下步骤：

步骤A：获取已标记所包含物体类别的图像集合作为训练样本集，并对训练样本集中的每一幅图像进行预处理；

步骤B：利用基于残差网络的双层注意力深度学习模型对步骤A所述训练样本进行训练，得到训练好的局部深度学习模型；

步骤C：利用基于残差网络的图卷积深度学习模型对步骤A所述训练样本进行训练，得到训练好的全局深度学习模型；

步骤D：利用知识蒸馏操作，将步骤C所述的训练好的全局深度学习模型设置为教师模型，同时将步骤B所述的训练好的局部深度学习模型设置为学生模型，再根据预设的知识蒸馏损失函数进行训练，得到训练好的全局与局部深度学习模型；

步骤E：对没有任何类别标签的多标签图像，根据步骤E所述的训练好的全局与局部深度学习模型对其进行预测，其中，对每一幅图像的预测结果设置阈值，若预测结果中存在大于阈值标签则认为图像中存在该标签，反之，则认为不存在该标签。

步骤A所述的对训练样本集中的每一幅图像进行预处理，具体为：

步骤A1、计算整个训练样本集的标签共现矩阵；首先计算训练集的中标签对出现的次数，得到矩阵C是类别数；然后，统计每个标签在训练集中的出现次数得到/>标签共现矩阵为P_i＝M_i/N_i。

步骤A2、利用词向量生成技术生成每个标签的词向量；可选的词向量生成技术包括Word2vec、Glove；

步骤A3、将训练样本中的场景图像随机剪切成448×448像元固定大小的图像，之后在水平方向进行随机翻转，并进行归一化处理。

步骤B所述基于残差网络(RES)的双层注意力深度学习模型具体为：

步骤B1、将所述步骤A中预处理过的样本图像作为RES的输入，得到RES 特征图；

步骤B2、将步骤B1输出的特征图进行全局平均池化，使用全连接层分类，得到输入图片对于各个标签的归属程度，该归属程度取值范围为[0,1]，记该值为DG1；

步骤B3、对于每个标签所对应的RES特征图，利用注意力机制计算其空间维度的权重矩阵，然后将RES特征图根据权重矩阵进行加权求和，并将其用作该标签的特征向量，记为FL1；

步骤B4、通过自注意力机制将标签特征向量进行线性变换，并将变换后的结果LT1进行全局平均池化及扩张，再将这一处理结果同前述线性变换结果拼接，得到第一层注意力机制的处理结果ATTRES1；

步骤B5、利用全连接层将ATTRES1映射为局部标签矩阵,并与LT1相乘，计算结果记为LT2；再使用自注意力机制对LT1进行线性变换，得到LT3；之后，将LT3与FL1相加，其结果经过全连接层得到标签类别数大小的矩阵，并取其对角线元素作为输入图片对于各个标签的另一个归属程度，记其值为DG2；

步骤B6、利用二元交叉熵损失函数公式

其中x_i＝(DG1_i+DG2_i)/2，y_i是x_i对应的真实标签，σ(x)＝sigmoid(x)。

步骤C所述的基于残差网络的图卷积深度学习模型具体为：

步骤C1、将所述步骤A中预处理过的样本图像作为RES的输入，得到RES 特征图；

步骤C2、将所述步骤A中得到的标签共现矩阵、标签词向量和上述步骤 C1得到的RES特征图作为图卷积网络(GCN)的输入，输出的标签特征向量记为 FL2；

步骤C3、将步骤C1得到RES特征图进行全局平均池化，其结果与FL2相乘得到输入图片对于各个标签的归属程度DG3，

步骤C4、利用二元交叉熵损失函数公式：

其中x_i＝DG3，y_i是x_i对应的真实标签，σ(x)＝sigmoid(x)。

步骤D所述知识蒸馏损失函数具体为：

其中，y是真实标签， σ(x)＝sigmoid(x)，LDLM和GDLM的结果作为图像对于各标签的全局归属程度和局部归属程度。

附图说明

图1为本发明的一种基于全局与局部标签关系的多标签图像分类方法的较佳实施例的流程；

图2为本发明的一种基于全局与局部标签关系的多标签图像分类方法的完整模型的示意图；

图3为本发明的一种基于全局与局部标签关系的多标签图像分类方法的传统多标签分类模型的示意图；

图4为本发明的一种基于全局与局部标签关系的多标签图像分类方法的局部深度学习模型的语义模块的示意图；

图5为本发明的一种基于全局与局部标签关系的多标签图像分类方法的局部深度学习模型的双层自注意力机制的示意图；

图6为本发明的一种基于全局与局部标签关系的多标签图像分类方法的全局深度学习模型的示意图；

图7为本发明的一种基于全局与局部标签关系的多标签图像分类方法的知识蒸馏的示意图；

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

步骤A、获取已标记所包含物体类别的图像集合作为训练样本集，并对训练样本集中的每一幅图像进行预处理；

具体实施时，计算整个训练样本集的标签共现矩阵：首先计算训练集的中标签对出现的次数，得到矩阵C是类别数；然后，统计每个标签在训练集中的出现次数得到/>标签共现矩阵为P_i＝M_i/N_i，其中i代表某个标签，/>

利用词向量生成技术生成每个标签的词向量；可选的词向量生成技术包括Word2vec、Glove，得到

将训练样本中的场景图像随机剪切成固定大小的图像，如448×448像元大小，之后在水平方向进行随机翻转，并进行归一化处理；

步骤B、利用基于残差网络的双层注意力深度学习模型对步骤A所述训练样本进行训练，得到训练好的局部深度学习模型；

具体实施时，结合图2、图3、图4和图5可知，将所述步骤A中预处理过的样本图像作为RES的输入，得到RES特征图其中L表示特征图数量维度，cs则代表特征图尺寸；

将特征图V_feat进行全局平均池化，并使用全连接层分类，得到输入图片对于各个标签的归属程度，该归属程度取值范围为[0,1]，记该值为DG1，DG1＝ FC(Avg(V_feat))，FC标签全连接层，Avg表示全局平均池化操作(图3)；

对于每个标签所对应的V_feat，利用注意力机制计算其空间维度的权重矩阵，然后将RES特征图根据权重矩阵进行加权求和，并将其用作该标签的特征向量，记为其中，C表示类别个数，D表示该类对应的特征长度，具体公式为：α＝softmax(f₁(A₁+A₂ ^T))，f₁是全连接层(图4)；

其中，A₁＝conv_1×1(V_feat)，conv_1×1是卷积核为1×1的卷积操作， l是卷积后的特征图数量维度；

A₂＝f₂(Avg(V_feat))，Avg是全局平均池化操作，f₂是全连接层；

结合图5，特征FL1经过第一层自注意力模块得到对LT1执行全局平均池化和第一个维度重复C次操作，同时该结果与LT1拼接得到经过fc_SA层后的输出可表示为/>即为标签关系矩阵，根据W调整第一层自注意力模块输出的特征为LT2，再使用第二层注意力机制得到之后，将LT3与FL1相加，其结果经过DLSA分类器，得到第二标签分布具体公式为：

LT1＝f(Softmax(Q(FL1)×K(FL1)^T+b)×FL1)，f，Q，K均为全连接层，b是偏差值；

LT2＝fc_SA(Concat(R(Avg(LT1)),LT1))×LT1，fc_SA为全连接层， Concat是拼接操作，R是重复函数，Avg是全局平均池化；

LT3＝f(Softmax(Q(LT2)×K(LT2)^T+b)×LT2)，f，Q，K均为全连接层，b是偏差值；

Z＝LT3+FL1，运用残差连接的概念，防止信息丢失；

DG2＝f(Z)×E_d，f为全连接层，E_d为对角线为1维度为C×C的矩阵；

其中x_i＝(DG1_i+DG2_i)/2，y_i是x_i对应的真实标签，σ(x)＝sigmoid(x)；

步骤C、利用基于残差网络的图卷积深度学习模型对步骤A所述训练样本进行训练，得到训练好的全局深度学习模型；

具体实施时，结合图2和图6，步骤C具体包括：

将所述步骤A中预处理过的样本图像作为RES的输入，得到RES特征图

将所述步骤A中得到的标签共现矩阵、标签词向量和上述步骤C1得到的 V_feat作为图卷积网络(GCN)的输入，输出的标签特征向量记为FL2；

预定义的标签共现矩阵和标签词向量/>输入GCN模型：

Z₁＝(E_word×W₁)^T×P，是随机初始化的参数矩阵，/>

Z₂＝W₂×Z₁×P，是随机初始化的参数矩阵；

将步骤C1得到V_feat进行全局平均池化得到其结果与FL2相乘得到输入图片对于各个标签的归属程度DG3；

V_A＝Avg(V_feat)，Avg表示全局平均池化操作；

DG3＝Z₂×V_A，表示第三标签分布；

其中x_i＝DG3，y_i是x_i对应的真实标签，σ(x)＝sigmoid(x)，y_t是样本真实标签；

步骤D、所述知识蒸馏损失函数具体为：

其中，y是真实标签， σ(x)＝sigmoid(x)，LDLM和GDLM的结果作为图像对于各标签的全局归属程度和局部归属程度(图7)；

步骤E、对没有任何类别标签的多标签图像，根据步骤E所述的训练好的全局与局部深度学习模型对其进行预测，其中，对每一幅图像的预测结果设置阈值，若预测结果中存在大于阈值标签则认为图像中存在该标签，反之，则认为不存在该标签；

综上所述，本发明提供了一种基于全局与局部标签关系的多标签图像分类方法，方法包括：步骤A、获取已标记所包含物体类别的图像集合作为训练样本集，并对训练样本集中的每一幅图像进行预处理；步骤B、利用基于残差网络的双层注意力深度学习模型对步骤A所述训练样本进行训练，得到训练好的局部深度学习模型；步骤C、利用基于残差网络的图卷积深度学习模型对步骤 A所述训练样本进行训练，得到训练好的全局深度学习模型；步骤D、利用知识蒸馏操作，将步骤C所述的训练好的全局深度学习模型设置为教师模型，同时将步骤B所述的训练好的局部深度学习模型设置为学生模型，再根据预设的知识蒸馏损失函数进行训练，得到训练好的全局与局部深度学习模型；步骤E、对没有任何类别标签的多标签图像，根据步骤E所述的训练好的全局与局部深度学习模型对其进行预测，其中，对每一幅图像的预测结果设置阈值(如0.5)，若某标签结果大于阈值则认为图像中存在该标签，反之，小于阈值则认为不存在该标签；

应当理解的是，本发明的应用不限于上述的举例，对本领域的普通技术人员来说，可以根据上述说明加以改进或变换，所有些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于全局与局部标签关系的多标签图像分类方法，其特征在于，所述方法包括以下5个步骤：

2.根据权利要求1所述的基于全局与局部标签关系的多标签图像分类方法，其特征在于，步骤A所述的对训练样本集中的每一幅图像进行预处理，具体为：

步骤A1、计算整个训练样本集的标签共现矩阵；首先计算训练集的中标签对出现的次数，得到矩阵C是类别数；然后，统计每个标签在训练集中的出现次数得到标签共现矩阵为P_i＝M_i/N_i；

步骤A2、利用词向量生成技术生成每个标签的词向量；词向量生成技术包括Word2vec、Glove；

3.根据权利要求1所述的基于全局与局部标签关系的多标签图像分类方法，其特征在于，步骤B所述基于残差网络(RES)的双层注意力深度学习模型具体为：

步骤B1、将所述步骤A中预处理过的样本图像作为RES的输入，得到RES特征图；

步骤B2、将步骤B1输出的特征图进行全局平均池化，使用全连接层分类，得到输入图片对于各个标签的归属程度，该归属程度取值范围为[0，1]，记该值为DG1；

步骤B6、利用二元交叉熵损失函数公式

4.根据权利要求1所述的基于全局与局部标签关系的多标签图像分类方法，其特征在于，步骤C所述的基于残差网络的图卷积深度学习模型具体为：

步骤C1、将所述步骤A中预处理过的样本图像作为RES的输入，得到RES特征图；

步骤C2、将所述步骤A中得到的标签共现矩阵、标签词向量和上述步骤C1得到的RES特征图作为图卷积网络的输入，输出的标签特征向量记为FL2；

步骤C4、利用二元交叉熵损失函数公式

其中x_i＝DG3，y_i是x_i对应的真实标签，σ(x)＝sigmoid(x)。

5.根据权利要求1所述的基于全局与局部标签关系的多标签图像分类方法，其特征在于，步骤D所述知识蒸馏损失函数具体为：

其中，y是真实标签，σ(x)＝sigmoid(x)，LDLM和GDLM的结果作为图像对于各标签的全局归属程度和局部归属程度。