CN113807412B

CN113807412B - 一种多标签图像分类方法、装置、设备及存储介质

Info

Publication number: CN113807412B
Application number: CN202111002998.5A
Authority: CN
Inventors: 汪洋涛; 范立生; 夏隽娟; 彭伟龙; 谭伟强
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-09-26
Anticipated expiration: 2041-08-30
Also published as: CN113807412A

Abstract

本发明公开了一种多标签图像分类方法、装置、设备及存储介质，方法包括：获取待分类图像，使用Python图像库将待分类图像转换为多维张量；将多维张量输入到预先训练好的分类模型中，得到待分类图像的分类结果；其中，分类模型的训练步骤包括：将待训练图像输入到Transformer网络，获取多维特征向量；获取各个图像的标签，生成标签词向量；根据多维特征向量和标签词向量进行融合处理，获取第一预测标签；根据标签词向量对分类模型进行迭代训练，并根据训练得到的分类模型获取第二预测标签；根据第一预测标签和第二预测标签，结合待训练图像的测试集，确定分类模型。本发明提高了分类效率，可广泛应用于图像处理技术领域。

Description

一种多标签图像分类方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其是一种多标签图像分类方法、装置、设备及存储介质。

背景技术

如今，多标签图像分类在计算机视觉领域得到了日渐广泛的应用，包括多目标识别、情感分析、医疗诊断识别等。由于每张图像中都包含多个对象，而且一张图像包含多种风格，因此如何有效地学习这些对象之间的关联关系、以及如何将这种关系与图像特征有效融合依然充满着挑战性。

一般而言，现有的多标签图像分类方法首先利用卷积神经网络得到图像的特征向量，然后利用图卷积网络(Graph Convolutional Network，GCN)得到标签之间的共现关系词向量，最后采用向量的点积操作来融合图像特征和标签的共现关系词向量，但并没有考虑图像特征与标签词向量来自于不同的模态，多模态向量的融合效率低，从而影响了分类模型的图像识别性能。

发明内容

有鉴于此，本发明实施例提供一种高效的多标签图像分类方法、装置、设备及存储介质。

本发明的第一方面提供了一种多标签图像分类方法，包括：

获取待分类图像，使用Python图像库将所述待分类图像转换为多维张量；

将所述多维张量输入到预先训练好的分类模型中，以得到待分类图像的分类结果；

其中，所述分类模型的训练步骤包括：

将待训练图像输入到Transformer网络，获取多维特征向量；

获取各个图像的标签，生成标签词向量；

根据所述多维特征向量和所述标签词向量进行融合处理，获取图像的第一预测标签；

根据所述标签词向量对分类模型进行迭代训练，并根据训练得到的分类模型获取图像的第二预测标签；

根据所述第一预测标签和所述第二预测标签，结合待训练图像的测试集，确定满足测试条件的分类模型。

可选地，所述分类模型包括依次连接的Transformer网络和GCN网络；

其中，所述GCN网络包括2层，所述GCN网络的第一层是图卷积层，所述第一层的输入为C×d维标签词向量矩阵和C×C维关系矩阵，所述第一层使用d×1024维权重矩阵，所述第一层输出为C×1024维标签词向量共现矩阵；所述GCN网络的第二层是图卷积层，所述第二层的输入为所述第一层的C×1024维标签词向量共现矩阵和C×C维关系矩阵，所述第二层使用1024×D维权重矩阵，所述第二层输出为C×D维标签词向量共现矩阵。

可选地，所述将待训练图像输入到Transformer网络，获取多维特征向量，包括：

获取多张图像构成的训练集和多张图像构成的测试集；

将所述训练集输入到Transformer网络中；

从所述Transformer网络的平均池化层提取训练集中每张图像的多维特征向量；

其中，所述多维特征向量的提取公式为：

F＝F_avg(F_para(x,θ_para))

其中，N和K为自然数，且N≥K，F_avg表示平均池化操作，F_para表示Transformer网络；x表示图像，θ_para表示Transformer网络的参数。

可选地，所述获取各个图像的标签，生成标签词向量，包括：

获取所述训练集中所有图像的标签，将每个标签输入Bert模型中，生成每个标签对应的标签词向量；

将所述标签词向量构成一个标签词向量矩阵；

通过卷积层将所述标签词向量矩阵映射为第一矩阵和第二矩阵；

采用点积操作将所述第一矩阵和所述第二矩阵融合成多维关系矩阵，将所述标签词向量矩阵和所述多维关系矩阵输入到图卷积网络中，得到所有标签对应的多维共现关系词向量矩阵。

可选地，所述采用点积操作将所述第一矩阵和所述第二矩阵融合成多维关系矩阵，将所述标签词向量矩阵和所述多维关系矩阵输入到图卷积网络中，得到所有标签对应的多维共现关系词向量矩阵，包括：

构建两个1×1卷积层分别将所述标签词向量矩阵映射为第一矩阵和第二矩阵；

采用点积操作将所述第一矩阵和所述第二矩阵融合成多维关系矩阵；

将所述多维关系矩阵输入到GCN网络中，获取共现关系词向量矩阵。

可选地，所述根据所述多维特征向量和所述标签词向量进行融合处理，获取图像的第一预测标签，包括：

采用向量的点积操作对所述多维特征向量和所述共现关系词向量矩阵进行融合，得到图像的多维预测标签。

可选地，所述根据所述标签词向量对分类模型进行迭代训练，并根据训练得到的分类模型获取图像的第二预测标签，包括：

根据所述多维关系矩阵构建二范数损失函数；

根据所述第一预测标签构建多标签分类损失函数；

根据所述二范数损失函数和所述多标签分类损失函数，构建目标损失函数；

根据所述目标损失函数对所述分类模型进行迭代训练，得到训练好的分类模型；

根据所述训练好的分类模型，获取图像的第二预测标签。

本发明实施例的另一方面提供了一种多标签图像分类装置，包括：

获取模块，用于获取待分类图像，使用Python图像库将所述待分类图像转换为多维张量；

分类模块，用于将所述多维张量输入到预先训练好的分类模型中，以得到待分类图像的分类结果；

其中，所述分类模型的训练过程通过以下模块来实现：

第一模块，用于将待训练图像输入到Transformer网络，获取多维特征向量；

第二模块，用于获取各个图像的标签，生成标签词向量；

第三模块，用于根据所述多维特征向量和所述标签词向量进行融合处理，获取图像的第一预测标签；

第四模块，用于根据所述标签词向量对分类模型进行迭代训练，并根据训练得到的分类模型获取图像的第二预测标签；

第五模块，用于根据所述第一预测标签和所述第二预测标签，结合待训练图像的测试集，确定满足测试条件的分类模型。

本发明实施例的另一方面提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例获取待分类图像，使用Python图像库将所述待分类图像转换为多维张量；将所述多维张量输入到预先训练好的分类模型中，以得到待分类图像的分类结果；其中，所述分类模型的训练步骤包括：将待训练图像输入到Transformer网络，获取多维特征向量；获取各个图像的标签，生成标签词向量；根据所述多维特征向量和所述标签词向量进行融合处理，获取图像的第一预测标签；根据所述标签词向量对分类模型进行迭代训练，并根据训练得到的分类模型获取图像的第二预测标签；根据所述第一预测标签和所述第二预测标签，结合待训练图像的测试集，确定满足测试条件的分类模型。本发明能够提高分类效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图；

图2为本发明在FLICKR25K数据集上的mAP测试结果；

图3为本发明的一种实施流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明提供了一种基于Transformer的多标签图像分类方法和系统，以词向量的方式提取图像特征，并结合了GCN将标签共现关系融入到图像特征中，最后结合二范数损失函数和多标签分类损失函数来共同训练一个端到端的图像分类模型，提升了模型的图像识别性能，如图1所示，方法包括以下步骤：

其中，所述分类模型的训练步骤包括：

将待训练图像输入到Transformer网络，获取多维特征向量；

获取各个图像的标签，生成标签词向量；

获取多张图像构成的训练集和多张图像构成的测试集；

将所述训练集输入到Transformer网络中；

其中，所述多维特征向量的提取公式为：

F＝F_avg(F_para(x,θ_para))

将所述标签词向量构成一个标签词向量矩阵；

根据所述多维关系矩阵构建二范数损失函数；

根据所述第一预测标签构建多标签分类损失函数；

根据所述训练好的分类模型，获取图像的第二预测标签。

其中，所述分类模型的训练过程通过以下模块来实现：

第二模块，用于获取各个图像的标签，生成标签词向量；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现原理进行详细说明：

参考图3，本发明的方法包括以下步骤：

(1)获取待分类图像，使用Python图像库将该待分类图像转换为多维张量；

(2)将步骤(1)得到的多维张量输入到预先训练好的分类模型中，以得到待分类图像的分类结果。

可选地，分类模型是通过以下步骤训练得到的：

(2-1)获取N张图像所构成的训练集和K张图像构成的测试集，将该训练集输入到Transformer网络中，以从该网络的平均池化层提取训练集中每张图像x∈{x₁,x₂,…,x_N}的D维特征向量F：

F＝F_avg(F_para(x,θ_para))

其中N和K为自然数，且N≥K，F_avg表示平均池化操作，F_para表示Transformer网络，θ_para表示Transformer网络的参数，D＝1536。

(2-2)获取训练集中所有N张图像的标签，将每个标签输入Bert模型中，以生成每个标签对应的标签词向量(其是d维)，所有的标签词向量构成一个C×d维标签词向量矩阵L，其中，C表示标签的类别数目，d＝768。构建两个1×1卷积层分别将矩阵L映射为两个C×d_L维矩阵L₁和L₂，并采用点积操作将L₁和L₂融合成C×C维关系矩阵A，将获取的标签词向量矩阵L和关系矩阵A输入到图卷积网络GCN中，以获得所有C类标签对应的C×D维共现关系词向量矩阵W。

(2-3)使用向量的点积操作对步骤(2-1)得到的D维特征向量F和步骤(2-2)得到的共现关系词向量矩阵W进行融合，以获得图像x的C维预测标签Y。

(2-4)根据步骤(2-2)得到的关系矩阵A设计二范数损失函数L₁，根据步骤(2-3)得到的图像x预测标签Y设计多标签分类损失函数L₂，联合L₁和L₂得到损失函数L＝L₁+L₂对分类模型进行迭代训练，直到该模型收敛为止，从而得到训练好的分类模型，并获得此时图像x的预测标签Y。

(2-5)使用步骤(2-1)得到的K张图像构成的测试集对训练好的模型进行验证，直到得到的分类精度达到最优为止，从而得到训练好的分类模型。

可选地，二范数损失函数L₁为：

其中，表示矩阵A的标准化版本，I_C表示成C×C维单位矩阵，/>表示使用二范数计算。

可选地，多标签分类损失函数L₂为：

其中，Y表示图像x的预测标签，/>表示图像x的第i个标签是否出现在图像中，/>表示图像x的第i个标签出现在图像中，/>表示图像x的第i个标签没有出现在图像中。

可选地，步骤(2-2)中构建两个1×1卷积层分别将矩阵L映射为两个C×d_L维矩阵L₁和L₂，并采用点积操作将L₁和L₂融合成C×C维关系矩阵A，将获取的标签词向量矩阵L和关系矩阵A输入到图卷积网络GCN中，以获得所有C类标签对应的C×D维共现关系词向量矩阵W这一过程具体为：

首先，构建两个1×1卷积层分别将矩阵L映射为两个C×d_L维矩阵L₁和L₂：

L₁＝F_α(L；θ_α),

L₂＝F_β(L；θ_β),

其中，F_α和F_β分别表示这两个1×1卷积层，θ_α和θ_β分别表示这两层的参数。

然后，采用点积操作将L₁和L₂融合成C×C维关系矩阵A：

其中，代表点积操作，/>代表矩阵L₂的转置。

接下来，将关系矩阵A输入GCN中，以获取GCN中第l+1层的共现关系词向量矩阵L^l ⁺¹，其中l∈[0,1]，最终得到的共现关系词向量矩阵L²就是所有C类标签对应的共现关系词向量矩阵W：

其中，L^l，U^l和f^l分别表示GCN中第l层的输入特征矩阵、第l层的权重矩阵、以及第l层的非线性激活函数，L⁰＝，表示关系矩阵A的标准化版本。

可选地，关系矩阵A的标准化版本的计算过程如下：

其中，I_C是C×C维单位矩阵，/>是对角矩阵且满足/>

可选地，步骤(2-3)具体为：

首先，通过向量的点积操作对F和W进行融合，得到x的C维预测标签其中/>代表点积操作。

可选地，分类模型包括依次连接的Transformer网络、GCN网络；

GCN网络包括2层，其结构如下：第一层是图卷积层，其输入为C×d维标签词向量矩阵和C×C维关系矩阵，该层使用d×1024维权重矩阵，该层输出为C×1024维标签词向量共现矩阵；第二层是图卷积层，其输入为上一层的C×1024维标签词向量共现矩阵和C×C维关系矩阵，该层使用1024×D维权重矩阵，该层输出为C×D维标签词向量共现矩阵。

综上所述，相较于现有技术，本发明具有以下效果：

(1)由于本发明在模型训练阶段首先将每张图像的标签转化成标签词向量，然后采用GCN自适应地学习标签之间的依赖关系，因此能够解决现有图像分类方法需要手动统计标签共现关系，而导致模型收敛效率低的技术问题。

(2)由于本发明在模型训练阶段使用Transformer以词向量方式提取图像特征，从而高效地融合了图像特征与标签共现关系词向量，进而提升了模型的分类效果。

下面通过实验结果对本发明的效果进行说明：

本发明实验环境：CPU为10枚Inter Xeon(R)@2.4GHz，GPU为2块NVIDIA TeslaK40m 12GB，内存为64GB DDR4，硬盘容量为8TB，在Ubuntu 16.04操作系统下，采用Pytorch编程实现发明的方法。具体的参数设置如下：batch size大小为32，初始学习率为0.1，每40个epoch之后变为原来的0.1倍。

为了说明本发明中有效性，本发明在FLICKR25K数据集上做了相关的测试，并记录了模型的mAP值，图2给出了测试结果。由图2可知，相比于当前使用传统卷积神经网络提取图像特征的方法ML-GCN，A-GCN和F-GCN，本发明的mAP有了较大的提升，这反映了本发明确实能够有效地识别多标签图像。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种多标签图像分类方法，其特征在于，包括：

将所述多维张量输入到预先训练好的分类模型中，得到待分类图像的分类结果；

其中，所述分类模型的训练步骤包括：

将待训练图像输入到Transformer网络，获取多维特征向量；

获取各个图像的标签，生成标签词向量；

根据所述第一预测标签和所述第二预测标签，结合待训练图像的测试集，确定满足测试条件的分类模型；

所述分类模型包括依次连接的Transformer网络和GCN网络；

其中，所述GCN网络包括2层，所述GCN网络的第一层是图卷积层，所述第一层的输入为C×d维标签词向量矩阵和C×C维关系矩阵，所述第一层使用d×1024维权重矩阵，所述第一层输出为C×1024维标签词向量共现矩阵；所述GCN网络的第二层是图卷积层，所述第二层的输入为所述第一层的C×1024维标签词向量共现矩阵和C×C维关系矩阵，所述第二层使用1024×D维权重矩阵，所述第二层输出为C×D维标签词向量共现矩阵；

所述根据所述多维特征向量和所述标签词向量进行融合处理，获取图像的第一预测标签，包括：

采用向量的点积操作对所述多维特征向量和共现关系词向量矩阵进行融合，得到图像的多维预测标签；

所述根据所述标签词向量对分类模型进行迭代训练，并根据训练得到的分类模型获取图像的第二预测标签，包括：

根据多维关系矩阵构建二范数损失函数；

根据所述第一预测标签构建多标签分类损失函数；

根据所述训练好的分类模型，获取图像的第二预测标签。

2.根据权利要求1所述的一种多标签图像分类方法，其特征在于，所述将待训练图像输入到Transformer网络，获取多维特征向量，包括：

获取多张图像构成的训练集和多张图像构成的测试集；

将所述训练集输入到Transformer网络中；

其中，所述多维特征向量的提取公式为：

其中，表示平均池化操作，/>表示Transformer网络；/>表示图像，/>表示Transformer网络的参数。

3.根据权利要求2所述的一种多标签图像分类方法，其特征在于，所述获取各个图像的标签，生成标签词向量，包括：

将所述标签词向量构成一个标签词向量矩阵；

4.根据权利要求3所述的一种多标签图像分类方法，其特征在于，所述采用点积操作将所述第一矩阵和所述第二矩阵融合成多维关系矩阵，将所述标签词向量矩阵和所述多维关系矩阵输入到图卷积网络中，得到所有标签对应的多维共现关系词向量矩阵，包括：

5.一种多标签图像分类装置，其特征在于，包括：

其中，所述分类模型的训练过程通过以下模块来实现：

第二模块，用于获取各个图像的标签，生成标签词向量；

第五模块，用于根据所述第一预测标签和所述第二预测标签，结合待训练图像的测试集，确定满足测试条件的分类模型；

其中，所述分类模型包括依次连接的Transformer网络和GCN网络；

根据多维关系矩阵构建二范数损失函数；

根据所述第一预测标签构建多标签分类损失函数；

根据所述训练好的分类模型，获取图像的第二预测标签。

6.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1-4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1-4中任一项所述的方法。