CN112861941A

CN112861941A - 一种多标签图像分类方法、装置、设备和存储介质

Info

Publication number: CN112861941A
Application number: CN202110114531.3A
Authority: CN
Inventors: 陈川; 张梓旸; 郑子彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-28

Abstract

本申请公开了一种多标签图像分类方法、装置、设备和存储介质，方法包括：响应于图像分类请求，获取待检测图像；对所述待检测图像进行特征提取得到图像特征；获取所述待检测图像对应的预置分类器，所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，所述待检测图像和所述训练图像为同一场景图像；将所述图像特征和所述预置分类器融合，得到所述待检测图像的多标签分类结果。解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构，导致分类结果准确度较差的技术问题。

Description

一种多标签图像分类方法、装置、设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种多标签图像分类方法、装置、设备和存储介质。

背景技术

多标签图像分类是计算机视觉中的重要任务，目的是预测图像或视频中存在的类别。近年来，随着大规模人工标记数据集的建立及卷积神经网络的发展，单标签图像分类取得了较大的进展。通过处理一系列单标签分类任务，可以扩展到多标签分类任务。与单标签分类相比，多标签分类应用更加广泛，如互联网搜索、安全监视、机器人等。

现有的多标签分类方法虽然可以取得一定的分类效果，但是在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构，导致分类结果准确度较差。

发明内容

本申请提供了一种多标签图像分类方法、装置、设备和存储介质，解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构，导致分类结果准确度较差的技术问题。

有鉴于此，本申请第一方面提供了一种多标签图像分类方法，包括：

响应于图像分类请求，获取待检测图像；

对所述待检测图像进行特征提取得到图像特征；

获取所述待检测图像对应的预置分类器，所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，所述待检测图像和所述训练图像为同一场景图像；

将所述图像特征和所述预置分类器融合，得到所述待检测图像的多标签分类结果。

可选地，所述预置分类器的配置过程具体包括：

通过数据驱动的方式构建所述训练图像中标签之间的相关性，得到所述训练图像的邻接矩阵；

将所述邻接矩阵和所述训练图像的标签特征输入至所述图神经网络，使得所述标签特征在所述图神经网络中按照所述邻接矩阵进行传播；

将所述图神经网络输出的标签结果作为所述预置分类器。

可选地，所述预置分类器的配置过程还包括：

将所述训练图像的训练图像特征和所述预置分类器进行融合，得到所述训练图像的训练分类结果；

将所述训练分类结果输入至多标签分类损失函数后，根据预置优化方法对所述预置分类器进行优化。

可选地，所述预置优化方法包括：梯度下降法。

可选地，对所述待检测图像进行特征提取得到图像特征，具体包括：

通过卷积神经网络对所述待检测图像进行图像特征提取，得到若干待检测图像特征值；

保留大于预设阈值的所述待检测图像特征值，得到图像特征。

可选地，将所述图像特征和所述预置分类器融合，得到所述待检测图像的多标签分类结果，具体包括：

将所述图像特征和所述预置分类器线性结合，得到所述待检测图像的多标签分类结果。

可选地，获取所述待检测图像对应的预置分类器，具体包括：

获取待检测图像的场景信息；

根据所述场景信息和预置分类器的对应关系，确定场景信息对应的所述预置分类器，并将该预置分类器作为所述待检测图像对应的预置分类器。

本申请第二方面提供了一种多标签图像分类装置，包括：

第一获取单元，被配置为用于响应于图像分类请求，获取待检测图像；

提取单元，被配置为用于对所述待检测图像进行特征提取得到图像特征；

第二获取单元，被配置为用于获取所述待检测图像对应的预置分类器，所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，所述待检测图像和所述训练图像为同一场景图像；

分类单元，用于将所述图像特征和所述预置分类器融合，得到所述待检测图像的多标签分类结果。

本申请第三发明提供了一种多标签图像分类设备，所述设备包括处理器以及存储器；

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如第一方面所述的多标签图像分类方法。

本申请第四方面提供了一种存储介质，所述存储介质用于存储程序代码，所述程序代码用于执行如第一方面所述的多标签图像分类方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请提供了一种多标签图像分类方法，包括：响应于图像分类请求，获取待检测图像；对所述待检测图像进行特征提取得到图像特征；获取所述待检测图像对应的预置分类器，所述预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，所述待检测图像和所述训练图像为同一场景图像；将所述图像特征和所述预置分类器融合，得到所述待检测图像的多标签分类结果。本申请中的预置分类器是基于图像的拓扑结构对标签进行嵌入后得到的，故结合待检测图像的图像特征(图像内容信息)和预置分类器(标签拓扑信息)得到的多标签分类结果准确度较高，从而解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构，导致分类结果准确度较差的技术问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种多标签图像分类方法的实施例一的流程示意图；

图2为本申请实施例中一种多标签图像分类方法的实施例二的流程示意图；

图3为本申请实施例中ResNet的网络结构图；

图4为本申请实施例中注意力计算的示意图；

图5为本申请实施例中一种多标签图像分类装置的实施例的结构示意图。

具体实施方式

本申请实施例提供了一种多标签图像分类方法、装置、设备和存储介质，解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构，导致分类结果准确度较差的技术问题。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，本申请实施例中一种多标签图像分类方法的实施例一的流程示意图。

本实施例中的一种多标签图像分类方法包括：

步骤101、响应于图像分类请求，获取待检测图像。

在进行多标签图像分类检测时，首先响应于图像分类请求，获取待检测图像。

可以理解的是，待检测图像的获取方式和待检测图像的种类等，本领域技术人员可以根据需要进行设置，在此不做具体限定和赘述。

步骤102、对待检测图像进行特征提取得到图像特征。

在获取到待检测图像后，对待检测图像进行特征提取得到待检测图像对应的图像特征。

需要说明的是，特征提取的方法和具体提取的图像特征的信息本领域技术人员可以根据分类需求设置，在此不做具体限定和赘述。

步骤103、获取待检测图像对应的预置分类器。

本实施例中的，预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，待检测图像和训练图像为同一场景图像。

预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，且图神经网络通过邻接关系使信息在结点之间传播，本实施例中通过图神经网络的节点表达训练图像的标签特征之间的交互。

可以理解的是，在某一场景时(例如无人驾驶的障碍物检测、比赛中的对象检测)，尽管拍摄到的图像是不同的，但是这些图像对应的标签大致是相对固定的。故，在本实施例中训练图像和待检测图像为同一场景图像时，获取通过训练图像的标签嵌入配置的预置分类器，也即获取了该场景时相对固定的标签特征。

步骤104、将图像特征和预置分类器融合，得到待检测图像的多标签分类结果。

在得到待检测图像的图像特征和预置分类器后，将图像特征和预置分类器融合便可得到待检测图像的多标签分类结果。

本实施例中，首先响应于图像分类请求，获取待检测图像；对待检测图像进行特征提取得到图像特征；获取待检测图像对应的预置分类器，预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，待检测图像和训练图像为同一场景图像；将图像特征和预置分类器融合，得到待检测图像的多标签分类结果。本申请中的预置分类器是基于图像的拓扑结构对标签进行嵌入后得到的，故结合待检测图像的图像特征(图像内容信息)和预置分类器(标签拓扑信息)得到的多标签分类结果准确度较高，从而解决了现有的多标签分类方法在复杂场景和多个对象的输入图像上由于忽略对象之间的拓扑结构，导致分类结果准确度较差的技术问题。

以上为本申请实施例提供的一种多标签图像分类方法的实施例一，以下为本申请实施例提供的一种多标签图像分类方法的实施例二。

请参阅图2，本申请实施例中一种多标签图像分类方法的实施例二的流程示意图。

本实施例中的一种多标签图像分类方法包括：

步骤201、响应于图像分类请求，获取待检测图像。

需要说明的是，步骤201的描述与实施例一种步骤101的描述相同，在此不再赘述。

步骤202、通过卷积神经网络对待检测图像进行图像特征提取，得到若干待检测图像特征值。

本实施例中选用ResNet作为基准模型进行图像特征的提取。该模型的参数量比低，且能够在提升准确率的同时加速神经网络的训练。

如图3所示为ResNet的网络结构，ResNet的主要思想是引入了“快捷连接”，在保留前层一定比例的输出同时跳过多层连接到输出，在一定程度上解决了传统网络中梯度消失/爆炸和信息丢失的问题，且由于“快捷连接”的引入在一定程度上保护了信息的完整性，整个模型只需要学习输入与输出不同的部分，简化了学习难度。

可以理解的是，具体ResNet的版本，本领域技术人员可以根据需要选择，在此不做具体限定和赘述。具体地，本实施例中选择ResNet-101模型用于图像特征提取。此时，当待检测图像的大小为448×448时，可以得到大小为2048×14×14的特征。

步骤203、保留大于预设阈值的待检测图像特征值，得到图像特征。

在所有的待检测图像特征值中，保留大于预设阈值的待检测图像特征值，得到图像特征，即认为保留的是待检测图像中最显著的部分。

具体地本实施例中保留大于预设阈值的待检测图像特征值，即通过全局最大池化操作来得到图像特征，具体的计算公式为：

X＝f_gmp(f_cnn(I,θ_cnn))；

其中，θ_cnn为模型参数，f_cnn为卷积函数，用于进行图像特征提取，得到待检测图像特征值，f_gmp为全局最大池化函数，X为图像特征，I为待检测图像的像素矩阵。

步骤204、获取待检测图像的场景信息。

在获取待检测图像后，可以获取待检测图像的场景信息。

步骤205、根据场景信息和预置分类器的对应关系，确定场景信息对应的预置分类器，并将该预置分类器作为待检测图像对应的预置分类器。

本实施例中，预置分类器的配置过程具体包括：

通过数据驱动的方式构建训练图像中标签之间的相关性，得到训练图像的邻接矩阵；

将邻接矩阵和训练图像的标签特征输入至图神经网络，使得标签特征在图神经网络中按照邻接矩阵进行传播；

将图神经网络输出的标签结果作为预置分类器。

本实施例中以一种数据驱动的方式来构建邻接矩阵A，具体来说，通过计算标签之间的共现次数来定义邻接矩阵。即通过条件概率来建模结点之间的依赖性P(L_j|L_i)，也就是标签L_i出现时，标签L_j也出现的概率。然而大多数情况中，P(L_j|L_i)可能并不等于P(L_i|L_j)，因此构建出来的矩阵是非对称的。

本实施例在训练集中构建矩阵M，M_ij代表标签i和标签j同时出现的次数，再通过矩阵M来构建条件概率矩阵：P_i＝M_i/N_i，其中N_i代表标签i在训练集中出现的次数，P_ij代表标签L_i出现时，标签L_j也出现的概率。

为了防止过拟合现象的发生从而影响模型的泛化能力，本实施例使用阈值τ来滤除噪声边缘，由此构建出的邻接矩阵A为：

一个结点的更新特征包含了自己和邻居结点的特征，那么在相似的场景下，同一个实体的标签可能会有所不同，这就可能会出现过拟合的问题。为了缓解这个问题，本实施例对邻接矩阵进行重加权的操作：

其中，A'_ij是重加权之后的邻接矩阵，p是一个超参数，控制着结点自身和其相邻结点的权重，当p→1时，模型不考虑结点自身的特征，p→0时，模型不考虑结点邻居的特征。

图神经网络的目的是通过结点的表示来学习分类器

在得到标签之间的邻接矩阵后，就可以用图神经网络来进行结点之间信息的传递。本实施例汇总用图神经网络来建模结点拓扑关系中信息的交互。

本实施例中图神经网络对应的GCN模型如下：

其中，

为增加自连接的邻接矩阵，I_N为单位矩阵，

中的元素

为

W^l是第l层的可训练权重矩阵，σ(.)为激活函数，比如ReLU(.)＝max(0，.)等，H^l是第l层的表示向量，其中H⁰＝X。

本实施例将各标签的初始表示输入到GCN模型中，如上式所示，每一个GCN层都以前一层的输出特征H^l作为本层的输入，然后输出新的特征H^(l+1)，如此不断迭代，各结点的信息就会在彼此邻居间传播，在最后一个GCN层，模型的输出为矩阵W，也就是构建出的分类器。

在得到待检测图像的图像特征X和分类器W之后，就可以通过相乘的方式将二者线性的结合起来，即应用学习到的分类器到图像表示，可以得到预测的分数：

具体来说，图像特征X为d×1的矩阵，d为特征嵌入的维度。标签分类器W为C×d的矩阵，C为标签总数。那么

相当于图像特征的一次线性变换，变换后维度是C×1，输出即为预测出的各个标签的出现的可能性。

进一步地，预置分类器的配置过程还包括：

将训练图像的训练图像特征和预置分类器进行融合，得到训练图像的训练分类结果；

将训练分类结果输入至多标签分类损失函数后，根据预置优化方法对预置分类器进行优化。

假设每一张图像的正确标签是y，y_i＝{0，1}表示标签i是否出现在此图像中。最后整个网络使用多标签分类损失进行训练，多标签分类损失函数如下所示：

其中，σ(.)为sigmoid方程；y_c和

分别代表实际和预测中第c个标签是否出现；C为标签总数。

可以理解的是，上述的预置优化方法可以是梯度下降法，也可以是其他的优化方法，本领域技术人员可以根据需要进行限定，在此不再赘述。

预置分类器的改进。首先回顾模型的输入为

也就是n个结点的特征，其中

F为结点的特征数，n为结点的个数，模型的输出为

F′是变换后结点的特征数。

为了建立输入到输出的映射关系，我们需要对所有结点训练一个权值矩阵：W∈R^F′*F，通过至少一次线性变换来从输入的特征得到输出的特征。定义注意力互相关系数为：

其中f为特征映射函数，这个系数代表结点j对于结点i的重要性，此外系数的定义并没有考虑到图结构的信息，因此使模型可以适用于推理性任务中，注意力的计算如图4所示。

为了使得互相关系数更易于比较和计算，模型中引入激活函数softmax对结点i的所有相邻结点j的α_ij进行正则化：

式中，LeakyReLU代表线性激活函数，T代表向量的转置，

为可学习的映射矩阵，作用是把向量转换为标量。

最终每个结点的输出为：

式中，

为为结点i在图神经网络中第l+1层的表示，

为为结点i和结点j之间可学习的权重，

为结点j在第l层的表示。

步骤206、将图像特征和预置分类器线性结合，得到待检测图像的多标签分类结果。

以上为本申请实施例提供的一种多标签图像分类方法的实施例二，以下为本申请实施例提供的一种多标签图像分类装置的实施例。

请参阅图5，本申请实施例中一种多标签图像分类装置的实施例的结构示意图。

本实施例一种多标签图像分类装置包括：

第一获取单元501，被配置为用于响应于图像分类请求，获取待检测图像；

提取单元502，被配置为用于对待检测图像进行特征提取得到图像特征；

第二获取单元503，被配置为用于获取待检测图像对应的预置分类器，预置分类器是基于图神经网络对训练图像进行标签嵌入后得到的，其中，待检测图像和训练图像为同一场景图像；

分类单元504，用于将图像特征和预置分类器融合，得到待检测图像的多标签分类结果。

本申请实施例还提供了一种多标签图像分类设备的实施例，本实施例中的多标签图像分类设备包括处理器以及存储器；存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行如实施例一或实施例二的多标签图像分类方法。

本实施例中实施例还提供了一种存储介质的实施例，本实施例中的存储介质用于存储程序代码，程序代码用于执行如实施例一或实施例二的多标签图像分类方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个待安装电网网络，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种多标签图像分类方法，其特征在于，包括：

响应于图像分类请求，获取待检测图像；

对所述待检测图像进行特征提取得到图像特征；

2.根据权利要求1所述的多标签图像分类方法，其特征在于，所述预置分类器的配置过程具体包括：

将所述图神经网络输出的标签结果作为所述预置分类器。

3.根据权利要求2所述的多标签图像分类方法，其特征在于，所述预置分类器的配置过程还包括：

4.根据权利要求2所述的多标签图像分类方法，其特征在于，所述预置优化方法包括：梯度下降法。

5.根据权利要求1所述的多标签图像分类方法，其特征在于，对所述待检测图像进行特征提取得到图像特征，具体包括：

6.根据权利要求1所述的多标签图像分类方法，其特征在于，将所述图像特征和所述预置分类器融合，得到所述待检测图像的多标签分类结果，具体包括：

7.根据权利要求1所述的多标签图像分类方法，其特征在于，获取所述待检测图像对应的预置分类器，具体包括：

获取待检测图像的场景信息；

8.一种多标签图像分类装置，其特征在于，包括：

9.一种多标签图像分类设备，其特征在于，所述设备包括处理器以及存储器；

所述处理器用于根据所述程序代码中的指令执行权利要求1至7中任一项所述的多标签图像分类方法。

10.一种存储介质，其特征在于，所述存储介质用于存储程序代码，所述程序代码用于执行权利要求1至7中任一项所述的多标签图像分类方法。