CN115100502A

CN115100502A - 一种基于标签推理的多标签图像识别算法研究

Info

Publication number: CN115100502A
Application number: CN202210726440.XA
Authority: CN
Inventors: 张笑钦; 陈钊民
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-23

Abstract

本发明涉及数字信息的传输技术领域，且公开了一种基于标签推理的多标签图像识别算法研究，尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块，所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征；所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦，所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播；所述标签推理模块是基于自注意力模块上对标签进行推理，本发明利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理，从而有效的构建了标签之间的相关性，最终提高多标签图像识别的性能。

Description

一种基于标签推理的多标签图像识别算法研究

技术领域

本发明涉及图像识别技术领域，具体为一种基于标签推理的多标签图像识别算法研究。

背景技术

随着人工智能和深度学习的迅猛发展，计算机视觉领域的各项任务性能也获得了飞速的提升，其中图像标签识别任务是计算机视觉领域中最基础也是最重要的任务之一，该任务拟通过输入一张图片，通过特定算法提取图片特征，最终利用分类器来对其进行正确识别，传统的图像识别算法往往通过手工设定的规则来提取图像特征，这些特征通常只适用于某些特定场景，因此通用性有限，随着近些年深度学习的发展，端到端的训练方式能让网络自适应的学习出合理的特征，从而极大地提高了算法的泛化性，目前的图像标签识别工作多是聚焦于图像的单标签识别，然而在现实场景下所获得的图像往往是包含多个标签，因此研究多标签图像识别更具有现实意义，也逐渐成为当前研究的重点，然而由于多标签图像包含有多个标签，并且每张图像所包含的标签数量也不固定，因此对比单标签图像识别任务而言更具有挑战，此外，多标签图像识别任务也具有更丰富的现实应用，比如智能零售中的商品识别，目标检测和语义分割中的全局上下文特征提取，计数任务中的计数目标识别和医疗图像识别等。

传统处理多标签图像的做法是把该任务解耦成多个单标签识别任务，但是由于多标签图像具有多个标签，输出的标签组合数随着标签数量的增加呈现几何式增长，因此该方法对性能提升有限，后来研究者们发现虽然图像中包含有多个标签，但是标签之间具有相关性，比如“天空”和“白云”是强相关的标签组合，出现“白云”标签的图片往往也会出现“天空”，而“企鹅”和“沙漠”是不相关的，这两个标签就不会同时出现，因此如果能通过设计算法来充分利用上述规则，就能有效的筛选标签组合，从而减少搜索空间，通过这一现象，目前的方法利用深度学习网络来构建标签的关系，以此减小标签组合的搜索空间，从而提高最终分类的性能。

目前现有技术存在的缺陷分为以下两点：

1、由于多标签图像包含有多个标签，并且每张图像所包含的标签数量也不固定，使得无法合理地利用神经网络构建标签的关系；

2、特征提取不足，超参数是提前设计好的无法自适应，只能针对特定场景效果、普适性不强，需要较强的先验信息辅助训练。

发明内容

解决的技术问题

针对现有技术的不足，本发明提供了一种基于标签推理的多标签图像识别算法研究，基于标签推理的多标签图像识别算法，利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理，从而有效的构建了标签之间的相关性，最终提高多标签图像识别的性能。

技术方案

为实现上述目的，本发明提供如下技术方案：一种基于标签推理的多标签图像识别算法研究，包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块，所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征；所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。

进一步的，所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播；所述标签推理模块是基于自注意力模块上对标签进行推理。

进一步的，所述损失函数构建模块是由两个损失函数构成，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果。

4、根据权利要求1-3任一所述的一种基于标签推理的多标签图像识别算法研究，其步骤如下：

S1、首先输入一张图片I，通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征；

S2、当获取全局特征后，利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦；

S3、将已经获得解耦后的标签特征，利用自注意力模块对标签进行推理；

S4、对解耦后的特征通过损失函数构建模块计算最终的损失结果。

进一步的，所述神经网络，越高层输出的特征包含的语义信息越丰富，但是输出的特征越小，越容易遗漏小物体信息，而越低层则恰好相反，因此高层卷积层输出的特征虽然具有丰富的语义信息，但是由于特征大小过小的问题，会遗漏小物体信息，所以将高层特征和低层特征相融合以处理小物体丢失的问题，从而获得更加鲁棒的特征，将最后三层输出的特征记为x₁、x₂、x₃，将融合后的特征记为x，具体算法如下：

x＝f_down(x₁)+x₂+f_up(x₃)∈R^C×H×W。

其中需要具体说明是f_down(·)和f_up(·)分别代表上采样和下采样操作，C代表通道数，H和W分别代表特征的长和宽。

进一步的，所述定义标签嵌入特征Y＝{Y₁,Y₂,...,Y_N}∈R^N×C,N代表数据集中标签种类的数量，该标签嵌入特征能随着网络的学习而自适应的更新参数，最终学习出各个标签所对应的特征，接着对全局特征进行压平和转置操作，算法如下：x'＝f_transpose(f_flatten(x))∈R^HW×C。

其中，需要具体说明的是x′表示压平和转置之后的特征，f_flatten(·)和f_transpose(·)分别代表压平和转置操作，接着将标签嵌入特征和x′进行拼接以获得自注意力模块的输入特征x_embedding，算法如下：

x_embedding＝f_cat(x',Y)∈R^(HW+N)×C。

其中，需要具体说明的是f_cat(·)表示拼接操作，当获取自注意力模块的输入特征后，利用自注意力模块对标签特征进行解耦，自注意力模块能有效的让各个特征之间的信息互相传播，从而学习出各类别所特有的语义信息，从而实现标签特征的解耦操作，利用三个可学习矩阵将输入特征分别投影成三个矩阵：Query、Key、Value，分别记这三个矩阵为Q,K,V，然后对这三个矩阵进行自注意力操作以获取输出特征x_attrn，具体算法如下：

其中需要具体说明的是f_softmax(·)表示softmax函数，d_k表示缩放系数，D表示该特征的维度，最后，利用归一化层和全连接层将该特征映射为原来的维度，以获得最终的输出x_out，自注意力模块根据归纳偏置假设多层自注意力模块能更好地对标签信息进行解耦。

进一步的，所述自注意力模块中定义一个可学习的标签推理嵌入特征为x_infer∈R¹ ^×C，该特征的作用是推理被遮罩的标签，然后随机遮罩一个标签特征，并将剩下的标签特征和推理嵌入特征拼接，并送入自注意力模块进行推理，那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息，从而推理出被遮罩的特征标签，为了提高推理效率，对随机遮罩过程定义以下规则：所有正例标签都被遮罩一次，负例标签将随机采样4个进行遮罩。

进一步的，所述损失函数构建模块由两个损失函数构成，首先是对解耦后的特征，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果，过程如下：

其中，需要具体说明的是其中f_select(·)表示选择函数，-N表示从后往前选择N个特征，y表示标注信息，σ(·)表示sigmoid函数，然后对推理的预测结果计算损失函数，过程如下：

最终将两个损失函数相加获得最终的损失函数：

进一步的，所述多尺度特征提取模块可替代为特征金字塔模块，所述特征金字塔模块利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果，并且预测是在每个融合后的特征层上单独进行，即把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接。

有益效果

本发明提供了一种基于标签推理的多标签图像识别算法研究，具备以下有益效果：

该一种基于标签推理的多标签图像识别算法研究，基于标签推理的多标签图像识别算法，利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理，从而有效的构建了标签之间的相关性，最终提高多标签图像识别的性能。

附图说明

图1为本发明的整体流程图。

图2为本发明的COCO数据集上测试指标表。

图3为本发明的VOC数据集上测试指标表。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

实施例1

本发明提供一种技术方案：一种基于标签推理的多标签图像识别算法研究，包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块，多尺度特征提取模块是利用卷积神经网络对该图片抽取特征；标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦；自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播；标签推理模块是基于自注意力模块上对标签进行推理；损失函数构建模块是由两个损失函数构成，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果。

一种基于标签推理的多标签图像识别算法研究的管理方法，具体如下：

101、首先输入一张图片I，通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征；

本实施例中，需要具体说明是神经网络，越高层输出的特征包含的语义信息越丰富，但是输出的特征越小，越容易遗漏小物体信息，而越低层则恰好相反，因此高层卷积层输出的特征虽然具有丰富的语义信息，但是由于特征大小过小的问题，会遗漏小物体信息，所以将高层特征和低层特征相融合以处理小物体丢失的问题，从而获得更加鲁棒的特征，将最后三层输出的特征记为x₁、x₂、x₃，将融合后的特征记为x，具体算法如下：

x＝f_down(x₁)+x₂+f_up(x₃)∈R^C×H×W。

其中需要具体说明是f_down(·)和f_up(·)分别代表上采样和下采样操作，C代表通道数，H和W分别代表特征的长和宽，本实施例不做具体限定。

102、当获取全局特征后，利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦；

本实施例中，需要具体说明是定义标签嵌入特征Y＝{Y₁,Y₂,...,Y_N}∈R^N×C,N代表数据集中标签种类的数量，该标签嵌入特征能随着网络的学习而自适应的更新参数，最终学习出各个标签所对应的特征，接着对全局特征进行压平和转置操作，算法如下：x'＝f_transpose(f_flatten(x))∈R^HW×C。

x_embedding＝f_cat(x',Y)∈R^(HW+N)×C。

其中，需要具体说明的是f_cat(·)表示拼接操作，当获取自注意力模块的输入特征后，利用自注意力模块对标签特征进行解耦，自注意力模块能有效的让各个特征之间的信息互相传播，从而学习出各类别所特有的语义信息，从而实现标签特征的解耦操作，具体算法如下，利用三个可学习矩阵将输入特征分别投影成三个矩阵：Query、Key、Value，分别记这三个矩阵为Q,K,V，然后对这三个矩阵进行自注意力操作以获取输出特征x_attrn：

103、将已经获得解耦后的标签特征，利用自注意力模块对标签进行推理；

本实施例中，需要具体说明是自注意力模块中定义一个可学习的标签推理嵌入特征为x_infer∈R^1×C，该特征的作用是推理被遮罩的标签，然后随机遮罩一个标签特征，并将剩下的标签特征和推理嵌入特征拼接，并送入自注意力模块进行推理，那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息，从而推理出被遮罩的特征标签，为了提高推理效率，对随机遮罩过程定义以下规则：所有正例标签都被遮罩一次，负例标签将随机采样4个进行遮罩，本实施例不做具体限定。

104、对解耦后的特征通过损失函数构建模块计算最终的损失结果；

本实施例中，需要具体说明是损失函数构建模块由两个损失函数构成，首先是对解耦后的特征，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果，过程如下：

最终将两个损失函数相加获得最终的损失函数：

实施例2

本发明提供一种技术方案：一种基于标签推理的多标签图像识别算法研究，包括特征金字塔模块、标签特征解耦模块、标签推理模块、损失函数构建模块、自注意力模块。

101、首先输入一张图片I，通过特征金字塔模块利用卷积神经网络对该图片抽取特征；

本实施例中，需要具体说明是特征金字塔模块利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果，并且预测是在每个融合后的特征层上单独进行，即把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接，使得所有尺度下的特征都有丰富的语义信息，本实施例不做具体限定。

本实施例中，需要具体说明是标签嵌入特征Y＝{Y₁,Y₂,...,Y_N}∈R^N×C,N代表数据集中标签种类的数量，该标签嵌入特征能随着网络的学习而自适应的更新参数，最终学习出各个标签所对应的特征，接着对全局特征进行压平和转置操作，算法如下：x'＝f_transpose(f_flatten(x))∈R^HW×C。

x_embedding＝f_cat(x',Y)∈R^(HW+N)×C。

103、将已经获得解耦后的标签特征，利用自注意力模块对标签进行推理；本实施例中，需要具体说明是定义一个可学习的标签推理嵌入特征为x_infer∈R^1×C，该特征的作用是推理被遮罩的标签，然后随机遮罩一个标签特征，并将剩下的标签特征和推理嵌入特征拼接，并送入自注意力模块进行推理，那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息，从而推理出被遮罩的特征标签，为了提高推理效率，对随机遮罩过程定义以下规则：所有正例标签都被遮罩一次，负例标签将随机采样4个进行遮罩，本实施例不做具体限定。

最终将两个损失函数相加获得最终的损失函数：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于标签推理的多标签图像识别算法研究，其特征在于：包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块，所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征；所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。

2.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播；所述标签推理模块是基于自注意力模块上对标签进行推理。

3.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述损失函数构建模块是由两个损失函数构成，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果。

4.根据权利要求1-3任一所述的一种基于标签推理的多标签图像识别算法研究，其步骤如下：

5.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述神经网络，越高层输出的特征包含的语义信息越丰富，但是输出的特征越小，越容易遗漏小物体信息，而越低层则恰好相反，因此高层卷积层输出的特征虽然具有丰富的语义信息，但是由于特征大小过小的问题，会遗漏小物体信息，所以将高层特征和低层特征相融合以处理小物体丢失的问题，从而获得更加鲁棒的特征，将最后三层输出的特征记为x₁、x₂、x₃，将融合后的特征记为x，具体算法如下：x＝f_down(x₁)+x₂+f_up(x₃)∈R^C×H×W，

6.根据权利要求3所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述定义标签嵌入特征Y＝{Y₁,Y₂,...,Y_N}∈R^N×C,N代表数据集中标签种类的数量，该标签嵌入特征能随着网络的学习而自适应的更新参数，最终学习出各个标签所对应的特征，接着对全局特征进行压平和转置操作，算法如下：x'＝f_transpose(f_flatten(x))∈R^HW×C，

x_embedding＝f_cat(x',Y)∈R^(HW+N)×C，

7.根据权利要求2所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述自注意力模块中定义一个可学习的标签推理嵌入特征为x_infer∈R^1×C，该特征的作用是推理被遮罩的标签，然后随机遮罩一个标签特征，并将剩下的标签特征和推理嵌入特征拼接，并送入自注意力模块进行推理，那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息，从而推理出被遮罩的特征标签，为了提高推理效率，对随机遮罩过程定义以下规则：所有正例标签都被遮罩一次，负例标签将随机采样4个进行遮罩。

8.根据权利要求3所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述损失函数构建模块由两个损失函数构成，首先是对解耦后的特征，利用全连接层将其映射为预测的标签置信度，然后和标注信息计算最终的损失结果，过程如下：

最终将两个损失函数相加获得最终的损失函数：

9.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究，其特征在于：所述多尺度特征提取模块可替代为特征金字塔模块，所述特征金字塔模块利用低层特征高分辨率和高层特征的高语义信息，通过融合这些不同层的特征达到预测的效果，并且预测是在每个融合后的特征层上单独进行，即把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接。