CN115100502A - 一种基于标签推理的多标签图像识别算法研究 - Google Patents

一种基于标签推理的多标签图像识别算法研究 Download PDF

Info

Publication number
CN115100502A
CN115100502A CN202210726440.XA CN202210726440A CN115100502A CN 115100502 A CN115100502 A CN 115100502A CN 202210726440 A CN202210726440 A CN 202210726440A CN 115100502 A CN115100502 A CN 115100502A
Authority
CN
China
Prior art keywords
label
features
module
feature
reasoning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210726440.XA
Other languages
English (en)
Inventor
张笑钦
陈钊民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN202210726440.XA priority Critical patent/CN115100502A/zh
Publication of CN115100502A publication Critical patent/CN115100502A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数字信息的传输技术领域,且公开了一种基于标签推理的多标签图像识别算法研究,尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦,所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;所述标签推理模块是基于自注意力模块上对标签进行推理,本发明利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理,从而有效的构建了标签之间的相关性,最终提高多标签图像识别的性能。

Description

一种基于标签推理的多标签图像识别算法研究
技术领域
本发明涉及图像识别技术领域,具体为一种基于标签推理的多标签图像识别算法研究。
背景技术
随着人工智能和深度学习的迅猛发展,计算机视觉领域的各项任务性能也获得了飞速的提升,其中图像标签识别任务是计算机视觉领域中最基础也是最重要的任务之一,该任务拟通过输入一张图片,通过特定算法提取图片特征,最终利用分类器来对其进行正确识别,传统的图像识别算法往往通过手工设定的规则来提取图像特征,这些特征通常只适用于某些特定场景,因此通用性有限,随着近些年深度学习的发展,端到端的训练方式能让网络自适应的学习出合理的特征,从而极大地提高了算法的泛化性,目前的图像标签识别工作多是聚焦于图像的单标签识别,然而在现实场景下所获得的图像往往是包含多个标签,因此研究多标签图像识别更具有现实意义,也逐渐成为当前研究的重点,然而由于多标签图像包含有多个标签,并且每张图像所包含的标签数量也不固定,因此对比单标签图像识别任务而言更具有挑战,此外,多标签图像识别任务也具有更丰富的现实应用,比如智能零售中的商品识别,目标检测和语义分割中的全局上下文特征提取,计数任务中的计数目标识别和医疗图像识别等。
传统处理多标签图像的做法是把该任务解耦成多个单标签识别任务,但是由于多标签图像具有多个标签,输出的标签组合数随着标签数量的增加呈现几何式增长,因此该方法对性能提升有限,后来研究者们发现虽然图像中包含有多个标签,但是标签之间具有相关性,比如“天空”和“白云”是强相关的标签组合,出现“白云”标签的图片往往也会出现“天空”,而“企鹅”和“沙漠”是不相关的,这两个标签就不会同时出现,因此如果能通过设计算法来充分利用上述规则,就能有效的筛选标签组合,从而减少搜索空间,通过这一现象,目前的方法利用深度学习网络来构建标签的关系,以此减小标签组合的搜索空间,从而提高最终分类的性能。
目前现有技术存在的缺陷分为以下两点:
1、由于多标签图像包含有多个标签,并且每张图像所包含的标签数量也不固定,使得无法合理地利用神经网络构建标签的关系;
2、特征提取不足,超参数是提前设计好的无法自适应,只能针对特定场景效果、普适性不强,需要较强的先验信息辅助训练。
发明内容
解决的技术问题
针对现有技术的不足,本发明提供了一种基于标签推理的多标签图像识别算法研究,基于标签推理的多标签图像识别算法,利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理,从而有效的构建了标签之间的相关性,最终提高多标签图像识别的性能。
技术方案
为实现上述目的,本发明提供如下技术方案:一种基于标签推理的多标签图像识别算法研究,包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。
进一步的,所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;所述标签推理模块是基于自注意力模块上对标签进行推理。
进一步的,所述损失函数构建模块是由两个损失函数构成,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果。
4、根据权利要求1-3任一所述的一种基于标签推理的多标签图像识别算法研究,其步骤如下:
S1、首先输入一张图片I,通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征;
S2、当获取全局特征后,利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦;
S3、将已经获得解耦后的标签特征,利用自注意力模块对标签进行推理;
S4、对解耦后的特征通过损失函数构建模块计算最终的损失结果。
进一步的,所述神经网络,越高层输出的特征包含的语义信息越丰富,但是输出的特征越小,越容易遗漏小物体信息,而越低层则恰好相反,因此高层卷积层输出的特征虽然具有丰富的语义信息,但是由于特征大小过小的问题,会遗漏小物体信息,所以将高层特征和低层特征相融合以处理小物体丢失的问题,从而获得更加鲁棒的特征,将最后三层输出的特征记为x1、x2、x3,将融合后的特征记为x,具体算法如下:
x=fdown(x1)+x2+fup(x3)∈RC×H×W
其中需要具体说明是fdown(·)和fup(·)分别代表上采样和下采样操作,C代表通道数,H和W分别代表特征的长和宽。
进一步的,所述定义标签嵌入特征Y={Y1,Y2,...,YN}∈RN×C,N代表数据集中标签种类的数量,该标签嵌入特征能随着网络的学习而自适应的更新参数,最终学习出各个标签所对应的特征,接着对全局特征进行压平和转置操作,算法如下:x'=ftranspose(fflatten(x))∈RHW×C
其中,需要具体说明的是x′表示压平和转置之后的特征,fflatten(·)和ftranspose(·)分别代表压平和转置操作,接着将标签嵌入特征和x′进行拼接以获得自注意力模块的输入特征xembedding,算法如下:
xembedding=fcat(x',Y)∈R(HW+N)×C
其中,需要具体说明的是fcat(·)表示拼接操作,当获取自注意力模块的输入特征后,利用自注意力模块对标签特征进行解耦,自注意力模块能有效的让各个特征之间的信息互相传播,从而学习出各类别所特有的语义信息,从而实现标签特征的解耦操作,利用三个可学习矩阵将输入特征分别投影成三个矩阵:Query、Key、Value,分别记这三个矩阵为Q,K,V,然后对这三个矩阵进行自注意力操作以获取输出特征xattrn,具体算法如下:
Figure BDA0003713416970000041
其中需要具体说明的是fsoftmax(·)表示softmax函数,dk表示缩放系数,D表示该特征的维度,最后,利用归一化层和全连接层将该特征映射为原来的维度,以获得最终的输出xout,自注意力模块根据归纳偏置假设多层自注意力模块能更好地对标签信息进行解耦。
进一步的,所述自注意力模块中定义一个可学习的标签推理嵌入特征为xinfer∈R1 ×C,该特征的作用是推理被遮罩的标签,然后随机遮罩一个标签特征,并将剩下的标签特征和推理嵌入特征拼接,并送入自注意力模块进行推理,那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息,从而推理出被遮罩的特征标签,为了提高推理效率,对随机遮罩过程定义以下规则:所有正例标签都被遮罩一次,负例标签将随机采样4个进行遮罩。
进一步的,所述损失函数构建模块由两个损失函数构成,首先是对解耦后的特征,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果,过程如下:
Figure BDA0003713416970000051
Figure BDA0003713416970000052
其中,需要具体说明的是其中fselect(·)表示选择函数,-N表示从后往前选择N个特征,y表示标注信息,σ(·)表示sigmoid函数,然后对推理的预测结果计算损失函数,过程如下:
Figure BDA0003713416970000053
最终将两个损失函数相加获得最终的损失函数:
Figure BDA0003713416970000054
进一步的,所述多尺度特征提取模块可替代为特征金字塔模块,所述特征金字塔模块利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到预测的效果,并且预测是在每个融合后的特征层上单独进行,即把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接。
有益效果
本发明提供了一种基于标签推理的多标签图像识别算法研究,具备以下有益效果:
该一种基于标签推理的多标签图像识别算法研究,基于标签推理的多标签图像识别算法,利用当下热门的自注意力模块对标签进行解耦并对被遮罩的标签进行推理,从而有效的构建了标签之间的相关性,最终提高多标签图像识别的性能。
附图说明
图1为本发明的整体流程图。
图2为本发明的COCO数据集上测试指标表。
图3为本发明的VOC数据集上测试指标表。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本申请实施例可以应用于计算机系统/服务器,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
实施例1
本发明提供一种技术方案:一种基于标签推理的多标签图像识别算法研究,包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦;自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;标签推理模块是基于自注意力模块上对标签进行推理;损失函数构建模块是由两个损失函数构成,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果。
一种基于标签推理的多标签图像识别算法研究的管理方法,具体如下:
101、首先输入一张图片I,通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征;
本实施例中,需要具体说明是神经网络,越高层输出的特征包含的语义信息越丰富,但是输出的特征越小,越容易遗漏小物体信息,而越低层则恰好相反,因此高层卷积层输出的特征虽然具有丰富的语义信息,但是由于特征大小过小的问题,会遗漏小物体信息,所以将高层特征和低层特征相融合以处理小物体丢失的问题,从而获得更加鲁棒的特征,将最后三层输出的特征记为x1、x2、x3,将融合后的特征记为x,具体算法如下:
x=fdown(x1)+x2+fup(x3)∈RC×H×W
其中需要具体说明是fdown(·)和fup(·)分别代表上采样和下采样操作,C代表通道数,H和W分别代表特征的长和宽,本实施例不做具体限定。
102、当获取全局特征后,利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦;
本实施例中,需要具体说明是定义标签嵌入特征Y={Y1,Y2,...,YN}∈RN×C,N代表数据集中标签种类的数量,该标签嵌入特征能随着网络的学习而自适应的更新参数,最终学习出各个标签所对应的特征,接着对全局特征进行压平和转置操作,算法如下:x'=ftranspose(fflatten(x))∈RHW×C
其中,需要具体说明的是x′表示压平和转置之后的特征,fflatten(·)和ftranspose(·)分别代表压平和转置操作,接着将标签嵌入特征和x′进行拼接以获得自注意力模块的输入特征xembedding,算法如下:
xembedding=fcat(x',Y)∈R(HW+N)×C
其中,需要具体说明的是fcat(·)表示拼接操作,当获取自注意力模块的输入特征后,利用自注意力模块对标签特征进行解耦,自注意力模块能有效的让各个特征之间的信息互相传播,从而学习出各类别所特有的语义信息,从而实现标签特征的解耦操作,具体算法如下,利用三个可学习矩阵将输入特征分别投影成三个矩阵:Query、Key、Value,分别记这三个矩阵为Q,K,V,然后对这三个矩阵进行自注意力操作以获取输出特征xattrn
Figure BDA0003713416970000081
其中需要具体说明的是fsoftmax(·)表示softmax函数,dk表示缩放系数,D表示该特征的维度,最后,利用归一化层和全连接层将该特征映射为原来的维度,以获得最终的输出xout,自注意力模块根据归纳偏置假设多层自注意力模块能更好地对标签信息进行解耦。
103、将已经获得解耦后的标签特征,利用自注意力模块对标签进行推理;
本实施例中,需要具体说明是自注意力模块中定义一个可学习的标签推理嵌入特征为xinfer∈R1×C,该特征的作用是推理被遮罩的标签,然后随机遮罩一个标签特征,并将剩下的标签特征和推理嵌入特征拼接,并送入自注意力模块进行推理,那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息,从而推理出被遮罩的特征标签,为了提高推理效率,对随机遮罩过程定义以下规则:所有正例标签都被遮罩一次,负例标签将随机采样4个进行遮罩,本实施例不做具体限定。
104、对解耦后的特征通过损失函数构建模块计算最终的损失结果;
本实施例中,需要具体说明是损失函数构建模块由两个损失函数构成,首先是对解耦后的特征,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果,过程如下:
Figure BDA0003713416970000091
Figure BDA0003713416970000092
其中,需要具体说明的是其中fselect(·)表示选择函数,-N表示从后往前选择N个特征,y表示标注信息,σ(·)表示sigmoid函数,然后对推理的预测结果计算损失函数,过程如下:
Figure BDA0003713416970000093
最终将两个损失函数相加获得最终的损失函数:
Figure BDA0003713416970000094
实施例2
本发明提供一种技术方案:一种基于标签推理的多标签图像识别算法研究,包括特征金字塔模块、标签特征解耦模块、标签推理模块、损失函数构建模块、自注意力模块。
一种基于标签推理的多标签图像识别算法研究的管理方法,具体如下:
101、首先输入一张图片I,通过特征金字塔模块利用卷积神经网络对该图片抽取特征;
本实施例中,需要具体说明是特征金字塔模块利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到预测的效果,并且预测是在每个融合后的特征层上单独进行,即把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接,使得所有尺度下的特征都有丰富的语义信息,本实施例不做具体限定。
102、当获取全局特征后,利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦;
本实施例中,需要具体说明是标签嵌入特征Y={Y1,Y2,...,YN}∈RN×C,N代表数据集中标签种类的数量,该标签嵌入特征能随着网络的学习而自适应的更新参数,最终学习出各个标签所对应的特征,接着对全局特征进行压平和转置操作,算法如下:x'=ftranspose(fflatten(x))∈RHW×C
其中,需要具体说明的是x′表示压平和转置之后的特征,fflatten(·)和ftranspose(·)分别代表压平和转置操作,接着将标签嵌入特征和x′进行拼接以获得自注意力模块的输入特征xembedding,算法如下:
xembedding=fcat(x',Y)∈R(HW+N)×C
其中,需要具体说明的是fcat(·)表示拼接操作,当获取自注意力模块的输入特征后,利用自注意力模块对标签特征进行解耦,自注意力模块能有效的让各个特征之间的信息互相传播,从而学习出各类别所特有的语义信息,从而实现标签特征的解耦操作,利用三个可学习矩阵将输入特征分别投影成三个矩阵:Query、Key、Value,分别记这三个矩阵为Q,K,V,然后对这三个矩阵进行自注意力操作以获取输出特征xattrn,具体算法如下:
Figure BDA0003713416970000111
其中需要具体说明的是fsoftmax(·)表示softmax函数,dk表示缩放系数,D表示该特征的维度,最后,利用归一化层和全连接层将该特征映射为原来的维度,以获得最终的输出xout,自注意力模块根据归纳偏置假设多层自注意力模块能更好地对标签信息进行解耦。
103、将已经获得解耦后的标签特征,利用自注意力模块对标签进行推理;本实施例中,需要具体说明是定义一个可学习的标签推理嵌入特征为xinfer∈R1×C,该特征的作用是推理被遮罩的标签,然后随机遮罩一个标签特征,并将剩下的标签特征和推理嵌入特征拼接,并送入自注意力模块进行推理,那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息,从而推理出被遮罩的特征标签,为了提高推理效率,对随机遮罩过程定义以下规则:所有正例标签都被遮罩一次,负例标签将随机采样4个进行遮罩,本实施例不做具体限定。
104、对解耦后的特征通过损失函数构建模块计算最终的损失结果;
本实施例中,需要具体说明是损失函数构建模块由两个损失函数构成,首先是对解耦后的特征,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果,过程如下:
Figure BDA0003713416970000121
Figure BDA0003713416970000122
其中,需要具体说明的是其中fselect(·)表示选择函数,-N表示从后往前选择N个特征,y表示标注信息,σ(·)表示sigmoid函数,然后对推理的预测结果计算损失函数,过程如下:
Figure BDA0003713416970000124
最终将两个损失函数相加获得最终的损失函数:
Figure BDA0003713416970000123
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于标签推理的多标签图像识别算法研究,其特征在于:包括多尺度特征提取模块、标签特征解耦模块、自注意力模块、标签推理模块、损失函数构建模块,所述多尺度特征提取模块是利用卷积神经网络对该图片抽取特征;所述标签特征解耦模块是通过定义标签嵌入特征将各个标签所对应的类别进行解耦。
2.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述自注意力模块是基于标签特征解耦模块上的标签特征进行解耦且让各个特征之间的信息互相传播;所述标签推理模块是基于自注意力模块上对标签进行推理。
3.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述损失函数构建模块是由两个损失函数构成,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果。
4.根据权利要求1-3任一所述的一种基于标签推理的多标签图像识别算法研究,其步骤如下:
S1、首先输入一张图片I,通过多尺度特征提取模块利用卷积神经网络对该图片抽取特征;
S2、当获取全局特征后,利用标签特征解耦模块中的定义标签嵌入特征将各个标签所对应的类别进行解耦;
S3、将已经获得解耦后的标签特征,利用自注意力模块对标签进行推理;
S4、对解耦后的特征通过损失函数构建模块计算最终的损失结果。
5.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述神经网络,越高层输出的特征包含的语义信息越丰富,但是输出的特征越小,越容易遗漏小物体信息,而越低层则恰好相反,因此高层卷积层输出的特征虽然具有丰富的语义信息,但是由于特征大小过小的问题,会遗漏小物体信息,所以将高层特征和低层特征相融合以处理小物体丢失的问题,从而获得更加鲁棒的特征,将最后三层输出的特征记为x1、x2、x3,将融合后的特征记为x,具体算法如下:x=fdown(x1)+x2+fup(x3)∈RC×H×W
其中需要具体说明是fdown(·)和fup(·)分别代表上采样和下采样操作,C代表通道数,H和W分别代表特征的长和宽。
6.根据权利要求3所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述定义标签嵌入特征Y={Y1,Y2,...,YN}∈RN×C,N代表数据集中标签种类的数量,该标签嵌入特征能随着网络的学习而自适应的更新参数,最终学习出各个标签所对应的特征,接着对全局特征进行压平和转置操作,算法如下:x'=ftranspose(fflatten(x))∈RHW×C
其中,需要具体说明的是x′表示压平和转置之后的特征,fflatten(·)和ftranspose(·)分别代表压平和转置操作,接着将标签嵌入特征和x′进行拼接以获得自注意力模块的输入特征xembedding,算法如下:
xembedding=fcat(x',Y)∈R(HW+N)×C
其中,需要具体说明的是fcat(·)表示拼接操作,当获取自注意力模块的输入特征后,利用自注意力模块对标签特征进行解耦,自注意力模块能有效的让各个特征之间的信息互相传播,从而学习出各类别所特有的语义信息,从而实现标签特征的解耦操作,利用三个可学习矩阵将输入特征分别投影成三个矩阵:Query、Key、Value,分别记这三个矩阵为Q,K,V,然后对这三个矩阵进行自注意力操作以获取输出特征xattrn,具体算法如下:
Figure FDA0003713416960000021
其中需要具体说明的是fsoftmax(·)表示softmax函数,dk表示缩放系数,D表示该特征的维度,最后,利用归一化层和全连接层将该特征映射为原来的维度,以获得最终的输出xout,自注意力模块根据归纳偏置假设多层自注意力模块能更好地对标签信息进行解耦。
7.根据权利要求2所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述自注意力模块中定义一个可学习的标签推理嵌入特征为xinfer∈R1×C,该特征的作用是推理被遮罩的标签,然后随机遮罩一个标签特征,并将剩下的标签特征和推理嵌入特征拼接,并送入自注意力模块进行推理,那么标签推理嵌入特征能在学习的过程中自适应的学习剩余标签特征信息,从而推理出被遮罩的特征标签,为了提高推理效率,对随机遮罩过程定义以下规则:所有正例标签都被遮罩一次,负例标签将随机采样4个进行遮罩。
8.根据权利要求3所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述损失函数构建模块由两个损失函数构成,首先是对解耦后的特征,利用全连接层将其映射为预测的标签置信度,然后和标注信息计算最终的损失结果,过程如下:
Figure FDA0003713416960000031
Figure FDA0003713416960000032
其中,需要具体说明的是其中fselect(·)表示选择函数,-N表示从后往前选择N个特征,y表示标注信息,σ(·)表示sigmoid函数,然后对推理的预测结果计算损失函数,过程如下:
Figure FDA0003713416960000033
最终将两个损失函数相加获得最终的损失函数:
Figure FDA0003713416960000034
9.根据权利要求1所述的一种基于标签推理的多标签图像识别算法研究,其特征在于:所述多尺度特征提取模块可替代为特征金字塔模块,所述特征金字塔模块利用低层特征高分辨率和高层特征的高语义信息,通过融合这些不同层的特征达到预测的效果,并且预测是在每个融合后的特征层上单独进行,即把低分辨率、高语义信息的高层特征和高分辨率、低语义信息的低层特征进行自上而下的侧边连接。
CN202210726440.XA 2022-06-24 2022-06-24 一种基于标签推理的多标签图像识别算法研究 Pending CN115100502A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210726440.XA CN115100502A (zh) 2022-06-24 2022-06-24 一种基于标签推理的多标签图像识别算法研究

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210726440.XA CN115100502A (zh) 2022-06-24 2022-06-24 一种基于标签推理的多标签图像识别算法研究

Publications (1)

Publication Number Publication Date
CN115100502A true CN115100502A (zh) 2022-09-23

Family

ID=83292058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210726440.XA Pending CN115100502A (zh) 2022-06-24 2022-06-24 一种基于标签推理的多标签图像识别算法研究

Country Status (1)

Country Link
CN (1) CN115100502A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393231A (zh) * 2022-11-01 2022-11-25 深圳精智达技术股份有限公司 一种缺陷图像的生成方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115393231A (zh) * 2022-11-01 2022-11-25 深圳精智达技术股份有限公司 一种缺陷图像的生成方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
Mohamed et al. Content-based image retrieval using convolutional neural networks
WO2020022144A1 (ja) 画像認識学習装置、画像認識装置、方法、及びプログラム
CN115424059B (zh) 一种基于像素级对比学习的遥感土地利用分类方法
Liu et al. An indoor scene classification method for service robot Based on CNN feature
Gao et al. A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective
CN111461175A (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
Zhao et al. A novel two-stage scene classification model based on feature variable significance in high-resolution remote sensing
Liu et al. Learning explicit shape and motion evolution maps for skeleton-based human action recognition
Jabeen et al. A deep multimodal system for provenance filtering with universal forgery detection and localization
Khurshid et al. A residual-dyad encoder discriminator network for remote sensing image matching
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN115100502A (zh) 一种基于标签推理的多标签图像识别算法研究
Khwildi et al. Query-by-example HDR image retrieval based on CNN
Zhang et al. DHNet: Salient object detection with dynamic scale-aware learning and hard-sample refinement
Liu et al. Gbe-mlzsl: A group bi-enhancement framework for multi-label zero-shot learning
Lian et al. Multitask learning for image translation and salient object detection from multimodal remote sensing images
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
CN113886602B (zh) 一种基于多粒度认知的领域知识库实体识别方法
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN114972851A (zh) 一种基于遥感影像的船只目标智能检测方法
Bai et al. Countr: An end-to-end transformer approach for crowd counting and density estimation
CN114202659A (zh) 基于空间对称化不规则局部区域特征提取的细粒度图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination