CN113627466B - 图像标签识别方法、装置、电子设备及可读存储介质 - Google Patents
图像标签识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN113627466B CN113627466B CN202110739386.8A CN202110739386A CN113627466B CN 113627466 B CN113627466 B CN 113627466B CN 202110739386 A CN202110739386 A CN 202110739386A CN 113627466 B CN113627466 B CN 113627466B
- Authority
- CN
- China
- Prior art keywords
- local
- feature
- network
- module
- target image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 127
- 230000007246 mechanism Effects 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims description 114
- 238000011176 pooling Methods 0.000 claims description 54
- 230000009466 transformation Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000005096 rolling process Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像标签识别方法,包括:基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果。取得了提高多标签预测准确性的有益效果。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种图像标签识别方法、装置、电子设备及可读存储介质。
背景技术
随着图像的生成量越来越大,同时图像技术的发展和算力都有较大提升,图像的应用场景和应用需求越来越多,其中图像分类逐渐由单标签分类任务向多标签分类任务转换。图像多标签分类的解决方案可以包括以下几种:通过传统的卷积网络进行特征提取,多标签分类任务变成多个独立的二分类或者多个单标签;将交叉熵推广到多标签任务;利用神经网络分别提取图像的高次相关性和标签的相关性,再将两者融合到欧几里德空间构建损失函数。
但是,将多标签分类任务转化成多个子分类任务的方式,需要保证各个子分类标签之间相互独立。如果类别数较大,标签过于稀疏,训练难度较大,且容易导致误识别,影响标签识别结果准确性。而多标签的交叉熵,训练周期长,训练过程不稳定,同样容易影响标签识别结果准确性。此外,提取和融合高次相关性,图像和标签的分解向量都需要在神经网络中编码,计算复杂度较高,强耦合两者的映射关系,也容易影响标签识别结果准确性。
综上所述,相关技术中的图像多标签识别方案存在模型训练难度大,标签识别结果准确性易受影响等问题。
发明内容
本发明提供一种图像标签识别方法、装置、电子设备及可读存储介质,以部分或全部解决现有技术中图像标签识别过程相关的上述问题。
依据本发明第一方面,提供了一种图像标签识别方法,包括:
基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;
通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;
基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果。
可选地,所述基于注意力机制的特征表示网络包括K个卷积层,K为大于或等于M的正整数,每个所述注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联;
所述通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵的步骤,包括:
以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;
组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,所述基于注意力机制的特征表示网络还包括J个局部特征提取网络模块,J为小于或等于K的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联;
所述组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵的步骤,包括:
组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的全局特征矩阵;
通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征;
组合所述目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵;
组合所述局部特征矩阵和所述全局特征矩阵,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,所述局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,且同一局部特征提取网络模块下各个局部特征提取网络分支均与所述第一池化层连接,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入;
所述通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征的步骤,包括:
针对任一所述局部特征提取网络模块,通过所述局部特征提取网络模块中的每个局部特征提取网络分支,获取所述局部特征提取网络模块对应的局部区域的第一特征元素;
通过第一池化层对每个所述局部特征提取网络分支输出的第一特征元素进行融合,得到所述局部区域的局部特征。
可选地,所述局部特征提取网络分支还包括Inception网络层,所述空间变换网络的输入与输出经过点乘运算后作为所述Inception网络的输入,所述Inception网络层的输出作为所述第二池化层的输入。
可选地,所述注意力模块将通道注意力模块与空间注意力模块进行串行组合,且在所述残差卷积注意力模块中,所述残差卷积注意力模块的输出融合有所述残差卷积注意力模块的输入特征。
根据本发明的第二方面,提供了一种图像标签识别装置,包括:
第一特征矩阵获取模块,用于基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;
第二特征矩阵获取模块,用于通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;
图像标签识别模块,用于基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果。
可选地,所述基于注意力机制的特征表示网络包括K个卷积层,K为大于或等于M的正整数,每个所述注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联;
所述第二特征矩阵获取模块,包括:
全局特征获取子模块,用于以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;
第二特征矩阵获取子模块,用于组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,所述基于注意力机制的特征表示网络还包括J个局部特征提取网络模块,J为小于或等于K的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联;
所述第二特征矩阵获取子模块,包括:
全局特征矩阵获取单元,用于组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的全局特征矩阵;
局部特征获取单元,用于通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征;
局部特征矩阵获取单元,用于组合所述目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵;
第二特征矩阵获取单元,用于组合所述局部特征矩阵和所述全局特征矩阵,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,所述局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,且同一局部特征提取网络模块下各个局部特征提取网络分支均与所述第一池化层连接,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入;
所述局部特征获取单元,具体用于:
针对任一所述局部特征提取网络模块,通过所述局部特征提取网络模块中的每个局部特征提取网络分支,获取所述局部特征提取网络模块对应的局部区域的第一特征元素;
通过第一池化层对每个所述局部特征提取网络分支输出的第一特征元素进行融合,得到所述局部区域的局部特征。
可选地,所述局部特征提取网络分支还包括Inception网络层,所述空间变换网络的输入与输出经过点乘运算后作为所述Inception网络的输入,所述Inception网络层的输出作为所述第二池化层的输入。
可选地,所述注意力模块将通道注意力模块与空间注意力模块进行串行组合,且在所述残差卷积注意力模块中,所述残差卷积注意力模块的输出融合有所述残差卷积注意力模块的输入特征。
根据本发明的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现前述的图像标签识别方法。
根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行前述的图像标签识别方法。
根据本发明的图像标签识别方法,从浅层到深层采用注意力机制,捕获局部和全局特征等图像特征,减少图像无关背景信息的干扰,增强了预测标签与图像特征的关联性。同时,通过图卷积网络有效利用标签之间的共现联系,得到多标签关系先验知识,辅助图像特征进行预测,较大提升多标签预测准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例的一种图像标签识别方法的步骤流程图之一;
图2示出了根据本发明实施例的一种图像标签识别方法的步骤流程图之二;
图3示出了根据本发明实施例的一种进行图像标签识别的模型示意图;
图4A示出了根据本发明实施例的一种CBAM的结构示意图;
图4B示出了根据本发明实施例的一种RCBAM的结构示意图;
图5A示出了根据本发明实施例的一种channel attention的结构示意图;
图5B示出了根据本发明实施例的一种spatial attention的结构示意图;
图6示出了根据本发明实施例的一种图像标签识别装置的结构示意图之一;以及
图7示出了根据本发明实施例的一种图像标签识别装置的结构示意图之二。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
详细介绍本发明实施例提供的一种图像标签识别方法。
参照图1,示出了本发明实施例中一种图像标签识别方法的步骤流程图。
步骤110,基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;
步骤120,通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;
步骤130,基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果。
在本发明实施例中,主要包括两大关键模块,也即基于注意力机制的特征表示网络和用于进行多标签关系描述的图卷积网络(GCN,Graph Convolutional Network)。其中,基于注意力机制的特征表示网络可以针对图像进行注意力机制的图像特征提取,而且可以针对图像进行全局和/或局部注意力机制的图像特征提取,图卷积网络则可以用于进行标签间相互语义层关系的提取。通过将上述两者相融合构建一个模型以一起预测图像的多标签类别。而且可以通过n个二分类交叉熵的累加等作为该模型的损失,对此本发明实施例不加以限定。
具体地,可以基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,也即表征多标签关系描述的特征矩阵。其中,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度,N、L、d的具体取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。而且N的标签的具体内容也可以根据需求进行自定义设置,对此本发明实施例不加以限定。
而且在实际应用中,提升CNN(ConvolutionalNeural Networks,卷积神经网络)模型对特征表示的能力主要有三个方向,也即网络深度、宽度和图像分辨率。例如,残差网络ResNet(Residual Eetwork)的设计方法让模型表达能力随网络深度增加正相关,GoogleLeNet网络表明网络宽度也可以提升性能。而除此以外,网络结构设计还有一个重要方向,也即基于注意力机制,它在网络中的设计初衷是告诉网络知道重点关注特征区域,以从图像特征通道和空间两个方向扩展,强化或者抑制特征信息的后传,减少背景信息的干扰。
因此,在本发明实施例中,可以通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块(Residual Convolution BlockAttention Module,RCBAM)、卷积注意力模块(Convolution Block AttentionModule,CBAM)中的任意一种,M为正整数,M的具体取值也可以根据需求进行自定义设置,对此本发明实施例不加以限定。
进而则可以基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果。其中,可以通过任何可用方法基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,对此本发明实施例不加以限定。例如,第一特征矩阵和所述第二特征矩阵均为N*d维的矩阵,那么此时则可以将其中一个矩阵(例如第二特征矩阵)进行转置,之后计算另一未转置矩阵(例如第一特征矩阵)与该转置后矩阵的乘积,得到N*N维的矩阵,进一步将乘积运算后的N*N维的矩阵中每一行进行求和,得到N*1维的矩阵,从而得到目标图像在每个标签下的置信度,得到目标图像的标签识别结果。
此外,在本发明实施例中,对于标签共现关系的处理,可以借助图卷积结构GCN,建立起标签之间转化的相互依赖关系分类器。输入的每个标签可以表示成一个特征向量(例如维度为d的向量),图卷积网络经训练可以得到一个转移矩阵/>其中n是标签的数量,转移矩阵是一个先验概率矩阵,其中每个取值可以理解为在出现当前标签节点时可能出现相邻节点标签的概率。而且在图卷积网络中后一个图卷积层的输出与其前一个图卷积层的输出之间的关系可以理解为Hl+1=h(AHlWl),其中h(·)是一个非线性变换,通过LeakyRelu的激活函数,Wl为第l个图卷积层中的权重。经过多个图卷积层最终得到N*d维特征。
而且,可以通过任何可用方式获取初始输入图卷积网络的各个标签的特征向量,对此本发明实施例不加以限定。例如,可以根据需求或者经验等设置各个标签初始的特征向量,经过训练后的图卷积网络中转移矩阵以及各层权重的作用之后,得到每个标签最终维度为d的特征向量,进而则可以基于通过图卷积网络得到的N个标签维度为d的特征向量,构建得到N*d维的第一特征矩阵。
而且,在得到目标图像在每个标签下的置信度之后,还可以基于置信度,获取置信度高于指定阈值的标签,作为目标图像最终的图像标签,对此本发明实施例不加以限定。
此外,在本发明实施例中,上述图卷积网络和注意力机制的特征表示网络可以作为一个整体进行端到端的模型训练,例如可以通过多个已知标签分类结果的样本图像进行模型训练。而且,在训练以及模型在线使用的过程中,其中标签的数量N,以及特征向量的维度d的具体取值可以根据需求进行自定义设置,对此本发明实施例不加以限定。此外,作为图卷积网络的输入,N个标签中每个标签的特征向量可以理解为每个标签初始设置的特征向量,经过图卷积网络则可以进一步获取每个标签经图卷积后的特征向量,进而根据每个标签经图卷积后的特征向量,构建得到第一特征矩阵。
需要说明的是,在本发明实施例中,图卷积网络获取的第一特征矩阵可以多次使用,也即在针对不同的图像进行多标签识别时,上述的步骤110可以仅执行一次,以获取第一特征矩阵,进而可以针对不同的图像分别执行步骤120,以获取每个图像的第二特征矩阵,当然,也可以每次针对不同的图像均依次执行上述的步骤110-120,对此本发明实施例不加以限定。
可选地,参照图2,在本发明实施例中,所述基于注意力机制的特征表示网络包括K个卷积层,K为大于或等于M的正整数,每个所述注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联,所述步骤120进一步可以包括:
步骤121,以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;
步骤122,组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵。
在本发明实施例中,在构建基于注意力机制的特征表示网络时,为了尽可能提取得到全面且准确的图像特征,可以在基于注意力机制的特征表示网络中设置多个卷积层,并且将注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联。
例如,假设在基于注意力机制的特征表示网络中设置有三个注意力模块,而且其中包含m个卷积层,依次为layer0,...,layn,...,layerm,且m大于等于3,那么则可以将一个注意力模块连接在layer0和layer1之间,将另一个注意力模块连接在layn和layern+1之间,将第三个注意力模块连接在laym之后。
当然,在本发明实施例中,也可以直接将注意力模块连接在至少一个卷积层之后,而且在注意力模块之后不再连接其他卷积层,对此本发明实施例不加以限定。
而且,为了便于组合各个注意力模块提取得到的特征,还可以在每个注意力模块之后连接一池化层,例如GAP(全局池化层,GlobalAverage Pooling layer),以获取更多相关的上下文信息。进一步concat各个池化层的输出,并且通过全连接层(FC,FullConnection),得到目标图像的第二特征矩阵。当然,也可以不在每个注意力模块之后连接一池化层,而直接concat各个池化层的输出,并且通过全连接层,得到目标图像的第二特征矩阵,对此本发明实施例不加以限定。
因此具体地,可以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,在本发明实施例中,所述基于注意力机制的特征表示网络还包括J个局部特征提取网络模块,J为大于或等于M的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联;所述步骤122进一步可以包括:
步骤1221,组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的全局特征矩阵;
步骤1222,通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征;
步骤1223,组合所述目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵;
步骤1224,组合所述局部特征矩阵和所述全局特征矩阵,并且经过全连接层,得到所述目标图像的第二特征矩阵。
进一步地,为了获取目标图像中更多局部的细节特征,在本发明实施例中,还可以在基于注意力机制的特征表示网络中设置J个局部特征提取网络模块,J为小于或等于K的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联。其中,局部特征提取网络模块可以为任意一种可以进行局部特征提取的网络模型,J的具体取值也可以根据需求进行自定义设置,对此本发明实施例均不加以限定。
例如,对于上述的其中包含m个卷积层的基于注意力机制的特征表示网络,可以在其中设置两个局部特征提取网络模块。且其中一个局部特征提取网络模块连接在layer0之后,另一个局部特征提取网络模块连接在layer1之后,等等。此外,局部特征提取网络模块之后也可以继续连接后续的卷积层,也即相当于将局部特征提取网络模块连接在两个相邻的卷积层之间,局部特征提取网络模块之后也可以不连接卷积层,对此本发明实施例不加以限定。
进一步地,在本发明实施例中,为了融合全局特征和局部特征,则可以通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征,进一步组合目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵。当然,在全连接层之前也可以通过池化层,例如GAP、Maxpooling等对各个局部特征提取网络模块得到的局部特征进行池化处理,进而通过concat组合各个局部特征提取网络模块经池化后的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵。
相应地,通过组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,可以得到目标图像的全局特征矩阵,进而可以通过concat运算等方式组合局部特征矩阵和全局特征矩阵,并且经过全连接层,得到目标图像的第二特征矩阵。
可选地,在本发明实施例中,所述局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,且同一局部特征提取网络模块下各个局部特征提取网络分支均与所述第一池化层连接,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入,所述步骤1222进一步可以包括:
步骤S1,针对任一所述局部特征提取网络模块,通过所述局部特征提取网络模块中的每个局部特征提取网络分支,获取所述局部特征提取网络模块对应的局部区域的第一特征元素;
步骤S2,通过第一池化层对每个所述局部特征提取网络分支输出的第一特征元素进行融合,得到所述局部区域的局部特征。
在本发明实施例中,可以设置每个局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,而且对于各个局部特征提取网络模块,其中包含的各个局部特征提取网络分支的输出均输入该局部特征提取网络模块下的第一池化层。此外,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入。进而可以通过每个局部特征提取网络分支,通过ST(Spatial Transformer,空间变换网络)映射获取局部区域,对局部区域进行featurelearn(特征学习),得到该局部区域的第一特征元素,后面可以通过GAP、Maxpooling等第一池化层对每个分支输出的第一特征元素进行融合,最终获取相应局部区域的池化的局部特征。
可选地,在本发明实施例中,所述局部特征提取网络分支还包括Inception网络层,所述空间变换网络的输入与输出经过点乘运算后作为所述Inception网络的输入,所述Inception网络层的输出作为所述第二池化层的输入。
可选地,在本发明实施例中,所述注意力模块将通道注意力模块(ChannelAttentionModule)与空间注意力模块(Spatial attention Module)进行串行组合,且在所述残差卷积注意力模块中,所述残差卷积注意力模块的输出融合有所述残差卷积注意力模块的输入特征。
如图3所示为一种进行图像标签识别的模型示意图。其中上方虚线框中所示的即为一种基于注意力机制的特征表示网络的示意图,下方虚线框中所示的即为一种图卷积网络的示意图。此时,该基于注意力机制的特征表示网络中的注意力模块即为RCBAM。表示点乘。
CBAM从通道和空间两个维度计算feature map的attentionmap,然后将attentionmap与输入的feature map相乘来进行特征的自适应学习。CBAM是一个轻量的通用模块,可以将其融入到各种卷积神经网络中进行端到端的训练。如图4A所示为一种CBAM的结构示意图,图4B所示为一种RCBAM的结构示意图。
其中,conv理解为卷积运算。Channel attention输入是H*W*C维的矩阵,经过空间全局池化得到1*1*C维的矩阵,再经过全连接和激活函数Relu,输出1*1*C维的矩阵,再与作为RCBAM输入的原始卷积层特征点乘生成特征的通道加权;Spatial attention是将H*W*C维的矩阵池化成H*W*1,再加上卷积变换和激活函数sigmoid,得到权重稀疏,再与原始特征点乘,最终得到注意力全局的特征。
其中,首先将channel attentionmap与输入的feature map相乘得到F′,之后计算F′的spatial attentionmap,并将两者相乘得到最终的输出F″。
feature map的每个channel都被视为一个feature detector,channelattention主要关注于输入图片中什么(what)是有意义的。为了高效地计算channelattention,论文使用最大池化和平均池化对featuremap在空间维度上进行压缩,得到两个不同的空间背景描述:和/>使用由MLP组成的共享网络对这两个不同的空间背景描述进行计算得到channel attentionmap:/>计算过程如下:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
与channel attention不同,spatial attention主要关注于位置信息(where)。为了计算spatial attention,首先在channel的维度上使用最大池化和平均池化得到两个不同的特征描述和/>然后使用concatenation将两个特征描述合并,并使用卷积操作生成spatial attentionmap/>计算过程如下:
Ms(F)=σ(f7*7([AvgPool(F);MaxPool(F)]))
其中,f7*7表示7*7的卷积层。
如图5A所示为一种channel attention的结构示意图,如图5B所示为一种spatialattention的结构示意图。
在本发明实施例中,从浅层到深层采用注意力机制,捕获局部和全局特征等图像特征,减少图像无关背景信息的干扰,增强了预测标签与图像特征的关联性。同时,通过图卷积网络有效利用标签之间的共现联系,得到多标签关系先验知识,辅助图像特征进行预测,较大提升多标签预测准确性。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明实施例中一种图像标签识别装置的结构示意图。
第一特征矩阵获取模块210,用于基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;
第二特征矩阵获取模块220,用于通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;
图像标签识别模块230,用于基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果。
参照图7,在本发明实施例中,所述基于注意力机制的特征表示网络包括K个卷积层,K为大于或等于M的正整数,每个所述注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联;
所述第二特征矩阵获取模块220,进一步可以包括:
全局特征获取子模块221,用于以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;
第二特征矩阵获取子模块222,用于组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,在本发明实施例中,所述基于注意力机制的特征表示网络还包括J个局部特征提取网络模块,J为小于或等于K的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联;
所述第二特征矩阵获取子模块,包括:
全局特征矩阵获取单元,用于组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的全局特征矩阵;
局部特征获取单元,用于通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征;
局部特征矩阵获取单元,用于组合所述目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵;
第二特征矩阵获取单元,用于组合所述局部特征矩阵和所述全局特征矩阵,并且经过全连接层,得到所述目标图像的第二特征矩阵。
可选地,在本发明实施例中,所述局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,且同一局部特征提取网络模块下各个局部特征提取网络分支均与所述第一池化层连接,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入;
所述局部特征获取单元,具体可以用于:
针对任一所述局部特征提取网络模块,通过所述局部特征提取网络模块中的每个局部特征提取网络分支,获取所述局部特征提取网络模块对应的局部区域的第一特征元素;
通过第一池化层对每个所述局部特征提取网络分支输出的第一特征元素进行融合,得到所述局部区域的局部特征。
可选地,在本发明实施例中,所述局部特征提取网络分支还包括Inception网络层,所述空间变换网络的输入与输出经过点乘运算后作为所述Inception网络的输入,所述Inception网络层的输出作为所述第二池化层的输入。
可选地,在本发明实施例中,所述注意力模块将通道注意力模块与空间注意力模块进行串行组合,且在所述残差卷积注意力模块中,所述残差卷积注意力模块的输出融合有所述残差卷积注意力模块的输入特征。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本发明实施例中还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现前述的任意一种图像标签识别方法。
在本发明实施例中还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述的任意一种图像标签识别方法的步骤。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像标签识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (8)
1.一种图像标签识别方法,其特征在于,包括:
基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;
通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;
基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果;其中,
所述基于注意力机制的特征表示网络包括K个卷积层,K为大于或等于M的正整数,每个所述注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联;
所述通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵的步骤,包括:
以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;
组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵;
所述基于注意力机制的特征表示网络还包括J个局部特征提取网络模块,J为小于或等于K的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联;
所述组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵的步骤,包括:
组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的全局特征矩阵;
通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征;
组合所述目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵;
组合所述局部特征矩阵和所述全局特征矩阵,并且经过全连接层,得到所述目标图像的第二特征矩阵;
所述局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,且同一局部特征提取网络模块下各个局部特征提取网络分支均与所述第一池化层连接,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入;
所述通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征的步骤,包括:
针对任一所述局部特征提取网络模块,通过所述局部特征提取网络模块中的每个局部特征提取网络分支,获取所述局部特征提取网络模块对应的局部区域的第一特征元素;
通过第一池化层对每个所述局部特征提取网络分支输出的第一特征元素进行融合,得到所述局部区域的局部特征。
2.根据权利要求1所述的方法,其特征在于,所述局部特征提取网络分支还包括Inception网络层,所述空间变换网络的输入与输出经过点乘运算后作为所述Inception网络的输入,所述Inception网络层的输出作为所述第二池化层的输入。
3.根据权利要求1-2中任一项所述的方法,其特征在于,所述注意力模块将通道注意力模块与空间注意力模块进行串行组合,且在所述残差卷积注意力模块中,所述残差卷积注意力模块的输出融合有所述残差卷积注意力模块的输入特征。
4.一种图像标签识别装置,其特征在于,包括:
第一特征矩阵获取模块,用于基于N个标签中每个标签的特征向量,通过图卷积网络获取N*d维的第一特征矩阵,所述图卷积网络中包含L个图卷积层,L为正整数,N为大于1的正整数,d表示特征向量的维度;
第二特征矩阵获取模块,用于通过基于注意力机制的特征表示网络获取目标图像的第二特征矩阵,所述基于注意力机制的特征表示网络中包括M个注意力模块,所述注意力模块为残差卷积注意力模块、卷积注意力模块中的任意一种,M为正整数;
图像标签识别模块,用于基于所述第一特征矩阵和所述第二特征矩阵,获取所述目标图像在每个所述标签下的置信度,得到所述目标图像的标签识别结果;其中,
所述基于注意力机制的特征表示网络包括K个卷积层,K为大于或等于M的正整数,每个所述注意力模块连接在至少一个卷积层之后,且各个注意力模块彼此不级联;
所述第二特征矩阵获取模块,包括:
全局特征获取子模块,用于以所述目标图像作为所述基于注意力机制的特征表示网络的输入,通过每个所述注意力模块获取所述目标图像在不同卷积阶段的全局特征;
第二特征矩阵获取子模块,用于组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的第二特征矩阵;
所述基于注意力机制的特征表示网络还包括J个局部特征提取网络模块,J为小于或等于K的正整数,每个所述局部特征提取网络模块连接在至少一个卷积层之后,且各个局部特征提取网络模块彼此不级联;
所述第二特征矩阵获取子模块,包括:
全局特征矩阵获取单元,用于组合所述目标图像在不同卷积阶段的全局特征,并且经过全连接层,得到所述目标图像的全局特征矩阵;
局部特征获取单元,用于通过每个所述局部特征提取网络模块,获取所述目标图像中不同局部区域的局部特征;
局部特征矩阵获取单元,用于组合所述目标图像中不同局部区域的局部特征,并且经过全连接层,得到所述目标图像的局部特征矩阵;
第二特征矩阵获取单元,用于组合所述局部特征矩阵和所述全局特征矩阵,并且经过全连接层,得到所述目标图像的第二特征矩阵;
所述局部特征提取网络模块包括至少一个局部特征提取网络分支,以及一个第一池化层,且同一局部特征提取网络模块下各个局部特征提取网络分支均与所述第一池化层连接,每个所述局部特征提取网络分支包含空间变换网络和第二池化层,且所述空间变换网络的输出为所述第二池化层的输入;
所述局部特征获取单元,具体用于:
针对任一所述局部特征提取网络模块,通过所述局部特征提取网络模块中的每个局部特征提取网络分支,获取所述局部特征提取网络模块对应的局部区域的第一特征元素;
通过第一池化层对每个所述局部特征提取网络分支输出的第一特征元素进行融合,得到所述局部区域的局部特征。
5.根据权利要求4所述的装置,其特征在于,所述局部特征提取网络分支还包括Inception网络层,所述空间变换网络的输入与输出经过点乘运算后作为所述Inception网络的输入,所述Inception网络层的输出作为所述第二池化层的输入。
6.根据权利要求4-5中任一项所述的装置,其特征在于,所述注意力模块将通道注意力模块与空间注意力模块进行串行组合,且在所述残差卷积注意力模块中,所述残差卷积注意力模块的输出融合有所述残差卷积注意力模块的输入特征。
7.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-3中的任一项所述的图像标签识别方法。
8.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-3中的任一项所述的图像标签识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739386.8A CN113627466B (zh) | 2021-06-30 | 2021-06-30 | 图像标签识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110739386.8A CN113627466B (zh) | 2021-06-30 | 2021-06-30 | 图像标签识别方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113627466A CN113627466A (zh) | 2021-11-09 |
CN113627466B true CN113627466B (zh) | 2023-06-13 |
Family
ID=78378704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110739386.8A Active CN113627466B (zh) | 2021-06-30 | 2021-06-30 | 图像标签识别方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627466B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114781513A (zh) * | 2022-04-22 | 2022-07-22 | 北京灵汐科技有限公司 | 数据处理方法及装置、设备、介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816009A (zh) * | 2019-01-18 | 2019-05-28 | 南京旷云科技有限公司 | 基于图卷积的多标签图像分类方法、装置及设备 |
CN112580694A (zh) * | 2020-12-01 | 2021-03-30 | 中国船舶重工集团公司第七0九研究所 | 基于联合注意力机制的小样本图像目标识别方法及系统 |
CN112766376A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于gacnn的多标签眼底图像识别方法 |
CN112906720A (zh) * | 2021-03-19 | 2021-06-04 | 河北工业大学 | 基于图注意力网络的多标签图像识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871909B (zh) * | 2019-04-16 | 2021-10-01 | 京东方科技集团股份有限公司 | 图像识别方法及装置 |
-
2021
- 2021-06-30 CN CN202110739386.8A patent/CN113627466B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816009A (zh) * | 2019-01-18 | 2019-05-28 | 南京旷云科技有限公司 | 基于图卷积的多标签图像分类方法、装置及设备 |
CN112580694A (zh) * | 2020-12-01 | 2021-03-30 | 中国船舶重工集团公司第七0九研究所 | 基于联合注意力机制的小样本图像目标识别方法及系统 |
CN112766376A (zh) * | 2021-01-20 | 2021-05-07 | 重庆邮电大学 | 一种基于gacnn的多标签眼底图像识别方法 |
CN112906720A (zh) * | 2021-03-19 | 2021-06-04 | 河北工业大学 | 基于图注意力网络的多标签图像识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113627466A (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
WO2021042828A1 (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN113705769B (zh) | 一种神经网络训练方法以及装置 | |
WO2019100723A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN112906720B (zh) | 基于图注意力网络的多标签图像识别方法 | |
Lin et al. | Multilabel aerial image classification with a concept attention graph neural network | |
Guo et al. | Soft exemplar highlighting for cross-view image-based geo-localization | |
Noman et al. | Remote sensing change detection with transformers trained from scratch | |
Tsai et al. | MobileNet-JDE: a lightweight multi-object tracking model for embedded systems | |
Shajini et al. | A knowledge-sharing semi-supervised approach for fashion clothes classification and attribute prediction | |
CN117727069A (zh) | 基于多尺度信息交互网络的文本-图像行人重识别方法 | |
CN114780767A (zh) | 一种基于深度卷积神经网络的大规模图像检索方法及系统 | |
Cui et al. | Representation and correlation enhanced encoder-decoder framework for scene text recognition | |
CN113627466B (zh) | 图像标签识别方法、装置、电子设备及可读存储介质 | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
Khurshid et al. | A residual-dyad encoder discriminator network for remote sensing image matching | |
Wang et al. | Detecting occluded and dense trees in urban terrestrial views with a high-quality tree detection dataset | |
Ghali et al. | CT-Fire: a CNN-Transformer for wildfire classification on ground and aerial images | |
Yang et al. | An inshore SAR ship detection method based on ghost feature extraction and cross-scale interaction | |
Idicula et al. | A novel sarnede method for real-time ship detection from synthetic aperture radar image | |
CN113177546A (zh) | 一种基于稀疏注意力模块的目标检测方法 | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
Snoussi et al. | Deep residual U-Net for automatic detection of Moroccan coastal upwelling using SST images | |
Alhichri | RS-DeepSuperLearner: fusion of CNN ensemble for remote sensing scene classification | |
CN116563597A (zh) | 图像识别模型训练方法、识别方法、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |