CN115457308B - 细粒度图像识别方法、装置和计算机设备 - Google Patents
细粒度图像识别方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN115457308B CN115457308B CN202210992690.8A CN202210992690A CN115457308B CN 115457308 B CN115457308 B CN 115457308B CN 202210992690 A CN202210992690 A CN 202210992690A CN 115457308 B CN115457308 B CN 115457308B
- Authority
- CN
- China
- Prior art keywords
- pair
- feature
- images
- vector
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 157
- 230000003993 interaction Effects 0.000 claims abstract description 77
- 230000007246 mechanism Effects 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000003044 adaptive effect Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000010586 diagram Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000013461 design Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种细粒度图像识别方法、装置和计算机设备,所述方法包括:同时输入一对图像,提取一对图像的特征,获得一对三维原始特征图;利用通道注意力机制获取一对三维原始特征图中的区别特征所在区域,生成一对特征图;压缩一对特征图生成一对特征向量,通过学习一对特征向量得到交互向量,并生成门向量;利用成对向量交互机制对特征向量和门向量进行成对交互,得到对应的注意特征;将对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。本申请可以有效地定位关键区域和提高从不同图像中识别对比线索进行细粒度分类的能力。
Description
技术领域
本申请涉及图像识别的技术领域,特别是涉及一种细粒度图像识别方法、装置和计算机设备。
背景技术
细粒度图像识别已成为计算机视觉领域的一个重要课题,并引起了广泛关注,其目的是对粗粒度类别中更详细的子类进行分类,然而,由于细粒度图像存在类内方差高、类间方差低等特点,使得细粒度图像识别仍然是一项具有挑战性的任务。
细粒度图像识别方法需要重点关注两个问题:(1)定位细粒度图像中具有区分性的关键区域,上文中提到细粒度图像往往具有类内方差高、类间方差低等特点,因为具有区分性的区域大多存在于目标物体特定的局部区域且尺寸较小,并且这些具有区分性的局部区域不易因目标物体的姿势、摄像机视角的变化而发生较大变化,所以定位到区分性区域可以较为容易的区分目标物体类别;(2)从关键区域中进行有效的特征提取与表示,将具有区分性的关键区域从图像中检测出来后,还要进行有效的细粒度特征提取,将相同类别的特征表示映射的同一个语义空间中,使得相同类别通过细粒度图像识别方法可以得到相同的类别输出。
早期的细粒度图像识别方法通过人类注释的边界框/部位注释进行基于部位的特征表示来解决这个问题,然而,在标记过程中需要专业的知识和大量的注释时间,因此,对于实际的细粒度图像识别任务,需要花费大量时间和资源进行注释的强监督方法并非最优。为了解决这个问题,研究重点转移到仅提供类别标签的弱监督方法,通过定位不同部位来学习区分性特征,目前,细粒度图像识别的研究方法集中在放大、裁剪局部可区分性区域。具体来说,这种方法在特征提取网络中,添加了一个注意力机制分支网络用于学习注意力权重,如图1所示,特征提取网络对输入图像提取特征之后,将特征图作为注意力机制分支网络的输入得到注意力特征图,注意力特征图与原始特征图进行融合增强关键特征,然后放大、裁剪关键特征,以此加强对于识别任务更有利的细粒度特征。
这种常见的利用注意力机制捕获并放大关键区域的方法虽然取得了一些效果,但他们中的大多数人以单个图像作为输入,这可能会限制他们从不同图像中识别对比线索进行细粒度分类的能力,另一方面,人类没有办法通过比较图像对来有效地识别对比性线索。
发明内容
基于此,有必要针对上述技术问题,提供一种能够定位关键区域、提高不同图像识别对比线索进行细粒度分类的能力的细粒度图像识别方法、装置、计算机设备和存储介质。
一方面,提供一种细粒度图像识别方法,所述方法包括:
步骤A:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
步骤B:利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
步骤C:压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
步骤D:利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
步骤E:将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
在其中一个实施例中,还包括:所述同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图包括:
同时将所述一对图像输入到特征提取网络中用于提取所述一对图像的特征;
基于所述一对图像的特征生成所述一对三维原始特征图,为Fk、Fk′:
Fk∈Hk×Wk×Ckk∈{1,2,...,S}
Fk′∈Hk′×Wk′×Ck′k′∈{1,2,...,S}
其中,Hk、Wk、Ck、Hk′、Wk′、Ck′分别表示第k阶段一对三维原始特征图的高度、宽度和通道数,S表示常数。
在其中一个实施例中,还包括:所述利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图包括:
将所述一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′Fck′进行融合分别得到特征图Fck″、Fck″′;
计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,分别为最大值特征通道和平均值特征通道/>
将所述两个特征通道输入共享卷积层并融合得到通道注意力权重
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域。
在其中一个实施例中,还包括:获取所述通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化。
在其中一个实施例中,还包括:获取所述包含通道注意力的特征图Fkf和Fkf′的计算公式包括:
其中,表示逐元素相乘。
在其中一个实施例中,还包括:所述压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量包括:
将所述特征图Fkf、Fkf′压缩成特征向量x1、x2,从所述x1和x2中学习交互向量xm,其计算公式为:
xm=fm([x1,x2])
其中,fm(.)是[x1,x2]的映射函数;
在所述交互向量xm与xi之间执行通道级乘积,并添加一个Sigmoid函数生成门向量:
gi=sigmoid(xm⊙xi),i∈{1,2}。
在其中一个实施例中,还包括:所述利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征包括:
利用所述成对向量交互机制计算获取所述注意特征,其计算公式为:
其中,每个单独特征xi产生两个注意特征向量,即被它自己的门向量突出显示,/>被另一个图像的门向量激活。
在其中一个实施例中,还包括:所述将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型包括:
将所述对应的注意特征输入至一个softmax分类器中:
将输入到交叉熵损失函数中:
其中,表示预测得分向量,{W,b}为分类器的参数集,/>表示真实标签;
当训练达到预设次数时停止训练,输出训练好的神经网络模型。
另一方面,提供了一种细粒度图像识别装置,所述装置包括:
原始特征提取模块,用于同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
区别特征提取模块,用于利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
向量生成模块,用于压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
交互模块,用于利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
训练模块,用于将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
步骤A:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
步骤B:利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
步骤C:压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
步骤D:利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
步骤E:将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
步骤A:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
步骤B:利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
步骤C:压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
步骤D:利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
步骤E:将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
上述细粒度图像识别方法、装置、计算机设备及存储介质,所述方法包括:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别,本申请将注意力机制与成对交互相结合并引入到细粒度图像识别任务中,在结构设计方面,以成对交互网络为核心,构建混合注意力机制模块,将混合注意力机制模块与成对交互网络相结合进行关键特征定位和提取,构成整个细粒度图像识别网络框架,其中,通过引入通道注意力可以有效地定位关键区域,从而能够捕获不同图像的关键区域,另外,通过设计的成对交互网络,可以自适应地从一对细粒度图像中发现对比线索,并通过对交互仔细区分它们,从而提高从不同图像中识别对比线索进行细粒度分类的能力。
附图说明
图1为一个实施例中细粒度图像识别方法的现有特征提取方法流程图;
图2为一个实施例中细粒度图像识别方法的应用环境图;
图3为一个实施例中细粒度图像识别方法的流程示意图;
图4为一个实施例中细粒度图像识别方法的另一流程示意图;
图5为一个实施例中细粒度图像识别装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的细粒度图像识别方法,可以应用于如图2所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信,并通过网络与设置于服务器104上的数据处理平台进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
实施例1
在一个实施例中,如图3~4所示,提供了一种细粒度图像识别方法,以该方法应用于图2中的终端为例进行说明,包括以下步骤:
S1:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
需要说明的是,所述一对图像指的是有部分相同特征的两张图像,示例性的,如图4所示,输入的是两张含不同形态的海鸥的图片,进一步的,同时将所述一对图像输入到特征提取网络中用于提取所述一对图像的特征,基于所述一对图像的特征生成所述一对三维原始特征图,为Fk、Fk′:
Fk∈Hk×Wk×Ckk∈{1,2,...,S}
Fk′∈Hk′×Wk′×Ck′k′∈{1,2,...,S}
其中,Hk、Wk、Ck、Hk′、Wk′、Ck′分别表示第k阶段一对三维原始特征图的高度、宽度和通道数,S表示常数。
S2:利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图。
具体的,将所述一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′、Fck′进行融合分别得到特征图Fck″、Fck″′;
对于任一个特征图所有通道中的每张特征图,首先计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,即每张特征图中得到维数是1×1的一维矩阵,所有通道累计得到了C×1个维数是1×1的矩阵,分别为最大值特征通道和平均值特征通道/>
将所述两个特征通道输入共享卷积层并融合得到通道注意力权重
其中,获取所述通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化。
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域,为关键区域,其中,获取所述包含通道注意力的特征图Fkf和Fkf′的计算公式包括:
其中,表示逐元素相乘。
S3:压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量。
需要说明的是,经过步骤S2之后,可以捕获到包含显著性信息的一对特征图Fkf和Fkf′,将特征图Fkf和Fkf′压缩成特征向量x1、x2,从所述x1和x2中学习交互向量xm,其计算公式为:
xm=fm([x1,x2])
其中,fm(.)是[x1,x2]的映射函数由于xm是从x1和x2自适应总结的,它通常包含表示成对图像中高级对比线索的特征通道;
优选的,本申请在所述交互向量xm与xi之间执行通道级乘积,这样就可以利用xm作为指导,找出单个xi的哪些通道可能包含对比线索,然后,添加一个Sigmoid函数生成门向量:
gi=sigmoid(xm⊙xi),i∈{1,2}
因此,gi成为了一种区别性的注意,通过每个个体xi的不同视角来突出语义差异。
S4:利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征。
需要说明的是,本申请的设计部分动机是这样一个事实,为了捕捉一对细粒度图像的细微差异,人类不仅检查每张图像突出的部分,而且检查与其他图像不同的部分,因此,本申请引入了一种通过成对向量的交互机制:
其中,每个单独特征xi产生两个注意特征向量,即被它自己的门向量突出显示,/>被另一个图像的门向量激活,在这种情况下,本申请使用来自这两幅图像的区别线索来增强xi,通过共同区分所有这些特征,可以减少这个细粒度对中的混淆。
S5:将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
需要说明的是,基于步骤S4所获得的四个注意特征,将其输入至一个softmax分类器中:
将输入到交叉熵损失函数中:
其中,表示预测得分向量,{W,b}为分类器的参数集,/>表示真实标签;
当训练达到预设次数时停止训练,输出训练好的神经网络模型以用于后期的细粒度图像识别。
本申请与现有技术相比主要有以下优点:在细粒度图像识别模型上,当前的方法大多是集中在放大、裁剪局部可区分性区域,具体来说,这种方法在特征提取网络中,添加了一个注意力机制分支网络用于学习注意力权重,特征提取网络对输入图像提取特征之后,将特征图作为注意力机制分支网络的输入得到注意力特征图,注意力特征图与原始特征图进行融合增强关键特征,然后放大、裁剪关键特征,以此加强对于识别任务更有利的细粒度特征。与上述方法不同,本申请提出一种基于注意力机制的成对交互网络的细粒度图像识别模型,它可以自适应地从一对细粒度图像中发现对比线索,并通过对交互仔细区分它们,并从以下两个方面进行改进:(1)为了能够捕获不同图像的关键区域,本申请引入了通道注意力有效地定位关键区域;(2)为了提高从不同图像中识别对比线索进行细粒度分类的能力,本申请设计了成对交互网络,它可以自适应地从一对细粒度图像中发现对比线索,并通过对交互仔细区分它们。综上所述,本申请将注意力机制与成对交互相结合并引入到细粒度图像识别任务中,在结构设计方面,以成对交互网络为核心,构建混合注意力机制模块,将混合注意力机制模块与成对交互网络相结合进行关键特征定位和提取,构成整个细粒度图像识别网络框架,可以有效地定位关键区域和提高从不同图像中识别对比线索进行细粒度分类的能力。
应该理解的是,虽然图3-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例2
在一个实施例中,如图5所示,提供了一种细粒度图像识别装置,包括:原始特征提取模块、区别特征提取模块、向量生成模块、交互模块和训练模块,其中:
原始特征提取模块,用于同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
区别特征提取模块,用于利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
向量生成模块,用于压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
交互模块,用于利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
训练模块,用于将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
作为一种较优的实施方式,本发明实施例中,所述原始特征提取模块具体用于:
同时将所述一对图像输入到特征提取网络中用于提取所述一对图像的特征;
基于所述一对图像的特征生成所述一对三维原始特征图,为Fk、Fk′:
Fk∈Hk×Wk×Ckk∈{1,2,...,S}
Fk′∈Hk′×Wk′×Ck′k′∈{1,2,...,S}
其中,Hk、Wk、Ck、Hk′、Wk′、Ck′分别表示第k阶段一对三维原始特征图的高度、宽度和通道数,S表示常数。
作为一种较优的实施方式,本发明实施例中,所述区别特征提取模块具体用于:
将所述一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′、Fck′进行融合分别得到特征图Fck″、Fck″′;
计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,分别为最大值特征通道和平均值特征通道/>
将所述两个特征通道输入共享卷积层并融合得到通道注意力权重
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域。
其中,获取所述通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化。
获取所述包含通道注意力的特征图Fkf和Fkf′的计算公式包括:
其中,表示逐元素相乘。
作为一种较优的实施方式,本发明实施例中,所述向量生成模块具体用于:
将所述特征图Fkf、Fkf′压缩成特征向量x1、x2,从所述x1和x2中学习交互向量xm,其计算公式为:
xm=fm([x1,x2])
其中,fm(.)是[x1,x2]的映射函数;
在所述交互向量xm与xi之间执行通道级乘积,并添加一个Sigmoid函数生成门向量:
gi=sigmoid(xm⊙xi),i∈{1,2}。
作为一种较优的实施方式,本发明实施例中,所述交互模块具体用于:
利用所述成对向量交互机制计算获取所述注意特征,其计算公式为:
其中,每个单独特征xi产生两个注意特征向量,即被它自己的门向量突出显示,/>被另一个图像的门向量激活。
作为一种较优的实施方式,本发明实施例中,所述训练模块具体用于:
将所述对应的注意特征输入至一个softmax分类器中:
将输入到交叉熵损失函数中:
其中,表示预测得分向量,{W,b}为分类器的参数集,/>表示真实标签;
当训练达到预设次数时停止训练,输出训练好的神经网络模型。
关于细粒度图像识别装置的具体限定可以参见上文中对于细粒度图像识别方法的限定,在此不再赘述。上述细粒度图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例3
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种细粒度图像识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
步骤A:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
步骤B:利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
步骤C:压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
步骤D:利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
步骤E:将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
同时将所述一对图像输入到特征提取网络中用于提取所述一对图像的特征;
基于所述一对图像的特征生成所述一对三维原始特征图,为Fk、Fk′:
Fk∈Hk×Wk×Ckk∈{1,2,...,S}
Fk′∈Hk′×Wk′×Ck′k′∈{1,2,...,S}
其中,Hk、Wk、Ck、Hk′、Wk′、Ck′分别表示第k阶段一对三维原始特征图的高度、宽度和通道数,S表示常数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′、Fck′进行融合分别得到特征图Fck″、Fck″′;
计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,分别为最大值特征通道和平均值特征通道/>
将所述两个特征通道输入共享卷积层并融合得到通道注意力权重
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域。
其中,获取所述通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化。
获取所述包含通道注意力的特征图Fkf和Fkf′的计算公式包括:
其中,表示逐元素相乘。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述特征图Fkf、Fkf′压缩成特征向量x1、x2,从所述x1和x2中学习交互向量xm,其计算公式为:
xm=fm([x1,x2])
其中,fm(.)是[x1,x2]的映射函数;
在所述交互向量xm与xi之间执行通道级乘积,并添加一个Sigmoid函数生成门向量:
gi=sigmoid(xm⊙xi),i∈{1,2}。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
利用所述成对向量交互机制计算获取所述注意特征,其计算公式为:
其中,每个单独特征xi产生两个注意特征向量,即被它自己的门向量突出显示,/>被另一个图像的门向量激活。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将所述对应的注意特征输入至一个softmax分类器中:
将输入到交叉熵损失函数中:
其中,表示预测得分向量,{W,b}为分类器的参数集,/>表示真实标签;
当训练达到预设次数时停止训练,输出训练好的神经网络模型。
实施例4
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
步骤A:同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
步骤B:利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
步骤C:压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
步骤D:利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
步骤E:将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
同时将所述一对图像输入到特征提取网络中用于提取所述一对图像的特征;
基于所述一对图像的特征生成所述一对三维原始特征图,为Fk、Fk′:
Fk∈Hk×Wk×Ckk∈{1,2,...,S}
Fk′∈Hk′×Wk′×Ck′k′∈{1,2,...,S}
其中,Hk、Wk、Ck、Hk′、Wk′、Ck′分别表示第k阶段一对三维原始特征图的高度、宽度和通道数,S表示常数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′、Fck′进行融合分别得到特征图Fck″、Fck″′;
计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,分别为最大值特征通道和平均值特征通道/>
将所述两个特征通道输入共享卷积层并融合得到通道注意力权重
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域。
其中,获取所述通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化。
获取所述包含通道注意力的特征图Fkf和Fkf′的计算公式包括:
其中,表示逐元素相乘。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述特征图Fkf、Fkf′压缩成特征向量x1、x2,从所述x1和x2中学习交互向量xm,其计算公式为:
xm=fm([x1,x2])
其中,fm(.)是[x1,x2]的映射函数;
在所述交互向量xm与xi之间执行通道级乘积,并添加一个Sigmoid函数生成门向量:
gi=sigmoid(xm⊙xi),i∈{1,2}。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
利用所述成对向量交互机制计算获取所述注意特征,其计算公式为:
其中,每个单独特征xi产生两个注意特征向量,即被它自己的门向量突出显示,/>被另一个图像的门向量激活。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将所述对应的注意特征输入至一个softmax分类器中:
将输入到交叉熵损失函数中:
其中,表示预测得分向量,{W,b}为分类器的参数集,/>表示真实标签;
当训练达到预设次数时停止训练,输出训练好的神经网络模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种细粒度图像识别方法,其特征在于,所述方法包括:
同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别;
其中,所述利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图包括:
将一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′、Fck′进行融合分别得到特征图Fck″、Fck″′;
计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,分别为最大值特征通道和平均值特征通道/>将所述两个特征通道输入共享卷积层并融合得到通道注意力权重/>其中,获取通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化;
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域。
2.根据权利要求1所述的细粒度图像识别方法,其特征在于,所述同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图包括:
同时将所述一对图像输入到特征提取网络中用于提取所述一对图像的特征;
基于所述一对图像的特征生成所述一对三维原始特征图,为Fk、Fk′:
Fk∈Hk×Wk×Ck k∈{1,2,…,S}
Fk′∈Hk′×Wk′×Ck′ k′∈{1,2,...,S}
其中,Hk、Wk、Ck、Hk′、Wk′、Ck′分别表示第k阶段一对三维原始特征图的高度、宽度和通道数,S表示常数。
3.根据权利要求1所述的细粒度图像识别方法,其特征在于,获取所述包含通道注意力的特征图Fkf和Fkf′的计算公式包括:
其中,表示逐元素相乘。
4.根据权利要求1所述的细粒度图像识别方法,其特征在于,所述压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量包括:
将所述特征图Fkf、Fkf′压缩成特征向量x1、x2,从所述x1和x2中学习交互向量xm,其计算公式为:
xm=fm([x1,x2])
其中,fm(·)是[x1,x2]的映射函数;
在所述交互向量xm与xi之间执行通道级乘积,并添加一个Sigmoid函数生成门向量:
gi=sigmoid(xm⊙xi),i∈{1,2}。
5.根据权利要求4所述的细粒度图像识别方法,其特征在于,所述利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征包括:
利用所述成对向量交互机制计算获取所述注意特征,其计算公式为:
其中,每个单独特征xi产生两个注意特征向量,即被它自己的门向量突出显示,被另一个图像的门向量激活。
6.根据权利要求5所述的细粒度图像识别方法,其特征在于,所述将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型包括:
将所述对应的注意特征输入至一个softmax分类器中:
将输入到交叉熵损失函数中:
其中,表示预测得分向量,{W,b}为分类器的参数集,/>表示真实标签;
当训练达到预设次数时停止训练,输出训练好的神经网络模型。
7.一种细粒度图像识别装置,其特征在于,所述装置包括:
原始特征提取模块,用于同时输入一对图像,提取所述一对图像的特征,获得一对三维原始特征图;
区别特征提取模块,用于利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图;
向量生成模块,用于压缩所述一对特征图生成一对特征向量,通过学习所述一对特征向量得到交互向量,并生成门向量;
交互模块,用于利用成对向量交互机制对所述特征向量和门向量进行成对交互,得到对应的注意特征;
训练模块,用于将所述对应的注意特征输入神经网络中进行训练,获得训练好的神经网络模型用于后续的细粒度图像识别;
其中,所述利用通道注意力机制获取所述一对三维原始特征图中的区别特征所在区域,生成一对特征图包括:
将一对三维原始特征图Fk、Fk′进行卷积得到Fck、Fck′,将Fk、Fck、Fk′、Fck′进行融合分别得到特征图Fck″、Fck″′;
计算所述特征图Fck″、Fck″′像素元素最大值和像素元素平均值得到两个特征通道,分别为最大值特征通道和平均值特征通道/>将所述两个特征通道输入共享卷积层并融合得到通道注意力权重/>其中,获取通道注意力权重的计算公式包括:
其中,Conv由两个1×1卷积层和修正线性单元组成,AdaptiveMaxPool表示自适应最大池化,AdaptiveAvgPool表示自适应平均池化;
将所述通道注意力权重分别与所述Fk、Fk′进行融合,得到包含通道注意力的特征图Fkf和Fkf′,即所述区别特征所在区域。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210992690.8A CN115457308B (zh) | 2022-08-18 | 2022-08-18 | 细粒度图像识别方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210992690.8A CN115457308B (zh) | 2022-08-18 | 2022-08-18 | 细粒度图像识别方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115457308A CN115457308A (zh) | 2022-12-09 |
CN115457308B true CN115457308B (zh) | 2024-03-12 |
Family
ID=84297636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210992690.8A Active CN115457308B (zh) | 2022-08-18 | 2022-08-18 | 细粒度图像识别方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457308B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994966B (zh) * | 2023-03-22 | 2023-06-30 | 北京红棉小冰科技有限公司 | 多视角图像生成方法、装置、可读存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190113119A (ko) * | 2018-03-27 | 2019-10-08 | 삼성전자주식회사 | 합성곱 신경망을 위한 주의집중 값 계산 방법 |
CN111325237A (zh) * | 2020-01-21 | 2020-06-23 | 中国科学院深圳先进技术研究院 | 一种基于注意力交互机制的图像识别方法 |
CN111985572A (zh) * | 2020-08-27 | 2020-11-24 | 中国科学院自动化研究所 | 基于特征比较的通道注意力机制的细粒度图像识别方法 |
WO2021143267A1 (zh) * | 2020-09-07 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于图像检测的细粒度分类模型处理方法、及其相关设备 |
CN113642571A (zh) * | 2021-07-12 | 2021-11-12 | 中国海洋大学 | 一种基于显著性注意力机制的细粒度图像识别方法 |
CN114067107A (zh) * | 2022-01-13 | 2022-02-18 | 中国海洋大学 | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 |
-
2022
- 2022-08-18 CN CN202210992690.8A patent/CN115457308B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190113119A (ko) * | 2018-03-27 | 2019-10-08 | 삼성전자주식회사 | 합성곱 신경망을 위한 주의집중 값 계산 방법 |
CN111325237A (zh) * | 2020-01-21 | 2020-06-23 | 中国科学院深圳先进技术研究院 | 一种基于注意力交互机制的图像识别方法 |
CN111985572A (zh) * | 2020-08-27 | 2020-11-24 | 中国科学院自动化研究所 | 基于特征比较的通道注意力机制的细粒度图像识别方法 |
WO2021143267A1 (zh) * | 2020-09-07 | 2021-07-22 | 平安科技(深圳)有限公司 | 基于图像检测的细粒度分类模型处理方法、及其相关设备 |
CN113642571A (zh) * | 2021-07-12 | 2021-11-12 | 中国海洋大学 | 一种基于显著性注意力机制的细粒度图像识别方法 |
CN114067107A (zh) * | 2022-01-13 | 2022-02-18 | 中国海洋大学 | 基于多粒度注意力的多尺度细粒度图像识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于轻量级分组注意力模块的图像分类算法;张盼盼;李其申;杨词慧;;计算机应用;20201231(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115457308A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Leng et al. | Realize your surroundings: Exploiting context information for small object detection | |
Wang et al. | Micro-expression recognition with small sample size by transferring long-term convolutional neural network | |
Kao et al. | Visual aesthetic quality assessment with a regression model | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
Guo et al. | Group-level emotion recognition using hybrid deep models based on faces, scenes, skeletons and visual attentions | |
Rafique et al. | Deep fake detection and classification using error-level analysis and deep learning | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
Hebri et al. | Effective facial expression recognition system using machine learning | |
CN111242083B (zh) | 基于人工智能的文本处理方法、装置、设备、介质 | |
CN113378710A (zh) | 图像文件的版面分析方法、装置、计算机设备和存储介质 | |
Wang et al. | CLARE: A joint approach to label classification and tag recommendation | |
Zhang et al. | Weakly supervised human fixations prediction | |
CN108108769B (zh) | 一种数据的分类方法、装置及存储介质 | |
Hupont et al. | Region-based facial representation for real-time action units intensity detection across datasets | |
CN115457308B (zh) | 细粒度图像识别方法、装置和计算机设备 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
Bekhet et al. | Gender recognition from unconstrained selfie images: a convolutional neural network approach | |
Lu et al. | A novel part-level feature extraction method for fine-grained vehicle recognition | |
Lang et al. | Dual low-rank pursuit: Learning salient features for saliency detection | |
Wei et al. | Textile defect detection using multilevel and attentional deep learning network (MLMA-Net) | |
CN112836682B (zh) | 视频中对象的识别方法、装置、计算机设备和存储介质 | |
Lu et al. | Web multimedia object classification using cross-domain correlation knowledge | |
Xin et al. | Siamraan: Siamese residual attentional aggregation network for visual object tracking | |
CN113569094A (zh) | 视频推荐方法、装置、电子设备及存储介质 | |
CN115424001A (zh) | 场景相似度估计方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |