CN112580694B - 基于联合注意力机制的小样本图像目标识别方法及系统 - Google Patents
基于联合注意力机制的小样本图像目标识别方法及系统 Download PDFInfo
- Publication number
- CN112580694B CN112580694B CN202011383422.3A CN202011383422A CN112580694B CN 112580694 B CN112580694 B CN 112580694B CN 202011383422 A CN202011383422 A CN 202011383422A CN 112580694 B CN112580694 B CN 112580694B
- Authority
- CN
- China
- Prior art keywords
- network
- module
- sub
- image
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于联合注意力机制的小样本图像目标识别方法及系统,其通过构建包含空间注意力学习模块和通道注意力学习模块的联合注意力网络,然后扩充训练数据,对联合注意力网络进行训练和参数进行优化,利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,根据两个图像特征之间修正后的余弦距离判定目标类型。通过引入CBAM注意力模块,利用CBAM注意力关注图像中的目标区域特征,改进图像的特征表示,提取出更加鲁棒和更具判别性的特征,有效提高小样本目标识别的准确率;同时将输入图像进行分割,提取局部特征,加强对图片中目标局部特征的学习。
Description
技术领域
本发明涉及图像目标识别技术领域,尤其是涉及一种基于联合注意力机制的小样本图像目标识别方法及系统。
背景技术
目前基于深度学习进行目标识别需要海量数据进行计算,但是实际应用时常常面临小样本的问题,目前主流的小样本目标识别算法的基本思想是提取图像特征把样本映射到一个高维空间,然后通过图像特征之间的最优匹配流计算图像特征相似度,实现目标的分类识别。
然而由于图像中杂乱的背景和较大的内外观变化,直接对图像进行特征提取会导致同一类别的图像在给定的度量空间中相距很远,降低分类的正确率;此外混合全局表现会破坏图像结构,丢失局部特征。
近年来,注意力模型越来越多的应用到了计算机视觉的各个领域中,注意力模型能着重学习输入信号中信息最丰富的部分,能有效的改善网络对于图像目标特征的学习能力,但现有的算法往往使用单一的注意力,忽略了不同注意力网络的特性和互补作用,使得提取到的目标特征判别性相对较低,对于图像目标识别准确度较低。
发明内容
本发明的目的在于克服上述技术不足,提出一种基于联合注意力机制的小样本图像目标识别方法及系统,解决现有图像目标特征判别性较差以及目标识别准确度较低的问题。
为达到上述技术目的,本发明的技术方案第一方面提供一种基于联合注意力机制的小样本图像目标识别方法,其包括如下步骤:
构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块;
扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化;
利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型。
本发明第二方面提供一种基于联合注意力机制的小样本图像目标识别系统,其包括如下功能模块:
网络构建模块,用于构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块;
扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化;
类型判断模块,用于利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型。
本发明第三方面提供一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种基于联合注意力机制的小样本图像目标识别方法的步骤。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于联合注意力机制的小样本图像目标识别方法的步骤。
与现有技术相比,本发明通过构建包含空间注意力学习模块和通道注意力学习模块的联合注意力网络,然后对所述联合注意力网络进行训练和参数进行优化,利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型。采用本发明所述基于联合注意力机制的小样本图像目标识别方法进行图像特征识别具有如下有益效果:
(1)本发明在ResNet-50子网络中引入了CBAM注意力模块,利用CBAM注意力关注图像中的目标区域特征,改进图像的特征表示,提取出更加鲁棒和更具判别性的特征,加强网络对图像中目标特征学习,有效提高小样本目标识别的准确率。
(2)本发明将输入图像进行分割,将分割图像作为局部特征学习分支的学习对象提取局部子特征,利用特征融合模块,将局部子特征进行融合得到局部特征,因此,在学习图像目标全局特征的同时,加强了对图片中目标局部特征的学习,提升了网络在小样本目标识别上的性能。
(3)本发明在进行目标类型判别时,提出一种基于修正后的余弦距离的计算方法,该方法在余弦距离的基础上,在每个维度都减去均值得到修正后的余弦距离,充分关注每个维度的变化,提高判别的准确性。
附图说明
图1是本发明所述的一种基于联合注意力机制的小样本图像目标识别方法的流程框图;
图2是发明所述的一种基于联合注意力机制的小样本图像目标识别方法中所述联合注意力网络结构图;
图3是发明所述的一种基于联合注意力机制的小样本图像目标识别方法中所述CBAM注意力模块结构图;
图4是本发明所述的一种基于联合注意力机制的小样本图像目标识别系统的模块框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于联合注意力机制的小样本图像目标识别方法,其包括如下步骤:
S1、构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块。
所述联合注意力网络包括用于对图像进行整体特征提取并学习的全局特征子网络和用于对矩阵分割后的图像进行提取并学习的局部特征子网络,所述全局特征子网络为加入联合注意力机制的ResNet-50子网络,包括至少一个卷积模块和至少一个CBAM模块、且CBAM模块的输入端连接卷积模块的输出端;所述局部特征子网络包括图像矩阵分割模块、多个并列设置的加入联合注意力机制的ResNet-50子网络和特征融合模块,每一个加入联合注意力机制的ResNet-50子网络包括至少一个卷积模块和至少一个CBAM模块,且所述CBAM模块的输入端连接卷积模块的输出端;所述特征融合模块的输入端连接所述CBAM模块的输出端。
具体如图2所示,本发明实施例所述联合注意力网络包括全局特征子网络和局部特征子网络,所述全局特征子网络包括四个卷积模块和三个CBAM模块,三个所述CBAM模块依次间隔设置于前三个卷积模块的输出端;所述局部特征子网络的每一个加入联合注意力机制的ResNet-50子网络均包括四个卷积模块和三个CBAM模块,三个所述CBAM模块依次间隔设置于前三个卷积模块的输出端,每一个加入联合注意力机制的ResNet-50子网络构成一个局部特征学习分支,三个所述CBAM模块的输出端同时连接第四个卷积块的输入端,第四个卷积块的输出端同时连接特征融合模块的输入端。
所述全局特征子网络用于对图像进行整体特征提取并学习,所述局部特征子网络通过矩阵分割模块将图像进行矩阵分割,对分割后的小图像进行提取并学习,即图像进行矩阵分割之后得到一组局部特征向量,然后按照一对一的方式采用加入联合注意力机制的ResNet-50子网络对局部特征向量进行提取并学习;所述卷积模块用于对输入的图像进行图像特征提取;所述CBAM模块为卷积注意力模块(Convolutional Block AttentionModule,CBAM),用于对输入的图像特征进行空间注意力和通道注意力学习;如图3所示,CBAM模块包括空间注意力子模块和通道注意力子模块,所述空间注意力子模块用于对输入的图像特征进行空间注意力学习,且所述空间注意力子模块由依次连接的全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成;所述通道注意力子模块用于对输入的图像特征进行通道注意力学习,且所述通道注意力子模块由一个跨通道全局平均池化层和下采样、上采样层组成;所述特征融合模块用于将局部特征学习分支学习到的图像特征采用判别相关分析(Discriminant correlation analysis,DCA)的特征融合策略进行融合,DCA能够将图像特征之间关系和不同特征之间的差异的同时最大化。
S2、扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化。
具体地,本发明实施例中选用miniImageNet作为训练数据集,对miniImageNet进行预处理,将输入图像进行旋转、水平翻转、裁剪的操作,扩充训练数据集,提高小样本数据集中样本的多样性。旋转的操作将原始图像旋转θ的角度得到变换后的图像,θ为0°~360°之间的随机数值;水平翻转的操作是将图像以中轴线翻转;裁剪的操作首先将图像扩展为原来的n倍,然后在扩展的图像中裁剪一个和原图大小相同的图像,n为大于1的随机数值。
在所述联合注意力网络中,采用全局特征子网络对训练数据集中的图像进行整体特征提取并学习;具体方法如下:
首先将训练数据集中的图像输入卷积模块中进行卷积处理,提取出图像特征,然后将图像特征输入至CBAM模块中,在CBAM模块中,所述空间注意力子模块将图像特征的空间信息变换到另一个空间,在变换后的空间中将与目标类别相关的图像特征与噪声分离开,所述通道注意力子模块将多个通道的权重系数矩阵与卷积模块输出的图像特征相乘得到缩放后的新特征,从而对图像特征的重新加权分配,将注意力放在与目标类别相关的图像特征上,忽略掉噪声和冗余。
进一步的,为了方便空间注意力与通道注意力的结合,在将空间注意力子模块的输出与通道注意力子模块的输出相乘后加入一个卷积操作,最后添加一个sigmoid操作,将注意力权重正则化为0.6到1之间。
由于所述全局特征子网络中包括四个卷积模块和三个CBAM模块,因此,所述训练数据集中的图像在全局特征子网络中反复多次进行上述图像特征提取,使提取得到的图像特征更加鲁棒和更具判别性。
同时,在所述联合注意力网络中,采用局部特征子网络用于对训练数据集中的图像进行分割,并对分割后的小图像分别进行特征提取和学习。具体方法如下:
将训练数据集中的图像进行矩阵分割,具体为,将训练数据集的每个图像分割为8份,在局部特征子网络中,采用局部特征学习分支对分割后的图像分别进行提取学习,即分割后的图像按照一对一的方式输入至并列设置的加入联合注意力机制的ResNet-50子网络中进行特征提取和学习;具体方法如下:
在单个加入联合注意力机制的ResNet-50子网络中,首先将分割图像输入卷积模块中进行卷积处理,提取出图像特征,然后将图像特征输入至CBAM模块中,在CBAM模块中,所述空间注意力子模块将图像特征的空间信息变换到另一个空间,所述通道注意力子模块将多个通道的权重系数矩阵与卷积模块输出的图像特征相乘得到对图像特征的重新加权分配后的新特征;将空间注意力子模块的输出与通道注意力子模块的输出结合得到单个局部特征学习分支的局部子特征。
进一步的,为了方便空间注意力与通道注意力的结合,在将空间注意力子模块的输出与通道注意力子模块的输出相乘后加入一个卷积操作,最后添加一个sigmoid操作,将注意力权重正则化为0.6到1之间。
由于所述单个加入联合注意力机制的ResNet-50子网络中包括四个卷积模块和三个CBAM模块,因此,所述训练数据集中的图像在单个加入联合注意力机制的ResNet-50子网络中反复多次进行上述图像特征提取,使提取得到的图像特征更加鲁棒和更具判别性。
当8个分割图像分别在对应的加入联合注意力机制的ResNet-50子网络中完成特征提取和学习之后,得到8个局部子特征,所述特征融合模块将局部特征学习分支学习到的8个局部子特征采用判别相关分析(Discriminant correlation analysis,DCA)的方式进行融合,能够得到融合后图像的局部图像特征。
全局图像特征与局部图像特征通过add拼接起来,作为所述联合注意力网络学习到的图像总特征,由此降低了目标判别时修正后余弦距离计算的复杂度。
所述add拼接是残差网络ResNet中一种经典的图像特征拼接方法,add拼接后图像特征信息量增多,通道数不变,且计算量很小,对最终的图像目标的识别有益。
本发明实施例总共训练300轮,采用amsgrad算法更新联合注意力网络网络参数,所述amsgrad算法公式为:
其中,t是从0开始计数的训练轮数,θt是更新前的联合注意力网络参数,θt+1是更新的后的联合注意力网络参数,β1、β2为0-1之间可设置超参数,代表损失函数关于θt的梯度,mt是加权后的梯度,vt和/>是中间参数,初始值设置为0,η表示学习率,ε代表一个无限小的数,防止分母为0这种无意义的情况出现。
具体地,在训练数据集上对联合注意力网络进行训练,初始学习率设置为0.01,总共训练300轮,在训练100、200和250轮时,学习率衰减为原来的利用amsgrad算法更新联合注意力网络参数,设置amsgrad算法中的β1=0.9、β2=0.999。
具体地,联合注意力网络的损失函数采用softmax损失函数,softmax损失函数公式为:
其中,yi表示第i个目标真实值,ai表示softmax输出的第i个目标预测值。
S3、利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型。
所述修正后的余弦距离指的是在余弦距离的基础上,在每个维度减去均值,具体的,所述修正后的余弦距离的计算公式为:
其中,式中:cij为修正后的余弦距离,Iuv为已知目标类型图像和待定目标类型图像的特征向量维度乘积,Iu为已知目标类型图像的特征向量维度,Iv为待定目标类型图像的特征向量维度,ui和vj分别表示已知目标类型图像特征向量、待定目标类型图像特征向量,和/>分别表示已知目标类型图像特征向量的均值、待定目标类型图像特征向量的均值。
如图4所示,本发明实施例还公开了一种基于联合注意力机制的小样本图像目标识别系统,其包括如下功能模块:
网络构建模块10,用于构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块;
训练优化模块20,用于扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化;
类型判断模块30,用于利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型。
本实施例一种基于联合注意力机制的小样本图像目标识别系统的执行方式与上述基于联合注意力机制的小样本图像目标识别方法基本相同,故不作详细赘述。
本实施例服务器为提供计算服务的设备,通常指具有较高计算能力,通过网络提供给多个消费者使用的计算机。该实施例的服务器包括:存储器、处理器以及系统总线,所述存储器包括存储其上的可运行的程序,本领域技术人员可以理解,本实施例的终端设备结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、数值计算功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如图像数据、文本数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在存储器上包含一种基于联合注意力机制的小样本图像目标识别方法的可运行程序,所述可运行程序可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器中,并由处理器执行,以完成信息的获取及实现过程,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述服务器中的执行过程。例如,所述计算机程序可以被分割为网络构建模块、训练优化模块、类型判断模块。
处理器是服务器的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和图形处理器GPU,其中,应用处理器主要处理操作系统、应用程序等,图形处理器GPU主要用于深度学习模型并行计算加速。可以理解的是,上述图形处理器GPU也可以不集成到处理器中。
系统总线是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如PCI总线、ISA总线、VESA总线等。处理器的指令通过总线传递至存储器,存储器反馈数据给处理器,系统总线负责处理器与存储器之间的数据、指令交互。当然系统总线还可以接入其他设备,例如网络接口、显示设备等。
所述服务器应至少包括CPU、芯片组、内存、磁盘系统等,其他构成部件在此不再赘述。
在本发明实施例中,该终端所包括的处理器执行的可运行程序具体为:一种基于联合注意力机制的小样本图像目标识别方法,其包括如下步骤:
构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块;
扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化;
利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种基于联合注意力机制的小样本图像目标识别方法,其特征在于,包括如下步骤:
构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块;
扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化;
利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型;
所述联合注意力网络包括用于对图像进行整体特征提取并学习的全局特征子网络和用于对矩阵分割后的图像进行提取并学习的局部特征子网络,所述全局特征子网络为加入联合注意力机制的ResNet-50子网络,其包括至少一个卷积模块和至少一个CBAM模块、且CBAM模块的输入端连接卷积模块的输出端;所述局部特征子网络包括图像矩阵分割模块、三个并列设置的加入联合注意力机制的ResNet-50子网络与特征融合模块,每一个加入联合注意力机制的ResNet-50子网络包括至少一个卷积模块和至少一个CBAM模块,且所述CBAM模块的输入端连接卷积模块的输出端;
所述特征融合模块用于将局部特征子网络中的所有CBAM模块输出的图像特征采用密度相关分析的方式进行融合;
所述联合注意力网络包括全局特征子网络和局部特征子网络,所述全局特征子网络包括四个卷积模块和三个CBAM模块,三个所述CBAM模块依次间隔设置于前三个卷积模块的输出端;所述局部特征子网络的每一个加入联合注意力机制的ResNet-50子网络均包括四个卷积模块和三个CBAM模块,每一个加入联合注意力机制的ResNet-50子网络构成一个局部特征学习分支,三个所述CBAM模块的输出端同时连接第四个卷积块的输入端,第四个卷积块的输出端同时连接特征融合模块的输入端。
2.根据权利要求1所述基于联合注意力机制的小样本图像目标识别方法,其特征在于,所述CBAM模块包括用于对输入的图像特征进行空间注意力学习的空间注意力学习模块,和用于对输入的图像特征进行通道注意力学习的通道注意力学习模块。
3.根据权利要求1所述基于联合注意力机制的小样本图像目标识别方法,其特征在于,所述局部特征子网络是将图像进行矩阵分割,对分割后的小图像进行提取并学习。
4.一种基于联合注意力机制的小样本图像目标识别系统,其特征在于,包括如下功能模块:
网络构建模块,用于构建联合注意力网络,所述联合注意力网络包括空间注意力学习模块和通道注意力学习模块;
训练优化模块,用于扩充训练数据集,训练所述联合注意力网络,并利用amsgrad算法对联合注意力网络中的参数进行优化;
类型判断模块,用于利用训练好的联合注意力网络分别对已知目标类型图像和待定目标类型图像进行特征提取,获得已知目标类型图像特征和待定目标类型图像特征,计算两个图像特征之间修正后的余弦距离,根据修正后的余弦距离判定目标类型;
其中,所述联合注意力网络包括用于对图像进行整体特征提取并学习的全局特征子网络和用于对矩阵分割后的图像进行提取并学习的局部特征子网络,所述全局特征子网络为加入联合注意力机制的ResNet-50子网络,其包括至少一个卷积模块和至少一个CBAM模块、且CBAM模块的输入端连接卷积模块的输出端;所述局部特征子网络包括图像矩阵分割模块、三个并列设置的加入联合注意力机制的ResNet-50子网络与特征融合模块,每一个加入联合注意力机制的ResNet-50子网络包括至少一个卷积模块和至少一个CBAM模块,且所述CBAM模块的输入端连接卷积模块的输出端;
所述特征融合模块用于将局部特征子网络中的所有CBAM模块输出的图像特征采用密度相关分析的方式进行融合;
所述联合注意力网络包括全局特征子网络和局部特征子网络,所述全局特征子网络包括四个卷积模块和三个CBAM模块,三个所述CBAM模块依次间隔设置于前三个卷积模块的输出端;所述局部特征子网络的每一个加入联合注意力机制的ResNet-50子网络均包括四个卷积模块和三个CBAM模块,每一个加入联合注意力机制的ResNet-50子网络构成一个局部特征学习分支,三个所述CBAM模块的输出端同时连接第四个卷积块的输入端,第四个卷积块的输出端同时连接特征融合模块的输入端。
5.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述基于联合注意力机制的小样本图像目标识别方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于联合注意力机制的小样本图像目标识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383422.3A CN112580694B (zh) | 2020-12-01 | 2020-12-01 | 基于联合注意力机制的小样本图像目标识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383422.3A CN112580694B (zh) | 2020-12-01 | 2020-12-01 | 基于联合注意力机制的小样本图像目标识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580694A CN112580694A (zh) | 2021-03-30 |
CN112580694B true CN112580694B (zh) | 2024-04-19 |
Family
ID=75126559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011383422.3A Active CN112580694B (zh) | 2020-12-01 | 2020-12-01 | 基于联合注意力机制的小样本图像目标识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580694B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627466B (zh) * | 2021-06-30 | 2023-06-13 | 北京三快在线科技有限公司 | 图像标签识别方法、装置、电子设备及可读存储介质 |
CN113642554B (zh) * | 2021-07-26 | 2023-07-11 | 华侨大学 | 一种图像识别的网络构建方法、装置及设备 |
CN113610857B (zh) * | 2021-08-24 | 2024-02-06 | 济南大学 | 一种基于残差网络的苹果分级方法及系统 |
CN114332107A (zh) * | 2021-12-01 | 2022-04-12 | 石家庄铁路职业技术学院 | 一种改进隧道衬砌渗漏水图像分割方法 |
CN117218720B (zh) * | 2023-08-25 | 2024-04-16 | 中南民族大学 | 一种复合注意力机制的足迹识别方法、系统及相关装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
WO2019018063A1 (en) * | 2017-07-19 | 2019-01-24 | Microsoft Technology Licensing, Llc | FINAL GRAIN IMAGE RECOGNITION |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110188611A (zh) * | 2019-04-26 | 2019-08-30 | 华中科技大学 | 一种引入视觉注意力机制的行人重识别方法及系统 |
CN110929736A (zh) * | 2019-11-12 | 2020-03-27 | 浙江科技学院 | 多特征级联rgb-d显著性目标检测方法 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
CN111259837A (zh) * | 2020-01-20 | 2020-06-09 | 福州大学 | 一种基于部位注意力的行人重识别方法及系统 |
CN111340124A (zh) * | 2020-03-03 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像中实体类别的识别方法和装置 |
WO2020155606A1 (zh) * | 2019-02-02 | 2020-08-06 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101674568B1 (ko) * | 2010-04-12 | 2016-11-10 | 삼성디스플레이 주식회사 | 영상 변환 장치 및 이를 포함하는 입체 영상 표시 장치 |
US11361225B2 (en) * | 2018-12-18 | 2022-06-14 | Microsoft Technology Licensing, Llc | Neural network architecture for attention based efficient model adaptation |
-
2020
- 2020-12-01 CN CN202011383422.3A patent/CN112580694B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019018063A1 (en) * | 2017-07-19 | 2019-01-24 | Microsoft Technology Licensing, Llc | FINAL GRAIN IMAGE RECOGNITION |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
WO2020155606A1 (zh) * | 2019-02-02 | 2020-08-06 | 深圳市商汤科技有限公司 | 面部识别方法及装置、电子设备和存储介质 |
CN110188611A (zh) * | 2019-04-26 | 2019-08-30 | 华中科技大学 | 一种引入视觉注意力机制的行人重识别方法及系统 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110929736A (zh) * | 2019-11-12 | 2020-03-27 | 浙江科技学院 | 多特征级联rgb-d显著性目标检测方法 |
CN111104898A (zh) * | 2019-12-18 | 2020-05-05 | 武汉大学 | 基于目标语义和注意力机制的图像场景分类方法及装置 |
CN111259837A (zh) * | 2020-01-20 | 2020-06-09 | 福州大学 | 一种基于部位注意力的行人重识别方法及系统 |
CN111340124A (zh) * | 2020-03-03 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像中实体类别的识别方法和装置 |
Non-Patent Citations (5)
Title |
---|
Attention-based CNN for KL Grade Classification: Data from the Osteoarthritis Initiative;Bofei Zhang等;2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI);20200522;731-735 * |
基于双注意力机制的遥感图像目标检测;周幸;陈立福;;计算机与现代化;20200831(第08期);5-11 * |
基于多尺度和注意力融合学习的行人重识别;王粉花等;电子与信息学报;第42卷(第12期);3046-3049 * |
曾子明.信息推荐系统.武汉大学出版社,2020,104. * |
焦李成等.人工智能、类脑计算与图像解译前沿.西安电子科技大学出版社,2020,143. * |
Also Published As
Publication number | Publication date |
---|---|
CN112580694A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112580694B (zh) | 基于联合注意力机制的小样本图像目标识别方法及系统 | |
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
CN112364699B (zh) | 基于加权损失融合网络的遥感图像分割方法、装置及介质 | |
CN111612008B (zh) | 基于卷积网络的图像分割方法 | |
CN112215119B (zh) | 一种基于超分辨率重建的小目标识别方法、装置及介质 | |
CN111080513B (zh) | 一种基于注意力机制的人脸图像超分辨率方法 | |
CN111696110B (zh) | 场景分割方法及系统 | |
CN112990116B (zh) | 基于多注意力机制融合的行为识别装置、方法和存储介质 | |
CN112381097A (zh) | 一种基于深度学习的场景语义分割方法 | |
CN111882620B (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN112487217A (zh) | 跨模态检索方法、装置、设备及计算机可读存储介质 | |
CN115731441A (zh) | 基于数据跨模态迁移学习的目标检测和姿态估计方法 | |
CN116958324A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN109784155B (zh) | 基于验证和纠错机制的视觉目标跟踪方法、智能机器人 | |
CN111160351A (zh) | 基于块推荐网络的快速高分辨率图像分割方法 | |
CN113298235A (zh) | 一种多分支深度自注意力变换网络的神经网络架构及实现方法 | |
CN117975002A (zh) | 一种基于多尺度伪标签融合的弱监督图像分割方法 | |
CN114187506B (zh) | 视点意识的动态路由胶囊网络的遥感图像场景分类方法 | |
CN118279566A (zh) | 一种针对小型物体的自动驾驶目标检测系统 | |
CN114648560A (zh) | 分布式图像配准方法、系统、介质、计算机设备及终端 | |
CN116432736A (zh) | 神经网络模型优化方法、装置及计算设备 | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN116563636A (zh) | 一种合成孔径雷达图像生成方法及系统 | |
Wang et al. | An Improved Convolutional Neural Network‐Based Scene Image Recognition Method | |
CN113962332B (zh) | 基于自优化融合反馈的显著目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |