CN110598029B - 基于注意力转移机制的细粒度图像分类方法 - Google Patents
基于注意力转移机制的细粒度图像分类方法 Download PDFInfo
- Publication number
- CN110598029B CN110598029B CN201910844259.7A CN201910844259A CN110598029B CN 110598029 B CN110598029 B CN 110598029B CN 201910844259 A CN201910844259 A CN 201910844259A CN 110598029 B CN110598029 B CN 110598029B
- Authority
- CN
- China
- Prior art keywords
- layer
- network
- attention
- active layer
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biophysics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于注意力转移机制的细粒度图像分类方法,用于提高细粒度图像分类精度。实现步骤为:获取包含细粒度图像的训练样本集和测试样本集;构建全局感知网络和注意力转移网络模型;利用训练样本集对全局感知网络和注意力转移网络进行训练;用训练好的全局感知网络和注意力转移网络对测试样本集进行分类。本发明通过设计全局感知网络和注意力转移网络对图像进行联合特征提取,使网络在提取了全局特征和判别区域特征的基础上,进一步提取了不同判别区域之间的语义相关性,从而加强了网络的特征提取能力,有效提高了细粒度图像分类准确率。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种细粒度图像分类方法,具体涉及一种基于注意力转移机制的细粒度图像分类方法,可用于精细分类任务,如鸟类分类、汽车分类等。
背景技术
图像分类,是一种通过基于设计或学习的方法来提取图像自身判别特征,让智能设备能够自动识别图像主体所属的类别的处理方法。图像分类方法广泛应用在社会各个领域,如人脸识别、物种识别等。根据图像分类目标的粒度不同,图像分类方法一般可以分为两类,即通用(粗粒度)图像分类及子类(细粒度)图像分类。粗粒度图像分类方法旨在识别不同类别物体,如区分猫和狗;而细粒度图像分类方法旨在识别同一类物体的不同子类,如区分蓝猫和波斯猫,或区分阿拉斯加犬和哈士奇等。
近年来,随着深度学习的快速发展,社会智能化的不断加深以及开源图像分类数据库的不断扩增,粗粒度图像分类任务的准确率已经超越人类平均水平。因此,细粒度图像分类得到越来越多的重视。相对于粗粒度图像,细粒度图像不仅存在自身光照及姿态变化的问题,还存在图像类间距离小、类内距离大的问题。这些问题对细粒度图像分类过程中判别区域定位与特征提取造成极大的困难。因此,如何精确且自适应地定位细粒度图像判别区域,并准确地提取判别区域的特征,成为提升细粒度图像分类精度的关键。
根据不同的判别区域定位方法,细粒度图像分类方法可分为两类:基于强监督的细粒度图像分类方法和基于弱监督的细粒度图像分类方法。相对于基于强监督的细粒度图像分类方法,基于弱监督的细粒度图像分类方法只利用图像类别标签进行判别区域定位,而不使用额外的判别区域标签。基于弱监督的细粒度分类方法一般过程为:首先,对细粒度图像进行特征提取;其次,通过采用不同方法,如基于视觉注意力的方法、基于图像金字塔的方法等,利用提取到的特征对细粒度图像进行判别区域定位,并对得到的判别区域进行进一步特征提取;最后,根据提取到的图像特征进行图像分类。基于弱监督的细粒度分类具有训练效率高、判别区域自适应,以及标签成本低等优点,是当前细粒度图像分类领域的研究热点。
目前为止,基于弱监督的细粒度图像分类方法有以下几种:
例如,申请公布号为CN 110084285A,名称为“基于深度学习的鱼类细粒度分类方法”的专利申请,公开了一种基于深度学习的鱼类细粒度图像分类方法,包括将获取的图像进行预处理,使用深度神经网络进行特征提取,构建特征金字塔网络进行区域提议,对判别区域进行裁剪和特征提取,随后一方面利用提取出的特征做一次分类,将该分类的准确率作为监督信号输入到区域提议网络,另一方面将该特征与全局特征融合送入全连接层做分类,输出最终的分类结果。该发明通过设计特征金字塔来进行判别区域定位,解决了细粒度图像分类任务中由于较大的类内差异和较小的类间差异造成的准确率较低的问题。然而,该方法仅在14*14、7*7和4*4三个尺度上构建特征金字塔,迫使细粒度图像的判别区域只能在该尺度上产生,而无法准确定位判别区域,导致分类准确率仍然较低。
又如,Zheng Heliang等人于2017年在《IEEE International Conference onComputer Vision》上发表了一篇题为“Learning Multi-Attention ConvolutionalNeural Network for Fine-Grained Image Recognition”的文章,公开了一种多注意力机制的细粒度图像分类方法,该方法通过构建多个深度卷积网络来对细粒度图像进行特征提取,然后采用多注意机制和优化损失函数的方法对图像判别区域进行定位,最后将全局特征和多个判别区域特征级联后输入分类器进行分类,得到分类结果。该方法解决了细粒度图像分类任务中判别区域定位不精确的问题,但由于该方法没有考虑不同判别区域之间的语义相关性,降低了网络的特征提取能力,导致分类准确率仍然较低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于注意力转移机制的细粒度图像分类方法,用于解决现有技术中存在的细粒度图像分类准确率较低的技术问题。
本发明的技术思路是:首先,通过全局感知网络GNet提取图像全局特征及基于全局特征定位全局判别区域;然后,通过注意力转移网络ANet定位注意力判别区域,并提取不同注意力判别区域之间的相关性特征;最后,采用决策级融合对GNet和ANet的输出结果进行融合,得到最终的细粒度分类结果。具体步骤如下:
(1)获取训练样本集和测试样本集:
(1a)选取包含C类细粒度类别且每个类别的幅数为H的自然图像,并对所有自然图像进行尺寸归一化,归一化后的自然图像的像素大小为h×w,C≥2,H≥20,h≥2,w≥2;
(1b)对随机选取的50%以上的每类归一化后的自然图像进行标记,并将标记过的每类归一化后的自然图像及其标签组成训练样本集,将剩余每类归一化后的自然图像组成测试样本集;
(2)构建全局感知网络GNet模型:
(2a)构建全局感知网络GNet结构:
构建包括M个并行排列的全局特征提取网络GNet1及与M个GNet1相连的全局特征融合网络GNet2的全局感知网络结构,其中:
全局特征融合网络GNet2包括输入层、多个卷积层、多个池化层、多个激活层、级联层、多个全连接层和一个Softmax层,用于生成全局特征向量fglb和全局融合概率yGNet2;
(2b)定义全局感知网络GNet的损失函数:
其中,表示交叉熵损失函数,是经过独热编码后的训练图像真实类别标签,c是图像类别标号索引,是中第c个类别的概率值,是全局预测概率中第c个类别的概率值,且c∈[1,C],α为在中所占的权重;表示分离损失函数,j是全局特征图标号索引,且j∈[1,M],(x,y)是的像素坐标,mrg是阈值,β为在中所占的权重;是距离损失函数,(txm,tym)是中像素最大值的位置坐标,γ为在中所占的权重;yGNet2_c是yGNet2中第c个类别的概率值;
(3)构建注意力转移网络ANet模型:
(3a)构建注意力转移网络ANet结构:
构建包括N个并行排列的注意力提取网络ANet1及与N个ANet1相连的注意力解码网络ANet2的注意力转移网络结构,其中:
注意力提取网络ANet1包括输入层、多个卷积层、多个池化层、多个激活层、自动编码层和循环神经网络、多个全连接层和一个Softmax层,用于生成N个注意力特征图和注意力预测概率其中n为注意力特征图标号索引,且n∈[1,N];
注意力解码网络ANet2包括输入层、多个卷积层、多个池化层、多个激活层、循环神经网络、全连接层和Softmax层,用于生成注意力解码概率yANet2;
(3b)定义注意力转移网络ANet的损失函数:
(4)对全局感知网络GNet模型进行训练:
(4a)初始化M个全局特征提取网络GNet1的参数及与M个GNet1相连的全局特征融合网络GNet2的参数,并设置训练最大迭代次数TG,当前迭代次数tG=1;
(4c)判断tG≤TG/2是否成立,若是,则得到训练好的GNet1,并执行步骤(4d);否则,利用反向传播方法并根据计算每个GNet1的网络参数梯度,并利用网络参数梯度对GNet1的网络参数进行更新后,令tG=tG+1,执行步骤(4b);
(4d)计算每个全局特征图对应的全局判别区域并将M个作为全局特征融合网络GNet2的输入,进行前向传播,得到全局特征向量fglb和全局融合概率yGNet2,并根据yGNet2计算损失函数LGNet2;
(4e)判断tG≤TG是否成立,若是,得到训练好的GNet2;否则,采用反向传播方法并通过LGNet2计算GNet2的网络参数梯度,再利用该网络参数梯度对GNet2的网络参数进行更新后,令tG=tG+1,执行步骤(4b);
(5)对注意力转移网络ANet进行训练:
(5a)初始化N个注意力提取网络ANet1的参数及与N个ANet1相连的注意力解码网络ANet2的参数,并设置训练最大迭代次数TA,当前迭代次数tA=1;
(5c)判断tA≤TA/2是否成立,若是,则得到训练好的ANet1,并执行步骤(5d);否则,利用反向传播方法并根据计算N个ANet1的网络参数梯度,并利用网络参数梯度对ANet1网络参数进行更新后,令tA=tA+1,执行步骤(5b);
(5e)判断tA≤TA是否成立,若是,得到训练好的ANet2;否则,采用反向传播方法并通过LANet2计算ANet2的网络参数梯度,再利用该网络参数梯度ANet2的网络参数进行更新后,令tA=tA+1,执行步骤(5b);
(6)获取图像分类结果:
(6a)将测试样本集分别作为每个训练好的全局特征提取网络GNet1和每个训练好的注意力提取网络ANet1的输入,进行前向传播,分别得到M个全局特征图和N个注意力特征图并计算每个对应的全局判别区域及每个对应的注意力判别区域
(6d)采用最大化投票方法对yGNet2和yANet2进行决策级融合,得到最终预测概率p:
p=max(yGNet2,yANet2);
(6i)计算概率p中最大值对应的下标索引idx,并通过查找索引表,得到idx对应的细粒度图像分类类别。
本发明与现有技术相比,具有以下优点:
本发明通过设计全局感知网络GNet和注意力转移网络ANet对图像进行联合特征提取,在GNet提取图像全局特征和判别区域特征的基础上,进一步通过ANet提取不同判别区域之间的语义相关性,从而加强了网络的特征提取能力,与现有技术相比,有效提高了细粒度分类准确率。
附图说明
图1为本发明的实现流程图。
图2为本发明的全局感知网络结构图。
图3为本发明的注意力转移网络结构图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步详细说明。
参照图1,一种基于注意力转移机制的细粒度图像分类方法,包括如下步骤:
步骤1)获取训练样本集和测试样本集:
步骤1a)本实施例采用加利福尼亚鸟类数据库CUB-200-2011,包括200种鸟类的11788幅自然图像,如黑脚信天翁,黄嘴杜鹃,白鹭麻雀等;
步骤1b)对数据库中所有鸟类自然图像进行数据增强,包括对所有鸟类自然图像进行[-10,+10]随机旋转后,再将图像进行随机水平翻转;
步骤1c)对增强后的鸟类自然图像进行尺寸归一化,归一化后的鸟类自然图像像素为448×448;
步骤1d)选取所有尺寸归一化后的鸟类自然图像中5994张图像进行类别标注,然后将标注过的尺寸归一化的鸟类自然图像及其标签作为训练样本集,剩余5794张尺寸归一化后的鸟类自然图像作为测试样本集。
步骤2)构建如图2所示的全局感知网络GNet模型:
步骤2a)设置全局特征提取网络GNet1的数量为M=4;
步骤2b)构建由依次层叠的第一卷积层→第一激活层→第二卷积层→第二激活层→第一池化层→第三卷积层→第三激活层→第四卷积层→第四激活层→第二池化层→第五卷积层→第五激活层→第六卷积层→第六激活层→第七卷积层→第七激活层→第三池化层→第八卷积层→第八激活层→第九卷积层→第九激活层→第十卷积层→第十激活层→第四池化层→第十一卷积层→第十一激活层→第十二卷积层→第十二激活层→第十三卷积层→第十三激活层→第五池化层组成的VGG16特征提取网络;
其中,池化层选取最大池化方式,激活层选取ReLU激活函数f(x),具体为:
f(x)=max(0,x)
其中x为卷积层输出;
卷积层参数设置:
第一卷积层卷积核大小设置为3,卷积核数量设置为64;
第二卷积层卷积核大小设置为3,卷积核数量设置为64;
第三卷积层卷积核大小设置为3,卷积核数量设置为128;
第四卷积层卷积核大小设置为3,卷积核数量设置为128;
第五卷积层卷积核大小设置为3,卷积核数量设置为256;
第六卷积层卷积核大小设置为3,卷积核数量设置为256;
第七卷积层卷积核大小设置为3,卷积核数量设置为256;
第八卷积层卷积核大小设置为3,卷积核数量设置为512;
第九卷积层卷积核大小设置为3,卷积核数量设置为512;
第十卷积层卷积核大小设置为3,卷积核数量设置为512;
第十一卷积层卷积核大小设置为3,卷积核数量设置为512;
第十二卷积层卷积核大小设置为3,卷积核数量设置为512;
第十三卷积层卷积核大小设置为3,卷积核数量设置为512;
步骤2c)构建由依次层叠的第一全连接层,第十四激活层,第二全连接层,第十五激活层,第三全连接层,第十六激活层组成的自动编码层;
其中第十四激活层和第十五激活层选取ReLU激活函数f(x),第十六激活层选取Sigmoid激活函数s(x):
其中z为第三全连接层输出的特征向量;
全连接层参数设置:
第一全连接层长度设置为512;
第二全连接层长度设置为64;
第三全连接层长度设置为512;
步骤2d)构建M个全局特征提取网络GNet1,其中每个GNet1由依次层叠的VGG16特征提取网络、全局池化层、自动编码层和Softmax层组成;
步骤2e)构建由依次层叠的VGG16特征提取网络、级联层和Softmax层组成的全局特征融合网络GNet2;
步骤3)构建注意力转移网络ANet模型:
步骤3a)设置注意力提取网络ANet1的数量为N=4;
步骤3b)构建由依次层叠的全连接层、ReLU激活层组成的H层,其中全连接层长度设置为512;
步骤3c)构建由依次层叠的全连接层、ReLU激活层组成的C层,其中全连接层长度设置为512;
步骤3d)构建由LSTM组成的循环神经网络,LSTM中隐层长度设置为512;
步骤3e)构建N个注意力提取网络ANet1,其中每个ANet1由依次层叠的VGG16特征提取网络、全局池化层、H层、C层、自动编码层、循环神经网络和Softmax层组成;
步骤3f)构建由依次层叠的VGG16特征提取网络、循环神经网络和Softmax层组成的注意力解码网络ANet2;
步骤4)训练全局感知网络GNet:
步骤4a)采用在ImageNet数据库上预训练好的VGG16特征提取网络参数初始化M个全局特征提取网络GNet1,及与M个GNet1相连的全局特征融合网络GNet2中的VGG16特征提取网络,其余层进行随机参数初始化;
步骤4b)设置训练最大迭代次数TG=2000,当前迭代次数tG=1;
步骤4d)判断tG≤1000是否成立,若是,则得到训练好的GNet1,并执行步骤(4e);否则,利用反向传播方法并根据计算4个GNet1的网络参数梯度,并利用Adam优化方法对每个ANet1网络参数进行更新后,令tG=tG+1,执行步骤(4c);其中Adam优化器动量参数设置为[0.9,0.999],权值衰减系数为0.001;
步骤4g)判断tG≤2000是否成立,若是,得到训练好的GNet2;否则,采用反向传播方法并通过LGNet2计算GNet2的网络参数梯度,再利用该网络参数梯度对GNet2的网络参数进行更新后,令tG=tG+1,执行步骤(4b);
步骤5)训练注意力转移网络ANet:
步骤5a)采用在ImageNet数据库上预训练好的VGG16特征提取网络参数初始化N个注意力提取网络ANet1,及与N个ANet1相连的注意力解码网络ANet2中的VGG16特征提取网络,其余层进行随机参数初始化;
步骤5b)设置训练最大迭代次数TA=2000,当前迭代次数tA=1;
步骤5d)判断tA≤1000是否成立,若是,则得到训练好的ANet1,并执行步骤(5e);否则,利用反向传播方法并根据计算4个ANet1的网络参数梯度,并利用Adam优化方法对每个ANet1网络参数进行更新后,令tA=tA+1,执行步骤(5c);其中Adam优化器动量参数设置为[0.9,0.999],权值衰减系数为0.001;
步骤5f)将作为注意力解码网络ANet2的输入,通过VGG16特征提取网络后依次作为循环神经网络的输入,并将fglb通过贝叶斯迭代路径输入ANet2中的循环神经网络,进行前向传播,得到注意力解码概率yANet2,并根据yANet2计算损失函数LANet2;
步骤5g)判断tA≤2000是否成立,若是,得到训练好的ANet2;否则,采用反向传播方法并通过LANet2计算ANet2的网络参数梯度,再利用该网络参数梯度对ANet2的网络参数进行更新后,令tA=tA+1,执行步骤(5b);
步骤6)通过训练好的GNet与ANet对测试样本集进行分类:
步骤6a)将测试样本集输入训练好的全局感知网络GNet和注意力转移网络ANet中,对每幅自然图像包含的目标进行分类,得到GNet和ANet对细粒度图像目标的分类结果yGNet2和yANet2;
步骤6b)采用最大化投票方法对yGNet2和yANet2进行决策级融合,得到最终预测概率p:
p=max(yGNet2,yANet2)
并计算概率p中最大值对应的下标索引,并通过查找索引表,得到每幅测试样本集中的图像对应的细粒度图像分类类别,并统计测试样本集中鸟类图像的分类正确率Accuracy,
以下结合仿真实验,对本发明的技术效果作进一步说明:
1.仿真条件和内容:
本仿真实验采用4块Nvidia Titan X GPU在PyTorch深度学习平台进行网络训练与测试,对本发明和现有的“Learning Multi-Attention Convolutional Neural Networkfor Fine-Grained Image Recognition”(MA-CNN)方法的分类精度进行对比仿真,其结果如表1所示。
表1卷积神经网络方法与本发明分类正确率对比
网络结构 | MA-CNN | 本发明 |
分类准确率 | 86.5% | 91.2% |
2.仿真结果分析:
由表1可以看出,本发明方法的分类准确率较MA-CNN提高了4.7%,说明本方法中采用的注意力转移机制有效的提高了细粒度图像的分类精度。
Claims (6)
1.一种基于注意力转移机制的细粒度图像分类方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
(1a)选取包含C类细粒度类别且每个类别的幅数为H的自然图像,并对所有自然图像进行尺寸归一化,归一化后的自然图像的像素大小为h×w,C≥2,H≥20,h≥2,w≥2;
(1b)对随机选取的50%以上的每类归一化后的自然图像进行标记,并将标记过的每类归一化后的自然图像及其标签组成训练样本集,将剩余每类归一化后的自然图像组成测试样本集;
(2)构建全局感知网络GNet模型:
(2a)构建全局感知网络GNet结构:
构建包括M个并行排列的全局特征提取网络GNet1及与M个GNet1相连的全局特征融合网络GNet2的全局感知网络结构,其中:
全局特征提取网络GNet1包括输入层、多个卷积层、多个池化层、多个激活层、多个全连接层、自动编码层和Softmax层,用于生成M个全局预测概率和M个全局特征图其中m为全局特征图标号索引,且m∈[1,M];
全局特征融合网络GNet2包括输入层、多个卷积层、多个池化层、多个激活层、级联层、多个全连接层和一个Softmax层,用于生成全局特征向量fglb和全局融合概率yGNet2;
(2b)定义全局感知网络GNet的损失函数:
其中,表示交叉熵损失函数, 是经过独热编码后的训练图像真实类别标签,c是图像类别标号索引,是中第c个类别的概率值,是全局预测概率中第c个类别的概率值,且c∈[1,C],α为在中所占的权重;表示分离损失函数,j是全局特征图标号索引,且j∈[1,M],(x,y)是的像素坐标,mrg是阈值,β为在中所占的权重;是距离损失函数,(txm,tym)是中像素最大值的位置坐标,γ为在中所占的权重;是yGNet2中第c个类别的概率值;
(3)构建注意力转移网络ANet模型:
(3a)构建注意力转移网络ANet结构:
构建包括N个并行排列的注意力提取网络ANet1及与N个ANet1相连的注意力解码网络ANet2的注意力转移网络结构,其中:
注意力提取网络ANet1包括输入层、多个卷积层、多个池化层、多个激活层、自动编码层和循环神经网络、多个全连接层和一个Softmax层,用于生成N个注意力特征图和注意力预测概率其中n为注意力特征图标号索引,且n∈[1,N];
注意力解码网络ANet2包括输入层、多个卷积层、多个池化层、多个激活层、循环神经网络、全连接层和Softmax层,用于生成注意力解码概率yANet2;
(3b)定义注意力转移网络ANet的损失函数:
(4)对全局感知网络GNet模型进行训练:
(4a)初始化M个全局特征提取网络GNet1的参数及与M个GNet1相连的全局特征融合网络GNet2的参数,并设置训练最大迭代次数TG,当前迭代次数tG=1;
(4c)判断tG≥TG/2是否成立,若是,则得到训练好的GNet1,并执行步骤(4d);否则,利用反向传播方法并根据计算每个GNet1的网络参数梯度,并利用网络参数梯度对GNet1的网络参数进行更新后,令tG=tG+1,执行步骤(4b);
(4d)计算每个全局特征图对应的全局判别区域并将M个作为全局特征融合网络GNet2的输入,进行前向传播,得到全局特征向量fglb和全局融合概率yGNet2,并根据yGNet2计算损失函数LGNet2;
(4e)判断tG≥TG是否成立,若是,得到训练好的GNet2;否则,采用反向传播方法并通过LGNet2计算GNet2的网络参数梯度,再利用该网络参数梯度对GNet2的网络参数进行更新后,令tG=tG+1,执行步骤(4b);
(5)对注意力转移网络ANet进行训练:
(5a)初始化N个注意力提取网络ANet1的参数及与N个ANet1相连的注意力解码网络ANet2的参数,并设置训练最大迭代次数TA,当前迭代次数tA=1;
(5c)判断tA≥TA/2是否成立,若是,则得到训练好的ANet1,并执行步骤(5d);否则,利用反向传播方法并根据计算N个ANet1的网络参数梯度,并利用网络参数梯度对ANet1网络参数进行更新后,令tA=tA+1,执行步骤(5b);
(5e)判断tA≥TA是否成立,若是,得到训练好的ANet2;否则,采用反向传播方法并通过LANet2计算ANet2的网络参数梯度,再利用该网络参数梯度ANet2的网络参数进行更新后,令tA=tA+1,执行步骤(5b);
(6)获取图像分类结果:
(6a)将测试样本集分别作为每个训练好的全局特征提取网络GNet1和每个训练好的注意力提取网络ANet1的输入,进行前向传播,分别得到M个全局特征图和N个注意力特征图并计算每个对应的全局判别区域及每个对应的注意力判别区域
(6d)采用最大化投票方法对yGNet2和yANet2进行决策级融合,得到最终预测概率p:
p=max(yGNet2,yANet2);
(6i)计算概率p中最大值对应的下标索引idx,并通过查找索引表,得到idx对应的细粒度图像分类类别。
2.根据权利要求1中所述的基于注意力转移机制的细粒度图像分类方法,其特征在于,步骤(2a)中所述的全局特征提取网络GNet1和全局特征融合网络GNet2,其中:
全局特征提取网络GNet1,包括十三个卷积层、五个池化层、十三个激活层、三个全连接层和一个自动编码层,具体结构为:
输入层→第一卷积层→第一激活层→第二卷积层→第二激活层→第一池化层→第三卷积层→第三激活层→第四卷积层→第四激活层→第二池化层→第五卷积层→第五激活层→第六卷积层→第六激活层→第七卷积层→第七激活层→第三池化层→第八卷积层→第八激活层→第九卷积层→第九激活层→第十卷积层→第十激活层→第四池化层→第十一卷积层→第十一激活层→第十二卷积层→第十二激活层→第十三卷积层→第十三激活层→第五池化层→自动编码层→第一全连接层→第二全连接层→第三全连接层→Softmax层;
其中,池化层选取最大池化方式,激活层选取ReLU激活函数f(x):
f(x)=max(0,x)
其中x为卷积层输出;
全局特征融合网络GNet2包括十三个卷积层、五个池化层,十三个激活层、一个级联层和三个全连接层,具体结构为:
输入层→第一卷积层→第一激活层→第二卷积层→第二激活层→第一池化层→第三卷积层→第三激活层→第四卷积层→第四激活层→第二池化层→第五卷积层→第五激活层→第六卷积层→第六激活层→第七卷积层→第七激活层→第三池化层→第八卷积层→第八激活层→第九卷积层→第九激活层→第十卷积层→第十激活层→第四池化层→第十一卷积层→第十一激活层→第十二卷积层→第十二激活层→第十三卷积层→第十三激活层→第五池化层→级联层→第一全连接层→第二全连接层→第三全连接层→Softmax层;
其中,激活层选取ReLU激活函数f(x),池化层选取最大池化方式。
3.根据权利要求1中所述的基于注意力转移机制的细粒度图像分类方法,其特征在于,步骤(3a)中所述的注意力提取网络ANet1和注意力解码网络ANet2,其中:
注意力提取网络ANet1包括十三个卷积层、五个池化层、十三个激活层、一个自动编码层、一个循环神经网络和三个全连接层,具体结构为:
主网络结构:输入层→第一卷积层→第一激活层→第二卷积层→第二激活层→第一池化层→第三卷积层→第三激活层→第四卷积层→第四激活层→第二池化层→第五卷积层→第五激活层→第六卷积层→第六激活层→第七卷积层→第七激活层→第三池化层→第八卷积层→第八激活层→第九卷积层→第九激活层→第十卷积层→第十激活层→第四池化层→第十一卷积层→第十一激活层→第十二卷积层→第十二激活层→第十三卷积层→第十三激活层→第五池化层→第一全连接层→自动编码层→循环神经网络→第二全连接层→Softmax层;
分支网络结构:第五池化层→第三全连接层→循环神经网络;
其中,激活层选取ReLU激活函数f(x),f(x)=max(0,x),x为卷积层输出,池化层选取最大池化方式,循环神经网络选取单层LSTM网络;
注意力解码网络ANet2包括十三个卷积层、五个池化层、十三个激活层、一个循环神经网络和全连接层,具体结构为:
输入层→第一卷积层→第一激活层→第二卷积层→第二激活层→第一池化层→第三卷积层→第三激活层→第四卷积层→第四激活层→第二池化层→第五卷积层→第五激活层→第六卷积层→第六激活层→第七卷积层→第七激活层→第三池化层→第八卷积层→第八激活层→第九卷积层→第九激活层→第十卷积层→第十激活层→第四池化层→第十一卷积层→第十一激活层→第十二卷积层→第十二激活层→第十三卷积层→第十三激活层→第五池化层→循环神经网络→第一全连接层→Softmax层;
其中,激活层选取ReLU激活函数f(x),池化层选取最大池化方式,循环神经网络选取多层LSTM网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910844259.7A CN110598029B (zh) | 2019-09-06 | 2019-09-06 | 基于注意力转移机制的细粒度图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910844259.7A CN110598029B (zh) | 2019-09-06 | 2019-09-06 | 基于注意力转移机制的细粒度图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598029A CN110598029A (zh) | 2019-12-20 |
CN110598029B true CN110598029B (zh) | 2022-03-22 |
Family
ID=68858185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910844259.7A Active CN110598029B (zh) | 2019-09-06 | 2019-09-06 | 基于注意力转移机制的细粒度图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598029B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144490B (zh) * | 2019-12-26 | 2022-09-06 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN111178432B (zh) * | 2019-12-30 | 2023-06-06 | 武汉科技大学 | 多分支神经网络模型的弱监督细粒度图像分类方法 |
CN111199233B (zh) * | 2019-12-30 | 2020-11-20 | 四川大学 | 一种改进的深度学习色情图像识别方法 |
CN111382676B (zh) * | 2020-02-25 | 2023-12-22 | 南京大学 | 一种基于注意力机制的沙粒图像分类方法 |
CN111340138B (zh) * | 2020-03-27 | 2023-12-29 | 北京邮电大学 | 图像分类方法、装置、电子设备及存储介质 |
CN111753707B (zh) * | 2020-06-19 | 2021-06-29 | 上海交通大学 | 颗粒状农作物不完善粒检测方法及系统 |
CN112052758B (zh) * | 2020-08-25 | 2023-05-23 | 西安电子科技大学 | 基于注意力机制和循环神经网络的高光谱图像分类方法 |
CN112163465B (zh) * | 2020-09-11 | 2022-04-22 | 华南理工大学 | 细粒度图像分类方法、系统、计算机设备及存储介质 |
CN112163601B (zh) * | 2020-09-14 | 2023-09-26 | 华南理工大学 | 图像分类方法、系统、计算机设备及存储介质 |
CN112784869B (zh) * | 2020-11-13 | 2022-08-12 | 北京航空航天大学 | 一种基于注意力感知与对抗学习的细粒度图像识别方法 |
CN112465880B (zh) * | 2020-11-26 | 2023-03-10 | 西安电子科技大学 | 基于多源异构数据认知融合的目标检测方法 |
CN112529878B (zh) * | 2020-12-15 | 2024-04-02 | 西安交通大学 | 一种基于多视图半监督的淋巴结的分类方法、系统及设备 |
CN112686242B (zh) * | 2020-12-29 | 2023-04-18 | 昆明理工大学 | 一种基于多层聚焦注意力网络的细粒度图像分类方法 |
CN112906701B (zh) * | 2021-02-08 | 2023-07-14 | 重庆兆光科技股份有限公司 | 一种基于多注意力神经网络的细粒度图像识别方法及系统 |
CN113052259A (zh) * | 2021-04-14 | 2021-06-29 | 西南交通大学 | 一种基于联合投票网络的交通场景天气分类方法 |
CN113378883B (zh) * | 2021-05-12 | 2024-01-23 | 山东科技大学 | 一种基于通道分组注意力模型的细粒度车辆分类方法 |
CN113192633B (zh) * | 2021-05-24 | 2022-05-31 | 山西大学 | 基于注意力机制的胃癌细粒度分类方法 |
CN113486981B (zh) * | 2021-07-30 | 2023-02-07 | 西安电子科技大学 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
CN114140700A (zh) * | 2021-12-01 | 2022-03-04 | 西安电子科技大学 | 基于级联网络的分步异源图像模板匹配方法 |
CN114418030B (zh) * | 2022-01-27 | 2024-04-23 | 腾讯科技(深圳)有限公司 | 图像分类方法、图像分类模型的训练方法及装置 |
CN114332544B (zh) * | 2022-03-14 | 2022-06-07 | 之江实验室 | 一种基于图像块评分的细粒度图像分类方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875827A (zh) * | 2018-06-15 | 2018-11-23 | 广州深域信息科技有限公司 | 一种细粒度图像分类的方法及系统 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109902693A (zh) * | 2019-02-16 | 2019-06-18 | 太原理工大学 | 一种基于多注意力空间金字塔特征图像识别方法 |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
-
2019
- 2019-09-06 CN CN201910844259.7A patent/CN110598029B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN108875827A (zh) * | 2018-06-15 | 2018-11-23 | 广州深域信息科技有限公司 | 一种细粒度图像分类的方法及系统 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109902693A (zh) * | 2019-02-16 | 2019-06-18 | 太原理工大学 | 一种基于多注意力空间金字塔特征图像识别方法 |
Non-Patent Citations (2)
Title |
---|
object-part attention model for fine-grained image classification;yuxin peng et al.;《IEEE》;20171231;全文 * |
基于多通道视觉注意力的细粒度图像分类;王培森 等;《数据采集与处理》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110598029A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598029B (zh) | 基于注意力转移机制的细粒度图像分类方法 | |
CN109919108B (zh) | 基于深度哈希辅助网络的遥感图像快速目标检测方法 | |
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
CN106909924A (zh) | 一种基于深度显著性的遥感影像快速检索方法 | |
Chen et al. | Research on recognition of fly species based on improved RetinaNet and CBAM | |
CN110619352A (zh) | 基于深度卷积神经网络的典型红外目标分类方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
Guo et al. | Network pruning for remote sensing images classification based on interpretable CNNs | |
CN111125406A (zh) | 一种基于自适应聚类学习的视觉关系检测方法 | |
CN111968124B (zh) | 基于半监督语义分割的肩部肌骨超声结构分割方法 | |
Guo et al. | Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds | |
He et al. | SAR target recognition and unsupervised detection based on convolutional neural network | |
CN112883931A (zh) | 基于长短期记忆网络的实时真假运动判断方法 | |
CN115292532A (zh) | 基于伪标签一致性学习的遥感图像域适应检索方法 | |
CN112084860A (zh) | 目标对象检测、火力发电厂检测方法和装置 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN114529552A (zh) | 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法 | |
CN112270285B (zh) | 一种基于稀疏表示和胶囊网络的sar图像变化检测方法 | |
CN108960005A (zh) | 一种智能视觉物联网中对象视觉标签的建立及显示方法、系统 | |
CN115393634B (zh) | 一种基于迁移学习策略的少样本目标实时检测方法 | |
CN114842238B (zh) | 一种嵌入式乳腺超声影像的识别方法 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
CN115564988A (zh) | 基于标签平滑的遥感图像场景分类和语义分割任务的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |