CN113486981A - 基于多尺度特征注意力融合网络的rgb图像分类方法 - Google Patents
基于多尺度特征注意力融合网络的rgb图像分类方法 Download PDFInfo
- Publication number
- CN113486981A CN113486981A CN202110869707.6A CN202110869707A CN113486981A CN 113486981 A CN113486981 A CN 113486981A CN 202110869707 A CN202110869707 A CN 202110869707A CN 113486981 A CN113486981 A CN 113486981A
- Authority
- CN
- China
- Prior art keywords
- layer
- feature
- convolution
- attention
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于多尺度特征注意力融合的RGB图像分类方法,实现步骤为:(1)获取训练样本集R1和测试样本集E1;(2)构建基于多尺度特征注意力融合网络的图像分类模型T;(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练;(4)获取RGB图像的分类结果。本发明所构建的多尺度特征注意力融合网络可以对输入特征图进行全局特征和局部特征的提取,然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合,有效解决了深度学习中特征提取不充分的问题,有效提升了RGB图像分类的精度。
Description
技术领域
本发明属于图像处理技术领域,涉及一种RGB图像分类方法,具体涉及一种基于多尺度特征注意力融合网络的RGB图像分类方法,可用于目标识别、目标检测等领域。
背景技术
图像分类是计算机视觉领域的一个基本问题,任务是根据不同类别的目标各自在图像信息中所反映特征的不同,区分不同类别的图像。目前,图像分类有基于距离度量的方法、基于纹理特征的方法和基于机器学习的方法等。近年来,随着机器学习的迅速发展,RGB图像分类领域也取得了重大进展,目前已经可以在一些现实中的图像分类问题上获得较好的分类精度,图像分类技术被广泛用于目标识别、目标检测等领域。
深度学习中卷积神经网络应用的范围最广,被广泛用于图像分类中的特征提取。不同层级的卷积网络能提取到不同的图像语义特征,浅层网络获取到的图像特征大都是颜色、纹理等低级语义特征,低级特征种类丰富但辨识度不高,不适用于图像分类任务;而深层网络提取到主要是轮廓、形状等高级语义特征,高级语义特征具有较高的辨识度和代表性,但仅仅依赖高级语义特征来执行图像分类任务,又存在特征单一、缺乏多样性的问题,为了减少此类问题对图像分类精度的影响,出现了许多基于卷积神经网络的图像分类方法,例如,申请公布号为CN108985317A,名称为“一种基于可分离卷积和注意力机制的图像分类方法”的专利申请,公开了一种基于可分离卷积和注意力机制的图像分类方法。该方法首先构建原始深度卷积神经网络,然后利用训练数据集训练该网络得到训练后的深度卷积神经网络,再将验证数据集输入到上述训练的深度卷积神经网络,得到分类概率向量,选取最大值对应的分类作为数据预处理的测试结果,最后将测试结果与所述验证数据集的类别标签进行对比,得到最终分类的准确度。该方法将注意力机制与卷积神经网络相结合,提取图像的多尺度特征信息并进行融合,实现了图像分类过程中特征提取的多样性,但由于该方法只是对图像的全局特征进行提取,仍存在局部特征缺乏、特征信息不足的问题,导致RGB图像分类的精度依然较低。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于多尺度特征注意力融合网络的RGB图像分类方法,用于解决现有技术中存在的分类精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集R1和测试样本集E1:
(1a)获取包含S个目标类别的K幅RGB图像,每个目标类别对应N幅RGB图像,其中,S≥2,K≥200,N≥100;
(1b)随机选取每个目标类别对应RGB图像中的半数以上组成数据集R0,并对R0中每幅RGB图像的目标进行标记后,对经过标记的每幅RGB图像进行预处理,再将所有经过预处理的RGB图像组成训练样本集R1,同时将除R0以外的其他RGB图像组成测试样本集E1;
(2)构建基于多尺度特征注意力融合网络的图像分类模型T:
构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T;
多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层,该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A1和局部注意力特征提取模块A2组成的双支路注意力特征提取模块A,特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层;
全局注意力特征提取模块A1包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层;
局部注意力特征提取模块A2包括多个第四卷积层、第五卷积层和第二归一化层;
输出层包括依次层叠的最大池化层和全连接层;
(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I≥200,第i次迭代的图像分类模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;
(3b)将从训练样本集R1中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型Ti的输入,第一卷积层对每个训练样本进行卷积,得到第一特征图集合F={f1,f2,...,fm,...,fM},其中,fm表示第m个训练样本卷积后的第一特征图;
(3c)多尺度特征注意力融合网络对每个第一特征图fm进行融合操作,实现步骤为:
(3c1)第二卷积层对第m个第一特征图fm进行卷积,得到第二特征图集合F1={f1 1,f2 1,...,fm 1,...,fM 1},其中,fm 1表示fm的卷积结果;
(3c2)特征加法层求取每个第一特征图fm与其对应的第二卷积层的卷积结果fm 1的和,得到特征加法层的输出结果F2={f1 2,f2 2,...,fm 2,...,fM 2},其中,fm 2=fm+fm 1;
(3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,同时局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,得到A的输出结果F3={f1 3,f2 3,...,fm 3,...,fM 3},其中,fm 3=f1m+f2m,f1m、f2m分别表示fm 2的全局特征、局部特征;
(3c4)sigmoid激活层对A的每个输出结果fm 3进行激活,得到与fm 3相对应的权重矩阵Gm,特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,得到权重融合特征F*={f1 *,f2 *,...,fm *,...,fM *},其中,fm *表示对fm和fm 1进行权重融合后得到的特征;
(3d)输出层中的最大池化层对每个fm *进行最大池化,全连接层对fm *的最大池化结果进行分类,得到M个训练样本的预测标签y={y1,y2,...,ym,...,yM},其中,ym表示第m个训练样本对应的预测标签;
(3e)采用交叉熵损失函数,并通过每个预测标签ym及其对应的真实标签ym *计算Ti的损失值Li,然后求取Li对权值参数ωi的偏导再采用梯度下降法,通过将在Ti中进行反向传播的方式对权值参数ωi进行更新;
(3f)判断i≥I是否成立,若是,得到训练好的图像分类模型T*,否则,令i=i+1,并执行步骤(3b);
(4)获取RGB图像的分类结果:
将测试样本集E1作为训练好的图像分类模型T*的输入进行前向传播,得到分类结果。
本发明与现有技术相比,具有如下优点:
本发明所构建的多尺度特征注意力融合网络包括有全局注意力特征提取模块和局部注意力特征提取模块,在对图像分类模型进行迭代训练,以及获取RGB图像分类结果的过程中,全局注意力特征提取模块可以对特征加法层得到的特征图进行全局特征的提取,同时,局部注意力特征提取模块可以对特征加法层得到的特征图进行局部特征的提取,然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合,避免了现有技术在特征提取时只进行全局特征提取而导致的局部特征缺失、特征信息不足的缺陷,有效提高了图像分类的精度。
附图说明
图1为本发明的实现流程图;
图2为本发明构建的多尺度特征注意力融合网络模型的结构示意图;
图3为本发明构建的多尺度特征注意力融合网络的结构示意图;
图4为本发明构建的双支路注意力特征提取模块的结构示意图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集R1和测试样本集E1:
步骤1a)从Cifar10图像分类数据集中获取包含S个目标类别的K幅RGB图像,每个目标类别对应N幅RGB图像,其中,S≥2,K≥200,N≥100;其中,本实施例中S=10,K=60000。
步骤1b)随机选取每个目标类别对应RGB图像中的80%以上组成数据集R0,并对R0中每幅RGB图像的目标进行标记后,对经过标记的每幅RGB图像进行预处理,再将所有经过预处理的RGB图像组成训练样本集R1,同时将除R0以外的其他RGB图像组成测试样本集E1;
对经过标记的每幅RGB图像进行预处理,实现步骤为:对经过标记的每幅RGB图像围绕其竖直方向的中心轴进行水平翻转,并对经过水平翻转的RGB图像的亮度、对比度和饱和度随机进行调整,实现对每幅RGB图像的预处理,该操作可以实现图像分类模型在特征提取过程中能够提取到更多的有用信息。
步骤2)构建基于多尺度特征注意力融合网络的图像分类模型T:
构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T,其结构如图2所示;
多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层,该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A1和局部注意力特征提取模块A2组成的双支路注意力特征提取模块A,特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层,其网络结构如图3所示;
双支路注意力特征提取模块A中的全局注意力特征提取模块A1包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层,局部注意力特征提取模块A2包括多个第四卷积层、第五卷积层和第二归一化层,本实施例中,第三卷积层、第四卷积层和第一归一化层的数量均为2个,其结构如图4所示;
输出层包括依次层叠的最大池化层和全连接层;
基于多尺度特征注意力融合网络的图像分类模型T所包含的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层的参数设置为:
第一卷积层和第二卷积层的卷积核大小分别为5和3,卷积核的个数均为256,卷积步长均为1;第三卷积层的卷积核大小为1,卷积步长为1,卷积核的个数分别为64和256;第四卷积层的卷积核大小为1,卷积步长为1,卷积核的个数为256,第五卷积层的卷积核大小为3,卷积步长为1,扩张率为2,卷积核的个数为64。
步骤3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练:
步骤3a)初始化迭代次数为i,最大迭代次数为I,I≥200,第i次迭代的图像分类模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;在本实施例中,I=300;
步骤3b)将从训练样本集R1中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型Ti的输入,第一卷积层对每个训练样本进行卷积,得到第一特征图集合F={f1,f2,...,fm,...,fM},其中,fm表示第m个训练样本卷积后的第一特征图;
步骤3c)多尺度特征注意力融合网络对每个第一特征图fm进行融合操作,实现步骤为:
步骤3c1)第二卷积层对第m个第一特征图fm进行卷积,得到第二特征图集合F1={f1 1,f2 1,...,fm 1,...,fM 1},其中,fm 1表示fm的卷积结果;
步骤3c2)特征加法层求取每个第一特征图fm与其对应的第二卷积层的卷积结果fm 1的和,得到特征加法层的输出结果F2={f1 2,f2 2,...,fm 2,...,fM 2},其中,fm 2=fm+fm 1;
步骤3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,同时局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,得到A的输出结果F3={f1 3,f2 3,...,fm 3,...,fM 3},其中,fm 3=f1m+f2m,f1m、f2m分别表示fm 2的全局特征、局部特征;
全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,具体实现步骤为:首先全局平均池化层对输入的特征图fm 2进行全局平均池化,得到尺寸为1×1×C的特征图fa1,然后第三卷积层对fa1进行卷积,得到尺寸为的特征图fa2,第一归一化层对特征图fa2进行归一化处理,得到尺寸为的特征图fa3,Relu激活层对fa3进行激活,得到尺寸的特征图fa4,之后第三卷积层对fa4进行卷积,得到尺寸为1×1×C的特征图fa5,第一归一化层对特征图fa5进行归一化处理,最终得到输入特征图fm 2对应的全局特征f1m,其中,C为特征图的通道数,r为通道缩放率;
局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,具体实现步骤为:首先第四卷积层对输入的特征图fm 2进行逐点卷积,得到尺寸为H×W×C的特征图fl1,然后第五卷积层对fl1进行空洞卷积,得到尺寸为的特征图fl2,之后第四卷积层对fl2进行逐点卷积,得到尺寸为H×W×C的特征图fl3,第二归一化层对特征图fl3进行归一化处理,最终得到输入特征图fm 2对应的局部特征f2m,其中,H、W、C为特征图的高度、宽度和通道数,r为通道缩放率。
步骤3c4)sigmoid激活层对A的每个输出结果fm 3进行激活,得到与fm 3相对应的权重矩阵Gm,特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,得到权重融合特征F*={f1 *,f2 *,...,fm *,...,fM *},其中,fm *表示对fm和fm 1进行权重融合后得到的特征;
特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,具体实现步骤为:
特征融合层所包含的两个并行排布的特征乘法层中的一个特征乘法层求取权重矩阵Gm与其相对应的第一卷积层输出的结果fm的乘积,同时另一个特征乘法层求取(1-Gm)与其相对应的第二卷积层的输出结果fm 1的乘积,特征加法层将两个特征乘法层的输出结果进行相加,得到fm与fm 1进行权重融合后的特征fm *。
步骤3d)输出层中的最大池化层对每个fm *进行最大池化,全连接层对fm *的最大池化结果进行分类,得到M个训练样本的预测标签y={y1,y2,...,ym,...,yM},其中,ym表示第m个训练样本对应的预测标签;在本实施例中,M=64。
步骤3e)采用交叉熵损失函数,并通过每个预测标签ym及其对应的真实标签ym *计算Ti的损失值Li,然后求取Li对权值参数ωi的偏导再采用梯度下降法,通过将在Ti中进行反向传播的方式对权值参数ωi进行更新;
计算Ti的损失值Li、对权值参数ωi进行更新,计算、更新公式分别为:
步骤3f)判断i≥I是否成立,若是,得到训练好的图像分类模型T*,否则,令i=i+1,并执行步骤(3b);
步骤4)获取RGB图像的分类结果:
将测试样本集E1作为训练好的图像分类模型T*的输入进行前向传播,得到分类结果。
本发明所构建的RGB图像分类模型,其中包括的多尺度特征注意力融合网络可以对输入特征图进行全局特征和局部特征的提取,然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合,有效解决了深度学习中特征提取不充分的问题,进一步提升了深度神经网络对RGB图像分类的精度,所以本发明的分类精度明显优于现有技术。
下面结合仿真实验对本发明的效果作进一步说明。
1.仿真条件和内容:
本发明仿真实验所使用的硬件测试平台是:处理器为CoreTMi7-7800X CPUx 12,主频为3.2GHz,内存8GB;软件平台为:Python 3.7,Pytorch 1.0;操作系统是Ubuntu16.04LTS 64位操作系统。
仿真实验中用到的RGB图像分类数据集为Cifar10数据集,该数据集中的图像采集自互联网。Cifar10数据集包含10个类别的60000幅RGB图像,仿真实验选取该数据集中的所有RGB图像作为该实验的数据集,然后选取每个类别对应RGB图像中的80%以上组成数据集R0,将进行预处理后的R0组成训练样本集R1,同时将除R0以外的其它RGB图像组成测试样本集E1。
对本发明与现有的基于可分离卷积和注意力机制的图像分类方法的分类精度进行对比仿真,其结果如表1所示。
2.仿真结果分析:
参照表1,本发明在测试样本集上E1的分类精度为96.56%,现有技术在测试样本集E1上的分类精度为91.22%。本发明相对于现有技术,图像分类精度提高了5.34%。
表1
评价指标 | 本发明 | SCAAM |
分类准确率(%) | 96.56 | 91.22 |
综合上述仿真结果的分析,本发明提出的多尺度特征注意力融合网络有效解决了深度学习中特征提取不充分的问题,实现了RGB图像分类精度的提高。
Claims (5)
1.一种基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,包括如下步骤:
(1)获取训练样本集R1和测试样本集E1:
(1a)获取包含S个目标类别的K幅RGB图像,每个目标类别对应N幅RGB图像,其中,S≥2,K≥200,N≥100;
(1b)随机选取每个目标类别对应RGB图像中的半数以上组成数据集R0,并对R0中每幅RGB图像的目标进行标记后,对经过标记的每幅RGB图像进行预处理,再将所有经过预处理的RGB图像组成训练样本集R1,同时将除R0以外的其他RGB图像组成测试样本集E1;
(2)构建基于多尺度特征注意力融合网络的图像分类模型T:
构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T;
多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层,该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A1和局部注意力特征提取模块A2组成的双支路注意力特征提取模块A,特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层;
全局注意力特征提取模块A1包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层;
局部注意力特征提取模块A2包括多个第四卷积层、第五卷积层和第二归一化层;
输出层包括依次层叠的最大池化层和全连接层;
(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I≥200,第i次迭代的图像分类模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;
(3b)将从训练样本集R1中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型Ti的输入,第一卷积层对每个训练样本进行卷积,得到第一特征图集合F={f1,f2,...,fm,...,fM},其中,fm表示第m个训练样本卷积后的第一特征图;
(3c)多尺度特征注意力融合网络对每个第一特征图fm进行融合操作,实现步骤为:
(3c1)第二卷积层对第m个第一特征图fm进行卷积,得到第二特征图集合F1={f1 1,f2 1,...,fm 1,...,fM 1},其中,fm 1表示fm的卷积结果;
(3c2)特征加法层求取每个第一特征图fm与其对应的第二卷积层的卷积结果fm 1的和,得到特征加法层的输出结果F2={f1 2,f2 2,...,fm 2,...,fM 2},其中,fm 2=fm+fm 1;
(3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,同时局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,得到A的输出结果F3={f1 3,f2 3,...,fm 3,...,fM 3},其中,fm 3=f1m+f2m,f1m、f2m分别表示fm 2的全局特征、局部特征;
(3c4)sigmoid激活层对A的每个输出结果fm 3进行激活,得到与fm 3相对应的权重矩阵Gm,特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,得到权重融合特征F*={f1 *,f2 *,...,fm *,...,fM *},其中,fm *表示对fm和fm 1进行权重融合后得到的特征;
(3d)输出层中的最大池化层对每个fm *进行最大池化,全连接层对fm *的最大池化结果进行分类,得到M个训练样本的预测标签y={y1,y2,...,ym,...,yM},其中,ym表示第m个训练样本对应的预测标签;
(3e)采用交叉熵损失函数,并通过每个预测标签ym及其对应的真实标签ym *计算Ti的损失值Li,然后求取Li对权值参数ωi的偏导再采用梯度下降法,通过将在Ti中进行反向传播的方式对权值参数ωi进行更新;
(3f)判断i≥I是否成立,若是,得到训练好的图像分类模型T*,否则,令i=i+1,并执行步骤(3b);
(4)获取RGB图像的分类结果:
将测试样本集E1作为训练好的图像分类模型T*的输入进行前向传播,得到分类结果。
2.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,步骤(1b)中所述的对经过标记的每幅RGB图像进行预处理,实现步骤为:
对经过标记的每幅RGB图像围绕其竖直方向的中心轴进行水平翻转,并对经过水平翻转的RGB图像的亮度、对比度和饱和度随机进行调整,实现对每幅RGB图像的预处理。
3.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,步骤(2)中所述的基于多尺度特征注意力融合网络的图像分类模型T,其中:
第一卷积层和第二卷积层的卷积核大小分别为5和3,卷积核的个数均为256,卷积步长均为1;
全局注意力特征提取模块A1包括的第三卷积层和第一归一化层的数量均为2个,第三卷积层的卷积核大小为1,卷积步长为1,卷积核的个数分别为64和256;该全局注意力特征提取模块A1的具体结构为:全局平均池化层、第三卷积层、第一归一化层、Relu激活层、第三卷积层、第一归一化层;
局部注意力特征提取模块A2包括的第四卷积层的数量为2个,第四卷积层的卷积核大小为1,卷积步长为1,卷积核的个数为256,第五卷积层的卷积核大小为3,卷积步长为1,扩张率为2,卷积核的个数为64,该局部注意力特征提取模块A2的具体结构为:第四卷积层、第五卷积层、第四卷积层、第二归一化层。
4.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,步骤(3c4)中所述的特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,实现步骤为:
特征融合层所包含的两个并行排布的特征乘法层中的一个特征乘法层求取权重矩阵Gm与其相对应的第一卷积层输出的结果fm的乘积,同时另一个特征乘法层求取(1-Gm)与其相对应的第二卷积层的输出结果fm 1的乘积,特征加法层将两个特征乘法层的输出结果进行相加,得到fm与fm 1进行权重融合后的特征fm *。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110869707.6A CN113486981B (zh) | 2021-07-30 | 2021-07-30 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110869707.6A CN113486981B (zh) | 2021-07-30 | 2021-07-30 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486981A true CN113486981A (zh) | 2021-10-08 |
CN113486981B CN113486981B (zh) | 2023-02-07 |
Family
ID=77943745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110869707.6A Active CN113486981B (zh) | 2021-07-30 | 2021-07-30 | 基于多尺度特征注意力融合网络的rgb图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486981B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114155400A (zh) * | 2022-02-10 | 2022-03-08 | 澄影科技(北京)有限公司 | 一种图像的处理方法、装置及设备 |
CN114419381A (zh) * | 2022-04-01 | 2022-04-29 | 城云科技(中国)有限公司 | 一种语义分割方法及应用其的道路积水检测方法和装置 |
CN114636736A (zh) * | 2021-11-08 | 2022-06-17 | 滁州怡然传感技术研究院有限公司 | 一种基于aif-1dcnn的电子舌白酒检测方法 |
CN114743014A (zh) * | 2022-03-28 | 2022-07-12 | 西安电子科技大学 | 基于多头自注意力的激光点云特征提取方法及装置 |
CN114821238A (zh) * | 2022-05-10 | 2022-07-29 | 山东建筑大学 | 基于全局细节补充的卷积神经网络的图像识别方法及系统 |
CN114898360A (zh) * | 2022-03-31 | 2022-08-12 | 中南林业科技大学 | 基于注意力与深度特征融合的食材图像分类模型建立方法 |
CN114972965A (zh) * | 2022-04-20 | 2022-08-30 | 乐知未来科技(深圳)有限公司 | 一种基于深度学习的场景识别方法 |
CN115063592A (zh) * | 2022-08-16 | 2022-09-16 | 之江实验室 | 一种基于多尺度的全扫描病理特征融合提取方法及系统 |
CN115205614A (zh) * | 2022-05-20 | 2022-10-18 | 钟家兴 | 一种用于智能制造的矿石x光图像识别方法 |
CN116416479A (zh) * | 2023-06-06 | 2023-07-11 | 江西理工大学南昌校区 | 基于深度卷积融合多尺度图像特征的矿物分类方法 |
CN117115572A (zh) * | 2023-10-25 | 2023-11-24 | 杭州医策科技有限公司 | 基于全局特征和局部特征的组织切片分类方法和系统 |
CN117710800A (zh) * | 2023-12-11 | 2024-03-15 | 南京信息工程大学 | 一种城市场景零样本识别方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
US20200273192A1 (en) * | 2019-02-26 | 2020-08-27 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
US20200334457A1 (en) * | 2019-04-16 | 2020-10-22 | Boe Technology Group Co., Ltd. | Image recognition method and apparatus |
CN112418351A (zh) * | 2020-12-11 | 2021-02-26 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112766099A (zh) * | 2021-01-07 | 2021-05-07 | 武汉大学 | 一种从局部到全局上下文信息提取的高光谱影像分类方法 |
CN112784764A (zh) * | 2021-01-27 | 2021-05-11 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及系统 |
CN112784856A (zh) * | 2021-01-29 | 2021-05-11 | 长沙理工大学 | 胸部x射线图像的通道注意力特征提取方法和识别方法 |
CN113095409A (zh) * | 2021-04-13 | 2021-07-09 | 西安电子科技大学 | 基于注意力机制和权值共享的高光谱图像分类方法 |
-
2021
- 2021-07-30 CN CN202110869707.6A patent/CN113486981B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200273192A1 (en) * | 2019-02-26 | 2020-08-27 | Baidu Usa Llc | Systems and methods for depth estimation using convolutional spatial propagation networks |
US20200334457A1 (en) * | 2019-04-16 | 2020-10-22 | Boe Technology Group Co., Ltd. | Image recognition method and apparatus |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110598029A (zh) * | 2019-09-06 | 2019-12-20 | 西安电子科技大学 | 基于注意力转移机制的细粒度图像分类方法 |
CN112418351A (zh) * | 2020-12-11 | 2021-02-26 | 天津大学 | 基于全局与局部上下文感知的零样本学习图像分类方法 |
CN112766099A (zh) * | 2021-01-07 | 2021-05-07 | 武汉大学 | 一种从局部到全局上下文信息提取的高光谱影像分类方法 |
CN112784764A (zh) * | 2021-01-27 | 2021-05-11 | 南京邮电大学 | 一种基于局部与全局注意力机制的表情识别方法及系统 |
CN112784856A (zh) * | 2021-01-29 | 2021-05-11 | 长沙理工大学 | 胸部x射线图像的通道注意力特征提取方法和识别方法 |
CN113095409A (zh) * | 2021-04-13 | 2021-07-09 | 西安电子科技大学 | 基于注意力机制和权值共享的高光谱图像分类方法 |
Non-Patent Citations (2)
Title |
---|
WENCHEN SUN等: "Mixed Attention-Aware Network for Person Re-identification", 《2019 12TH INTERNATIONAL SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DESIGN (ISCID)》 * |
阳邹: "基于多尺度特征提取和融合的人脸对齐", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114636736A (zh) * | 2021-11-08 | 2022-06-17 | 滁州怡然传感技术研究院有限公司 | 一种基于aif-1dcnn的电子舌白酒检测方法 |
CN114155400A (zh) * | 2022-02-10 | 2022-03-08 | 澄影科技(北京)有限公司 | 一种图像的处理方法、装置及设备 |
CN114155400B (zh) * | 2022-02-10 | 2022-05-17 | 澄影科技(北京)有限公司 | 一种图像的处理方法、装置及设备 |
CN114743014A (zh) * | 2022-03-28 | 2022-07-12 | 西安电子科技大学 | 基于多头自注意力的激光点云特征提取方法及装置 |
CN114898360B (zh) * | 2022-03-31 | 2024-04-26 | 中南林业科技大学 | 基于注意力与深度特征融合的食材图像分类模型建立方法 |
CN114898360A (zh) * | 2022-03-31 | 2022-08-12 | 中南林业科技大学 | 基于注意力与深度特征融合的食材图像分类模型建立方法 |
CN114419381A (zh) * | 2022-04-01 | 2022-04-29 | 城云科技(中国)有限公司 | 一种语义分割方法及应用其的道路积水检测方法和装置 |
CN114419381B (zh) * | 2022-04-01 | 2022-06-24 | 城云科技(中国)有限公司 | 一种语义分割方法及应用其的道路积水检测方法和装置 |
CN114972965A (zh) * | 2022-04-20 | 2022-08-30 | 乐知未来科技(深圳)有限公司 | 一种基于深度学习的场景识别方法 |
CN114821238A (zh) * | 2022-05-10 | 2022-07-29 | 山东建筑大学 | 基于全局细节补充的卷积神经网络的图像识别方法及系统 |
CN114821238B (zh) * | 2022-05-10 | 2022-09-13 | 山东建筑大学 | 基于全局细节补充的卷积神经网络的图像识别方法及系统 |
CN115205614A (zh) * | 2022-05-20 | 2022-10-18 | 钟家兴 | 一种用于智能制造的矿石x光图像识别方法 |
CN115205614B (zh) * | 2022-05-20 | 2023-12-22 | 深圳市沃锐图像技术有限公司 | 一种用于智能制造的矿石x光图像识别方法 |
CN115063592A (zh) * | 2022-08-16 | 2022-09-16 | 之江实验室 | 一种基于多尺度的全扫描病理特征融合提取方法及系统 |
CN115063592B (zh) * | 2022-08-16 | 2022-12-06 | 之江实验室 | 一种基于多尺度的全扫描病理特征融合提取方法及系统 |
CN116416479B (zh) * | 2023-06-06 | 2023-08-29 | 江西理工大学南昌校区 | 基于深度卷积融合多尺度图像特征的矿物分类方法 |
CN116416479A (zh) * | 2023-06-06 | 2023-07-11 | 江西理工大学南昌校区 | 基于深度卷积融合多尺度图像特征的矿物分类方法 |
CN117115572A (zh) * | 2023-10-25 | 2023-11-24 | 杭州医策科技有限公司 | 基于全局特征和局部特征的组织切片分类方法和系统 |
CN117115572B (zh) * | 2023-10-25 | 2024-01-30 | 杭州医策科技有限公司 | 基于全局特征和局部特征的组织切片分类方法和系统 |
CN117710800A (zh) * | 2023-12-11 | 2024-03-15 | 南京信息工程大学 | 一种城市场景零样本识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113486981B (zh) | 2023-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486981B (zh) | 基于多尺度特征注意力融合网络的rgb图像分类方法 | |
CN110516596B (zh) | 基于Octave卷积的空谱注意力高光谱图像分类方法 | |
CN111860495B (zh) | 一种层级化网络结构搜索方法、设备及可读存储介质 | |
CN112052893A (zh) | 基于生成对抗网络的半监督图像分类方法 | |
CN107092870A (zh) | 一种高分辨率影像语意信息提取方法及系统 | |
CN112070729A (zh) | 一种基于场景增强的anchor-free遥感图像目标检测方法及系统 | |
CN109740679B (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN112529005B (zh) | 基于语义特征一致性监督金字塔网络的目标检测方法 | |
CN107622272A (zh) | 一种图像分类方法及装置 | |
CN112766279B (zh) | 一种基于联合注意力机制的图像特征提取方法 | |
CN109299258A (zh) | 一种舆情事件检测方法、装置及设备 | |
CN108460391A (zh) | 基于生成对抗网络的高光谱图像无监督特征提取方法 | |
CN111222545B (zh) | 基于线性规划增量学习的图像分类方法 | |
CN110210027B (zh) | 基于集成学习的细粒度情感分析方法、装置、设备及介质 | |
CN112418212A (zh) | 一种基于EIoU改进的YOLOv3算法 | |
CN112163450A (zh) | 基于s3d学习算法的高频地波雷达船只目标检测方法 | |
CN112529415B (zh) | 基于组合多感受野图神经网络的物品评分方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN112364974B (zh) | 一种基于激活函数改进的YOLOv3算法 | |
CN111598854A (zh) | 基于丰富鲁棒卷积特征模型的复杂纹理小缺陷的分割方法 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN113111975A (zh) | 基于多核尺度卷积神经网络的sar图像目标分类方法 | |
CN116883393A (zh) | 一种基于无锚框目标检测算法的金属表面缺陷检测方法 | |
CN111310820A (zh) | 基于交叉验证深度cnn特征集成的地基气象云图分类方法 | |
CN113420833A (zh) | 一种基于问题语义映射的视觉问答方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |