CN113486981B - 基于多尺度特征注意力融合网络的rgb图像分类方法 - Google Patents

基于多尺度特征注意力融合网络的rgb图像分类方法 Download PDF

Info

Publication number
CN113486981B
CN113486981B CN202110869707.6A CN202110869707A CN113486981B CN 113486981 B CN113486981 B CN 113486981B CN 202110869707 A CN202110869707 A CN 202110869707A CN 113486981 B CN113486981 B CN 113486981B
Authority
CN
China
Prior art keywords
layer
feature
convolution
attention
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110869707.6A
Other languages
English (en)
Other versions
CN113486981A (zh
Inventor
田小林
杨婷
黄小萃
王凯
焦李成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110869707.6A priority Critical patent/CN113486981B/zh
Publication of CN113486981A publication Critical patent/CN113486981A/zh
Application granted granted Critical
Publication of CN113486981B publication Critical patent/CN113486981B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于多尺度特征注意力融合的RGB图像分类方法,实现步骤为:(1)获取训练样本集R1和测试样本集E1;(2)构建基于多尺度特征注意力融合网络的图像分类模型T;(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练;(4)获取RGB图像的分类结果。本发明所构建的多尺度特征注意力融合网络可以对输入特征图进行全局特征和局部特征的提取,然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合,有效解决了深度学习中特征提取不充分的问题,有效提升了RGB图像分类的精度。

Description

基于多尺度特征注意力融合网络的RGB图像分类方法
技术领域
本发明属于图像处理技术领域,涉及一种RGB图像分类方法,具体涉及一种基于多尺度特征注意力融合网络的RGB图像分类方法,可用于目标识别、目标检测等领域。
背景技术
图像分类是计算机视觉领域的一个基本问题,任务是根据不同类别的目标各自在图像信息中所反映特征的不同,区分不同类别的图像。目前,图像分类有基于距离度量的方法、基于纹理特征的方法和基于机器学习的方法等。近年来,随着机器学习的迅速发展,RGB图像分类领域也取得了重大进展,目前已经可以在一些现实中的图像分类问题上获得较好的分类精度,图像分类技术被广泛用于目标识别、目标检测等领域。
深度学习中卷积神经网络应用的范围最广,被广泛用于图像分类中的特征提取。不同层级的卷积网络能提取到不同的图像语义特征,浅层网络获取到的图像特征大都是颜色、纹理等低级语义特征,低级特征种类丰富但辨识度不高,不适用于图像分类任务;而深层网络提取到主要是轮廓、形状等高级语义特征,高级语义特征具有较高的辨识度和代表性,但仅仅依赖高级语义特征来执行图像分类任务,又存在特征单一、缺乏多样性的问题,为了减少此类问题对图像分类精度的影响,出现了许多基于卷积神经网络的图像分类方法,例如,申请公布号为CN108985317A,名称为“一种基于可分离卷积和注意力机制的图像分类方法”的专利申请,公开了一种基于可分离卷积和注意力机制的图像分类方法。该方法首先构建原始深度卷积神经网络,然后利用训练数据集训练该网络得到训练后的深度卷积神经网络,再将验证数据集输入到上述训练的深度卷积神经网络,得到分类概率向量,选取最大值对应的分类作为数据预处理的测试结果,最后将测试结果与所述验证数据集的类别标签进行对比,得到最终分类的准确度。该方法将注意力机制与卷积神经网络相结合,提取图像的多尺度特征信息并进行融合,实现了图像分类过程中特征提取的多样性,但由于该方法只是对图像的全局特征进行提取,仍存在局部特征缺乏、特征信息不足的问题,导致RGB图像分类的精度依然较低。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于多尺度特征注意力融合网络的RGB图像分类方法,用于解决现有技术中存在的分类精度较低的技术问题。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集R1和测试样本集E1
(1a)获取包含S个目标类别的K幅RGB图像,每个目标类别对应N幅RGB图像,其中,S≥2,K≥200,N≥100;
(1b)随机选取每个目标类别对应RGB图像中的半数以上组成数据集R0,并对R0中每幅RGB图像的目标进行标记后,对经过标记的每幅RGB图像进行预处理,再将所有经过预处理的RGB图像组成训练样本集R1,同时将除R0以外的其他RGB图像组成测试样本集E1
(2)构建基于多尺度特征注意力融合网络的图像分类模型T:
构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T;
多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层,该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A1和局部注意力特征提取模块A2组成的双支路注意力特征提取模块A,特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层;
全局注意力特征提取模块A1包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层;
局部注意力特征提取模块A2包括多个第四卷积层、第五卷积层和第二归一化层;
输出层包括依次层叠的最大池化层和全连接层;
(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I≥200,第i次迭代的图像分类模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;
(3b)将从训练样本集R1中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型Ti的输入,第一卷积层对每个训练样本进行卷积,得到第一特征图集合F={f1,f2,...,fm,...,fM},其中,fm表示第m个训练样本卷积后的第一特征图;
(3c)多尺度特征注意力融合网络对每个第一特征图fm进行融合操作,实现步骤为:
(3c1)第二卷积层对第m个第一特征图fm进行卷积,得到第二特征图集合F1={f1 1,f2 1,...,fm 1,...,fM 1},其中,fm 1表示fm的卷积结果;
(3c2)特征加法层求取每个第一特征图fm与其对应的第二卷积层的卷积结果fm 1的和,得到特征加法层的输出结果F2={f1 2,f2 2,...,fm 2,...,fM 2},其中,fm 2=fm+fm 1
(3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,同时局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,得到A的输出结果F3={f1 3,f2 3,...,fm 3,...,fM 3},其中,fm 3=f1m+f2m,f1m、f2m分别表示fm 2的全局特征、局部特征;
(3c4)sigmoid激活层对A的每个输出结果fm 3进行激活,得到与fm 3相对应的权重矩阵Gm,特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,得到权重融合特征F*={f1 *,f2 *,...,fm *,...,fM *},其中,fm *表示对fm和fm 1进行权重融合后得到的特征;
(3d)输出层中的最大池化层对每个fm *进行最大池化,全连接层对fm *的最大池化结果进行分类,得到M个训练样本的预测标签y={y1,y2,...,ym,...,yM},其中,ym表示第m个训练样本对应的预测标签;
(3e)采用交叉熵损失函数,并通过每个预测标签ym及其对应的真实标签ym *计算Ti的损失值Li,然后求取Li对权值参数ωi的偏导
Figure BDA0003188626710000031
再采用梯度下降法,通过将
Figure BDA0003188626710000032
在Ti中进行反向传播的方式对权值参数ωi进行更新;
(3f)判断i≥I是否成立,若是,得到训练好的图像分类模型T*,否则,令i=i+1,并执行步骤(3b);
(4)获取RGB图像的分类结果:
将测试样本集E1作为训练好的图像分类模型T*的输入进行前向传播,得到分类结果。
本发明与现有技术相比,具有如下优点:
本发明所构建的多尺度特征注意力融合网络包括有全局注意力特征提取模块和局部注意力特征提取模块,在对图像分类模型进行迭代训练,以及获取RGB图像分类结果的过程中,全局注意力特征提取模块可以对特征加法层得到的特征图进行全局特征的提取,同时,局部注意力特征提取模块可以对特征加法层得到的特征图进行局部特征的提取,然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合,避免了现有技术在特征提取时只进行全局特征提取而导致的局部特征缺失、特征信息不足的缺陷,有效提高了图像分类的精度。
附图说明
图1为本发明的实现流程图;
图2为本发明构建的多尺度特征注意力融合网络模型的结构示意图;
图3为本发明构建的多尺度特征注意力融合网络的结构示意图;
图4为本发明构建的双支路注意力特征提取模块的结构示意图。
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集R1和测试样本集E1
步骤1a)从Cifar10图像分类数据集中获取包含S个目标类别的K幅RGB图像,每个目标类别对应N幅RGB图像,其中,S≥2,K≥200,N≥100;其中,本实施例中S=10,K=60000。
步骤1b)随机选取每个目标类别对应RGB图像中的80%以上组成数据集R0,并对R0中每幅RGB图像的目标进行标记后,对经过标记的每幅RGB图像进行预处理,再将所有经过预处理的RGB图像组成训练样本集R1,同时将除R0以外的其他RGB图像组成测试样本集E1
对经过标记的每幅RGB图像进行预处理,实现步骤为:对经过标记的每幅RGB图像围绕其竖直方向的中心轴进行水平翻转,并对经过水平翻转的RGB图像的亮度、对比度和饱和度随机进行调整,实现对每幅RGB图像的预处理,该操作可以实现图像分类模型在特征提取过程中能够提取到更多的有用信息。
步骤2)构建基于多尺度特征注意力融合网络的图像分类模型T:
构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T,其结构如图2所示;
多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层,该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A1和局部注意力特征提取模块A2组成的双支路注意力特征提取模块A,特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层,其网络结构如图3所示;
双支路注意力特征提取模块A中的全局注意力特征提取模块A1包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层,局部注意力特征提取模块A2包括多个第四卷积层、第五卷积层和第二归一化层,本实施例中,第三卷积层、第四卷积层和第一归一化层的数量均为2个,其结构如图4所示;
输出层包括依次层叠的最大池化层和全连接层;
基于多尺度特征注意力融合网络的图像分类模型T所包含的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层的参数设置为:
第一卷积层和第二卷积层的卷积核大小分别为5和3,卷积核的个数均为256,卷积步长均为1;第三卷积层的卷积核大小为1,卷积步长为1,卷积核的个数分别为64和256;第四卷积层的卷积核大小为1,卷积步长为1,卷积核的个数为256,第五卷积层的卷积核大小为3,卷积步长为1,扩张率为2,卷积核的个数为64。
步骤3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练:
步骤3a)初始化迭代次数为i,最大迭代次数为I,I≥200,第i次迭代的图像分类模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;在本实施例中,I=300;
步骤3b)将从训练样本集R1中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型Ti的输入,第一卷积层对每个训练样本进行卷积,得到第一特征图集合F={f1,f2,...,fm,...,fM},其中,fm表示第m个训练样本卷积后的第一特征图;
步骤3c)多尺度特征注意力融合网络对每个第一特征图fm进行融合操作,实现步骤为:
步骤3c1)第二卷积层对第m个第一特征图fm进行卷积,得到第二特征图集合F1={f1 1,f2 1,...,fm 1,...,fM 1},其中,fm 1表示fm的卷积结果;
步骤3c2)特征加法层求取每个第一特征图fm与其对应的第二卷积层的卷积结果fm 1的和,得到特征加法层的输出结果F2={f1 2,f2 2,...,fm 2,...,fM 2},其中,fm 2=fm+fm 1
步骤3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,同时局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,得到A的输出结果F3={f1 3,f2 3,...,fm 3,...,fM 3},其中,fm 3=f1m+f2m,f1m、f2m分别表示fm 2的全局特征、局部特征;
全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,具体实现步骤为:首先全局平均池化层对输入的特征图fm 2进行全局平均池化,得到尺寸为1×1×C的特征图fa1,然后第三卷积层对fa1进行卷积,得到尺寸为
Figure BDA0003188626710000061
的特征图fa2,第一归一化层对特征图fa2进行归一化处理,得到尺寸为
Figure BDA0003188626710000062
的特征图fa3,Relu激活层对fa3进行激活,得到尺寸
Figure BDA0003188626710000063
的特征图fa4,之后第三卷积层对fa4进行卷积,得到尺寸为1×1×C的特征图fa5,第一归一化层对特征图fa5进行归一化处理,最终得到输入特征图fm 2对应的全局特征f1m,其中,C为特征图的通道数,r为通道缩放率;
局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,具体实现步骤为:首先第四卷积层对输入的特征图fm 2进行逐点卷积,得到尺寸为H×W×C的特征图fl1,然后第五卷积层对fl1进行空洞卷积,得到尺寸为
Figure BDA0003188626710000064
的特征图fl2,之后第四卷积层对fl2进行逐点卷积,得到尺寸为H×W×C的特征图fl3,第二归一化层对特征图fl3进行归一化处理,最终得到输入特征图fm 2对应的局部特征f2m,其中,H、W、C为特征图的高度、宽度和通道数,r为通道缩放率。
步骤3c4)sigmoid激活层对A的每个输出结果fm 3进行激活,得到与fm 3相对应的权重矩阵Gm,特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,得到权重融合特征F*={f1 *,f2 *,...,fm *,...,fM *},其中,fm *表示对fm和fm 1进行权重融合后得到的特征;
特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,具体实现步骤为:
特征融合层所包含的两个并行排布的特征乘法层中的一个特征乘法层求取权重矩阵Gm与其相对应的第一卷积层输出的结果fm的乘积,同时另一个特征乘法层求取(1-Gm)与其相对应的第二卷积层的输出结果fm 1的乘积,特征加法层将两个特征乘法层的输出结果进行相加,得到fm与fm 1进行权重融合后的特征fm *
步骤3d)输出层中的最大池化层对每个fm *进行最大池化,全连接层对fm *的最大池化结果进行分类,得到M个训练样本的预测标签y={y1,y2,...,ym,...,yM},其中,ym表示第m个训练样本对应的预测标签;在本实施例中,M=64。
步骤3e)采用交叉熵损失函数,并通过每个预测标签ym及其对应的真实标签ym *计算Ti的损失值Li,然后求取Li对权值参数ωi的偏导
Figure BDA0003188626710000071
再采用梯度下降法,通过将
Figure BDA0003188626710000072
在Ti中进行反向传播的方式对权值参数ωi进行更新;
计算Ti的损失值Li、对权值参数ωi进行更新,计算、更新公式分别为:
Figure BDA0003188626710000073
Figure BDA0003188626710000074
其中,ln表示以自然常数e为底的对数,ωi *表示ωi的更新结果,η表示Li的学习率,
Figure BDA0003188626710000075
表示求导操作。
步骤3f)判断i≥I是否成立,若是,得到训练好的图像分类模型T*,否则,令i=i+1,并执行步骤(3b);
步骤4)获取RGB图像的分类结果:
将测试样本集E1作为训练好的图像分类模型T*的输入进行前向传播,得到分类结果。
本发明所构建的RGB图像分类模型,其中包括的多尺度特征注意力融合网络可以对输入特征图进行全局特征和局部特征的提取,然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合,有效解决了深度学习中特征提取不充分的问题,进一步提升了深度神经网络对RGB图像分类的精度,所以本发明的分类精度明显优于现有技术。
下面结合仿真实验对本发明的效果作进一步说明。
1.仿真条件和内容:
本发明仿真实验所使用的硬件测试平台是:处理器为
Figure BDA0003188626710000081
CoreTMi7-7800X CPUx 12,主频为3.2GHz,内存8GB;软件平台为:Python 3.7,Pytorch 1.0;操作系统是Ubuntu16.04LTS 64位操作系统。
仿真实验中用到的RGB图像分类数据集为Cifar10数据集,该数据集中的图像采集自互联网。Cifar10数据集包含10个类别的60000幅RGB图像,仿真实验选取该数据集中的所有RGB图像作为该实验的数据集,然后选取每个类别对应RGB图像中的80%以上组成数据集R0,将进行预处理后的R0组成训练样本集R1,同时将除R0以外的其它RGB图像组成测试样本集E1
对本发明与现有的基于可分离卷积和注意力机制的图像分类方法的分类精度进行对比仿真,其结果如表1所示。
2.仿真结果分析:
参照表1,本发明在测试样本集上E1的分类精度为96.56%,现有技术在测试样本集E1上的分类精度为91.22%。本发明相对于现有技术,图像分类精度提高了5.34%。
表1
评价指标 本发明 SCAAM
分类准确率(%) 96.56 91.22
综合上述仿真结果的分析,本发明提出的多尺度特征注意力融合网络有效解决了深度学习中特征提取不充分的问题,实现了RGB图像分类精度的提高。

Claims (5)

1.一种基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,包括如下步骤:
(1)获取训练样本集R1和测试样本集E1
(1a)获取包含S个目标类别的K幅RGB图像,每个目标类别对应N幅RGB图像,其中,S≥2,K≥200,N≥100;
(1b)随机选取每个目标类别对应RGB图像中的半数以上组成数据集R0,并对R0中每幅RGB图像的目标进行标记后,对经过标记的每幅RGB图像进行预处理,再将所有经过预处理的RGB图像组成训练样本集R1,同时将除R0以外的其他RGB图像组成测试样本集E1
(2)构建基于多尺度特征注意力融合网络的图像分类模型T:
构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T;
多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层,该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A1和局部注意力特征提取模块A2组成的双支路注意力特征提取模块A,特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层;
全局注意力特征提取模块A1包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层;
局部注意力特征提取模块A2包括多个第四卷积层、第五卷积层和第二归一化层;
输出层包括依次层叠的最大池化层和全连接层;
(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I≥200,第i次迭代的图像分类模型为Ti,Ti的权值参数为ωi,并令i=1,Ti=T;
(3b)将从训练样本集R1中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型Ti的输入,第一卷积层对每个训练样本进行卷积,得到第一特征图集合F={f1,f2,...,fm,...,fM},其中,fm表示第m个训练样本卷积后的第一特征图;
(3c)多尺度特征注意力融合网络对每个第一特征图fm进行融合操作,实现步骤为:
(3c1)第二卷积层对第m个第一特征图fm进行卷积,得到第二特征图集合F1={f1 1,f2 1,...,fm 1,...,fM 1},其中,fm 1表示fm的卷积结果;
(3c2)特征加法层求取每个第一特征图fm与其对应的第二卷积层的卷积结果fm 1的和,得到特征加法层的输出结果F2={f1 2,f2 2,...,fm 2,...,fM 2},其中,fm 2=fm+fm 1
(3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A1对特征加法层输出的每个结果fm 2进行全局特征提取,同时局部注意力特征提取模块A2对特征加法层输出的每个结果fm 2进行局部特征提取,得到A的输出结果F3={f1 3,f2 3,...,fm 3,...,fM 3},其中,fm 3=f1m+f2m,f1m、f2m分别表示fm 2的全局特征、局部特征;
(3c4)sigmoid激活层对A的每个输出结果fm 3进行激活,得到与fm 3相对应的权重矩阵Gm,特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,得到权重融合特征F*={f1 *,f2 *,...,fm *,...,fM *},其中,fm*表示对fm和fm 1进行权重融合后得到的特征;
(3d)输出层中的最大池化层对每个fm *进行最大池化,全连接层对fm *的最大池化结果进行分类,得到M个训练样本的预测标签y={y1,y2,...,ym,...,yM},其中,ym表示第m个训练样本对应的预测标签;
(3e)采用交叉熵损失函数,并通过每个预测标签ym及其对应的真实标签ym *计算Ti的损失值Li,然后求取Li对权值参数ωi的偏导
Figure FDA0003940890540000031
再采用梯度下降法,通过将
Figure FDA0003940890540000032
在Ti中进行反向传播的方式对权值参数ωi进行更新;
(3f)判断i≥I是否成立,若是,得到训练好的图像分类模型T*,否则,令i=i+1,并执行步骤(3b);
(4)获取RGB图像的分类结果:
将测试样本集E1作为训练好的图像分类模型T*的输入进行前向传播,得到分类结果。
2.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,步骤(1b)中所述的对经过标记的每幅RGB图像进行预处理,实现步骤为:
对经过标记的每幅RGB图像围绕其竖直方向的中心轴进行水平翻转,并对经过水平翻转的RGB图像的亮度、对比度和饱和度随机进行调整,实现对每幅RGB图像的预处理。
3.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,步骤(2)中所述的基于多尺度特征注意力融合网络的图像分类模型T,其中:
第一卷积层和第二卷积层的卷积核大小分别为5和3,卷积核的个数均为256,卷积步长均为1;
全局注意力特征提取模块A1包括的第三卷积层和第一归一化层的数量均为2个,第三卷积层的卷积核大小为1,卷积步长为1;该全局注意力特征提取模块A1的具体结构为:全局平均池化层、第三卷积层、第一归一化层、Relu激活层、第三卷积层、第一归一化层;
局部注意力特征提取模块A2包括的第四卷积层的数量为2个,第四卷积层的卷积核大小为1,卷积步长为1,卷积核的个数为256,第五卷积层的卷积核大小为3,卷积步长为1,扩张率为2,卷积核的个数为64,该局部注意力特征提取模块A2的具体结构为:第四卷积层、第五卷积层、第四卷积层、第二归一化层。
4.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,步骤(3c4)中所述的特征融合层将权重矩阵Gm与其相对应的第一卷积层的输出结果fm和第二卷积层的输出结果fm 1进行融合,实现步骤为:
特征融合层所包含的两个并行排布的特征乘法层中的一个特征乘法层求取权重矩阵Gm与其相对应的第一卷积层输出的结果fm的乘积,同时另一个特征乘法层求取(1-Gm)与其相对应的第二卷积层的输出结果fm 1的乘积,特征加法层将两个特征乘法层的输出结果进行相加,得到fm与fm 1进行权重融合后的特征fm *
5.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法,其特征在于,所述(3e)中所述的计算Ti的损失值Li、对权值参数ωi进行更新,计算、更新公式分别为:
Figure FDA0003940890540000041
Figure FDA0003940890540000042
其中,ln表示以自然常数e为底的对数,
Figure FDA0003940890540000043
表示ωi的更新结果,η表示Li的学习率,
Figure FDA0003940890540000044
表示求导操作。
CN202110869707.6A 2021-07-30 2021-07-30 基于多尺度特征注意力融合网络的rgb图像分类方法 Active CN113486981B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110869707.6A CN113486981B (zh) 2021-07-30 2021-07-30 基于多尺度特征注意力融合网络的rgb图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110869707.6A CN113486981B (zh) 2021-07-30 2021-07-30 基于多尺度特征注意力融合网络的rgb图像分类方法

Publications (2)

Publication Number Publication Date
CN113486981A CN113486981A (zh) 2021-10-08
CN113486981B true CN113486981B (zh) 2023-02-07

Family

ID=77943745

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110869707.6A Active CN113486981B (zh) 2021-07-30 2021-07-30 基于多尺度特征注意力融合网络的rgb图像分类方法

Country Status (1)

Country Link
CN (1) CN113486981B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114636736A (zh) * 2021-11-08 2022-06-17 滁州怡然传感技术研究院有限公司 一种基于aif-1dcnn的电子舌白酒检测方法
CN114155400B (zh) * 2022-02-10 2022-05-17 澄影科技(北京)有限公司 一种图像的处理方法、装置及设备
CN114898360B (zh) * 2022-03-31 2024-04-26 中南林业科技大学 基于注意力与深度特征融合的食材图像分类模型建立方法
CN114419381B (zh) * 2022-04-01 2022-06-24 城云科技(中国)有限公司 一种语义分割方法及应用其的道路积水检测方法和装置
CN114821238B (zh) * 2022-05-10 2022-09-13 山东建筑大学 基于全局细节补充的卷积神经网络的图像识别方法及系统
CN115205614B (zh) * 2022-05-20 2023-12-22 深圳市沃锐图像技术有限公司 一种用于智能制造的矿石x光图像识别方法
CN115063592B (zh) * 2022-08-16 2022-12-06 之江实验室 一种基于多尺度的全扫描病理特征融合提取方法及系统
CN116416479B (zh) * 2023-06-06 2023-08-29 江西理工大学南昌校区 基于深度卷积融合多尺度图像特征的矿物分类方法
CN117115572B (zh) * 2023-10-25 2024-01-30 杭州医策科技有限公司 基于全局特征和局部特征的组织切片分类方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766099A (zh) * 2021-01-07 2021-05-07 武汉大学 一种从局部到全局上下文信息提取的高光谱影像分类方法
CN113095409A (zh) * 2021-04-13 2021-07-09 西安电子科技大学 基于注意力机制和权值共享的高光谱图像分类方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839543B2 (en) * 2019-02-26 2020-11-17 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN109871909B (zh) * 2019-04-16 2021-10-01 京东方科技集团股份有限公司 图像识别方法及装置
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110598029B (zh) * 2019-09-06 2022-03-22 西安电子科技大学 基于注意力转移机制的细粒度图像分类方法
CN112418351B (zh) * 2020-12-11 2023-04-07 天津大学 基于全局与局部上下文感知的零样本学习图像分类方法
CN112784764B (zh) * 2021-01-27 2022-07-12 南京邮电大学 一种基于局部与全局注意力机制的表情识别方法及系统
CN112784856A (zh) * 2021-01-29 2021-05-11 长沙理工大学 胸部x射线图像的通道注意力特征提取方法和识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766099A (zh) * 2021-01-07 2021-05-07 武汉大学 一种从局部到全局上下文信息提取的高光谱影像分类方法
CN113095409A (zh) * 2021-04-13 2021-07-09 西安电子科技大学 基于注意力机制和权值共享的高光谱图像分类方法

Also Published As

Publication number Publication date
CN113486981A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN113486981B (zh) 基于多尺度特征注意力融合网络的rgb图像分类方法
CN108647742B (zh) 基于轻量级神经网络的快速目标检测方法
CN111860495B (zh) 一种层级化网络结构搜索方法、设备及可读存储介质
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN107622272A (zh) 一种图像分类方法及装置
CN107239733A (zh) 连续手写字识别方法及系统
CN109740679B (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN108197326A (zh) 一种车辆检索方法及装置、电子设备、存储介质
CN110197205A (zh) 一种多特征来源残差网络的图像识别方法
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
CN112070729A (zh) 一种基于场景增强的anchor-free遥感图像目标检测方法及系统
CN110569738A (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN112163450A (zh) 基于s3d学习算法的高频地波雷达船只目标检测方法
CN112364974B (zh) 一种基于激活函数改进的YOLOv3算法
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
CN111832580B (zh) 结合少样本学习与目标属性特征的sar目标识别方法
CN114861842B (zh) 少样本目标检测方法、装置和电子设备
CN112766161A (zh) 基于集成约束多示例学习的高光谱目标检测方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN114913379A (zh) 基于多任务动态对比学习的遥感图像小样本场景分类方法
CN112329771A (zh) 一种基于深度学习的建筑材料样本识别方法
CN110263808B (zh) 一种基于lstm网络和注意力机制的图像情感分类方法
CN111598854A (zh) 基于丰富鲁棒卷积特征模型的复杂纹理小缺陷的分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant