CN113486981A

CN113486981A - 基于多尺度特征注意力融合网络的rgb图像分类方法

Info

Publication number: CN113486981A
Application number: CN202110869707.6A
Authority: CN
Inventors: 田小林; 杨婷; 黄小萃; 王凯; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-08
Anticipated expiration: 2041-07-30
Also published as: CN113486981B

Abstract

本发明提出了一种基于多尺度特征注意力融合的RGB图像分类方法，实现步骤为:(1)获取训练样本集R₁和测试样本集E₁；(2)构建基于多尺度特征注意力融合网络的图像分类模型T；(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练；(4)获取RGB图像的分类结果。本发明所构建的多尺度特征注意力融合网络可以对输入特征图进行全局特征和局部特征的提取，然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合，有效解决了深度学习中特征提取不充分的问题，有效提升了RGB图像分类的精度。

Description

基于多尺度特征注意力融合网络的RGB图像分类方法

技术领域

本发明属于图像处理技术领域，涉及一种RGB图像分类方法，具体涉及一种基于多尺度特征注意力融合网络的RGB图像分类方法，可用于目标识别、目标检测等领域。

背景技术

图像分类是计算机视觉领域的一个基本问题，任务是根据不同类别的目标各自在图像信息中所反映特征的不同，区分不同类别的图像。目前，图像分类有基于距离度量的方法、基于纹理特征的方法和基于机器学习的方法等。近年来，随着机器学习的迅速发展，RGB图像分类领域也取得了重大进展，目前已经可以在一些现实中的图像分类问题上获得较好的分类精度，图像分类技术被广泛用于目标识别、目标检测等领域。

深度学习中卷积神经网络应用的范围最广，被广泛用于图像分类中的特征提取。不同层级的卷积网络能提取到不同的图像语义特征，浅层网络获取到的图像特征大都是颜色、纹理等低级语义特征，低级特征种类丰富但辨识度不高，不适用于图像分类任务；而深层网络提取到主要是轮廓、形状等高级语义特征，高级语义特征具有较高的辨识度和代表性，但仅仅依赖高级语义特征来执行图像分类任务，又存在特征单一、缺乏多样性的问题，为了减少此类问题对图像分类精度的影响，出现了许多基于卷积神经网络的图像分类方法，例如，申请公布号为CN108985317A，名称为“一种基于可分离卷积和注意力机制的图像分类方法”的专利申请，公开了一种基于可分离卷积和注意力机制的图像分类方法。该方法首先构建原始深度卷积神经网络，然后利用训练数据集训练该网络得到训练后的深度卷积神经网络，再将验证数据集输入到上述训练的深度卷积神经网络，得到分类概率向量，选取最大值对应的分类作为数据预处理的测试结果，最后将测试结果与所述验证数据集的类别标签进行对比，得到最终分类的准确度。该方法将注意力机制与卷积神经网络相结合，提取图像的多尺度特征信息并进行融合，实现了图像分类过程中特征提取的多样性，但由于该方法只是对图像的全局特征进行提取，仍存在局部特征缺乏、特征信息不足的问题，导致RGB图像分类的精度依然较低。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于多尺度特征注意力融合网络的RGB图像分类方法，用于解决现有技术中存在的分类精度较低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集R₁和测试样本集E₁：

(1a)获取包含S个目标类别的K幅RGB图像，每个目标类别对应N幅RGB图像，其中，S≥2，K≥200，N≥100；

(1b)随机选取每个目标类别对应RGB图像中的半数以上组成数据集R₀，并对R₀中每幅RGB图像的目标进行标记后，对经过标记的每幅RGB图像进行预处理，再将所有经过预处理的RGB图像组成训练样本集R₁，同时将除R₀以外的其他RGB图像组成测试样本集E₁；

(2)构建基于多尺度特征注意力融合网络的图像分类模型T：

构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T；

多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层，该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A₁和局部注意力特征提取模块A₂组成的双支路注意力特征提取模块A，特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层；

全局注意力特征提取模块A₁包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层；

局部注意力特征提取模块A₂包括多个第四卷积层、第五卷积层和第二归一化层；

输出层包括依次层叠的最大池化层和全连接层；

(3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练：

(3a)初始化迭代次数为i，最大迭代次数为I，I≥200，第i次迭代的图像分类模型为T_i，T_i的权值参数为ω_i，并令i＝1，T_i＝T；

(3b)将从训练样本集R₁中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型T_i的输入，第一卷积层对每个训练样本进行卷积，得到第一特征图集合F＝{f₁,f₂,...,f_m,...,f_M}，其中，f_m表示第m个训练样本卷积后的第一特征图；

(3c)多尺度特征注意力融合网络对每个第一特征图f_m进行融合操作，实现步骤为：

(3c1)第二卷积层对第m个第一特征图f_m进行卷积，得到第二特征图集合F₁＝{f₁ ¹,f₂ ¹,...,f_m ¹,...,f_M ¹}，其中，f_m ¹表示f_m的卷积结果；

(3c2)特征加法层求取每个第一特征图f_m与其对应的第二卷积层的卷积结果f_m ¹的和，得到特征加法层的输出结果F₂＝{f₁ ²,f₂ ²,...,f_m ²,...,f_M ²}，其中，f_m ²＝f_m+f_m ¹；

(3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A₁对特征加法层输出的每个结果f_m ²进行全局特征提取，同时局部注意力特征提取模块A₂对特征加法层输出的每个结果f_m ²进行局部特征提取，得到A的输出结果F₃＝{f₁ ³,f₂ ³,...,f_m ³,...,f_M ³}，其中，f_m ³＝f_1m+f_2m，f_1m、f_2m分别表示f_m ²的全局特征、局部特征；

(3c4)sigmoid激活层对A的每个输出结果f_m ³进行激活，得到与f_m ³相对应的权重矩阵G_m，特征融合层将权重矩阵G_m与其相对应的第一卷积层的输出结果f_m和第二卷积层的输出结果f_m ¹进行融合，得到权重融合特征F^*＝{f₁ ^*,f₂ ^*,...,f_m ^*,...,f_M ^*}，其中，f_m ^*表示对f_m和f_m ¹进行权重融合后得到的特征；

(3d)输出层中的最大池化层对每个f_m ^*进行最大池化，全连接层对f_m ^*的最大池化结果进行分类，得到M个训练样本的预测标签y＝{y₁,y₂,...,y_m,...,y_M}，其中，y_m表示第m个训练样本对应的预测标签；

(3e)采用交叉熵损失函数，并通过每个预测标签y_m及其对应的真实标签y_m ^*计算T_i的损失值L_i，然后求取L_i对权值参数ω_i的偏导

再采用梯度下降法，通过将

在T_i中进行反向传播的方式对权值参数ω_i进行更新；

(3f)判断i≥I是否成立，若是，得到训练好的图像分类模型T^*，否则，令i＝i+1，并执行步骤(3b)；

(4)获取RGB图像的分类结果：

将测试样本集E₁作为训练好的图像分类模型T^*的输入进行前向传播，得到分类结果。

本发明与现有技术相比，具有如下优点：

本发明所构建的多尺度特征注意力融合网络包括有全局注意力特征提取模块和局部注意力特征提取模块，在对图像分类模型进行迭代训练，以及获取RGB图像分类结果的过程中，全局注意力特征提取模块可以对特征加法层得到的特征图进行全局特征的提取，同时，局部注意力特征提取模块可以对特征加法层得到的特征图进行局部特征的提取，然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合，避免了现有技术在特征提取时只进行全局特征提取而导致的局部特征缺失、特征信息不足的缺陷，有效提高了图像分类的精度。

附图说明

图1为本发明的实现流程图；

图2为本发明构建的多尺度特征注意力融合网络模型的结构示意图；

图3为本发明构建的多尺度特征注意力融合网络的结构示意图；

图4为本发明构建的双支路注意力特征提取模块的结构示意图。

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集R₁和测试样本集E₁：

步骤1a)从Cifar10图像分类数据集中获取包含S个目标类别的K幅RGB图像，每个目标类别对应N幅RGB图像，其中，S≥2，K≥200，N≥100；其中，本实施例中S＝10，K＝60000。

步骤1b)随机选取每个目标类别对应RGB图像中的80％以上组成数据集R₀，并对R₀中每幅RGB图像的目标进行标记后，对经过标记的每幅RGB图像进行预处理，再将所有经过预处理的RGB图像组成训练样本集R₁，同时将除R₀以外的其他RGB图像组成测试样本集E₁；

对经过标记的每幅RGB图像进行预处理，实现步骤为：对经过标记的每幅RGB图像围绕其竖直方向的中心轴进行水平翻转，并对经过水平翻转的RGB图像的亮度、对比度和饱和度随机进行调整，实现对每幅RGB图像的预处理，该操作可以实现图像分类模型在特征提取过程中能够提取到更多的有用信息。

步骤2)构建基于多尺度特征注意力融合网络的图像分类模型T：

构建包括顺次连接的第一卷积层、多尺度特征注意力融合网络、输出层的图像分类模型T，其结构如图2所示；

多尺度特征注意力融合网络包括顺次连接的第二卷积层、特征加法层、sigmoid激活层和特征融合层，该特征加法层与sigmoid激活层之间加载有由并行排布的全局注意力特征提取模块A₁和局部注意力特征提取模块A₂组成的双支路注意力特征提取模块A，特征融合层包括两个并行排布的特征乘法层及与其级联的特征加法层，其网络结构如图3所示；

双支路注意力特征提取模块A中的全局注意力特征提取模块A₁包括全局平均池化层、多个第三卷积层、多个第一归一化层、Relu激活层，局部注意力特征提取模块A₂包括多个第四卷积层、第五卷积层和第二归一化层，本实施例中，第三卷积层、第四卷积层和第一归一化层的数量均为2个，其结构如图4所示；

输出层包括依次层叠的最大池化层和全连接层；

基于多尺度特征注意力融合网络的图像分类模型T所包含的第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层的参数设置为：

第一卷积层和第二卷积层的卷积核大小分别为5和3，卷积核的个数均为256，卷积步长均为1；第三卷积层的卷积核大小为1，卷积步长为1，卷积核的个数分别为64和256；第四卷积层的卷积核大小为1，卷积步长为1，卷积核的个数为256，第五卷积层的卷积核大小为3，卷积步长为1，扩张率为2，卷积核的个数为64。

步骤3)对基于多尺度特征注意力融合网络的图像分类模型T进行迭代训练：

步骤3a)初始化迭代次数为i，最大迭代次数为I，I≥200，第i次迭代的图像分类模型为T_i，T_i的权值参数为ω_i，并令i＝1，T_i＝T；在本实施例中，I＝300；

步骤3b)将从训练样本集R₁中有放回且随机选取的M个训练样本作为基于多尺度特征注意力融合网络的图像分类模型T_i的输入，第一卷积层对每个训练样本进行卷积，得到第一特征图集合F＝{f₁,f₂,...,f_m,...,f_M}，其中，f_m表示第m个训练样本卷积后的第一特征图；

步骤3c)多尺度特征注意力融合网络对每个第一特征图f_m进行融合操作，实现步骤为：

步骤3c1)第二卷积层对第m个第一特征图f_m进行卷积，得到第二特征图集合F₁＝{f₁ ¹,f₂ ¹,...,f_m ¹,...,f_M ¹}，其中，f_m ¹表示f_m的卷积结果；

步骤3c2)特征加法层求取每个第一特征图f_m与其对应的第二卷积层的卷积结果f_m ¹的和，得到特征加法层的输出结果F₂＝{f₁ ²,f₂ ²,...,f_m ²,...,f_M ²}，其中，f_m ²＝f_m+f_m ¹；

步骤3c3)双支路注意力特征提取模块A中的全局注意力特征提取模块A₁对特征加法层输出的每个结果f_m ²进行全局特征提取，同时局部注意力特征提取模块A₂对特征加法层输出的每个结果f_m ²进行局部特征提取，得到A的输出结果F₃＝{f₁ ³,f₂ ³,...,f_m ³,...,f_M ³}，其中，f_m ³＝f_1m+f_2m，f_1m、f_2m分别表示f_m ²的全局特征、局部特征；

全局注意力特征提取模块A₁对特征加法层输出的每个结果f_m ²进行全局特征提取，具体实现步骤为：首先全局平均池化层对输入的特征图f_m ²进行全局平均池化，得到尺寸为1×1×C的特征图f_a1，然后第三卷积层对f_a1进行卷积，得到尺寸为

的特征图f_a2，第一归一化层对特征图f_a2进行归一化处理，得到尺寸为

的特征图f_a3，Relu激活层对f_a3进行激活，得到尺寸

的特征图f_a4，之后第三卷积层对f_a4进行卷积，得到尺寸为1×1×C的特征图f_a5，第一归一化层对特征图f_a5进行归一化处理，最终得到输入特征图f_m ²对应的全局特征f_1m，其中，C为特征图的通道数，r为通道缩放率；

局部注意力特征提取模块A₂对特征加法层输出的每个结果f_m ²进行局部特征提取,具体实现步骤为：首先第四卷积层对输入的特征图f_m ²进行逐点卷积，得到尺寸为H×W×C的特征图f_l1，然后第五卷积层对f_l1进行空洞卷积，得到尺寸为

的特征图f_l2，之后第四卷积层对f_l2进行逐点卷积，得到尺寸为H×W×C的特征图f_l3，第二归一化层对特征图f_l3进行归一化处理，最终得到输入特征图f_m ²对应的局部特征f_2m，其中，H、W、C为特征图的高度、宽度和通道数，r为通道缩放率。

步骤3c4)sigmoid激活层对A的每个输出结果f_m ³进行激活，得到与f_m ³相对应的权重矩阵G_m，特征融合层将权重矩阵G_m与其相对应的第一卷积层的输出结果f_m和第二卷积层的输出结果f_m ¹进行融合，得到权重融合特征F^*＝{f₁ ^*,f₂ ^*,...,f_m ^*,...,f_M ^*}，其中，f_m ^*表示对f_m和f_m ¹进行权重融合后得到的特征；

特征融合层将权重矩阵G_m与其相对应的第一卷积层的输出结果f_m和第二卷积层的输出结果f_m ¹进行融合，具体实现步骤为：

特征融合层所包含的两个并行排布的特征乘法层中的一个特征乘法层求取权重矩阵G_m与其相对应的第一卷积层输出的结果f_m的乘积，同时另一个特征乘法层求取(1-G_m)与其相对应的第二卷积层的输出结果f_m ¹的乘积，特征加法层将两个特征乘法层的输出结果进行相加，得到f_m与f_m ¹进行权重融合后的特征f_m ^*。

步骤3d)输出层中的最大池化层对每个f_m ^*进行最大池化，全连接层对f_m ^*的最大池化结果进行分类，得到M个训练样本的预测标签y＝{y₁,y₂,...,y_m,...,y_M}，其中，y_m表示第m个训练样本对应的预测标签；在本实施例中，M＝64。

步骤3e)采用交叉熵损失函数，并通过每个预测标签y_m及其对应的真实标签y_m ^*计算T_i的损失值L_i，然后求取L_i对权值参数ω_i的偏导

再采用梯度下降法，通过将

在T_i中进行反向传播的方式对权值参数ω_i进行更新；

计算T_i的损失值L_i、对权值参数ω_i进行更新，计算、更新公式分别为：

其中,ln表示以自然常数e为底的对数，ω_i ^*表示ω_i的更新结果，η表示L_i的学习率，

表示求导操作。

步骤3f)判断i≥I是否成立，若是，得到训练好的图像分类模型T^*，否则，令i＝i+1，并执行步骤(3b)；

步骤4)获取RGB图像的分类结果：

本发明所构建的RGB图像分类模型，其中包括的多尺度特征注意力融合网络可以对输入特征图进行全局特征和局部特征的提取，然后通过sigmoid激活层和特征融合层对获得的全局特征和局部特征进行融合，有效解决了深度学习中特征提取不充分的问题，进一步提升了深度神经网络对RGB图像分类的精度，所以本发明的分类精度明显优于现有技术。

下面结合仿真实验对本发明的效果作进一步说明。

1.仿真条件和内容：

本发明仿真实验所使用的硬件测试平台是：处理器为

Core^TMi7-7800X CPUx 12，主频为3.2GHz，内存8GB；软件平台为:Python 3.7，Pytorch 1.0；操作系统是Ubuntu16.04LTS 64位操作系统。

仿真实验中用到的RGB图像分类数据集为Cifar10数据集，该数据集中的图像采集自互联网。Cifar10数据集包含10个类别的60000幅RGB图像，仿真实验选取该数据集中的所有RGB图像作为该实验的数据集，然后选取每个类别对应RGB图像中的80％以上组成数据集R₀，将进行预处理后的R₀组成训练样本集R₁，同时将除R₀以外的其它RGB图像组成测试样本集E₁。

对本发明与现有的基于可分离卷积和注意力机制的图像分类方法的分类精度进行对比仿真，其结果如表1所示。

2.仿真结果分析：

参照表1，本发明在测试样本集上E₁的分类精度为96.56％，现有技术在测试样本集E₁上的分类精度为91.22％。本发明相对于现有技术，图像分类精度提高了5.34％。

表1

评价指标	本发明	SCAAM
			分类准确率(％)	96.56	91.22

综合上述仿真结果的分析，本发明提出的多尺度特征注意力融合网络有效解决了深度学习中特征提取不充分的问题，实现了RGB图像分类精度的提高。

Claims

1.一种基于多尺度特征注意力融合网络的RGB图像分类方法，其特征在于，包括如下步骤：

(1)获取训练样本集R₁和测试样本集E₁：

(2)构建基于多尺度特征注意力融合网络的图像分类模型T：

输出层包括依次层叠的最大池化层和全连接层；

再采用梯度下降法，通过将

在T_i中进行反向传播的方式对权值参数ω_i进行更新；

(4)获取RGB图像的分类结果：

2.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法，其特征在于，步骤(1b)中所述的对经过标记的每幅RGB图像进行预处理，实现步骤为：

对经过标记的每幅RGB图像围绕其竖直方向的中心轴进行水平翻转，并对经过水平翻转的RGB图像的亮度、对比度和饱和度随机进行调整，实现对每幅RGB图像的预处理。

3.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法，其特征在于，步骤(2)中所述的基于多尺度特征注意力融合网络的图像分类模型T，其中：

第一卷积层和第二卷积层的卷积核大小分别为5和3，卷积核的个数均为256，卷积步长均为1；

全局注意力特征提取模块A₁包括的第三卷积层和第一归一化层的数量均为2个，第三卷积层的卷积核大小为1，卷积步长为1，卷积核的个数分别为64和256；该全局注意力特征提取模块A₁的具体结构为：全局平均池化层、第三卷积层、第一归一化层、Relu激活层、第三卷积层、第一归一化层；

局部注意力特征提取模块A₂包括的第四卷积层的数量为2个，第四卷积层的卷积核大小为1，卷积步长为1，卷积核的个数为256，第五卷积层的卷积核大小为3，卷积步长为1，扩张率为2，卷积核的个数为64，该局部注意力特征提取模块A₂的具体结构为：第四卷积层、第五卷积层、第四卷积层、第二归一化层。

4.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法，其特征在于，步骤(3c4)中所述的特征融合层将权重矩阵G_m与其相对应的第一卷积层的输出结果f_m和第二卷积层的输出结果f_m ¹进行融合，实现步骤为：

5.根据权利要求1所述的基于多尺度特征注意力融合网络的RGB图像分类方法，其特征在于，所述(3e)中所述的计算T_i的损失值L_i、对权值参数ω_i进行更新，计算、更新公式分别为：

其中,ln表示以自然常数e为底的对数，

表示ω_i的更新结果，η表示L_i的学习率，

表示求导操作。