CN113344070A

CN113344070A - 一种基于多头自注意力模块的遥感图像分类系统及方法

Info

Publication number: CN113344070A
Application number: CN202110609315.6A
Authority: CN
Inventors: 业巧林; 范习健; 李彦甫; 母园
Original assignee: Nanjing Forestry University
Current assignee: Nanjing Forestry University
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-09-03

Abstract

本发明公开了一种基于多头自注意力模块的遥感图像分类系统及方法，分类模型的框架网络主干采用的是RestNet50卷积神经网络，分类模型将RestNet50卷积神经网络最后三个瓶颈层模块替换为多头自注意力模块；模型包括：缩放点积注意力模块，用于将输入分类模型的检测图像参数进行运缩放点积注意力处理；多头自注意力模块，用于感知检测图像中可识别度最高的区域；第一归一化及残差连接模块、第二归一化及残差连接模块，用于保持检测图像参数在输入分类模型后与输入分类模型前维度上的一致，降低在分类模型网络中发生梯度消失的可能；全连接模块，用于对检测图像进行特征提取。

Description

一种基于多头自注意力模块的遥感图像分类系统及方法

技术领域

本发明涉及图像识别技术领域，具体为一种基于多头自注意力模块的遥感图像分类系统及方法。

背景技术

在实际生产生活中，遥感图像被应用于诸多领域，其中，在城市规划、森林状态评估、生态环境监测等方面，遥感图像都起着至关重要的作用；这些应用的主要目的是通过对采集到的遥感图像特征进行提取和分析，准确判断出图像中所包含的主要目标类别，如建筑、森林或湿地等。目前，实现遥感图像分类的主要手段主要是利用计算机技术模拟生物对视觉的感知能力，对遥感图像中每个像素根据特征的异同，如光谱亮度、空间结构特征等，按照某种流程或规则对属性进行自动判别和分类，以实现提取图像中包含的地物信息的目标。在对遥感图像分类早期的研究当中，研究者主要选择手工提取图像特征的方法分类遥感图像，但伴随图像采集技术的不断发展，获取遥感图像的方法逐渐具有采集速度快、采集信息量巨大等特点，且由于人工提取出的图像特征所包含的信息量小、有效性低等特点，传统的手工特征提取方法难以满足遥感图像广泛应用的需求；随着研究的不断深入，研究者开始尝试融合不同的人工提取方法提取出的图像特征，其中，常用的图像特征提取方法有HOG、ORB、SIFT等；在结合不同人工提取的图像特征的过程中，需要不停地调整每种提取方法提取到的图像特征的权值参数大小，以得到更优的效果。虽然给定的权值参数大小在某些遥感图像分类上取得较高的精度，但在规模很大的数据集中使用该方法时十分困难。因此，为解决传统的图像分类方法在特征提取分析中存在的速度慢和精度低的问题，模糊聚类分类法和机器学习等方法被综合应用到对图像特征提取和分析方法中。

近年来，深度学习技术被广泛应用在计算机视觉领域，其中，深度卷积神经网络CNN使得图像分类效率和准确度具有显著的提高。不同于传统的分类方法，CNN具有局部感知和权值共享的特点。局部感知即CNN每层中的每个神经元只需要从当前层输入图像中提取局部的像素特征，在网络的深层中将这些局部信息合并，从而得到图像的所有特征。目前，基于CNN的图像识别分类算法在计算机视觉领域中取得了重大突破。

为了在已有分类方法基础上提高遥感图像的分类效率和精度，本发明提出了一种基于多头自注意力模块的遥感图像分类系统及方法；鉴于已有的卷积神经网络在遥感图像分类的精度较高，本系统框架选择使用ResNet50作为主干网络，并将ResNet50最后三个瓶颈层的中间层替换为多头自注意力模块，本发明与目前已有的遥感图像分类系统相比，在精度上有明显提高，并且减少了框架的参数，提高了分类的速度。

发明内容

本发明的目的在于提供一种基于多头自注意力模块的遥感图像分类系统及方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：一种基于多头自注意力模块的遥感图像分类方法，其特征在于，分类方法的工作流程如下：

S100：上传检测图像，对检测图像的图像参数进行提取并进行缩放点积注意力处理；得到第一处理结果；

S200：将步骤S100得到的诸多个第一处理结果进行连接处理，得到连接处理结果；

S300：将连接处理结果进行一次归一化处理和残差连接，得到第二处理结果；

S400：将第二处理结果进行特征信息提取；

S500：将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果；

上述方法加入了步骤S200有利于在对检测图像进行分类时，捕捉更多检测图像的特征信息，提高分类速度。

进一步的，检测图像的图像参数初始化采用的是正态随机生成的方式；

该初始化方法使得在进行图像分类时可以对于训练所使用的参数集更加敏感，同时提高系统的分类精度。

进一步的，步骤S100中的图像参数包括：检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵；

检测图像的键矩阵指检测图像中某个区域的矩阵；检测图像的值矩阵是指将检测图像的向量或者矩阵和检测图像的键矩阵进行点乘得到的矩阵；

缩放点积注意力处理公式如下：

其中，Q表示检测图像的向量或者矩阵；K表示检测图像的键矩阵，而K^T表示K矩阵的转置矩阵；V表示检测图像的值矩阵；

表示缩放因子；

因Softmax在对数据进行分类时，如果输入数据过大或者过小，会出现识别能力较差，识别率较低的情况，该步骤的设置有利于提高softmax的分类能力。

进一步的，步骤S100中的缩放点积注意力处理的处理过程如下：

S101：先将检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵：Q·W_i ^Q、K·W_i ^K、V·W_i ^V；

S102：将矩阵：Q·W_i ^Q、K·W_i ^K、V·W_i ^V带入缩放点积注意力处理公式得到：

其中，Q·W_i ^Q表示经过多次不同线性映射运算后的检测图像的向量或者矩阵；K·W_i ^K表示经过多次不同线性映射运算后的检测图像的键矩阵；V·W_i ^V表示经过多次不同线性映射运算后的检测图像的值矩阵；(K·W_i ^K)^T表示K·W_i ^K矩阵的转置矩阵；

表示缩放因子。

进一步的，步骤S200中多头自注意力处理包括以下过程：

S210：将步骤S100得到的一次处理结果作为多头注意力运算中的一个头，即：

head_i＝Attention(Q·W_i ^Q，K·W_i ^K，V·W_i ^V)

其中，i表示第i次缩放点积注意力运算；head_i表示第i个头；

S220：将每一次缩放点积注意力处理后得到的结果进行连接处理；即：

MultiHead(Q，K，V)＝Concat(head₁，head₂，...head_i)

多头自注意力模块的处理过程有助于本分类模型网络捕捉到更丰富的特征或者信息，缓解分类模型运行过程中梯度消失的问题。

进一步的，第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法，归一化方法过程如下：

SS100：获取检测图像的高度H_input，宽度W_input，计算检测图像的纵横比，公式下：

SS200：获取目标图像的高度H_goal，宽度W_goal，计算检测图像的纵横比，公式下：

SS300：若AspectRatio_input＝AspectRatio_goal，使用最近邻插值方法对检测图像直接进行裁剪，使检测图像尺寸直接等同于目标图像的尺寸；edge_short＝min(H_input，W_input)

SS400：若AspectRatio_input≠AspectRatio_goal，计算检测图像的两边边长，公式如下：

edge_short＝min(H_input，W_input)

edge_long＝max(H_input，W_input)

其中，edge_short表示短边边长，edge_long代表长边边长；

SS500：在长边边长中以短边边长作为度量，计算步长，截取长度为步长值的图像，将检测图像转化成了纵横比与目标图像的纵横比相同的小图像，步长的计算公式如下：

SS600：将步骤SS500得到的小图像进行等比变换，并将其归一化，使得最终得到的图像与目标图像尺寸保持一致；

归一化运算的流程，主要是把输入的参数转换到0-1区间内，避免输入参数数量级差别太大，将参数进行归一化处理有利于后续的参数处理与利用。

进一步的，步骤S400中的特征提取应用以下公式：

FNN(x)＝max(0,W₁·x+b₁)·W₂+b₂

其中，b₁、b₂分别代表第一偏差参数、第二偏差参数，x为步骤S300得到的第二处理结果。

为实现上述方法，本发明还提供了一种基于多头自注意力模块的遥感图像分类系统，其特征在于：分类系统包括：

缩放点积注意力模块，缩放点积注意力模块用于将输入分类模型的检测图像参数进行运缩放点积注意力处理；

多头自注意力模块，多头自注意力模块用于感知检测图像中可识别度最高的区域；

第一归一化及残差连接模块、第二归一化及残差连接模块，第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入分类系统后与输入分类系统前维度上的一致，降低在分类系统的网络中发生梯度消失的可能；

全连接模块，全连接模块用于对检测图像进行特征提取；

全连接模块的设置可将本分类模型中的输入和输出进行连接，且全连接模块具有吞吐量大、可靠性高、低延时的特点。

与现有技术相比，本发明所达到的有益效果是：本发明在系统框架上选择使用ResNet50作为主干网络，并将ResNet50最后三个瓶颈层的中间层替换为多头自注意力模块，与目前已有的遥感图像分类系统相比，本专利提出的分类系统在精度上有明显提高，并且减少了系统的参数，提高了系统分类的速度。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是一种基于多头自注意力模块的遥感图像分类系统的结构示意图；

图2是一种基于多头自注意力模块的遥感图像分类方法的工作流程示意图；

图3是不同参数集在不同分类系统中精度的比较结果的示意图；

图4是不同分类系统包含的参数数量的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

“softmax”逻辑回归模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签y可以取两个以上的值。Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的，该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的，不过后面也会介绍它与深度学习无监督学习方法的结合。

“FNN”前馈神经网络是神经网络中最基本也是最经典的形式，结构包括输入层，隐藏层和输出层，根据隐藏层的多少，分为shallow network和deep network。

损失函数“Loss(y,k)”用于测量预测类别与真实类别之间的差距，“交叉熵损失函数”是一种常用的损失函数，交叉熵就是用来判断实际输出与期望输出的接近程度，它刻画的是两个概率分布之间的距离。

请参阅图1-4，本发明提供技术方案：一种基于多头自注意力模块的遥感图像分类方法，其特征在于，分类方法的工作流程如下：

S100：上传检测图像，对检测图像的图像参数进行提取并进行缩放点积注意力处理；得到第一处理结果；检测图像的图像参数初始化采用的是正态随机生成的方式；该初始化方法使得在进行图像分类时可以对于训练所使用的参数集更加敏感，同时提高系统的分类精度；

其中，图像参数包括：检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵；

缩放点积注意力处理公式如下：

表示缩放因子；

步骤S100中的缩放点积注意力处理的处理过程如下：

表示缩放因子；

其中，多头自注意力处理包括以下过程：

head_i＝Attention(Q·W_i ^Q，K·W_i ^K，V·W_i ^V)

其中，i表示第i次缩放点积注意力运算；head_i表示第i个头；

MultiHead(Q，K，V)＝Concat(head₁，head₂，…head_i)

其中，第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法，归一化方法过程如下：

edge_short＝min(H_input，W_input)

edge_long＝max(H_input，W_input)

其中，edge_short表示短边边长，edge_long代表长边边长；

S400：将第二处理结果进行特征信息提取；

其中，特征提取应用以下公式：

FNN(x)＝max(0,W₁·x+b₁)·W₂+b₂

S500：将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果。

为实现上述方法，本发明还提供了一种基于多头自注意力模块的遥感图像分类系统，其特征在于：分类系统的框架网络主干采用的是RestNet50卷积神经网络，分类系统将RestNet50卷积神经网络最后三个瓶颈层模块替换为多头自注意力模块；

分类系统包括：

全连接模块，全连接模块用于对检测图像进行特征提取；

分类系统的工作流程如下：

SS100：上传检测图像至分类系统，先将检测图像传输至缩放点积注意力模块，缩放点积注意力模块对检测图像进行图像参数矩阵的提取并进行缩放点积注意力处理；

SSS200：缩放点积注意力模块将处理后的图像信息矩阵输入多头自注意力模块，多头自注意力模块将每一次缩放点积注意力模块处理后得到的结果进行连接处理；

SSS300：多头自注意力模块将连接处理结果输入第一归一化及残差连接模块进行第一次归一化处理和残差连接；

SSS400：第一归一化处理和残差连接模块将运算结果输入全连接模块进行特征信息提取；

SSS500：全连接模块将特征信息输入第二归一化处理和残差连接模块进行第二次归一化处理和残差连接得到最终的图像分类结果。

在对分类系统进行训练的过程中，采用的是交叉熵损失函数来计算分类系统框架在输入的参数集上的损失值；

公式如下：

其中，变量y为分类模型中根据输入参数输出的类别预测概率，y是张量，y[j]指的是y的第j维，即输入图像预测为第j类的概率；变量k为输入图像的实际类别号。

如图3所示，本发明提出的系统框架相比目前已有的几种分类系统系统，在RSSCN7和EuroSAT数据集上得到了最高的分类精度(91.310％，97.877％)。且对比本发明提出的系统框架使用的主干网络ResNet50框架，分类精度也有了明显的提高。在PatternNet参数集上，本发明提出的系统框架分类精度与ResNet50分类精度接近，但对比ViT分类系统，该系统框架分类精度较低；经过分析得出，由于ViT分类系统输入图片尺寸为224×224，而本专利提出的系统框架输入尺寸为200×200，于图像的下采样使得图像丢失部分特征，使得本发明提出的框架分类精度比ViT系统分类精度低。由此可以得出本发明提出的系统框架能够更加准确的感知到在图像中最具有辨别力的区域，使得分类精度更加准确。

如图4所示，本发明提出的分类系统框架包含了20.8×106个参数，ResNet50框架中包含了25.5×106个参数。在以ResNet50为主干网络，使用多头自注意力模块替换其中部分结构后，参数量有了明显的降低，减少了显存的开销和运行时的计算量；且本发明提出的系统框架在RSSCN7、EuroSAT参数集上具有最优的分类效果，参数量与分类速度都得到了优化。相比已有的遥感图像分类系统框架，本发明提出的系统框架能够在GPU加速的环境中，取得更高精度的分类效果，减少系统框架中包含的参数，降低对显存的占用。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。