CN113344070A - 一种基于多头自注意力模块的遥感图像分类系统及方法 - Google Patents

一种基于多头自注意力模块的遥感图像分类系统及方法 Download PDF

Info

Publication number
CN113344070A
CN113344070A CN202110609315.6A CN202110609315A CN113344070A CN 113344070 A CN113344070 A CN 113344070A CN 202110609315 A CN202110609315 A CN 202110609315A CN 113344070 A CN113344070 A CN 113344070A
Authority
CN
China
Prior art keywords
image
matrix
input
processing
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110609315.6A
Other languages
English (en)
Inventor
业巧林
范习健
李彦甫
母园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Forestry University
Original Assignee
Nanjing Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Forestry University filed Critical Nanjing Forestry University
Priority to CN202110609315.6A priority Critical patent/CN113344070A/zh
Publication of CN113344070A publication Critical patent/CN113344070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多头自注意力模块的遥感图像分类系统及方法,分类模型的框架网络主干采用的是RestNet50卷积神经网络,分类模型将RestNet50卷积神经网络最后三个瓶颈层模块替换为多头自注意力模块;模型包括:缩放点积注意力模块,用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;多头自注意力模块,用于感知检测图像中可识别度最高的区域;第一归一化及残差连接模块、第二归一化及残差连接模块,用于保持检测图像参数在输入分类模型后与输入分类模型前维度上的一致,降低在分类模型网络中发生梯度消失的可能;全连接模块,用于对检测图像进行特征提取。

Description

一种基于多头自注意力模块的遥感图像分类系统及方法
技术领域
本发明涉及图像识别技术领域,具体为一种基于多头自注意力模块的遥感图像分类系统及方法。
背景技术
在实际生产生活中,遥感图像被应用于诸多领域,其中,在城市规划、森林状态评估、生态环境监测等方面,遥感图像都起着至关重要的作用;这些应用的主要目的是通过对采集到的遥感图像特征进行提取和分析,准确判断出图像中所包含的主要目标类别,如建筑、森林或湿地等。目前,实现遥感图像分类的主要手段主要是利用计算机技术模拟生物对视觉的感知能力,对遥感图像中每个像素根据特征的异同,如光谱亮度、空间结构特征等,按照某种流程或规则对属性进行自动判别和分类,以实现提取图像中包含的地物信息的目标。在对遥感图像分类早期的研究当中,研究者主要选择手工提取图像特征的方法分类遥感图像,但伴随图像采集技术的不断发展,获取遥感图像的方法逐渐具有采集速度快、采集信息量巨大等特点,且由于人工提取出的图像特征所包含的信息量小、有效性低等特点,传统的手工特征提取方法难以满足遥感图像广泛应用的需求;随着研究的不断深入,研究者开始尝试融合不同的人工提取方法提取出的图像特征,其中,常用的图像特征提取方法有HOG、ORB、SIFT等;在结合不同人工提取的图像特征的过程中,需要不停地调整每种提取方法提取到的图像特征的权值参数大小,以得到更优的效果。虽然给定的权值参数大小在某些遥感图像分类上取得较高的精度,但在规模很大的数据集中使用该方法时十分困难。因此,为解决传统的图像分类方法在特征提取分析中存在的速度慢和精度低的问题,模糊聚类分类法和机器学习等方法被综合应用到对图像特征提取和分析方法中。
近年来,深度学习技术被广泛应用在计算机视觉领域,其中,深度卷积神经网络CNN使得图像分类效率和准确度具有显著的提高。不同于传统的分类方法,CNN具有局部感知和权值共享的特点。局部感知即CNN每层中的每个神经元只需要从当前层输入图像中提取局部的像素特征,在网络的深层中将这些局部信息合并,从而得到图像的所有特征。目前,基于CNN的图像识别分类算法在计算机视觉领域中取得了重大突破。
为了在已有分类方法基础上提高遥感图像的分类效率和精度,本发明提出了一种基于多头自注意力模块的遥感图像分类系统及方法;鉴于已有的卷积神经网络在遥感图像分类的精度较高,本系统框架选择使用ResNet50作为主干网络,并将ResNet50最后三个瓶颈层的中间层替换为多头自注意力模块,本发明与目前已有的遥感图像分类系统相比,在精度上有明显提高,并且减少了框架的参数,提高了分类的速度。
发明内容
本发明的目的在于提供一种基于多头自注意力模块的遥感图像分类系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于多头自注意力模块的遥感图像分类方法,其特征在于,分类方法的工作流程如下:
S100:上传检测图像,对检测图像的图像参数进行提取并进行缩放点积注意力处理;得到第一处理结果;
S200:将步骤S100得到的诸多个第一处理结果进行连接处理,得到连接处理结果;
S300:将连接处理结果进行一次归一化处理和残差连接,得到第二处理结果;
S400:将第二处理结果进行特征信息提取;
S500:将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果;
上述方法加入了步骤S200有利于在对检测图像进行分类时,捕捉更多检测图像的特征信息,提高分类速度。
进一步的,检测图像的图像参数初始化采用的是正态随机生成的方式;
该初始化方法使得在进行图像分类时可以对于训练所使用的参数集更加敏感,同时提高系统的分类精度。
进一步的,步骤S100中的图像参数包括:检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵;
检测图像的键矩阵指检测图像中某个区域的矩阵;检测图像的值矩阵是指将检测图像的向量或者矩阵和检测图像的键矩阵进行点乘得到的矩阵;
缩放点积注意力处理公式如下:
Figure BDA0003094953230000031
其中,Q表示检测图像的向量或者矩阵;K表示检测图像的键矩阵,而KT表示K矩阵的转置矩阵;V表示检测图像的值矩阵;
Figure BDA0003094953230000032
表示缩放因子;
因Softmax在对数据进行分类时,如果输入数据过大或者过小,会出现识别能力较差,识别率较低的情况,该步骤的设置有利于提高softmax的分类能力。
进一步的,步骤S100中的缩放点积注意力处理的处理过程如下:
S101:先将检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵:Q·Wi Q、K·Wi K、V·Wi V
S102:将矩阵:Q·Wi Q、K·Wi K、V·Wi V带入缩放点积注意力处理公式得到:
Figure BDA0003094953230000033
其中,Q·Wi Q表示经过多次不同线性映射运算后的检测图像的向量或者矩阵;K·Wi K表示经过多次不同线性映射运算后的检测图像的键矩阵;V·Wi V表示经过多次不同线性映射运算后的检测图像的值矩阵;(K·Wi K)T表示K·Wi K矩阵的转置矩阵;
Figure BDA0003094953230000034
表示缩放因子。
进一步的,步骤S200中多头自注意力处理包括以下过程:
S210:将步骤S100得到的一次处理结果作为多头注意力运算中的一个头,即:
headi=Attention(Q·Wi Q,K·Wi K,V·Wi V)
其中,i表示第i次缩放点积注意力运算;headi表示第i个头;
S220:将每一次缩放点积注意力处理后得到的结果进行连接处理;即:
MultiHead(Q,K,V)=Concat(head1,head2,...headi)
多头自注意力模块的处理过程有助于本分类模型网络捕捉到更丰富的特征或者信息,缓解分类模型运行过程中梯度消失的问题。
进一步的,第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法,归一化方法过程如下:
SS100:获取检测图像的高度Hinput,宽度Winput,计算检测图像的纵横比,公式下:
Figure BDA0003094953230000041
SS200:获取目标图像的高度Hgoal,宽度Wgoal,计算检测图像的纵横比,公式下:
Figure BDA0003094953230000042
SS300:若AspectRatioinput=AspectRatiogoal,使用最近邻插值方法对检测图像直接进行裁剪,使检测图像尺寸直接等同于目标图像的尺寸;edgeshort=min(Hinput,Winput)
SS400:若AspectRatioinput≠AspectRatiogoal,计算检测图像的两边边长,公式如下:
edgeshort=min(Hinput,Winput)
edgelong=max(Hinput,Winput)
其中,edgeshort表示短边边长,edgelong代表长边边长;
SS500:在长边边长中以短边边长作为度量,计算步长,截取长度为步长值的图像,将检测图像转化成了纵横比与目标图像的纵横比相同的小图像,步长的计算公式如下:
Figure BDA0003094953230000043
SS600:将步骤SS500得到的小图像进行等比变换,并将其归一化,使得最终得到的图像与目标图像尺寸保持一致;
归一化运算的流程,主要是把输入的参数转换到0-1区间内,避免输入参数数量级差别太大,将参数进行归一化处理有利于后续的参数处理与利用。
进一步的,步骤S400中的特征提取应用以下公式:
FNN(x)=max(0,W1·x+b1)·W2+b2
其中,b1、b2分别代表第一偏差参数、第二偏差参数,x为步骤S300得到的第二处理结果。
为实现上述方法,本发明还提供了一种基于多头自注意力模块的遥感图像分类系统,其特征在于:分类系统包括:
缩放点积注意力模块,缩放点积注意力模块用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;
多头自注意力模块,多头自注意力模块用于感知检测图像中可识别度最高的区域;
第一归一化及残差连接模块、第二归一化及残差连接模块,第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入分类系统后与输入分类系统前维度上的一致,降低在分类系统的网络中发生梯度消失的可能;
全连接模块,全连接模块用于对检测图像进行特征提取;
全连接模块的设置可将本分类模型中的输入和输出进行连接,且全连接模块具有吞吐量大、可靠性高、低延时的特点。
与现有技术相比,本发明所达到的有益效果是:本发明在系统框架上选择使用ResNet50作为主干网络,并将ResNet50最后三个瓶颈层的中间层替换为多头自注意力模块,与目前已有的遥感图像分类系统相比,本专利提出的分类系统在精度上有明显提高,并且减少了系统的参数,提高了系统分类的速度。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是一种基于多头自注意力模块的遥感图像分类系统的结构示意图;
图2是一种基于多头自注意力模块的遥感图像分类方法的工作流程示意图;
图3是不同参数集在不同分类系统中精度的比较结果的示意图;
图4是不同分类系统包含的参数数量的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
“softmax”逻辑回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值。Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它与深度学习无监督学习方法的结合。
“FNN”前馈神经网络是神经网络中最基本也是最经典的形式,结构包括输入层,隐藏层和输出层,根据隐藏层的多少,分为shallow network和deep network。
损失函数“Loss(y,k)”用于测量预测类别与真实类别之间的差距,“交叉熵损失函数”是一种常用的损失函数,交叉熵就是用来判断实际输出与期望输出的接近程度,它刻画的是两个概率分布之间的距离。
请参阅图1-4,本发明提供技术方案:一种基于多头自注意力模块的遥感图像分类方法,其特征在于,分类方法的工作流程如下:
S100:上传检测图像,对检测图像的图像参数进行提取并进行缩放点积注意力处理;得到第一处理结果;检测图像的图像参数初始化采用的是正态随机生成的方式;该初始化方法使得在进行图像分类时可以对于训练所使用的参数集更加敏感,同时提高系统的分类精度;
其中,图像参数包括:检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵;
检测图像的键矩阵指检测图像中某个区域的矩阵;检测图像的值矩阵是指将检测图像的向量或者矩阵和检测图像的键矩阵进行点乘得到的矩阵;
缩放点积注意力处理公式如下:
Figure BDA0003094953230000061
其中,Q表示检测图像的向量或者矩阵;K表示检测图像的键矩阵,而KT表示K矩阵的转置矩阵;V表示检测图像的值矩阵;
Figure BDA0003094953230000062
表示缩放因子;
步骤S100中的缩放点积注意力处理的处理过程如下:
S101:先将检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵:Q·Wi Q、K·Wi K、V·Wi V
S102:将矩阵:Q·Wi Q、K·Wi K、V·Wi V带入缩放点积注意力处理公式得到:
Figure BDA0003094953230000063
其中,Q·Wi Q表示经过多次不同线性映射运算后的检测图像的向量或者矩阵;K·Wi K表示经过多次不同线性映射运算后的检测图像的键矩阵;V·Wi V表示经过多次不同线性映射运算后的检测图像的值矩阵;(K·Wi K)T表示K·Wi K矩阵的转置矩阵;
Figure BDA0003094953230000071
表示缩放因子;
S200:将步骤S100得到的诸多个第一处理结果进行连接处理,得到连接处理结果;
其中,多头自注意力处理包括以下过程:
S210:将步骤S100得到的一次处理结果作为多头注意力运算中的一个头,即:
headi=Attention(Q·Wi Q,K·Wi K,V·Wi V)
其中,i表示第i次缩放点积注意力运算;headi表示第i个头;
S220:将每一次缩放点积注意力处理后得到的结果进行连接处理;即:
MultiHead(Q,K,V)=Concat(head1,head2,…headi)
S300:将连接处理结果进行一次归一化处理和残差连接,得到第二处理结果;
其中,第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法,归一化方法过程如下:
SS100:获取检测图像的高度Hinput,宽度Winput,计算检测图像的纵横比,公式下:
Figure BDA0003094953230000072
SS200:获取目标图像的高度Hgoal,宽度Wgoal,计算检测图像的纵横比,公式下:
Figure BDA0003094953230000073
SS300:若AspectRatioinput=AspectRatiogoal,使用最近邻插值方法对检测图像直接进行裁剪,使检测图像尺寸直接等同于目标图像的尺寸;edgeshort=min(Hinput,Winput)
SS400:若AspectRatioinput≠AspectRatiogoal,计算检测图像的两边边长,公式如下:
edgeshort=min(Hinput,Winput)
edgelong=max(Hinput,Winput)
其中,edgeshort表示短边边长,edgelong代表长边边长;
SS500:在长边边长中以短边边长作为度量,计算步长,截取长度为步长值的图像,将检测图像转化成了纵横比与目标图像的纵横比相同的小图像,步长的计算公式如下:
Figure BDA0003094953230000081
SS600:将步骤SS500得到的小图像进行等比变换,并将其归一化,使得最终得到的图像与目标图像尺寸保持一致;
S400:将第二处理结果进行特征信息提取;
其中,特征提取应用以下公式:
FNN(x)=max(0,W1·x+b1)·W2+b2
其中,b1、b2分别代表第一偏差参数、第二偏差参数,x为步骤S300得到的第二处理结果。
S500:将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果。
为实现上述方法,本发明还提供了一种基于多头自注意力模块的遥感图像分类系统,其特征在于:分类系统的框架网络主干采用的是RestNet50卷积神经网络,分类系统将RestNet50卷积神经网络最后三个瓶颈层模块替换为多头自注意力模块;
分类系统包括:
缩放点积注意力模块,缩放点积注意力模块用于将输入分类模型的检测图像参数进行运缩放点积注意力处理;
多头自注意力模块,多头自注意力模块用于感知检测图像中可识别度最高的区域;
第一归一化及残差连接模块、第二归一化及残差连接模块,第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入分类系统后与输入分类系统前维度上的一致,降低在分类系统的网络中发生梯度消失的可能;
全连接模块,全连接模块用于对检测图像进行特征提取;
全连接模块的设置可将本分类模型中的输入和输出进行连接,且全连接模块具有吞吐量大、可靠性高、低延时的特点。
分类系统的工作流程如下:
SS100:上传检测图像至分类系统,先将检测图像传输至缩放点积注意力模块,缩放点积注意力模块对检测图像进行图像参数矩阵的提取并进行缩放点积注意力处理;
SSS200:缩放点积注意力模块将处理后的图像信息矩阵输入多头自注意力模块,多头自注意力模块将每一次缩放点积注意力模块处理后得到的结果进行连接处理;
SSS300:多头自注意力模块将连接处理结果输入第一归一化及残差连接模块进行第一次归一化处理和残差连接;
SSS400:第一归一化处理和残差连接模块将运算结果输入全连接模块进行特征信息提取;
SSS500:全连接模块将特征信息输入第二归一化处理和残差连接模块进行第二次归一化处理和残差连接得到最终的图像分类结果。
在对分类系统进行训练的过程中,采用的是交叉熵损失函数来计算分类系统框架在输入的参数集上的损失值;
公式如下:
Figure BDA0003094953230000091
其中,变量y为分类模型中根据输入参数输出的类别预测概率,y是张量,y[j]指的是y的第j维,即输入图像预测为第j类的概率;变量k为输入图像的实际类别号。
如图3所示,本发明提出的系统框架相比目前已有的几种分类系统系统,在RSSCN7和EuroSAT数据集上得到了最高的分类精度(91.310%,97.877%)。且对比本发明提出的系统框架使用的主干网络ResNet50框架,分类精度也有了明显的提高。在PatternNet参数集上,本发明提出的系统框架分类精度与ResNet50分类精度接近,但对比ViT分类系统,该系统框架分类精度较低;经过分析得出,由于ViT分类系统输入图片尺寸为224×224,而本专利提出的系统框架输入尺寸为200×200,于图像的下采样使得图像丢失部分特征,使得本发明提出的框架分类精度比ViT系统分类精度低。由此可以得出本发明提出的系统框架能够更加准确的感知到在图像中最具有辨别力的区域,使得分类精度更加准确。
如图4所示,本发明提出的分类系统框架包含了20.8×106个参数,ResNet50框架中包含了25.5×106个参数。在以ResNet50为主干网络,使用多头自注意力模块替换其中部分结构后,参数量有了明显的降低,减少了显存的开销和运行时的计算量;且本发明提出的系统框架在RSSCN7、EuroSAT参数集上具有最优的分类效果,参数量与分类速度都得到了优化。相比已有的遥感图像分类系统框架,本发明提出的系统框架能够在GPU加速的环境中,取得更高精度的分类效果,减少系统框架中包含的参数,降低对显存的占用。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述分类方法的工作流程如下:
S100:上传检测图像,对所述检测图像的图像参数进行提取并进行缩放点积注意力处理;得到第一处理结果;
S200:将步骤S100得到的诸多个第一处理结果进行连接处理,得到连接处理结果;
S300:将所述连接处理结果进行一次归一化处理和残差连接,得到第二处理结果;
S400:将所述第二处理结果进行特征信息提取;
S500:将步骤S400得到的结果进行第二次归一化处理和残差连接得到最终的图像分类结果。
2.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述检测图像的图像参数初始化采用的是正态随机生成的方式。
3.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述步骤S100中的图像参数包括:检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵;
所述检测图像的键矩阵指所述检测图像中某个区域的矩阵;所述检测图像的值矩阵是指将所述检测图像的向量或者矩阵和所述检测图像的键矩阵进行点乘得到的矩阵;
所述缩放点积注意力处理公式如下:
Figure FDA0003094953220000011
其中,Q表示检测图像的向量或者矩阵;K表示检测图像的键矩阵,而KT表示所述K矩阵的转置矩阵;V表示检测图像的值矩阵;
Figure FDA0003094953220000012
表示缩放因子。
4.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述步骤S100中的缩放点积注意力处理的处理过程如下:
S101:先将所述检测图像的向量或者矩阵、检测图像的键矩阵、检测图像的值矩阵经过多次不同线性映射运算得到矩阵:
Figure FDA0003094953220000013
S102:将所述矩阵:
Figure FDA0003094953220000021
带入所述缩放点积注意力处理公式得到:
Figure FDA0003094953220000022
其中,
Figure FDA0003094953220000023
表示经过多次不同线性映射运算后的检测图像的向量或者矩阵;
Figure FDA0003094953220000024
表示经过多次不同线性映射运算后的检测图像的键矩阵;
Figure FDA0003094953220000025
表示经过多次不同线性映射运算后的检测图像的值矩阵;
Figure FDA0003094953220000026
表示所述
Figure FDA0003094953220000027
矩阵的转置矩阵;
Figure FDA0003094953220000028
表示缩放因子。
5.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于:所述步骤S200中多头自注意力处理包括以下过程:
S210:将所述步骤S100得到的一次处理结果作为所述多头注意力运算中的一个头,即:
Figure FDA0003094953220000029
其中,i表示第i次缩放点积注意力运算;headi表示第i个头;
S220:将每一次缩放点积注意力处理后得到的结果进行连接处理;即:
MultiHead(Q,K,V)=Concat(head1,head2,...headi)
6.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类方法,其特征在于,所述第一次归一化处理和第二次归一化处理均采用保持横纵比不变的图像归一化方法,所述归一化方法过程如下:
SS100:获取所述检测图像的高度Hinput,宽度Winput,计算所述检测图像的纵横比,公式下:
Figure FDA00030949532200000210
SS200:获取所述目标图像的高度Hgoal,宽度Wgoal,计算所述检测图像的纵横比,公式下:
Figure FDA00030949532200000211
SS300:若AspectRatioinput=AspectRatiogoal,使用最近邻插值方法对检测图像直接进行裁剪,使检测图像尺寸直接等同于目标图像的尺寸;edgeshort=min(Hinput,Winput)
SS400:若AspectRatioinput≠AspectRatiogoal,计算所述检测图像的两边边长,公式如下:
edgeshort=min(Hinput,Winput)
edgelong=max(Hinput,Winput)
其中,edgeshort表示短边边长,edgelong代表长边边长;
SS500:在所述长边边长中以所述短边边长作为度量,计算步长,截取长度为步长值的图像,将所述检测图像转化成了纵横比与所述目标图像的纵横比相同的小图像,所述步长的计算公式如下:
Figure FDA0003094953220000031
SS600:将步骤SS500得到的小图像进行等比变换,并将其归一化,使得最终得到的图像与目标图像尺寸保持一致。
7.根据权利要求1所述的一种基于多头自注意力模块的遥感图像分类系统及方法,其特征在于,所述步骤S400中的特征提取应用以下公式:
FNN(x)=max(0,W1·x+b1)·W2+b2
其中,b1、b2分别代表第一偏差参数、第二偏差参数,x为步骤S300得到的所述第二处理结果。
8.一种应用于权利要求1-7的基于多头自注意力模块的遥感图像分类系统,其特征在于:所述分类系统包括:
缩放点积注意力模块,所述缩放点积注意力模块用于将输入所述分类模型的检测图像参数进行运缩放点积注意力处理;
多头自注意力模块,所述多头自注意力模块用于感知所述检测图像中可识别度最高的区域;
第一归一化及残差连接模块、第二归一化及残差连接模块,所述第一归一化及残差连接模块和第二归一化及残差连接模块用于保持检测图像参数在输入所述分类系统后与输入所述分类系统前维度上的一致,降低在所述分类系统的网络中发生梯度消失的可能;
全连接模块,所述全连接模块用于对检测图像进行特征提取。
CN202110609315.6A 2021-06-01 2021-06-01 一种基于多头自注意力模块的遥感图像分类系统及方法 Pending CN113344070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110609315.6A CN113344070A (zh) 2021-06-01 2021-06-01 一种基于多头自注意力模块的遥感图像分类系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110609315.6A CN113344070A (zh) 2021-06-01 2021-06-01 一种基于多头自注意力模块的遥感图像分类系统及方法

Publications (1)

Publication Number Publication Date
CN113344070A true CN113344070A (zh) 2021-09-03

Family

ID=77472764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110609315.6A Pending CN113344070A (zh) 2021-06-01 2021-06-01 一种基于多头自注意力模块的遥感图像分类系统及方法

Country Status (1)

Country Link
CN (1) CN113344070A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037899A (zh) * 2021-12-01 2022-02-11 福州大学 基于vit的面向高光谱遥感图像分类径向累加位置编码系统
CN114463646A (zh) * 2022-04-13 2022-05-10 齐鲁工业大学 一种基于多头自注意力卷积神经网络的遥感场景分类方法
CN114677322A (zh) * 2021-12-30 2022-06-28 东北农业大学 基于注意力引导点云特征学习的奶牛体况自动评分方法
CN114998653A (zh) * 2022-05-24 2022-09-02 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084299A (zh) * 2019-04-24 2019-08-02 中国人民解放军国防科技大学 基于多头融合注意力的目标检测方法和装置
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112232156A (zh) * 2020-09-30 2021-01-15 河海大学 一种基于多头注意力生成对抗网络的遥感场景分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084299A (zh) * 2019-04-24 2019-08-02 中国人民解放军国防科技大学 基于多头融合注意力的目标检测方法和装置
CN111721535A (zh) * 2020-06-23 2020-09-29 中国人民解放军战略支援部队航天工程大学 一种基于卷积多头自注意力机制的轴承故障检测方法
CN112232156A (zh) * 2020-09-30 2021-01-15 河海大学 一种基于多头注意力生成对抗网络的遥感场景分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ASHISH VASWANI 等: "Attention Is All You Need", 31ST CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NIPS 2017), 31 December 2017 (2017-12-31), pages 1 - 15, XP002796972 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114037899A (zh) * 2021-12-01 2022-02-11 福州大学 基于vit的面向高光谱遥感图像分类径向累加位置编码系统
CN114677322A (zh) * 2021-12-30 2022-06-28 东北农业大学 基于注意力引导点云特征学习的奶牛体况自动评分方法
CN114677322B (zh) * 2021-12-30 2023-04-07 东北农业大学 基于注意力引导点云特征学习的奶牛体况自动评分方法
CN114463646A (zh) * 2022-04-13 2022-05-10 齐鲁工业大学 一种基于多头自注意力卷积神经网络的遥感场景分类方法
CN114463646B (zh) * 2022-04-13 2022-07-05 齐鲁工业大学 一种基于多头自注意力卷积神经网络的遥感场景分类方法
CN114998653A (zh) * 2022-05-24 2022-09-02 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备
CN114998653B (zh) * 2022-05-24 2024-04-26 电子科技大学 一种基于ViT网络的小样本遥感图像分类方法、介质及设备

Similar Documents

Publication Publication Date Title
CN113344070A (zh) 一种基于多头自注意力模块的遥感图像分类系统及方法
Patil et al. White blood cells image classification using deep learning with canonical correlation analysis
CN111242208B (zh) 一种点云分类方法、分割方法及相关设备
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
CN108764059B (zh) 一种基于神经网络的人体行为识别方法及系统
CN112418117B (zh) 一种基于无人机图像的小目标检测方法
Park et al. Fingerprint classification using fast Fourier transform and nonlinear discriminant analysis
CN106295124B (zh) 多种图像检测技术综合分析基因子图相似概率量的方法
CN107451565B (zh) 一种半监督小样本深度学习图像模式分类识别方法
CN107918772B (zh) 基于压缩感知理论和gcForest的目标跟踪方法
CN112861635A (zh) 一种基于深度学习的火灾及烟雾实时检测方法
CN112395442A (zh) 移动互联网上的低俗图片自动识别与内容过滤方法
CN111210415B (zh) 一种帕金森患者面部表情低迷的检测方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN115100709B (zh) 一种特征分离的图像人脸识别与年龄估计方法
CN113011386B (zh) 一种基于等分特征图的表情识别方法及系统
CN115527269B (zh) 一种人体姿态图像智能识别方法及系统
CN112330158A (zh) 基于自回归差分移动平均-卷积神经网络的识别交通指数时间序列的方法
CN110084201A (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN112766283A (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN117422857A (zh) 一种司法证据图像的目标检测方法
CN115439884A (zh) 一种基于双分支自注意力网络的行人属性识别方法
CN112766145B (zh) 人工神经网络的人脸动态表情识别方法及装置
CN115147341A (zh) 一种基于生物视觉启发的织物表面缺陷分类深度网络方法
CN101630369B (zh) 一种基于小波分形特征的行人检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination