CN112861978B

CN112861978B - 一种基于注意力机制的多分支特征融合遥感场景图像分类方法

Info

Publication number: CN112861978B
Application number: CN202110192358.9A
Authority: CN
Inventors: 石翠萍; 赵鑫; 王天毅
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2022-09-02
Anticipated expiration: 2041-02-20
Also published as: CN112861978A

Abstract

一种基于注意力机制的多分支特征融合遥感场景图像分类方法，本发明涉及基于注意力机制的多分支特征融合遥感场景图像分类方法。本发明的目的是为了解决现有方法对遥感图像场景分类准确率低的问题。过程为：一、采集遥感图像，对遥感图像进行预处理，得到预处理后的遥感图像；步骤二、建立基于注意力机制的多分支特征融合卷积神经网络AMB‑CNN；三、采用预处理后的遥感图像训练基于注意力机制的多分支特征融合卷积神经网络AMB‑CNN，得到预训练好的基于注意力机制的多分支特征融合卷积神经网络AMB‑CNN；四、采用训练好的AMB‑CNN对待识别遥感图像进行分类。本发明用于遥感场景图像分类领域。

Description

一种基于注意力机制的多分支特征融合遥感场景图像分类方法

技术领域

本发明涉及基于注意力机制的多分支特征融合遥感场景图像分类方法。

背景技术

遥感图像场景分类，是指通过航空扫描、微波雷达等方法，对目标场景进行成像拍摄，然后针对不同的场景图像，从中提取到有用的信息，从而实现对场景图像的分析与评估。遥感场景分类的相关研究已被广泛应用于国防安全^[1]([1]A.Ferreira et al.,"Eyesin the Skies:A Data-Driven Fusion Approach to Identifying Drug Crops FromRemote Sensing Images,"in IEEE Journal of Selected Topics in Applied EarthObservations and Remote Sensing,vol.12,no.12,pp.4773-4786,Dec.2019,doi:10.1109/JSTARS.2019.2917024.)，自然灾害损失评估^[2]([2]J.Ma et al.,"Evaluationof Different Approaches of Con volutional Neural Networks for Land Use andLand Cover Classification Based on High Resolution Remote Sensing Images,"2019IEEE International Conference on Signal,Inf ormation and Data Processing(ICSIDP),Chongqing,China,2019,pp.1-4,doi:10.1109/ICSIDP47821.2019.9173451.)，环境监测与管理^[3]([3]H.Zhang,B.Yang,T.Fang and H.Huo,"Learning Deep Featuresfor Classification of Typical Ecological Environmental Elements in High-Resolution Remote Sensing Images,"201710th International Symposi um onComputational Intelligence and Design(ISCID),Hangzhou,2017,pp.223-227,d oi:10.1109/ISCID.2017.200.)等应用中。由于遥感场景图像存在类别间可分性低，类内多样性大，地貌空间尺度不一致，以及形状大小不一等特点，使得遥感场景分类成为一项很具有挑战性的任务。因此，近年来，很多研究者致力于遥感场景图像有效分类的研究。

深度学习作为计算机视觉领域的新兴技术，在2013年被认为十大技术性突破之一^[4]([4]He Ji hui,GB/T 7714.Top 10scientific breakthroughs in 2013[J].Worldscience,2014)。随着获取的遥感图像分辨率逐渐提高，以及硬件设备的发展，这使得深度学习被广泛应用到遥感场景图像分类中具有自然的优势。近年来，深层神经网络在分类上一直处于领先地位，其主要模型为卷积神经网络(CNN)^[5][6][7]([5]E.Maggiori,Y.Tarabalka,G.Charpiat and P.Alliez,"Fully convolutional neural networks forremote sensing image classification,"2016IEEE International Geoscience andRemote Sensing Symposium(IGARSS),Beijing,2016,pp.5071-5074,doi:10.1109/IGARSS.2016.7730322.[6]H.Yaochang and W.Jie,"Application of ConvolutionalNeural Networks in Remote Sensing Image Classification,"2019 2ndInternational Conference on Safety Produce Informatization(IICSPI),Chongqing,China,2019,pp.279-282,doi:10.1109/IICSPI48186.2019.9096058.[7]Y.Li,Y.Zhangand Z.Zhu,"Learning Deep Networks under Noisy Labels for Remote Sensing ImageScene Classification,"IGARSS 2019-2019IEEE International Geoscience andRemote Sensing Symposium,Yokohama,Japan,2019,pp.3025-3028,doi:10.1109/IGARSS.2019.8900497.)。凭借深度CNN可以提取图像丰富特征细节的特点，其一直被多数研究者所采用。然而，越来越多的研究者不断扩大神经网络的深度和宽度，以模型的高复杂度来换取分类精度的提升。尽管其有一定的作用，但这对计算设备的要求越来越高，模型的计算时间也越来越长。

注意力机制源于对人类视觉的研究，其在目标检测^[8]([8]X.Wang et al.,"Hyperspectral Target Detection Via Deep Multiple Instance Self-AttentionNeural Network,"IGARSS2019-2019IEEE International Geoscience and RemoteSensing Symposium,Yokohama,Japan,2019,pp.2284-2287,doi:10.1109/IGARSS.2019.8898420.)，语句生成^[9]([9]W.Wang,H.Zheng and Z.Lin,"Self-Attentionand Retrieval Enhanced Neural Networks for Essay Generation,"ICASSP 2020-2020IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Barcelona,Spain,2020,pp.8199-8203,doi:10.1109/ICASSP40776.2020.9052954.)，语音识别^[10]([10]Shi-wook Lee,"The GeneralizationEffect for Multilingual Speech Emotion Recognition across HeterogeneousLanguages",Acoustics Speech and Signal Processing(ICASSP)ICASSP 2019-2019IEEEInternational Conference on,pp.5881-5885,2019.)等多项任务上表现出色。注意力机制最早起源于神经机器翻译^[11]([11]D.Bahdanau,K.H.Cho,and Y.Bengio,“Neuralmachine translation by jointly learning to align and translate,”in 3rdInt.Conf.Learn.Represent.ICLR 2015-Conf.TrackProc.,San Diego,CA,USA,2015,pp.1–15.)，因而也成为了其最著名的应用。如今在人工智能领域，更希望注意力机制能关注那些有用的信息细节与位置，搜索目标的重要特征，并将一些无关信息滤除，从而提高预测的置信度。然而，并非所有的注意力机制都是通用的，探究一种有效的注意力机制，并适用于遥感场景分类依然是个有挑战的任务。

发明内容

本发明的目的是为了解决现有方法对遥感图像场景分类准确率低的问题，而提出一种基于注意力机制的多分支特征融合遥感场景图像分类方法。

一种基于注意力机制的多分支特征融合遥感场景图像分类方法具体过程为：

步骤一、采集遥感图像，对遥感图像进行预处理，得到预处理后的遥感图像；

步骤二、建立基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；

步骤三、采用预处理后的遥感图像训练基于注意力机制的多分支特征融合卷积神经网络AMB-CNN，得到预训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；

步骤四、采用训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN对待识别遥感图像进行分类。

本发明的有益效果为：

本发明提出了基于注意力的多分支特征融合轻量级网络(Multi branch-CNN)，并在四个数据集的多个划分下证明了提出方法的有效性。在充分扩大了感受野的情况下，以多分支卷积块进行特征提取，同时应用注意力机制，对空间与通道信息进行特征加权分析，最后融合全部特征。这样不仅准确的提取到了有效特征，也减少了信息的损失。此外，通过深度可分离卷积和传统卷积交替的策略，构建出了一个参数量极低的网络模型。下一步的工作是继续减小模型的复杂度，并进一步提升模型提取特征的能力，以对遥感图像场景进行更有效的分类。

为了对遥感场景图像进行较好的分类，本发明提出了一种轻量级的基于注意力机制的多分支特征融合网络(Attention based multi-branch feature fusion CNN，AMB-CNN)。该模型在扩大了感受野的前提下，使用深度可分离卷积与普通卷积交替组合的方式来提取深层特征，提取到的有效信息被送到注意力模块中，得到新的特征，并与前几个分支得到的特征相融合。该网络模型能够在较低的复杂度下，得到对遥感场景图像准确分类的性能。

本发明的三个主要贡献如下：

(1)为了提高遥感图像场景分类的准确度，本发明提出了两种用于特征提取的卷积组合模型，以模块外多卷积协同，模块内多卷积交替使用的方法，使模型更加充分的挖掘图像关键信息，从而准确判断目标场景。

(2)采用了一种用于融合多分支特征的策略，在多个分支提取特征信息后，结合使用注意力机制，将分支信息进行再提取，最后融合多段特征。

(3)针对近年来网络模型的参数量越来越大的问题，本发明构建了一个参数量较低的轻量级模型，使用深度可分离卷积和不对称卷积减小了模型的参数量。同时，本发明采用了hard-swish激活函数，提高了模型的非线性表达能力，达到准确判断目标场景。

附图说明

图1为本发明提出的AMB-CNN网络模型图，F_sq为信道挤压过程，F_ew(W)为信道激励过程，F_scale为特征映射输出，C为通道维度，H为特征图的高，W为特征图的宽；

图2为两种模块组的使用与特征融合图；

图3为UCM数据集的一些样本图；

图4为AID数据集的一些样本图；

图5为NWPU数据集的一些样本图；

图6为RSSCN7数据集的一些样本图；

图7a为本发明提出方法在UCM21数据集上的混淆矩阵图，1#代表第一个类别，2#代表第二个类别，21#代表第二十一个类别，纵坐标则给出了类别的名称，如agriculture是第一个类别的名称，airplane是第二个类别的名称，agricultural为农场，airplane为飞机，baseballdiamond为棒球场，beach为海滩，buildings为楼房，chaparral为灌木丛，denseresidential为密集住宅区，forest为森林，freeway为高速公路，golfcourse为高尔夫球场，harbor为港口，intersection为交叉口，mediumresidential为中型住宅，mobilehomepark为移动家庭公园，overpass为天桥，parkinglot为停车场，river为河，runway为跑道，sparseresidential为稀疏住宅，storagetanks为存储，tenniscourt为网球场；

图7b为MobileNet方法在UCM21数据集上的混淆矩阵图；

图8为本发明提出方法在RSSCN7上的混淆矩阵图，Field为运动场，Forest为森林，Grass为草地，Industry为因达斯特里，Parking为停车场，Resident为住户，RiverLake为江湖；

图9为本发明提出方法在AID30(20/80)上的混淆矩阵图，Airport为机场，BareLand为裸地，BaseballField为棒球场，Beach为海滩，Bridge为桥，Center为中心区，Church为教堂，Commercial为商业区，DenseResidential为密集住宅区，Desert为沙漠，Farmland为农田，Forest为森林，Industrial为工业地，Meadow为草地，MediumResidential为中型住宅，Mountain为山，Park为公园，Parking为停车场，Playground为游乐场，Pond为池塘，Port为港口，Railwaystation为铁路车站，Resort为度假村，River为河，School为学校，SparseResidential为稀疏住宅，Square为广场，Stadium为体育场，StorageTanks为储罐，Viaduct为高架桥；

图10为本发明提出方法在AID30(50/50)上的混淆矩阵图；

图11a为Airplane在UCM21数据集上的热力图，storage tanks为飞机；

图11b为storage tanks在UCM21数据集上的热力图，storagetanks为储罐；

图11c为Golfcourse在UCM21数据集上的热力图，Golfcourse为高尔夫球场；

图11d为sparse residential在UCM21数据集上的热力图，sparse residential为稀疏住宅；

图11e为Forest在UCM21数据集上的热力图，Forest为森林；

图12为随机分类预测结果图；

图13为MobileNet方法、LCNN-BFF方法和所提出方法在RSSCN7(5/5)数据集每个类别中的平均精度(AP)(纵坐标表示AP精度，横坐标表示数据集的每个类别)图；

图14为MobileNet方法、LCNN-BFF方法和所提出方法在AID30(2/8)数据集每个类别中的平均精度(AP)(纵坐标表示AP精度，横坐标表示数据集的每个类别)图；

图15为MobileNet方法、LCNN-BFF方法和所提出方法在NWPU45(1/9)数据集每个类别中的平均精度(AP)(纵坐标表示AP精度，横坐标表示数据集的每个类别)图；

图16为三种模型方法的T-SNE可视化分析图。

具体实施方式

具体实施方式一：本实施方式一种基于注意力机制的多分支特征融合遥感场景图像分类方法具体过程为：

遥感图像场景分类是一项极具挑战性的任务。随着深度学习在计算机视觉领域的发展不断成熟，如VGG^[12]([12]Simonyan,Karen,and A.Zisserman."Very DeepConvolutional Networks for Large-Scale Image Recognition."Computer Science(2014).)、AlexNet^[13]([13]Krizhevsky,A.,Sutskever,I.,and Hinton,G.(2012).ImageNet classification with deep convolutional neural networks.In NIPS’2012.)、Inception Net^[14]([14]Szegedy C,Liu W,JiaY,et al.Going deeper withconvolutions[J].arXiv preprint arXiv:1409.4842,2014.)、SqueezeNet^[15]([15]arXiv:1602.07360[cs.CV])，以及MobileNet^[16]([16]HowardA G,Zhu M,Chen B,etal.MobileNets:Efficient Convolutional Neural Networks for Mobile VisionApplications[J].2017.)等网络模型，不仅可以减少人工操作的限制，还能提取到更深层次的特征，使得这些模型被成功应用于各类图像分类任务中。同时，基于注意力的策略，也成为了提升分类精度的有利方法。

基于传统手工提取特征的方法

早期场景分类依赖于手工特征提取的方法，提出了基于底层视觉特征直接提取遥感图像的光谱，纹理，结构信息的方法，如尺度不变特征变换(Scale-invariant featuretransform，SIFT)、搜索树(Generalized Search Trees，GIST)、方向梯度直方图(Histogram oforiented gradients，HOG)等。Lowe等人^[17]([17]D.G.Lowe,“Distinctiveimage features from scale-invariant keypoints,”Int.J.Comput.Vis.,vol.60,no.2,pp.91–110,2004.)提出的SIFT方法凭借图像局部特征的旋转，平移，尺度缩放不变性，对视角变化、仿射变换的稳定性来获取特征，但忽略了目标位置信息，在实际应用中的表现并不出色。随后，Bag-of-words model(BoW)模型^[18]([18]Grauman K,Darrell T.The pyramidmatch kernel:discriminative classification with sets of image features[C]//Tenth IEEE International Conference on Computer Vision.IEEE,2005.)对其作出了改进。Oliva和Torralba^[19]([19]Aude Oliva,CHAPTER 41-Gist of the Scene,Editor(s):Laurent Itti,Geraint Rees,John K.Tsotsos,Neurobiology ofAttention,Academic Press,2005,Pages 251-256.)提出采用全局特征信息(GIST)对场景进行识别与分类，并不需要对图像进行分割和局部特征提取。Dalal和Triggs^[20]([20]Navneet Dalal,Bill Triggs.Histograms of Oriented Gradients for HumanDetection.International Conference on Computer Vision&Pattern Recognition(CVPR’05),Jun 2005,San Diego,United States.pp.886–893,ff10.1109/CVPR.2005.177ff.ffinria-00548512f)提出HOG特征，主要通过计算和统计图像局部区域的梯度方向直方图来获取特征信息。但这些都依赖于人工，效率并不高，提取到的特征也不理想。

基于无监督学习提取特征的方法

很多研究者提出了无监督学习方法，如K-means聚类和高斯混合模型^[21]([21]P.T.Gamage,M.Khurshidul.Azad,A.Taebi,R.H.Sandler and H.A.Mansy,"ClusteringSeismocardiographic Events using Unsupervised Machine Learning,"2018IEEESignal Processing in Medicine and Biology Symposium(SPMB),Philadelphia,PA,2018,pp.1-5,doi:10.1109/SPMB.2018.8615615.)，稀疏编码^[22]([22]V.

and Z.

"Unsupervised Quaternion Feature Learning for Remote Sensing ImageClassification,"in IEEE Journal of Selected Topics in Applied EarthObservations and Remote Sensing,vol.9,no.4,pp.1521-1531,April 2016,doi:10.1109/JSTARS.2015.2513898.)，自编码算法^[23]([23]B.Du,W.Xiong,J.Wu,L.Zhang,L.Zhang and D.Tao,"Stacked Convolutional Denoising Auto-Encoders for FeatureRepresentation,"in IEEE Transactions on Cybernetics,vol.47,no.4,pp.1017-1027,April 2017,doi:10.1109/TCYB.2016.2536638.)等。Bell和Sejnowski^[24]([24]ROLL E T,TOVEE M J.Sparseness ofthe neuronal representation ofstmuli in the primatetemporal visual cortex[J].Journal ofNeurophysiology,1995,173:713-726.)等人提出了稀疏编码模型，并将其用于自然图像的数据分析。Olshausen^[25]([25]B.A.Olshausenand D.J.Field,“Emergence of simple-cell receptive field properties bylearning a sparse code for natural images,”Nature,vol.381,pp.607-609,Jun.1996.)等人研究表明，自然图像经过稀疏编码后得到的基函数类似简单细胞感受野的反应特性(空间局部性、空间方向性、信息选择性)，这也印证了稀疏编码在神经群体信息分布式表达中的有效性。2006年，Hinton等人^[26]([26]Hinton G E,Osinder S,The YW.Afast learning algorithm for deep beliefnets[J].Neural Computation,2006,18(7):1527-1554.)对经典自动编码器结构进行改进，进而产生了去噪自动编码器(DAE)，相对于Auto Encoder加大了深度，提升了模型的学习能力。

基于深度CNN提取深层特征的方法

近年来，深度CNN在计算机视觉中表现出色，广泛应用于遥感场景图像分类，高光谱特征提取，图像超分辨率等任务中。最早的卷积神经网络LeNet由LeCun^[27]([27]LecunY,Bottou L.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.)提出，并用于手写数字识别的任务中。此后卷积神经网络的通用框架由卷积层，池化层，全连接层构成。Krizhevsky与Hinton^[13]等人提出AlexNet，利用两块GPU进行交互，大大提升了训练效率，一时引起了众多深度学习者的研究。Simonyan和Zisserman^[12]等人提出VGG系列模型，凭借多个卷积的线性堆叠，取得了较好的分类精度。后来，He提出了ResNet^[28]([28]He K,Zhang X,Ren S,etal.Deep Residual Learning for Image Recognition[C]//IEEE Conference onComputer Vision&Pattern Recognition.IEEE Computer Society,2016.)，应用残差学习的思想，将跳跃连接加入到特征提取网络中，缓解了传统卷积神经网络层传递中信息易丢失的问题。然而，这些网络在取得较好性能的同时，网络深度不断加深。直到轻量级网络^[29]([29]Y.Zhou,S.Chen,Y.Wang and W.Huan,"Review ofresearch on lightweightconvolutional neural networks,"2020IEEE 5th Information Technology andMechatronics Engineering Conference(ITOEC),Chongqing,China,2020,pp.1713-1720,doi:10.1109/ITOEC49072.2020.9141847.)(SqueezeNet)被提出，复杂度渐渐成为人们关注的热点。随后，2017年MobileNet^[16]凭借网络模型参数小，运算速度快在众多网络模型中脱颖而出。

基于注意力的特征提取方法

注意力机制通过借鉴人类思维方式，在庞大的数据中，可以快速找到重点区域，从而获取到更多的特征信息，并对一些无用信息进行抑制，极大提高了提取信息的准确性与高效性。注意力机制被广泛用于语音识别，图像分类，目标检测等领域。2014年IlyaSutskever^[30]([30]He X,Haffari G,Norouzi M.Sequence to Sequence Mixture Modelfor Diverse Machine Translation[C]//Proceedings of the 22nd Conference onComputational Natural Language Learning.2018.)等学者提出了Sequence toSequence模型，通过将编码器—解码器结构应用于多语言翻译，生成问答对话等语言模型。然而，对于较长序列来说，前序列会被忘记从而损失大量信息。2014年，Bahdanau^[31]([31]Bahdanau D,Cho K,Bengio Y.Neural Machine Translation by Jointly Learning toAlign and Translate[J].Computerence,2014.)等人提出了注意力机制，通过解码器访问整个编码的输入序列，进而在输入序列上引入注意力权重α，以便考虑到相关信息的位置集合，最终应用于机器翻译任务中。此外，lin^[32]([32]https://arxiv.org/pdf/1703.03130.pdf)等人在2017年提出自注意力机制，缓解了传统注意力机制依赖于外部信息的缺点，使其更关注于数据或特征的内部相关性。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中采集遥感图像，对遥感图像进行预处理，得到预处理后的遥感图像；具体过程为：

采集遥感图像为UC Merced Land-Use Dataset Data Set数据集、AID Data Set数据集、NWPU Data Set数据集或NWPU Data Set数据集

将遥感图像进行预处理：

将遥感图像进行归一化处理，将归一化处理后的图像旋转0～60度(包括0和60度，任意方向)，对旋转后的图像随机水平或垂直翻转，对翻转后的图像的长度，宽度随机偏移0.2倍(左右都可以)。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤二中建立基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；具体过程为：

基于注意力机制的多分支特征融合卷积神经网络AMB-CNN包括第一组、第二组、第三组、第四组、第五组、第六组、第七组、第八组；

第一组输出连接第二组输入，第二组输出连接第三组输入，第三组输出连接第四组输入，第四组输出连接第五组输入，第五组输出连接第六组输入，第六组输出连接第七组输入，第七组输出连接第八组输入；

第一组依次连接关系为：第一普通2D卷积层、第一BN层、第一激活层、第一深度可分离卷积层、第二BN层、第二激活层、第一最大池化层；

步骤一预处理后的图像作为第一组的输入(第一普通2D卷积层的输入)；

第二组依次连接关系为：第二普通2D卷积层、第三BN层、第三激活层、第一SE注意力模块、第二深度可分离卷积层、第四BN层、第四激活层、第二最大池化层；

第一组的第一最大池化层的输出作为第二组第二普通2D卷积层的输入；

第三组依次连接关系为：第三普通2D卷积层、第五BN层、第五激活层、第四普通2D卷积层、第六BN层、第六激活层、第二SE注意力模块、第三深度可分离卷积层、第七BN层、第七激活层、第三最大池化层；

第二组的第二最大池化层的输出作为第三组第三普通2D卷积层的输入；

第四组包括第一个模块(第一个分支)、第二个模块(第二个分支)、第一CBAM注意力模块(第三个分支，输入来自于第二个模块的第十二BN层)、第十一激活层；

第四组第一个模块依次连接关系为：第五普通2D卷积层、第八BN层、第八激活层、第四深度可分离卷积层、第九BN层(第一个模块结束)；

第三组的第三最大池化层的输出作为第四组第一个模块的输入；

第四组第二个模块依次连接关系为：第六普通2D卷积层、第十BN层、第九激活层、第七普通2D卷积层、第十一BN层、第十激活层、第五深度可分离卷积层、第十二BN层(第二个模块结束)；

第三组的第三最大池化层的输出作为第四组第二个模块的输入；

第二个模块的输出(第二个模块的第十二BN层的输出)作为第一CBAM注意力模块的输入；

融合第四组第一个模块的输出(第九BN层的输出)、第四组第二个模块的输出(第十二BN层的输出)和第一CBAM注意力模块的输出，将融合后图像特征输入第十一激活层；

第五组包括第一个模块(第一个分支)、第二个模块(第二个分支)、第十七激活层；

第五组第一个模块(第一个分支)依次连接关系为：第八普通2D卷积层、第十三BN层、第十二激活层、第六深度可分离卷积层、第十四BN层、第十三激活层、第九普通2D卷积层、第十五BN层、第十四激活层、第七深度可分离卷积层、第十六BN层(第一个模块结束)；

第四组的第十一激活层的输出作为第五组第一个模块的输入；

第五组第二个模块(第二个分支)依次连接关系为：第十普通2D卷积层、第十七BN层、第十五激活层、第十一普通2D卷积层、第十八BN层、第十六激活层、第八深度可分离卷积层、第十九BN层、第四最大池化层(第二个模块结束)；

第四组的第十一激活层的输出作为第五组第二个模块的输入；

融合第五组第一个模块的输出(第十六BN层的输出)和第五组第二个模块的输出(第四最大池化层的输出)；

将融合后图像特征输入第十七激活层；

第六组包括第一个模块(第一个分支)、第二个模块(第二个分支)、第二十一激活层；

第六组第一个模块(第一个分支)依次连接关系为：第十二普通2D卷积层、第二十BN层、第十八激活层、第九深度可分离卷积层、第二十一BN层(第一个模块结束)；

第五组的第十七激活层的输出作为第六组第一个模块的输入；

第六组第二个模块(第二个分支)依次连接关系为：第十三普通2D卷积层、第二十二BN层、第十九激活层、第十四普通2D卷积层、第二十三BN层、第二十激活层、第十深度可分离卷积层、第二十四BN层、第五最大池化层(第二个模块结束)；

第五组的第十七激活层的输出作为第六组第二个模块的输入；

融合第六组第一个模块的输出(第二十一BN层的输出)和第六组第二个模块的输出(第五最大池化层的输出)；

将融合后图像特征输入第二十一激活层；

第七组包括第一个模块(第一个分支)、第二个模块(第二个分支)、第二CBAM注意力模块、第二十七激活层；

第七组第一个模块(第一个分支)依次连接关系为：第十五普通2D卷积层、第二十五BN层、第二十二激活层、第十一深度可分离卷积层、第二十六BN层、第二十三激活层、第十六普通2D卷积层、第二十七BN层、第二十四激活层、第十二深度可分离卷积层、第二十八BN层(第一个模块结束)；

第六组的第二十一激活层的输出作为第七组第一个模块的输入；

第七组第二个模块(第二个分支)依次连接关系为：第十七普通2D卷积层、第二十九BN层、第二十五激活层、第十八普通2D卷积层、第三十BN层、第二十六激活层、第十三深度可分离卷积层、第三十一BN层(第二个模块结束)；

第六组的第二十一激活层的输出作为第七组第二个模块的输入；

第七组第二个模块的输出(第三十一BN层的输出)作为第二CBAM注意力模块的输入；

融合第七组第一个模块的输出(第二十八BN层的输出)、第七组第二个模块的输出(第三十一BN层的输出)和第二CBAM注意力模块的输出，将融合后图像特征输入第二十七激活层；

第八组包括：第十九普通2D卷积层、第二十普通2D卷积层、第一非对称卷积层、第二非对称卷积层、第三十二BN层、第二十八激活层、第十四深度可分离卷积层；

第七组的第二十七激活层的输出作为第十九普通2D卷积层的输入；

第七组的第二十七激活层的输出作为第二十普通2D卷积层的输入；

第二十普通2D卷积层的输出作为第一非对称卷积层的输入；

第一非对称卷积层的输出作为第二非对称卷积层的输入；

第二非对称卷积层的输出作为第三十二BN层的输入；

第三十二BN层的输出作为第二十八激活层的输入；

第二十八激活层的输出作为第十四深度可分离卷积层的输入；

融合第十九普通2D卷积层的输出、第二非对称卷积层的输出和第十四深度可分离卷积层的输出，将融合后图像特征输入第二十九激活层，第二十九激活层的输出输入全局平均池化层的输入，全局平均池化层的输出输入全连接层，全连接层输出特征向量。

本发明提出的AMB-CNN网络模型由八个部分组成，如图1所示。前三部分主要由普通卷积层，深度可分离卷积层，以及最大池化层构成，用于提取遥感图像的浅层特征。其中融合了挤压与激励模块(Squeeze and Excitation,SE)，提升了特征通道之间的关系，扩大了全局的感受野，能够在后续深层特征提取时减少信息损失。从第四组开始，为了提取到更多的有用信息，采用基于空间与通道注意力的多线性融合策略。最后在第八组中，加入了不对称卷积，以进一步减小参数量。

在提取深层特征的主要部分(第四至七组)，每组可以看作由两个模块(其输入均来自上层的末端)构成，这两个模块分别为普通卷积层与深度可分离卷积层的交替组合，以及普通卷积层与最大池化层的组合。发现，如果直接融合这两个模块，虽然提取到的特征信息相对于单分支较好，但是整体提升效果依然不够理想。因此，将其中一个模块提取的特征输入到卷积注意力模块(Convolutional BlockAttention Module，CBAM)中，进一步提取关键特征，最后进行多分支融合，从而得到遥感图像中更多的关键细节信息。

为了构建轻量级网络，本发明采用深度可分离卷积与普通卷积结合的方式，以缓解模型参数量较大，训练速度慢的问题，摒弃了传统多个大卷积直接线性堆叠的方式。在模型的第八组应用非对称卷积，相比于传统n×n的普通卷积，参数量大幅度减小。

考虑到遥感场景图像往往具有丰富的细节，且很多地貌具有较高的相似性，对模型进行了细微的调整，采用了稳定性更强的hard-swish来替代ReLu作为激活函数，提高了模型的非线性表达能力，并在一定程度上缓解了梯度消失和爆炸的问题。最后，经过BN层处理，加快了模型的收敛速度。此外，为了防止训练中产生过拟合的现象，在卷积层的权重中加入了个L2正则化惩罚，惩罚系数为0.0005。

特征提取与注意力模块

本模型的第二、三组用于提取图像的浅层特征，在此加入了SE模块，以上层卷积块作为输入，使用平均池化层对每个通道进行压缩，并用密集层增加非线性以减小输出通道的复杂性。接下来，再用一个密集层使通道具有平滑的门控功能。最后，对每个特征图进行加权激励，以扩展感受野，减少特征信息的损失，为从第四组开始的特征提取提供更丰富的图像细节信息。

其中SE注意力模块包含压缩(Squeeze)和激励(Excitation)两个部分；

压缩过程为：

将F_tr看作一个标准的卷积算子，V＝[v₁,v₂,...,v_i]代表学习到的一组滤波器核，v_i代表第i个滤波器的参数，则F_tr的输出写作U＝[u₁,u₂,...,u_i]；

其中，*表示卷积，v_i＝[v_1i,v_2i,...,v_I′i]，v_I′i表示v_i中的元素，X表示图像通道，X＝[x₁,x₂,...,x_i,...,x_I](为了简便运算，这里忽略偏置项)，x₁表示图像中第一个通道，x_I表示图像中第I个通道；u_i表示输出的第i个通道的通道信息，v_i代表在第i个通道上使用的卷积核，s表示压缩过程；

因为通道信息是通过通道间求和产生的，所以在v_i中体现了通道相关性，而v_i又可以获取图像的空间相关性，这样就将通道相关性与空间相关性结合在一起。

SE注意力模块提取通道信息时，采用全局平均池化，将多个通道压缩为一个通道，其中第i个通道表示为

其中，z_i为第i个信道，H为特征图的高，W为特征图的宽；

激励过程为：

为了得到通道相关性，采用一个门函数，并使用sigmoid作为激活函数s′＝σ(g(z,W′))

其中，s′为门函数，σ为激活函数，g(z,W′)代表z、W′是关于g的函数，z为信道，W′为权重；

注意力块通过调节有激活功能的输出U，得到SE注意力模块的最终输出为

在提取图像特征的主干部分(第四到七组)，本发明提出了两种模块，第一种是2D卷积与深度可分离卷积的交替使用，第二种是连续2D卷积与最大池化层的使用，如图2所示。在此基础上，在深层特征提取的开始层(第四层)与结尾层(第七层)加入了通道与空间注意力机制，将第四组和第七组的第二个模块输出的特征图F输送到卷积注意力模块(CBAM)中。

假设第四组和第七组的第二个模块输出的特征图F的形状为W×H×C，特征图F输入CBAM注意力模块，CBAM注意力模块分为两个过程处理特征图F，第一过程是通道，二个是空间，特征图F先进行第一过程，在进行第二过程，

其中，

代表元素相乘，F″代表CBAM注意力模块最终的输出的特征图，F′代表通道注意力的输出特征图，C代表通道式channel的缩写；M_c(F)是将特征图F依次输入到全局平均池化层、最大池化层、全连接层、全连接层得到的，代表一个1×1×C的一维特征图；M_s(F′)是将特征图F依次输入到全局平均池化层、最大池化层、全连接层、全连接层得到的，代表一个1×H×W的二维特征图；

通过这种方式，在浅层特征扩大了感受野的情况下，进一步获取特征图的关键信息与位置，增强了模型提取特征的能力。

轻量级模型构建策略

在提取特征时，随着层数的加深，参数计算量越来越大。以一个3×3的卷积为例，在多通道数卷积后，其参数代价是巨大的。因此，在提出的模型中，采用一种可分离卷积结合传统2D卷积的混合方法，并在卷积结束后使用BN层与非线性激活函数，以加快模型收敛速度与训练速度，来提取图像的深层特征。下面对深度可分离卷积与普通2D卷积层的复杂度与参数量分别进行比较。

假设输入特征图大小为D_f×D_f×M，输出特征图大小为D_f×D_f×N，卷积核为D_k×D_k×M；

普通2D卷积参数量(参数量是2D卷积所消耗和占用的内存)为D_k×D_k×M×N；

深度可分离卷积看作逐点卷积和深度卷积之和，其中逐点卷积的参数量为(1×1×M)×N，深度卷积的参数量为(D_k×D_k×1)×M；深度可分离卷积的参数量与普通2D卷积的参数量比值表达为

简后可得

其中，D_f为特征图大小，M为输入通道，N为输出通道，D_k为特征图大小；

可见，如果使用3×3的卷积核，深度可分离卷积的参数量比普通2D卷积的参数量可减小约9倍，若是采用5×5的卷积核，深度可分离卷积的参数量比普通2D卷积的参数量可减小约25倍。

对于复杂度，假设卷积步长为1，由于零填充输入、输出的特征图在空间大小上保持不变，所以传统卷积输出的特征图谱为

其中，K_i,j,m,n为卷积核，F_{k+i-1,1+j-1,m}为特征图，G_k,l,m为输出的特征图谱，i为特征图的长，j为特征图的宽，k为卷积核数目，m为通道数，n为卷积核步长，l为卷积核大小；

普通2D卷积计算复杂度为D_f×D_f×M×N×D_k×D_k；由此可知，复杂度与输入通道M，输出通道N，卷积核的尺寸，以及输入特征图的尺寸有关。而本发明采用的深度可分离卷积正好破坏了卷积核尺寸与输入特征图的尺寸关系。本发明深度可分离卷积分为逐点卷积和逐层卷积，用逐层卷积对每个通道依次进行卷积，该过程表示为

其中，

是大小为D_k×D_k×M的卷积核，输出特征

的第m个通道，由

中的滤波器输入作用到F_{k+i-1,l+j-1,m}中的第m个通道，来表达深度卷积层的线性组合。

此外，在提出模型的第八组中，还采用了多个非对称卷积融合策略，进行较深层次的特征提取。受inception v3思想启发，采用多个小卷积融合替换大卷积的方式，我们发现将1×3卷积与3×1卷积级联，比直接使用3×3的卷积计算量约下降了33％。在不影响网络模型性能的基础上，有效降低了模型的计算复杂度。

非线性特征组合增强策略

激活函数对于卷积神经网络模型的学习具有重要作用。传统的ReLu激活函数定义为

f(x)＝max(0,x)

虽然它相对于Sigmoid的收敛速度较快，但它在训练过程中十分脆弱，一旦参数例如学习率设置不当，当出现神经元坏死的情况，神经元后的参数将永不更新。而对于激活层采用sigmoid激活函数，表达式为

σ(x)的导数为σ′(x)＝σ(x)[1-σ(x)]

其中，x为自变量，范围是负无穷到正无穷；

当反向传播时，当梯度接近于0，权重基本不会更新，因此就容易出现梯度消失的情况。提出模型采用hard-swish激活函数，该函数具有无上界有下界平滑非线性的特点。在训练时，尽管它在嵌入式设备上的代价是非零的，但是在通常情况下flops主要计算模型中的卷积层/全连接层，且占据了百分之九十五以上，而hard-swish的微小代价造成的影响可以忽略不计。我们在每层卷积之后，加入了BN层和激活函数，这样不仅加快了模型的训练时间，而且使神经元更充分的适应了复杂的非线性的任务。

在模型训练阶段，加入了权重衰减，即L2正则化，这样可以使具有代表性的数据分布凸显出来。对于提出的模型，在代价函数后面加上一个正则项，表示为

其中，J(Θ)为损失函数，y_i为数据标准函数，m为第m个特征数据，n为第n个特征数据，h_Θ(x_i)为实际数据函数，λ为正则化因子，i为特征数据，j为特征数据，x_ij为对Θ_j求偏导之后产生的函数；

并对J(Θ)求偏导数得

由此梯度下降表示为

其中，α为正则化系数；

当Θ_j的系数为1时，显然可以看出

这说明在训练过程中，权重进行了衰减，从而得到更小的权值。为了有效缓解因训练样本少造成的过拟合现象，同时加速模型的收敛，加入了L2正则化。在实验中，把L2正则化系数定为0.005。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤三中采用预处理后的遥感图像训练基于注意力机制的多分支特征融合卷积神经网络AMB-CNN，得到训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；具体过程为：

采用预处理后的遥感图像训练基于注意力机制的多分支特征融合卷积神经网络AMB-CNN，直至基于注意力机制的多分支特征融合卷积神经网络AMB-CNN收敛，得到训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述普通2D卷积层和深度可分离卷积层(所有普通2D卷积层和所有深度可分离卷积层)的输出都进行L2正则化，L2正则化系数定为0.005。

其它步骤及参数与具体实施方式一至四之一相同。

提出的AMB-CNN模型的过程

3：F是目标图像的特征，M(t)是输入特征图，N(t)是卷积核，5：正则化表达式；9：学习到的第一个特征F₁第二个特征F₂；10：把F₁，F₂加入到注意力机制中生成F₃；11：融合三段特征。

采用以下实施例验证本发明的有益效果：

实验和结果分析

从多个性能指标对本发明所提出的模型网络(AMB-CNN)进行全面评估。实验是在四个具有较高挑战性的数据集上进行，本发明将提出的方法与最先进的方法进行了比较分析。实验结果表明，本发明提出方法能对遥感场景图像进行更有效的分类，且计算复杂度较低。

数据集：

UC Merced Land-Use Dataset Data Set(UCM21)

对于UCM 21数据集，图像像素大小为256×256，共包含21类场景图像，每一类有100张，共2100张航天图像组成。该数据集被广泛应用于评价遥感场景图像分类方法中，实验中随机选取80％作为训练，其余的作为测试集。场景类别包括(1)Agricultural；(2)Airplane；(3)Baseball diamond；(4)Beach；(5)Buildings；(6)Chaparral；(7)Denseresidential；(8)Forest；(9)Freeway；(10)Golf course；(11)Harbor；(12)Intersection；(13)Medium residential；(14)Mobile home park；(15)Overpass；(16)Parking lot；(17)River；(18)Runway；(19)Sparse residential；(20)Storage tanks；(21)Tennis court；一些样本图像如图3所示。

AID Data Set

相比于UCM数据集，AID数据集具有更多的图像与类别，图像像素大小为600×600，总包含30类场景图像，每一类约220-420张，共10000张。为了更有效地验证本发明提出方法的有效性，选取了两种不同的数据划分方式。

1.实验中随机选取20％作为训练，其余作为测试集。

2.实验中随机选取50％作为训练，其余作为测试集。

场景类别包括(1)Airport；(2)Bareland；(3)Baseball field；(4)Beach；(5)Bridge；(6)Center；(7)Church；(8)Commercial；(9)Dense residential；(10)Desert；(11)Farmland；(12)Forest；(13)Industrial；(14)Meadow；(15)Medium residential；(16)Mountain；(17)Park；(18)Parking；(19)Playground；(20)Pond；(21)Port；(22)Railwaystation；(23)Resort；(24)River；(25)School；(26)Sparse residential；(27)Square；(28)Stadium；(29)Storage tanks；(30)Viaduct；一些样本图像如图4所示。

NWPU Data Set

NWPU Data数据集是一个大型的数据集，覆盖全球100多个地区，图像类间相似性较高，因此更具有挑战性。图像像素大小为256×256，总包含45类场景图像，每一类有700张，共31500张。实验中采用了两种不同的数据划分方式。

1、实验中随机选取10％作为训练，其余作为测试。

2、实验中随机选取20％作为训练，其余作为测试。

类别包括(1)Airplane；(2)Airport；(3)Baseball diamond；(4)Basketballcourt；(5)Beach；(6)Bridge；(7)Chaparral；(8)Church；(9)Circular farmland；(10)Cloud；(11)Commercial area；(12)Dense residential；(13)Desert；(14)Forest；(15)Freeway；(16)Golf course；(17)Ground track field；(18)Harbor；(19)Industrialarea；(20)Intersection；(21)Island；(22)Lake；(23)Meadow；(24)Medium residential；(25)Mobile home park；(26)Mountain；(27)Overpass；(28)Palace；(29)Parking lot；(30)Railway；(31)Railway station；(32)Rectangular farmland；(33)River；(34)Roundabout；(35)Runway；(36)Sea ice；(37)Ship；(38)Snowberg；(39)Sparseresidential；(40)Stadium；(41)Storagetank；(42)Tennis court；(43)Terrace；(44)Thermal powerstation；(45)Wetland；一些样本图像如图5所示。

RSSCN7 Data Set

RSSCN7数据集图像像素大小为400×400，总包含7类场景图像，每一类有400张，共2800张。实验中随机选取50％作为训练，其余作为测试，类别包括(1)Field；(2)Forest；(3)Grass；(4)Industry；(5)Parking；(6)Resident；(7)RiverLake；一些样本图像如图6所示。

实验设置

1、数据预处理与增强：a将输入图像进行归一化处理；b对归一化处理后图像旋转0—60度(包括0和60)；c将旋转后图像随机水平或垂直翻转；d将翻转后图像的长度，宽度随机偏移0.2倍(左右都可以)；

2、参数设置：初始学习率设置为0.01。此外，增加了学习率自动衰减机制，训练时的动量为0.9，批量大小设置为16，实验结果为10次实验的平均值。实验是在一台CPU:Intel(R)Core(TM)i7-10750H，显卡：RTX2060，RAM：16GB的电脑上运行的。

为了验证提出方法的有效性，本发明从总体精度(OA)，平均精度(AP)，kappa系数，F1评分(F1)，混淆矩阵，以及模型参数这六个方面，对本发明提出方法进行评估，并与一些较新的方法进行比较。其中OA是正确分类的类别像元数与总的类别个数的比值，AP是测试集上每个场景类准确率的平均值，Kappa系数代表着分类与完全随机的分类产生错误减少的比例，F1评分为精确率与召回率的算数平均数除以几何平均数。

本发明提出模型是根据MobileNet网络改进而成。为了证明模型中基于注意力的多分支融合策略的有效性，首先将本发明提出模型与MobileNet模型在UCM21、AID30、NWPU45、RSSCN这四个常用数据集上进行对比，并采用OA精度、KAPPA系数、F1系数、AP精度作为评价指标。

实验采用Keras对MobileNet进行了复现，并对网络的最后一层进行微调。表1为本发明提出模型与MobileNet模型在OA精度，KAPPA系数，AP精度，F1评分上的比较结果。由表1可见，在不同数据集、不同数据划分的情况下，采用本发明提出方法得到的OA，Kappa，AP和F1评分，均比MobileNet的性能高很多。其中，在AID(20/80)数据集上，本发明提出网络的OA与Kappa分别比MobileNet提高了6.06％和6.28％；在NWPU(10/90)数据集上，本发明提出网络的OA与Kappa分别比MobileNet提高了6.33％与6.47％。这表明了本发明提出方法的有效性。

表1 MobileNet与本发明提出模型的性能比较

此外，在UCM21(20/80)数据集上，测试了本发明提出方法与MobileNet网络模型所得到的混淆矩阵，如图7a所示。在混淆矩阵中，对角线上元素为被正确分类的样本数目，非对角线上的元素为错分的样本数。由图7a、7b可以看出，本发明提出模型的分类效果很好，基本做到了零样本分类错误，分类错误场景样本数大大低于MobileNet网络模型的数目。综上所述，采用多个评估指标(OA，AP，KAPPA，F1混淆矩阵)进行衡量，本发明提出方法在6个数据集上测试得到的分类性能均高于MobileNet。这证明了基于注意力的多分支融合策略的有效性，并在遥感图像场景分类上具有卓越的表现。

与先进方法的比较

近年来，卷积神经网络不断被用于遥感图像场景分类中。研究者经过探索表明，更为丰富的图像细节往往在深层中。Y.Liu^[55]([55]Y.Liu,Y.Liu,and L.Ding,“Sceneclassification based on two-stage deep feature fusion,”IEEE Geosci.RemoteSens.Lett.,vol.15,no.2,pp.183–186,Feb.2018.)等人为此进行了大量的实验，发现在浅层中也存在着大量的图像信息，因此提出两阶段深度特征融合模型，将两阶段的特征自适应集成融合，进一步提高了模型性能。类内多样性和类间相似性一直是遥感图像场景分类所面临的两大挑战。因此，G.Cheng等人^[47]，F.Zhao等人^[40]先后提出了D-CNNS模型，Variable-Weighted Multi-feature Fusing(VWMF)模型来解决这些问题。在D-CNNS映射空间中，同一类别的遥感场景图像紧密映射，而不同类的图像被相互远离。在VWMF方法中，先将多个底层特征融合到直方图中，再使用基于内核协作表示的分类方法来进行特征权重的加权运算，较好的缓解了类内差异较大，类间相似性高的问题。但VWMF方法对图像信息特征结合效果有限。N.He^[43]提出了一种新的遥感图像场景分类的方法-基于多层叠加协方差池(MSCP)的方法，通过预先训练的卷积神经网络提取出特征，然后将其自然的相加到一起，计算协方差矩阵，最后利用提取的协方差矩阵作为支持向量机分类的特征。但是现有的CNN模型，特征维度很难管理，因此也限制了它的发展应用。为了探索到深层次的语义标签信息，X.Lu^[45]提出了一种端到端的特征聚合CNN模型(FACNN)，该模型采用监督卷积特征编码模块和一种渐进聚合策略，利用语义标签信息来聚合中间特征，将聚合特征与分类器联系到一起，相比于之前叙述的MSCP方法减少了网络的复杂程度，缓解了它的不足。端到端的CNN模型网络以其简单的操作被广泛应用，N.He^[42]等人提出了一种基于跳跃协方差(SCCov)网络的端到端的CNN模型，将跳跃链接和两个协方差池嵌入到卷积神经网络中，不仅缓解了遥感场景图像存在大尺度方差的问题，在多分辨率特征映射聚合中也可提取到更多有用的特征语义。但所融合的一阶与二阶信息并非全部为有用信息，中间也掺杂着部分无关语义信息，H.Sun^[44]等人则提出了一种门控双向网络，强调多层卷积特征的层次信息，对各层提取到的特征通过双向连接来分层融合多层特征，在获取深层特征的同时也一定程度上抑制了信息的冗余与相斥。通常CNN模型的末尾总是加入几个全连接层，但这样忽略了部分空间信息，对特征的层次结构并不能很好的把握，W.Zhang^[50]等人则提出了胶囊网络(CapsNet)，利用一组神经元作为胶囊或载体来取代传统神经网络中的神经元，并能对图像中特征的属性和空间信息进行编码，以实现均衡。特征提取的关键在于有效提取信道中的有用信息，也就是让计算机把注意力放在主要特征上，D.Zhang^[51]等人提出了基于深度卷积神经网络的通用位置上下文聚合(PCA)模型，采用自我注意机制，利用空间上下文聚合和相对位置编码来捕获聚合信息。本发明提出的方法(Multi branch-CNN)综合考虑了特征信息以及特征信息的位置，将感受野扩大后的特征图应用到所提出的两种卷积模型结构中，进行特征提取，最后通过注意力机制，进行多分支融合。通过这种方式，不仅有效提高了分类精度，还大大减小了模型复杂度。

在实验中，将本发明提出方法与多种较新的遥感图像场景分类方法在相同条件下进行比较。首先，在UC Merced Land-Use Dataset数据集上按照训练:测试＝8:2进行了实验，如表2，本发明提出模型的OA精度达到了99.52％，比近期提出的PANet50^[51]模型高了0.31％，比LCNN-BFF双分支融合网络^[52]提升了0.23％，并且提出模型的参数量仅为5.6M，相比于SF-CNN with VGGNe^t[49]，VGG16-DF^[48]，FACNN^[45]等以VGG16作为基础网络的模型，参数量仅占这些方法参数量的4.3％。而对于PANet50等以ResNet为基础网络的模型来说，参数量也仅仅占它的20％。值得说明的是，本发明提出方法在参数量最低的情况下，得到的分类精度依然是最佳的。

表2提出模型在UCM21数据集上与多种先进方法的性能比较

接着，在RSSCN数据集上以训练:测试＝5:5进行了实验，结果如表3所示。可见，在类间相似性极高的RSSCN数据集上，提出模型仍具有巨大优势。与Two-stage deep featurefusion^[55]方法，SPM-CRC^[41]方法，WSPM-CRC^[41]方法，LCNN-BFF^[52]方法相比，本发明提出方法的OA精度分别提高了2.77％，1.28％，1.24％，0.50％。尽管本发明提出方法的OA精度比ADFF方法下降了0.07％，但本发明提出方法的参数量仅占ADFF方法参数量的24.3％。综合来看，在微小的精度差别下本发明提出网络的模型复杂度大大降低。

表3本发明提出模型在RSSCN7数据集上与多种先进方法的性能比较

[54]G.Xia et al.,“AID:A benchmark data set for performance evaluationofaerial scene classification,”IEEE Trans.Geosci.Remote Sens.,vol.55,no.7,pp.3965–3981,Jul.2017.

表4是在AID数据集上分别以训练:测试＝2:8,训练:测试＝5:5划分后的实验结果，在AID(20/80)划分中，本发明提出方法仍然提供了最佳的分类精度。提出方法与GBNet+global feature^[44]方法，LCNN-BFF^[52]方法，GBNet^[44]方法，DCNN^[47]方法相比，OA精度分别提高了1.07％，1.67％，3.11％和2.45％。在AID(50/50)划分中，相比于DCNN方法，GBNet+global feature^[44]方法，以及VGG_VD16+SAFF^[39]方法，本发明提出的AMB-CNN模型复杂度仅为它们的4.3％，4.1％，37.3％。

表4本发明提出模型在AID30数据集上与多种先进方法的性能比较

[33]P.Yan,F.He,Y.Yang,andF.Hu,“Semi-supervisedrepresentationlearningfor remote sensing image classification based on generative adversarialnetworks,”IEEE Access,vol.8,pp.54135–54144,Mar.2020.

[34]C.Wang et al.,“Multiple resolution block feature for remote-sensing scene classification,”Int.J.Remote Sens.,vol.40,no.18,pp.6884–6904,2019.

[35]X.Liu,Y.Zhou,J.Zhao,R.Yao,B.Liu,and Y.Zheng,“Siameseconvolutional neural networks for remote sensing scene classification,”IEEEGeosci.Remote Sens.Lett.,vol.16,no.8,pp.1200–1204,Aug.2019.

[36]Y.Zhou et al.,“Remote sensing scene classification based onrotation-invariant feature learning and joint decision making,”EURASIPJ.ImageVideo Process.,vol.2019,no.1,pp.1–11,2019.

[37]X.Lu et al.,“Bidirectional adaptive feature fusion for remotesensing scene classification,Neurocomputing,vol.328,pp.135–146,2019.

[38]Y.Liu et al.,“Scene classification based on multiscaleconvolutional neural network,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.12,pp.7109–7121,2018.

[39]R.Cao,L.Fang,T.Lu,andN.He,“Self-attention-based deep featurefusionfor remote se nsing scene classification,”IEEE Geosci.RemoteSens.Lett.,to be published,doi:10.1109/LGRS.2020.2968550.

[40]F.Zhao et al.,“A novel two-stage scene classification model basedonFeaturevariablesignificancein high-resolutionremotesensing,”GeocartoInt.,tobe published,doi:10.1080/10106049.2019.1583772.

[41]B.Liu et al.,“Weighted spatial pyramid matching collaborativerepresentation for remote-sensing-image scene classification,”Remote Sens.,vol.11,no.5,2019,Art.no.518.

[42]N.He,L.Fang,S.Li,J.Plaza,and A.Plaza,“Skip-connectedcovariancenetwork for remote sensing scene classification,”IEEETrans.NeuralNetw.Learn.Syst.,vol.31,no.5,pp.1461–1474,May 2020.

[43]N.He,L.Fang,S.Li,A.Plaza,and J.Plaza,“Remote sensing sceneclassification using multilayer stacked covariance pooling,”IEEETrans.Geosci.Remote Sens.,vol.56,no.12,pp.6899–6910,Dec.2018.

[44]H.Sun,S.Li,X.Zheng,and X.Lu,“Remote sensing scene classificationbygated bidirectional network,”IEEE Trans.Geosci.Remote Sens.,vol.58,no.1,pp.82–96,Jan.2020.

[45]X.Lu,H.Sun,and X.Zheng,“A feature aggregation convolutionalneuralnetwork for remote sensing scene classification,”IEEETrans.Geosci.Remote Sens.,vol.57,no.10,pp.7894–7906,Oct.2019.

[46]B.Lietal.,“Aggregated deep fisher feature for VHR remote sensingsceneclassification,”IEEE J.Sel.Topics Appl.Earth Observ.Remote Sens.,vol.12,no.9,pp.3508–3523,Sep.2019.

[47]G.Cheng,C.Yang,X.Yao,L.Guo,and J.Han,“When deep learningmeetsmetric learning:Remote sensing image scene classification vialearningdiscriminative CNNs,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.5,pp.2811–2821,May 2018.

[48]Y.Boualleg,M.Farah,and I.R.Farah,“Remote sensing sceneclassification using convolutional features and deep forest classifier,”IEEEGeosci.Remote Sens.Lett.,vol.16,no.12,pp.1944–1948,Dec.2019.

[49]J.Xie,N.He,L.Fang,and A.Plaza,“Scale-free convolutionalneuralnetwork for remote sensing scene classification,”IEEETrans.Geosci.Remote Sens.,vol.57,no.9,pp.6916–6928,Sep.2019.

[50]W.Zhang et al.,“Remote sensing image scene classification usingCNN-CapsNet,”Remote Sens.,vol.11,no.5,2019,Art.no.494.

[51]D.Zhang,N.Li,and Q.Ye,“Positional context aggregation networkforremote sensing scene classification,”IEEE Geosci.Remote Sens.Lett.,vol.17,no.6,pp.943–947,Jun.2020.

[52]C.Shi,T.Wang and L.Wang,"Branch Feature Fusion ConvolutionNetwork for Remote Sensing Scene Classification,"in IEEE Journal of SelectedTopics in Applied Earth Observations and Remote Sensing,vol.13,pp.5194-5210,2020,doi:10.1109/JSTARS.2020.3018307.

[53]J.Li et al.,"Deep discriminative representation learning withattention map for scene classification",Remote Sens.,vol.12,no.9,2020.

最后，在NWPU大型数据集上进一步评估了提出方法的有效性。把数据集划分为训练:测试＝1:9和训练:测试＝2:8进行了两次实验，结果见表5。

本发明方法在NWPU(10/90)划分上的精度达到了88.99，高于现有的遥感图像场景分类方法，如高于LCNN-BFF^[52]方法2.46％，高于sCCov^[42]方法4.66％，高于MSCP^[43]方法3.66％。同样在NWPU(20/80)划分中，本发明所提出模型的表现依旧很出色。

表5本发明提出模型在NWPU45数据集上与多种先进方法的性能比较

图8-10给出了本发明提出模型在RSSCN7(50/50)，AID(20/80)，AID(50/50)，NWPU(10/90)，NWPU(20/80)数据集划分下得到的混淆矩阵。结果表明，本发明提出模型在多个数据集中各类均能得到较好的分类效果。这说明经过多段特征融合后，本发明提出网络模型能较好克服遥感场景图像类间相似的问题。

为了从不同角度全面的评价提出模型，通过采用基于梯度定位的方法(Grad-CAM)对不同网络模型进行可视化分析。该方法可使用任意目标的梯度，然后用卷积网络的最后一层生成粗略注意图，用于显示模型预估图像中的重要区域。实验中，在UCM21数据集里随机选取了部分图像，将最新的LCNN-BFF方法与本文方法进行了可视化比较。实验随机选取了飞机，储油箱，高尔夫球场，稀疏住宅，森林这五个遥感场景进行了比较，如图11a、图11b、图11c、图11d、图11e所示。可以看出，在飞机，储油箱这些场景中，LCNN-BFF模型预测的重点区域出现了部分偏差，而提出模型则很好的搜索到了目标物体。在高尔夫球场，稀疏住宅，森林场景中，LCNN-BFF的重点区域关注度不足，忽略了周围相似的目标，搜索到的目标有限，但提出模型则给出了更全面的重点关注区域。

此外，对训练后的网络模型，还进行了随机抽取图像预测，如图12所示。可以看出，提出模型给出的预测场景与真实的场景均一致，并且预测置信度全部在99％以上，有些个别场景甚至到达了100％。

实验表明，本发明提出的AMB-CNN精度高于前两种方法。显然，多分支和注意力融合策略可以更准确地提取特征图像信息，减少有用信息的丢失，从而在遥感图像场景分类中具有更好的性能。

最后，利用T分布随机邻域嵌入可视化(T-SNE)进一步评价了AMB-CNN模型的性能。通过将高维数据映射到二维空间，利用散射分布直观地显示分类效果，T-SNE数据降维和可视化可以更好地估计模型的分类性能。在RSSCN7(5/5)和UCM21(8/2)数据集上，比较了MobileNet、LCNN-BFF和所提出的AMB-CNN模型的T-SNE可视化效果，如图16所示。结果表明，该方法提供了同一类内的小空间和不同类之间的大空间，缓解了遥感场景图像类内差异大、类间相似性高的问题，具有良好的分类性能。

图16为三种模型方法的T-SNE可视化分析图。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于注意力机制的多分支特征融合遥感场景图像分类方法，其特征在于：所述方法具体过程为：

步骤三、采用预处理后的遥感图像训练基于注意力机制的多分支特征融合卷积神经网络AMB-CNN，得到训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；

步骤四、采用训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN对待识别遥感图像进行分类；

所述步骤二中建立基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；具体过程为：

步骤一预处理后的图像作为第一组的输入；

第四组包括第一个模块、第二个模块、第一CBAM注意力模块、第十一激活层；

第四组第一个模块依次连接关系为：第五普通2D卷积层、第八BN层、第八激活层、第四深度可分离卷积层、第九BN层；

第四组第二个模块依次连接关系为：第六普通2D卷积层、第十BN层、第九激活层、第七普通2D卷积层、第十一BN层、第十激活层、第五深度可分离卷积层、第十二BN层；

第二个模块的输出作为第一CBAM注意力模块的输入；

融合第四组第一个模块的输出、第四组第二个模块的输出和第一CBAM注意力模块的输出，将融合后图像特征输入第十一激活层；

第五组包括第一个模块、第二个模块、第十七激活层；

第五组第一个模块依次连接关系为：第八普通2D卷积层、第十三BN层、第十二激活层、第六深度可分离卷积层、第十四BN层、第十三激活层、第九普通2D卷积层、第十五BN层、第十四激活层、第七深度可分离卷积层、第十六BN层；

第五组第二个模块依次连接关系为：第十普通2D卷积层、第十七BN层、第十五激活层、第十一普通2D卷积层、第十八BN层、第十六激活层、第八深度可分离卷积层、第十九BN层、第四最大池化层；

融合第五组第一个模块的输出和第五组第二个模块的输出；

将融合后图像特征输入第十七激活层；

第六组包括第一个模块、第二个模块、第二十一激活层；

第六组第一个模块依次连接关系为：第十二普通2D卷积层、第二十BN层、第十八激活层、第九深度可分离卷积层、第二十一BN层；

第六组第二个模块依次连接关系为：第十三普通2D卷积层、第二十二BN层、第十九激活层、第十四普通2D卷积层、第二十三BN层、第二十激活层、第十深度可分离卷积层、第二十四BN层、第五最大池化层；

融合第六组第一个模块的输出和第六组第二个模块的输出；

将融合后图像特征输入第二十一激活层；

第七组包括第一个模块、第二个模块、第二CBAM注意力模块、第二十七激活层；

第七组第一个模块依次连接关系为：第十五普通2D卷积层、第二十五BN层、第二十二激活层、第十一深度可分离卷积层、第二十六BN层、第二十三激活层、第十六普通2D卷积层、第二十七BN层、第二十四激活层、第十二深度可分离卷积层、第二十八BN层；

第七组第二个模块依次连接关系为：第十七普通2D卷积层、第二十九BN层、第二十五激活层、第十八普通2D卷积层、第三十BN层、第二十六激活层、第十三深度可分离卷积层、第三十一BN层；

第七组第二个模块的输出作为第二CBAM注意力模块的输入；

融合第七组第一个模块的输出、第七组第二个模块的输出和第二CBAM注意力模块的输出，将融合后图像特征输入第二十七激活层；

第二十普通2D卷积层的输出作为第一非对称卷积层的输入；

第一非对称卷积层的输出作为第二非对称卷积层的输入；

第二非对称卷积层的输出作为第三十二BN层的输入；

第三十二BN层的输出作为第二十八激活层的输入；

2.根据权利要求1所述一种基于注意力机制的多分支特征融合遥感场景图像分类方法，其特征在于：所述步骤一中采集遥感图像，对遥感图像进行预处理，得到预处理后的遥感图像；具体过程为：

采集遥感图像为UC Merced Land-Use Dataset Data Set数据集、AID Data Set数据集、NWPU Data Set数据集或NWPU Data Set数据集；

将遥感图像进行预处理：

将遥感图像进行归一化处理，将归一化处理后的图像旋转0～60度，对旋转后的图像随机水平或垂直翻转，对翻转后的图像的长度，宽度随机偏移0.2倍。

3.根据权利要求2所述一种基于注意力机制的多分支特征融合遥感场景图像分类方法，其特征在于：所述步骤三中采用预处理后的遥感图像训练基于注意力机制的多分支特征融合卷积神经网络AMB-CNN，得到训练好的基于注意力机制的多分支特征融合卷积神经网络AMB-CNN；具体过程为：

4.根据权利要求3所述一种基于注意力机制的多分支特征融合遥感场景图像分类方法，其特征在于：所述普通2D卷积层和深度可分离卷积层的输出都进行L2正则化，L2正则化系数定为0.005。