CN111723685A

CN111723685A - 基于支路特征融合卷积网络的遥感场景分类方法

Info

Publication number: CN111723685A
Application number: CN202010484751.0A
Authority: CN
Inventors: 石翠萍; 王涛; 刘超; 苗凤娟
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2020-09-29
Anticipated expiration: 2040-06-01
Also published as: CN111723685B

Abstract

基于支路特征融合卷积网络的遥感场景分类方法，本发明涉及遥感场景分类方法。本发明的目的是为了解决现有遥感场景图像具有复杂的空间结构，容易产生较大的类内差异性和类间相似性的问题，以及现有多数具有较好分类性能的深层CNN模型具有较高的复杂度，浅层CNN模型复杂度较低，但在分类准确率上又无法达到遥感领域实际应用的要求的问题。过程为：一、建立LCNN‑BFF网络模型；二、采用数据集训练网络模型；三、采用测试集验证预训练好的模型的准确率，若准确率达到要求，即得到训练好的模型，否则，继续训练模型，直至准确率达到要求；四、采用训练好的模型对待识别遥感场景进行分类。本发明用于遥感场景分类领域。

Description

基于支路特征融合卷积网络的遥感场景分类方法

技术领域

本发明涉及遥感场景分类方法。

背景技术

遥感领域的相关研究工作已经引起了越来越多的研究人员关注和重视，其中遥感场景分类是一项根据随机场景的图像内容为其分配指定的标签[1-3]([1]Lu X,Zheng X,YuanY.Remote sensing scene classification by unsupervised representationlearning[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(9):5148-5157.[2]Li E,Xia J,Du P,et al.Integrating multilayer featuresofconvolutional neural networks for remote sensing scene classification[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(10):5653-5665.[3]Gong Z,Zhong P,Yu Y,et al.Diversity-promoting deep structural metric learningfor remote sensing scene classification[J].IEEE Transactions on Geoscienceand Remote Sensing,2017,56(1):371-390.)。它的研究成果被广泛应用于许多重要的领域，例如：国防安全，气候变化监测，环境监测管理，不同用途的土地分类，地面目标的识别与检测以及自然灾害的损失评估等各个重要领域[4-8]([4]Cheng G,Han J.A survey onobject detection in optical remote sensing images[J].ISPRS Journal ofPhotogrammetry and Remote Sensing,2016,117:11-28.[5]Han J,Zhang D,Cheng G,etal.Object detection in optical remote sensing images based on weaklysupervised learning and high-level feature learning[J].IEEE Transactions onGeoscience and Remote Sensing,2014,53(6):3325-3337.[6]Ghassemian H.Areviewofremote sensing image fusion methods[J].Information Fusion,2016,32:75-89.[7]Dan T,Yang Y,Xing L,et al.Multifeature energy optimization framework andparameter adjustment-based nonrigid point set registration[J].Journal ofApplied Remote Sensing,2018,12(3):035006.[8]Liang L,Zhao W,Hao X,et al.Imageregistration using two-layer cascade reciprocal pipeline and context-awaredissimilarity measure[J].Neurocomputing,2020,371:pp.1-14.)。

遥感场景分类是一项十分具有挑战性的研究工作。因为传感器与地球上各场景距离的不同以及地球地理环境的多样性，场景图像通常具有复杂的空间结构，容易产生较大的类内差异性和类间相似性等问题，这就导致准确分类遥感场景的难度很高。深度学习算法为解决这些问题提供了新的思路，它是从数据中分层学习具有代表性和区分性的特征，被认为是2013年十项突破性技术之一。近几年来，深度学习已成为了计算机视觉领域的研究热点，并逐渐被引入到地学和遥感领域进行人工智能算法研究和大数据分析[9-10]([9]Zhang L,Zhang L,Du B.Deep learning for remote sensing data:A technicaltutorial on the state ofthe art[J].IEEE Geoscience and Remote SensingMagazine,2016,4(2):22-40.[10]Zhu X X,TuiaD,Mou L,et al.Deep learning inremote sensing:Acomprehensive review and list of resources[J].IEEE Geoscienceand Remote Sensing Magazine,2017,5(4):8-36.)。CNN是深度学习技术领域中最具代表性的神经网络之一，它在计算机视觉领域中表现出了优良的性能[11-13]([11]Feng Y,Yuan Y,Lu X.Learning deep event models for crowd anomaly detection[J].Neurocomputing,2017,219:548-556.[12]Lu X,Wang B,Zheng X,et al.Exploringmodels and data for remote sensing image caption generation[J].IEEETransactions on Geoscience and Remote Sensing,2017,56(4):2183-2195.[13]ZhangW,Lu X,Li X.A coarse-to-fine semi-supervised change detection formultispectral images[J].IEEE Transactions on Geoscience andRemote Sensing,2018,56(6):3587-3599.)。

在遥感领域中，它被应用于许多研究工作中，尤其是，目标检测[14-15]([14]LiK,Cheng G,Bu S,et al.Rotation-insensitive and context-augmented objectdetection in remote sensing images[J].IEEE Transactions on Geoscience andRemote Sensing,2017,56(4):2337-2348.[15]Long Y,Gong Y,Xiao Z,et al.Accurateobject localization in remote sensing images based on convolutional neuralnetworks[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(5):2486-2498.)，高分辨率图像分类[16-17]([16]Lv X,Ming D,Chen Y Y,et al.Very highresolution remote sensing image classification with SEEDS-CNN and scaleeffect analysis for superpixel CNN classification[J].International Journal ofRemote Sensing,2019,40(2):506-531.[17]Maggiori E,TarabalkaY,Charpiat G,etal.High-resolution aerial image labeling with convolutional neural networks[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(12):7092-7103.)，高光谱图像分类[18-19]([18]Fang L,He N,Li S,et al.A new spatial–spectral feature extraction method for hyperspectral images using localcovariance matrix representation[J].IEEE Transactions on Geoscience andRemote Sensing,2018,56(6):3534-3546.[19]Song W,Li S,Fang L,etal.Hyperspectral image classification with deep feature fusion network[J].IEEE Transactions on Geoscience and Remote Sensing,2018,56(6):3173-3184.)以及遥感场景分类[20-23]([20]Zhao F,Mu X,Yang Z,et al.A novel two-stage sceneclassification model based on feature variable significance in high-resolution remote sensing[J].Geocarto International,2019:pp.1-12.[21]NogueiraK,Penatti O A B,Dos Santos J A.Towards better exploiting convolutional neuralnetworks for remote sensing scene classification[J].Pattern Recognition,2017,61:539-556.[22]Cheng G,Han J,Lu X.Remote sensing image scene classification:Benchmark and state of the art[J].Proceedings ofthe IEEE,2017,105(10):1865-1883.[23]Wang G,Fan B,Xiang S,et al.Aggregating rich hierarchical featuresfor scene classification in remote sensing imagery[J].IEEE Journal ofSelected Topics in Applied Earth Observations and Remote Sensing,2017,10(9):4104-4115.)等工作中。基于CNN的各种方法在遥感领域表现出了优良的性能，主要是因为深度神经网络模型能够提取更好的图像表示特征，例如，VGG16[24]([24]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale imagerecognition[C].International Conference on Learning Representations,2015:pp.1-13.)，AlexNet[25]([25]Krizhevsky A,Sutskever I,Hinton G E,et al.ImageNetclassification with deep convolutional neural networks[J].Communications ofThe ACM,2017,60(6):84-90.)，MobileNet[26]([26]HowardA G,Zhu M,Chen B,etal.MobileNets:Efficient Convolutional Neural Networks for Mobile VisionApplications[J].Computer Vision and Pattern Recognition,2017:pp.1-9.)等深度网络模型。这些经典的深度CNN模型提取到的图像特征，相比于传统手工制作的特征更具有象征性。

尽管利用深度模型能够提取到更好的图像表示特征，但遥感场景图像中存在较大的类内差异性和类间相似性的问题仍然是目前遥感场景分类研究难点，图2给出了该问题的一些图像示例，这些图像示例来自于NWPU-RESISE45数据集[22]。同时，尽管较深的模型能够提取到更具代表性的图像特征，提高场景分类准确率，但较深的模型通常都具有高模型复杂度。在实际应用中，不仅需要考虑场景的分类准确率，同时还应该考虑到模型训练速度和模型的预测分类速度，这取决于模型的复杂度。

发明内容

本发明的目的是为了解决现有遥感场景图像具有复杂的空间结构，容易产生较大的类内差异性和类间相似性的问题，以及现有多数具有较好分类性能的深层CNN模型具有较高的复杂度，浅层CNN模型复杂度较低，但在分类准确率上又无法达到遥感领域实际应用要求的问题，而提出基于支路特征融合卷积网络的遥感场景分类方法。

基于支路特征融合卷积网络的遥感场景分类方法具体过程为：

步骤一、建立LCNN-BFF网络模型；

步骤二、采用数据集训练LCNN-BFF网络模型，得到预训练好的LCNN-BFF网络模型；

步骤三、采用测试集验证预训练好的LCNN-BFF的准确率，若准确率达到要求，即得到训练好的LCNN-BFF网络模型，若准确率未达到要求，继续采用数据集训练LCNN-BFF网络模型，直至达到准确率达到要求；

步骤四、采用训练好的LCNN-BFF网络模型对待识别遥感场景进行分类。

本发明的有益效果为：

本发明针对这一问题，提出了一种采用支路特征融合方法的轻量级CNN分类方法(Lightweight CNN using branch feature fusion,LCNN-BFF)，用于复杂背景下的遥感场景分类。该模型不同于常规的单线性卷积结构，而具有一种双线性特征提取结构。用提出的BFF方法将两条支路提取的不同特征信息进行融合，提高了分类准确率。此外，结合深度可分离卷积(Depth separable convolution,DSC)和常规卷积(Conventional convolution,CConv)来提取图像特征，在保证分类精度的前提下很大程度上降低了模型的复杂度。该方法在4个标准的数据集上进行了实验。实验结果表明，与当前较新的方法相比，提出的方法在模型参数量上仅只占部分方法不到5％的参数量，且与高性能分类方法具有较大的竞争力甚至优于它们。

解决现有遥感场景图像具有复杂的空间结构，容易产生较大的类内差异性和类间相似性的问题，以及现有多数具有较好分类性能的深层CNN模型具有较高的复杂度，浅层CNN模型复杂度较低，但在分类准确率上又无法达到遥感领域实际应用要求的问题。

附图说明

图1为本发明LCNN-BFF方法总体结构图；图2a为同一类差异较大的图像，Airplane为飞机，Church为教堂；图2b为不同类相似较高的图像，Forest为森林，Freeway为高速公路，Basketball corut为篮球场，Commercial area为商业区，Runway为飞机跑道，Groundtrack field为田径场，Dense residential为密集住宅区；图3为三种卷积组合结构图；图4为BFF原理图；图5为一些场景图像的特征图；图6为UC数据集中的一些场景示例图；图7为RSSCN数据集的一些场景示例图；图8为AID数据集的一些场景示例图；图9为NWPU数据集的一些场景示例图；图10a为LCNN-BFF和MobileNet的AP值比较图；图10b为LCNN-BFF和MobileNet的F1值比较图；图11a为LCNN-BFF在80/20UC数据集上的混淆矩阵图；图11b为MobileNet在80/20UC数据集上的混淆矩阵图；图12a为LCNN-BFF在50/50RSSCN数据集上的混淆矩阵图；图12b为MobileNet在50/50RSSCN数据集上的混淆矩阵图；图13为LCNN-BFF和MobileNet在UC数据集上的可视化结果图，(a)为被两种方法都分类正确的场景图像，(b)为仅被LCNN-BFF正确分类的场景图像；图14为LCNN-BFF和MobileNet在NWPU数据集上的可视化结果图，(a)为被两种方法都分类正确的场景图像，(b)为仅被LCNN-BFF正确分类的场景图像。

具体实施方式

具体实施方式一：本实施方式基于支路特征融合卷积网络的遥感场景分类方法具体过程为：

近年来，各研究人员在遥感场景分类的研究工作中做了许多的有效的尝试，已经提出了大量不同的分类方法。这些工作主要可以分为三类，一类是基于手工制作特征(Handcrafted Feature-Based Methods)的方法，一类是基于无监督特征学习(Unsupervised Feature-Learning-Based Methods)的方法，最后是作为目前主流的基于CNN深度特征学习(Deep CNN Feature-Learning-Based Methods)的方法[22]。下面先简要介绍这三类方法的相关工作，再给出本发明工作的主要贡献。

A.基于手工制作特征的方法

早期的场景分类工作主要是基于手工制作的特征，利用手工制作的特征表示符来提取遥感场景的视觉特征。针对研究人员不同的需求，可选择使用不同的特征表示，其中应用最广泛的包括但不限于颜色直方图[27]([27]Swain M J,Ballard D H.Color indexing[J].International journal of computer vision,1991,7(1):11-32.)，纹理表示符[28]([28]Ojala T,Pietikainen M,Maenpaa T.Multiresolution gray-scale and rotationinvariant texture classification with local binary patterns[J].IEEETransactions on pattern analysis and machine intelligence,2002,24(7):971-987.)，GIST[29]([29]OlivaA,TorralbaA.Modeling the shape of the scene:Aholistic representation of the spatial envelope[J].International journal ofcomputer vision,2001,42(3):145-175.)，SIFT[30]([30]Lowe D G.Distinctive imagefeatures from scale-invariant keypoints[J].International journal of computervision,2004,60(2):91-110.)，HOG[31]([31]Dalal N,Triggs B.Histograms oforiented gradients for human detection[C].IEEE computer society conference oncomputer vision and pattern recognition,2005,1:886-893.)。然而手工制作特征的方法语义描述能力低，在含有丰富语义信息的遥感场景图像中使用该方法分类，不仅工作量很大且分类性能会受到很多的限制，这就导致其无法达到遥感场景分类实际应用的标准。

B.基于无监督特征学习的方法

为了弥补手工特征的局限性，许多研究人员经过了多次的尝试，提出一种从图像中自动学习特征的方法，即无监督特征学习。无监督特征学习主要是从图像中学习特征，而不是依赖于人工设计的特征。使用该方法可以获得更适合当前问题的判断特征。无监督特征学习方法包括但不限于K类聚合(k-means clustering)、稀疏编码(Sparse coding)[32]([32]Olshausen B A,Field D J.Sparse coding with an overcomplete basis set:Astrategy employed by V1？[J].Vision research,1997,37(23):3311-3325.)和自编码器(Autoencoder)[33]([33]Hinton G E,Salakhutdinov R R.Reducing thedimensionality ofdata with neural networks[J].Science,2006,313(5786):504-507.)。在文献[34]([34]Zhu Q,Zhong Y,Zhao B,et al.Bag-of-visual-words sceneclassifier with local and global features for high spatial resolution remotesensing imagery[J].IEEE Geoscience and Remote Sensing Letters,2016,13(6):747-751.)中，Zhu Q等人提出了一种适用于高速铁路图像的LGFBVW(Local–global featurebag-of-visual-words)方法。该方法以基于形状的不变纹理索引作为全局纹理特征，以均值和标准差作为局部光谱特征，以密集的SIFT作为结构特征。CheriyadatAM提取密集的低层特征表示符来表示局部空间布局。这些未标记的特征测量被用来学习一组基函数。根据基函数对底层特征表示符进行编码，生成新的稀疏表示[35]([35]Cheriyadat AM.Unsupervised feature learning for aerial scene classification[J].IEEETransactions on Geoscience and Remote Sensing,2013,52(1):439-451.)。

在文献[36]([36]Cheng G,Zhou P,Han J,et al.Auto-encoder-based sharedmid-level visual dictionary learning for scene classification using very highresolution remote sensing images[J].IET ComputerVision,2015,9(5):639-647.)中，Cheng G等人提出了一种基于自动编码器的方法来学习一个共享的中级视觉词典。他们使用有区别的中层视觉元素，而不是单个像素或低层图像特征来表示图像。尽管无监督特征的学习方法较手工制作特征的方法，在分类性能上已经有了一定的提升。但是，由于该方法主要学习的是中低层次的图像特征，而中低层次图像特征的描述能力有限，很难进一步提高遥感场景分类的性能。

C.基于CNN深度特征学习的方法

基于CNN深度特征学习的方法就是利用具有深度特征提取结构的CNN模型，从数据中自动学习到更具有代表性和鉴别性的图像特征。近年来，由于CNN在计算机视觉领域表现出的高性能特点，已经有许多研究人员提出了各种基于CNN的遥感场景分类方法[37-47]([37]Chaib S,Liu H,Gu Y,et al.Deep feature fusion for VHR remote sensingscene classification[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(8):4775-4784.[38]Lu X,Ji W,Li X,et al.Bidirectional adaptive featurefusion for remote sensing scene classification[J].Neurocomputing,2019,328:135-146.[39]Zhao H,Liu F,Zhang H,et al.Convolutional neural network basedheterogeneous transfer learning for remote-sensing scene classification[J].International Journal ofRemote Sensing,2019,40(22):8506-8527.[40]Liu Y,ZhongY,Qin Q,et al.Scene Classification Based on Multiscale Convolutional NeuralNetwork[J].IEEE Transactions on Geoscience and Remote Sensing,2018,56(12):7109-7121.[41]Zhang W,Tang P,Zhao L.Remote sensing image scene classificationusing CNN-CapsNet[J].Remote Sensing,2019,11(5):494.[42]Zhou Y,Liu X,Zhao J,etal.Remote sensing scene classification based on rotation-invariant featurelearning and joint decision making[J].EURASIP Journal on Image and VideoProcessing,2019,2019(3):pp.1-11.[43]Sun H,Li S,Zheng X,et al.Remote SensingScene Classification by Gated Bidirectional Network[J].IEEE Transactions onGeoscience and Remote Sensing,2019,58(1):82-96.[44]Boualleg Y,Farah M,Farah IR.Remote sensing scene classification using convolutional features and deepforest classifier[J].IEEE Geoscience and Remote Sensing Letters,2019,16(12):1944-1948.[45]Xie J,He N,Fang L,et al.Scale-free convolutional neural networkfor remote sensing scene classification[J].IEEE Transactions on Geoscienceand Remote Sensing,2019,57(9):6916-6928.[46]Liu X,Zhou Y,Zhao J,et al.Siameseconvolutional neural networks for remote sensing scene classification[J].IEEEGeoscience and Remote Sensing Letters,2019,16(8):1200-1204.[47]Liu B D,MengJ,Xie W Y,et al.Weighted Spatial Pyramid Matching CollaborativeRepresentation for Remote-Sensing-Image Scene Classification[J].RemoteSensing,2019,11(5):518.)。在文献[22]中，Cheng G等人基于VGG16，AlexNet，GoogleNet[48]([48]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C].Computer vision and pattern recognition,2015:pp.1-9.)三个深度网络在NWPU-RESISC45数据集上进行了实验，从结果中看出基于CNN深度特征学习的方法分类性能远远优于前两类方法。Lu X等人提出了一种基于端到端特征聚合CNN(Feature aggregationCNN,FACNN)的遥感场景分类方法。他们考虑了语义标签信息来学习场景特征表示，在FACNN中通过有监督的卷积特征编码模块和渐进聚合策略，利用语义标签信息对中间特征进行聚合，提高了分类精度[49]([49]Lu X,Sun H,Zheng X.A feature aggregationconvolutional neural network for remote sensing scene classification[J].IEEETransactions on Geoscience and Remote Sensing,2019,57(10):7894-7906.)。Li B等人提出了一种基于一种具有混叠结构的CNN场景分类方法—ADFF。他们预训练的CNN模型中探索最优的编码层，该编码层以一种新颖的方式自然地融合了局部和全局图像特征信息，增强了语义获取的能力[50]([50]Li B,Su W,Wu H,et al.Aggregated Deep FisherFeature for VHR Remote Sensing Scene Classification[J].IEEE Journal ofSelected Topics in Applied Earth Observations and Remote Sensing,2019,12(9):3508-3523.)。Cheng G等人基于三种经典的CNN深度模型提出了D-CNNs的方法，他们构建了一个新的损失函数以及在CNN特征中加入了度量学习正则化(Metric learningregularization)，在一定程度上规避遥感场景图像较大的类内差异和类间相似的问题，提高了分类准确率[51]([51]Cheng G,Yang C,Yao X,et al.When deep learning meetsmetric learning:Remote sensing image scene classification via learningdiscriminative CNNs[J].IEEE Transactions on Geoscience and Remote Sensing,2018,56(5):2811-2821.)。He N等人提出了一种多层叠加协方差池的分类方法(Multi-layer stacked covariance pooling,MSCP)。在该方法中，他们使用预训练的网络模型提取多层卷积特征映射，并将这些特征映射进行了叠加，分类精度有了一定的提高[52]([52]He N,Fang L,Li S,et al.Remote sensing scene classification using multilayerstacked covariance pooling[J].IEEE Transactions on Geoscience and RemoteSensing,2018,56(12):6899-6910.)。在文献[53]([53]He N,Fang L,Li S,et al.Skip-Connected Covariance Network for Remote Sensing Scene Classification[J].IEEETransactions on Neural Networks,2019:1-14.)中，He N又提出了一种跨连接协方差网络(Skip-connected covariance,SCCov)，该方法将跨连接和协方差池化模块嵌入了CNN模型中，叠加了不同分辨率的特征映射信息，能一定程度上规避遥感数据集不同分辨率图像造成的影响，提高了分类精度。

采用基于CNN深度特征学习的方法进行遥感场景分类，分类精度有了大幅度的提高。但大多数深度特征学习的方法只注重了分类准确率的提高，而忽略了高模型复杂度造成分类效率低下的问题。优良的分类精度和速度都是遥感场景分类在实际应用中的前提条件。

因此，针对这些问题，本发明主要做了以下贡献：(1)针对遥感场景图像中的类内差异性和类间相似性的问题，提出一种双线性卷积特征提取结构和支路特征融合方法(BFF)。通过BFF方法将两条支路提取的不同特征进行信息融合互补，很大程度上提高了分类精度。(2)针对双线性卷积特征提取结构带来的模型复杂度较高的问题，提出一种结合轻量卷积DSC和CConv两种卷积方式的策略。该方法有效降低了模型复杂度，同时还提高了分类精度。(3)在4个公开的数据集上进行了广泛的实验，用多个评估指标评价和验证了提出方法LCNN-BFF的有效性。

本发明提出了一种具有双线性特征提取结构的轻量级网络。该网络的结构被分为了9个部分(Group 1-9)。其中Group 1-8为特征提取结构，Group 9为分类层。Group 4-7采用双线性卷积特征提取结构，即使用两条支路分别提取图像特征。针对双线性特征提取结构，提出了一种支路融合特征方法，将两条支路提取的不同图像特征信息进行融合。针对模型复杂度的问题，本发明采用轻量级网络MobileNet中DSC方法用于降低模型的复杂度。另外，结合DSC与CConv两种卷积方式用来提取场景图象特征，这样可以有效避免DSC降低参数量后可能导致图像特征提取不充分的问题。在实验中，本发明通过4个公开可用的标准数据集对提出的方法的分类性能从多个角度进行了验证，最后还通过可视化实验研究了提出方法在其中两个数据集上的表现。

步骤一、建立LCNN-BFF网络模型；

在遥感场景分类这项研究工作中，本发明提出了一种基于CNN的轻量级具有双线性卷积结构的分类方法。该方法利用两条不同的支路卷积结构分别提取图像特征。又提出BFF方法将两条支路提取的特征信息进行融合互补，得到更加丰富且具有代表性的特征信息。针对双线性卷积结构提高了模型复杂度的问题，又提出3种结合采用DSC和CConv的卷积结构，大幅度的降低了模型所需的权重参数量以及计算复杂度。通过在4个公开的遥感数据集上，提出的方法与基层网络MobileNet以及其他先进方法从多个评估角度评价和比较了分类性能，验证了提出方法的有效性。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤一中建立LCNN-BFF网络模型；具体为：

LCNN-BFF模型由输入层、批量归一化层、ReLU激活层、Group 1、Group 2、Group3、Group 4、Group 5、Group 6、Group 7、Group 8、Group9构成；

Group 1中包括第一常规卷积层、第一深度可分离卷积层、批量归一化层、ReLU激活层和第一最大池化层；

第一常规卷积层和第一深度可分离卷积层卷积核的大小为3×3，卷积输出通道数为32，卷积步幅为1；第一最大池化层的池化大小为2×2，池化步幅为2；

输入层输出数据输入第一常规卷积层，第一常规卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第一深度可分离卷积层；第一深度可分离卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第一最大池化层；

Group 2中包括第二常规卷积层、第二深度可分离卷积层、批量归一化层、ReLU激活层和第二最大池化层；

第二常规卷积层和第二深度可分离卷积层卷积核的大小为3×3，卷积输出通道数为64，卷积步幅为1；第二最大池化层的池化大小为2×2，池化步幅为2；

第一最大池化层输出数据输入第二常规卷积层，第二常规卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第二深度可分离卷积层；第二深度可分离卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第二最大池化层；

Group 3中包括第三常规卷积层、第四常规卷积层、第三深度可分离卷积层、批量归一化层、ReLU激活层和第三最大池化层；

第三常规卷积层的卷积核大小为1×1，第四常规卷积层和第三深度可分离卷积层卷积核的大小为3×3，卷积输出通道数为128，卷积步幅为1；第三最大池化层的池化大小为2×2，池化步幅为2；

第二最大池化层输出数据输入第三常规卷积层，第三常规卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第四常规卷积层；第四常规卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第三深度可分离卷积层；第三深度可分离卷积层的输出数据输入批量归一化层，批量归一化层输出数据输入ReLU激活层，ReLU激活层处理后，输入第三最大池化层；

Group 4中包括两条支路和第一BFF层(第一支路特征融合层)：

第一支路包括第五常规卷积层和第四深度可分离卷积层；

第五常规卷积层和第四深度可分离卷积层的卷积核大小分别为1×1和3×3，卷积输出的通道数为128；第五常规卷积层和第四深度可分离卷积层的卷积步幅分别为1和2；

第二支路包括第六常规卷积层、第七常规卷积层和第五深度可分离卷积层；

第六常规卷积层的卷积核大小为1×1，第七常规卷积层和第五深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为128；第六常规卷积层和第七常规卷积层的卷积步幅为1，第五深度可分离卷积层的卷积步幅为2；

第三最大池化层的输出数据分别输入第五常规卷积层和第六常规卷积层；

第五常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第四深度可分离卷积层；

第六常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第七常规卷积层；第七常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第五深度可分离卷积层；

第四深度可分离卷积层和第五深度可分离卷积层的输出数据经批量归一化层处理后，输入第一BFF层；

Group 5中包含两条支路和第二BFF层；

第一支路包括第八常规卷积层、第六深度可分离卷积层、第九常规卷积层、第七深度可分离卷积层；

第八常规卷积层的卷积核大小为1×1，第六深度可分离卷积层、第九常规卷积层和第七深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为256；第八常规卷积层、第六深度可分离卷积层和第九常规卷积层的卷积步幅为1，第七深度可分离卷积层的卷积步幅为2；

第二支路包括第十常规卷积层、第十一常规卷积层和第八深度可分离卷积层；

第十常规卷积层的卷积核大小为1×1，第十一常规卷积层和第八深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为256；第十常规卷积层和第十一常规卷积层的卷积步幅为1，第八深度可分离卷积层的卷积步幅为2；

第一BFF层的输出数据经ReLU激活层处理后，分别输入到第八常规卷积层和第十常规卷积层中；

第八常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第六深度可分离卷积层；第六深度可分离卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第九常规卷积层；第九常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第七深度可分离卷积层；

第十常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十一常规卷积层；第十一常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第八深度可分离卷积层；

第七深度可分离卷积层和第八深度可分离卷积层的输出数据经批量归一化层处理后，输入第二BFF层；

Group 6中包括两条支路和第三BFF层；

第一支路包括第十二常规卷积层和第九深度可分离卷积层；

第十二常规卷积层和第九深度可分离卷积层的卷积核大小分别为1×1和3×3，卷积输出的通道数为256；第十二常规卷积层和第九深度可分离卷积层的卷积步幅分别为1和2；

第二支路包括第十三常规卷积层、第十四常规卷积层和第十深度可分离卷积层；

第十三常规卷积层的卷积核大小为1×1，第十四常规卷积层和第十深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为256；第十三常规卷积层和第十四常规卷积层的卷积步幅为1，第十深度可分离卷积层的卷积步幅为2；

第二BFF层的输出数据经ReLU激活层处理后，分别输入第十二常规卷积层和第十三常规卷积层；

第十二常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第九深度可分离卷积层；

第十三常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十四常规卷积层；第十四常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十深度可分离卷积层；

第九深度可分离卷积层和第十深度可分离卷积层的输出数据经批量归一化层处理后，输入第三BFF层。

Group 7中包含两条支路和第四BFF层；

第一支路包括第十五常规卷积层、第十一深度可分离卷积层、第十六常规卷积层、第十二深度可分离卷积层；

第十五常规卷积层的卷积核大小为1×1，第十一深度可分离卷积层、第十六常规卷积层和第十二深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为256，卷积步幅为1；

第二支路包括第十七常规卷积层、第十八常规卷积层和第十三深度可分离卷积层；

第十七常规卷积层的卷积核大小为1×1，第十八常规卷积层和第十三深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为256，卷积步幅为1；

第三BFF层的输出数据经ReLU激活层处理后，分别输入到第十五常规卷积层和第十七常规卷积层中；

第十五常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十一深度可分离卷积层；第十一深度可分离卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十六常规卷积层；第十六常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十二深度可分离卷积层；

第十七常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十八常规卷积；第十八常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十三深度可分离卷积层；

第十二深度可分离卷积层和第十三深度可分离卷积层的输出数据经批量归一化层处理后，输入第四BFF层；

Group 8包括第十九常规卷积层、第二十常规卷积层和第十四深度可分离卷积层；

第十九常规卷积层的卷积核大小为1×1，第二十常规卷积层和第十四深度可分离卷积层的卷积核大小为3×3，卷积输出通道数为512，卷积步幅为1；

第四BFF层的输出数据经ReLU激活层处理后，输入第十九常规卷积层；第十九常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第二十常规卷积层；第二十常规卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入第十四深度可分离卷积层；

Group 9包括全局平均池化层(GAP)和Softmax分类器；

第十四深度可分离卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入全局平均池化层，全局平均池化层输出的数据输入Softmax分类器中。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述输入层输入大小为256×256×3的遥感场景图像数据。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述所有常规卷积层和深度可分离卷积层输出数据都经过L2正则化处理，正则化系数为0.0005(然后再接批量归一化层以及ReLU激活层)。

提出方法的总体结构

提出的LCNN-BFF网络主要是由9个部分组成(Group 1-9)，其结构如图1所示。由图1可知，该网络主要分为了单线性和双线性特征提取结构。利用提出的BFF方法将双线性结构提取的不同特征信息进行融合互补，使该网络能够提取到更具有代表性的图像特征。由于遥感场景图像中蕴含的信息量庞大且冗杂，因此在Group 1-3中采用最大池化对输入图像或特征映射进行降采样，提取图像中的主要特征，去除冗余的数据。这有利于提高计算速度以及提取到鲁棒特征。在特征提取结构中(Group 1-8)，结合轻量卷积DSC和CConv来提取图像特征，很大程度上降低了模型的复杂度。将每一个卷积层的输出结果批量归一化(Batch Normalization,BN[54])，再使用ReLU函数激活神经元。添加BN处理后，能够加快模型的学习速度使其能迅速收敛，而且在一定程度上避免了随着网络的加深可能出现的梯度消失的问题，提高了模型的泛化能力。此外，由于划分的训练集包含的图像数量较少，可能引起网络训练过程中过拟合的问题。因此本发明对卷积层中的权重添加了L2正则化惩罚，惩罚系数为0.0005。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述在分类层(Group 9)中，本发明使用全局平均池化层(Global Average Pooling,GAP[55]([55]LinM,Chen Q,Yan S,et al.Network In Network[J].Neural and Evolutionary Computing,2013:pp.1-10.))代替了Flatten层，这能够降低模型大小且降低过拟合。具体来说，第十四深度可分离卷积层的输出结果为

式中，[d₁；d₂；...；d_i...；d_N]表示沿批量维度的级联操作，

表示实数集；N，H，W和C分别表示输入数据的批量大小，高度，宽度和通道数；

第十四深度可分离卷积层的输出数据经批量归一化层以及ReLU激活层处理后，输入全局平均池化层；

若全局平均池化层GAP输出的结果为

则全局平均池化层GAP对

具体处理表示为

从上式可以看出，GAP使最后一层卷积输出的特征映射与各个类别联系更直观，它汇总了输入空间的信息，对输入的空间信息进行了更加鲁棒的操作。由于GAP层中不需要参数，因此可以降低网络模型训练过程中的过拟合问题。

全局平均池化层输出的数据输入Softmax分类器中，Softmax分类器将每一个输入的数据处理为0-1之间的数且所有输出Softmax分类器的数据的和为1；

若G中任意一个输出g_i经过单元数为分类个数Z的全连接层(FC)处理后(Softmax分类器是由一个全连接层和一个Softmax激活层构成。)的结果为V←[v₁ v₂ ... v_j ...v_Z]≡FC(g_i)且Softmax的输出结果为S＝[s₁ s₂ ... s_j ... s_Z]，则Softmax分类器输出结果S中任一s_j表示为

其中，V[j-1]表示访问V中的第j个元素(索引编号从0开始)；Z表示分类个数；损失函数采用分类交叉熵损失，它能计算Softmax预测的结果与真实结果的相关程度，得到一个误差损失值；

若用Q＝[q₁ q₂ ... q_j ... q_Z]表示输入样本标签的编码结果(输入LCNN-BFF网络之前，每个遥感场景图像都有所属类别的标签，在输入LCNN-BFF网络之前，要对遥感场景图像所属类别的标签进行编码，在输入LCNN-BFF网络中；)，则损失函数表示为

其中，s_j表示Softmax的输出结果，输入的样本标签采用One-hot编码规则。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述常规卷积层CConv和深度可分离卷积层的卷积过程具体为：

降低模型复杂度策略

由于提出方法的主要参数量和计算量集中在特征提取结构中，因此一定程度上降低特征提取结构中所需的参数量和计算量是有效降低模型复杂度的方法。在LCNN-BFF网络的Group 1-8中结合采用了CConv和轻量卷积DSC两种卷积方法，用于提取深度代表性的图像特征。下面介绍DSC相比于CConv的优势和存在的问题。

常规卷积层CConv的卷积过程是：

假设一张RGB图像M，

W×W表示输入长宽相等为W的图像；在不考虑偏置的情况下，有K个f×f大小的卷积核，卷积步幅S为1，填充大小Pad为0；

每一个卷积核都分别与RGB图像的各通道进行卷积，即1个卷积核与3个通道的特征映射分别卷积得到3个张量；这3个张量相加得到的结果为1个2D特征映射；若用A_K表示第K个卷积核，则卷积输出第K个2D特征映射表示为

其中，

表示卷积运算符；

若用

计算出常规卷积层CConv的输出特征图的大小为T×T，图像M经CConv后输出的结果M_co表示为

其中，[B₁；B₂；B₃,...；B_K]表示沿通道维度的级联操作；T为特征图的大小；

与CConv不同的是，深度可分离卷积层DSC将CConv过程分为了深度卷积过程和逐点卷积过程；

假设一张RGB图像M，

深度卷积过程是将图像按输入通道数进行分组，然后每组数据分别与不同的卷积核进行卷积运算；这里每组数据表示为

(

表示通道数量)；这3组数据分别与3个f×f大小的不同卷积核进行卷积，用

计算出深度可分离卷积层DSC的输出特征图的大小为T×T，图像M经深度卷积的结果表示为

式中，

逐点卷积过程就是将深度卷积过程的输出结果与若干个1×1大小的卷积核进行卷积，将深度卷积过程的结果O与K个1×1大小的卷积核进行卷积，若用A′_K表示第K个1×1大小的卷积核，则计算O与一个1×1大小的卷积核卷积的结果为

因此最终DSC输出的结果为M_do＝[B′₁；B′₂；B′₃,...；B′_K]∈R^T×T×K与CConv结果的维度相同。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述常规卷积层CConv和深度可分离卷积层DSC所需的参数量不同；

常规卷积层CConv卷积的参数量计算表示为

P_c＝C_in×f×f×C_o (8)

深度可分离卷积层DSC卷积的参数量计算表示为：

P′_c＝C_in×f×f×1+3×1×1×C_o (9)

其中，C_in表示输入通道数，f×f表示卷积核的大小，C_o表示输出通道数。

若f＝3,C_o＝256，则CConv的参数量为6912＝3×3×3×256，DSC的参数量为795＝3×3×3×1+3×1×1×256。DSC的参数量仅需要CConv参数量的11.5％。

由上述可知，DSC确实能够有效的降低模型的复杂度，但单独采用DSC提取图像特征的方法是不可取的。由于参数量的大幅度减少，这可能导致网络模型学习不充分或无法正确学习的问题。因此，本发明提出了3种DSC与CConv组合的方式来提取图像特征，如图3所示。这3种卷积组合结构主要是根据VGG的网络结构提出的。这三种卷积组合结构都是先通过CConv较充分地提取图像特征，然后再通过DSC提取更深的特征信息。结合图2所示的LCNN-BFF网络结构可知，结构1主要用于Group 1,2,4,6；结构2主要用于Group 3-8；结构3主要用于Group 5,7。通过这样的组合不仅能提取到更具有代表性的特征，还有效的避免了参数量减少带来的学习问题。此外，为了更进一步的提高分类性能，还提出了一种支路特征融合BFF方法。它能够将两支路提取的不同特征信息进行了融合互补，这对于处理类内差异性和类间相似性的问题起了很大作用。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是：所述

支路特征融合

由图2可知，Group 4-7中使用了BFF方法，将两条支路经BN处理后的最后一层卷积结果进行了信息融合。具体来说，由文献[54]([54]Ioffe S,SzegedyC.BatchNormalization:Accelerating Deep Network Training by Reducing InternalCovariate Shift[C].International Conference on Machine Learning,2015:448-456.)可知，

一条支路最后一层卷积输出(Group4为例，就是第四深度可分离卷积层或第五深度可分离卷积层)的结果为

取一个通道中的数据

BN层处理后的结果可表示为：

m＝N×H×W (10)

式(10)表示X中包含有m＝N×H×W个数值；μ_X表示这组数据的均值，

表示这组数据的方差，

表示对数据X中每个数值标准化的结果，y_i′表示这组数据经BN处理后的结果，γ和β是一对可学习的参数；ε表示不为零的常数(变量的含义是，在分母添加一个不确定的不为零的量，防止方差为零时，分母为零)；

经C(输入数据的通道数)次循环处理后，所有通道的数据都被标准化，用

表示；

针对Group 4(以Group 4为例)，假设N＝1，若用

分别表示Group4的支路一和支路二输出的3D特征映射，则Y_4,1和Y_4,2中的任意一个通道的2D特征映射表示为

ξ_b,i″＝Y_4,b[:,:,i″] (15)

其中，Y_4,b[:,:,i″]是3D特征映射中沿通道维度的第i″+1个2D特征映射(索引编号从0开始)(:为H维度和W维度)；b表示第一条支路或第二条支路；

BFF将Y_4,1和Y_4,2中第1到第C个2D特征映射中对应单元进行叠加，实现特征融合，表示为

图4是BFF原理的示意图，由图4可知，BFF方法就是将两支路的2D特征映射中各单元特征信息进行了融合互补。它能够有效避免模型在对图像进行特征提取时，可能出现部分有效特征提取不充分或部分有效特征未被提取的问题。图5给出了Group 4中两支路提取的一些图像的特征映射，和使用BFF融合后的特征映射的效果对比图。由图5可知，两条不同的支路分别提取了输入图像的不同特征，但每一支路提取的特征信息并不充分。BFF将两条支路提取的特征信息进行融合互补，处理后的结果更具有代表性，因此使用BFF能够有效提高提出方法的分类性能。此外，BFF不需要参数，可以防止过拟合。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是：所述步骤二中数据集为预处理后的数据集；过程为：

数据集为UC Merced Land Use数据集、RSSCN7数据集、AID30数据集或NWPU-RESISC45数据集；

对输入输入层之前的数据进行扩增和按批次进行归一化处理；

对数据集进行预处理：

1)增强处理：

对输入数据集图像随机旋转，旋转范围为0～60°。

随机对输入数据集图像的长宽进行偏移处理，偏移系数为0.2。

随机水平和垂直翻转输入数据集图像；

2)将所有输入数据集样本数据按批次进行归一化处理(就是将图像数据转换为张量数据后，统一乘以1/255，因为图像数据转换为张量数据后，取值范围是0～255之间，因此乘以1/255)；

得到预处理后的数据集。

其它步骤及参数与具体实施方式一至八之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

实验及结果分析

本发明将从多个角度综合评估提出方法LCNN-BFF的性能。主要通过在4个具有较高挑战性的大型数据集上开展广泛的实验，与多个先进方法在分类性能上进行对比，以此证明提出方法的有效性。

A.数据集：UC Merced Land Use(UC)数据集[56]([56]Yang Y,Newsam S.Bag-of-visual-words and spatial extensions for land-use classification[C].Advancesin Geographic Information Systems,2010:pp.270-279.)包含2100幅遥感场景图像，分为21个场景类。每个场景类包含100幅256×256像素的航空图像并且每个RGB颜色空间的像素分辨率为1英尺。图6给出了该数据集的一些场景图像示例。在实验中，随机抽取各场景类80％的图像作为训练集，剩余的划分为测试集(80/20UC)。

RSSCN7(RSSCN)数据集[57]([57]Zou Q,Ni L,Zhang T,et al.Deep LearningBased Feature Selection for Remote Sensing Scene Classification[J].IEEEGeoscience and Remote Sensing Letters,2015,12(11):2321-2325.)包含7个场景类，共计2800幅遥感场景图像。每个场景类包含400幅400×400像素的场景图像。这些图像来源于不同季节和天气变化。图7给出了该数据集的一些场景图像示例。在实验中，将图像像素大小调整为256×256并随机抽取各场景类50％的图像作为训练集，剩余的划分为测试集(50/50RSSCN)。

AID30(AID)数据集[58]([58]Xia G,Hu J,Hu F,et al.AID:A Benchmark DataSet for Performance Evaluation of Aerial Scene Classification[J].IEEETransactions on Geoscience and Remote Sensing,2017,55(7):3965-3981.)由30个场景类，共计10000幅遥感场景图像组成。每个场景类包含220-420幅600×600像素的场景图像，空间分辨率从8米左右变化到0.5米左右。图8给出了该数据集的一些场景图像示例。在实验中，将图像像素大小调整为256×256并分别随机抽取各场景类20％和50％的图像作为训练集，剩余的分别划分为测试集(20/80AID,50/50AID)。

NWPU-RESISC45(NWPU)数据集[22]由45个场景类，共计31500幅遥感场景图像组成。每个场景类包含700幅256×256像素的场景图像。大部分场景类图像的空间分辨率在30-0.2米之间变化。此数据集无论是场景类别的数量还是场景图像的总数上都是是规模最大的数据集之一。其丰富的图像变化造成类内差异性大，类间相似性高，以至于此数据集具有较大的挑战性。图9给出了该数据集的一些场景图像示例。在实验中，分别随机抽取各场景类10％和20％的图像作为训练集，剩余的分别划分为测试集(10/90NWPU,20/80NWPU)。

图6是UC数据集中的一些场景示例。该数据集包括agricultural(农田)、airplane(飞机)、baseballdiamond(棒球内场)、beach(沙滩)、buildings(建筑)、chaparral(矮木丛)、denseresidential(密集住宅区)、forest(森林)、freeway(高速公路)、golfcourse(高尔夫球场)、harbor(海港)、intersection(十字路口)、mediumresidential(普通住宅区)、mobilehomepark(活动房区)、overpass(上跨式立交)、parkinglot(停车场)、river(河流)、runway(飞机跑道)、sparseresidential(稀疏住宅区)、storagetanks(储存罐)、tenniscourt(网球场)，共21个类。

图7是RSSCN数据集的一些场景示例。该数据集包括Field(农田)、Forest(森林)、Grass(草地)、Industry(工业区)、Parking(停车场)、Resident(住宅)、RiverLake(河流湖泊)，共7个类。

图8是AID数据集的一些场景示例。该数据集包括Airport(机场)、BareLand(裸地)、BaseballField(棒球场)、Beach(沙滩)、Bridge(桥)、Center(市中心)、Church(教堂)、Commercial(商业区)、DenseResidential(密集住宅区)、Desert(沙漠)、Farmland(农田)、Forest(森林)、Industrial(工业区)、Meadow(草地)、MediumResidential(普通住宅区)、Mountain(山)、Park(公园)、Parking(停车场)、Playground(操场)、Pond(河塘)、Port(港口)、RailwayStation(火车站)、Resort(度假村)、River(河流)、School(学校)、SparseResidential(稀疏住宅区)、Square(广场)、Stadium(体育场)、StorageTanks(储存罐)、Viaduct(高架路)，共30个类。

图9是NWPU数据集的一些场景示例。该数据集包括airplane(飞机)、airport(飞机场)、baseball_diamond(棒球内场)、basketball_court(篮球场)、beach(沙滩)、bridge(桥)、chaparral(矮木丛)、church(教堂)、circular_farmland(圆形农田)、cloud(云)、commercial_area(商业区)、dense_residential(密集住宅区)、desert(沙漠)、forest(森林)、freeway(高速公路)、golf_course(高尔夫球场)、ground_track_field(田径场)、harbor(海港)、industrial_area(工业区)、intersection(十字路口)、island(岛)、lake(湖)、meadow(草地)、medium_residential(普通住宅区)、mobile_home_park(活动房区)、mountain(山)、overpass(上跨式立交)、parking_lot(停车场)、railway(铁路)、railway_station(火车站)、rectangular_farmland(长方形农田)、river(河流)、roundabout(环形交叉路口)、runway(飞机跑道)、sea_ice(海冰)、ship(船)、snowberg(雪山)、sparse_residential(稀疏住宅区)、stadium(体育场)、storage_tank(储存罐)、tennis_court(网球场)、terrace(梯田)、thermal_power_station(火力发电站)、wetland(湿地)，共45个类。

B.实施细节：LCNN-BFF网络具体参数设置如下：在Group 1中，将卷积通道数设置为32，各卷积的卷积核大小设置为3×3。在Group 2中，将卷积通道数设置为64，各卷积的卷积核大小设置为3×3。在Group 3中，卷积通道数设置为128，第一卷积的卷积核大小设置为1×1，其余卷积的卷积核大小设置为3×3。Group 1-3中的最大池化层的池化大小设置为2×2，池化步幅为2。Group 4卷积通道数与Group 3的设置相同。在Group4-7的两支路中，第一卷积的卷积核大小设置为1×1，其余卷积的卷积核大小设置为3×3。两支路的最后一层卷积步幅设置为2，其余卷积步幅为1。Group 5-7的卷积通道数设置为256，Group 8的卷积通道数设置为512。Group 8中第一卷积的卷积核大小设置为1×1，其余卷积的卷积核大小设置为3×3，卷积步幅设置为1。

数据集预处理操作如下：本发明对数据集进行了增强处理，主要有以下操作。(1)对输入图像随机旋转，旋转范围为0～60°。(2)随机对输入图像的长宽进行偏移处理，偏移系数为0.2。(3)随机水平和垂直翻转输入图像。对数据集进行增强处理之后，将所有输入样本数据按批次进行归一化处理。此外，由于避免训练过程中内存溢出，本发明统一将实验数据集的输入图像的大小调整为256×256。

在这项工作中，Keras深度学习框架被用来构建LCNN-BFF网络。LCNN-BFF网络训练的初始学习率设置为0.01，并添加自动学习率下降机制。训练过程中的批次量大小设置为16并采用Momentum优化算法对提出方法LCNN-BFF进行优化，动量系数设置为0.9。所有实验结果为执行10次实验后求取的平均值。实验过程中使用同一台笔记本电脑，设备配置如下，RAM：8G；处理器：Intel(R)Pentium(R)CPU G4600@3.60GHz；GPU：NVIDIAGeForce GTX4G1050Ti。

C.LCNN-BFF方法的性能：为了评估提出方法LCNN-BFF的场景分类性能，总体精度(Overall accuracy,OA)，平均精确率(Average precision,AP)，Kappa系数(Kappa)，F1分数(F1)，混淆矩阵，平均训练时间(Average training time,ATT)以及权重参数量(Parameters)几个评估指标在接下来的实验中被采用。其中OA表示测试集上分类正确的图像个数占总测试集的百分比。AP表示测试集上每个场景类的精确率的算术平均。ATT表示模型在训练过程中处理一张图像所需的平均时间。MobileNet[26]网络是提出方法LCNN-BFF的基础网络，本发明欲比较MobileNet与LCNN-BFF分别在UC，RSSCN，AID以及NWPU四个数据集上的分类性能，以验证双线性卷积结构以及BFF方法的有效性。实验中分别通过OA，AP，Kappa，F1以及混淆矩阵五种指标评估MobileNet和LCNN-BFF的分类性能。

本发明通过Keras和TensorFlow深度学习工具复现了MobileNet网络并微调了最后一层参数。表1给出了在6个划分好的数据集上，用OA和Kappa指标评价LCNN-BFF和MobileNet网络的分类性能结果。由表1可知，提出的方法在6个划分好的数据集上的OA和Kappa值都明显优于MobileNet。其中，提出方法LCNN-BFF在UC数据集上十分有效，其OA和Kappa数值分别达到了99.29％和99.25％。此外，在NWPU和AID数据集上使用更少的数据训练，LCNN-BFF的性能优势更突出，这表明了提出方法更加鲁棒。接下来再通过AP和F1和混淆矩阵三个角度来验证提出方法的性能。

表1 LCNN-BFF和MobileNet的OA和Kappa值比较(％)

图10a、10b给出了LCNN-BFF和MobileNet网络分别在AP和F1两种指标上的表现。由图10可知，图10a中提出方法在实验的数据集上的AP表现都优于MobileNet分类方法。特别地，LCNN-BFF分别在50/50RSSCN，20/80AID，10/90NWPU和20/80NWPU的测试集上表现得更好，其AP值比MobileNet分别高了3.59％，4.29％，3.78％和3.84％。图10b中提出方法的分类性能更优，其中在20/80AID，10/90NWPU和20/80NWPU的测试集上表现得较为突出，F1分数值比MobileNet分别高了4.43％，3.84％和3.86％。结合AP指标可以看出，提出方法分类性能更优于MobileNet方法且更加鲁棒。图11a、11b和图12a、12b给出了提出方法LCNN-BFF和MobileNet在80/20UC和50/50RSSCN的测试集上测试得到的混淆矩阵。混淆矩阵的斜对角线上的数值表示各类的精度，同一行其他数值表示该类错误分类的百分比。由图11a、11b和图12a、12b可知，图11a、11b中提出方法的分类错误率明显低于对比方法，具有更好的分类性能。图12a、12b中提出方法每个类的分类精度都高于或等于对比方法，具有更高的分类鲁棒性。提出方法发生误识别的概率明显降低，证明了提出方法在处理遥感场景图像具有较高类内差异和类间相似的问题上是有效的。以上实验通过OA，Kappa等多个指标验证了提出方法的有效性。证明了双线性卷积结构以及BFF方法能够显著提高遥感场景图像的分类性能。此外，双线性卷积结构以及BFF方法还提高了分类网络的鲁棒性。

D.与先进方法的比较：本发明主要从模型复杂度和分类准确程度两个角度，与一些先进的遥感场景分类方法比较分类性能，依次在UC，RSSCN，AID，NWPU数据集上进行了对比实验。主要通过OA，Parameters，Kappa，ATT四种评估指标评价分类方法的分类性能。用于对比的方法主要可分为两类，一类是基于无监督特征学习的方法，例如，文献[20]针对遥感场景图像具有较高的类内差异性和类间相似性的问题，提出了一种可变权重的多级特征融合(Variable-Weighted Multi-feature Fusing,VWMF)的分类方法。文献[59]([59]WangC,Lin W,Tang P,et al.Multiple resolution block feature for remote-sensingscene classification[J].International Journal of Remote Sensing,2019,40(18):6884-6904.)针对遥感场景种类复杂多样且场景图像中背景较为复杂的问题，提出了一种基于完全双交叉模式(Completed double cross pattern,CDCP)和Fisher向量(Fishervectors,FV)的多分辨率模块特征(Multiple resolution block feature,MRBF)的分类方法，由于这两种方法不能提取到遥感场景图像中更具代表性的特征，因此分类精度不高。另一类是基于深度特征学习的方法，主要包括文献[38],[41]-[47],[49]-[53],[58],[60]([60]Liu Y,Liu Y,Ding L,et al.Scene Classification Based on Two-Stage DeepFeature Fusion[J].IEEE Geoscience and Remote Sensing Letters,2018,15(2):183-186.)。其中，文献[46]针对现有方法无法提取丰富的遥感场景标签信息，结合CNN的识别和验证模型提出了一种的连体(Siamese)CNN方法。在此基础之上，文献[42]基于Siamese卷积网络提出了一种旋转不变特征学习和联合决策(Rotation-invariant feature learningandjoint decision-making method,R.D)的分类方法，相比于文献[46]的方法提高了分类精度。以上两种方法未充分考虑遥感场景图像中重要的空间信息以及较高的类内差异性和类间相似性的问题。针对这些问题，文献[41]结合CNN和Capsule network(CapsNet)的优点，提出了一种叫做CNN-CapsNet的新型分类结构。文献[43]提出一种门控双向网络(Gatedbidirectional network,GBNet)用于遥感场景分类工作。文献[49]提出了一种端到端特征聚合的卷积神经网络(End-to-end feature aggregation CNN,FACNN)用于遥感场景分类。这3种方法在分类准确率上有了很大程度的提高，但模型复杂度相对较高。针对模型复杂度的问题，文献[50]探究了一些预训练网络中的最优编码层，提出了一种聚合深度Fisher特征(Aggregated deep fisher feature,ADFF)的方法。文献[52]提出了一种多层叠加协方差池(Multi-layer stacked covariance pooling,MSCP)的分类方法。文献[53]提出了一种结合跳跃连接(Skip-connect)和协方差池化(Covariance pooling)两种新模块的卷积神经网络的分类方法(SCCov)。相较于这些方法，本发明的方法从分类准确率和模型复杂度两个角度出发，提出了使用双线性卷积结构提取丰富的场景图像特征信息，再利用提出的BFF方法将两条支路提取的不同特征信息进行融合互补，这使分类准确率有了很大程度上的提高。在模型复杂度上，又通过结合DSC和CConv两种卷积方式提出了三种特征提取结构，这在很大程度上降低了模型的复杂度。

首先在UC数据集上进行了广泛的对比实验。表2给出了提出方法与一些先进方法在UC数据集上的OA和Parameters比较。由表2可知，提出方法在OA指标上分类精度的平均值都优于其他方法。其中，提出方法的OA均值比文献[41],[53],[45]的分类方法高了0.24％，他们与LCNN-BFF的性能有较大的竞争力。但从Parameters的角度分析，LCNN-BFF的Parameters仅占文献[45]的4.61％，[41]的27.27％，[53]的46.15％。这是因为在提出的LCNN-BFF网络中，特征提取结构结合采用轻量卷积DSC与CConv两种卷积方式，其很大程度上减少了网络所需的权重参数且提高了分类精度。综合OA和Parameters两种指标角度考虑，提出的方法模型复杂度更低且具有更好的分类性能。表3给出了提出方法与先进方法在UC数据集上的Kappa值比较。由表3可以看出，提出方法预测的分类结果与实际分类结果的一致性最高，达到了99.25％。其中，提出方法的Kappa性能比文献[46]的方法分别高了31.25％，7.25％，5.25％以及比文献[42]分别高了30.25％，6.25％，4.75％。通过表3给出的实验数据，从Kappa分类指标角度验证了LCNN-BFF在UC数据集上具有更优的分类性能。

表2提出方法与先进方法在UC数据集上的OA和权重参数比较

表3提出方法与先进方法在UC数据集上的Kappa值比较

为了更进一步验证提出方法的有效性，本发明与几种先进方法在UC数据集上对比了平均训练时间。表4给出了提出方法与一些先进方法在总体精度和平均训练时间上的比较结果。由表4可知，提出方法所用的时间少于对比方法且在精度上明显优于对比方法。其中，提出的LCNN-BFF网络仅需0.03秒就能处理完一张图像，比文献[43]的两种方法分别快了0.022和0.018秒。特别地，由于实验设备性能的限制，提出方法的ATT实验结果不是最优的，仍有很大的提升空间。

表4提出方法与先进方法在UC数据集上的ATT对比

其次在RSSCN数据集上进行了对比实验。表5给出了提出方法与先进方法在RSSCN数据集上的OA和权重参数对比。由表5可知，相比于文献[58],[20],[60],[47]的方法，提出方法的分类性能更具优势。在OA数值上，提出方法分别比它们高了7.46％，5.54％，2.27％，0.78％，0.74％。在权重参数上，提出方法仅需文献[58]方法4.48％的参数量以及文献[47]方法26.09％的参数量。此外，提出方法在OA数值上略低于文献[50]提出的ADFF方法，仅相差0.57％。而从权重参数量上比较，提出方法仅需ADFF方法26.09％的参数量。这证明了提出方法兼顾了模型复杂度以及分类精度两个方面的性能，是一种更有效的分类方法。

表5提出方法与先进方法在RSSCN数据集上的OA和权重参数对比

最后，除了以上两个实验数据集，本发明还在AID和NWPU数据集上进行了对比实验。表6和表7分别给出了提出方法与先进方法在AID和NWPU两个大型数据集上的分类性能对比结果。由表6可知，从OA的角度分析，无论训练测试比为2:8还是5:5，提出方法的精度都高于大部分方法。当训练测试比为2:8时，提出方法仅与文献[43]的最优方法在精度上相差了0.54％。当训练测试比为5:5时，提出方法与文献[43]的最优方法在精度上相差了0.86％，与文献[49]的方法在精度上相差了0.83％，与文献[51]的最优方法相差了2.27％。从权重参数上分析，文献[53]的方法和提出方法具有近似的权重参数量，但在精度上低于本发明方法。提出方法仅需文献[43]最优方法4.35％的参数量，文献[49]方法和文献[51]最优方法4.61％的参数量。由表7可知，提出方法的OA数值仅次于文献[51]的最优方法，分别在1:9和2:8训练测试比的数据集上相差了2.69％和0.16％。尽管提出方法在AID和NWPU数据集上，精度数值上略低于文献[43],[49],[51]三种方法，但在模型的权重参数量上远远低于他们。综合上述实验数据证明了提出方法是一种简单有效的遥感场景分类方法。该方法兼顾了模型复杂度和分类准确程度两个方面，提高了分类性能，更适合在实际的应用开发中使用。

表6提出方法与先进方法在AID数据集上的OA和权重参数对比

表7提出方法与先进方法在NWPU数据集上的OA和权重参数对比

E.可视化实验：本发明提出方法是根据场景图像中的哪一部分特征信息做出正确的分类判决，从而进一步分析提出方法。具体来说，本发明从UC和NWPU两个数据集中挑选出一些有代表性的图像，然后将它们分别输入LCNN-BFF和MobileNet网络中预测并将LCNN-BFF和MobileNet的最后一层卷积的输出结果进行可视化。本次实验的结果是在同一个训练测试比例的数据集上得到的。可视化方法主要采用了文献[61]([61]Selvaraju R R,Cogswell M,Das A,et al.Grad-CAM:Visual Explanations from Deep Networks viaGradient-Based Localization[J].International Journal of Computer Vision,2020(128):336-359.)提出的梯度加权类激活映射方法(Gradient-weighted classactivation mapping,Grad-CAM)。图13和图14分别给出了提出的LCNN-BFF和MobileNet方法在UC和NWPU数据集上的可视化结果。由图13(a)、13(b)和图14(a)、14(b)可知，Tenniscourt,Intersection,Agricultural,Storage tank,Stadium和Roundabout这6张场景图像被MobileNet分类成错误的类别。显而易见，MobileNet对图像感兴趣特征提取主要存在着以下几种问题：(1)感兴趣的特征多数为主要特征的边缘。(2)提取的感兴趣特征并不是该类图像的主要特征。(3)感兴趣的特征信息不丰富，缺乏额外判别信息。例如，MobileNet网路对Agricultural场景图像感兴趣的特征信息，处于该类图像主要特征的边缘位置且分布稀疏；对Intersection场景图像感兴趣的特征信息，不属于该类图像的主要特征信息；对Roundabout场景图像感兴趣的特征信息不丰富，缺少其他边缘特征信息辅助分类判断。而提出方法LCNN-BFF对这些场景图像感兴趣的特征信息更加丰富且分布集中，还有充分的边缘特征信息辅助分类判断。这是因为LCNN-BFF中用于特征提取的是一种双线性卷积结构，能够通过两条不同的支路提取到不同的特征信息。再通过BFF方法将两条支路的特征信息进行融合互补，提取到更加丰富且具有代表性的特征信息。通过在两个数据集上的可视化实验可以证明，提出方法是一种有效的遥感场景分类方法。提出的双线性卷积结构和BFF方法能够提取到更加丰富且具有代表性的特征信息，这对遥感场景图像中存在较高的类内差异性和类间相似性的问题很有效。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。