CN113705718B

CN113705718B - 基于多层次特征密集融合的遥感场景图像分类方法

Info

Publication number: CN113705718B
Application number: CN202111037856.2A
Authority: CN
Inventors: 靳展; 石翠萍; 张鑫磊; 王天毅
Original assignee: Qiqihar University
Current assignee: Qiqihar University
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2024-04-02
Anticipated expiration: 2041-09-06
Also published as: CN113705718A

Abstract

基于多层次特征密集融合的遥感场景图像分类方法，本发明涉及遥感场景图像分类方法。本发明的目的是为了解决现有高光谱图像提取的过程中，由于高光谱图像的高维特性以及小训练样本的情况，导致高光谱图像分类准确率低的问题。过程为：步骤一、采集高光谱图像数据集X和相对应的标签向量数据集Y；步骤二、建立基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF‑LCNN；步骤三、得到最优网络BMDF‑LCNN；步骤四、向最优网络BMDF‑LCNN中输入待测高光谱图像进行分类结果预测。本发明用于图像分类领域。

Description

基于多层次特征密集融合的遥感场景图像分类方法

技术领域

本发明涉及遥感场景图像分类方法。

背景技术

目前，具有高分辨率的遥感图像被应用到了很多领域。如遥感场景分类^[1]、高光谱图像分类^[2]、变化检测^[3-4]、地理图像和土地利用分类^[6-7]等。然而，遥感图像复杂的空间模式和几何结构为图像分类带来很大的困难。因此，有效理解遥感图像的语义内容就显得尤为重要。本研究的目的是找到一种简洁高效的轻量级网络模型，该模型能够精准的理解遥感图像的语义内容，并且正确判断出它属于哪个场景类别。

为了有效的对图像特征进行提取，研究人员提出了很多的方法。最初，使用手工制作的特征描述符来提取图像的特征，如颜色直方图^[9]、纹理描述符^[10]、本地二进制模式^[55]，GIST^[12]和定向梯度直方图^[13]等。随后，为了解决手工制作特征符方法带来的弊端，研究人员又提出了可以自动从图像中提取特征的无监督特征学习方法。如视觉单词袋模型^[15]，稀疏编码^[34]，自动编码器^[35]，潜在狄利克雷分配^[17]和概率潜在语义分析^[18]等主题模型。这些方法在图像分类的发展过程中起到了很重要的作用。但是，手工制作特征描述符的方法很大程度上受到专家的领域知识和经验的制约，采用这些方法很难提取到图像的高层次特征，所以导致分类精度难以提高。

为了改进这些方法的不足，研究人员又提出了可以从数据中自动学习更有代表性和鉴别性特征的卷积神经网络^[26-39]。由于卷积神经网络在计算机视觉领域^[16][40][46]取得了较大成功，所以研究人员把卷积神经网络引入到图像分类中，并且以卷积神经网络为基本框架搭建出很多性能较好的网络模型。但是这些模型计算量大，复杂度高，限制了其在移动设备上的应用。为了能够实现网络模型在移动设备上的应用，可以采用提高处理器性能或者降低模型复杂度提高模型的计算速度。然而，在短时间内提高处理器性能是不现实的，故采用轻量级网络成为了主要的方法。轻量化的网络已应用于许多任务，包括图像分类^[1-2]，图像分割^[11]、目标检测^[56]等。SqueezeNet^[19]提出了Fire模块，该模块将原来一个标准卷积层拆分成挤压层和扩展层。挤压层由一组连续的1×1卷积组成，扩展层是由一组连续的1×1卷积和3×3卷积通道连接而成。由谷歌团队提出的MobileNet有V1,V2,V3三个版本，MobileNetV1^[21]使用了深度可分离卷积，将普通卷积拆分成深度卷积和1×1卷积，大大减少了网络的参数量，并且精度也有了一定提升。MobileNetV2^[22]提出了倒残差模块和线性瓶颈结构。该瓶颈结构首先经过1×1的卷积进行升维，然后通过3×3的深度可分离卷积进行特征提取，最后使用1×1卷积进行降维。MobileNetV3^[24]添加了SE模块^[25]，并且利用神经结构搜索^[26]来搜索网络的配置和参数。ShuffleNet^[23]是一个效率很高的卷积神经网络架构，专门应用于计算力受限的移动设备。该架构利用分组卷积和通道混洗两个操作来实现，与一些先进模型相比，在类似的精度下大大降低了计算量。

将传统单线性神经结构改变成多分支结构也是一种提升网络性能的方法。GoogleNet^[66]就很好地证明了多分支结构的优越性，该网络使用Inception模块将输入分为四个分支，将网络结构变得更宽、更深，获得了优异的性能表现。此外，Y.Liu^[5]提出了一种具有多尺度的双分支网络模型。虽然该方法的参数数量有所减少，但仍然高达60MB。C.Shi^[8]等人提出的双分支特征融合结构，该方法利用深度可分离卷积和标准卷积的堆叠，构成了轻量级神经网络，但忽略了不同层次特征之间的信息交流。

对于遥感场景图像分类，很多卷积神经网络以牺牲模型的时间和空间复杂度为代价,来提高分类精度，这导致这些网络模型难以在移动设备上运行。当前深度学习在移动设备市场有着巨大的应用潜力，因此，设计一个面向遥感图像分类的轻量级卷积神经网络成为当前的研究热点。目前一些轻量级卷积神经网络虽然能提供较好的分类性能，但并未充分考虑到不同层次特征之间的信息交互，从而限制了分类性能的提升。

发明内容

本发明的目的是为了解决现有高光谱图像提取的过程中，由于高光谱图像的高维特性以及小训练样本的情况，导致高光谱图像分类准确率低的问题，而提出基于多层次特征密集融合的遥感场景图像分类方法。

基于多层次特征密集融合的遥感场景图像分类方法具体过程为：

步骤一、采集高光谱图像数据集X和相对应的标签向量数据集Y；

步骤二、建立基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN；

步骤三、将高光谱图像数据集X和相对应的标签向量数据集Y输入到建立的基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN中，进行迭代优化，得到最优网络BMDF-LCNN；

步骤四、向最优网络BMDF-LCNN中输入待测高光谱图像进行分类结果预测。

本发明的有益效果为：

本发明在双分支结构的基础上，充分考虑不同层次特征之间的信息交流，提出了一种基于双分支多层次特征密集融合的轻量级卷积神经网络(dual branch multi-levelfeature dense fusion-based lightweight convolutional neural network，BMDF-LCNN)。该结构通过两个不同的分支对不同层次之间的信息进行了充分的交流，然后两个分支进行融合。实验证明本发明方法计算速度优于具有相同参数量甚至更少参数量的分类方法，在分类精度提高的同时计算速度也大幅提升，实现了速度和精度的均衡。

本发明提出了一种基于双分支多层次特征密集融合的轻量级卷积神经网络(dualbranch multi-level feature dense fusion-based lightweight convolutionalneural network，BMDF-LCNN)。该网络采用循环递进的方式将3×3深度可分离卷积，1×1标准卷积，以及Identity提取到的不同层次的特征进行密集融合，构成多层次特征密集融合结构，实现了不同层次特征之间的信息交流，有效地提高了模型的分类性能和运算速度。此外，为了更有效地进行特征表示，在网络的浅层使用了最大池化降采样和卷积降采样的组合来进行降采样。与传统的单一降采样方式相比，提出的降采样结构具有更好的性能。在四个开放和具有挑战性的遥感图像场景数据集上进行实验，实验结果表明，与一些最新的分类方法相比，本发明提出方法提高高光谱图像分类准确率，且模型复杂度较低。

本研究的主要贡献如下：

1)为解决高时间复杂度和空间复杂度的问题，本发明提出双分支多层次特征密集融合方法，采用循环递进的方式将3×3深度可分离卷积、1×1卷积和Identity提取到的不同层次特征进行密集融合来实现多层次特征之间的信息交互，有效地降低了模型的复杂度，同时提高了模型的泛化能力。

2)为了避免表示瓶颈，在网络的浅层，将池化降采样和卷积降采样按照一定的方式进行组合，提出了高效的降采样结构。实验证明该采样方式可以有效提高模型的分类精度。

3)为了解决模型的参数量日益增大的问题，构建了一个参数量较低的轻量级神经网络模型，通过深度可分离卷积、1×1卷积和Identity的分支融合减小了模型的参数量。

附图说明

图1为本发明提出的BMDF-LCNN网络模型(每个卷积层后面是BN层和ReLU)图；图2为三种降采样结构图，(a)为卷积降采样，(b)为最大池化降采样，(c)为本发明提出的降采样方法(每个卷积层后面接着BN层和ReLU)；图3a为优化时间和空间复杂度的基本结构图；图3b为分支第一层输入输出通道数相同的结构图；图3c为分支的第一层具有不同数量的输入和输出通道的结构图(每个卷积层后面接着BN层和ReLU层)；图4a为BMDF-LCNN和LCNN-BFF的AP值比较图；图4b为BMDF-LCNN和LCNN-BFF的F1值比较图；图5a为本发明提出的BMDF-LCNN方法在80/20UC数据集上得到的混淆矩阵图；图5b为本发明提出的BMDF-LCNN方法在50/50RSSCN数据集上得到的混淆矩阵图；图6a为本发明提出的BMDF-LCNN方法在20/80AID数据集上得到的混淆矩阵图；图6b为本发明提出的BMDF-LCNN方法在10/90NWPU数据集上得到的混淆矩阵图；图7为在RSSCN数据集上的热力图。

具体实施方式

具体实施方式一：本实施方式基于多层次特征密集融合的遥感场景图像分类方法具体过程为：

步骤三、将高光谱图像数据集X和相对应的标签向量数据集Y输入到建立的基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN中，采用Momentum算法进行迭代优化，得到最优网络BMDF-LCNN；

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中建立基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN；具体过程为：

基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN包括输入层、第一组Group1、第二组Group2、第三组Group3、第四组Group4、第五组Group5、第六组Group6、第七组Group7、第八组Group8、第九组Group9以及输出分类层。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN连接关系为：

输入层的输出端连接第一组Group1，第一组Group1的输出端连接第二组Group2，第二组Group2的输出端连接第三组Group3，第三组Group3的输出端连接第四组Group4，第四组Group4的输出端连接第五组Group5，第五组Group5的输出端连接第六组Group6，第六组Group6的输出端连接第七组Group7，第七组Group7的输出端连接第八组Group8，第八组Group8的输出端连接第九组Group9，第九组Group9的输出端连接输出分类层实现分类。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述第一组Group1包括第一最大池化层、第一卷积单元、第二卷积单元、第三卷积单元、第一全连接层；

第二组Group2包括第二最大池化层、第四卷积单元、第五卷积单元、第一深度可分离卷积层、第二全连接层；

第三组Group3包括第六卷积单元、第七卷积单元、第二深度可分离卷积层；

第四组Group4包括第三深度可分离卷积层、第四深度可分离卷积层、第五深度可分离卷积层、第六深度可分离卷积层、第七深度可分离卷积层、第八卷积单元、第九卷积单元、第十卷积单元、第十一卷积单元、第十二卷积单元、第三最大池化层、第一加和add层、第二加和add层、第三加和add层、第四加和add层、第五加和add层、第六加和add层；

第五组Group5包括第十三卷积单元、第十四卷积单元、第八深度可分离卷积层、第九深度可分离卷积层、第十深度可分离卷积层、第十一深度可分离卷积层、第十二深度可分离卷积层、第十五卷积单元、第十六卷积单元、第十七卷积单元、第十八卷积单元、第十九卷积单元、第二十卷积单元、第二十一卷积单元、第四最大池化层、第七加和add层、第八加和add层、第九加和add层、第十加和add层、第十一加和add层、第十二加和add层、第十三加和add层、第十四加和add层；

第六组Group6包括第十三深度可分离卷积层、第十四深度可分离卷积层、第十五深度可分离卷积层、第十六深度可分离卷积层、第十七深度可分离卷积层、第二十二卷积单元、第二十三卷积单元、第二十四卷积单元、第二十五卷积单元、第二十六卷积单元、第五最大池化层、第十五加和add层、第十六加和add层、第十七加和add层、第十八加和add层、第十九加和add层、第二十加和add层；

第七组Group7包括第十八深度可分离卷积层、第十九深度可分离卷积层、第二十深度可分离卷积层、第二十一深度可分离卷积层、第二十二深度可分离卷积层、第二十三深度可分离卷积层、第二十四深度可分离卷积层、第二十七卷积单元、第二十八卷积单元、第二十九卷积单元、第三十卷积单元、第三十一卷积单元、第三十二卷积单元、第三十三卷积单元、第二十一加和add层、第二十二加和add层、第二十三加和add层、第二十四加和add层、第二十五加和add层、第二十六加和add层、第二十七加和add层、第二十八加和add层；

第八组Group8包括第三十四卷积单元、第三十五卷积单元、第二十五深度可分离卷积层；

第九组Group9包括全局平均池化GAP、Softmax分类层。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是，所述输入层的输出端分别连接第一组Group1中第一最大池化层的输入端和第二卷积单元的输入端，第一最大池化层的输出端连接第一卷积单元，第二卷积单元的输出端连接第三卷积单元，第一卷积单元的输出端和第三卷积单元的输出端连接第一全连接层；

第一全连接层的输出端分别连接第二组Group2中第二最大池化层的输入端和第五卷积单元的输入端，第二最大池化层的输出端连接第四卷积单元，第五卷积单元的输出端连接第一深度可分离卷积层，第四卷积单元的输出端和第一深度可分离卷积层的输出端连接第二全连接层；

第二全连接层的输出端连接第三组Group3中第六卷积单元，第六卷积单元的输出端连接第七卷积单元，第七卷积单元的输出端连接第二深度可分离卷积层；

下面是第四组连接关系：

第二深度可分离卷积层的输出端分别连接第四组Group4中第三深度可分离卷积层的输入端、第五深度可分离卷积层的输入端、第八卷积单元的输入端和第十卷积单元的输入端；

将第二深度可分离卷积层的输出端、第三深度可分离卷积层的输出端和第八卷积单元的输出端连接第一加和add层(将第二深度可分离卷积层的输出特征、第三深度可分离卷积层的输出特征和第八卷积层的输出特征进行加和)，第一加和add层输出端分别连接第四深度可分离卷积层和第九卷积单元；

将第四深度可分离卷积层的输出端、第九卷积单元的输出端、第一加和add层输出端和第八卷积单元的输出端连接第二加和add层；

将第二深度可分离卷积层的输出端、第五深度可分离卷积层的输出端和第十卷积单元的输出端连接第三加和add层，第三加和add层输出端分别连接第六深度可分离卷积层和第十一卷积单元；

将第六深度可分离卷积层的输出端、第十一卷积单元的输出端、第三加和add层输出端、第十卷积单元的输出端连接第四加和add层；第四加和add层输出端分别连接第七深度可分离卷积层和第十二卷积单元；

将第七深度可分离卷积层的输出端、第十二卷积单元的输出端、第十一卷积单元的输出端、第十卷积单元的输出端、第四加和add层输出端连接第五加和add层；

将第二加和add层输出端和第五加和add层输出端输入第六加和add层；第六加和add层连接第三最大池化层。

下面是第五组连接关系：

第三最大池化层的输出端分别连接第五组Group5中第十三卷积单元的输入端、第十四卷积单元的输入端、第十五卷积单元的输入端和第十八卷积单元的输入端；

将第三最大池化层的输出端、第十三卷积单元的输出端和第十五卷积单元的输出端连接第七加和add层，第七加和add层输出端分别连接第八深度可分离卷积层和第十六卷积单元；

将第八深度可分离卷积层的输出端、第十六卷积单元的输出端、第十五卷积单元的输出端和第七加和add层的输出端连接第八加和add层；第八加和add层输出端分别连接第九深度可分离卷积层和第十七卷积单元；

将第九深度可分离卷积层的输出端、第十七卷积单元的输出端、第十六卷积单元的输出端、第十五卷积单元的输出端和第八加和add层的输出端连接第九加和add层；

将第三最大池化层的输出端、第十四卷积单元的输出端和第十八卷积单元的输出端连接第十加和add层，第十加和add层输出端分别连接第十深度可分离卷积层和第十九卷积单元；

将第十深度可分离卷积层的输出端、第十九卷积单元的输出端、第十八卷积单元的输出端和第十加和add层的输出端连接第十一加和add层；第十一加和add层输出端分别连接第十一深度可分离卷积层和第二十卷积单元；

将第十一深度可分离卷积层的输出端、第二十卷积单元的输出端、第十九卷积单元的输出端、第十八卷积单元的输出端和第十一加和add层的输出端连接第十二加和add层；第十二加和add层输出端分别连接第十二深度可分离卷积层和第二十一卷积单元；

将第十二深度可分离卷积层的输出端、第二十一卷积单元的输出端、第二十卷积单元的输出端、第十九卷积单元的输出端、第十八卷积单元的输出端和第十二加和add层的输出端连接第十三加和add层；

将第九加和add层输出端和第十三加和add层输出端输入第十四加和add层；第十四加和add层连接第四最大池化层。

下面是第六组连接关系：

第四最大池化层的输出端分别连接第六组Group6中第十三深度可分离卷积层的输入端、第十六深度可分离卷积层的输入端、第二十二卷积单元的输入端和第二十五卷积单元的输入端；

将第十三深度可分离卷积层的输出端、第二十二卷积单元的输出端和第四最大池化层的输出端连接第十五加和add层，第十五加和add层输出端分别连接第十四深度可分离卷积层和第二十三卷积单元；

将第十四深度可分离卷积层的输出端、第二十三卷积单元的输出端、第二十二卷积单元的输出端和第十五加和add层输出端连接第十六加和add层，第十六加和add层输出端分别连接第十五深度可分离卷积层和第二十四卷积单元；

将第十五深度可分离卷积层的输出端、第二十四卷积单元的输出端、第二十三卷积单元的输出端、第二十二卷积单元的输出端和第十六加和add层输出端连接第十七加和add层；

将第四最大池化层的输出端、第十六深度可分离卷积层的输出端和第二十五卷积单元的输出端连接第十八加和add层，第十八加和add层输出端分别连接第十七深度可分离卷积层和第二十六卷积单元；

将第十七深度可分离卷积层的输出端、第二十六卷积单元的输出端、第二十五卷积单元的输出端和第十八加和add层输出端连接第十九加和add层；

将第十七加和add层输出端和第十九加和add层输出端输入第二十加和add层；第二十加和add层连接第五最大池化层。

下面是第七组连接关系：

第五最大池化层的输出端分别连接第七组Group7中第十八深度可分离卷积层的输入端、第二十二深度可分离卷积层的输入端、第二十七卷积单元的输入端和第三十一卷积单元的输入端；

将第五最大池化层的输出端、第十八深度可分离卷积层的输出端和第二十七卷积单元的输出端连接第二十一加和add层，第二十一加和add层输出端分别连接第十九深度可分离卷积层和第二十八卷积单元；

将第十九深度可分离卷积层输出端、第二十八卷积单元输出端、第二十七卷积单元输出端和第二十一加和add层输出端连接第二十二加和add层，第二十二加和add层输出端分别连接第二十深度可分离卷积层和第二十九卷积单元；

将第二十深度可分离卷积层的输出端、第二十九卷积单元的输出端、第二十八卷积单元的输出端、第二十七卷积单元的输出端和第二十二加和add层输出端连接第二十三加和add层；第二十三加和add层输出端分别连接第二十一深度可分离卷积层和第三十卷积单元；

将第二十一深度可分离卷积层的输出端、第三十卷积单元的输出端、第二十九卷积单元的输出端、第二十八卷积单元的输出端、第二十七卷积单元的输出端和第二十三加和add层输出端输入第二十四加和add层；

将第五最大池化层的输出端、第二十二深度可分离卷积层的输出端和第三十一卷积单元的输出端连接第二十五加和add层，第二十五加和add层输出端分别连接第二十三深度可分离卷积层和第三十二卷积单元；

将第二十三深度可分离卷积层的输出端、第三十二卷积单元的输出端、第三十一卷积单元的输出端和第二十五加和add层输出端连接第二十六加和add层；第二十六加和add层输出端分别连接第二十四深度可分离卷积层和第三十三卷积单元；

将第二十四深度可分离卷积层的输出端、第三十三卷积单元的输出端、第三十二卷积单元的输出端、第三十一卷积单元的输出端和第二十六加和add层输出端输入第二十七加和add层；

将第二十四加和add层输出端和第二十七加和add层输出端输入第二十八加和add层。

下面是第八组连接关系：

第二十八加和add层输出端连接第八组Group8中第三十四卷积单元的输入端，第三十四卷积单元的输出端连接第三十五卷积单元的输入端，第三十五卷积单元的输出端连接第二十五深度可分离卷积层；

下面是第九组连接关系：

第二十五深度可分离卷积层输出端连接第九组Group9中全局平均池化层GAP，全局平均池化层GAP连接Softmax分类层完成分类。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是，所述第一卷积单元至第三十五卷积单元中每个卷积单元包括一个卷积层、一个BN层和一个ReLU层；

其中卷积层的输出端连接BN层，BN层的输出端连接ReLU层。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是，所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第十三卷积层、第十四卷积层、第三十五卷积层的卷积核大小为3×3。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是，所述第一深度可分离卷积层、第二深度可分离卷积层、第三深度可分离卷积层、第四深度可分离卷积层、第五深度可分离卷积层、第六深度可分离卷积层、第七深度可分离卷积层、第八深度可分离卷积层、第九深度可分离卷积层、第十深度可分离卷积层、第十一深度可分离卷积层、第十二深度可分离卷积层、第十三深度可分离卷积层、第十四深度可分离卷积层、第十五深度可分离卷积层、第十六深度可分离卷积层、第十七深度可分离卷积层、第十八深度可分离卷积层、第十九深度可分离卷积层、第二十深度可分离卷积层、第二十一深度可分离卷积层、第二十二深度可分离卷积层、第二十三深度可分离卷积层、第二十四深度可分离卷积层、第二十五深度可分离卷积层的卷积核大小为3×3。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是，所述第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十五卷积层、第十六卷积层、第十七卷积层、第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层、第二十四卷积层、第二十五卷积层、第二十六卷积层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第三十卷积层、第三十一卷积层、第三十二卷积层、第三十三卷积层、第三十四卷积层的卷积核大小为1×1。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是，所述步骤三中将高光谱图像数据集X和相对应的标签向量数据集Y输入到建立的基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN中，采用Momentum算法进行迭代优化，得到最优网络BMDF-LCNN。

其它步骤及参数与具体实施方式一至九之一相同。

A本发明提出模型的总体架构

本发明提出模型总体结构如图1所示，该结构一共分成了九部分。和传统采用单一降采样方式不同，本发明将池化降采样和卷积降采样按照一定的方式组合成高效的降采样结构(具体的结构模型见B部分)，并且和传统降采样方法进行了对比。第三组，采用了标准卷积和深度可分离卷积的组合，采用最大池层进行下采样，在减小图像的空间尺寸的同时保留图像的主要特征，避免过度拟合问题。第四组到第八组主要是为了提取遥感图像具有代表性的特征。其中，第四组到第七组采用设计的双分支多层次特征密集融合方法来提取更丰富的特征信息。在双分支融合的基础上对多层次特征进行充分交流融合，在提高分类精度的同时也大大提高了网络的速度，实现了精度和速度均衡。此外，为了提取更多的特征，将第五组和第八组中卷积通道数量分别拓宽为256和512。其余每组的具体通道数设置请参考B部分。第九组用来进行分类，将最后融合得到的特征信息转换为每个场景类别的概率。

在第四组到第七组的特征提取结构中，使用3×3的深度可分离卷积、1×1的标准卷积和Identity的密集堆叠组成双分支多层次特征密集融合结构来提取图像特征，使网络结构的复杂性显著降低。采用批处理归一化(BN)^[48]可以减轻网络对参数初始化的依赖，使得训练更快，可以使用更高的学习率。此外，与自然图像数据集^[47]相比，可用于训练的遥感图像数量很少，为了避免训练过程中可能出现的过拟合现象，在代价函数式后面加入了L2正则化，即：

对上式(1)求偏导数，得到

在梯度下降算法中，为了尽快收敛，会沿着梯度的负方向更新参数，所以在上式(2)偏导数前面添加一个负号，并且乘以一个学习率系数χ，得到最终的迭代权值参数⊙_j，即

其中，γ是正则化系数，将其设置为0.005。由式(4)可以看到，每次梯度进行更新时，⊙_j都要先乘以一个小于1的因子从而使权值参数⊙_j衰减，起到了防止过拟合的作用。在第九组中，使用全局平均池化^[49]代替传统的全连接层，避免了全连接层带来的过拟合风险。

B浅层降采样策略

本发明模型总体结构第一组和第二组是设计用来在网络的浅层进行降采样操作。降采样就是将卷积得到的特征图按照一定的比例进行缩小的操作，在减小图像空间尺寸的同时保留图像的主要特征。深度卷积神经网络中降采样的方法主要有最大池化降采样和卷积降采样。在^[28]中，Jost等人提出用步长为2的卷积降采样效果与使用池化降采样的效果相当。池化是一种非线性的降采样方式，这种非线性需要通过较深的卷积叠加才能实现。一般来说，对于小型卷积神经网络，使用池化降采样效果可能更好，但是当网络很深的时候，多层叠加的卷积能从训练集中学到比池化更好的非线性特征。为了避免表示瓶颈，在综合了两种降采样的优缺点之后，本发明提出了一种利用最大池化和多层卷积叠加的方式来进行降采样的方法。降采样结构如图2中(c)所示。该结构在两个分支上分别采用池化降采样和多层卷积降采样，然后对两个分支得到的特征进行通道融合，在增加网络宽度的同时也增加了网络对尺度的适应性。图2中(a)和(b)分别是多层卷积降采样结构和池化降采样结构。

C优化时间和空间复杂度的策略

如图3a、3b、3c所示，图3a是用来优化时间和空间复杂度的基本结构。该结构由左右两个结构相似的分支融合得到。为了方便描述，对其中一个分支进行解释。根据第一层的输入输出通道数是否相同，可以分为图3b和图3c两个不同的结构。该网络结构是采用循环递进的方式将3×3的深度可分离卷积，1×1卷积以及Identity进行密集堆叠而成的。从第二层开始每一层的特征在经过本层的3×3的深度可分离，1×1的卷积和Identity之后，还要加上之前每一层的输入特征的1×1卷积来进行特征融合，最终得到该层的输出特征。多层次特征密集融合的具体过程如下：

当第一层的输入输出通道数相同时(C₁＝C₂)时，结构如图3b所示。每一层的输出特征可表示为

这里，BN是批标准化；δ是RELU激活函数；表示输入通道数是C₁，输出通道数是C₂的3×3卷积分支；/>表示输入通道数C₁，输出通道数是C₂的1×1的卷积分支；/>表示第i层的输入特征。

当第一层的输入输出通道数不相同时(C₁≠C₂)时，结构如图3c所示，只有第一层没有Identity分支，其余层和C₁＝C₂情况下的结构相同。每层的输出特征为

M⁽¹⁾＝δ(BN(M⁽¹⁾*W⁽³⁾))+δ(BN(M⁽¹⁾*W⁽¹⁾))(i＝1) (6)

下面具体分析降低模型复杂度的方法。卷积神经网络的时间复杂度T可表示为

其中，L表示神经网络的卷积层数，M_i表示第i个卷积层的卷积核输出特征图尺寸，K_i表示第i个卷积层的卷积核尺寸，i表示神经网络第i个卷积层，C_i-1和C_i表示神经网络第i个卷积层的输入通道数C_in和输出通道数C_out。

卷积神经网络的空间复杂度S为

式(9)中，第一个求和表达式表示模型所有带参数的层的权重参数总量，第二个求和表达式表示模型在运行过程中每层所计算出的输出特征图大小。

1)使用全局平均池化替代全连接层

全连接层是一种特殊的卷积层，其卷积核尺寸K和输入数据尺寸X相同，每个卷积核的输出特征图是一个标量点，即M＝1，时间和空间复杂度分别为

T～O(1²·X²·C_in·C_out) (10)

S～O(X²·C_in·C_out+C_out) (11)

其中，X表示输入图像的尺寸，M表示每个卷积核输出特征图的尺寸，K表示卷积核尺寸，C_in和C_out分别表示输入通道数和输出通道数。

由式(10)和(11)可以看出，使用全连接层的复杂度与输入数据的尺寸X有关。在使用了全局平均池化之后,时间和空间复杂度分别为

T～O(C_in·C_out) (12)

S～O(C_in·C_out) (13)

由上式(12)和(13)可以看出，在使用全局平均池化后，时间和空间复杂度都只和输入输出通道数有关，运算量和参数数量都有了很大的降低。

2)用深度可分离卷积替代标准卷积

标准卷积运算是每个卷积核对输入的所有通道进行卷积，深度可分离卷积是每个卷积核只负责输入的某一个通道，进而降低了模型的复杂度。

标准卷积的时间复杂度为

T～O(M²·K²·C_in·C_out) (14)

深度可分离卷积的时间复杂度为

T～O(M²·K²·C_in+M²·C_in·C_out) (15)

就计算参数量而言，标准卷积的参数量P_conv为

深度可分离卷积的参数量P_dsc为

P_dsc＝(K·K·C_in+C_in·C_out)(17)

深度可分离卷积和标准卷积的参数量比值为

从式(14)-(18)可以看出，当使用3×3的卷积核时，深度可分离卷积的参数量约是普通卷积参数量的采用深度可分离卷积代替标准卷积，能大大减少了计算的参数量，有效地降低模型的复杂度，提高模型的运行速度。

3)Identity

从网络结构上来讲，网络浅层提取的是简单的、具体的特征，随着网络结构加深，提取到的特征变得复杂且抽象。具体和抽样的特征适用于不同的样本分类，通过不同层次特征之间的信息交流可以有效提高分类的精度和速度。没有使用Identity时，对所有样本的分类都只能用复杂的特征判断；加入Identity后，浅层的特征被保留下来，可以加快网络的运行速度。

采用以下实施例验证本发明的有益效果：

实施例一：

使用不同的方法全面评估了所提出的双分支多层次特征密集融合方法。在四个具有挑战性的数据集上进行了实验。将提出的BMDF-LCNN方法与最先进的方法进行了比较。实验结果证明了提出方法的有效性。

A数据集

UC数据集^[50]包含2100个遥感场景图像，它们被分为21个场景类。每个类包含100张256×256像素的航拍图像，图像的空间分辨率为1英尺。实验中，各场景类80％的图像随机选择作为训练集，其余分为测试集(80/20UC)。

RSSCN7^[51]数据集包含7个场景类，共计2800幅遥感场景图像。每个类包含400幅图像，400×400像素。实验中，将图像大小调整为256×256。随机选择每个场景类中50％的图像作为训练集，其余的被分为测试集(50/50RSSCN)。

航空图像数据集(AID)^[52]由30个场景类和10000个遥感场景图像组成。每个场景类包含220-420个场景图像，600×600像素，空间分辨率从大约8m变化到0.5m。在实验中，图像大小被调整到256×256。20％和每个场景类的50％的图像被随机选择为训练集，其余的被分为测试集(20/80AID、50/50AID)。

作为场景类别数量和场景图像总数中最大的数据集之一NWPU-RESISC45(NWPU)数据集^[14]，由45个场景类组成，共有31500幅遥感场景图像，每个场景类包含700个场景图像，256×256像素。大多数场景图像的空间分辨率从30m到0.2m不等。该数据集的图像有较高的类内差异和类间相似性，给分类任务带来了很大的挑战。在实验中，随机选取每个场景类的10％和20％的图像作为训练集，其余的分为测试集(10/90NWPU、20/80NWPU)。

B实验设置

每个卷积核的大小如图1所示。其余具体设置如下：

在第1组中，卷积通道的数量被设置为32个，在第2组中，卷积通道的数量被设置为64，组1-2中第一个卷积的步长是2，剩下所有的卷积步长都是1。在第3组中，卷积通道的数量设置为128，第4组的卷积通道的数量与第3组的数量相同。第5-7组的卷积通道数设置为256个，而第8组设置为512个。组1-8中最大池层的池大小设置为2×2，池化步长为2。组3-8中所有的卷积步长是1，均使用same填充。

数据增强的设置如下：

1)对于输入图像，旋转范围为0-60°。

2)输入图像的长度和宽度随机偏移，偏移系数为0.2

3)将输入图像随机翻转为水平或垂直。

数据增强后，所有样本均按批次进行归一化。此外，为了避免训练过程中内存溢出，将输入图像的大小调整为256×256。训练BMDF-LCNN网络的初始学习率设置为0.01。增加了自动学习率降低机制。在训练过程中，批量大小设置为16，用动量优化算法对所提出的BMDF-LCNN进行优化，动量系数设置为0.9。所有实验结果均为十次实验后的平均值。计算机配置如下：RAM：16GB；处理器：AM DRyzen 7 4800H with Radeon Graphics@2.90GHz；GPU：NVIDIAGeForceRTX2060 6G

C提出方法的性能

为了验证所提出的BMDF-LCNN方法的性能，在以下实验中使用多个评价指标进行衡量，包括总体精度(OA)、平均精度(AP)、Kappa系数(Kappa)、混淆矩阵、平均训练时间(ATT)，以及权重参数。OA表示在总测试集中正确分类图像的百分比，AP表示测试集上每个场景类准确率的平均值，ATT表示模型在训练过程中处理每张图像的平均时间。由于提出方法是在轻量级卷积神经网络-分支特征融合(Lightweight convolutionalneuralnetwork-branch feature fusion，LCNN-BFF[8])方法上进行的改进，为了验证改进后方法的性能，将提出方法和LCNN-BFF方法在UC、RSSCN、AID和NWPU数据集上分别进行实验对比，并选择OA、AP、Kappa和混淆矩阵作为评价指标。

LCNN-BFF方法与提出的BMDF-LCNN方法在六个数据集上的OA和Kappa结果见表Ⅰ。

表ⅠBMDF-LCNN与提出模型的性能比较

由表Ⅰ可以看出，提出方法的OA和Kappa值明显高于LCNN-BFF方法的相应结果。BMDF-LCNN在数据集UC上的分类精确度和Kappa值接近100％，表明该方法在UC数据集上有很好的分类表现。对于数据集AID和NWPU，BMDF-LCNN也取得了很好的分类结果，其中在10/90NWPU数据集上的提升最多，分类精度与LCNN-BFF相比提高了5.12％，Kappa值提高了4.43％，这表明提出方法具有更强的鲁棒性。接下来采用AP、F1和混淆矩阵作为指标，对提出方法的性能进行评估。

所提出的BMDF-LCNN方法和LCNN-BFF的AP和F1结果见图4a、4b。从图4a中可以看出，使用BMDF-LCNN方法在所有测试数据集上得到的AP值都高于LCNN-BFF^[8]的AP值。其中在50/50RSSCN、20/80AID、10/90NWPU和20/80NWPU四个数据集上的分类性能提升的最高，分别比LCNN-BFF高出2.78％、2.52％、4.62％和1.85％。

从图4b中可以看出，使用BMDF-LCNN方法的F1值也均高于LCNN-BFF^[8]方法的F1值。其中在50/50RSRSSCN、20/80AID、10/90NWPU和20/80NWPU四个数据集上的分类性能提升的最高，分别比LCNN-BFF[8]高出3.22％、2.6％、4.68％和1.79％。

接下来，分别在80/20UC、50/50RSRSSCN、20/80AID和10/90NWPU四个数据集上，使用混淆矩阵来证明该方法的性能。混淆矩阵的对角线上的值表示该类别正确分类的精度值，该行中的其他数值表示该类别错误分类的百分比。从图5a中的混淆矩阵可以看出，在80/20UC数据集上BMDF-LCNN方法对天桥和储罐的分类精确度为95％，其余的所有场景分类精度都是100％，证明了该方法在UC数据集上有优异的性能表现。在图5b的50/50RSSCN数据集上，BMDF-LCNN方法对大多数场景的分类精度达到了96％以上。对于工厂类别的识别率为94％。这主要是由于在工厂类别中，样本具有较高的类内差异性。尽管如此，采用BMDF-LCNN方法依然得到了较高的分类精度。

从图6a中的混淆矩阵可以看出，在20/80AID数据集上分类精度在95％以上的类别有20种，其中森林和公园的精度是100％。有5％的广场被错误的分类到了公园，5％的学校错误的分类到了商业区，这主要是由于公园和广场，学校和商业区之间高度的类间相似性导致的。在图6b中，在有高类间相似性和类内差异性的10/90NWPU数据集上，有39个类别的分类精度达到了90％以上，丛林和雪山的精度达到了100％。由于宫殿和教堂的高类间相似性，导致了有12％的宫殿被错误的分类为教堂。

以上实验通过OA、Kappa、AP、F1和混淆矩阵等评价指标充分证明了提出方法的有效性。实验结果表明，双分支多层次特征密集融合结构通过不同层次特征的密集交流，能够在显著提高分类精度的同时，提高网络的鲁棒性。

D性能比较与先进的方法对比

在这一部分中，为了进一步验证提出的BMDF-LCNN方法在模型复杂度和分类精度方面的优势，选取了近两年在UC、RSSCN、AID和NWPU四个数据集上测试的最先进的遥感场景分类方法，并与提出的BMDF-LCNN方法进行比较。采用OA、参数数量、Kappa和ATT作为评价指标对这些方法进行了衡量。

1)在UC-Merced数据集上的实验结果。

提出方法与先进方法得到的OA与参数量的比较结果见表Ⅱ。如表Ⅱ所示，在训练率为80％的UC数据集上，提出方法的分类精度达到了99.53％，超过了所有对比的方法。这表明了双分支多层次特征密集融合模块可以显著提高分类精度。

Inception-v3-CapsNet^[33]、SF-CNN withVGGNet^[37]、SCCov^[45]和PANNet^[59]的精度都超过了99％，实现了较好的分类精度，但是这四种方法的参数量较大，在取得较高的分类精度的同时，没有很好的权衡模型的复杂度。SCCov^[45]的参数量仅有6M，与提出的BMDF-LCNN方法的参数量相同。然而，SCCov^[45]的精度只有98.04％，低于提出方法1.49％。此外，在UC数据集上，将提出方法与最先进方法的Kappa值进行了比较，结果见表Ⅲ。如表Ⅲ所示，提出方法的Kappa系数是99.50％，比ContourletCNN^[20]高1.69％、比LiG withsigmoidkernrl^[43]高1.87％、比SE-MDPMNet^[63]高1.76％，这表明提出的BMDF-LCNN方法具有较高的分类性能。

表Ⅱ提出的模型在UC数据集上与多种先进方法的性能比较

/>

表Ⅲ提出的模型在UC数据集上与多种先进方法的卡帕值比较

为了更进一步验证提出方法的有效性，在相同的配置条件下，在UC数据集上将提出方法与几种最先进的方法进行了对比，ATT的比较结果见表Ⅳ。从表Ⅳ可以看出，提出方法的ATT是0.017s，比^[53]中的提出的两种方法处理图像的时间短0.035s、0.031s，比^[38]中提出的两种方法处理图像的时间减少了0.036s和0.022s。这进一步验证了该方法的高效性。

表Ⅳ提出的模型与多种先进方法处理图像的平均时间比较

2)在RSSCN数据集上的实验结果。

表Ⅴ列出了提出方法的OA结果和参数量。在表Ⅴ中，该方法的分类精度是所有对比方法中最高的，具有更好的分类性能。就OA而言，提出方法分别比Contourlet^[20]、ADFF^[42]、SE-MDPMNet^[63]和EffecientNet-B3-Attn-2^[64]的精度高出2.32％、2.65％、5.40％和1.69％。

与其他方法相比，提出方法的总参数量最少，仅占VGG16+SVM^[52]参数量的4.61％，占SPM-CRC^[39]、WSPM-CRC^[39]和ADFF^[42]参数量的26.09％，这验证了提出的网络模型具有较低的复杂度。

表Ⅴ提出的模型在RSSCN数据集上与多种先进方法的性能比较

3)在AID数据集上的实验结果。

所提出的方法和最先进方法的比较结果分别列于表Ⅵ。当训练比是20％时，提出方法的分类精度达到了94.46％，比LiGwithRBFkernel^[62]和Fine-tuneMobileNetV2^[63]的分类精度分别高出0.29％和0.33％，当训练比是50％时，提出方法的最高精度是96.76％，超过了所有对比方法的精度。该精度比FACNN^[41]高1.31％，比LiGwithRBFkernel^[62]高出0.57％，比Fine-tuneMobileNetV2^[63]高出0.8％。这证明了本发明的方法可以更好的提取图像的特征，从而更准确地理解图像的语义。就权重参数而言，提出方法的权重参数量是6M，略高于LiGwithRBFkernel^[62]的参数量,但是，本发明的方法在测试集上的精度高于LiGwithRBFkernel^[62]。

提出方法与其他方法的kappa系数比较结果如表Ⅶ所示。可以看出，提出方法的kappa系数为96.24％，比LiGwithRBFkernel^[62]的kappa系数高1.91％，比Fine-tuneMobileNet V2^[63]的kappa系数高1.41％。

表Ⅵ提出的模型在AID数据集上与多种先进方法的性能比较

表Ⅶ提出的模型在AID数据集上与多种先进方法的kappa结果比较

4)在NWPU数据集上的实验结果。

在NWPU数据集上进行实验，提出方法和最先进方法的比较结果见表Ⅷ。在表Ⅷ中，当训练比是10％时，提出方法的分类精度达到了91.65％，比LiGwithRBFkernel^[62]的分类精度高1.42％，比LiGwithsigmoidkernel^[43]的分类精度高1.46％。当训练比是20％时，比LiGwithRBFkernel^[62]、LiGwithsigmoidkernel^[43]和MSSDFF^[65]的分类精度分别高0.32％、0.36％和0.02％。就参数量而言，与参数量较小的LiGwithRBFkernel^[62]相比，训练比是10％时，提出方法的分类精度提高了1.42％，训练比是20％时，提出方法的分类精度提高了0.32％。与参数量相同的SSCov^[45]相比，训练比是10％时，提出方法的分类精度提高了7.32％，训练比是20％时，提出方法的分类精度提高了6.27％。实验结果表明，提出方法具有更好的分类性能，且运行速度快，非常适合用在移动设备上。

表Ⅷ提出的模型在NWPU45数据集上与多种先进方法的性能比较

不同方法的kappa系数比较结果如表Ⅸ所示。可见，提出方法的kappa系数为93.42％，比LiG with RBF kernel^[62]和Fine-tune MobileNet V2^[63]的kappa系数分别高0.40％和0.49％。进一步证明了提出方法的有效性。

表Ⅸ提出的模型在训练比例是20％NWPU45数据集上与多种先进方法的卡帕值比较

E三种降采样方式对比

为了验证本发明提出的降采样方法的优势,在网络的第一层和第二层分别图2的三种降采样方式在UC和RSSCN两个数据集上进行实验，并用总体精度(OA)和卡帕系数(Kappa)来作为评价指标。图2中(a)是卷积降采样(Conv-Downsampling，CD)，其中第一个卷积和第三个卷积步长是1，第二个和第四个卷积的步长是2。图2中(b)是池化降采样(Maxpooling-Downsampling，MD)，卷积核的大小都是3×3，步长都是1×1，最大池化的大小是2×2,池化步长是2。图2中(c)是本发明提出的新的降采样方式。实验结果比较如表Ⅹ所示。由表Ⅹ可知，在两个数据集上，池化降采样的分类精度和kappa值都小于卷积降采样的值，这是因为在深层网络中卷积降采样可以获得比池化降采样更好的非线性性能。本发明提出的降采样方式在80/20UC和50/50RSSCN数据集上获得的分类精度分别是99.53％、97.86％，kappa值分别是99.50％、97.50％，均高于其他两种降采样方式的值，这进一步证明了将多层次特征进行密集融合的方法可以很好的对遥感场景图像进行分类。

表Ⅹ三种降采样方式在UC数据集和RSSCN数据集上的总体精度和卡帕值对比

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

参考文献

[1]F.Hu,G.-S.Xia,J.Hu,and L.Zhang,“Transferring deep convolutionalneural networks for the scene classifification of high-resolution remotesensing imagery,”Remote Sens.,vol.7,no.11,pp.14680–14707,Nov.2015.

[2]Q.S.Liu et al.,“Bidirectional-convolutional LSTM based spectral-spatial feature learning for hyperspectral image classifification,”RemoteSens.,vol.9,no.12,Dec.2017,Art.no.1330.

[3]X.Lu,Y.Yuan,and X.Zheng,“Joint dictionary learning formultispectral change detection,”IEEE Trans.Cybern.,vol.47,no.4,pp.884–897,Apr.2017.

[4]Y.Li,C.Peng,Y.Chen,L.Jiao,L.Zhou,and R.Shang,“A deep learningmethod for change detection in synthetic aperture radar images,”IEEETrans.Geosci.Remote Sens.,vol.57,no.8,pp.5751–5763,Aug.2019.

[5]Y.Liu,Y.Liu,and L.Ding,“Scene classification based on two-stagedeep feature fusion,”IEEE Geosci.RemoteSens.Lett.,vol.53315,no.2,pp.183–186,Feb.2018.

[6]C.Peng,Y.Li,L.Jiao,Y.Chen,and R.Shang,“Densely based multiscaleand multi-modal fully convolutional networks for high-resolution remote-sensing image semantic segmentation,”IEEEJ.Sel.TopicsAppl.Earth Observ.RemoteSens.,vol.12,no.8,pp.2612–2626,Aug.2019.

[7]P.Ghamisiet al.,“New frontiers in spectral-spatial hyperspectralimage classifification:The latest advances based on mathematical morphology,Markov random fifields,segmentation,sparse representation,and deep learning,”IEEE Geosci.Remote Sens.Mag.,vol.6,no.3,pp.10–43,Sep.2018.

[8]C.Shi,T.Wang and L.Wang,"Branch Feature Fusion Convolution Networkfor Remote Sensing Scene Classification,"IEEE Journal of Selected Topics inApplied Earth Observations and Remote Sensing,vol.13,pp.5194-5210,2020,doi:60210.1109/JSTARS.2020.3018307.

[9]M.James Swain and D.H.Ballard,“Color indexing,”Int.J.Comput.Vis.,vol.7,no.1,pp.11–32,1991.

[10]T.Ojala,M.Pietikainen,and T.Maenpaa,“Multiresolution gray-scaleand rotation invariant texture classifification with local binary patterns,”IEEE Trans.Pattern Anal.Mach.Intell.,vol.24,no.7,pp.971–987,Jul.2002.

[11]J.Long,E.Shelhamer,and T.Darrell,“Fully convolutional networksfor semantic segmentation,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.(CVPR),Jun.2015,pp.3431–3440.

[12]A.Oliva and T.Antonio,“Modeling the shape of the scene:A holisticrepresentation of the spatial envelope,”Int.J.Comput.Vis.,vol.42,no.3,pp.145–175,2001.

[13]N.Dalal and B.Triggs,“Histograms of oriented gradients for humandetection,”in Proc.IEEE Conf.Comput.Vis.Pattern Recognit.,Jun.2005,pp.886–893.

[14]G.Cheng,J.Han,and X.Lu,“Remote sensing image scene classififi-cation:Benchmark and state-of-the-art,”Proc.IEEE,vol.105,no.10,pp.1865–1883,Oct.2017.

[15]Sivic and Zisserman,“Video Google:A text retrieval approach toobject matching in videos,”in Proc.9th IEEE Int.Conf.Comput.Vis.,2003,p.1470.

[16]Y.Fenget al.,“Learning deep event models for crowd anomalydetection,”Neurocomputing,vol.219,no.219,pp.548–556,2017.

[17]M.Lienou,H.Maitre,and M.Datcu,“Semantic annotation of satelliteimages using latent Dirichlet allocation,”IEEE Geosci.Remote Sens.Lett.,vol.7,no.1,pp.28–32,Jan.2010.

[18]R.Fernandez-Beltran,J.M.Haut,M.E.Paoletti,J.Plaza,A.Plaza,andF.Pla,“Multimodal probabilistic latent semantic analysis for sentinel-1andsentinel-2image fusion,”IEEE Geosci.Remote Sens.Lett.,vol.15,no.9,pp.1347–1351,Sep.2018.

[19]F.N.Iandola,S.Han,M.W.Moskewicz,K.Ashraf,W.J.Dally,and K.Keutzer,“SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and<0.5MBmodelsizee,”2016,arXiv:1602.07360

[20]M.Liu,L.Jiao,X.Liu,L.Li,F.Liu,and S.Yang,“C-CNN:Contourletconvolutionalneural networks,”IEEE Trans.Neural Netw.Learn.Syst.,earlyaccess,Jul.21,2020,doi:10.1109/TNNLS.2020.3007412.

[21]A.G.Howard et al.,“MobileNets:Effificient convolutional neuralnetworks for mobilevision applications,”Apr.2017,arXiv:1704.04861.[Online].Available:https://arxiv.org/abs/1704.04861.

[22]B.Zhang,Y.Zhang,and S.Wang,“A lightweight and discriminativemodel for remotesensing scene classifification with multidilation poolingmodule,”IEEE J.Sel.Topics Appl.Earth Observ.Remote Sens.,vol.12,no.8,pp.2636–2653,Aug.2019.

[23]N.Ma,X.Zhang,H.T.Zheng,J.Sun,"Shufflenet v2:Practical guidelinesfor efficient cnnarchitecture design,"European Conference on Computer Vision,Munich,2018,pp.116-131.

[24]Andrew Howard,Mark Sandler,Grace Chu,Liang-Chieh Chen,Bo Chen,Mingxing Tan,Weijun Wang,Yukun Zhu,Ruoming Pang,Vijay Vasudevan,et al.,“Searching forMobileNetV3,”arXiv preprint.arXiv:1905.02244,2019.

[25]J.Hu,L.Shen,and G.Sun,“Squeeze-and-excitation networks,”inProc.IEEE/CVF Conf.Comput.Vis.Pattern Recognit.,Jun.2018,pp.7132–7141.

[26]Y.Li et al.,“Neural architecture search for lightweight non-localnetworks,”in Proc.IEEE/CVF Conf.Comput.Vis.Pattern Recognit.,2020,pp.10294–10303.[Online].Available:http://dx.doi.org/10.1109/cvpr42600.2020.01031

[27]Redmon J,Farhadi A.YOLO9000:Better,Faster,Stronger.arXivpreprintarXiv:1612.08242v1,2016.

[28]Jost Tobias Springenberg,Alexey Dosovitskiy,Thomas Brox,MartinRiedmiller.,Strivingfor Simplicity:The All Convolutional Net.arXivpreprint.arXiv:1412.6806

[29]S.Chaib,H.Liu,Y.Gu,and H.Yao,“Deep feature fusion for VHR remotesensing sceneclassifification,”IEEE Trans.Geosci.Remote Sens.,vol.55,no.8,pp.4775–4784,Aug.2017.[30]X.Lu et al.,“Bidirectional adaptive feature fusionfor remote sensing sceneclassifification,”Neurocomputing,vol.328,pp.135–146,2019.

[31]H.Zhao et al.,“Convolutional neural network based heterogeneoustransfer learning forremote-sensing scene classifification,”Int.J.RemoteSens.,vol.40,no.22,pp.8506–8527,2019.

[32]F.Zhao et al.,“A novel two-stage scene classifification modelbased on feature variablesignifificance in high-resolution remote sensing,”Geocarto Int.,to be published,doi:10.1080/10106049.2019.1583772.

[33]W.Zhang et al.,“Remote sensing image scene classifification usingCNNCapsNet,”Remote Sens.,vol.11,no.5,2019,Art.no.494.

[34]Y.Zhou et al.,“Remote sensing scene classifification based onrotationinvariant featurelearning and joint decision making,”EURASIP J.ImageVideo Process.,vol.2019,no.1,pp.1–11,2019.

[35]C.Wang et al.,“Multiple resolution block feature for remote-sensing sceneclassifification,”Int.J.Remote Sens.,vol.40,no.18,pp.6884–6904,2019.

[36]Y.Boualleg,M.Farah,and I.R.Farah,“Remote sensing sceneclassifification usingconvolutional features and deep forest classififier,”IEEE Geosci.Remote Sens.Lett.,vol.16,no.12,pp.1944–1948,Dec.2019.

[37]J.Xie,N.He,L.Fang,and A.Plaza,“Scale-free convolutional neuralnetwork for remote sensing scene classifification,”IEEE Trans.Geosci.RemoteSens.,vol.57,no.9,pp.6916–6928,Sep.2019.

[38]X.Liu,Y.Zhou,J.Zhao,R.Yao,B.Liu,and Y.Zheng,“Siameseconvolutional neura lnetworks for remote sensing scene classifification,”IEEEGeosci.Remote Sens.Lett.,vol.16,no.8,pp.1200–1204,Aug.2019.

[39]B.Liu et al.,“Weighted spatial pyramid matching collaborativerepresentation for remote-sensing-image scene classifification,”Remote Sens.,vol.11,no.5,2019,Art.no.518.

[40]X.Lu,B.Wang,X.Zheng,and X.Li,“Exploring models and data forremote sensing image caption generation,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.4,pp.2183–2195,Apr.2018.

[41]X.Lu,H.Sun,and X.Zheng,“A feature aggregation convolutionalneural network for remote sensing scene classifification,”IEEETrans.Geosci.Remote Sens.,vol.57,no.10,pp.7894–7906,Oct.2019.

[42]B.Li et al.,“Aggregated deep fifisher feature for VHR remotesensing scene classifification,”IEEE J.Sel.Topics Appl.Earth Observ.RemoteSens.,vol.12,no.9,pp.3508–3523,Sep.2019.

[43]C.Xu,G.Zhu,and J.Shu,“Robust joint representation of intrinsicmean and kernel function of lie group for remote sensing scene classi-fification,”IEEE Geosci.Remote Sens.Lett.,early access,Apr.23,2020,doi:10.1109/LGRS.2020.2986779.

[44]S.Wang,Y.Guan,and L.Shao,“Multi-granularity canonical appearancepooling for remote sensing scene classifification,”IEEE Trans.Image Process.,vol.29,pp.5396–5407,Apr.2020.

[45]N.He,L.Fang,S.Li,J.Plaza,and A.Plaza,“Skip-connected covariancenetwork for remote sensing scene classifification,”IEEETrans.NeuralNetw.Learn.Syst.,vol.31,no.5,pp.1461–1474,May 2020.

[46]W.Zhang,X.Lu,and X.Li,“A coarse-to-fifine semi-supervised changedetection for multispectral images,”IEEE Trans.Geosci.Remote Sens.,vol.56,no.6,pp.3587–3599,Jun.2018.

[47]Olga Russakovsky,Jia Deng,Hao Su,Jonathan Krause,SanjeevSatheesh,Sean Ma,Zhiheng Huang,Andrej Karpathy,AdityaKhosla,Michael Bernstein,Alexander C.Berg,and Li Fei-Fei.Imagenet large scale visual recognitionchallenge.Int.J.Comput.Vision,115(3):211–252,Dec.2015.5,8

[48]S.Ioffe and C.Szegedy,“Batch normalization:Accelerating deepnetwork training by reducing internal covariate shift,”inProc.32ndInt.Conf.Machine Learn.,2015,pp.448–456.

[49]M.Lin et al.,“Network in network,”in Proc.Int.Conf.Learn.Representations,2014,pp.1–10.

[50]Y.Yang and S.Newsam,“Bag-of-visual-words and spatial extensionsfor land-use classifification,”in Proc.Int.Conf.Adv.Geogr.Inf.Syst.,2010,pp.270–279.

[51]Q.Zou,L.Ni,T.Zhang,and Q.Wang,“Deep learning based featureselection for remote sensing scene classifification,”IEEE Geosci.RemoteSens.Lett.,vol.12,no.11,pp.2321–2325,Nov.2015.

[52]G.Xia et al.,“AID:A benchmark data set for performance evaluationof aerial scene classifification,”IEEE Trans.Geosci.Remote Sens.,vol.55,no.7,pp.3965–3981,Jul.2017.

[53]H.Sun,S.Li,X.Zheng,and X.Lu,“Remote sensing sceneclassifification by gated bidirectional network,”IEEE Trans.Geosci.RemoteSens.,vol.58,no.1,pp.82–96,Jan.2020.

[54]Y.Liu,Y.Liu,and L.Ding,“Scene classifification based on two-stagedeep feature fusion,”IEEE Geosci.Remote Sens.Lett.,vol.15,no.2,pp.183–186,Feb.2018.

[55]C.Song,F.Yang,and P.Li,“Rotation invariant texture measured bylocal binary pattern for remote sensing image classifification,”inProc.2ndInt.Workshop Educ.Technol.Comput.Sci.,vol.3,2010,pp.3–6.

[56]G.Cheng and J.Han,“A survey on object detection in optical remotesensing images,”ISPRS J.Photogramm.Remote Sens.,vol.117,pp.11–28,Jul.2016.

[57]P.Yan,F.He,Y.Yang,and F.Hu,“Semi-supervised representationlearning for remote sensing image classifification based on generativeadversarial networks,”IEEE Access,vol.8,pp.54135–54144,Mar.2020.

[58]R.Cao,L.Fang,T.Lu,and N.He,“Self-attention-based deep featurefusion for remote sensing scene classifification,”IEEE Geosci.RemoteSens.Lett.,to be published,doi:10.1109/LGRS.2020.2968550.

[59]D.Zhang,N.Li,and Q.Ye,“Positional context aggregation network forremote sensing scene classifification,”IEEE Geosci.Remote Sens.Lett.,vol.17,no.6,pp.943–947,Jun.2020.

[60]W.Li et al.,“Classifification of high-spatial-resolution remotesensing scenes method using transfer learning and deep convolutional neuralnetwork,”IEEE J.Sel.Topics Appl.Earth Observ.Remote Sens.,vol.13,pp.1986–1995,May 2020,doi:10.1109/JSTARS.2020.2988477.

[61]A.M.Pour,H.Seyedarabi,S.H.A.Jahromi,and A.Javadzadeh,“Automaticdetection and monitoring ofdiabetic retinopathy usingeffificientconvolutional neural networks and contrast limited adaptive histogramequalization,”IEEEAccess,vol.8,pp.136668–136673,2020.

[62]C.Xu,G.Zhu,and J.Shu,“A lightweight intrinsic mean for remotesensing classifification with lie group kernel function,”IEEEGeosci.RemoteSens.Lett.,early access,Jul.17,2020,doi:10.1109/LGRS.2020.3007775.

[63]B.Zhang,Y.Zhang,and S.Wang,“A lightweight and discriminativemodel for remote sensing scene classifification with multidilation poolingmodule,”IEEE J.Sel.Topics Appl.Earth Observ.Remote Sens.,vol.12,no.8,pp.2636–2653,Aug.2019.

[64]H.Alhichri,A.S.Alswayed,Y.Bazi,N.Ammour and N.A.Alajlan,"Classification of Remote Sensing Images Using EfficientNet-B3 CNN Model WithAttention,"in IEEE Access,vol.9,pp.14078-14094,2021,doi:10.1109/ACCESS.2021.3051085

[65]W.Xue,X.Dai,and L.Liu,“Remote Sensing Scene Classification Basedon Multi-Structure Deep Features Fusion,”IEEE Access,vol.8,pp.28746–28755,2020,doi:10.1109/ACCESS.2020.2968771

[66]C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,and A.Rabinovich.Going deeper with convolutions.In Proceedingsofthe IEEE Conference on Computer Vision and Pattern Recognition,pages 1–9,2015.1,2,5,6,7

Claims

1.基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述方法具体过程为：

步骤四、向最优网络BMDF-LCNN中输入待测高光谱图像进行分类结果预测；

所述步骤二中建立基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN；具体过程为：

基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN包括输入层、第一组Group1、第二组Group2、第三组Group3、第四组Group4、第五组Group5、第六组Group6、第七组Group7、第八组Group8、第九组Group9以及输出分类层；

所述基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN连接关系为：

输入层的输出端连接第一组Group1，第一组Group1的输出端连接第二组Group2，第二组Group2的输出端连接第三组Group3，第三组Group3的输出端连接第四组Group4，第四组Group4的输出端连接第五组Group5，第五组Group5的输出端连接第六组Group6，第六组Group6的输出端连接第七组Group7，第七组Group7的输出端连接第八组Group8，第八组Group8的输出端连接第九组Group9，第九组Group9的输出端连接输出分类层实现分类；

所述第一组Group1包括第一最大池化层、第一卷积单元、第二卷积单元、第三卷积单元、第一全连接层；

第九组Group9包括全局平均池化GAP、Softmax分类层。

2.根据权利要求1所述基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述输入层的输出端分别连接第一组Group1中第一最大池化层的输入端和第二卷积单元的输入端，第一最大池化层的输出端连接第一卷积单元，第二卷积单元的输出端连接第三卷积单元，第一卷积单元的输出端和第三卷积单元的输出端连接第一全连接层；

将第二深度可分离卷积层的输出端、第三深度可分离卷积层的输出端和第八卷积单元的输出端连接第一加和add层，第一加和add层输出端分别连接第四深度可分离卷积层和第九卷积单元；

将第二加和add层输出端和第五加和add层输出端输入第六加和add层；第六加和add层连接第三最大池化层；

将第九加和add层输出端和第十三加和add层输出端输入第十四加和add层；第十四加和add层连接第四最大池化层；

将第十七加和add层输出端和第十九加和add层输出端输入第二十加和add层；第二十加和add层连接第五最大池化层；

将第二十四加和add层输出端和第二十七加和add层输出端输入第二十八加和add层；

3.根据权利要求2所述基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述第一卷积单元至第三十五卷积单元中每个卷积单元包括一个卷积层、一个BN层和一个ReLU层；

其中卷积层的输出端连接BN层，BN层的输出端连接ReLU层。

4.根据权利要求3所述基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层、第七卷积层、第十三卷积层、第十四卷积层、第三十五卷积层的卷积核大小为3×3。

5.根据权利要求4所述基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述第一深度可分离卷积层至第二十五深度可分离卷积层的卷积核大小为3×3。

6.根据权利要求5所述基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述第八卷积层、第九卷积层、第十卷积层、第十一卷积层、第十二卷积层、第十五卷积层、第十六卷积层、第十七卷积层、第十八卷积层、第十九卷积层、第二十卷积层、第二十一卷积层、第二十二卷积层、第二十三卷积层、第二十四卷积层、第二十五卷积层、第二十六卷积层、第二十七卷积层、第二十八卷积层、第二十九卷积层、第三十卷积层、第三十一卷积层、第三十二卷积层、第三十三卷积层、第三十四卷积层的卷积核大小为1×1。

7.根据权利要求6所述基于多层次特征密集融合的遥感场景图像分类方法，其特征在于：所述步骤三中将高光谱图像数据集X和相对应的标签向量数据集Y输入到建立的基于双分支多层次特征密集融合的轻量级卷积神经网络BMDF-LCNN中，采用Momentum算法进行迭代优化，得到最优网络BMDF-LCNN。