CN117372789A

CN117372789A - 图像分类方法及图像分类装置

Info

Publication number: CN117372789A
Application number: CN202311670436.7A
Authority: CN
Inventors: 李梦薇; 苏芝娟; 卜冬冬; 吴日红; 谢珠利
Original assignee: Beijing Guanwei Technology Co ltd
Current assignee: Beijing Guanwei Technology Co ltd
Priority date: 2023-12-07
Filing date: 2023-12-07
Publication date: 2024-01-09
Anticipated expiration: 2043-12-07
Also published as: CN117372789B

Abstract

本发明提供一种图像分类方法及图像分类装置，涉及图像数据处理技术领域，其中，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，该方法包括：采用第一三维卷积层、第二三维卷积层和第一残差块，对遥感图像的图像块进行光谱特征处理，得到遥感图像对应的光谱特征图；采用第三三维卷积层和第二残差块，对遥感图像的图像块进行空间特征处理，得到遥感图像对应的空间特征图；根据光谱特征图和空间特征图，对遥感图像进行分类，得到空谱联合分类结果。采用光谱卷积神经网络和空间卷积神经网络，能够有效且准确地提取遥感图像的光谱特征和空间特征，进而得到准确性较高的分类结果。

Description

图像分类方法及图像分类装置

技术领域

本发明涉及图像数据处理技术领域，尤其涉及一种图像分类方法及图像分类装置。

背景技术

高光谱图像可以同时记录观测对象/识别目标的光谱信息和空间信息。同时，高光谱图像具有高成像光谱分辨率和快速无损检测的特点。因此，高光谱图像被广泛应用于许多领域，如作物分类和产量估算、矿产资源勘探、城市土地规划、海洋监测、防火和灾后评估等。高光谱图像的分类是分析高光谱图像的关键步骤，指的是识别高光谱图像中每个像素的类别，具有重要的研究价值。为了提高高光谱图像分类精度，过去已经开展了许多研究，主要包括基于传统机器学习的图像识别方法和基于深度学习的图像识别方法。

其中，传统机器学习的图像识别方法中，通常从高光谱图像中提取固定的模式特征，提取过程依赖于先验知识和适当的参数设置，这些局限性严重影响了所提取特征的鲁棒性和识别性，使得在复杂场景中难以获得满意且准确的分类结果。基于深度学习的图像识别方法通常使用一维向量作为输入，只考虑高光谱图像中像素的光谱信息。虽然高光谱图像的光谱分辨率很高，但“同物异谱”和“同谱异物”现象的存在，导致最终确定的分类结果也不够准确。

发明内容

本发明提供一种图像分类方法及图像分类装置，用以解决现有的图像分类方法导致最终确定的分类结果不够准确的缺陷，采用光谱卷积神经网络和空间卷积神经网络各自的三维卷积层和残差块，能够有效且准确地提取遥感图像的光谱特征和空间特征，进而结合该光谱特征和该空间特征，得到准确性较高的空谱联合分类结果。

本发明提供一种图像分类方法，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，所述方法包括：

采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；

采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图；

根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果。

根据本发明提供的一种图像分类方法，所述采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图，包括：采用所述第一三维卷积层，对所述遥感图像的光谱维度进行降维处理，得到第一特征图；采用所述第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第二特征图；根据所述第一特征图和所述第二特征图，确定目标特征图；采用所述第二三维卷积层，对所述目标特征图的图像块进行光谱特征提取，得到所述光谱特征图。

根据本发明提供的一种图像分类方法，所述根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果，包括：对所述光谱特征图进行光谱信息增强，得到目标光谱特征图，并对所述空间特征图进行空间信息增强，得到目标空间特征图；将所述目标光谱特征图和所述目标空间特征图进行融合，得到目标融合特征图；对所述目标融合特征图进行分类，得到所述空谱联合分类结果。

根据本发明提供的一种图像分类方法，所述第一残差块包括第四三维卷积层、批量归一化层和修正线性单元激活函数；所述采用所述第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第二特征图，包括：采用所述第四三维卷积层，对所述第一特征图的图像块进行光谱特征提取，得到第一子特征图；采用所述批量归一化层，对所述第一子特征图进行归一化处理，得到第二子特征图；采用所述修正线性单元激活函数，对所述第二子特征图进行非线性变换，得到所述第二特征图。

根据本发明提供的一种图像分类方法，在所述第一残差块的数量为多个的情况下，多个所述第一残差块级联；所述采用所述第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第二特征图，包括：采用首个第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第五特征图；针对其它第一残差块均执行以下操作：将前一第一残差块输出的第五特征图作为其它第一残差块的输入，并得到所述其它第一残差块输出的第六特征图；将最后一个第一残差块输出的第六特征图，确定为所述第二特征图。

根据本发明提供的一种图像分类方法，所述采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图，包括：采用所述第三三维卷积层，对所述遥感图像的空间维度进行降维处理，得到第三特征图；采用所述第二残差块，对所述第三特征图的图像块进行空间特征提取，得到第四特征图；根据所述第三特征图和所述第四特征图，确定得到所述空间特征图。

根据本发明提供的一种图像分类方法，所述对所述光谱特征图进行光谱信息增强，得到目标光谱特征图，并对所述空间特征图进行空间信息增强，得到目标空间特征图，包括：采用全局多尺度注意力网络，将所述光谱特征图和所述空间特征图进行融合，得到第一融合特征图；采用多尺度注意力模块，对所述第一融合特征图进行条状池化操作和卷积操作，得到第二融合特征图；根据所述光谱特征图、所述第一融合特征图和所述第二融合特征图，确定所述目标光谱特征图；根据所述空间特征图、所述第一融合特征图和所述第二融合特征图，确定所述目标空间特征图。

根据本发明提供的一种图像分类方法，所述将所述目标光谱特征图和所述目标空间特征图进行融合，得到目标融合特征图，包括：采用自适应特征融合网络，将所述目标光谱特征图和所述目标空间特征图进行拼接，得到第一拼接特征图；对所述第一拼接特征图进行全局平均池化操作，得到第一池化特征图，并将所述第一拼接特征图进行全局最大池化操作，得到第二池化特征图；将所述第一池化特征图和所述第二池化特征图进行拼接，得到第二拼接特征图；根据所述第一拼接特征图和所述第二拼接特征图，确定所述目标融合特征图。

根据本发明提供的一种图像分类方法，所述对所述目标融合特征图进行分类，得到所述空谱联合分类结果，包括：确定所述目标融合特征图对应的标记序列；采用编码器中分离的空谱联合自注意力网络，对所述标记序列进行线性变换和全局平均池化操作，得到上下文向量编码特征图；采用所述编码器中的门控前馈网络，对所述上下文向量编码特征图进行线性变换，得到目标编码特征图；采用多层感知器网络，对所述目标编码特征图进行分类，得到所述空谱联合分类结果。

本发明还提供一种图像分类装置，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，所述装置包括：

特征处理模块，用于采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图；

图像分类模块，用于根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像分类方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像分类方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像分类方法。

本发明提供的图像分类方法及图像分类装置，该方法中，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，该方法通过采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图；根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果。该方法采用光谱卷积神经网络和空间卷积神经网络各自的三维卷积层和残差块，能够有效且准确地提取遥感图像的光谱特征和空间特征，进而结合该光谱特征和该空间特征，得到准确性较高的空谱联合分类结果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像分类方法的流程示意图；

图2a是本发明提供的确定光谱特征图的场景示意图；

图2b是本发明提供的确定空间特征图的场景示意图；

图2c是本发明提供的确定目标光谱特征图和目标光谱特征图的场景示意图；

图2d是本发明提供的确定第一融合特征图的场景示意图；

图2e是本发明提供的确定目标融合特征图的场景示意图；

图2f是本发明提供的确定上下文向量编码特征图的场景示意图；

图2g是本发明提供的确定目标编码特征图的场景示意图；

图3是本发明提供的图像分类方法的场景示意图；

图4是本发明提供的图像分类装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为更好地理解本发明实施例，首先对背景技术进行详细阐述：

现有技术中，传统机器学习的图像识别方法可以包括：k-近邻、随机森林和支持向量机等。

基于深度学习的图像识别方法可以包括：堆叠自动编码器、深度信念网络和循环神经网络等。

综上，上述这些图像识别方法都因具有各自的局限性，导致最终获取的高光谱图像对应的分类结果是不够准确的。

为解决上述技术问题，本发明实施例提供一种图像分类方法，通过光谱卷积神经网络和空间卷积神经网络各自的三维卷积层和残差块，分别提取遥感图像的光谱特征和空间特征，进而得到准确性较高的空谱联合分类结果。

需要说明的是，本发明实施例涉及的执行主体可以是图像分类装置，也可以是电子设备，可选的，该电子设备可以包括：计算机、移动终端及可穿戴设备等。

下面以电子设备为例对本发明实施例进行进一步地说明。

如图1所示，是本发明提供的图像分类方法的流程示意图，光谱卷积神经网络可以包括：第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络可以包括：第三三维卷积层和第二残差块；该方法可以包括：

101、采用第一三维卷积层、第二三维卷积层和第一残差块，对遥感图像的图像块进行光谱特征处理，得到遥感图像对应的光谱特征图。

其中，遥感图像为具备光谱特征和空间特征的信息载体。可选的，该遥感图像为高光谱图像。

光谱特征指的是遥感图像在各个波段上的光谱信息，用于获取该遥感图像中的不同识别目标。

三维卷积层用于提取遥感图像中的光谱特征和空间特征。其中，第一三维卷积层、第二三维卷积层均用于提取遥感图像中的光谱特征。

残差块用于增强光谱卷积神经网络和空间卷积神经网络的表达能力，能够有效地避免了梯度消失和爆炸，并解决了卷积神经网络的退化问题。其中，第一残差块用于增强光谱卷积神经网络的表达能力。

可选的，第一三维卷积层、第二三维卷积层和第一残差块的数量不限。

电子设备在获取遥感图像之后，可先采用主成分分析算法，减少该遥感图像的通道数量（如从c减少到b，c＞b＞0），并以每个像素为中心提取图像块，其中，每个图像块的真实标签为中心像素的标签，所有图像块为固定大小的高光谱图像立方体；该电子设备再将该遥感图像的图像块输入至光谱卷积神经网络中，通过该光谱卷积神经网络采用第一三维卷积层、第二三维卷积层和第一残差块，对该遥感图像的图像块进行光谱特征处理，得到准确性较高的局部光谱信息，即光谱特征图，为后续的图像分类提供有力的数据支持。

其中，主成分分析算法是一种广泛使用的数据降维算法，也是一种无监督学习方法，利用正交变换把线性相关变量表示的观测数据（如遥感图像）转换为几个由线性无关变量表示的数据，线性无关的变量成为主成分。主成分的个数（如遥感图像的通道数量）通常小于原始变量的个数，属于降维方法。

在一些实施例中，电子设备采用第一三维卷积层、第二三维卷积层和第一残差块，对遥感图像的图像块进行光谱特征处理，得到遥感图像对应的光谱特征图，可以包括：电子设备采用第一三维卷积层，对遥感图像的光谱维度进行降维处理，得到第一特征图；该电子设备采用第一残差块，对第一特征图的图像块进行光谱特征提取，得到第二特征图；该电子设备根据第一特征图和第二特征图，确定目标特征图；该电子设备采用第二三维卷积层，对目标特征图的图像块进行光谱特征提取，得到光谱特征图。

电子设备在采用光谱卷积神经网络对遥感图像的图像块进行光谱特征处理的过程中，通过光谱卷积神经网络，先采用第一三维卷积层，对遥感图像的光谱维度进行降维处理，简化该遥感图像的光谱复杂性，提高该遥感图像的压缩、解析和分析能力，以得到准确性较高的第一特征图；再采用第一残差块，对第一特征图的图像块进行光谱特征提取，得到第二特征图；然后，将该第一特征图与该第二特征图相加，得到目标特征图；最后，采用第二三维卷积层，对该目标特征图的图像块进行光谱特征提取，得到准确性较高的光谱特征图。

在一些实施例中，第一残差块包括第四三维卷积层、批量归一化层和修正线性单元激活函数；电子设备采用第一残差块，对第一特征图的图像块进行光谱特征提取，得到第二特征图，可以包括：电子设备采用第四三维卷积层，对第一特征图的图像块进行光谱特征提取，得到第一子特征图；该电子设备采用批量归一化层，对第一子特征图进行归一化处理，得到第二子特征图；该电子设备采用修正线性单元激活函数，对第二子特征图进行非线性变换，得到第二特征图。

可选的，第四三维卷积层的数量不限。

电子设备在采用第一残差块确定第二特征图的过程中，可先采用第四三维卷积层，对第一特征图的图像块进行光谱特征提取，得到准确性较高的第一子特征图；再采用批量归一化层，对该第一子特征图进行归一化处理，将该第一子特征图的分布进行规范化，得到第二子特征图；进而采用修正线性单元激活函数，对该第二子特征图进行非线性变换，使得第一残差块具有更强的表达能力和更好的泛化性能，得到准确性较高的第二特征图。

在一些实施例中，在第一残差块的数量为多个的情况下，多个第一残差块级联；电子设备采用第一残差块，对第一特征图的图像块进行光谱特征提取，得到第二特征图，可以包括：电子设备采用首个第一残差块，对第一特征图的图像块进行光谱特征提取，得到第五特征图；针对其它第一残差块均执行以下操作：该电子设备将前一第一残差块输出的第五特征图作为其它第一残差块的输入，并得到其它第一残差块输出的第六特征图；该电子设备将最后一个第一残差块输出的第六特征图，确定为第二特征图。

电子设备在采用多个级联的第一残差块确定第二特征图的过程中，可先采用首个第一残差块，对第一特征图的图像块进行光谱特征提取，得到准确性较高的第五特征图；针对多个第一残差块中除该首个第一残差块以外的其它第一残差块，该电子设备可先确定其它第一残差块的前一第一残差块，再将该前一第一残差块输出的第五特征图作为该其它第一残差块的输入，并得到该其它第一残差块输出的第六特征图；接着，该电子设备确定最后一个残差块输出的第六特征图，并将该最后一个第一残差块输出的第六特征图，确定为该遥感图像对应的第二特征图。

示例性的，如图2a所示，是本发明提供的确定光谱特征图的场景示意图。图2a中，光谱卷积神经网络可以包括：一个第一三维卷积层、一个第二三维卷积层和三个第一残差块；各第一残差块可以包括：两个第四三维卷积层、一个批量归一化层和一个修正线性单元激活函数。

其中，第一三维卷积层为核大小为1×1×7，步长为2的三维卷积。

第二三维卷积层为核大小为1×1×（b−7）/2 + 1的三维卷积。

各第四三维卷积层为核大小为1×1×7的三维卷积。

从图2a中可以看出，电子设备在确定遥感图像的图像块之后，可将该图像块输入至光谱卷积神经网络中，通过该光谱卷积神经网络对该图像块进行光谱特征处理，得到准确性较高的光谱特征图。

102、采用第三三维卷积层和第二残差块，对遥感图像的图像块进行空间特征处理，得到空间特征图。

其中，空间特征指的是遥感图像上表现出的空间位置、距离、形态、大小、纹理等信息，用于获取该遥感图像中的不同识别目标。

其中，第三三维卷积层用于提取遥感图像中的空间特征。

第二残差块用于增强空间卷积神经网络的表达能力。

可选的，第三三维卷积层和第二残差块的数量不限。

电子设备在获取遥感图像的图像块之后，可将该遥感图像的图像块输入至空间卷积神经网络中，通过该空间卷积神经网络采用第三三维卷积层和第二残差块，对该遥感图像的图像块进行空间特征处理，得到准确性较高的局部空间信息，即空间特征图，为后续的图像分类提供有力的数据支持。

需要说明的是，第二残差块的结构与上述第一残差块的结构相似，此处不作具体赘述。

在一些实施例中，电子设备采用第三三维卷积层和第二残差块，对遥感图像的图像块进行空间特征处理，得到空间特征图，可以包括：电子设备采用第三三维卷积层，对遥感图像的空间维度进行降维处理，得到第三特征图；该电子设备采用第二残差块，对第三特征图的图像块进行空间特征提取，得到第四特征图；该电子设备根据第三特征图和第四特征图，确定空间特征图。

电子设备在采用空间卷积神经网络对遥感图像的图像块进行空间特征处理的过程中，通过空间卷积神经网络，先采用第三三维卷积层，对遥感图像的空间维度进行降维处理，简化该遥感图像的空间复杂性，提高该遥感图像的压缩、解析和分析能力，以得到准确性较高的第三特征图；再采用第二残差块，对第三特征图的图像块进行空间特征提取，得到第四特征图；最后，将该第三特征和该第二特征图相加，得到准确性较高的空间特征图。

可选的，第一残差块包括第五三维卷积层、批量归一化层和修正线性单元激活函数；电子设备采用第二残差块，对第三特征图的图像块进行空间特征提取，得到第四特征图，可以包括：电子设备采用第五三维卷积层，对第三特征图的图像块进行空间特征提取，得到第三子特征图；该电子设备采用批量归一化层，对第三子特征图进行归一化处理，得到第四子特征图；该电子设备采用修正线性单元激活函数，对第四子特征图进行非线性变换，得到第四特征图。

可选的，第五三维卷积层的数量不限。

电子设备在采用第二残差块确定第四特征图的过程中，可先采用第五三维卷积层，对第三特征图的图像块进行空间特征提取，得到准确性较高的第三子特征图；再采用批量归一化层，对该第三子特征图进行归一化处理，将该第三子特征图的分布进行规范化，得到第四子特征图；进而采用修正线性单元激活函数，对该第四子特征图进行非线性变换，使得第二残差块具有更强的表达能力和更好的泛化性能，得到准确性较高的第四特征图。

可选的，在第二残差块的数量为多个的情况下，多个第二残差块级联；电子设备采用第二残差块，对第三特征图的图像块进行空间特征提取，得到空间特征图，可以包括：电子设备采用首个第二残差块，对第三特征图的图像块进行空间特征提取，得到第七特征图；针对其它第二残差块均执行以下操作：该电子设备将前一第二残差块输出的第七特征图作为其它第二残差块的输入，并得到其它第二残差块输出的第八特征图；该电子设备将最后一个第二残差块输出的第八特征图，确定为空间特征图。

电子设备在采用多个级联的第二残差块确定第二特征图的过程中，可先采用首个第二残差块，对第三特征图的图像块进行空间特征提取，得到准确性较高的第七特征图；针对多个第二残差块中除该首个第二残差块以外的其它第二残差块，该电子设备可先确定其它第二残差块的前一第二残差块，再将该前一第二残差块输出的第七特征图作为该其它第二残差块的输入，并得到该其它第二残差块输出的第八特征图；接着，该电子设备确定最后一个残差块输出的第八特征图，并将该最后一个第二残差块输出的第八特征图，确定为该遥感图像对应的空间特征图。

示例性的，如图2b所示，是本发明提供的确定空间特征图的场景示意图。图2b中，空间卷积神经网络可以包括：一个第三三维卷积层和三个第二残差块；各第二残差块可以包括：两个第五三维卷积层、一个批量归一化层和一个修正线性单元激活函数。

其中，第三三维卷积层为核大小为1×1×b的三维卷积。

各第五三维卷积层为核大小为3×3×1的三维卷积。

从图2b中可以看出，电子设备在确定遥感图像的图像块之后，可将该图像块输入至空间卷积神经网络中，通过该空间卷积神经网络对该图像块进行空间特征处理，得到准确性较高的空间特征图。

需要说明的是，电子设备确定光谱特征图与该电子设备确定空间特征图的时序不限。

103、根据光谱特征图和空间特征图，对遥感图像进行分类，得到空谱联合分类结果。

其中，空谱联合分类结果用于表征遥感图像中识别目标的类型。

可选的，该识别目标的类型可以包括：土地利用类型（如农业、林业、牧业、渔业、工矿、城市等）、水体（如海洋、湖泊、河流、水库、池塘等）、建筑物（如房屋、桥梁、工厂等）及交通设施（如汽车、火车、公路、铁路等）等。

在一些实施例中，电子设备根据光谱特征图和空间特征图，对遥感图像进行分类，得到空谱联合分类结果，可以包括：电子设备对光谱特征图进行光谱信息增强，得到目标光谱特征图，并对空间特征图进行空间信息增强，得到目标空间特征图；该电子设备将目标光谱特征图和目标空间特征图进行融合，得到目标融合特征图；该电子设备对目标融合特征图进行分类，得到空谱联合分类结果。

电子设备在确定光谱特征图和空间特征图之后，可将该光谱特征图进行光谱信息增强，提高该光谱特征图的质量和分类性能，得到准确性较高的目标光谱特征图，并将该空间特征图进行空间信息增强，提高该空间特征图的质量和分类性能，得到准确性较高的目标空间特征图；再充分利用光谱特征和空间特征的信息，将该目标光谱特征图和该目标空间特征图进行融合，得到目标融合特征图，进而对该目标融合特征图进行分类，得到空谱联合分类结果，以实现遥感图像的自动识别和分类。

需要说明的是，电子设备确定目标光谱特征图与该电子设备确定目标空间特征图的时序不限。

在一些实施例中，电子设备对光谱特征图进行光谱信息增强，得到目标光谱特征图，并对空间特征图进行空间信息增强，得到目标空间特征图，可以包括：电子设备采用全局多尺度注意力网络，将光谱特征图和空间特征图进行融合，得到第一融合特征图；该电子设备采用多尺度注意力模块，对第一融合特征图进行条状池化操作和卷积操作，得到第二融合特征图；该电子设备根据光谱特征图、第一融合特征图和第二融合特征图，确定目标光谱特征图；该电子设备根据空间特征图、第一融合特征图和第二融合特征图，确定目标空间特征图。

其中，全局多尺度注意力网络能够突出重要信息，抑制不重要信息，提高了光谱特征和空间特征的表示能力。

示例性的，如图2c所示，是本发明提供的确定目标光谱特征图和目标光谱特征图的场景示意图。从图2c中可以看出，电子设备先采用全局多尺度注意力网络，将光谱特征图和空间特征图进行融合（如相加），得到一个包含两者信息的融合特征图，即第一融合特征图；为提高光谱特征和空间特征的表示能力，采用多尺度注意力模块，对第一融合特征图进行条状池化操作和卷积操作，以从该第一融合特征图中提取出不同尺度的特征信息，并进行优化和整合，得到第二融合特征图；接着，该电子设备将该第一融合特征图和该第二融合特征图相加，得到第三融合特征图；将该第三融合特征图和该光谱特征图相加，得到目标光谱特征图，并将该第三融合特征图和该空间特征图相加，得到目标空间特征图。

可选的，如图2d所示，是本发明提供的确定第一融合特征图的场景示意图。从图2d中可以看出，第一融合特征图为h×w×c的图像，h表示图像的高度，w表示图像的宽度，c表示图像的通道数量。电子设备在采用多尺度注意力模块，对第一融合特征图进行条状池化操作和卷积操作，得到第二融合特征图的过程中，可在获取第一融合特征图之后，将该第一融合特征图输入至该多尺度注意力模块，通过该多尺度注意力模块对该第一融合特征图进行池化操作，包括水平最大池化、水平平均池化、竖直最大池化和竖直平均池化等，得到四个池化结果，并对该第一融合特征图进行三次3×3的空洞卷积，得到三个卷积结果。

该电子设备再将水平最大池化对应的池化结果和水平平均池化对应的池化结果相加，得到第一相加结果；并将竖直最大池化对应的池化结果和竖直平均池化对应的池化结果相加，得到第二相加结果；再将该第一相加结果和该第二相加结果拼接，得到第一拼接结果，同时，将上述三个卷积结果拼接，得到第二拼接结果。

该电子设备采用1×1的卷积和激活函数(ReLU)，对该第一拼接结果进行处理，得到1×(h+w)×c的拼接图；再对该拼接图进行分割后，采用1×1的卷积和激活函数(Sigmoid)处理，得到1×h×c的第一分割图以及1×w×c的第二分割图。

最后，该电子设备将该第一分割图、该第二分割图和该第二拼接结果相乘，得到的相乘结果即为第二融合特征图。

结合图2c和图2d，在确定目标光谱特征图和目标光谱特征图的过程中，可以通过将光谱特征图和空间特征图相加来获得全局特征图。通过与注意力权重相乘，可以利用全局特征图来捕获通道相关性和位置信息，从而有效地突出有用信息，削弱无用信息。为了产生注意力权重，设计了多尺度注意力模块，用两种条状池化操作取代了传统通道注意力模块中使用的全局池化，从而嵌入了位置信息。此外，为了提高对关键信息的敏感性，还引入了多尺度信息，通过全局多尺度注意力网络的处理，得到了更具鉴别力的目标光谱特征图和目标空间特征图。

在一些实施例中，电子设备将目标光谱特征图和目标空间特征图进行融合，得到目标融合特征图，可以包括：电子设备采用自适应特征融合网络，将目标光谱特征图和目标空间特征图进行拼接，得到第一拼接特征图；该电子设备对第一拼接特征图进行全局平均池化操作，得到第一池化特征图，并将第一拼接特征图进行全局最大池化操作，得到第二池化特征图；该电子设备将第一池化特征图和第二池化特征图进行拼接，得到第二拼接特征图；该电子设备根据第一拼接特征图和第二拼接特征图，确定目标融合特征图。

其中，自适应特征融合网络能够有效获取光谱特征和空间特征在分类任务中的重要性。

全局平均池化操作是将第一拼接特征图中所有像素值求平均，得到一个数值，组成一维向量。

全局最大池化操作是在第一拼接特征图上选取最大的像素值作为该第一拼接特征图的代表值，同样也会生成一维向量。

无论是全局平均池化操作，还是全局最大池化操作，都能够大大减少特征维度，避免过拟合，同时也增强了自适应特征融合网络的鲁棒性。

示例性的，如图2e所示，是本发明提供的确定目标融合特征图的场景示意图。从图2e中可以看出，电子设备在获取目标光谱特征图和目标空间特征图之后，可将该目标光谱特征图和目标空间特征图输入至自适应特征融合网络中，通过该自适应特征融合网络，先将该目标光谱特征图和该目标空间特征图进行拼接，得到第一拼接特征图；再对该第一拼接特征图分别执行全局平均池化操作和全局最大池化操作，得到第一池化特征图和第二池化特征图；接着，将该第一池化特征图和该第二池化特征图进行拼接，得到第二拼接特征图，并对该第二特征图进行核为2×1的卷积操作，得到第一图像，再对该第一图像进行核为1×1的卷积操作和采用激活函数（如Sigmoid函数）进行非线性变换，得到第二图像；接着，将该第二图像和该第一拼接特征图相乘，得到第三拼接特征图，并将该第三拼接特征图和该第二拼接特征图进行拼接，得到目标融合特征图。

需要说明的是，电子设备确定第一池化特征图和该电子设备确定第二池化特征图的时序不限。

在一些实施例中，电子设备对目标融合特征图进行分类，得到空谱联合分类结果，可以包括：电子设备确定目标融合特征图对应的标记序列；该电子设备采用编码器中分离的空谱联合自注意力网络，对标记序列进行线性变换和全局平均池化操作，得到上下文向量编码特征图；该电子设备采用编码器中的门控前馈网络，对上下文向量编码特征图进行线性变换，得到目标编码特征图；该电子设备采用多层感知器网络，对目标编码特征图进行分类，得到空谱联合分类结果。

其中，编码器是一种将信号或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。可选的，该编码器为轻量级Transformer编码器，该轻量级Transformer编码器可以包括多个轻量Transformer块，各轻量Transformer块包括一个分离的空谱联合自注意力网络和一个门控前馈网络。

分离的空谱联合自注意力网络可以替代轻量级Transformer编码器中的多头自注意力模块，将该轻量级Transformer编码器的时间复杂度从二次方复杂度降低为线性复杂度，大幅度提高了计算效率。此外，该分离的空谱联合自注意力网络还具有光谱感知性。

线性变换用于将一个空间下的向量转换到另一个空间下的向量。

门控前馈网络中引入了门控机制，该门控机制有助于提高该门控前馈网络的表达能力和学习能力，从而进一步传播有用的信息。

多层感知器网络主要用于解决分类和回归问题，通过使用非线性激活函数，能够学习并建模复杂的输入输出映射关系。

以轻量级Transformer编码器为例，为了适应轻量级Transformer编码器的输入要求，将自适应特征融合模块输出的目标融合特征图展平为一个标记序列；然后，在该标记序列的开始处添加一个可学习的分类标记，用于完成最终的分类任务。此外，为了保留位置信息，为每个分类标记附加位置嵌入；接着，将该标记序列送入轻量级Transformer编码器。

如图2f所示，是本发明提供的确定上下文向量编码特征图的场景示意图。从图2f中可以看出，电子设备采用该轻量级Transformer编码器中的分离的空谱联合自注意力网络，对该标记序列进行线性变换和全局平均池化操作，得到上下文向量编码特征图。具体的，采用分离的空谱联合自注意力网络对应的四个分支处理该标记序列，得到输入I、输出键K、输出值V和光谱S。输入分支使用线性层，将输入的标记序列中每个标记转换为一个标量，线性层的权重会被视为一个潜在标记。其中，线性映射是一个内积运算，用于计算潜在标记与标记序列中每个标记之间的相似性，从而生成一个n维向量，n＞0；再将softmax操作应用于n维向量，生成上下文分数，该上下文分数用于计算上下文向量。具体来说，键分支使用线性层，对输入的标记序列进行线性投影，生成输出键K。通过计算输出键K的加权和，得到上下文向量。进一步地，值分支使用线性层，对输入的标记序列进行线性投影，再通过修正线性单元激活，生成输出值V。然后，上下文向量中的全局上下文信息通过逐元素相乘传播到输出值V。此外，为了捕获光谱-空间相关性，可以通过在光谱分支中的全局池化操作，获得光谱特征S，再将该光谱特征S输入另一个线性层，得到最终输出的上下文向量编码特征图。

如图2g所示，是本发明提供的确定目标编码特征图的场景示意图。从图2g中可以看出，门控前馈网络有两条路径，每条路径都包含一个线性变换层，其中一条路径被高斯误差线性单元（Gaussian Error Linear Unit，GELU）函数激活。然后，将上下文向量编码特征图分别输入至这两条路径各自包含的线性变换层，以对这两条路径的输出执行元素级乘法，进而应用另一个线性层，得到最终的输出，即，得到目标编码特征图。

在本发明实施例中，采用第一三维卷积层、第二三维卷积层和第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；采用第三三维卷积层和第二残差块，对遥感图像的图像块进行空间特征处理，得到空间特征图；根据光谱特征图和空间特征图，对遥感图像进行分类，得到空谱联合分类结果。该方法采用光谱卷积神经网络和空间卷积神经网络各自的三维卷积层和残差块，能够有效且准确地提取遥感图像的光谱特征和空间特征，进而结合该光谱特征和该空间特征，得到准确性较高的空谱联合分类结果。

为进一步地理解本发明实施例，下面对进行详细阐述：

如图3所示，是本发明提供的图像分类方法的场景示意图。从图3中可以看出，电子设备在获取遥感图像的图像块之后，可将该图像块分别输入至光谱卷积神经网络和空间卷积神经网络，提取浅层空间-光谱特征，得到该光谱卷积神经网络输出的光谱特征图，并得到该空间卷积神经网络输出的空间特征图；再将该光谱特征图和该空间特征图同时输入至全局多尺度注意力网络，提高该浅层空间-光谱特征的表示能力，得到目标光谱特征图和目标空间特征图；接着，将该目标光谱特征图和该目标空间特征图输入至自适应特征融合网络，提取该浅层空间-光谱特征的重要性，得到对应的目标融合特征图；然后，将该目标融合特征图进行展平并输入至轻量级Transformer编码器，以捕获语义特征，得到目标编码特征图；最后，将该目标编码特征图输入至多层感知器网络，得到该遥感图像对应的空谱联合分类结果，该空谱联合分类结果的准确性也较高。

下面对本发明提供的图像分类装置进行描述，下文描述的图像分类装置与上文描述的图像分类方法可相互对应参照。

如图4所示，是本发明提供的图像分类装置的结构示意图，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，该装置包括：

特征处理模块401，用于采用该第一三维卷积层、该第二三维卷积层和该第一残差块，对遥感图像的图像块进行光谱特征处理，得到该遥感图像对应的光谱特征图；采用该第三三维卷积层和该第二残差块，对该遥感图像的图像块进行空间特征处理，得到该遥感图像对应的空间特征图；

图像分类模块402，用于根据该光谱特征图和该空间特征图，对该遥感图像进行分类，得到空谱联合分类结果。

可选的，特征处理模块401，具体用于采用该第一三维卷积层，对该遥感图像的光谱维度进行降维处理，得到第一特征图；采用该第一残差块，对该第一特征图的图像块进行光谱特征提取，得到第二特征图；根据该第一特征图和该第二特征图，确定目标特征图；采用该第二三维卷积层，对该目标特征图的图像块进行光谱特征提取，得到该光谱特征图。

可选的，图像分类模块402，具体用于目标光谱特征图，并对该空间特征图进行空间信息增强，得到目标空间特征图；将该目标光谱特征图和该目标空间特征图进行融合，得到目标融合特征图；对该目标融合特征图进行分类，得到该空谱联合分类结果。

可选的，该第一残差块包括第四三维卷积层、批量归一化层和修正线性单元激活函数；特征处理模块401，具体用于采用该第四三维卷积层，对该第一特征图的图像块进行光谱特征提取，得到第一子特征图；采用该批量归一化层，对该第一子特征图进行归一化处理，得到第二子特征图；采用该修正线性单元激活函数，对该第二子特征图进行非线性变换，得到该第二特征图。

可选的，在该第一残差块的数量为多个的情况下，多个该第一残差块级联；特征处理模块401，具体用于采用首个第一残差块，对该第一特征图的图像块进行光谱特征提取，得到第五特征图；针对其它第一残差块均执行以下操作：将前一第一残差块输出的第五特征图作为其它第一残差块的输入，并得到该其它第一残差块输出的第六特征图；将最后一个第一残差块输出的第六特征图，确定为该第二特征图。

可选的，特征处理模块401，具体用于采用该第三三维卷积层，对该遥感图像的空间维度进行降维处理，得到第三特征图；采用该第二残差块，对该第三特征图的图像块进行空间特征提取，得到第四特征图；根据该第三特征图和该第四特征图，确定得到该空间特征图。

可选的，图像分类模块402，具体用于采用全局多尺度注意力网络，将该光谱特征图和该空间特征图进行融合，得到第一融合特征图；采用多尺度注意力模块，对该第一融合特征图进行条状池化操作和卷积操作，得到第二融合特征图；根据该光谱特征图、该第一融合特征图和该第二融合特征图，确定该目标光谱特征图；根据该空间特征图、该第一融合特征图和该第二融合特征图，确定该目标空间特征图。

可选的，图像分类模块402，具体用于采用自适应特征融合网络，将该目标光谱特征图和该目标空间特征图进行拼接，得到第一拼接特征图；对该第一拼接特征图进行全局平均池化操作，得到第一池化特征图，并将该第一拼接特征图进行全局最大池化操作，得到第二池化特征图；将该第一池化特征图和该第二池化特征图进行拼接，得到第二拼接特征图；根据该第一拼接特征图和该第二拼接特征图，确定该目标融合特征图。

可选的，图像分类模块402，具体用于确定该目标融合特征图对应的标记序列；采用编码器中分离的空谱联合自注意力网络，对该标记序列进行线性变换和全局平均池化操作，得到上下文向量编码特征图；采用该编码器中的门控前馈网络，对该上下文向量编码特征图进行线性变换，得到目标编码特征图；采用多层感知器网络，对该目标编码特征图进行分类，得到该空谱联合分类结果。

如图5所示，是本发明提供的电子设备的结构示意图，该电子设备可以包括：处理器（processor）510、通信接口（Communications Interface）520、存储器（memory）530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行图像分类方法，该方法中，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，该方法包括：采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图；根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像分类方法，该方法中，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，该方法包括：采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图；根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像分类方法，该方法中，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，该方法包括：采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图；采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图；根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像分类方法，其特征在于，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述采用所述第一三维卷积层、所述第二三维卷积层和所述第一残差块，对遥感图像的图像块进行光谱特征处理，得到所述遥感图像对应的光谱特征图，包括：

采用所述第一三维卷积层，对所述遥感图像的光谱维度进行降维处理，得到第一特征图；

采用所述第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第二特征图；

根据所述第一特征图和所述第二特征图，确定目标特征图；

采用所述第二三维卷积层，对所述目标特征图的图像块进行光谱特征提取，得到所述光谱特征图。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述光谱特征图和所述空间特征图，对所述遥感图像进行分类，得到空谱联合分类结果，包括：

对所述光谱特征图进行光谱信息增强，得到目标光谱特征图，并对所述空间特征图进行空间信息增强，得到目标空间特征图；

将所述目标光谱特征图和所述目标空间特征图进行融合，得到目标融合特征图；

对所述目标融合特征图进行分类，得到所述空谱联合分类结果。

4.根据权利要求2所述的方法，其特征在于，所述第一残差块包括第四三维卷积层、批量归一化层和修正线性单元激活函数；所述采用所述第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第二特征图，包括：

采用所述第四三维卷积层，对所述第一特征图的图像块进行光谱特征提取，得到第一子特征图；

采用所述批量归一化层，对所述第一子特征图进行归一化处理，得到第二子特征图；

采用所述修正线性单元激活函数，对所述第二子特征图进行非线性变换，得到所述第二特征图。

5.根据权利要求2所述的方法，其特征在于，在所述第一残差块的数量为多个的情况下，多个所述第一残差块级联；所述采用所述第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第二特征图，包括：

采用首个第一残差块，对所述第一特征图的图像块进行光谱特征提取，得到第五特征图；

针对其它第一残差块均执行以下操作：

将前一第一残差块输出的第五特征图作为其它第一残差块的输入，并得到所述其它第一残差块输出的第六特征图；

将最后一个第一残差块输出的第六特征图，确定为所述第二特征图。

6.根据权利要求1或2所述的方法，其特征在于，所述采用所述第三三维卷积层和所述第二残差块，对所述遥感图像的图像块进行空间特征处理，得到所述遥感图像对应的空间特征图，包括：

采用所述第三三维卷积层，对所述遥感图像的空间维度进行降维处理，得到第三特征图；

采用所述第二残差块，对所述第三特征图的图像块进行空间特征提取，得到第四特征图；

根据所述第三特征图和所述第四特征图，确定得到所述空间特征图。

7.根据权利要求3所述的方法，其特征在于，所述对所述光谱特征图进行光谱信息增强，得到目标光谱特征图，并对所述空间特征图进行空间信息增强，得到目标空间特征图，包括：

采用全局多尺度注意力网络，将所述光谱特征图和所述空间特征图进行融合，得到第一融合特征图；

采用多尺度注意力模块，对所述第一融合特征图进行条状池化操作和卷积操作，得到第二融合特征图；

根据所述光谱特征图、所述第一融合特征图和所述第二融合特征图，确定所述目标光谱特征图；

根据所述空间特征图、所述第一融合特征图和所述第二融合特征图，确定所述目标空间特征图。

8.根据权利要求3所述的方法，其特征在于，所述将所述目标光谱特征图和所述目标空间特征图进行融合，得到目标融合特征图，包括：

采用自适应特征融合网络，将所述目标光谱特征图和所述目标空间特征图进行拼接，得到第一拼接特征图；

对所述第一拼接特征图进行全局平均池化操作，得到第一池化特征图，并将所述第一拼接特征图进行全局最大池化操作，得到第二池化特征图；

将所述第一池化特征图和所述第二池化特征图进行拼接，得到第二拼接特征图；

根据所述第一拼接特征图和所述第二拼接特征图，确定所述目标融合特征图。

9.根据权利要求3所述的方法，其特征在于，所述对所述目标融合特征图进行分类，得到所述空谱联合分类结果，包括：

确定所述目标融合特征图对应的标记序列；

采用编码器中分离的空谱联合自注意力网络，对所述标记序列进行线性变换和全局平均池化操作，得到上下文向量编码特征图；

采用所述编码器中的门控前馈网络，对所述上下文向量编码特征图进行线性变换，得到目标编码特征图；

采用多层感知器网络，对所述目标编码特征图进行分类，得到所述空谱联合分类结果。

10.一种图像分类装置，其特征在于，光谱卷积神经网络包括第一三维卷积层、第二三维卷积层和第一残差块，空间卷积神经网络包括第三三维卷积层和第二残差块，所述装置包括：