CN113469094A

CN113469094A - 一种基于多模态遥感数据深度融合的地表覆盖分类方法

Info

Publication number: CN113469094A
Application number: CN202110787839.4A
Authority: CN
Inventors: 曹金; 文枚金; 杨庆楠; 苏含坤
Original assignee: Shanghai Zhongkechen New Satellite Technology Co ltd
Current assignee: Shanghai Zhongkechen New Satellite Technology Co ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-10-01
Anticipated expiration: 2041-07-13
Also published as: CN113469094B

Abstract

本发明涉及一种基于多模态遥感数据深度融合的地表覆盖分类方法，步骤如下：(1)构建基于多模态信息融合的遥感影像语义分割网络；网络包括对地物特征进行提取的编码器、深度特征融合模块、空间金字塔模块以及上采样解码器；深度特征融合模块包括同时融合RGB、DSM和NDVI三种模态信息的ACF3模块和CACF3模块，ACF3模块是基于transformer和卷积的自注意力卷积融合模块，CACF3模块是基于transformer和卷积的跨模态卷积融合模块；(2)对步骤(1)构建的网络进行训练；(3)利用步骤(2)训练好的网络模型对遥感影像地物类别进行预测。本发明的一种基于多模态遥感数据深度融合的地表覆盖分类方法，相较于传统方法，在地表分类任务上精度的提高效果显著，应用前景广阔。

Description

一种基于多模态遥感数据深度融合的地表覆盖分类方法

技术领域

本发明属于遥感技术领域，涉及一种基于多模态遥感数据深度融合的地表覆盖分类方法。

背景技术

地表物体(地物)分类是遥感影像分析应用的重要基础。如今多传感器对地表的连续观测，催生了多尺度、多时相、多方位和多层次地表遥感影像，为精确描述地物提供了更加丰富的数据信息。由于本质上是对同样地物的观测，尽管不同模态信息之间存在着一定的差距，但是多源遥感影像之间，依旧存在信息的互补特性。因此，利用多种遥感信息源来进行地物分类，能够实现比单一模态信息分类更高的精度。

现有的基于深度学习的分类方法多采用像素级融合、特征级融合或决策级融合，这些方法均缺乏对多源遥感影像间潜在互补的信息的挖掘。而对多源遥感影像之间互补以及冗余信息进行有效关联与去冗余，进而获得高层特征共享，需要在特征层面逐级抽取与融合相关特征，以此方能实现高精度的遥感影像分类。

另一方面，在多模态语义分割领域，基于U型结构(UNet)和残差连接进行特征提取及类别预测，基于融合网络(fusenet)进行特征的融合的深度神经网络已被广泛地应用。然而，尽管卷积神经网络(CNN)已经取得了卓越的性能，在进行深度特征融合时，由于卷积操作的局部性，它不能很好地学习全局和长距离的语义信息，不能从全局的尺度对不同模态信息之间的互补性进行提取与利用。目前有许多研究将深度自注意力变换网络(transformer)用到视觉领域，以利用其多头注意力结构进行长期依赖序列建模和转导任务，相对于感受野是邻域一定范围的卷积层，自注意力层的感受野始终是全局。这种显著的特点相比卷积网络，使其能够更好地进行不同维度特征的提取与融合。但是，目前现有的方法均未在深度特征融合的领域进行更多的探索，如紧密连接型变换网(DCST)将transformer作为特征提取器，尝试用其替换经典卷积网络中的编码器结构；如基于U型网络的变换网(TransUNet)将transformer视为高维特征提取模块，对经典编码器提取的特征进一步处理的工作；如基于U型网络的纯注意力变换网(Swin-Unet)仿照U型网络，将整个网络结构均用transformer进行特征提取与类型预测的工作。这些方法将transformer视为特征提取结构，未在特征融合领域对其进行利用。

发明内容

本发明的目的是解决现有技术中存在的上述问题，提供一种基于多模态遥感数据深度融合的地表覆盖分类方法。

本发明首次提出了两种同时基于transformer和卷积的注意力融合模块，自注意力卷积融合模块ACF(Self Attentionand Convolution Fusion Module)和跨模态卷积融合模块CACF(Cross Attentionand Convolution Fusion Module)。两种模块基于卷积主干网络进行特征提取，同时可以十分方便地移植到其他网络中。ACF首先将不同模态的信息映射到同一个序列，再通过自注意力融合模块提取每个通道的融合特征，最后利用通道卷积计算各自的权重并得到相关性较大的通道，以此方式实现不同模态的融合。CACF利用跨模态注意力机制计算两种模态的相互作用，各自的输出经过自注意力进一步处理之后，同样通过通道卷积进行权重计算。

本发明同时基于上述的ACF和CACF提出三种模态同时融合的框架ACF3和CACF3。该结构在ACF和CACF融合RGB(红绿蓝三波段)信息以及DSM(数字地表模型)信息的基础上，进一步考虑其余模态信息。ACF3和CACF3首先需要计算遥感指数NDVI(归一化植被指数)，当作额外的模态信息进行输入，这个指数能反应植被生长状态，植被覆盖度，并消除部分噪声。DSM信息有助于建筑物的识别，而对数据集中大量存在的树木与低级植被则帮助甚小，所以该方法将NDVI指数视为第三模态进行输入。考虑到NDVI和RGB信息图像联系的更为紧密，在进行深度融合时将其用与DSM不同的方式进行融合，即本发明提出的通用融合框架，基于多模态信息融合的遥感影像语义分割网络，可实现同时对RGB、DSM和NDVI三种模态信息的融合。

为达到上述目的，本发明采用的技术方案如下：

一种基于多模态遥感数据深度融合的地表覆盖分类方法，包括如下步骤：

(1)构建基于多模态信息融合的遥感影像语义分割网络；

基于多模态信息融合的遥感影像语义分割网络包括对地物特征进行提取的编码器、深度特征融合模块、空间金字塔模块以及上采样解码器；

编码器分为三个分支，分别为RGB分支、DSM分支和NDVI分支，RGB分支作为主分支，DSM分支和NDVI分支作为从属分支，每个分支都包含四个卷积块，名为特征提取层，随着每个分支中网络的深入，地物特征经过这些卷积块处理之后，可以得到不同的输入特征向量，这些输入特征向量即表示地物特征，对应RGB、DSM和NDVI三个分支，统一用X、Y、Z进行表示；

所述深度特征融合模块包括同时融合RGB、DSM和NDVI三种模态信息的ACF3模块和CACF3模块，ACF3模块是基于transformer(深度自注意力变换网络)和卷积的自注意力卷积融合模块(ACF)，CACF3模块是基于transformer和卷积的跨模态卷积融合模块(CACF)；由于NDVI根据近红外波段和红色波段计算得到，所以当不同分支的信息进入融合模块时，RGB首先直接和NDVI进行融合，再通过注意力机制与DSM信息进行融合；

自注意力卷积融合模块采用自注意力机制，包含一个transformer结构和两个卷积结构(卷积结构位于自注意力卷积融合模块的尾部)，其中的transformer结构由8层自注意力融合模块堆叠而成，每层自注意力融合模块包括两个归一化层LN1和LN2、多层感知器MLP以及核心的自注意力层Attn；自注意力融合公式如下：

其中，j代表自注意力卷积融合模块(ACF)中自注意力融合模块的层数，并取决于堆叠的注意力块的数量，s^j代表经过自注意力层Attn计算后的融合特征，地物特征经过卷积块处理之后，得到不同的输入特征向量，这些向量即表示地物特征，输入特征向量对应RGB、DSM和NDVI三个分支，分别用X、Y、Z表示，XY代表将输入特征向量X和Y直接连接起来，LN1(XY)代表将XY输入到LN1中，Attn(LN1(XY))代表将LN1(XY)的计算结果输入到Attn中，此时得到经过自注意力计算后的融合特征s^j，z^j代表自注意力融合模块处理后的最终结果，LN2(s^j)代表将融合特征s^j输入到LN2中，MLP(LN2(s^j))代表将LN2(s^j)的计算结果输入到MLP中，并得到该自注意力融合模块处理后的最终结果；

经过起到融合作用的相关性计算之后，输出将被分开并恢复到原来的尺寸。在高分辨率遥感影像的语义分割任务中，每一个像素点的信息都是十分重要的。而如果保留全部信息，并进行注意力的计算，那计算复杂度将是序列长度的平方。如果先进行了池化，计算了注意力之后再使用插值恢复尺度，则将损失信息，对结果造成严重的影响。为了解决这个问题，本发明结合了transformer和卷积的优势，在注意力计算之后进一步利用卷积模块提取通道信息。卷积块可以学习使用全局信息来强调信息性通道，抑制不太有用的通道，这有助于AFC3模块有效地利用两个分支的信息性特征。最后，经过加权的通道会直接融合并输入给主分支。

跨模态卷积融合模块同时采用跨模态注意力机制和自注意力机制，包含三个transformer结构和两个卷积结构(卷积结构位于跨模态卷积融合模块的尾部)，一个transformer结构由四层跨模态融合模块堆叠而成，另外两个transformer结构各自由四层自注意力融合模块堆叠而成，每层自注意力融合模块与上述自注意力卷积融合模块中的自注意力融合模块结构相同，而每层跨模态融合模块由两个归一化层LN1和LN2、多层感知器MLP以及核心的跨模态注意力层Attn_rgb和Attn_d组成；跨模态注意力计算公式如下：

其中，Q,K,V分别代表由输入特征图和不同的线性结构计算而来的三个代表不同信息的向量，K^T代表K的转置向量，d_k代表向量K的维度，以对信息尺度进行控制，所有的下标rgb和d说明其计算来源于RGB信息和DSM信息，softmax为已知的激活函数，故跨模态注意力计算公式表示，Q和K计算得到的特征信息通过d_k控制其尺度后，经过激活函数softmax后与V进行计算得到输出，整个公式采用互补模态的信息进行结果的计算，跨模态注意力计算公式说明了跨模态融合模块中对两种模态进行特征融合的方式，Attn_rgb(Q_rgb,K_d,V_d)代表融合了DSM信息的RGB信息，Attn_d(Q_d,K_rgb,V_rgb)代表融合了RGB信息的DSM信息；

上采样解码器由三层卷积块和一个分类器组成，其中每一个卷积块包含一个处理残差连接的卷积层和一个恢复分辨率的上采样卷积层，在每个上采样卷积层中，来自上一层的低分辨率特征图通过双线性插值被上采样到与来自残差连接的特征图相同的分辨率，然后这两股特征图流被逐元相加，最后通过3×3卷积混合并输入给下一层，分类器位于上采样解码器的尾部，分类器是一个输出为类别数的卷积结构，以实现最终的类别预测；

在经过每个分支处理网络的特征提取层之后，输出结果通过自注意力卷积融合模块或跨模态卷积融合模块进行融合，并输出四个值，分别输入至RGB分支、DSM分支和NDVI分支以及作为残差连接输出至解码器，该过程表示为如下两个特征融合公式：

其中，X∈R^{3*H*W}表示对应RGB通道的输入特征向量，Y∈R^{1*H*W}表示对应DSM通道的输入特征向量，Z∈R^{1*H*W}，表示对应NDVI通道的输入特征向量，H和W分别指输入数据的高度和宽度，H*W即图片的尺寸，i代表融合模块所在的层数，ACF表示自注意力卷积融合模块，CACF表示跨模态卷积融合模块，特征融合公式表示自注意力卷积融合模块或跨模态卷积融合模块接收了未融合的RGB特征信息X^i-1、DSM特征信息Y^i-1和NDVI特征信息Z^i-1三种模态输入后，输出融合后的RGB特征信息Xⁱ、DSM特征信息Yⁱ和NDVI特征信息Zⁱ，以及用于解码阶段的残差信息skipⁱ；

整个网络先通过编码器进行特征的提取，即将输入的图片映射到使用向量表示的特征空间，该过程中需要使用本发明提出的深度特征融合模块将不同模态的信息进行融合，在融合的最后阶段，使用空间金字塔模块实现不同尺度的特征融合并输出蕴含丰富特征信息的特征图，整个网络的复原阶段使用上采样解码器将上述特征图进行逐级复原，即将低分辨率空间中语义丰富的视觉特征上采样到原始图片输入分辨率，解码器的最后阶段由一个分类器输出对每一个像素点类别的预测；

(2)对步骤(1)构建的基于多模态信息融合的遥感影像语义分割网络进行训练，得到训练好的模型；

(3)利用步骤(2)训练好的模型对遥感影像地物类别进行预测。

作为优选的技术方案：

如上所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，自注意力融合模块中核心的自注意力层Attn的计算公式为：

其中，Q,K,V代表由输入特征图和不同的线性结构计算而来的三个代表不同信息的向量，K^T代表K的转置向量，d_k代表向量K的维度，以对信息尺度进行控制，softmax为已知的激活函数，Q和K计算得到的特征信息经过激活函数softmax后与V进行计算得到输出。

如上所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，每一个卷积块视其在网络中的位置堆叠不同的深度，RGB分支的四个卷积块分别堆叠3、4、6、3层，DSM分支和NDVI分支的四个卷积块均分别堆叠2、2、2、2层。

如上所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，空间金字塔模块由3层卷积结构组成，在8*8、4*4、2*2大小的不同尺度上汇总信息。经过四个残差网络层和融合模块后，丰富的高层语义信息隐藏在融合后的特征图中。为了增加图像中大尺度物体的检测能力，本发明采用了空间金字塔结构，在上采样前对具有不同粒度的对齐网格进行平均化。解码器是为了将粗略的空间分辨率中语义丰富的视觉特征上采样到输入的高分辨率。

如上所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，对基于多模态信息融合的遥感影像语义分割网络进行训练的过程为：模型先通过何凯明方法进行参数的初始化，解码器加载ResNet系列(即残差网络，为已知概念)训练好的预训练模型，然后模型从数据集中读取部分数据，所读取的数据经过完整模型处理后的输出与已知的真实标签进行比较，此比较过程由交叉熵损失函数计算，该计算结果说明了模型对该数据集的预测能力，然后模型根据交叉熵损失函数的计算值进行参数更新，并且重复训练过程(指除参数初始化和预训练模型加载之外的整个训练过程，一开始需要参数初始化和预训练模型加载这两个步骤给模型初始参数，但是经过了第一次数据之后，模型参数进行了更新，后续循环其他步骤，以读取所有数据，并对模型进行参数更新)，观察交叉熵损失函数的计算值，直到模型对整个数据集的预测能力达到稳定；

所述模型是指基于多模态信息融合的遥感影像语义分割网络；

所述部分数据是指从数据集中选取的4条数据；

当交叉熵损失函数计算的值无法继续降低时，模型对整个数据集的预测能力达到稳定。

如上所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，交叉熵损失函数的公式为：

其中，L代表交叉熵损失函数计算值，N代表每一次训练数据的个数，N＝4，k从1取到4，表示对4条数据各自计算并最终求均值，M代表地物的类别数，y_kc表示第k个样本属于第c类的真实概率，该值由真实标签提供，若是则取1，若不是则取0，p_kc表示模型对第k个样本属于第c类的预测概率。

如上所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，利用训练好的网络模型对遥感影像地物类别进行预测的具体步骤如下：

(1)将待预测数据处理成与训练数据尺寸一致的数据；

(2)使用训练好的模型进行数据读取；

(3)模型输出每一像素点类别预测结果，对其结果进行可视化处理得到遥感影像地物类别预测图。

有益效果：

(1)本发明首次提出了两种同时基于transformer和卷积的注意力融合模块，自注意力卷积融合模块ACF和跨模态卷积融合CACF，同时基于上述的ACF和CACF提出三种模态同时融合的框架ACF3和CACF3，本发明提出的通用融合框架，基于多模态信息融合的遥感影像语义分割网络，可实现同时对RGB,DSM,NDVI三种模态信息的融合；

(2)本发明的一种基于多模态遥感数据深度融合的地表覆盖分类方法，相较于传统方法，在地表分类任务上精度的提高效果显著，应用前景广阔。

附图说明

图1为基于多模态信息融合的遥感影像语义分割网络结构示意图；

图2为自注意力卷积融合模块；

图3为跨模态卷积融合模块；

图4为可视化处遥感影像地物类别预测图。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

一种基于多模态遥感数据深度融合的地表覆盖分类方法，步骤如下：

(1)构建模型；

模型为基于多模态信息融合的遥感影像语义分割网络，模型结构如图1所示，包括对地物特征进行提取的编码器、深度特征融合模块、空间金字塔模块以及上采样解码器；

编码器分为三个分支：RGB分支、DSM分支和NDVI分支，RGB分支作为主分支，DSM分支和NDVI分支作为从属分支，每个分支都包含四个卷积块，，名为特征提取层，随着每个分支中网络的深入，地物特征经过这些卷积块处理之后，可以得到不同的输入特征向量，这些输入特征向量即表示地物特征，对应RGB、DSM和NDVI三个分支，统一用X、Y、Z进行表示；每一个卷积块视其在网络中的位置堆叠不同的深度，RGB分支的四个卷积块分别堆叠了3、4、6、3层，DSM分支和NDVI分支的四个卷积块分别堆叠了2、2、2、2层；

深度特征融合模块包括同时融合RGB、DSM和NDVI三种模态信息的ACF3模块和CACF3模块，ACF3模块是基于transformer(深度自注意力变换网络)和卷积的自注意力卷积融合模块(ACF)，CACF3模块是基于transformer和卷积的跨模态卷积融合模块(CACF)；自注意力卷积融合模块采用自注意力机制，包含一个transformer结构和两个卷积结构(卷积结构位于自注意力卷积融合模块的尾部)，其中的transformer结构由8层自注意力融合模块堆叠而成，每层自注意力融合模块包括两个归一化层LN1和LN2、多层感知器MLP以及核心的自注意力层Attn；ACF3模块整体结构如图2所示，当不同模态信息进入融合模块时，ACF3模块先将X和Y连接起来，通过位置编码映射到同一个序列空间，以此实现将图片转化为序列的过程，这个序列将被输入到基于自注意力卷积融合模块的transformer中；

自注意力融合公式如下：

其中，j代表自注意力卷积融合模块(ACF)中自注意力融合模块的层数，并取决于堆叠的注意力块的数量，s^j代表经过自注意力层ATTn计算后的融合特征，XY代表将输入特征向量X和Y直接连接起来，LN1(XY)代表将XY输入到LN1中，Attn(LN1(XY))代表将LN1(XY)的计算结果输入到Attn中，此时得到经过自注意力计算后的融合特征s^j，z^j代表自注意力融合模块处理后的最终结果，LN2(s^j)代表将融合特征s^j输入到LN2中，MLP(LN2(s^j))代表将LN2(s^j)的计算结果输入到MLP中；

自注意力融合模块中核心的自注意力层Attn的计算公式为：

其中，Q,K,V代表由输入特征图和不同的线性结构计算而来的三个代表不同信息的向量，K^T代表K的转置向量，d_k代表向量K的维度，以对信息尺度进行控制，Q和K计算得到的特征信息经过激活函数softmax后与V进行计算得到输出；

CACF3模块整体结构如图3所示。跨模态卷积融合模块同时采用跨模态注意力机制和自注意力机制，包含三个transformer结构和两个卷积结构(卷积结构位于跨模态卷积融合模块的尾部)，一个transformer结构由四层跨模态融合模块堆叠而成，另外两个transformer结构各自由四层自注意力融合模块堆叠而成，每层自注意力融合模块与上述自注意力卷积融合模块中的自注意力融合模块结构相同，而每层跨模态融合模块由两个归一化层LN1和LN2、多层感知器MLP以及核心的跨模态注意力层Attn_rgb和Attn_d组成；由于ACF3模块需要将两种模态的信息连接，因而在其注意力模块中需要处理的序列长度将是CACF3模块的两倍；跨模态注意力计算公式如下：

其中，Q,K,V代表由输入特征图和不同的线性结构计算而来的三个代表不同信息的向量，K^T代表K的转置向量，d_k代表向量K的维度，以对信息尺度进行控制，所有的下标rgb和d说明其计算来源于RGB信息和DSM信息，故跨模态注意力计算公式表示，Q和K计算得到的特征信息通过d_k控制其尺度后，经过激活函数softmax后与V进行计算得到输出，整个公式采用互补模态的信息进行结果的计算，，跨模态注意力计算公式说明了跨模态融合模块中对两种模态进行特征融合的方式，Attn_rgb(Q_rgb,K_d,V_d)代表融合了DSM信息的RGB信息，Attn_d(Q_d,K_rgb,V_rgb)代表融合了RGB信息的DSM信息；

空间金字塔模块收集来自三个分支的融合的RGB-DSM-NDVI特征并产生具有多尺度信息的特征图，空间金字塔模块由3层卷积结构组成，在8*8、4*4、2*2大小的不同尺度上汇总信息；

上采样解码器由三层卷积块和一个分类器组成，其中每一个卷积块包含一个处理残差连接的卷积层和一个恢复分辨率的上采样卷积层，分类器位于上采样解码器的尾部，分类器是一个输出为类别数的卷积结构，以实现最终的类别预测；

其中，X∈R^{3*H*W}表示对应RGB分支的输入特征向量，Y∈R^{1*H*W}表示对应DSM分支的输入特征向量，Z∈R^{1*H*W}，表示对应NDVI分支的输入特征向量，H和W分别指输入数据的高度和宽度，H*W即图片的尺寸，i代表融合模块所在的层数，ACF表示自注意力卷积融合模块，CACF表示跨模态卷积融合模块，特征融合公式表示自注意力卷积融合模块或跨模态卷积融合模块接收了未融合的RGB特征信息X^i-1、DSM特征信息Y^i-1和NDVI特征信息Z^i-1三种模态输入后，输出融合后的RGB特征信息Xⁱ、DSM特征信息Yⁱ和NDVI特征信息Zⁱ，以及用于解码阶段的残差信息skipⁱ；

(2)模型训练；

对RGB分支，采用残差网络Resnet-34预训练网络对其赋初始值，对DSM和NDVI分支采用残差网络Resnet-18对其赋初始值，其余网络参数使用何凯明初始化方法进行赋值。模型先通过何凯明方法进行参数的初始化，解码器加载ResNet系列训练好的预训练模型，然后模型从数据集中读取4条数据，所读取的数据经过完整模型处理后的输出与已知的真实标签进行比较，此比较过程由交叉熵损失函数计算，交叉熵损失函数公式为：

其中，L代表交叉熵损失函数计算值，N代表每一次训练数据的个数，N＝4，k从1取到4，表示对4条数据各自计算并最终求均值，M代表地物的类别数，y_kc表示第k个样本属于第c类的真实概率，若是则取1，若不是则取0，该值由真实标签提供，p_kc表示模型对第k个样本属于第c类的预测概率，该计算结果说明了模型对该数据集的预测能力，然后模型根据损失函数的计算值进行参数更新，并且重复训练过程(指除参数初始化和预训练模型加载之外的整个训练过程，一开始需要参数初始化和预训练模型加载这两个步骤给模型初始参数，但是经过了第一次数据之后，模型参数进行了更新，后续循环其他步骤，以读取所有数据，并对模型进行参数更新)，观察交叉熵损失函数的计算值，直到交叉熵损失函数计算的值无法继续降低时，模型对整个数据集的预测能力达到稳定；在训练过程中，使用自适应动量估计(Adaptive Moment Estimation，Adam)算法进行参数优化，学习速率设置为4×10^-4，训练迭代次数为40，批次大小为4，实验表明，该迭代次数能使模型收敛；

(3)利用步骤(2)训练好的模型对遥感影像地物类别进行预测；

(3.1)将待预测数据处理成与训练数据尺寸一致的数据；

本发明所需三种模态数据分别为RGB三波段数据、DSM数据、NDVI指数，其中NDVI指数由红波段和近红外波段计算得到。实验采用ISPRS提供的波茨坦二维语义标注竞赛。该数据集包括38张6000*6000的四通道图片以及对应的DSM数据。考虑到计算能力与所需精度，在数据处理阶段，将所有数据按照重叠率0.5裁剪为256*256大小，并计算对应的NDVI模态数据。同时，由于大量数据存在标签类别单一的情况，按照规则“没有汽车/水面/建材类且其他某个类别占80％以上”进行清洗，最终得到训练集；

(3.2)使用训练好的模型进行数据读取；

(3.3)模型输出每一像素点类别预测结果，对其结果进行可视化处理得到遥感影像地物类别预测图，如图4所示。预测结果具体如表1所示。

表1精度对比

测试性能通过总体精度来进行评价，即正确分类像素在所有像素中的百分比。对于每一类，则计算该类别预测正确的像素占该类别所有像素数目的比值。表1说明了本发明相较于传统方法，在地表分类任务上精度的提高。该表中方法一列中的数字尾号代表模态数目，2表示训练数据为RGB和DSM，3表示训练数据增加了NDVI。和其他方法一样，本结果主要对比五大类别的准确率以及总体精度。结果表明，当使用ACF融合了DSM信息之后，除车辆之外，其他类别均有提升，最明显的是树木，达到了1.25％，而CACF模块则能更好的对深度特征进行融合，所有类别的均有提升，建筑类提升达到了0.44％。同时融合DSM和NDVI的ACF3，树木取得了更大的4.11％提升，这表明NDVI指数对高等树木的判断有着十分巨大的帮助。CACF3对建筑和树木类的判断更进一步，分别提高了0.56％和2.51％。整个ACF3融合方法使总体精度提升了0.36％，CACF3使总体精度提高了0.40％。综上可以说明，本发明对于深度特征融合领域，较传统方法有着十分显著的提升。

Claims

1.一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于包括如下步骤：

(1)构建基于多模态信息融合的遥感影像语义分割网络；

编码器分为RGB分支、DSM分支和NDVI分支，RGB分支作为主分支，DSM分支和NDVI分支作为从属分支，每个分支都包含四个卷积块；

深度特征融合模块包括ACF3模块和CACF3模块，ACF3模块和CACF3模块均同时融合RGB、DSM和NDVI三种模态信息，ACF3模块是基于transformer和卷积的自注意力卷积融合模块，CACF3模块是基于transformer和卷积的跨模态卷积融合模块；

自注意力卷积融合模块采用自注意力机制，包含一个transformer结构和两个卷积结构，其中的transformer结构由8层自注意力融合模块堆叠而成，每层自注意力融合模块包括两个归一化层LN1和LN2、多层感知器MLP以及核心的自注意力层Attn；自注意力融合公式如下：

s^j＝Attn(LN1(XY))

z^j＝MLP(LN2(s^j))；

其中，j代表自注意力卷积融合模块中自注意力融合模块的层数，s^j代表经过自注意力层Attn计算后的融合特征，地物特征经过卷积块处理之后，得到不同的输入特征向量，输入特征向量对应RGB、DSM和NDVI三个分支，分别用X、Y、Z表示，XY代表将输入特征向量X和Y直接连接起来，LN1(XY)代表将XY输入到LN1中，Attn(LN1(XY))代表将LN1(XY)的计算结果输入到Attn中，z^j代表自注意力融合模块处理后的最终结果，LN2(s^j)代表将融合特征s^j输入到LN2中，MLP(LN2(s^j))代表将LN2(s^j)的计算结果输入到MLP中；

跨模态卷积融合模块同时采用跨模态注意力机制和自注意力机制，包含三个transformer结构和两个卷积结构，一个transformer结构由四层跨模态融合模块堆叠而成，另外两个transformer结构各自由四层自注意力融合模块堆叠而成，每层跨模态融合模块由两个归一化层LN1和LN2、多层感知器MLP以及核心的跨模态注意力层Attn_rgb和Attn_d组成；跨模态注意力计算公式如下：

其中，Q,K,V分别代表由输入特征图和不同的线性结构计算而来的三个代表不同信息的向量，K^T代表K的转置向量，d_k代表向量K的维度，所有的下标rgb和d说明其计算来源于RGB信息和DSM信息，跨模态注意力计算公式说明了跨模态融合模块中对两种模态进行特征融合的方式，Attn_rgb(Q_rgb,K_d,V_d)代表融合了DSM信息的RGB信息，Attn_d(Q_d,K_rgb,V_rgb)代表融合了RGB信息的DSM信息；

上采样解码器由三层卷积块和一个分类器组成，其中每一个卷积块包含一个处理残差连接的卷积层和一个恢复分辨率的上采样卷积层，分类器位于上采样解码器的尾部，分类器是一个输出为类别数的卷积结构；

其中，X∈R^{3*H*W}表示对应RGB分支的输入特征向量，Y∈R^{1*H*W}表示对应DSM分支的输入特征向量，Z∈R^{1*H*W}，表示对应NDVI分支的输入特征向量，H和W分别指输入数据的高度和宽度，i代表融合模块所在的层数，ACF表示自注意力卷积融合模块，CACF表示跨模态卷积融合模块，特征融合公式表示自注意力卷积融合模块或跨模态卷积融合模块接收了未融合的RGB特征信息X^i-1、DSM特征信息Y^i-1和NDVI特征信息Z^i-1三种模态输入后，输出融合后的RGB特征信息Xⁱ、DSM特征信息Yⁱ和NDVI特征信息Zⁱ，以及用于解码阶段的残差信息skipⁱ；

(3)利用步骤(2)训练好的模型对遥感影像地物类别进行预测。

2.根据权利要求1所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于，自注意力融合模块中核心的自注意力层Attn的计算公式为：

其中，Q,K,V代表由输入特征图和不同的线性结构计算而来的三个代表不同信息的向量，K^T代表K的转置向量，d_k代表向量K的维度。

3.根据权利要求2所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于，RGB分支的四个卷积块分别堆叠3、4、6、3层，DSM分支和NDVI分支的四个卷积块均分别堆叠2、2、2、2层。

4.根据权利要求3所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于，空间金字塔模块由3层卷积结构组成，在8*8、4*4、2*2大小的不同尺度上汇总信息。

5.根据权利要求1所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于，对基于多模态信息融合的遥感影像语义分割网络进行训练的过程为：模型先通过何凯明方法进行参数的初始化，解码器加载ResNet系列训练好的预训练模型，然后模型从数据集中读取部分数据，所读取的数据经过完整模型处理后的输出与已知的真实标签进行比较，此比较过程由交叉熵损失函数计算，然后模型根据交叉熵损失函数的计算值进行参数更新，并且重复训练过程，观察交叉熵损失函数的计算值，直到模型对整个数据集的预测能力达到稳定；

所述部分数据是指从数据集中选取的4条数据；

6.根据权利要求5所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于，交叉熵损失函数公式为：

其中，L代表交叉熵损失函数计算值，N代表每一次训练数据的个数，N＝4，M代表地物的类别数，y_kc表示第k个样本属于第c类的真实概率，p_kc表示模型对第k个样本属于第c类的预测概率。

7.根据权利要求6所述的一种基于多模态遥感数据深度融合的地表覆盖分类方法，其特征在于，利用训练好的网络模型对遥感影像地物类别进行预测的具体步骤如下：

(1)将待预测数据处理成与训练数据尺寸一致的数据；

(2)使用训练好的模型进行数据读取；