CN116188996A

CN116188996A - 一种多尺度语义信息和边界信息的遥感图像语义分割方法

Info

Publication number: CN116188996A
Application number: CN202310413471.4A
Authority: CN
Inventors: 袁正午; 王阳; 邓阳; 王秋粮; 陈强
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2023-05-30

Abstract

本发明涉及一种多尺度语义信息和边界信息的遥感图像语义分割方法，属于图像处理领域。将多尺度的语义信息加入到U‑Net3+模型中，得到更多的多尺度信息，加入边界提取模块，对边界信息进行提取，获得相应的边界信息模块，然后将边界信息和多尺度信息进行融合，获得带有边界信息的多尺度语义分割结果，得到遥感图像语义分割模型，搭建基于多尺度语义信息和边界信息的遥感图像语义分割网络模型，包括含有多尺度特征提取模块，边界信息提取模块，多尺度特征提取与边界信息融合模块；进行语义分割，以提高针对遥感图像进行语义分割的效果。本发明有效的改善了语义分割边界模糊，类内差异大，类间差异小等问题，显著得提高了语义分割性能。

Description

一种多尺度语义信息和边界信息的遥感图像语义分割方法

技术领域

本发明属于图像处理领域，涉及一种多尺度语义信息和边界信息的遥感图像语义分割方法。

背景技术

高分辨率的遥感图像包含了大量的信息，包括大量的空间细节信息，可以为土地覆盖分类与分割提供数据的支持。遥感图像语义分割是将图像中的每一个像素点归结到特定类别中的一项基本任务。遥感图像语义分割在土地资源利用，土地管理，精准化农业，城市规划等许多遥感应用方面发挥着重要的作用。

发明内容

有鉴于此，本发明的目的在于提供一种多尺度语义信息和边界信息的遥感图像语义分割方法。

为达到上述目的，本发明提供如下技术方案：

一种多尺度语义信息和边界信息的遥感图像语义分割方法，该方法包括以下步骤：

步骤1：获得高分辨率遥感影像原始数据集，并将其划分为训练样本集与测试样本集；

步骤2：预处理上述高分辨率遥感影像训练样本集，构建训练数据集；

步骤3：搭建基于多尺度语义信息和边界信息的遥感图像语义分割网络模型，包括多尺度语义信息分割分流网络和边界信息提取分流网络，通过协调注意力机制模块实现多尺度语义信息和边界信息的融合；

步骤4：利用上述训练数据集对所描述的多尺度语义信息和边界信息的遥感图像语义分割网络模型进行监督训练，获得相应语义分割模型；

步骤5：利用步骤4所获得的语义分割模型对测试样本集中的高分遥感影像进行推理预测，得到最后的分割结果。

可选的，所述步骤2中，预处理包括：遥感影像数据归一化处理和数据增强。

可选的，所述步骤3中，多尺度语义分割采用编码-解码范式结构，具体搭建流程为：

步骤311：搭建含五级网络结构的特征解码器:经过五个连续的卷积单元与2*2最大池化层，所述的卷积单元为非对称卷积块，批归一化层，线性激活函数层；

非对称卷积块具有三个分支，即3×3卷积，1×3水平核的卷积和3×1垂直核的卷积，以获得交叉感受野，3×3卷积通过感受野捕获特征，水平核和垂直核保持特征在骨架上的显著性，扩展网络的宽度，减少在捕获代表性特征时冗余信息的影响；得到最后的编码器层的结果A₁-A₅

其中x_i是非对称卷积块的输出，x_i-1是非对称块的输入；Var(·)和E(·)表示输入的方差函数和期望；是一个保持数值稳定性的小常数；γ和β是BN层的两个可训练参数，归一化结果用γ缩放，用β移位；σ(·)为ReLU的激活函数；

步骤312：搭建含四级网络结构的特征解码器：每一级解码器融合不同尺度的语义信息，通过多尺度连接来捕获编解码器之间的相互作用，提取细粒度的细节信息和粗粒度的语义信息；每一个解码器连接同级编码器的特征映射，其次包含底层解码器层的细粒度详细信息，对于底层的细粒度详细信息通过转置卷积和非对称卷积块进行传输，还包含高级别的编码器层的粗粒度语义信息，对于高级的粗粒度语义信息通过最大池化和非对称卷积块进行传输；

步骤313：协调注意机制通道融合模块：每一个解码器获得五个相同大小和分辨率的特征图，减少通道数，引入协调注意机制，将位置信息嵌入到通道注意中，将通道注意分解为两个一维的特征编码过程，分别沿两个方向聚合特征，在一个空间方向上捕获长程依赖，同时在另一个空间方向上保留精确的位置信息；水平和垂直启用全局接受域对精准的位置信息进行编码，得到两个一维向量，然后在空间维度上进行拼接，使用1×1卷积来压缩通道F₁，另外两个1×1卷积将F_h和F_w变换f^h和f^w变换为具有相同通道数的张量，在进行归一化加权，输出的g^h和g^w被扩展并分别用作注意权重；最后输出结果；

可选的，所述步骤3中，边界信息提取分流网络的具体构建流程为：

步骤321：编码器端卷积特征提取：从步骤311所述的五级网络结构的特征编码器中提取所有的卷积特征A₁-A₅，将其作为边界信息提取分流网络的编码器端特征：

步骤322：各级边界信息融合特征集成:首先将步骤321所得的每一级的特征A₁-A₅通过3×3的卷积层将通道数统一为k，获得不同尺度相同通道数的语义信息F₁-F₅；

步骤323：使用1×1卷积层和Sigmoid函数将边界特征映射到边缘图，将所有边界特征比例尺调整为输入图像的1/m大小，得到相应的边界融合特征E₁-E₅

步骤324：多尺度边界融合特征集成：对特征E₁-E₅进行通道维度拼接，得到多尺度边界特征F_jieguo，进行后续的上下文聚合；

步骤325：边界的上下文聚合模块，对上下文的语义进行聚合；使用一个类注意力机制的方法，对于同一物体的像素激活相似的注意区域，而来自不同物体的像素具有较少的相似性；具体为：对于主干网络编码器层生成的语义特征映射A₅∈R^C1×H×W和从步骤324中生成的多尺度边界特征F_jieguo的特征映射B∈R^C2×H×W，经过两个卷积层的处理，生成两个新的特征映射{A₁,B₁}∈R^C×H×W，其中C＝K，然后将特征重塑为R^C×N，其中N＝H×W为像素数；在重塑A₁和B₁的转置之间进行矩阵乘法，然后应用Softmax函数，得到边界语义相似度映射F；接着用核大小为1×1的两层卷积层对A进行处理，并将输出A₂重塑为R^C×N，然后在A₂与边界语义相似度映射F之间进行矩阵乘法，然后对特征A进行元素和运算得到最后的结果；

所述语义分割模型与边界信息提取分流模块使用相同的编码器层，通过多尺度信息的融合将相同分辨的语义分割编码特征和边界信息提取的编码特征进行融合，实现端到端的不同层次之间语义分割信息与多尺度的边界信息之间的相互融合。

可选的，所述步骤4的具体流程为：

步骤41：将制作的训练集数据输入到多尺度语义信息和边界信息的预感图像语义分割模型，通过自动化特征提取与模型预测，得到相应的多尺度语义分割预测结果和边界信息模型预测结果；

步骤42：根据语义分割模型的预测结果与制作标签真值进行对比，利用交叉熵损失函数，损失函数如下：

其中y表示的是真实分布，

表示的是网络输出的结果，n表示的类别的总数；

步骤43：采用Adam优化算法，最小化步骤42中的损失函数，通过反向传播实现模型参数迭代更新；

步骤44：重复步骤41-43，直至模型收敛，获得最终语义分割模型。

可选的，所述步骤43的具体实现流程如下：

步骤431：计算迭代次数t下的梯度：

其中θ表示模型参数，

表示梯度算子符号；

步骤432：计算梯度的一阶矩估计m_t与二阶矩估计v_t：

其中β₁与β₂分别为一阶矩和二阶矩的指数衰减率；

步骤433：对梯度的一阶矩估计m_t与二阶矩估计v_t进行偏置修正，得到

与

步骤434：模型参数更新：

其中η为学习率，ε是为了维持数值稳定而添加的常数。

可选的，所述步骤5具体流程如下：

步骤51：对测试样本集待语义分割影像进行归一化处理；

步骤52：利用步骤4获得的语义分割模型对步骤51处理后的遥感影像进行拼接，得到最终的整张的语义分割结果。

本发明的有益效果在于：融合了不同尺度的语义信息，使得模型更好的融合语义信息，加入了边界信息模块。耦合了语义分割模型与边界信息模块，改善网络边界分割不准确，语义分割类内不一致与类间不可分的问题，提高语义分割的精度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为多尺度聚合特征图；

图2为协调注意注意力模块；

图3为多尺度语义信息和边界信息的遥感图像语义分割模型。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3，为一种多尺度语义信息和边界信息的遥感图像语义分割方法，包括以下几个步骤：

步骤1，获得高分辨率遥感影像原始数据集，并将其划分为训练样本集与测试样本集；

步骤2，预处理上述高分辨率遥感影像训练样本集，构建训练数据集；

步骤2中所述得预处理包括：遥感影像数据归一化处理，数据增强等。

步骤3，搭建基于多尺度语义信息和边界信息的遥感图像语义分割网络模型，包括多尺度

语义信息分割分流网络和边界信息提取分流网络，通过类注意力机制模块实现多尺度语义信息和边界信息的融合；

步骤4，利用上述训练数据集对所描述的多尺度语义信息和边界信息的遥感图像语义分割网络模型进行监督训练，获得相应语义分割模型；

步骤5，利用步骤4所获得的语义分割模型对测试样本集中的高分遥感影像进行推理预测，得到最后的分割结果。

步骤3中多尺度语义分割采用编码-解码范式结构，具体搭建流程为：

步骤311，搭建含五级网络结构的特征解码器:经过五个连续的卷积单元与2*2最大池化层，所述的卷积单元为非对称卷积块，批归一化层，线性激活函数层。非对称卷积块具有三个分支，即3×3卷积，1×3卷积(水平核)和3×1卷积(垂直核)，以获得交叉感受野，3×3卷积通过一个相对较大的感受野捕获特征，而水平核和垂直核保持了特征在骨架上的显著性，扩展了网络的宽度。可以减轻在捕获代表性特征时冗余信息的影响。得到最后的编码器层的结果A₁-A₅

其中x_i是非对称卷积块的输出，x_i-1是非对称块的输入。Var(·)和E(·)表示输入的方差函数和期望。是一个保持数值稳定性的小常数。γ和β是BN层的两个可训练参数，归一化结果可以用γ缩放，用β移位。σ(·)为ReLU的激活函数。

步骤312搭建含四级网络结构的特征解码器：每一级解码器都可以融合不同尺度的语义信息，通过多尺度连接来捕获编解码器之间的相互作用，既提取了细粒度的细节信息，又提取了粗粒度的语义信息。每一个解码器可以直接连接同级编码器的特征映射，其次包含了底层解码器层的细粒度详细信息，对于底层的细粒度详细信息通过转置卷积和非对称卷积块进行传输。还包含了高级别的编码器层的粗粒度语义信息，对于高级的粗粒度语义信息通过最大池化和非对称卷积块进行传输。

步骤313协调注意机制通道融合模块：对于步骤312的解码器，每一个解码器都会获得五个相同大小和分辨率的特征图，需要进一步减少通道数，因为常用的通道注意机制忽略了位置的信息，而位置信息对于生成空间选择性注意图的非常重要的，本发明引入了协调注意机制，将位置信息嵌入到通道注意中，将通道注意分解为两个一维的特征编码过程，分别沿两个方向聚合特征，这种方法可以在一个空间方向上捕获长程依赖，同时在另一个空间方向上保留精确的位置信息。该网络能够在较大的区域上进行注意，同时避免了大量的计算量的开销。水平和垂直启用全局接受域对精准的位置信息进行编码，得到两个一维向量，然后在空间维度上进行拼接，使用1×1卷积来压缩通道F₁，另外两个1×1卷积将F_h和F_w变换f^h和f^w变换为具有相同通道数的张量，在进行归一化加权，输出的g^h和g^w被扩展并分别用作注意权重。最后输出结果。

步骤3中边界信息提取分流网络的具体构建流程为：

步骤321编码器端卷积特征提取：从步骤311所述的五级网络结构的特征编码器中提取所有的卷积特征A1-A5，将其作为边界信息提取分流网络的编码器端特征：

步骤322各级边界信息融合特征集成:首先将步骤321所得的每一级的特征A₁-A₅通过3×3的卷积层将通道数统一为k，获得不同尺度相同通道数的语义信息F₁-F₅

步骤323使用1×1卷积层和Sigmoid函数将边界特征映射到边缘图，将所有边界特征比例尺调整为输入图像的1/m大小，得到相应的边界融合特征E₁-E₅

步骤324多尺度边界融合特征集成：对特征E₁-E₅进行通道维度拼接，得到多尺度边界特征F_jieguo，进行后续的上下文聚合。

步骤325边界的上下文聚合模块，对上下文的语义进行聚合。本发明使用了一个类注意力机制的方法，对于同一物体的像素激活相似的注意区域，而来自不同物体的像素具有较少的相似性。具体操作是，对于主干网络编码器层生成的语义特征映射A₅∈R^C1×H×W和从步骤324中生成的多尺度边界特征F_jieguo的特征映射B∈R^C2×H×W,经过两个卷积层的处理，生成两个新的特征映射{A₁,B₁}∈R^C×H×W，其中C＝K，然后将特征重塑为R^C×N，其中N＝H×W为像素数。在重塑A₁和B₁的转置之间进行矩阵乘法，然后应用Softmax函数，得到边界语义相似度映射F。接着用核大小为1×1的两层卷积层对A进行处理，并将输出A₂重塑为R^C×N，然后在A₂与边界语义相似度映射F之间进行矩阵乘法，然后对特征A进行元素和运算得到最后的结果。

所述全尺度语义分割模型与边界信息提取分流模块使用了相同的编码器层，通过多尺度信息的融合将相同分辨的语义分割编码特征和边界信息提取的编码特征进行融合，实现了端到端的不同层次之间语义分割信息与多尺度的边界信息之间的相互融合。

根据权利要求2所述的一种多尺度语义信息和边界信息的遥感图像语义分割方法，其特征在于：所述步骤4的具体流程为：

步骤41将制作的训练集数据输入到多尺度语义信息和边界信息的预感图像语义分割模型，通过自动化特征提取与模型预测，得到相应的多尺度语义分割预测结果和边界信息模型预测结果。

步骤42根据语义分割模型的预测结果与制作标签真值进行对比，利用损失函数进行计算。本发明使用的是交叉熵损失函数，所述损失函数如下：

其中y表示的是真实分布，

表示的是网络输出的结果，n表示的类别的总数。

步骤43采用Adam优化算法，最小化步骤42所述的损失函数，通过反向传播实现模型参数迭代更新。

步骤44重复上述步骤41-43，直至模型收敛，获得最终语义分割模型。

步骤43的具体实现流程如下：

步骤431，计算迭代次数t下的梯度：

其中θ表示模型参数，

表示梯度算子符号；

步骤432，计算梯度的一阶矩估计m_t与二阶矩估计v_t：

其中β₁与β₂分别为一阶矩和二阶矩的指数衰减率；

步骤433，对梯度的一阶矩估计m_t与二阶矩估计v_t进行偏置修正，得到

与

步骤434，模型参数更新：

其中η为学习率，ε是为了维持数值稳定而添加的常数。

步骤5具体流程如下：

步骤51对测试样本集待语义分割影像进行归一化处理。

步骤52利用步骤4所获得的语义分割模型对步骤51处理后的遥感影像进行拼接，得到最终的整张的语义分割结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。