CN112580649B

CN112580649B - 一种基于区域上下文关系模块的语义分割方法

Info

Publication number: CN112580649B
Application number: CN202011478891.3A
Authority: CN
Inventors: 刘明皓; 杜江
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-08-02
Anticipated expiration: 2040-12-15
Also published as: CN112580649A

Abstract

本发明涉及一种基于区域上下文关系模块的语义分割方法，属于遥感图像处理领域。该方法包括以下步骤：S1：遥感图像增强；S2：构建RC‑Module；S3：建立基于RC‑Moudle的遥感图像语义分割模型RC‑Net；S4：MIOU检验与评价。RC‑Moudle是语义分割模型中attention机制的一种衍生，可以让模型针对各个区域周边的上下文关系的学习进行一定程度的导向，让模型学习到各个区域之间的相邻关系，从统计学的角度增加用于模型分类的信息量，从而增加语义分割的分类精度。同时RC‑Module是一个即插即用的模块，它可以和任何现有的语义分割模型进行组合，从而提升模型的精度。

Description

一种基于区域上下文关系模块的语义分割方法

技术领域

本发明属于遥感图像处理领域，涉及一种基于区域上下文关系模块的语义分割方法。

背景技术

语义分割是一项密集预测的任务，它直接对图像的每个像素进行像素级别的预测。目前在遥感图像领域，高分辨率和可获取性极高的特性，极需要一种有效的语义分割模型来对遥感图像进行有效的应用，而注意力机制可以针对性的对语义分割模型的学习过程进行导向，可以让模型学习到遥感图像更精细的特征表示。Long等人于2015年首次将全卷积的技术应用到语义分割领域，第一次从精度上对整个领域进行巨大的提升，其舍弃全连接层的方式被后来的模型持续的学习和借鉴。仅仅2015年一年，，U-Net，FCN，Seg-Net，Deconv-Net，Deeplabv1，Parse-Net，如春笋般层出不穷，将语义分割的可应用性不断提升；在这期间诞生了很多新的技术，如Olaf等人的skip链接，Vijay等人的unpooling，Hyeonwoo的deconv,以及Deeplab系列最让人津津乐道的空洞卷积；而在2017年，Non-Local的作者将NLP中注意力机制的思想成功应用到语义分割领域。注意力机制的出现，为语义分割模型提供了新的研究思路，而模型也就是在注意力机制的基础上进行衍生的。

在使用普通的语义分割模型对图像进行预测分割的时候，在预测区域的边界处很容易出现边界的模糊或者混乱，很多时候甚至出现错误分类，而这种现象是由于模型在学习和提取图像特征的阶段，并没有学习到每一个区域之间的上下文关系；而注意力机制可以有效的解决这个问题。语义分割领域也有很多基于注意力机制进行衍生的分割模型，如CCNet通过设计一种Criss-crossattention模块的方式，导向模型着重学习特征十字骨干的特征，从而在一定程度上学习特征的长程关系；OCRnet通过设计一种对象上下文模块，让模型学习一种对象特征增强的特征图；但这些语义分割模型都没有学习区域之间的上下文关系，所以边界像素分类混乱和边界错误分类的情况依然存在，这种情况可以通过设置导向模型学习区域上下文关系的模块，从而有效解决。

本发明通过考虑各个区域之间的上下文关系的方法来增强模型的分割精度，使用注意力机制的方式，将特征增强和注意力机制导向模型学习的方式相互结合，提出了一种基于区域上下文关系模块的遥感图像语义分割方法，可以在一定程度上提高模型的精度，使模型对各个区域之间边界的精细程度和分类上更加准确。注意力机制的设计，不仅训练速度快，模型的内存占用也很小。RC-Module是一个即插即用的模块，它可以和任意的语义分割模型结合，作为该模型对区域上下文特征的增强模块，从而提升模型的精度。Hengshuang Zhao从信息流的角度设计了一种考虑点和点之间上下文关系的pointwisespatial attention模块用于导向模型学习图像中所有像素之间的影响关系，没有考虑区域之间的完整性，单独的对各个像素进行考虑，很容易形成椒盐模式的预测结果。而OCR-Net采用增强对象特征的方式，让模型对对象的特征进行了导向的学习，将一个对象范围内的特征作为对象特征，解决了椒盐效应，但并没有考虑各个区域之间的上下文关系。本发明基于RC-module构成的语义分割模型进行遥感图像的语义分割，对图像的区域上下文特征进行有效的学习。

发明内容

一种基于区域上下文关系模块的语义分割方法，其特征在于：该方法包括以下步骤：

S1：遥感图像增强；

S2：构建RC-Module；

S3：建立基于RC-Moudle的遥感图像语义分割模型RC-Net；

S4：MIOU检验与评价。

可选的，所述S1具体为：

S11：对图片进行随机的裁剪，生成原始数据集数量相当的额外数据集，并加入原始数据集当中，同时进行模型的训练；

S12：对数据集各个类别的特点进行图像增强方式的选择，若图像中存在草地和土地或其他类似的对颜色特征极为敏感的对象时，将色彩抖动中，颜色的抖动范围降低到0.01，分别设置图像的饱和度，色度，对比度抖动范围为0.2，生成与S11步相同数量的图像代替原有的数据集。

S13：对数据集进行随机的水平和垂直翻转，生成与S12相同数量的数据集。

S14：对数据集进行限度旋转范围为30度的随机旋转，生成与S13相同数量的数据集。

S15：在S14中每一张图像加入高斯噪声与椒盐噪声。

可选的，所述S2具体为：

语义分割的基础架构中会有一个特征提取器，即Backbone，backbone由一系列的卷积和池化操作组成，图像经过backbone进行特征提取并整合为P，区域上下文模块的第一步就是在特征P的基础上生成区域粗糙区域R_soft，其计算公式如下：

其中x代表原始图像，K代表类别数量，f代表一个卷积操作，r代表对应类别的粗糙区域特征。

RC—module在R的基础上，利用自注意力机制的理论，设计了一个自相关模块，用于计算各个区域之间的相关性W_ij：

其中wij代表第j个区域对第i个区域的影响因子

同时，整合像素特征P和粗糙区域R_sot获得各个区域的特征feature_soft-region:

(feature_soft-region)_i＝unsqueeze(-1)(R_T(R_soft)*R_T′(P)))_i,(i∈(0,K))

其中unsqueeze代表在指定位置新增一个维度，R_T是reshape and transpose的缩写；feature_soft-region是一个N*C*K*1的特征图，N代表图片数量，C代表特征通道数，K代表区域数量；

将各区域的相关性W_ij作为权重对原来的粗糙区域特征feature_soft-region进行区域相关性的特征增强，获得增强了区域上下文特征的区域特征feature_R：

featur_R＝W*feature_soft-region

RC-Module使用注意力机制的思想，设计了一种区域上下文学习模块，最终增强的区域上下文特征的区域特征与像素级特征相结合，形成特征的整合feature_region：

feature_region＝R_T¹(R_T²(P)*R_T(feature_R))

最后，采取最常用的skip链接方法，将特征整合的特征与pixel特征链接获得经过RC-Module的增强特征F，所以，最后的区域上下文模块计算公式为：

F＝cat(feature_region||P)

可选的，所述S3具体为：

DeeplabV3是一个被验证了的效果非常好的多尺度模型，其通过ASPP结构，以多个不同空洞卷积率的方法初步整合了图像的多尺度特征，同时其采用ParseNet的方法，又在全局上使用适应性全局池化，获得了全局的信息，Deeplabv3模型是一个同时考虑多尺度和一定全局上下文关系的有效模型，模型采用DeeplabV3作为模型的特征提取器-Backbone，其中ASpp的特征计算公式为：

其中Yi代表ASPP模块的输出，F代表根据不同的d进行的不同的卷积操作，D是一个空洞率集合，ASPP通过集合不同大小空洞率的信息从而达到考虑多尺度信息的目的，其常用的D包含1、6、12和18；

当图像经过特征提取器Deeplabv3的整合后，再接收到RC-Module中进行特征的上下文关系整合，最后通过一个Decoder得到预测结果。

Decoder由两个3x3的深度可分离卷积和一个1x1的普通卷积构成，利用深度可分离卷积的特性，减少普通decoder的计算复杂度；其中普通卷积层的参数计算如下：

P＝K*2xC_in*C_out

其中P代表总的参数量，K代表卷积核大小，默认使用正方形的卷积核；C代表图像的维度；

深度可分离卷积的参数计算公式如下：

P＝K*2xC_in+C_in*C_out

很明显，深度可分离卷积的参数量大大减小，同时其计算的复杂度也从远门的O(Cin*Cout)降低到了O(Cin+Cout)；这种图像通道的解耦操作，大大减少了模型的计算量。

可选的，所述S4具体为：

Miou(mean intersection over Union，均交并比)的计算公式如下：

其中p_ij表示真实值为i，被预测为j的数量，K+1是类别个数(包含空类)。p_ii是真正的数量。p_ij、p_ji则分别表示假正和假负。

MIOU是IOU多个类别的扩展，IOU是计算两个集合相似度的一种度量，由于语义分割任务的特殊性，使用像素精度的情况下，很容易出现FP数量和FN数量主导整个像素精度，从而导致对模型精度照成错误的估计，而MIOU不会；MIOU是语义分割领域应用最广的评价标注，所以在MIOU评价中，使用MIOU作为精度的度量结果。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可从本发明的实践中得到教导。本发明的目标和其他优点可通过下面的说明书来实现和获得。

附图说明

图1为本发明原理图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

图1为本发明原理图。

1技术流程与方法

1.1遥感图像增强技术流程

本发明使用的遥感图像增强技术由五个步骤组成1，具体的执行流程如下。

遥感图像增强的过程如下：(1)对图片进行随机的裁剪，生成原始数据集数量相当的额外数据集，并加入原始数据集当中，同时进行模型的训练；(2)对数据集各个类别的特点进行图像增强方式的选择，若图像中存在草地和土地或其他类似的对颜色特征极为敏感的对象时，将色彩抖动中，颜色的抖动范围降低到0.01，分别设置图像的饱和度，色度，对比度抖动范围为0.2，生成与S11步相同数量的图像代替原有的数据集。(3)对数据集进行随机的水平和垂直翻转，生成与S12相同数量的数据集。(4)对数据集进行限度旋转范围为30度的随机旋转，生成与S13相同数量的数据集。(5)在S14中每一张图像加入高斯噪声与椒盐噪声。

1.2RC-Module的技术流程

本发明提出的RC-module基于自注意力机制和相关性注意力机制的基础上构建。

其中wij代表第j个区域对第i个区域的影响因子

(feature_soft-region)_i＝unsqueeze(-1)(R_T(R_soft)*R_T′(P)))_i,(i∈(0,K))

featur_R＝W*feature_soft-region

feature_region＝R_T¹(R_T²(P)*R_T(feature_R))

F＝cat(feature_region||P)

1.3RC-Net的技术流程

DeeplabV3是一个被验证了的效果非常好的多尺度模型，其通过ASPP结构，以多个不同空洞卷积率的方法初步整合了图像的多尺度特征，同时其采用ParseNet的方法，又在全局上使用适应性全局池化，获得了全局的信息，Deeplabv3模型是一个同时考虑多尺度和一定全局上下文关系的有效模型，因此模型采用DeeplabV3作为模型的特征提取器-Backbone，其中ASpp的特征计算公式为：

其中Yi代表ASPP模块的输出，F代表根据不同的d进行的不同的卷积操作，D是一个空洞率集合，ASPP通过集合不同大小空洞率的信息从而达到考虑多尺度信息的目的，其常用的D包含1，6，12，18；

ecoder由两个3x3的深度可分离卷积和一个1x1的普通卷积构成，利用深度可分离卷积的特性，减少普通decoder的计算复杂度；其中普通卷积层的参数计算如下：

P＝K*2xC_in*C_out

深度可分离卷积的参数计算公式如下：

P＝K*2xCin+Cin*Cout

1.4MIOU检验与评价。

Miou(mean intersection over Union，均交并比)的计算公式如下：

其中p_ij表示真实值为i，被预测为j的数量，K+1是类别个数(包含空类)。pii是真正的数量。p_ij、p_ji则分别表示假正和假负。

2总结

本发明提出了一种即插即用的RC-Module，在Deeplabv3的基础上设计了一种学习区域上下文关系的RCNet；RCNet是注意力机制的一种衍生，通过单独设计区域特征和增强区域相关性特征的方式获得联合了增强的特征用于最终的语义分割；RCNet是语义分割领域注意力机制的又一映射和发展，相信在未来的研究过程中，RCNet不仅会在遥感图像领域，也会在其他领域得到不错的泛用性。

Claims

1.一种基于区域上下文关系模块的语义分割方法，其特征在于：该方法包括以下步骤：

S1：遥感图像增强；

S2：构建RC-Module；

S3：建立基于RC-Module的遥感图像语义分割模型RC-Net；

S4：MIOU检验与评价；

所述S1具体为：

S12：对数据集各个类别的特点进行图像增强方式的选择，若图像中存在草地和土地或其他类似的对颜色特征极为敏感的对象时，将色彩抖动中，颜色的抖动范围降低到0.01，分别设置图像的饱和度、色度和对比度抖动范围为0.2，生成与S11步相同数量的图像代替原有的数据集；

S13：对数据集进行随机的水平和垂直翻转，生成与S12相同数量的数据集；

S14：对数据集进行限度旋转范围为30度的随机旋转，生成与S13相同数量的数据集；

S15：在S14中每一张图像加入高斯噪声与椒盐噪声；

所述S2具体为：

其中x代表原始图像，K代表类别数量，f代表一个卷积操作，r代表对应类别的粗糙区域特征；

RC-module在R的基础上，利用自注意力机制的理论，设计自相关模块，用于计算各个区域之间的相关性W_ij：

其中w_ij代表第j个区域对第i个区域的影响因子

同时，整合像素特征P和粗糙区域R_soft获得各个区域的特征feature_soft-region：

(feature_soft-region)_i＝unsqueeze(-1)(R_T(R_soft)*R_T(P)))_i，i∈(0，K)

featur_R＝W*feature_soft-region

RC-Module使用注意力机制的思想，设计了区域上下文学习模块，增强的区域上下文特征的区域特征与像素级特征相结合，形成特征的整合feature_region：

feature_region＝R_T¹(R_T²(P)*R_T(feature_R))

采取skip链接方法，将特征整合的特征与pixel特征链接获得经过RC-Module的增强特征F，最后的区域上下文模块计算公式为：

F＝cat(feature_region||P)

所述S3具体为：

DeeplabV3是多尺度模型，通过ASPP结构，以多个不同空洞卷积率的方法初步整合图像的多尺度特征，采用ParseNet的方法，在全局上使用适应性全局池化，获得全局的信息，Deeplabv3模型是考虑多尺度和一定全局上下文关系的有效模型，采用DeeplabV3作为模型的特征提取器-Backbone，其中ASpp的特征计算公式为：

其中Yi代表ASPP模块的输出，F代表根据不同的d进行的不同的卷积操作，D是一个空洞率集合，ASPP通过集合不同大小空洞率的信息从而达到考虑多尺度信息的目的，D为1、6、12和18；

当图像经过特征提取器Deeplabv3的整合后，再接收到RC-Module中进行特征的上下文关系整合，最后通过一个Decoder得到预测结果；

P＝K*2xC_in*c_out

其中P代表总的参数量，K代表卷积核大小，使用正方形的卷积核；C代表图像的维度；

深度可分离卷积的参数计算公式如下：

P＝K*2xC_in+C_in*C_out

所述S4具体为：

均交并比Miou的计算公式如下：

其中p_ij表示真实值为i，被预测为j的数量，K+1是类别个数，包含空类；p_ii是真正的数量；p_ij、p_ji则分别表示假正和假负。