CN111626300A

CN111626300A - 基于上下文感知的图像语义分割模型及建模方法

Info

Publication number: CN111626300A
Application number: CN202010375529.7A
Authority: CN
Inventors: 周全; 李圣华; 刘嘉; 王杰; 强勇; 樊亚文; 吴晓富
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-04
Anticipated expiration: 2040-05-07
Also published as: CN111626300B

Abstract

本申请公开了一种基于上下文感知的图像语义分割模型，包括：编码骨干网、解码器；编码骨干网和解码器之间连接有稠密注意力上下文网络；稠密注意力上下文网络包括分级细化残差模块、联合通道注意力模块、堆叠模块和注意力增强的空间金字塔模块。本申请还公开了上述模型的建模方法。本申请的图像语义分割模型中的稠密注意力上下文网络采用分级细化残差模块HRRB、联合通道注意力模块JCA和注意力增强的空间金字塔模块APSM的结合充分提取并融合来自不同骨干层的信息，得到高分辨率的特征图，为后续的解码端提供感受野丰富的信息，增强图像语义分割的精度。

Description

基于上下文感知的图像语义分割模型及建模方法

技术领域

本发明涉及图像语义分割，具体涉及一种基于上下文感知的图像语义分割模型及建模方法。

背景技术

图像语义分割是图像处理和计算机视觉技术的重要任务，需要为图像中的每个像素分配一个所属类别标签。图像语义分割任务可以分为两个子任务：定位和分类，因此像素的位置信息和语义信息都很重要。现有的用于处理图像语义分割任务的手段主要包括：全卷积网络(Fully Convolution Network，FCN)、编码器-解码器(Encoder-decoder)结构的网络、FastFCN等。

FCN由用于图像分类的卷积神经网络(Convolutional Neural Network，CNN)改进而来，用步长不为1的卷积操作或者空间池化层，使网络最终输出特征图的分辨率比输入图像的分辨率小32倍。但使用大倍率的上采样操作让网络输出特征图恢复到输入图像的尺寸大小时，特征图的边缘信息可能会严重丢失。

编码器-解码器结构的网络，如DeepLab系列网络，使用残差网ResNet作为骨干网，并将最后两个阶段的普通卷积替换为孔洞卷积(Dilated Convolution)。与原始ResNet相比，带有孔洞卷积的ResNet的最终输出特征图分辨率更高，提升了感受野。因此，只需要小倍率的上采样操作就可以将特征恢复到输入图像的大小。但是当特征图通道数很大时，高分辨率会导致计算量增大，网络训练更耗时且占用过多资源。

为了避免在骨干网中使用孔洞卷积，FastFCN引入了一种新的联合上采样模块(Joint Pyramid Upsampling，JPU)。JPU实质上是一个多层信息聚合模块，它将骨干网最后三层的信息进行融合，输出一个高分辨率的特征图。然而，JPU只使用3×3的卷积来提取单个层的信息，忽略了该层中不同大小对象的多尺度信息。高层特征具有更多的通道和更丰富的语义信息。JPU并没有充分利用多尺度信息，在执行上采样操作之前降低了特征通道数，导致语义信息丢失。此外，JPU的空间金字塔模块利用具有不同扩展率的深度可分离的扩展卷积来提取多尺度特征。但是，在捕获全局信息的能力上较为逊色。

发明内容

发明目的：本申请的目的在于提供一种基于上下文感知的图像语义分割模型及建模方法，用于解决现有技术中无法充分提取骨干网信息，导致特征图信息丢失的缺陷。

技术方案：本发明提供了一种基于上下文感知的图像语义分割模型，包括：编码骨干网、解码器；编码骨干网和解码器之间连接有稠密注意力上下文网络(Dense-attentionContext Module，DCM)；稠密注意力上下文网络包括分级细化残差模块、联合通道注意力模块、堆叠模块和注意力增强的空间金字塔模块(Attention-augmented Pyramid SpatialModule，APSM)；

编码骨干网被配置为将第一输入图像进行逐层提取，得到由低层到高层的多层不同尺寸的第一特征图像；

分级细化残差模块被配置为对每层的第一特征图像进行特征提取，得到每层的第二特征图像；

联合通道注意力模块被配置为针对每层的第二特征图像，融合所有高层特征得到本层的通道注意力权重向量，并将本层的通道注意力权重向量与本层的第二特征图像相乘，得到每层的第三特征图像；

堆叠模块被配置为将每层的第三特征图像调整至相同的特征尺寸后沿通道方向进行堆叠，得到堆叠特征图；

注意力增强的空间金字塔模块被配置为针对堆叠特征图在空间注意力和通道注意力上进行提升，得到待解码特征图；

解码器用于将待解码特征图进行解码，得到图像语义分割结果。

进一步地，分级细化残差模块包括与第一特征图像一一对应的多个分级细化残差子块；分级细化残差子块包括降维单元、分支提取单元和通道联系建立单元；

降维单元被配置为采用1×1卷积将本层的第一特征图像进行降维；

分支提取单元被配置为采用普通卷积、多个分解卷积以及全局平均池化层分别对降维后的第一特征图像分别进行提取处理，得到各自对应的分支特征图；

通道联系建立单元被配置为将所有分支特征图堆叠后，采用1×1卷积建立通道联系，将卷积后结果与本层的第一特征图相加，得到本层的第二特征图像。

进一步地，联合通道注意力模块包括与第二特征图像一一对应的多个联合通道注意力子块和第一加性融合子块；

联合通道注意力子块被配置为：

将本层与高层的第二特征图像堆叠后，分别进行针对分辨率的全局平均池化处理和全局最大池化处理；

将处理后的结果分别输入参数共享的卷积层，将卷积层的输出相加后输入Sigmoid函数中激活，得到本层的通道注意力权重向量；

第一加性融合子块被配置为将本层的通道注意力权重向量与本层的第二特征图像相乘，得到本层的第三特征图像。

进一步地，堆叠模块包括堆叠子块以及与高层的第三特征图像一一对应的多个尺寸调整子块；

尺寸调整子块被配置为将本层的第三特征图像尺寸调整至与最低层的第三特征图像尺寸一致的第四特征图像；

堆叠子块被配置为将最低层的第三特征图像与其他高层的第四特征图像堆叠，得到堆叠特征图。

进一步地，尺寸调整子块可采用与本层的第三特征图像尺寸匹配的一个或多个反卷积来调整本层的第三特征图像的尺寸。

进一步地，注意力增强的空间金字塔模块包括孔洞卷积子块、空间注意子块、通道注意子块和第二加性融合子块；

孔洞卷积子块被配置通过具有不同孔洞率的深度可分离的孔洞卷积，将堆叠特征图的通道特征和空间特征分离，得到孔洞输出；

空间注意子块被配置为基于孔洞输出，提升空间注意力，得到空间注意特征分支；

通道注意子块被配置为基于孔洞输出，提升通道注意力，得到通道注意特征分支；

第二加性融合子块，将空间注意特征分支和通道注意特征分支相加，得到待解码特征图像。

进一步地，孔洞卷积子块被配置为将堆叠特征图通过1×1的卷积调整通道数后分别输入至多个具有不同孔洞率的深度可分离的孔洞卷积，并将多个孔洞卷积的输出堆叠，得到孔洞输出。孔洞卷积的分支数量可根据实际需求进行选择，孔洞率分别是1、2、4、8…以2的次方翻倍。

进一步地，空间注意子块被配置为：

对孔洞输出分别进行针对通道数的全局平均池化处理和全局最大池化处理；

将处理后的结果堆叠后经卷积处理并经Sigmoid函数激活后得到空间注意力权重矩阵；

将空间注意力权重矩阵与孔洞输出相乘，得到空间注意特征分支。

进一步地，通道注意子块被配置为：

对孔洞输出分别进行针对分辨率的全局平均池化处理和全局最大池化处理；

将处理后的结果分别输入参数共享的卷积层，将卷积层的输出相加后，输入Sigmoid函数中激活，得到整体的通道注意力权重向量；

将整体的通道注意力权重向量与孔洞输出相乘，得到通道注意特征分支。

本申请还提供了一种基于上下文感知的图像语义分割模型建模方法，包括：

构建图像语义分割模型，图像语义分割模型为上述图像语义分割模型；

基于训练算法对图像语义分割模型进行迭代训练。

有益效果：与现有技术相比，本申请的图像语义分割模型中的稠密注意力上下文网络采用分级细化残差模块HRRB、联合通道注意力模块JCA和注意力增强的空间金字塔模块APSM的结合充分利用来自不同骨干层的信息，得到高分辨率的特征图，为后续的解码端提供感受野丰富的信息，增强图像语义分割的精度。

附图说明

图1为本申请的图像语义分割模型整体结构图；

图2为本申请模型中的HRRB结构及与其他卷积块的结构比较图；

图3为本申请模型中的JCA结构及与其他通道注意力模块的比较图；

图4(a)为本申请模型中的APSM结构图；

图4(b)为APSM中的空间注意子块结构图；

图4(c)为APSM中的通道注意子块结构图；

图5为本申请的图像语义分割模型与其他网络模型在Cityscapes数据集上的分割结果定性比较图。

具体实施方式

下面结合附图和实施例对本发明做进一步描述：

本发明提供了一种基于上下文感知的图像语义分割模型，如图1所示，包括：编码骨干网1、解码器3；编码骨干网和解码器之间连接有稠密注意力上下文网络(Dense-attention Context Module，DCM)2；稠密注意力上下文网络2包括分级细化残差模块201、联合通道注意力模块202、堆叠模块203和注意力增强的空间金字塔模块(Attention-augmented Pyramid Spatial Module，APSM)204。

编码骨干网1被配置为将第一输入图像进行逐层提取，得到由低层到高层的多层不同尺寸的第一特征图像。具体地，在本实施例中，采用全卷积网络FCN作为编码骨干网，以ResNet50为例，将骨干网各层标记为Stem层和第1-4层。假设输入的RGB图像大小为3×H×W(通道×高×宽)，第1～4层中的特征图大小分别为C_i×H_i×W_i，i为对应层。8C₁＝4C₂＝2C₃＝C₄，H₁＝2H₂＝4H₃＝8H₄，W₁＝2W₂＝4W₃＝8W₄。层数越大通道数越多，分辨率越小。高层(High-level)特征通道数多，故语义信息丰富。

分级细化残差模块201被配置为对每层的第一特征图像进行特征提取，得到每层的第二特征图像，每层的第二特征图像尺寸不变，仍为C_i×H_i×W_i。

具体地，分级细化残差模块201包括与第一特征图像一一对应的多个分级细化残差子块(Hierarchical Refinement Residual Block，HRRB)；如图1所示，分级细化残差模块201包括与第2-4层所提取的三个第一特征图像一一对应的三个HRRB。

如图2(a)所示，分级细化残差子块HRRB包括降维单元、分支提取单元和通道联系建立单元。

降维单元被配置为采用1×1卷积将本层的第一特征图像进行降维，使通道数将为输入通道数的1/4，分辨率不变。

分支提取单元被配置为采用普通卷积、多个分解卷积以及全局平均池化层分别对降维后的第一特征图像分别进行提取处理，得到各自对应的分支特征图；在本实施例中，采用普通3×3卷积，1×5和5×1的分解卷积，1×7和7×1分解卷积分别对降维后的特征进行卷积。另外，在分辨率上，采用全局平均池化层提取全局信息(通道数不变，分辨率降为1×1，后用上采用操作恢复分辨率)。在本申请的其他实施例中，可增加分支提取单元中分解卷积的数量以增加图像的感受野。

通道联系建立单元被配置为将上述四个分支特征图堆叠后，采用1×1卷积建立通道联系，将卷积后结果与本层的第一特征图相加，得到本层的第二特征图像。

图2(b)～图2(d)中列举其他模块的结构以更好说明本申请HRRB结构的优点：

图2(b)是残差网ResNet中的一种常见模块，称为瓶颈残差块(BottleneckBlock)。其特点在于主分支三层结构分别是1×1、3×3、1×1卷积层，其中两个1×1卷积层用来降低和增加通道维度，并且在卷积层之间加入了批量归一化层，激活层。对于边侧分支采用了捷径连接，直接和主分支输出做逐像素点相加。由于主分支呈沙漏型或者瓶颈状，所以称这种构建模块为瓶颈残差块。这种残差模块好处在于1×1卷积增降维度有利于减少模型参数，构建更为紧凑的网络结构，使得网络可以进一步增加深度，但仅使用3×3大小的卷积核，无法准确提取不同大小物体的特征；

图2(c)是Global Convolutional Network(GCN)的核心模块。将标准7×7卷积分解为两个1×7和7×1卷积，并采用双分支的结构，最后将两个分支的特征图采用逐像素相加的形式融合。采用大的卷积核感受野会更大但是会带来更大的计算量，采用分解卷积的方式可以在影响很少的性能的前提下，降低计算量，提高网络的推理速度。但是在该结构中，感受野也较为固定，并且双分支均采用1×7和7×1分解卷积的结构并没有带来很大的性能提升；

图2(d)被称为Inception结构，这是一个多分支的结构，利用多个普通的3×3卷积堆叠，从而得到不同的感受野。但小的卷积核多次堆叠的效果并没有直接使用一个大的卷积核的效果好。

HRRB通过使用不同大小的卷积核提取骨干网单一层中的不同尺度目标信息，并通过全局池化层更好的把握当前层的全局信息，最后将不同分支的特征进行融合，从而达到对当前层信息的充分提取的目的。

联合通道注意力模块202被配置为针对每层的第二特征图像，融合所有高层特征得到本层的通道注意力权重向量，并将本层的通道注意力权重向量与本层的第二特征图像相乘，得到每层的第三特征图像。

具体地，如图3(a)所示，联合通道注意力模块包括与第二特征图像一一对应的多个联合通道注意力子块(Joint Channel Attention Module，JCA)和第一加性融合子块。

联合通道注意力子块JCA被配置为：

将本层与高层的第二特征图像堆叠后，分别进行针对分辨率的全局平均池化处理和全局最大池化处理。举例说明，假设有具有n个不同级别的网络层，每一层的特征图尺寸是C×H×W，而堆叠的特征映射大小是nC×H×W。堆叠后的特征分别通过全局平均池化操作和全局最大池化操作生成两个不同的向量，大小均为nC×1×1。

将处理后两个向量分别输入参数共享的卷积层，生成两个大小为C×1×1的向量，将二者相加后输入Sigmoid函数中激活，得到本层的通道注意力权重向量。

在本实施例中，第3层和第4层可提供相比第2层的更多语义信息，因此融合相对第2层而言的所有高层特征以产生第2层的通道注意力权重向量。相反，由于第4层已经是最高层，故该层的通道注意力权重向量由仅自身产生。假设第2层特性映射的通道数为C，为了产生第2层的通道注意力权重向量，分别使用全局平均池化操作和最大池化操作对分辨率进行转换，将第2层、第3层和第4层的特征大小分别转换为两组C×1×1、2C×1×1和4C×1×1的向量。将由同一种池化操作生成的向量进行堆叠，得到两组大小为7C×1×1的向量。然后，使用与参数共享的两个卷积层来生成两个大小为C×1×1的向量。将这两组大小为C×1×1的向量进行相加并使用一个Sigmoid函数激活，最终以获得大小为C×1×1的通道注意力权重向量，即为第2层的通道注意力权重向量。

图3(b)(c)列举其他通道注意模块以供说明本申请中JCA的优点：

图3(b)为SENet(J.Hu等人提出的Squeeze-and-excitation Networks)中所使用的通道注意力模块。在SENet中，通道注意力模块的加权向量仅由当前层的特征图生成。我们假设输入特征图的大小为C×H×W。全局平均池化操作用于将输入转换为C×1×1。两个1×1的卷积操作用于映射通道信息，其中，第一个卷积层将输入特征的维数减少r倍，第二个卷积层将维数恢复为C。大小为C×1×1的通道注意向量通过一个Sigmoid函数激活，并将其与原始特征映射相乘。

图3(c)是另一个通道注意模块的结构，该模块用于DFN(C.Yu等人提出的Learninga discriminative feature network for semantic segmentation)。高层的特征与浅层的特征相堆叠。生成的信道注意加权向量包含了高层的丰富语义信息。

由图3(b)(c)可见，传统的通道注意模块只利用当前层及其邻接高层的语义信息，忽略了所有更高层的特征映射；而本申请的JCA可以更好地融合所有高层的特征，充分捕获图像全局信息。

堆叠模块203被配置为将每层的第三特征图像调整至相同的特征尺寸后沿通道方向进行堆叠，得到堆叠特征图。具体地，堆叠模块包括堆叠子块以及与高层的第三特征图像一一对应的多个尺寸调整子块。

尺寸调整子块可采用与本层的第三特征图像尺寸匹配的一个或多个反卷积将本层的第三特征图像的尺寸调整至与最低层的第三特征图像尺寸一致的第四特征图像；如图1所示，在本实施例中，由于各层的第三特征图像的尺寸不同，无法直接进行特征堆叠(Concatenate)，需要通过3×3，步长为2的反卷积操作进行对应层中的特征图尺寸的调整，一次该反卷积操作可将特征图通道减半，特征图宽、高均扩大两倍，通过2次3×3，步长为2的反卷积操作可将第4层中的特征尺寸放大4倍，达到第2层中的特征尺寸大小，得到第4层的第四特征图；1次3×3，步长为2的反卷积操作可将第3层中的特征尺寸等同于第2层中的特征尺寸，得到第3层的第四特征图。

堆叠子块被配置为将第2层的第三特征图像与第3层和第4层的的第四特征图像堆叠，得到堆叠特征图。

注意力增强的空间金字塔模块204被配置为针对堆叠特征图在空间注意力和通道注意力上进行提升，得到待解码特征图。如图4(a)所示，注意力增强的空间金字塔模块包括孔洞卷积子块、空间注意子块401、通道注意子块402和第二加性融合子块。假设堆叠之后的特征图分辨率为3C×H×W，孔洞卷积子块被配置将堆叠特征图通过1×1的卷积调整通道数后将特征尺寸变为C′×H×W；然后输入至四个具有不同孔洞率的深度可分离的孔洞卷积(S-DCONs，Separable-depth Dilated Convolutions)，S-DCON是指将标准孔洞卷积分解为一个深度孔洞卷积(Depth-wise Dilated Convolution)和一个1×1的点卷积(Point-wiseConvolution)，先逐通道进行孔洞卷积，再通过使用1×1点卷积学习输入通道的线性组合，来恢复通道依赖性。将堆叠特征图的通道特征和空间特征分离，并将四个孔洞卷积的输出堆叠，得到孔洞输出。在本申请的另外实施例中，孔洞卷积的分支数量可根据实际需求进行选择，孔洞率分别取1、2、4、8…，以2的次方翻倍。

如图4(b)所示，空间注意子块被配置为对孔洞输出分别进行针对通道数的全局平均池化处理和全局最大池化处理；分别将输入压缩为两个1×H×W大小的特征图并将它们堆叠为一个2×H×W大小的特征图。将二者堆叠后经7×7的卷积处理得到1×H×W大小的特征图后经Sigmoid函数激活后得到1×H×W大小的空间注意力权重矩阵。将图4(b)输出的空间注意力权重矩阵与孔洞输出相乘，得到空间注意特征分支。

如图4(c)所示，通道注意子块被配置对孔洞输出分别进行针对分辨率的全局平均池化处理和全局最大池化处理，将输入大小转换为两个C×1×1大小的向量；将处理后的两个向量分别输入参数共享的卷积层，将卷积层的输出相加后，输入Sigmoid函数中激活，得到整体的通道注意力权重向量。将4(c)输出的整体的通道注意力权重向量与孔洞输出相乘，得到通道注意特征分支。

解码器用于将待解码特征图进行解码，得到图像语义分割结果。解码头可以使用其他的用于语义分割的解码器，如DeepLab中的ASPP模块。

另一方面，本申请还提供了一种基于上下文感知的图像语义分割模型建模方法，包括：

基于训练算法对图像语义分割模型进行迭代训练。训练算法可将输出上采样至原图分辨率大小，与图像真实标签计算损失，通过反向传播即可训练整个网络。

仿真分析：

为了验证本发明设计网络的有效性，在广泛使用的Cityscapes数据集上对网络进行了训练、评估与测试。Cityscapes包含一个带有精细标注(gtFine，ground truth Fineannotation)的数据集，其中训练集/验证集/测试集分别包含图像数目为2975/500/1525张，它还包含一个带有粗略标注(gtCoarse，ground truth Coarse annotation)的数据集，其包含20k张粗略标注的图像。在训练时设定分割类别数为20，即19个目标类别和1个背景类别，训练后，与其他网络输出的分割结果定性比较。以ResNet50用作主干网、ASPP作为解码头为例，图5中从左到右是(a)输入图像，(b)真实标签(Ground Truth)，(c)我们的DCM+ASPP，(d)使用孔洞卷积的ResNet50+ASPP和(e)JPU+ASPP。从图中可看出采用DCM连接骨干网和解码头的网络分割结果拥有更多细节。为了评估分割性能，评估指标采用标准杰卡德系数(Jaccard Index)，通常也被称为PASCAL VOC交叉联合(或交并比)度量，下面为IoU(Intersection-over-Union)的计算公式：

其中TP、FP、FN分别代表在整个Cityscapes测试集上确定的真正类(TruePositive)、假正类(False Positive)、假负类(False Negative)像素点的个数。本发明设计的网络在仅使用Fine Annotation训练情况下，以ASPP作为解码头，以ResNet50、ResNet101分别作为骨干网，用DCM连接它们。在测试集上的mIoU(平均交并比，将各类的IoU得分相加求平均，不同数据集的类别数不同)分别为78.2％、79.4％。如图5所示，实验结果表明，本发明设计的DCM可以有效的适应不同的骨干网和解码头，并可以充分地提取骨干网中的信息，使网络拥有更好的分割精度。无论从定量还是定性的结果进行比较，都充分说明了本发明在实时图像语义分割任务中的优越性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于上下文感知的图像语义分割模型，其特征在于，包括：编码骨干网、解码器；所述编码骨干网和所述解码器之间连接有稠密注意力上下文网络；所述稠密注意力上下文网络包括分级细化残差模块、联合通道注意力模块、堆叠模块和注意力增强的空间金字塔模块；

所述编码骨干网被配置为将第一输入图像进行逐层提取，得到由低层到高层的多层不同尺寸的第一特征图像；

所述分级细化残差模块被配置为对每层的第一特征图像进行特征提取，得到每层的第二特征图像；

所述联合通道注意力模块被配置为针对每层的第二特征图像，融合所有高层特征得到本层的通道注意力权重向量，并将本层的通道注意力权重向量与本层的第二特征图像相乘，得到每层的第三特征图像；

所述堆叠模块被配置为将每层的第三特征图像调整至相同的特征尺寸后沿通道方向进行堆叠，得到堆叠特征图；

所述注意力增强的空间金字塔模块被配置为针对堆叠特征图在空间注意力和通道注意力上进行提升，得到待解码特征图；

所述解码器用于将待解码特征图进行解码，得到图像语义分割结果。

2.根据权利要求1所述的模型，其特征在于，所述分级细化残差模块包括与所述第一特征图像一一对应的多个分级细化残差子块；所述分级细化残差子块包括降维单元、分支提取单元和通道联系建立单元；

所述降维单元被配置为采用1×1卷积将本层的第一特征图像进行降维；

所述分支提取单元被配置为采用普通卷积、多个分解卷积以及全局平均池化层分别对降维后的第一特征图像分别进行提取处理，得到各自对应的分支特征图；

所述通道联系建立单元被配置为将所有分支特征图堆叠后，采用1×1卷积建立通道联系，将卷积后结果与本层的第一特征图相加，得到本层的第二特征图像。

3.根据权利要求1所述的模型，其特征在于，所述联合通道注意力模块包括与所述第二特征图像一一对应的多个联合通道注意力子块和第一加性融合子块；

所述联合通道注意力子块被配置为：

所述第一加性融合子块被配置为将本层的通道注意力权重向量与本层的第二特征图像相乘，得到本层的第三特征图像。

4.根据权利要求1所述的模型，其特征在于，所述堆叠模块包括堆叠子块以及与高层的第三特征图像一一对应的多个尺寸调整子块；

所述尺寸调整子块被配置为将本层的第三特征图像尺寸调整至与最低层的第三特征图像尺寸一致的第四特征图像；

所述堆叠子块被配置为将最低层的第三特征图像与其他高层的第四特征图像堆叠，得到堆叠特征图。

5.根据权利要求4所述的模型，其特征在于，所述尺寸调整子块可采用与本层的第三特征图像尺寸匹配的一个或多个反卷积来调整本层的第三特征图像的尺寸。

6.根据权利要求1所述的模型，其特征在于，所述注意力增强的空间金字塔模块包括孔洞卷积子块、空间注意子块、通道注意子块和第二加性融合子块；

所述孔洞卷积子块被配置通过具有不同孔洞率的深度可分离的孔洞卷积，将堆叠特征图的通道特征和空间特征分离，得到孔洞输出；

所述空间注意子块被配置为基于孔洞输出，提升空间注意力，得到空间注意特征分支；

所述通道注意子块被配置为基于孔洞输出，提升通道注意力，得到通道注意特征分支；

所述第二加性融合子块，将所述空间注意特征分支和所述通道注意特征分支相加，得到待解码特征图像。

7.根据权利要求6所述的模型，其特征在于，所述孔洞卷积子块被配置为将所述堆叠特征图通过1×1的卷积调整通道数后分别输入至多个具有不同孔洞率的深度可分离的孔洞卷积，并将多个孔洞卷积的输出堆叠，得到孔洞输出。

8.根据权利要求6所述的模型，其特征在于，所述空间注意子块被配置为：

对所述孔洞输出分别进行针对通道数的全局平均池化处理和全局最大池化处理；

将所述空间注意力权重矩阵与所述孔洞输出相乘，得到空间注意特征分支。

9.根据权利要求6所述的模型，其特征在于，所述通道注意子块被配置为：

对所述孔洞输出分别进行针对分辨率的全局平均池化处理和全局最大池化处理；

将所述整体的通道注意力权重向量与所述孔洞输出相乘，得到通道注意特征分支。

10.一种基于上下文感知的图像语义分割模型建模方法，其特征在于，包括：

构建图像语义分割模型，所述图像语义分割模型为权利要求1～9中任一权利要求所述的图像语义分割模型；

基于训练算法对所述图像语义分割模型进行迭代训练。