CN116258850A

CN116258850A - 图像语义分割方法、电子设备以及计算机可读存储介质

Info

Publication number: CN116258850A
Application number: CN202211600997.5A
Authority: CN
Inventors: 强勇; 殷俊; 朱树磊; 李平生
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-06-13

Abstract

本申请公开了图像语义分割方法、电子设备以及计算机可读存储介质，包括：获取到目标图像及其图像梯度图；将目标图像输入到语义分割网络，通过编码器得到浅层特征图与深层特征图；语义分割网络包括级联的编码器、语义‑边界双分支解码器以及输出层；通过解码器的语义融合分支对多张特征图进行特征融合，得到语义分割预测结果；通过解码器的边界细化分支基于图像梯度图以及多张特征图获取到边界信息，并基于边界信息对多张特征图进行特征融合，得到边界预测结果；通过输出层对语义分割预测结果与边界预测结果进行融合，得到目标图像的语义分割图像。本申请能够进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率以及分割效果。

Description

图像语义分割方法、电子设备以及计算机可读存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及图像语义分割方法、电子设备以及计算机可读存储介质。

背景技术

随着计算机视觉算法的飞速发展，语义分割(Semantic Segmentation)逐渐成为图像处理和机器视觉技术中关于图像理解的重要内容。语义分割的目的是通过训练图像的内容，从而预测图像中每个像素的语义类别。

目前，基于卷积神经网络的语义分割算法实现了越来越高的精度表现，但是高精度的模型往往伴随着复杂的网络结构和大量的计算资源，会严重影响到网络的运行时间和推理速度。现有技术中，为减少语义分割的计算资源，通常采用轻量级网络来实现推理速度和分割精度的平衡，例如，使用深度可分离卷积的方式来降低计算量，并利用编码器中最后的输出特征作为解码器的输入特征，以获取图像最终的预测分割图。

然而，上述轻量级网络的解码器一般仅使用编码器中某一层的语义信息和/或通道信息进行融合，并未充分提取以及融合空间边界信息，对图像中的细节不敏感，导致网络的分割性能受到影响，无法准确分割出目标的边界，从而影响最终的分割效果。

发明内容

本申请主要解决的技术问题是提供图像语义分割方法、电子设备以及计算机可读存储介质，能够解决现有技术无法准确分割目标边界的问题。

为解决上述技术问题，本申请采用的第一技术方案是提供一种图像语义分割方法，包括：获取到目标图像以及目标图像的图像梯度图；将目标图像输入到语义分割网络，通过语义分割网络的编码器对目标图像进行特征提取，得到目标图像的浅层特征图与深层特征图；其中，语义分割网络包括级联的编码器、语义-边界双分支解码器以及输出层；将浅层特征图与深层特征图输入到语义-边界双分支解码器的语义融合分支中，以对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，得到语义分割预测结果；以及，将图像梯度图、浅层特征图以及深层特征图输入到语义-边界双分支解码器的边界细化分支中，以基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，得到边界预测结果；将语义分割预测结果与边界预测结果输入至输出层，通过输出层对语义分割预测结果与边界预测结果进行融合，得到目标图像的语义分割图像。

为解决上述技术问题，本申请采用的第二技术方案是提供一种电子设备，包括：存储器，用于存储程序数据，存储程序数据被执行时实现如上述任一项所述的图像语义分割方法中的步骤；处理器，用于执行存储器存储的程序指令以实现如上述任一项所述的图像语义分割方法中的步骤。

为解决上述技术问题，本申请采用的第三技术方案是提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任一项所述的图像语义分割方法中的步骤。

本申请的有益效果是：区别于现有技术，本申请提供图像语义分割方法、电子设备以及计算机可读存储介质，通过语义-边界双分支解码器中的语义融合分支对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，能够充分融合不同层中的语义特征，从而加强语义分割网络对目标的识别和定位准确性，使语义分割预测结果具有多尺度的语义信息。进一步地，通过边界细化分支基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，能够充分学习并融合不同层所包含的边界特征，从而增强语义分割网络对目标轮廓的识别能力以及提高对目标与目标之间边缘的区分度，提高边界预测结果中对目标边界分割的准确度。通过对语义分割预测结果与边界预测结果进行融合，能够在更好地融合图像信息的基础上，进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率，继而提升分割效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请语义分割网络一实施方式的架构图；

图2是本申请极致高效跨阶段非瓶颈残差模块一实施方式的架构图；

图3是图2中分解残差模块一实施方式的架构图；

图4是图1中第一融合单元一实施方式的架构图；

图5是图4中通道注意力模块一实施方式的架构图；

图6是图4中双向空间注意力模块一实施方式的架构图；

图7是图1中第二融合单元一实施方式的架构图；

图8是本申请语义分割网络的训练方法一实施方式的流程示意图；

图9是本申请图像语义分割方法第一实施方式的流程示意图；

图10是本申请图像语义分割方法第二实施方式的流程示意图；

图11是本申请图像语义分割方法第三实施方式的流程示意图；

图12是本申请图像语义分割方法第四实施方式的流程示意图；

图13是本申请图像语义分割装置一实施方式的结构示意图；

图14是本申请电子设备一实施方式的结构示意图；

图15是本申请计算机可读存储介质一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应当理解，本文中使用的术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请首先提供一种语义分割网络。

具体地，请参阅图1，图1是本申请语义分割网络一实施方式的架构图。在本实施方式中，语义分割网络100包括级联的编码器10、语义-边界双分支解码器以及输出层30。

本实施方式中，编码器10用于图像特征提取，语义-边界双分支解码器20用于还原特征图像尺寸，输出层30用于输出最后的分割结果。

本实施方式中，编码器10包括三组特征提取单元11以及下采样模块12。其中，下采样模块12用于缩小图像的分辨率，特征提取单元11用于提取图像特征。

本实施方式中，语义-边界双分支解码器包括语义融合分支21、边界细化分支22以及上采样模块。其中，上采样模块用于缩小图像的分辨率。语义融合分支21用于生成语义分割预测结果。边界细化分支22用于生成边界预测结果。

其中，语义融合分支21包括第一融合单元211与逐点卷积单元212，边界细化分支22包括第二融合单元221与逐点卷积单元222。

可以理解地，通过将边界细化分支22的输出特征(边界预测结果)与语义融合分支21的输出特征(语义分割预测结果)进行融合，能够在更好地融合图像信息的基础上，进一步刻画语义分割预测结果中的物体边界，从而提高语义分割网络100的分割准确率，继而提升语义分割网络100对图像的分割效果。

本实施方式中，编码器10包括3个阶段，每组特征提取单元11表示一个提取阶段。其中，第一组特征提取单元11用于提取低级特征(浅层特征)，第二组特征提取单元11与第三组特征提取单元11用于提取高级特征(深层特征)。

其中，第一组特征提取单元11包括三个极致高效跨阶段非瓶颈残差模块((Extremely Efficient Cross Stage Non-bottleneck Residual Module，EECSNB)，第二组特征提取单元11包括两个EECSNB，第三组特征提取单元11包括八个EECSNB。

具体地，请参阅图2与图3，图2是本申请极致高效跨阶段非瓶颈残差模块一实施方式的架构图，图3是图2中分解残差模块一实施方式的架构图。

本实施方式中，将目标图像经过下采样后作为语义分割网络100的编码器10的输入图像，先将输入图像输入到编码器10的第一组特征提取单元11中，第一组特征提取单元11中的EECSNB接收到输入图像后，首先对输入图像的特征通道进行通道拆分(ChannelSplit)，以将特征通道分为两部分，并将一部分送入左侧支路，另一部分并行送入右侧支路。

可以理解地，本实施方式所提供的拆分方式是在网络架构里直接设置切割方式，并没有使用逐点卷积(1×1卷积，1×1Conv)，因而不需要进行训练，不会增加任何参数，能够降低模型的计算复杂度。

本实施方式中，左右两侧支路均包括一个3×1和1×3的非对称卷积单元，即分解卷积单元。其中，左侧支路经过分解卷积单元提取图像特征后，对网络层进行批量归一化(Batch Normalization，BN)。其中，右侧支路经过分解残差模块(Factorized ResidualBlock，FR Block)提取图像特征后，对网络层进行批量归一化以及非线性激活，且使用的激活函数为线性整流函数(Rectified Linear Unit，ReLU)。

现有技术中，每个网络层后均会设置ReLU激活函数，而大量的ReLU激活函数的使用可能会造成信息丢失或特征破坏。本实施方式中，仅在右侧支路的FR Block后以及左侧支路的分解卷积单元后设置ReLU激活函数，既能够通过非线性数据加强网络的表示能力，又能够避免过多ReLU激活函数的使用而造成的信息丢失。

本实施方式中，左侧支路采用一组3×1和1×3的非对称卷积单元来提取输入图像的局部特征(浅层特征)，其中，局部特征需要全面，不需要很深层次。右侧支路则利用FRBlock以及另一组3×1和1×3的非对称卷积单元来提取输入图像更深层次的语义特征(深层特征)。

其中，FR Block包括两组3×1和1×3的非对称卷积单元，能够利用两组分解卷积提取更深层次的特征，同时为了弥补分解卷积的表达能力不足的缺点，FR Block中的第二组非对称卷积为空洞卷积单元，空洞卷积能够扩大图像的感受野(receptive field)，从而使FR Block可以自适应地在每个网络阶段中提取到相应尺度的特征。

其中，感受野指的是某一层输出结果中一个元素所对应的输入层的区域大小，越大的感受野包含越多的上下文关系，能够提取到更多的语义特征，从而使输出的特征图中包括更多的语义信息。其中，空洞卷积指的是在卷积区域中注入空洞，以此来增加感受野。空洞卷积仅包括带孔系数r，r指的是空洞的数量，r可以为0也可以为大于0的任意整数。可以理解地，当r为0时，空洞卷积即为普通的深度卷积，当r大于0时，才为空洞卷积。

其中，FR Block主要是提取深层特征，为了避免FR Block漏掉某些浅层特征，右侧支路在FR Block后还设置一组3×1和1×3的非对称卷积单元，以更全面地提取浅层特征，从而弥补右侧支路可能存在的对特征表达不足的缺点。

本实施方式中，在左侧支路与右侧支路提取完输入图像的特征后，将左侧支路提取的特征与右侧支路提取的特征进行级联(concat)，并在级联之后进行逐像素相加(add)。

其中，逐像素相加指的是左侧支路得到的特征图中的每个像素与右侧支路得到的特征图中的每个像素进行加法运算。

进一步地，在相加后引入特征通道的通道重排(Channel Shuffle)，以通过通道重排实现左右两侧支路之间的信息交互。其中，通道重排指的是将左右两侧支路获得的特征通道进行分组，分组后平摊，以恢复通道数。

可以理解的，从卷积方式来看，本实施方式所提供的EECSNB并未使用分组卷积和1×1卷积，且从特征拆分以及特征重排的角度而言，也未引入更多的参数，因而能够极大降低模型的计算复杂度和内存访问量。进一步地，由于EECSNB中还包括FR Block，因而还能够通过增强对深层特征的提取来增强整体模块的特征表达能力。

本实施方式中，经过第一组特征提取单元11进行特征提取后，得到的浅层特征图的通道数量与第一组特征提取单元11中卷积单元(卷积核)的数量相等。进一步地，将得到的浅层特征图输入至第二组特征提取单元11进行特征提取，得到的新的浅层特征图的通道数量与第二组特征提取单元11中卷积单元的数量相等。进一步地，将新的浅层特征图输入至第三组特征提取单元11进行特征提取，得到的深层特征图的通道数量与第三组特征提取单元11中卷积单元的数量相等。

具体地，每一个卷积单元对输入图像进行一次特征提取，会得到一张H×W的特征图，其中，H表示特征图的高度(height)，W表示特征图的宽度(weight)。将多个卷积单元提取的特征图堆叠在一起，形成浅层特征图或深层特征图，其特征维度表示为C×H×W，其中，C表示特征图的特征通道数(channel)，也可以理解为用于堆叠的特征图的总数量，其具象化表示可参见图5中最后得到的通道注意力图C”的结构。

对于像素点而言，每个卷积单元提取的特征图会包括其一部分特征，需要将全部卷积单元提取的特征图堆叠在一起，才能基于多个特征通道获取到详尽的图像特征。

本实施方式中，语义-边界双分支解码器从编码器10的每个提取阶段获取到对应的特征图后，通过语义融合分支21融合编码器10中各阶段的特征提取单元11提取的不同层所包含的语义信息和通道信息，以生成语义分割预测结果；以及通过边界细化分支22融合编码器10中各特征提取单元11提取的不同层所包含的边界信息，以生成边界预测结果。

其中，通过语义融合分支21中的第一融合单元211融合各层所包含的语义信息和通道信息后，通过逐点卷积单元212减少通道数，以将解码后的特征图的通道数转变为所需的分割类别数量，从而生成语义分割预测结果。同样地，通过边界细化分支22中的第二融合单元221融合各层所包含的边界信息后，通过逐点卷积单元222减少通道数，以将解码后的特征图的通道数转变为所需的边界类别数量，从而生成边界预测结果。

本实施方式中，第一融合单元211为融合双向全局注意力模块(AggregationBilateral Global Attention Block，ABGAB)，包括通道注意力模块(Channel AttentionModule，CAM)、双向空间注意力模块(Bilateral Spatial Attention Module，BSAM)以及分解卷积单元。

具体地，请参阅图4、图5与图6，图4是图1中第一融合单元一实施方式的架构图，图5是图4中通道注意力模块一实施方式的架构图，图6是图4中双向空间注意力模块一实施方式的架构图。

本实施方式中，语义融合分支21对从编码器10处获取的深层特征图进行上采样，以使上采样后的深层特征图与获取的浅层特征图的分辨率一致后，将上采样后的深层特征图与浅层特征图进行堆叠，并将堆叠后的图像作为第一融合单元211的输入图像。将输入图像分别输入到第一融合单元211的通道注意力模块CAM、双向空间注意力模块BSAM以及一组3×1和1×3的分解卷积单元中。

本实施方式中，通道注意力模块CAM可以对通道间的依赖关系进行建模，对各个通道的重要性进行自适应地调整，并给重要通道施加较大的权重，次要特征施加较小的权重，即从全局信息出发，选择性地放大有价值的特征通道，抑制无用的特征通道，从而提升网络的性能。

具体地，假设输入通道注意力模块CAM的输入特征图为F_in∈R^C×H×W，其中，C表示特征图的通道数(channel)，H表示特征图的高度(height)，W表示特征图的宽度(weight)。对输入特征图F_in进行全局平均池化操作，以将每个通道上的空间信息聚合到对应通道的特征向量C'中，其中，特征向量C'的计算公式如下：

其中，F_in(i,j)为输入特征在第i行第j列的值，∑为求和函数。

经过全局平均池化操作后，输入特征图F_in的维度从C×H×W变为C×1×1。接着将特征向量C'送入1×1卷积中进行单点特征提取，继而经过一个Sigmoid(S型)激活函数进行归一化处理后取平均值，得到通道注意力图C”(也即通道权重)，保持每个通道注意力图C”的取值仍在(0,1)之间，其中，通道注意力图C”的计算公式如下：

C”＝δ(f_1×1*C')

其中，f_1×1表示1×1卷积，δ表示Sigmoid激活函数，*表示卷积操作。

本实施方式中，将输入特征图F_in输入到3×1和1×3的分解卷积单元中，以对输入特征图F_in进行非对称卷积，并将卷积提取的特征图记为F_m。

进一步地，将卷积提取的特征图F_m和通道注意力图C”进行逐像素相乘，得到通道加权后的特征图F_c，其中，通道加权后的特征图F_c的计算公式如下：

其中，

表示逐像素相乘。

其中，逐像素相乘表示卷积提取的特征图F_m中的每个像素与通道注意力图C”中的每个像素进行乘法运算。

可以理解地，本实施方式将不同深度网络层的通道堆叠在一起作为通道注意力模块CAM的输入，能够最大化利用编码器10中各个网络层的通道信息。进一步地，通过利用通道注意力模块CAM重新编码每个通道的重要性，能够有效提高语义分割网络100对目标的识别能力。

本实施方式中，双向空间注意力模块BSAM可以将传统的空间注意力分解成水平方向和垂直方向的空间注意力，以分别从水平方向和垂直方向捕获像素之间的长距离相关性(即长距离依赖性的位置关系)，从而获取两个不同维度下不同权重大小位置的双向空间注意力图，也即水平空间权重矩阵以及垂直空间权重矩阵。其中，双向空间注意力图与主干网络进行融合时，能够对高级特征进行特征指导，以引导高级特征学习更重要和更完整的对象区域。

具体地，假设输入双向空间注意力模块BSAM的输入特征图为F_in∈R^C×H×W，将输入特征图F_in送入1×1卷积中进行单点特征提取，接着将卷积提取的特征分别进行水平池化和垂直池化，得到水平矩阵G_h与垂直矩阵G_v，其中，水平矩阵G_h与垂直矩阵G_v的计算公式分别如

/>

其中，f_1×1表示1×1卷积，*表示卷积操作，∑为求和函数。

继而将水平矩阵G_h与垂直矩阵G_v分别经过一个Sigmoid激活函数进行归一化处理后取平均值，得到水平空间注意力图S_h与垂直空间注意力图S_v(也即水平空间权重矩阵S_h与垂直空间权重矩阵S_v)，其中，水平空间注意力图S_h与垂直空间注意力图S_v的计算公式分别如下：

S_h＝δ(G_h)

S_v＝δ(G_v)

其中，δ表示Sigmoid激活函数。

进一步地，将水平空间注意力图S_h与垂直空间注意力图S_v分别与通道加权后的特征图F_c逐像素相乘后再逐像素相加，得到空间加权后的特征图，并将空间加权后的特征图与卷积提取的特征图F_m逐像素相加，得到第一融合单元211的输出特征图F_cs，其中，输出特征图F_cs的计算公式如下：

其中，

表示逐像素相乘，/>

表示逐像素相加。

进一步地，将第一融合单元211的输出特征图F_cs送入逐点卷积单元212中进行1×1卷积，以将输出特征图F_cs的通道数转变为所需的分割类别数量，从而生成语义分割预测结果。

具体地，对于一个网络来说，网络的浅层部分输出的特征图中包含更多的边界信息和细节信息，网络的高层部分输出的特征图中包含更详细的语义信息。语义信息有利于像素的分类，而边界和细节信息能使目标边界分的更加细腻和准确。而无论是浅层特征还是深层特征，都保留着关键的空间位置信息，只是相比深层特征，浅层特征包含的空间信息更为丰富。

可以理解地，本实施方式将不同深度网络层的通道堆叠在一起作为双向空间注意力模块BSAM的输入，能够最大化利用编码器10中各个网络层的空间信息。进一步地，通过对传统的空间注意力方式进行优化，使其分成水平和垂直方向的空间注意力方式，还能够更好地捕获具有长距离依赖性的位置关系，从而提高语义分割网络100对目标的定位能力。

可以理解地，本实施方式提供的第一融合单元211(ABGAB)能够利用堆叠后丰富的通道特征生成通道注意力图，并以此编码了输入特征图F_in中每个通道的重要性，从而提高了模型的分类准确性。同时，通过从堆叠后的特征中提取水平空间注意力图S_h与垂直空间注意力图S_v，能够利用更丰富的位置信息和通道信息编码输入特征图F_in中每个像素的重要性，从而提高了语义分割网络100的定位准确度。

本实施方式中，第二融合单元221为高效空间注意力聚合模块(EfficientSpatial Attention Aggregation Block，ESAAB)，包括双向空间注意力模块BSAM以及分解卷积单元。

具体地，请参阅图7，图7是图1中第二融合单元一实施方式的架构图。

本实施方式中，边界细化分支22对从编码器10处获取的深层特征图进行上采样，以使上采样后的深层特征图与获取的浅层特征图的分辨率一致后，将上采样后的深层特征图与浅层特征图进行堆叠，并将堆叠后的图像作为第二融合单元221的输入图像。将输入图像分别输入到第二融合单元221的双向空间注意力模块BSAM以及一组3×1和1×3的分解卷积单元中。

具体地，假设输入第二融合单元221的输入特征图为F_in∈R^C×H×W。本实施方式中，为了使边界细化分支22更准确地刻画像素的边界信息，还需要利用Canny边缘检测算法对目标图像进行检测，以获取目标图像的图像梯度图，并将图像梯度图与输入特征图F_in进行级联，并将级联后的图像送入1×1卷积中进行单点特征提取，以最大化提取每个像素的边界信息。

进一步地，将包括边界信息的特征图输入双向空间注意力模块BSAM中，以通过双向空间注意力模块BSAM将提取的特征分别进行水平池化和垂直池化，得到水平矩阵与垂直矩阵，继而将水平矩阵与垂直矩阵分别经过一个Sigmoid激活函数进行归一化处理后取平均值，得到包含丰富边界信息的水平空间注意力图与垂直空间注意力图。

具体地，包含丰富边界信息的水平空间注意力图与垂直空间注意力图与主干网络进行融合时，能够增强高级特征图中边界相关的特征，以及抑制非边界相关的特征，从而使目标的边界更为清晰。

本实施方式中，将输入图像F_in输入到3×1和1×3的分解卷积单元中，以对输入图像进行非对称卷积，得到卷积提取的特征图F_m后，将包含丰富边界信息的水平空间注意力图与垂直空间注意力图分别与卷积提取的特征图F_m逐像素相乘后再逐像素相加，得到空间加权后的特征图，并将空间加权后的特征图与卷积提取的特征图F_m逐像素相加，得到第二融合单元221的输出特征图F_ss。

进一步地，将第二融合单元221的输出特征图F_ss入逐点卷积单元222中进行1×1卷积，以将输出特征图F_ss的通道数转变为所需的边界类别数量，从而生成边界预测结果。

可以理解地，本实施方式提供的第二融合单元221(ESAAB)能够利用输入图像以及目标图像的图像梯度图获取到编码器10中不同层包含的边界信息，以及融合不同层所包含的边界特征。

进一步地，将语义分割预测结果与边界预测结果进行逐像素相乘，获得边界加权后的特征图，再将边界加权后的特征图与语义分割预测结果逐像素相加，得到融合了边界特征的分割图像，继而采用双线性插值的方式对融合了边界特征的分割图像进行上采样，以使其分辨率恢复至与输入图像一致，从而生成语义分割网络100的语义分割图像。

可以理解地，本实施方式通过引入边界细化分支22能够辅助语义融合分支21学习更加准确的目标边界特征，同时在边界细化分支22中双向空间注意力模块BSAM与图像梯度图的相互作用下，还能够进一步增强语义分割网络100对目标轮廓的识别能力以及目标与目标之间边缘的区分度，从而使最终获得的语义分割图像中目标的形状和边界更清晰，分类更准确。

请参阅图8，图8是本申请语义分割网络的训练方法一实施方式的流程示意图。在本实施方式中，该训练方法包括：

S11：获取训练数据集；训练数据集包括多个训练图像、预先标注的语义分割信息以及基于语义分割信息生成的边界分割信息。

本实施方式中，对于预先标注的语义分割信息，通过获取不同目标之前在其轮廓处的响应值来划分边界，同时利用one-hot(独热)编码的方式区分边界与非边界，以获取到边界分割信息。

S12：根据预先标注的语义分割信息，利用边缘检测算法得到各训练图像的图像梯度图。

S13：将训练图像输入到预设分割模型的编码器中，得到训练图像的浅层特征图与深层特征图。

S14：将训练图像的浅层特征图与深层特征图输入到预设分割模型的语义融合分支中，得到训练图像的语义分割预测结果。

S15：将训练图像的浅层特征图、深层特征图以及图像梯度图输入到预设分割模型的边界细化分支中，得到训练图像的边界分割预测结果。

S16：计算得到训练图像的语义分割预测结果与预先标注的语义分割信息之间的分割损失函数。

本实施方式中，利用交叉熵损失函数(Cross-entropy loss function,CEloss)计算语义分割预测结果和预先标注的语义分割信息之间的误差，即两者之间的分割损失函数L_ce。

S17：计算得到训练图像的边界分割预测结果与预先标注的边界分割信息之间的边界损失函数。

本实施方式中，利用二值交叉熵损失函数(Binary Cross-entropy lossfunction,BCEloss)计算训练图像的边界分割预测结果与预先标注的边界分割信息之间的误差，即边界损失函数Lbce。

其中，进行BCEloss计算时，需要添加一个Sigmoid激活函数将L_bce的预测值映射至(0,1)之间。

具体地，由于训练过程中的主要损失来自于分割损失函数L_ce，边界损失函数L_bce只是用于辅助，因而需要对边界损失函数Lbce进行归一化操作。

S18：基于分割损失函数与边界损失函数计算预设分割模型的总损失函数。

本实施方式中，总损失函数L_total的计算公式如下：

L_total＝L_ce+σ×L_bce

其中，σ为边界损失函数L_bce的权重系数，σ的值为(0,1)。

S19：利用总损失函数对预设分割模型的模型参数进行反向训练，得到语义分割网络。

本实施方式中，利用总损失函数对预设分割模型的模型参数进行反向训练，以计算所有模型参数的梯度值，并反向更新预设分割模型的参数值，达到优化模型的目的，继而获取到优化好的语义分割网络。

请参阅图9，图9是本申请图像语义分割方法第一实施方式的流程示意图。在本实施方式中，图像语义分割方法通过上述的语义分割网络实现，该图像语义分割方法包括：

S21：获取到目标图像以及目标图像的图像梯度图。

本实施方式中，目标图像为对待处理图像进行预处理后的图像。

其中，待处理图像为监控摄像机拍摄后上传的图像或用户上传的图像。

其中，预处理指的是对待处理图像依次进行随机剪裁、随机水平或垂直翻转以及随机缩放(0.5～2倍)。

本实施方式中，利用Canny边缘检测算法对目标图像进行检测，以获取目标图像的图像梯度图。

其中，图像梯度计算的是图像变化的速度，本质上是计算当前方向上相邻像素的差值。对于图像的边缘部分，其灰度值变化较大，梯度值也较大；对于图像中比较平滑的部分，其灰度值变化较小，相应的梯度值也小。一般情况下，图像梯度计算的是图像的边缘信息。

S22：将目标图像输入到语义分割网络，通过语义分割网络的编码器对目标图像进行特征提取，得到目标图像的浅层特征图与深层特征图；其中，语义分割网络包括级联的编码器、语义-边界双分支解码器以及输出层。

本实施方式中，先通过语义分割网络中的下采样模块对目标图像进行8倍下采样，得到分辨率为目标图像的1/8的图像，继而将其作为语义分割网络中编码器的输入图像。

其中，下采样可以用来降低特征的维度并保留有效的信息，一定程度上能够避免过拟合。

本实施方式中，将输入图像输入到语义分割网络的编码器端，通过编码器中的多组特征提取单元对输入图像进行特征提取，以得到目标图像的浅层特征图与深层特征图。

其中，深层特征图为浅层特征图经过下采样且经过下一组特征提取单元进行特征提取后的特征图。

本实施方式中，每组特征提取单元包括数量不同的极致高效跨阶段非瓶颈残差模块EECSNB，能够在有效提取特征的情况下，极大降低模型的计算复杂度和内存访问量。

S23：将浅层特征图与深层特征图输入到语义-边界双分支解码器的语义融合分支中，以对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，得到语义分割预测结果。

本实施方式中，语义分割网络的语义-边界双分支解码器的语义融合分支从编码器端的不同网络层获取到浅层特征图与深层特征图后，对深层特征图进行上采样，并将上采样的深层特征图与浅层特征图进行堆叠，得到输入图像，利用通道注意力机制与双向空间注意力机制完成对输入图像中特征的重新选择和组合，最后利用1×1卷积，得到语义分割预测结果。

可以理解地，语义融合分支中的通道注意力模块可以利用堆叠后丰富的通道特征生成通道注意力图，并以此编码输入图像中每个通道的重要性，从而提高了对目标的分类准确性。同时，语义融合分支中的双向空间注意力模块通过从堆叠特征中提取水平空间注意力图与垂直空间注意力图，能够利用更丰富的位置信息和通道信息编码输入图像中每个像素的重要性，从而提高对目标的定位准确度。

S24：将图像梯度图、浅层特征图以及深层特征图输入到语义-边界双分支解码器的边界细化分支中，以基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，得到边界预测结果。

本实施方式中，语义分割网络的语义-边界双分支解码器的边界细化分支从编码器端的不同网络层获取到浅层特征图与深层特征图后，对深层特征图进行上采样，并将上采样的深层特征图与浅层特征图进行堆叠，得到输入图像，再将输入图像与获取的图像梯度图进行级联，利用双向空间注意力机制完成对级联图像中特征的重新选择和组合，最后利用1×1卷积，得到边界预测结果。

可以理解地，边界细化分支能够利用输入图像以及目标图像的图像梯度图获取到编码器中不同层包含的边界信息，以及融合不同层所包含的边界特征。

S25：将语义分割预测结果与边界预测结果输入至输出层，通过输出层对语义分割预测结果与边界预测结果进行融合，得到目标图像的语义分割图像。

本实施方式中，将语义分割预测结果与边界预测结果输入至输出层，通过输出层将语义分割预测结果与边界预测结果进行逐像素相乘，获得边界加权后的特征图，再将边界加权后的特征图与语义分割预测结果逐像素相加，得到融合了边界特征的分割图像，继而对融合了边界特征的分割图像进行上采样，以使其分辨率恢复至与输入图像一致，从而生成语义分割图像并进行输出。

可以理解地，本实施方式通过引入边界细化分支能够辅助语义融合分支学习更加准确的目标边界特征，以进一步增强语义分割网络对目标轮廓的识别能力以及目标与目标之间边缘的区分度。

区别于现有技术，本实施方式通过语义-边界双分支解码器中的语义融合分支对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，能够充分融合不同层中的语义特征，从而加强语义分割网络对目标的识别和定位准确性，使语义分割预测结果具有多尺度的语义信息。进一步地，通过边界细化分支基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，能够充分学习并融合不同层所包含的边界特征，从而增强语义分割网络对目标轮廓的识别能力以及提高对目标与目标之间边缘的区分度，提高边界预测结果中对目标边界分割的准确度。通过对语义分割预测结果与边界预测结果进行融合，能够在更好地融合图像信息的基础上，进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率，继而提升分割效果。

请参阅图10，图10是本申请图像语义分割方法第二实施方式的流程示意图。在本实施方式中，图像语义分割方法通过上述的语义分割网络实现，该图像语义分割方法包括：

S301：获取到目标图像以及目标图像的图像梯度图。

具体过程请参见S21中的描述，此处不再赘述。

S302：将目标图像输入到语义分割网络，通过语义分割网络的编码器对目标图像进行特征提取，得到目标图像的浅层特征图与深层特征图。

具体过程请参见S22中的描述，此处不再赘述。

S303；通过语义融合分支对深层特征图进行上采样，并将上采样后的深层特征图与浅层特征图堆叠，得到堆叠特征图。

本实施方式中，语义分割网络的解码器端的语义融合分支从编码器端的不同网络层获取到浅层特征图与深层特征图后，对深层特征图进行上采样，是为了使其分辨率恢复至与浅层特征图一致，再对两者进行堆叠。

本实施方式中，堆叠特征图的通道数为浅层特征图与深层特征图的通道数之和。

S304：利用通道注意力机制得到堆叠特征图中每个特征通道的通道权重；以及，利用双向空间注意力机制得到堆叠特征图的水平空间权重矩阵以及垂直空间权重矩阵。

本实施方式中，利用通道注意力机制得到堆叠特征图中每个特征通道的通道权重指的是，利用语义融合分支中的通道注意力模块对堆叠特征图中通道间的依赖关系进行建模，以对各个通道的重要性进行自适应地调整，并给重要通道施加较大的权重，次要特征施加较小的权重，即从全局信息出发，选择性地放大有价值的特征通道，抑制无用的特征通道。

具体地，通道注意力模块对堆叠特征图进行全局池化操作，将每个通道上的空间信息聚合到对应通道的特征向量中，以输出堆叠特征图中的每个特征通道对应的特征向量。进一步地，对特征向量进行1×1卷积，继而通过Sigmoid激活函数对卷积后的特征图进行归一化处理后取平均值，得到每个通道的通道权重，并保持每个通道权重的取值在(0,1)之间。

本实施方式中，利用双向空间注意力机制得到堆叠特征图的水平空间权重矩阵以及垂直空间权重矩阵指的是，利用语义融合分支中的双向空间注意力模块分别从水平方向和垂直方向捕获堆叠特征图中像素之间的长距离相关性，以获取两个不同维度下不同权重大小位置的双向空间注意力图，也即水平空间权重矩阵以及垂直空间权重矩阵。

其中，水平空间权重矩阵中的每一个参数为对应像素的水平权重，垂直空间权重矩阵中的每一个参数为对应像素的垂直权重。

具体地，双向空间注意力模块对堆叠特征图进行1×1卷积后，对卷积提取的特征分别进行水平池化和垂直池化，得到水平矩阵与垂直矩阵，继而将水平矩阵与垂直矩阵分别经过一个Sigmoid激活函数进行归一化处理后取平均值，得到水平空间注意力图与垂直空间注意力图。

S305：对堆叠特征图进行分解卷积，得到融合特征图，并利用通道权重对融合特征图中的特征通道进行加权，得到通道加权特征图。

本实施方式中，将堆叠特征图输入到3×1和1×3的分解卷积单元中，以对堆叠特征图进行非对称卷积，得到融合特征图。

可以理解地，相对于3×3卷积，利用分解卷积能够极大降低参数量与计算量。

进一步地，将融合特征图中的每个特征通道和对应的特征权重进行乘法运算，以对每个特征通道进行加权，从而得到通道加权特征图。

S306：利用堆叠特征图的水平空间权重矩阵以及垂直空间权重矩阵分别对通道加权特征图中的像素进行水平加权与垂直加权，得到第一水平加权特征图与第一垂直加权特征图。

本实施方式中，将堆叠特征图的水平空间注意力图与通道加权特征图逐像素相乘，得到第一水平加权特征图，以及将堆叠特征图的垂直空间注意力图与通道加权特征图逐像素相乘，得到第一垂直加权特征图。

S307：将第一水平加权特征图与第一垂直加权特征图相加，得到第一双向空间加权特征图，并将第一双向空间加权特征图与融合特征图进行逐像素相加，得到第一输出图。

S308：利用逐点卷积对第一输出图进行分割类别映射，得到通道数为分割类别数量的语义分割预测结果。

本实施方式中，分割类别指的是第一输出图中每个像素的语义类别，也即每个像素所属的物体种类。

S309：利用边界细化分支对深层特征图进行上采样，并将上采样后的深层特征图与浅层特征图堆叠，得到堆叠特征图。

本实施方式中，语义分割网络的解码器端的边界细化分支从编码器端的不同网络层获取到浅层特征图与深层特征图后，对深层特征图进行上采样，是为了使其分辨率恢复至与浅层特征图一致，再对两者进行堆叠。

S310：将图像梯度图与堆叠特征图进行级联，得到级联特征图。

本实施方式中，将图像梯度图与堆叠特征图进行级联，是为了利用图像梯度图更好地刻画像素的边界信息。

S311：对级联特征图进行逐点卷积，以提取级联特征图中每个像素的边界信息，并利用双向空间注意力机制得到逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵。

本实施方式中，利用双向空间注意力机制得到逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵指的是，利用边界细化分支中的双向空间注意力模块分别从水平方向和垂直方向捕获逐点卷积后的级联特征图中像素之间的长距离相关性，以获取两个不同维度下不同权重大小位置的双向空间注意力图。

其中，逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵中包含丰富的边界信息，能够用于增强高级特征图中边界相关的特征，以及抑制非边界相关的特征，从而使物体的边界更为清晰。

S312：利用逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵对融合特征图中的像素分别进行水平加权与垂直加权，得到第二水平加权特征图与第二垂直加权特征图。

本实施方式中，将逐点卷积后的级联特征图的水平空间权重矩阵与融合特征图进行逐像素相乘，得到第二水平加权特征图，以及将逐点卷积后的级联特征图的垂直空间权重矩阵与融合特征图进行逐像素相乘，得到第二垂直加权特征图。

S313：将第二水平加权特征图与第二垂直加权特征图相加，得到第二双向空间加权特征图，并将第二双向空间加权特征图与融合特征图进行逐像素相加，得到第二输出图。

S314：利用逐点卷积对第二输出图进行边界类别映射，得到通道数为边界类别数量的边界预测结果。

本实施方式中，边界类别指的是第二输出图中每个像素的所属的物体边界类别。

S315：将语义分割预测结果与边界预测结果输入至输出层，通过输出层对语义分割预测结果与边界预测结果进行融合，得到目标图像的语义分割图像。

本实施方式中，将语义分割预测结果与边界预测结果输入至输出层，通过输出层将语义分割预测结果与边界预测结果进行逐像素相乘，得到边界加权后的特征图，再将边界加权后的特征图与语义分割预测结果逐像素相加，得到融合了边界特征的分割图像，继而对融合了边界特征的分割图像进行上采样，以使其分辨率恢复至与输入图像一致，从而生成语义分割图像并进行输出。

区别于现有技术，本实施方式提供的语义融合分支包括通道注意力模块与双向空间注意力模块，能够利用堆叠后丰富的通道特征生成通道注意力图，并以此编码堆叠特征图中每个通道的重要性，从而提高对目标的分类准确性，同时通过从堆叠特征图中提取水平空间注意力图与垂直空间注意力图，能够利用更丰富的位置信息和通道信息编码堆叠特征图中每个像素的重要性，从而提高了对目标的定位准确度。进一步地，本实施方式提供的边界细化分支包括双向空间注意力模块，能够利用堆叠特征图以及目标图像的图像梯度图获取到不同层包含的边界信息，以及融合不同层所包含的边界特征，将边界细化分支输出的边界预测结果与语义融合分支输出的语义分割预测结果进行融合，能够在更好地融合图像信息的基础上，进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率，继而提升分割效果。

请参阅图11，图11是本申请图像语义分割方法第三实施方式的流程示意图。在本实施方式中，图像语义分割方法通过上述的语义分割网络实现，且具体用于获取到语义分割预测结果。

该图像语义分割方法包括：

S401：获取到目标图像以及目标图像的图像梯度图。

具体过程请参见S21中的描述，此处不再赘述。

S402：将目标图像输入到语义分割网络，将目标图像进行下采样后作为编码器的输入图像，利用编码器对输入图像进行预设倍数的下采样以及特征提取，得到第一特征图。

本实施方式中，先通过语义分割网络中的下采样模块对目标图像进行八倍下采样，得到分辨率为目标图像的1/8的图像，继而将其作为语义分割网络中编码器的输入图像。

本实施方式中，预设倍数为两倍。在其他实施方式中，预设倍数还可以为其他倍数，本申请对此不作限定。

具体地，将输入图像输入到语义分割网络的编码器中，对输入图像进行两倍下采样，使下采样后的图像的分辨率变为输入图像的1/2后，利用第一组特征提取单元中的三个极致高效跨阶段非瓶颈残差模块EECSNB对下采样后的图像进行特征提取，以得到第一特征图。

其中，第一特征图的通道数为16，分辨率为输入图像的1/2。

其中，第一组特征提取单元中的三个EECSNB中的带孔系数r均为0。可以理解地，第一组特征提取单元用于全面提取浅层特征，不需要较大的感受野，因而无需设置空洞卷积。

S403：对第一特征图进行预设倍数的下采样以及特征提取，得到第二特征图；其中，第一特征图与第二特征图均为浅层特征图。

本实施方式中，对第一特征图进行两倍下采样后，利用第二组特征提取单元中的两个极致高效跨阶段非瓶颈残差模块EECSNB对下采样后的图像进行特征提取，以得到第二特征图。

其中，第二特征图的通道数为64，分辨率为第一特征图的1/2。

其中，第一组特征提取单元中的两个EECSNB中的带孔系数r均为0。可以理解地，第二组特征提取单元也用于提取浅层特征，不需要较大的感受野，因而无需设置空洞卷积。

S404：对第二特征图进行预设倍数的下采样以及特征提取，得到第三特征图；其中，第三特征图为深层特征图。

本实施方式中，对第二特征图进行两倍下采样后，利用第三组特征提取单元中的八个极致高效跨阶段非瓶颈残差模块EECSNB对下采样后的图像进行特征提取，以得到第三特征图。

其中，第三特征图的通道数为128，分辨率为第二特征图的1/2。

其中，第三组特征提取单元中的八个EECSNB中的带孔系数r分别为1、2、5、9、2、5、9、17。

在其他实施方式中，第三组特征提取单元中的八个EECSNB的带孔系数r还可以为其他大于0的整数，本申请对此不做限定。

可以理解地，第三组特征提取单元用于提取深层特征，需要较大的感受野以提取更多的语义特征，因而需要设置空洞卷积。

S405：利用语义融合分支对第三特征图进行预设倍数的上采样，将上采样后的第三特征图与第二特征图进行堆叠，得到第四特征图。

本实施方式中，解码器端的语义融合分支中的第一个第一融合单元(ABGAB)从编码器的第三组特征提取单元的输出端获取到第三特征图，以及从编码器的第二组特征提取单元的输出端获取到第二特征图，继而对第三特征图进行两倍上采样，以使其分辨率恢复至与第二特征图一致，再将两者进行堆叠，得到第四特征图。

其中，第四特征图的通道数为192。

S406：利用通道注意力机制得到第四特征图中每个特征通道的通道权重；以及，利用双向空间注意力机制得到第四特征图的水平空间权重矩阵与垂直空间权重矩阵。

具体过程请参见S305中的描述，此处不再赘述。

S407：对第四特征图进行分解卷积，得到第五特征图。

本实施方式中，将第四特征图输入到3×1和1×3的分解卷积单元中，以对第四特征图进行非对称卷积，得到第五特征图。

其中，第五特征图的通道数为64。

具体地，由于第四特征图为上采样后的第三特征图与第二特征图进行简单堆叠得到的，对第四特征图进行卷积时，上采样后的第三特征图中比第二特征图中多出的通道需要进行融合，以将通道数降低至与第二特征图一致，继而将上采样后的第三特征图中特征通道与第二特征图中的特征通道建立连接，以将深层特征融合进浅层特征中。

S408：利用通道权重对第五特征图中的特征通道进行通道加权，得到通道加权后的第五特征图。

本实施方式中，将第五特征图中的每个特征通道与对应的特征权重进行乘法运算，以对每个特征通道进行加权，从而得到通道加权后的第五特征图。

S409：利用第四特征图的水平空间权重矩阵对通道加权后的第五特征图中的像素进行水平加权，得到水平加权后的第五特征图；以及，利用第四特征图的垂直空间权重矩阵对通道加权后的第五特征图中的像素进行垂直加权，得到垂直加权后的第五特征图。

本实施方式中，将第四特征图的水平空间权重矩阵与通道加权后的第五特征图逐像素相乘，得到水平加权后的第五特征图。以及，将第四特征图的垂直空间权重矩阵与通道加权后的第五特征图逐像素相乘，得到垂直加权后的第五特征图。

S410：将水平加权后的第五特征图与垂直加权后的第五特征图相加后，再与第五特征图相加，得到第六特征图；其中，第六特征图的分辨率以及通道数与第二特征图的分辨率以及通道数相同。

本实施方式中，将水平加权后的第五特征图与垂直加权后的第五特征图相加，以得到通道加权与双向空间加权后的特征图，继而将通道加权与双向空间加权后的特征图与第五特征图逐像素相加，得到第六特征图。

其中，第六特征图的通道数为64，分辨率为第一特征图的1/2。

S411：将第六特征图进行预设倍数的上采样，将上采样后的第六特征图与第一特征图进行堆叠，并重复以上通道加权以及空间加权的步骤，得到第七特征图；其中，第七特征图的分辨率以及通道数与第一特征图的分辨率以及通道数相同。

本实施方式中，语义融合分支中的第二个第一融合单元(ABGAB)从编码器的第一组特征提取单元的输出端获取到第一特征图，并对第一个第一融合单元输出的第六特征图进行两倍上采样，以将第六特征图的分辨率恢复至与第一特征图一致，并将上采样后的第六特征图与第一特征图进行堆叠。

进一步地，利用语义融合分支中的通道注意力模块与双向空间注意力模块得到堆叠图像的通道权重与双向空间权重矩阵，以及对堆叠图像进行分解卷积，并利用通道权重与双向空间权重对分解卷积后的特征图像进行通道加权与双向空间加权，继而将加权后的特征图与分解卷积后的特征图像逐像素相加，以得到第七特征图。

其中，第七特征图的通道数为16，分辨率与第一特征图一致。

S412：利用逐点卷积对第七特征图进行分割类别映射，得到通道数为分割类别数量的语义分割预测结果。

S413：将图像梯度图、浅层特征图以及深层特征图输入到语义-边界双分支解码器的边界细化分支中，以基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，得到边界预测结果。

具体过程请参见S24以及S309～S314中的描述，此处不再赘述。

S414：将语义分割预测结果与边界预测结果输入至输出层，通过输出层对语义分割预测结果与边界预测结果进行融合，得到目标图像的语义分割图像。

具体过程请参见S25以及S315中的描述，此处不再赘述。

可以理解地，本实施方式通过语义融合分支中的两个第一融合单元融合编码器中每个特征提取阶段的特征，能够充分利用深层特征与浅层特征中的多角度语义信息，有助于解码器识别目标类别，从而提高整体网络对目标的识别能力，继而提高最终的推理精度。

可以理解地，通过引入边界细化分支能够辅助语义融合分支学习更加准确的目标边界特征，以进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率，继而提升分割效果。

请参阅图12，图12是本申请图像语义分割方法第四实施方式的流程示意图。在本实施方式中，图像语义分割方法通过上述的语义分割网络实现，且具体用于获取到边界预测结果。

该图像语义分割方法包括：

S501：获取到目标图像以及目标图像的图像梯度图。

具体过程请参见S21中的描述，此处不再赘述。

S502：将目标图像输入到语义分割网络，将目标图像进行下采样后作为编码器的输入图像，利用编码器对输入图像进行预设倍数的下采样以及特征提取，得到第一特征图。

具体过程请参见S402中的描述，此处不再赘述。

S503：对第一特征图进行预设倍数的下采样以及特征提取，得到第二特征图；其中，第一特征图与第二特征图均为浅层特征图。

具体过程请参见S403中的描述，此处不再赘述。

S504：对第二特征图进行预设倍数的下采样以及特征提取，得到第三特征图；其中，第三特征图为深层特征图。

具体过程请参见S404中的描述，此处不再赘述。

S505：将浅层特征图与深层特征图输入到语义-边界双分支解码器的语义融合分支中，以对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，得到语义分割预测结果。

具体过程请参见S405～S412中的描述，此处不再赘述。

S506：利用边界细化分支对第三特征图进行预设倍数的上采样，将上采样后的第三特征图与第二特征图进行堆叠，得到第四特征图。

本实施方式中，解码器端的边界细化分支中的第一个第二融合单元(ESAAB)从编码器的第三组特征提取单元的输出端获取到第三特征图，以及从编码器的第二组特征提取单元的输出端获取到第二特征图，继而对第三特征图进行两倍上采样，以使其分辨率恢复至与第二特征图一致，再将两者进行堆叠，得到第四特征图。

其中，第四特征图的通道数为192。

S507：将图像梯度图与第四特征图进行级联，得到级联特征图。

本实施方式中，将图像梯度图与第四特征图进行级联，是为了利用图像梯度图更好地刻画像素的边界信息。

S508：对级联特征图进行逐点卷积，以提取级联特征图中每个像素的边界信息，并利用双向空间注意力机制得到逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵。

具体过程请参见S311中的描述，此处不再赘述。

S509：利用逐点卷积后的级联特征图的水平空间权重矩阵对第五特征图中的像素进行水平加权，得到水平边界重定义后的第五特征图；以及，利用逐点卷积后的级联特征图的垂直空间权重矩阵对第五特征图中的像素进行垂直加权，得到垂直边界重新定义后的第五特征图。

本实施方式中，将逐点卷积后的级联特征图的水平空间权重矩阵与第五特征图进行逐像素相乘，得到水平边界重定义后的第五特征图，以及将逐点卷积后的级联特征图的垂直空间权重矩阵与第五特征图进行逐像素相乘，得到垂直边界重新定义后的第五特征图。

S510：将水平边界重定义后的第五特征图与垂直边界重新定义后的第五特征图相加后，再与第五特征图相加，得到第八特征图；其中，第八特征图的分辨率以及通道数与第二特征图的分辨率以及通道数相同。

S511：将第八特征图进行预设倍数的上采样，将上采样后的第八特征图与第一特征图进行堆叠，并重复以上提取边界信息以及空间加权的步骤，得到第九特征图；其中，第九特征图的分辨率以及通道数与第一特征图的分辨率以及通道数相同。

本实施方式中，边界细化分支中的第二个第二融合单元(ESAAB)从编码器的第一组特征提取单元的输出端获取到第一特征图，并对第一个第二融合单元输出的第八特征图进行两倍上采样，以将第八特征图的分辨率恢复至与第一特征图一致，并将上采样后的第八特征图与第一特征图进行堆叠。

进一步地，利用边界细化分支中的双向空间注意力模块得到堆叠图像的双向空间权重矩阵，以及对堆叠图像进行分解卷积，并利用双向空间权重对分解卷积后的特征图像进行双向空间加权，继而将加权后的特征图与分解卷积后的特征图像逐像素相加，以得到第九特征图。

S512：利用逐点卷积对第九特征图进行边界类别映射，得到通道数为边界类别数量的边界预测结果。

S513：通过输出层将语义分割预测结果与边界预测结果进行逐像素相乘，得到边界加权后的特征图，再将边界加权后的特征图与语义分割预测结果逐像素相加，得到第十特征图。

S514：采用双线性插值的方式对第十特征图进行预设倍数的上采样，以将上采样后的第十特征图的分辨率恢复至与输入图像的分辨率一致，得到语义分割图像。

可以理解地，本实施方式通过边界融合分支中的两个第二融合单元融合编码器中每个特征提取阶段的边界特征，能够充分利用深层特征与浅层特征中的空间信息，有助于解码器恢复已丢失的细节信息，从而增强整体网络对目标轮廓的识别能力以及目标与目标之间边缘的区分度，继而提高最终的分割精度。

对应地，本申请提供一种图像语义分割装置。

请参阅图13，图13是本申请图像语义分割装置一实施方式的结构示意图。本实施方式中，图像语义分割装置60包括获取模块61、特征提取模块62、语义融合模块63、边界细化模块64以及语义分割图像获取模块65。

获取模块61，用于获取到目标图像以及目标图像的图像梯度图。

特征提取模块62，用于将目标图像输入到语义分割网络，通过语义分割网络的编码器对目标图像进行特征提取，得到目标图像的浅层特征图与深层特征图；其中，语义分割网络包括级联的编码器、语义-边界双分支解码器以及输出层。

语义融合模块63，用于将浅层特征图与深层特征图输入到语义-边界双分支解码器的语义融合分支中，以对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，得到语义分割预测结果。

边界细化模块64，用于将图像梯度图、浅层特征图以及深层特征图输入到语义-边界双分支解码器的边界细化分支中，以基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，得到边界预测结果。

语义分割图像获取模块65，用于将语义分割预测结果与边界预测结果输入至输出层，通过输出层对语义分割预测结果与边界预测结果进行融合，得到目标图像的语义分割图像。

其中，具体过程请参阅S21～S25、S301～S315、S401～S414、S501～S514中的相关文字描述，在此不再赘述。

区别于现有技术，本申请通过语义融合模块63对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，能够充分融合不同层中的语义特征，从而加强语义分割网络对目标的识别和定位准确性，使语义分割预测结果具有多尺度的语义信息。进一步地，通过边界细化模块64基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，能够充分学习并融合不同层所包含的边界特征，从而增强语义分割网络对目标轮廓的识别能力以及提高对目标与目标之间边缘的区分度，提高边界预测结果中对目标边界分割的准确度。通过语义分割图像获取模块65对语义分割预测结果与边界预测结果进行融合，能够在更好地融合图像信息的基础上，进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率，继而提升分割效果。

对应地，本申请提供一种电子设备。

请参阅图14，图14是本申请电子设备一实施方式的结构示意图。如图14所示，本实施方式中，电子设备70包括存储器71以及处理器72。

本实施方式中，存储器71用于存储程序数据，程序数据被执行时实现如上述的图像语义分割方法中的步骤；处理器72用于执行存存储器71存储的程序指令以实现如上述的图像语义分割方法中的步骤。

具体而言，处理器72用于控制其自身以及存存储器71以实现如上述的图像语义分割方法中的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由多个集成电路芯片共同实现。

区别于现有技术，本实施方式通过处理器72对浅层特征图与深层特征图中的语义信息与通道信息进行特征融合，能够充分融合不同层中的语义特征，从而加强语义分割网络对目标的识别和定位准确性，使语义分割预测结果具有多尺度的语义信息。进一步地，基于图像梯度图、浅层特征图以及深层特征图获取到边界信息，并基于边界信息对浅层特征图与深层特征图的空间信息进行特征融合，能够充分学习并融合不同层所包含的边界特征，从而增强语义分割网络对目标轮廓的识别能力以及提高对目标与目标之间边缘的区分度，提高边界预测结果中对目标边界分割的准确度。通过对语义分割预测结果与边界预测结果进行融合，能够在更好地融合图像信息的基础上，进一步刻画语义分割预测结果中的物体边界，从而提高语义分割的准确率，继而提升分割效果。

对应地，本申请提供一种计算机可读存储介质。

请参阅图15，图15是本申请计算机可读存储介质一实施方式的结构示意图。

计算机可读存储介质80包括计算机可读存储介质80上存储的计算机程序801，计算机程序801被上述处理器执行时实现如上述的图像语义分割方法中的步骤。具体地，集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质80中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质80中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质80包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

若本申请技术方案涉及个人信息，应用本申请技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本申请技术方案涉及敏感个人信息，应用本申请技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

Claims

1.一种图像语义分割方法，其特征在于，包括：

获取到目标图像以及所述目标图像的图像梯度图；

将所述目标图像输入到所述语义分割网络，通过所述语义分割网络的编码器对所述目标图像进行特征提取，得到所述目标图像的浅层特征图与深层特征图；其中，所述语义分割网络包括级联的所述编码器、语义-边界双分支解码器以及输出层；

将所述浅层特征图与所述深层特征图输入到所述语义-边界双分支解码器的语义融合分支中，以对所述浅层特征图与所述深层特征图中的语义信息与通道信息进行特征融合，得到语义分割预测结果；以及，

将所述图像梯度图、所述浅层特征图以及所述深层特征图输入到所述语义-边界双分支解码器的边界细化分支中，以基于所述图像梯度图、所述浅层特征图以及所述深层特征图获取到边界信息，并基于所述边界信息对所述浅层特征图与所述深层特征图的空间信息进行特征融合，得到边界预测结果；

将所述语义分割预测结果与所述边界预测结果输入至所述输出层，通过所述输出层对所述语义分割预测结果与所述边界预测结果进行融合，得到所述目标图像的语义分割图像。

2.根据权利要求1所述的图像语义分割方法，其特征在于，

所述将所述浅层特征图与所述深层特征图输入到所述语义-边界双分支解码器的语义融合分支中，以对所述浅层特征图与所述深层特征图中的语义信息与输出通道信息进行特征融合，得到语义分割预测结果的步骤，包括：

通过所述语义融合分支对所述深层特征图进行上采样，并将上采样后的深层特征图与所述浅层特征图堆叠，得到堆叠特征图；

利用通道注意力机制得到所述堆叠特征图中每个特征通道的通道权重；以及，利用双向空间注意力机制得到所述堆叠特征图的水平空间权重矩阵以及垂直空间权重矩阵；

对堆叠特征图进行分解卷积，得到融合特征图，并利用所述通道权重对所述融合特征图中的特征通道进行加权，得到通道加权特征图；

利用所述堆叠特征图的水平空间权重矩阵以及垂直空间权重矩阵分别对所述通道加权特征图中的像素进行水平加权与垂直加权，得到第一水平加权特征图与第一垂直加权特征图；

将所述第一水平加权特征图与所述第一垂直加权特征图相加，得到第一双向空间加权特征图，并将第一双向空间加权特征图与所述融合特征图进行逐像素相加，得到第一输出图；

利用逐点卷积对所述第一输出图进行分割类别映射，得到通道数为分割类别数量的所述语义分割预测结果。

3.根据权利要求2所述的图像语义分割方法，其特征在于，

所述利用通道注意力机制得到所述堆叠特征图中每个特征通道的通道权重的步骤，包括：

对所述堆叠特征图进行全局池化操作，以为所述堆叠特征图中的每个所述特征通道输出对应的特征向量；

对每个所述特征向量进行逐点卷积后，利用激活函数对卷积后的特征向量进行映射，得到每个所述特征通道的所述通道权重；

所述利用双向空间注意力机制得到所述堆叠特征图的水平空间权重矩阵以及垂直空间权重矩阵的步骤，包括：

对所述堆叠特征图进行逐点卷积后，对卷积提取的特征图进行水平池化和垂直池化，得到水平矩阵与垂直矩阵；

利用所述激活函数分别对所述水平矩阵与所述垂直矩阵进行映射，得到所述堆叠特征图的所述水平空间权重矩阵以及所述垂直空间权重矩阵。

4.根据权利要求3所述的图像语义分割方法，其特征在于，

所述将所述图像梯度图、所述浅层特征图以及所述深层特征图输入到所述语义-边界双分支解码器的边界细化分支中，以基于所述图像梯度图、所述浅层特征图以及所述深层特征图获取到边界信息，并基于所述边界信息对所述浅层特征图与所述深层特征图的空间信息进行特征融合，得到边界预测结果的步骤，包括：

利用所述边界细化分支对所述深层特征图进行上采样，并将所述上采样后的深层特征图与所述浅层特征图堆叠，得到所述堆叠特征图；

将所述图像梯度图与所述堆叠特征图进行级联，得到级联特征图；

对所述级联特征图进行逐点卷积，以提取所述级联特征图中每个像素的边界信息，并利用所述双向空间注意力机制得到逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵；

利用所述逐点卷积后的级联特征图的水平空间权重矩阵与垂直空间权重矩阵对所述融合特征图中的像素分别进行水平加权与垂直加权，得到第二水平加权特征图与第二垂直加权特征图；

将所述第二水平加权特征图与所述第二垂直加权特征图相加，得到第二双向空间加权特征图，并将所述第二双向空间加权特征图与所述融合特征图进行逐像素相加，得到第二输出图；

利用逐点卷积对所述第二输出图进行边界类别映射，得到通道数为边界类别数量的所述边界预测结果。

5.根据权利要求1所述的图像语义分割方法，其特征在于，

所述将所述目标图像输入到所述语义分割网络，通过所述编码器对所述目标图像进行特征提取，得到所述目标图像的浅层特征图与深层特征图的步骤，包括：

将所述目标图像输入到所述语义分割网络，将所述目标图像进行下采样后作为所述编码器的输入图像，利用所述编码器对所述输入图像进行预设倍数的下采样以及特征提取，得到第一特征图；

对所述第一特征图进行所述预设倍数的下采样以及特征提取，得到第二特征图；其中，所述第一特征图与所述第二特征图均为所述浅层特征图；

对所述第二特征图进行所述预设倍数的下采样以及特征提取，得到第三特征图；其中，所述第三特征图为所述深层特征图。

6.根据权利要求5所述的图像语义分割方法，其特征在于，

利用所述语义融合分支对所述第三特征图进行所述预设倍数的上采样，将上采样后的第三特征图与所述第二特征图进行堆叠，得到第四特征图；

利用通道注意力机制得到所述第四特征图中每个特征通道的通道权重；以及，利用双向空间注意力机制得到所述第四特征图的水平空间权重矩阵与垂直空间权重矩阵；

对所述第四特征图进行所述分解卷积，得到第五特征图；

利用所述通道权重对所述第五特征图中的特征通道进行通道加权，得到通道加权后的第五特征图；

利用所述第四特征图的水平空间权重矩阵对所述通道加权后的第五特征图中的像素进行水平加权，得到水平加权后的第五特征图；以及，利用所述第四特征图的垂直空间权重矩阵对所述通道加权后的第五特征图中的像素进行垂直加权，得到垂直加权后的第五特征图；

将所述水平加权后的第五特征图与所述垂直加权后的第五特征图相加后，再与所述第五特征图相加，得到第六特征图；其中，所述第六特征图的分辨率以及通道数与所述第二特征图的分辨率以及通道数相同；

将所述第六特征图进行所述预设倍数的上采样，将上采样后的第六特征图与所述第一特征图进行堆叠，并重复以上通道加权以及空间加权的步骤，得到第七特征图；其中，所述第七特征图的分辨率以及通道数与所述第一特征图的分辨率以及通道数相同；

利用逐点卷积对所述第七特征图进行分割类别映射，得到通道数为分割类别数量的所述语义分割预测结果。

7.根据权利要求6所述的图像语义分割方法，其特征在于，

利用所述边界细化分支对所述第三特征图进行所述预设倍数的上采样，将所述上采样后的第三特征图与所述第二特征图进行堆叠，得到所述第四特征图；

将所述图像梯度图与所述第四特征图进行级联，得到级联特征图；

利用所述逐点卷积后的级联特征图的水平空间权重矩阵对所述第五特征图中的像素进行水平加权，得到水平边界重定义后的第五特征图；以及，利用所述逐点卷积后的级联特征图的垂直空间权重矩阵对所述第五特征图中的像素进行垂直加权，得到垂直边界重新定义后的第五特征图；

将所述水平边界重定义后的第五特征图与所述垂直边界重新定义后的第五特征图相加后，再与所述第五特征图相加，得到第八特征图；其中，所述第八特征图的分辨率以及通道数与所述第二特征图的分辨率以及通道数相同；

将所述第八特征图进行所述预设倍数的上采样，将上采样后的第八特征图与所述第一特征图进行堆叠，并重复以上提取所述边界信息以及空间加权的步骤，得到第九特征图；其中，所述第九特征图的分辨率以及通道数与所述第一特征图的分辨率以及通道数相同；

利用逐点卷积对所述第九特征图进行边界类别映射，得到通道数为边界类别数量的所述边界预测结果。

8.根据权利要求7所述的图像语义分割方法，其特征在于，

所述将所述语义分割预测结果与所述边界预测结果输入至所述输出层，通过所述输出层对所述语义分割预测结果与所述边界预测结果进行融合，得到所述目标图像的语义分割图像的步骤，包括：

通过所述输出层将所述语义分割预测结果与所述边界预测结果进行逐像素相乘，得到边界加权后的特征图，再将所述边界加权后的特征图与所述语义分割预测结果逐像素相加，得到第十特征图；

采用双线性插值的方式对所述第十特征图进行所述预设倍数的上采样，以将上采样后的第十特征图的分辨率恢复至与所述输入图像的分辨率一致，得到所述语义分割图像。

9.根据权利要求1所述的图像语义分割方法，其特征在于，

所述语义分割网络的所述编码器包括三组特征提取单元；

所述语义-边界双分支解码器中的所述语义融合分支包括第一融合单元以及逐点卷积单元；其中，所述第一融合单元包括通道注意力模块、双向空间注意力模块以及分解卷积单元；

所述语义-边界双分支解码器中的所述边界细化分支包括第二融合单元以及所述逐点卷积单元；其中，所述第二融合单元包括双向空间注意力模块以及所述分解卷积单元。

10.根据权利要求9所述的图像语义分割方法，其特征在于，

所述语义分割网络是利用标注图像进行训练得到的，训练方法包括：

获取训练数据集；所述训练数据集包括多个训练图像、预先标注的语义分割信息以及基于所述语义分割信息生成的边界分割信息；

根据预先标注的语义分割信息，利用边缘检测算法得到各训练图像的图像梯度图；

将所述训练图像输入到预设分割模型的编码器中，得到所述训练图像的浅层特征图与深层特征图；

将所述训练图像的浅层特征图与深层特征图输入到所述预设分割模型的语义融合分支中，得到所述训练图像的语义分割预测结果；以及，

将所述训练图像的浅层特征图、深层特征图以及图像梯度图输入到所述预设分割模型的边界细化分支中，得到所述训练图像的边界分割预测结果；

计算得到所述训练图像的语义分割预测结果与所述预先标注的语义分割信息之间的分割损失函数；以及，

计算得到所述训练图像的边界分割预测结果与预先标注的所述边界分割信息之间的边界损失函数；

基于所述分割损失函数与所述边界损失函数计算所述预设分割模型的总损失函数；

利用所述总损失函数对所述预设分割模型的模型参数进行反向训练，得到所述语义分割网络。

11.一种电子设备，其特征在于，包括：

存储器，用于存储程序数据，所述存储程序数据被执行时实现如权利要求1～10任一项所述的图像语义分割方法中的步骤；

处理器，用于执行所述存储器存储的程序指令以实现如权利要求1～10任一项所述的图像语义分割方法中的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～10任一项所述的图像语义分割方法中的步骤。