CN111523546A

CN111523546A - 图像语义分割方法、系统及计算机存储介质

Info

Publication number: CN111523546A
Application number: CN202010297870.5A
Authority: CN
Inventors: 张大方; 范海博; 刁祖龙
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2020-08-11
Anticipated expiration: 2040-04-16
Also published as: CN111523546B

Abstract

本发明公开了一种图像语义分割方法、系统及计算机存储介质，对输入图像进行预处理；使用卷积神经网络捕捉通用特征，并在其适当位置分别嵌入空间CNN和注意力模型；利用SCNN算法对所述的通用特征进行挖掘，获得深层次特征信息；通过注意力模型对得到的通用特征以及深层特征进行多尺度特征信息的提取；融合网络将SCNN算法与注意力模型得到的结果进行融合，生成最终预测的语义分割结果。该方法用于解决现有技术中存在的图像分辨率降低、难以正确识别和分割多尺度对象的问题，有利于提高语义分割网络的精确性。

Description

图像语义分割方法、系统及计算机存储介质

技术领域

本发明涉及计算机视觉技术领域，特别是一种图像语义分割方法、系统及计算机存储介质。

背景技术

图像语义分割是计算机视觉中一个非常重要的领域，它可以根据图像中存在的语义含义对像素点进行分组，即标记每个像素点属于图像中的哪种对象类别。图像语义分割具有广泛的应用领域，如自动驾驶中的街景识别和理解、机器人视觉、环境建模等领域。目前，基于深度学习的语义分割方法是图像语义分割领域的主流技术，尤其是基于卷积神经网络(Convolutional Neural Networks，简称CNN)的语义分割方法已取得了显著的成功。

然而，卷积神经网络结构自身存在着固有缺陷：重复的池化和下采样操作使得原始的输入图像在特征提取过程中不断降低特征图的分辨率，导致大量空间信息的丢失，这对网络的分割性能产生了严重的消极影响。为解决图像分辨率降低的问题，学者们提出了各种各样的解决方案。这些方案大致上可以分为3类：第一类方案是利用双线性插值、反池化等方法对特征图进行上采样操作，但上采样后的特征图并不能完全还原出原始图像中每个像素点的位置信息，并且依然存在丢失细节信息的情况。第二类方案是利用跳跃连接操作，将浅层和深层特征图进行融合合并，但只能在一定程度上恢复细节信息。第三类方案是利用空洞卷积操作，在保持特征图分辨率不变的情况下，增大卷积核的感受野，从而避免图像分辨率降低的问题。DeepLab方法使用空洞卷积结构以及用作后处理的条件随机场操作，取得了较好的语义分割结果。但该方法有着明显的缺陷：设计出的空洞卷积结构可能会带来“网格化”的感受野，这对小物体对象的分割效果是差的。这种“网格化”现象也是空洞卷积结构自身固有的缺陷。

图像语义分割中存在的另一个关键问题是如何正确识别和分割图像中存在的大量的多尺度的对象。大量研究表明大采样率的空洞卷积对大物体的分割效果更好，反之，小采样率的空洞卷积对小物体有更好的分割效果。鉴于此，有的学者们提出利用空洞卷积结构，通过设置不同的采样率来提取多尺度特征信息，实现对多尺度对象的分割效果，如带孔的空间金字塔池化技术，但是这些方法在分割不同尺度的对象时仍然不具有很好的鲁棒性。因此，如何进一步改善图像语义分割的性能是目前亟待解决的问题。

发明内容

本发明所要解决的技术问题是，针对现有技术中存在的图像分辨率低、难以正确识别图像细节和难以分割多尺度对象的问题，提供一种图像语义分割方法、系统及计算机存储介质，提高图像语义分割的精确性。

为解决上述技术问题，本发明所采用的技术方案是：一种图像语义分割方法，包括以下步骤：

1)利用卷积神经网络获取预训练集图像的通用特征；

2)将所述通用特征输入空间卷积神经网络，获取深层次特征信息，即特征图；

3)将所述通用特征和所述特征图作为注意力模型的输入，得到权重图；

4)融合所述特征图和所述权重图，生成语义分割模型。

本发明的方法融合了卷积神经网络、空间卷积神经网络和注意力模型，使用SCNN算法可以学习到深层特征具有的结构化空间关系，浅层特征通过注意力模型，可以提取到丰富的语义信息，因此本发明的方法使得语义分割模型不仅可以学习到深层特征具有的结构化空间关系，还可以捕捉到浅层特征包含的丰富的语义信息，解决了现有语义分割方法存在的图像分辨率低、难以正确识别图像和难以分割多尺度对象的问题，提高了图像语义分割的精确度。

优选地，步骤4)之后，为了进一步提高语义分割模型的精确性，本发明的方法还包括：

5)训练所述语义分割模型，得到最终的语义分割模型。

为了进一步提高语义分割后图像的识别度和分辨率，步骤1)之前，还进行如下操作，对所述训练集图像进行预处理；本发明预处理过程包括：调整所述训练集图像的尺寸，并将每一幅调整后的训练集图像每一个像素点值减去该训练集图像的像素均值，得到预处理后的训练集图像。

步骤2)中，获取所述特征图的具体实现过程包括：

2A)对所述通用特征按照设定方向进行卷积操作，提取所述特征图的深层特征，并获取所述设定方向的特征图；

2B)拼接步骤2A)获得的深层特征，得到最终的特征图；

使用SCNN算法能够更好地提取训练集图像中行与列之间的空间关系，从而获得更深层的结构化空间特征信息。

其中，为了缩短计算时间，可以将设定方向设置为向下、向上、向右或向左中的一种或多种的组合。为了提高获取的特征图的准确度，可以对所述通用特征依次按照向下、向上、向右和向左四个方向进行卷积操作。

以向下进行卷积操作为例，步骤2A)的具体实现过程包括：

I)将所述通用特征表示为张量形式，按照向下方向对表示为张量形式的通用特征进行切片操作，获得多个切片；

II)对当前切片进行卷积操作，并将卷积操作后得到的结果输入激活函数，获得当前切片的输出结果；

III)合并当前切片的输出结果与下一切片，对于合并后的切片，执行步骤II)和步骤III)的操作；

IV)重复步骤III)，直至所有切片执行完毕，获得深层特征。

本发明利用SCNN算法将传统的卷积层逐层(layer-by-layer)的卷积形式转变为特征图中逐片(slice-by-slice)的卷积形式，使得特征信息可以在同层的神经元上进行传播，从而获得更强的结构化空间信息。

当对通用特征依次按照向下、向上、向右和向左四个方向进行卷积操作时，将向下方向得到的输出结果作为向上卷积操作的输入，将最后提取到的深层特征(即向左方向上的深层特征)作用于注意力模型产生的权重图上。

步骤3)中，所述权重图的获取过程包括：

3A)获取所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息；

3B)融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息，得到所述权重图。

通过步骤3)的步骤，捕捉不同尺度的特征信息，产生更合适的权重，进而获得更加有效的权重图。

上述步骤3A)中，为了进一步增强深层神经网络特征表达能力，获取所述通用特征的多尺度特征信息之前，还对所述通用特征进行卷积操作，并利用Relu激活函数对卷积操作后的结果施加非线性因素，得到施加非线性因素的通用特征；优选地，步骤3B)的具体实现过程包括：

A)连接所述通用特征的多尺度特征信息；

B)拼接步骤A)的连接结果与所述特征图的多尺度特征信息；

C)对步骤B)的拼接结果进行卷积操作，将卷积操作后的结果输入激活函数，得到所述权重图。

上述步骤3B)使得特征信息前后向传播更加方便和顺畅，从而获得更加有效的权重图。

优选地，步骤A)中，连接所述通用特征的多尺度特征信息和所述施加非线性因素的通用特征，进而有效地融合更丰富的多尺度语义信息。

步骤4)的具体实现过程包括：

4A)将所述特征图与所述权重图相乘，相乘的结果与所述特征图相加；

4B)对步骤4A)得到的相加结果进行卷积操作，并对卷积操作后的结果进行正则化处理；

4C)对正则化处理后的结果进行卷积操作和上采样操作，得到语义分割模型。

通过上述步骤4A)～步骤4C)的操作，解决了融合后特征值降低的问题，同时保持了骨干网自身的良好特性。

为了实现方便，减小计算量，本发明步骤5)的具体实现过程包括：利用反向传播算法更新步骤4)得到的所述语义分割模型的参数，同时计算所述语义分割模型与预先标准好的语义分割信息的交叉熵损失，当所述交叉熵损失满足预设的收敛条件时，固化满足所述收敛条件时的语义分割模型的参数，对应的语义分割模型即为最终的语义分割模型；优选地，还利用F1-Mesure、准确率和mIoU衡量最终的语义分割模型的预测性能，进一步提高模型的准确性。

本发明还提供了一种图像语义分割系统，包括：

卷积神经网络，用于获取训练集图像的通用特征；

空间卷积神经网络，用于利用所述卷积神经网络输出的通用特征获取深层次特征信息，即特征图；

注意力模型，用于利用所述卷积神经网络输出的通用特征和所述空间卷积神经网络输出的特征图得到权重图；

融合网络，用于融合所述特征图和所述权重图，生成语义分割模型。

本发明的系统使得语义分割模型不仅可以学习到深层特征具有的结构化空间关系，还可以捕捉到浅层特征包含的丰富的语义信息。

优选地，为了进一步图像语义分割的准确性，本发明的系统还包括预处理模块，用于对所述训练集图像进行预处理；

优选地，为了进一步提高语义分割模型的精准性，本发明的系统还包括训练模块，用于对所述语义分割模型进行训练，得到最终的语义分割模型。

本发明的注意力模型包括：

第一空洞卷积模块，用于提取所述空间卷积神经网络输出的特征图的多尺度特征信息；

第二空洞卷积模块，用于提取所述卷积神经网络输出的通用特征的多尺度信息；残差模块，用于融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息，得到所述权重图。

所述第一空洞卷积模块包括多个第一空洞卷积层；第一个第二空洞卷积层的输入为所述通用特征，第一个所述第一空洞卷积层的输入为所述第一个第二空洞卷积层的输出和所述特征图；第二个第二空洞卷积层的输入为所述第一个第一空洞卷积层的输出，第二个第一空洞卷积层的输入为所述第二个第二空洞卷积层的输出和所述特征图；依此类推；其中，前N-1个第一空洞卷积层、所有的第二空洞卷积层连接构成所述第二空洞卷积模块；N≥2。注意力模型使用交互式(串联(第二空洞卷积模块)+并行(第一空洞卷积模块))方式部署空洞卷积单元，使用这种交互式方式可以将串联和并行方式得到的不同尺度特征图更加方便且有效地进行融合。

为了增强深层神经网络特征表达能力，本发明的注意力模型还包括输入模块，所述输入模块连接所述卷积神经网络和所述第二空洞卷积模块的第一个第二空洞卷积层，用于对所述通用特征进行卷积操作，并利用Relu激活函数对卷积操作后的结果施加非线性因素，得到施加非线性因素的通用特征，并将该施加非线性因素的通用特征输入所述第二空洞卷积模块和所述残差模块。

本发明的所述残差模块包括：

连接单元，用于连接所述施加非线性因素的通用特征、所有第二空洞卷积层的输出和第二空洞卷积模块中最后一个第一空洞卷积层的输出，得到连接结果；

拼接单元，用于拼接所述连接结果和所有第一空洞卷积层的输出；

卷积单元，用于所述拼接单元输出的拼接结果进行卷积操作；

激活函数，用于对卷积单元输出的卷积结果进行映射操作，输出权重图。

本发明的残差模块使得特征信息前后向传播更加方便和顺畅，从而获得更加有效的权重图。

本发明中，N个卷积核大小为K×K第二空洞卷积层对应的采样率分别为[r₁,…,r_i,…,r_n]，，当i<n时，M_i＝max(M_i+1-2r_i,2r_i-M_i+1,r_i)，当i＝n时，M_n＝r_n，目的是要满足M₂≤K，M_i为第二空洞卷积层的卷积核中两个非零像素间的距离；其中，n＝N，i＝1,2,……,n。将所述第二空洞卷积模块中N个第二空洞卷积层均分为两组，每一组内空洞卷积层的采样率公因子均小于或等于1。设置合理的采样率，对深层特征与浅层特征有效地进行多尺度特征提取，从而能够更好地处理图像中存在的多尺度对象。

本发明所述融合网络包括：

乘法单元，用于将所述特征图与所述权重图相乘；

加法单元，用于将乘法单元输出的相乘的结果与所述特征图相加；

第一卷积单元，用于所述加法单元输出的相加结果进行卷积操作；

第二卷积单元，用于所述第一卷积单元输出的结果进行卷积操作；

正则化处理单元，用于对第二卷积单元输出的结果进行正则化处理；

第三卷积单元，用于对正则化处理后的结果进行卷积操作；

上采样单元，用于对所述第三卷积单元输出的结果进行上采样操作，得到语义分割模型。

作为一个发明构思，本发明还提供了一种计算机存储介质，其存储有程序；该程序用于执行权利要求1～7之一所述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

(1)本发明的方法使得语义分割模型不仅可以学习到深层特征具有的结构化空间关系，还可以捕捉到浅层特征包含的丰富的语义信息；

(2)本发明中设计的注意力模型，使用交互式(串联+并行)方式部署空洞卷积单元，同时，遵循一定的规则设置合理的采样率，对深层特征与浅层特征有效地进行多尺度特征提取，从而能够更好地处理图像中存在的多尺度对象；

(3)本发明中设计的融合网络，解决了融合后特征值降低的问题(权重图中每个权重值的取值范围为[0，1]，若仅有相乘操作，则特征图中的特征值可能会降低。融合网络将特征图和权重图先相乘，然后将相乘的结果与特征图进行相加，这等价于将权重图中的每个权重值加1，扩大了取值范围，然后再将加1后的结果与特征图进行相乘，从而解决了融合后特征值降低的问题)，同时保持了骨干网自身的良好特性。

附图说明

图1是本发明提供的图像语义分割方法流程图；

图2是本发明提供的图像语义分割网络示意图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步说明。

参考图1，本发明提供了一种面向街景理解的基于注意力模型的语义分割方法，其包括以下步骤：

步骤S1：对输入的训练集图像作预处理，首先对输入图像的尺寸进行统一调整，之后进行标准化处理，即让调整后的图像减去其像素均值。

步骤S2：使用卷积神经网络(CNN)捕捉通用特征，并在CNN网络的适当位置分别嵌入空间CNN(SCNN)和注意力模型。在CNN网络的合适位置添加SCNN和注意力模型，有利于提取到更丰富的特征信息，提高分割准确度。本步骤的具体实现过程包括以下步骤：

步骤S21：所述CNN网络具体可以使用LargeFOV或ResNet-101网络结构，对步骤S1预处理后的图像进行特征提取，得到所需要的通用特征。需要说明的是，对于LargeFOV网络，使用在ImageNet数据集上训练的VGG-16为网络中的前13个卷积层提供适当的初始权重。

步骤S22：所述的SCNN算法嵌入的位置可以是：基于LargeFOV网络，首先对网络中的“fc6”层进行修改，将空洞卷积的采样率设置为4，其次对网络中的“fc7”层进行修改，将该层的通道数设置为128，最后将SCNN算法添加其后(即，直接将SCNN嵌入到修改后的LargeFOV网络中的“fc7”层后面即可，需要说明的是：SCNN和注意力模型可以嵌入到任意流行的先进的网络结构中)。基于ResNet-101网络，首先在该网络的pool4阶段输出结果的后面，添加1×1卷积操作，并将通道数设置为128，然后再在其后添加SCNN算法。

步骤S23：所述的注意力模型嵌入的位置可以为：基于LargeFOV网络，在该网络的pool3阶段的输出结果之后，直接添加注意力模型。基于ResNet-101网络，可以选择在该网络的pool3或pool4阶段的输出结果之后，添加注意力模型。需要注意的是，若是选择在pool3阶段后添加注意力模型，则需要对主干网络增加上采样操作(即将经SCNN算法得到的特征图，进行上采样操作(如双线性插值法)，得到扩大2倍的特征图)。

步骤S3：利用SCNN算法对所述的通用特征进行挖掘，获得深层次特征信息，即特征图。本步骤的具体实现过程包括以下步骤：

步骤S31：所述的SCNN算法依次按照向下、向上、向右和向左，共4个不同的方向，对所述的通用特征进行卷积操作，提取到不同方向的深层特征。如图2所示，SCNN_D、SCNN_U、SCNN_R以及SCNN_L表示使用SCNN算法依次在向下、向上、向右和向左方向上得到的深层特征。步骤S31具体执行过程如下所述：

步骤S31.1：所述的通用特征先表示成张量形式，再按照向下方向对其进行切片操作。

步骤S31.2：按照向下的方向，对步骤S31得到的每个切片结果进行卷积操作，并将得到的卷积结果再输入到激活函数(如修正线性单元)中，获得当前切片的输出结果，并将其输入到下一个切片中。

步骤S31.3：将步骤S31.2的输出结果与下一个切片自身的切片结果先进行合并，然后将合并后的结果作为下一个切片的输入，再继续重复执行步骤S3.2至步骤S3.3的操作过程，直至向下方向的所有切片执行完毕，并将向下方向得到的结果用于后续向上方向的执行过程中。

步骤S31.4：采用类似于向下方向的操作过程，再依次按照向上、向右和向左方向执行卷积操作，将最后提取到的深层特征(即向左方向上的深层特征)作用于注意力模型产生的权重图上。

以向下方向的卷积过程为例，其表示形式如下：

其中，X_i,j,k表示三维特征图X的元素，而i，j，k分别表示通道、行和列的索引，X^′ _i,j,k表示对X_i,j,k进行更新而得到的新元素；f是非线性激活函数，如修正线性单元Relu；K_m,i,n表示上个切片的通道m中的元素与当前切片的通道i中的元素之间的权重，并且这两个元素间的偏移量为k个列；H既是行数又是切片数(特征图分割成H个切片)。需说明的是，所有切片中卷积核共享。

步骤S32：在所述的SCNN算法从所述的4个方向提取深层特征的过程中，依次获得这4个方向的特征图，再使用Concatenating操作(拼接操作)，即图2中“C”)，将这4个方向的特征图进行拼接，之后将拼接后的特征图输入到注意力模型中。步骤S4：通过注意力模型对所述的通用特征以及深层特征进行多尺度特征信息的提取，以计算出所述训练图像中每个像素点的权重，得到权重图。本步骤的具体实现过程包括以下步骤：

步骤S41：构建所述的注意力模型，如图2所示，该模型主要包含三部分：并行的空洞卷积模块(用黑色长方块表示)、串联的空洞卷积模块(用虚线框圈住的部分表示)以及残差模块(注意力模型方框中，从最左边的第一个“+”操作开始向右一直到“Sigmoid”操作为止，这些操作构成了残差模块)。

步骤S42：使用并行的空洞卷积模块(第一空洞卷积模块)作用在步骤S32得到的拼接后的特征图，以对深层特征进行多尺度特征信息的提取。并行的空洞卷积模块由4个空洞卷积单元(即第一空洞卷积层)以并联的方式构成，每个空洞卷积单元包括了具有采样率的空洞卷积核、BN(批标准化)、非线性的Relu函数，并且对这些空洞卷积单元设置合适的采样率。步骤S42具体执行过程如下所述：步骤S42.1：每个并行的空洞卷积单元的输入由两部分组成：一个输入是拼接后的特征图(即SCNN输出的不同方向的特征图，进行拼接操作获得的特征图)，另一个输入是前一个空洞卷积单元输出的特征图。首先，使用element-wiseaddition操作将这两部分进行合并，之后将合并后的结果依次执行空洞卷积操作、BN操作、Relu操作，得到空洞卷积单元的输出特征图。

步骤S42.2：对这些并行的空洞卷积单元倾向于设置较大的采样率，以更容易捕捉具有结构化空间关系的对象或图像中的较大尺度的对象。

步骤S42.3：每个并行的空洞卷积单元(除了最后一个)包含两个输出流：第一个输出流是将步骤S42.1的输出特征图直接输入到后一个空洞卷积单元中，第二个输出流是将步骤S42.1的输出特征图输入到残差模块中。最后一个并行的空洞卷积单元仅有第二个输出流。

步骤S43：使用串联的空洞卷积模块(即第二空洞卷积模块)对步骤S21得到的通用特征进行多尺度特征信息的捕捉。串联的空洞卷积模块由6个空洞卷积单元(第二空洞卷积层)以串联的方式构成，每个空洞卷积单元包括了具有采样率的空洞卷积核、BN(批标准化)、非线性的Relu函数，并且对这些空洞卷积单元设置合适的采样率。需要说明的是，串联的空洞卷积模块中包含有3个并行的空洞卷积单元，这3个特殊的空洞卷积单元在注意力模型中扮演者串联和并联双重身份。步骤S43具体执行过程如下所述：

步骤S43.1：首先使用一个带有采样率为1的空洞卷积核对所述的通用特征进行卷积操作，接着再使用Relu激活函数对得到的卷积结果施加非线性因素，最后将得到的激活结果输入到串联的空洞卷积模块中。

步骤S43.2：将步骤S43.1得到的激活结果依次通过6个具有不同采样率的空洞卷积单元。

步骤S43.3：将步骤S43.2中得到的卷积结果和Relu函数输出的结果输入到残差模块中。

步骤S44：使用残差模块将步骤S42和步骤S43得到的输出结果先进行合并，再进行卷积操作，最后得出所述注意力模型的权重图。残差模块由残差连接操作、拼接操作、卷积操作以及激活函数构成。步骤S44具体执行过程如下所述：

步骤S44.1：将步骤S43.1得到的激活结果和步骤S43.3得到的卷积结果输入到残差模块，并对这些输入结果进行残差连接操作。

步骤S44.2：使用Concatenating方法对步骤S44.1得到的连接结果与步骤S42.1中4个并行的空洞卷积单元输出的特征图进行拼接操作。

步骤S44.3：将步骤S44.2得到的拼接结果依次通过连续的两个1×1卷积操作和一个Sigmoid函数，最后就可以得到所述注意力模型的权重图。

在本实施例设计的注意力模型中，采样率在遵循采样规则的同时，还需要在串联的空洞卷积模块和并行的空洞卷积模块之间取得平衡，即其既不能太大，也不能太小。综合考虑这些因素，为注意力模型设计合理且有效的采样率方案，即：对步骤S43.2中所述的空洞卷积单元进行分组，前三个为一组，后三个为一组，然后对分组后的空洞卷积单元设置合适的采样率。这些采样率的设置须遵循以下规则：

若有N个卷积核大小为K×K的空洞卷积，其对应的采样率为[r₁,…,r_i,…,r_n]，则定义卷积核中两个非零像素间的距离为：M_i＝max(M_i+1-2r_i,2r_i-M_i+1,r_i)，当i<n时，M_i＝max(M_i+1-2r_i,2r_i-M_i+1,r_i)，当i＝n时，M_n＝r_n，目的是要满足M₂≤K，。另外，还要求在一个组内中，这些空洞卷积的采样率不应该具有大于1的公因子关系。之所以这样设计采样率，是为了降低“网格”效应，这对于捕捉小型目标很重要。n＝N，i＝1,2,……,n。

步骤S5：如图2所示，融合网络将SCNN算法产生的特征图与注意力模型产生的权重图进行融合，并生成预测的语义分割结果。本步骤的具体实现过程包括以下步骤：

步骤S51：SCNN算法产生的特征图与注意力模型产生的权重图，先进行相乘，相乘结果与SCNN算法产生的特征图再进行相加。

步骤S52：将步骤S51得到的结果依次通过连续的两个1×1卷积操作，再使用Dropout方法进行正则化处理。

步骤S53：对步骤S52的输出结果进行卷积和上采样操作，得到预测的语义分割结果。

步骤S6：采用交叉熵损失函数对网络进行迭代训练，并使用合适的度量指标来评价模型性能。本步骤的具体实现过程包括以下步骤：

步骤S61：依据生成的预测语义分割结果与预先标注好的语义分割信息，计算二者的交叉熵损失，利用反向传播算法更新网络的参数，直至网络的迭代训练次数达到预设的数值为止。

步骤S62：对网络的训练完成后，使用F1-Measure、准确率和mIoU(平均交并比)来衡量网络的预测性能(度量指标的值越大，说明网络得到的分割结果越精确，网络性能越好。)。

如图2，本发明的系统包括：

卷积神经网络CNN，用于获取训练集图像的通用特征；

空间卷积神经网络(SCNN_D、SCNN_U、SCNN_R、SCNN_L)，用于利用所述卷积神经网络CNN输出的通用特征获取深层次特征信息，即特征图；

融合网络，用于融合所述特征图和所述权重图，生成语义分割模型；

卷积神经网络的输入端与预处理模块连接，预处理模块用于对所述训练集图像进行预处理；

融合网络输出端与训练模块连接，训练模块用于对所述语义分割模型进行训练，得到最终的语义分割模型。

注意力模型包括：

第二空洞卷积模块，用于提取所述卷积神经网络输出的通用特征的多尺度信息；残差模块，用于融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息，得到所述权重图；

所述第一空洞卷积模块包括多个第一空洞卷积层Dilated_Conv(图2中注意力模型内的四个黑色方框)；第一个第二空洞卷积层的输入为所述通用特征，第一个所述第一空洞卷积层的输入为所述第一个第二空洞卷积层Dilated_Conv(图2中注意力模型虚框内的白底方框)的输出和所述特征图；第二个第二空洞卷积层的输入为所述第一个第一空洞卷积层的输出，第二个第一空洞卷积层的输入为所述第二个第二空洞卷积层的输出和所述特征图；依此类推；其中，前N-1个第一空洞卷积层、所有的第二空洞卷积层连接构成所述第二空洞卷积模块；N≥2；

本实施例的注意力模型还包括输入模块，所述输入模块连接所述卷积神经网络和所述第二空洞卷积模块的第一个第二空洞卷积层，用于对所述通用特征进行卷积操作，并利用Relu激活函数对卷积操作后的结果施加非线性因素，得到施加非线性因素的通用特征，并将该施加非线性因素的通用特征输入所述第二空洞卷积模块和所述残差模块。图2中，与CNN连接的Dilated_Conv、Relu即输入模块。

本实施例的残差模块包括：

连接单元(图2中注意力模型中激活函数Relu右侧的四个“+”号)，用于连接所述施加非线性因素的通用特征、所有第二空洞卷积层的输出和第二空洞卷积模块中最后一个第一空洞卷积层的输出，得到连接结果；

拼接单元(图2中注意力模型中四个“+”号后的“C”)，用于拼接所述连接结果和所有第一空洞卷积层的输出；

卷积单元1×1_ConV(2个)，用于所述拼接单元输出的拼接结果进行卷积操作；激活函数Sigmoid，用于对卷积单元输出的卷积结果进行映射操作，输出权重图。

本实施例的融合网络包括：

乘法单元(“×”)，用于将所述特征图与所述权重图相乘；

加法单元(“×”后的“+”)，用于将乘法单元输出的相乘的结果与所述特征图相加；

第一卷积单元1×1_ConV，用于所述加法单元输出的相加结果进行卷积操作；

第二卷积单元1×1_ConV，用于所述第一卷积单元输出的结果进行卷积操作；正则化处理单元Droupout，用于对所述第二卷积单元输出的结果进行正则化处理；第三卷积单元1×1_ConV，用对正则化处理后的结果进行卷积操作；

上采样单元Upsampling，用于对所述第三卷积单元输出的结果进行上采样操作，得到语义分割模型。

本实施例还提供了一种计算机存储介质，其存储有程序；该程序用于执行本发明实施例的步骤。

下面依据本发明提出的方法进行实验，验证所提方法的有效性。

测试数据集：所使用的数据集是公开使用的CULane和Camvid数据集。

评价指标：对于CULane数据集，本发明使用F1–Measure指标；对于Camvid数据集，本发明使用平均交并比(Mean IoU，简称mIoU)和准确率(Global Accuracy，简称GC)指标。

实验结果如下：

表1.本发明在采用不同采样率方案下的性能对比

方案	串联采样率	并行采样率	采样规则	F1–Measure
					M1	222，222	2222	不满足	69.0
M2	121，121	2114	不满足	69.3
					M3	123，123	2134	满足	69.4
M4	123，123	2138	满足	70.3
					M5	125，125	2154	满足	70.0
M6	125，125	2158	满足	69.5
					M7	123，125	2154	满足	69.1
M8	123，125	2158	满足	69.3

表1中的“串联采样率”和“并行采样率”分别指得是串联的空洞卷积模块使用的采样率和并行的空洞卷积模块使用的采样率。

表2.本发明基于融合网络结构下的性能对比

方案	融合网络结构	F1–Measure
			M4	不符合	69.0
M4	符合	70.3
			M5	不符合	69.2
M5	符合	70.0

表3.本发明与其他方法在CULane数据集下的性能比较

驾驶场景	ReNet	DenseCRF	SCNN	本发明
					Normal	83.3	81.3	84.2	88.7
Crowded	60.5	58.8	64.7	69.0
					Night	56.3	54.2	58.5	63.3
No line	34.5	31.9	39.5	41.7
					Shadow	55.0	56.3	61.3	68.0
Arrow	74.1	71.2	76.2	83.0
					Dazzle light	48.2	46.2	57.0	59.2
Curve	59.9	57.8	57.2	58.4
					Crossroad	2296	2253	1434	1729
Total	62.9	61.0	66.0	70.3

表4.本发明与其他方法在CamVid数据集下的性能比较

从以上实验结果中可以看出，与现有算法相比，本发明提出的语义分割方法实现了更高的分割精度。

Claims

1.一种图像语义分割方法，其特征在于，包括以下步骤：

1)利用卷积神经网络获取预训练集图像的通用特征；

4)融合所述特征图和所述权重图，生成语义分割模型；

优选地，步骤4)之后，还包括：

5)训练所述语义分割模型，得到最终的语义分割模型。

2.根据权利要求1所述的图像语义分割方法，其特征在于，步骤1)之前，还进行如下操作，对所述训练集图像进行预处理；优选地，所述预处理包括：调整所述训练集图像的尺寸，并将每一幅调整后的训练集图像每一个像素点值减去该训练集图像的像素均值，得到预处理后的训练集图像。

3.根据权利要求1所述的图像语义分割方法，其特征在于，步骤2)中，获取所述特征图的具体实现过程包括：

2B)拼接步骤2A)获得的深层特征，得到最终的特征图；

其中，所述设定方向是指向下、向上、向右或向左中的一种或多种的组合，优选地，对所述通用特征依次按照向下、向上、向右和向左四个方向进行卷积操作；

优选地，步骤2A)的具体实现过程包括：

IV)重复步骤III)，直至所有切片执行完毕。

4.根据权利要求1所述的图像语义分割方法，其特征在于，步骤3)中，所述权重图的获取过程包括：

5.根据权利要求4所述的图像语义分割方法，其特征在于，步骤3A)中，获取所述通用特征的多尺度特征信息之前，还对所述通用特征进行卷积操作，并利用Relu激活函数对卷积操作后的结果施加非线性因素，得到施加非线性因素的通用特征；

优选地，步骤3B)的具体实现过程包括：

A)连接所述通用特征的多尺度特征信息；

B)拼接步骤A)的连接结果与所述特征图的多尺度特征信息；

C)对步骤B)的拼接结果进行卷积操作，将卷积操作后的结果输入激活函数，得到所述权重图；

优选地，步骤A)中，连接所述通用特征的多尺度特征信息和所述施加非线性因素的通用特征。

6.根据权利要求1所述的图像语义分割方法，其特征在于，步骤4)的具体实现过程包括：

7.根据权利要求1～6之一所述的图像语义分割方法，其特征在于，步骤5)的具体实现过程包括：利用反向传播算法更新步骤4)得到的所述语义分割模型的参数，同时计算所述语义分割模型与预先标注好的语义分割信息的交叉熵损失，当所述交叉熵损失满足预设的收敛条件时，固化满足所述收敛条件时的语义分割模型的参数，对应的语义分割模型即为最终的语义分割模型；优选地，利用F1-Mesure、准确率和mIoU衡量最终的语义分割模型的预测性能。

8.一种图像语义分割系统，其特征在于，包括：

卷积神经网络，用于获取训练集图像的通用特征；

优选地，还包括预处理模块，用于对所述训练集图像进行预处理；

优选地，还包括训练模块，用于对所述语义分割模型进行训练，得到最终的语义分割模型。

9.根据权利要求8所述的图像语义分割系统，其特征在于，所述注意力模型包括：

第二空洞卷积模块，用于提取所述卷积神经网络输出的通用特征的多尺度信息；

残差模块，用于融合所述特征图的多尺度特征信息和所述通用特征的多尺度特征信息，得到所述权重图；

优选地，

所述第一空洞卷积模块包括多个第一空洞卷积层；第一个第二空洞卷积层的输入为所述通用特征，第一个所述第一空洞卷积层的输入为所述第一个第二空洞卷积层的输出和所述特征图；第二个第二空洞卷积层的输入为所述第一个第一空洞卷积层的输出，第二个第一空洞卷积层的输入为所述第二个第二空洞卷积层的输出和所述特征图；依此类推；其中，前N-1个第一空洞卷积层、所有的第二空洞卷积层连接构成所述第二空洞卷积模块；N≥2；

优选地，还包括输入模块，所述输入模块连接所述卷积神经网络和所述第二空洞卷积模块的第一个第二空洞卷积层，用于对所述通用特征进行卷积操作，并利用Relu激活函数对卷积操作后的结果施加非线性因素，得到施加非线性因素的通用特征，并将该施加非线性因素的通用特征输入所述第二空洞卷积模块和所述残差模块。

10.根据权利要求9所述的图像语义分割系统，其特征在于，所述残差模块包括：

11.根据权利要求9所述的图像语义分割系统，其特征在于，N个卷积核大小为K×K的第二空洞卷积层对应的采样率分别为[r₁,…,r_i,…,r_n]，，当i<n时，M_i＝max(M_i+1-2r_i,2r_i-M_i+1,r_i)，当i＝n时，M_n＝r_n，且M₂≤K，M_i为第二空洞卷积层的卷积核中两个非零像素间的距离；其中，n＝N，i＝1,2,……,n；

优选地，将所述第二空洞卷积模块中N个第二空洞卷积层均分为两组，每一组内空洞卷积层的采样率公因子均小于或等于1。

12.根据权利要求9～11之一所述的图像语义分割系统，其特征在于，所述融合网络包括：

乘法单元，用于将所述特征图与所述权重图相乘；

第三卷积单元，用于对正则化处理后的结果进行卷积操作；

13.一种计算机存储介质，其特征在于，其存储有程序；该程序用于执行权利要求1～7之一所述方法的步骤。