CN110070091A

CN110070091A - 用于街景理解的基于动态插值重建的语义分割方法及系统

Info

Publication number: CN110070091A
Application number: CN201910359127.5A
Authority: CN
Inventors: 陈羽中; 林洋洋; 柯逍; 黄腾达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-07-30
Anticipated expiration: 2039-04-30
Also published as: CN110070091B

Abstract

本发明涉及一种用于街景理解的基于动态插值重建的语义分割方法及系统，该方法包括：对训练集输入图像进行预处理，使图像标准化并获取相同尺寸的预处理图像；用卷积网络提取通用特征，再获取混合空间金字塔池化特征，以这两部分级联作为编码网络提取编码特征；从卷积网络中选取中间层特征，结合编码特征计算插值权重特征，以动态插值的方式搭建解码网络，重建图像分辨率，计算解码特征；计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标对深度神经网络进行训练；利用深度神经网络模型对待分割图像进行语义分割，输出分割结果。该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于动态插值重建的语义分割方法及系统

技术领域

本发明涉及计算机视觉技术技术领域，具体涉及一种用于街景理解的基于动态插值重建的语义分割方法及系统。

背景技术

图像语义分割是人工智能领域中计算机视觉的一个重要分支，是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别，使其与图像本身的视觉表示内容一致，所以图像语义分割任务也被称为像素级的图像分类任务。

由于图像语义分割与图像分类有一定的相似性，所以各式各样的图像分类网络常常在剔除最后的全连接层后，作为图像语义分割网络的主干网，并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征，最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下，图像语义分割的难度要更高，因为它不仅需要全局的上下文信息，还需要结合精细的局部信息来确定每个像素点的类别，所以常常利用主干网来提取较为全局的特征，然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征，所以常常把前者称为编码网络，后者称为解码网络。同时在编码过程中，为了能更好捕获不同大小物体的特征，常常结合不同感受野和尺度信息，比如带孔空间金字塔池化技术。在现有的图像语义分割方法中，解码过程中分辨率的重建常常采用双线性插值、转置卷积、和亚像素卷积来对图像的尺寸进行方法，第一种很好地选取了插值参考点，但是使用像素的物理距离作为插值，因为不同图的语义距离往往并不与物理具体相同，所以并不能有效地适应不同图像的情况。第二种由于采取补零的方式扩大原图尺寸然后使用一般卷积进行学习，所以学习效率较低。而最后一种则使用对若干个像素点取用了同样的参考点进行学习，选取点不佳。以上的方法都存在一定的问题，导致在解码过程中大尺寸特征不能有效地从信息缺失的小尺寸特征学习而来。

发明内容

本发明的目的在于提供一种用于街景理解的基于动态插值重建的语义分割方法及系统，该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

为实现上述目的，本发明的技术方案是：一种用于街景理解的基于动态插值重建的语义分割方法，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取混合空间金字塔池化特征F_mspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder；

步骤C：从所述卷积网络中选取中间层特征结合编码特征F_encoder计算插值权重特征然后以动态插值的方式搭建解码网络，进行图像分辨率重建，计算解码特征F_decoder；

步骤D：用解码特征F_decoder获取语义分割概率图，结合图像语义分割标注计算边缘增强权重，并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练；

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

进一步地，所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取混合空间金字塔池化特征F_mspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

步骤B3：对F_backbone进行分块池化，得到尺寸为h_bin×w_bin的池化特征，然后使用最近邻插值把池化特征恢复到F_backbone同尺寸，再经过1×1卷积得到特征其中，池化操作的参数的计算公式如下：

其中，h_backbone和w_backbone分别表示特征F_backbone的高和宽，h_bin和w_bin分别表示垂直方向和水平方向的分块数量，h_stride和w_stride分别表示垂直方向和水平方向的池化步长，h_stride和w_stride分别表示垂直方向和水平方向的池化步长；

步骤B4：用孔率为r_as的卷积核对F_backbone进行带孔卷积得到特征卷积过程中使用批标准化来保持输入的同分布，用线性整流函数作为激活函数；其中，带孔卷积计算公式如下：

其中，表示在输出坐标m_as位置的使用孔率为r_as的带孔卷积的处理结果，x_as[m_as+r_as·k_as]表示输入x_as在坐标m_as位置上于孔率为r_as且带孔卷积核坐标为k_as时所对应的输入参考像素，w_as[k_as]表示在带孔卷积核作为k_as位置的权重；

步骤B5：用不同的分块数量重复步骤B2，然后全部拼接获得空间金字塔特征F_spp，用不同的孔率重复步骤B3，然后全部拼接获得带孔空间金字塔特征F_aspp，最后拼接F_spp和F_aspp获得混合空间金字塔池化特征F_mspp；

步骤B6：使用1×1卷积对F_mspp进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder。

进一步地，所述步骤C中，从所述卷积网络中选取中间层特征结合编码特征F_encoder计算插值权重特征然后以动态插值的方式搭建解码网络，进行图像分辨率重建，计算解码特征F_decoder，包括以下步骤：

步骤C1：定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅，从提取通用特征的卷积网络中选取输出步幅为os的中间层特征，并用1×1卷积进行降维，得到特征

步骤C2：使用最近邻插值处理编码特征F_encoder，得到输出步幅为os的特征图

步骤C3：拼接和使用1×1卷积降维后，再使用3×3卷积提取特征得到插值权重特征

步骤C4：计算尺寸与相同的待求特征F_decoder，每个像素点对应到F_encoder中的小数坐标，公式如下：

其中，x_encoder和y_encoder为对应到F_encoder中的小数坐标，h_encoder和w_encoder表示F_encoder的高和宽，h_decoder和w_decoder表示F_decoder的高和宽；

然后从F_encoder收集F_decoder的四邻域特征F_ref，计算公式如下：

其中，F_ref(x_decoder,y_decoder)表示四邻域特征F_ref在(x_decoder,y_decoder)坐标像素点的参考特征值，表示待求特征F_decoder参考F_encoder在x_encoder和y_encoder都下取整坐标位置的像素值，即F_encoder对应像素点最近左上像素点的像素值；

步骤C5：利用插值权重特征对四邻域特征F_ref加权获得动态插值的解码特征F_decoder，计算公式如下：

步骤C6：选取比步骤C1中更小的输出步幅os，如果全部输出步幅处理完成，则解码特征提取完成，否则更新F_decoder作为新的F_encoder，并重复步骤C1至C5。

进一步地，所述步骤D中，用解码特征F_decoder获取语义分割概率图，结合图像语义分割标注计算边缘增强权重，并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练，包括以下步骤：

步骤D1：用双线性插值将F_decoder缩放到与输入图像的尺寸相同，并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率；softmax计算公式如下：

其中，σ_c为c类别的概率，e为自然指数，γ_c和γ_k分别表示类别为c和k的未激活特征值，C为总类别数；

步骤D2：对语义分割概率图中的每个位置选取概率最大的那个维度作为该位置的类别标号，获得预测语义分割图，然后通过如下公式结合图像语义分割标注获得边缘增强权重：

其中，w_edge(i,j)、和分别表示坐标(i,j)位置的总边缘增强权重w_edge、预测边缘增强权重和标注边缘增强权重y(i,j)和为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数，max()为取大值函数；α为像素边缘增强权重；

步骤D3：利用语义分割概率图与其对应标注，计算像素级的交叉熵，得到语义分割损失L_s，然后计算加权和损失L：

L＝(1+w_edge)L_s

最后通过随机梯度下降优化方法，利用反向传播迭代更新模型参数，以最小化加权和损失L来训练网络得到最后的模型。

本发明还提供了一种用于街景理解的基于动态插值重建的语义分割系统，包括：

预处理模块，用于对训练集输入图像进行预处理，包括让图像减去其图像均值使其标准化，以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取混合空间金字塔池化特征F_mspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder；

解码特征提取模块，用于从所述卷积网络中选取中间层特征结合编码特征F_encoder计算插值权重特征然后以动态插值的方式搭建解码网络，进行图像分辨率重建，提取解码特征F_decoder；

神经网络训练模块，用于用解码特征F_decoder获取语义分割概率图，结合图像语义分割标注计算边缘增强权重，并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练，得到深度神经网络模型；

语义分割模块，用于利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

相较于现有技术，本发明的有益效果是：在编码过程中，针对性地设计了混合空间金字塔池化，能以较少的参数捕获更多上下文信息。在解码过程中，针对性地设计了特征分辨率重建的步骤，结合中间层特征和编码特征计算插值所需权重，然后利用该权重动态地将小尺寸特征插值成大尺寸特征，与现有方法相比，本发明能更合理地选取像素点的插值参考点，同时由于插值权重是由浅层特征和编码特征计算而来的，所以能有效地利用图像的精细和语义信息来动态对不同图像的不同位置决定参考点的插值重要程度，使得分辨率重建的学习能力更加强大，从而最后得到更精确的语义分割结果。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种用于街景理解的基于动态插值重建的语义分割方法，如图1所示，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。

步骤B：用通用的卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取混合空间金字塔池化特征F_mspp，用于捕获多尺度上下文信息，然后以步骤B中所述这两部分级联作为编码网络提取编码特征F_encoder；具体包括以下步骤：

步骤B1：使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

步骤B5：用不同的分块数量(本实施例为5个，(1,1)(2,2)(4,4)(8,8)(16,16)，池化方式为平均池化)重复步骤B2，然后全部拼接获得空间金字塔特征F_spp，用不同的孔率(本实施例为3个：6，12，18)重复步骤B3，然后全部拼接获得带孔空间金字塔特征F_aspp，最后拼接F_spp和F_aspp获得混合空间金字塔池化特征F_mspp；

步骤C：从所述卷积网络中选取中间层特征结合编码特征F_encoder计算插值权重特征然后以动态插值的方式搭建解码网络，进行图像分辨率重建，计算解码特征F_decoder；具体包括以下步骤：

其中，F_ref(x_decoder,y_decoder)表示四邻域特征F_ref在(x_decoder,y_decoder)坐标像素点的参考特征值，表示待求特征F_decoder参考F_encoder在x_encoder和y_encoder都下取整坐标位置的像素值，即F_encoder对应像素点最近左上像素点的像素值，其余以此类推；

步骤D：用解码特征F_decoder获取语义分割概率图，结合图像语义分割标注计算边缘增强权重，并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练；具体包括以下步骤：

其中，w_edge(i,j)、和分别表示坐标(i,j)位置的总边缘增强权重w_edge、预测边缘增强权重和标注边缘增强权重y(i,j)和为坐标(i,j)位置预测语义分割结果和图像语义分割标注结果，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数，max()为取大值函数；α为像素边缘增强权重(本实施例中为1)；

L＝(1+w_edge)L_s

本发明还提供了用于实现上述方法的用于街景理解的语义分割系统，如图2所示，包括：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种用于街景理解的基于动态插值重建的语义分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的用于街景理解的基于动态插值重建的语义分割方法，其特征在于，所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取混合空间金字塔池化特征F_mspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

3.根据权利要求2所述的用于街景理解的基于动态插值重建的语义分割方法，其特征在于，所述步骤C中，从所述卷积网络中选取中间层特征结合编码特征F_encoder计算插值权重特征然后以动态插值的方式搭建解码网络，进行图像分辨率重建，计算解码特征F_decoder，包括以下步骤：

4.根据权利要求3所述的用于街景理解的基于动态插值重建的语义分割方法，其特征在于，所述步骤D中，用解码特征F_decoder获取语义分割概率图，结合图像语义分割标注计算边缘增强权重，并利用语义分割概率图及其标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练，包括以下步骤：

L＝(1+w_edge)L_s

5.一种用于街景理解的基于动态插值重建的语义分割系统，其特征在于，包括：