CN110059769B

CN110059769B - 用于街景理解的基于像素重排重建的语义分割方法及系统

Info

Publication number: CN110059769B
Application number: CN201910359495.XA
Authority: CN
Inventors: 陈羽中; 林洋洋; 柯逍; 黄腾达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-11-18
Anticipated expiration: 2039-04-30
Also published as: CN110059769A

Abstract

本发明涉及一种用于街景理解的基于像素重排重建的语义分割方法及系统，该方法包括：对训练集输入图像进行预处理，使图像标准化并获取相同尺寸的预处理图像；用卷积网络提取通用特征，再获取稠密带孔空间金字塔融合特征，以这两部分级联作为编码网络提取编码特征；从卷积网络中选取中间层特征，结合编码特征计算边缘特征，以基于像素重排技术的稠密网为解码网络，重建图像分辨率，计算解码特征；计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标对深度神经网络进行训练；利用深度神经网络模型对待分割图像进行语义分割，输出分割结果。该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的基于像素重排重建的语义分割方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于街景理解的基于像素重排重建的语义分割方法及系统。

背景技术

图像语义分割是人工智能领域中计算机视觉的一个重要分支，是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别，使其与图像本身的视觉表示内容一致，所以图像语义分割任务也被称为像素级的图像分类任务。

由于图像语义分割与图像分类有一定的相似性，所以各式各样的图像分类网络常常在剔除最后的全连接层后，作为图像语义分割网络的主干网，并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征，最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下，图像语义分割的难度要更高，因为它不仅需要全局的上下文信息，还需要结合精细的局部信息来确定每个像素点的类别，所以常常利用主干网来提取较为全局的特征，然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征，所以常常把前者称为编码网络，后者称为解码网络。同时在编码过程中，为了能更好捕获不同大小物体的特征，常常结合不同感受野和尺度信息，比如带孔空间金字塔池化技术，不能有效地对点本身特征进行表示，而且在计算不同尺度特征特征时没有重用较小的尺度特征。同时，在现有的语义分割方法中，解码过程中一般都使用转置卷积或者双线性插值等方法将特征逐级扩大，因此特征尺寸是逐级递增的，无法有效地对重建特征进行特征重用。而且在这过程中常常会加入浅层特征来优化解码过程，但没有对浅层特征设计一个明确的优化目标，因此在重建过程中修复细节的能力稍显不足。

发明内容

本发明的目的在于提供一种用于街景理解的基于像素重排重建的语义分割方法及系统，该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

为实现上述目的，本发明的技术方案是：一种用于街景理解的基于像素重排重建的语义分割方法，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder；

步骤C：从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算解码特征F_decoder；

步骤D：用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练；

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

进一步地，所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，然后以这两部分级联作为编码网络提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

将

与F_backbone拼接得到

步骤B3：使用1×1卷积对特征

进行降维，然后用孔率为r_as的卷积核进行带孔卷积得到特征

并将

和

拼接结果作为新的

卷积过程中使用批标准化来保持输入的同分布，用线性整流函数作为激活函数；其中，带孔卷积计算公式如下：

其中，

表示在输出坐标m_as位置的使用孔率为r_as的带孔卷积的处理结果，x_as[m_as+r_as·k_as]表示输入x_as在坐标m_as位置上于孔率为r_as且带孔卷积核坐标为k_as时所对应的输入参考像素，w_as[k_as]表示在带孔卷积核作为k_as位置的权重；

步骤B4：使用多个不同的孔率重复上一步骤，直至获得n_daspp个特征；

步骤B5：对F_backbone整张图像进行平均池化，然后再使用最近邻插值恢复到原尺寸，再经过1×1卷积得到图像级特征F_image，然后将

和F_image拼接结果作为新的

再用一个不同孔率执行步骤B3；

步骤B6：使用1×1卷积对

进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder。

进一步地，所述步骤C中，从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算特征图F_decoder，包括以下步骤：

步骤C1：将F_encoder作为当前的解码特征F_decoder；

步骤C2：定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅，使用像素重排技术处理F_decoder，得到输出步幅为os的

像素重排计算公式如下：

其中，r_hs和r_ws分别表示

和F_decoder尺寸的上取整高度比和上取整宽度比，

表示在坐标

位置通道

处的像素值，

表示在坐标

位置通道

处的像素值；

步骤C3：使用最近邻插值处理编码特征F_encoder，得到与

尺寸相同的特征图

步骤C4：从提取通用特征的卷积网络中选取输出步幅为os的中间层特征

双线性插值到与

相同尺寸后再与

拼接，然后使用1×1卷积进行降维后，再使用3×3卷积提取特征得到边缘特征

步骤C5：拼接

和

使用1×1卷积进行降维后，再使用3×3卷积提取特征得到解码特征F_decoder，然后拼接

作为新的解码特征F_decoder；

步骤C6：选取比步骤C2中更小的输出步幅os，如果全部输出步幅处理完成，则解码特征提取完成，否则重复步骤C2至C5。

进一步地，所述步骤D中，用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及它们各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练，包括以下步骤：

步骤D1：用双线性插值将F_decoder缩放到与输入图像的尺寸相同，并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率，softmax计算公式如下：

其中，σ_c为c类别的概率，e为自然指数，γ_c和γ_k分别表示类别为c和k的未激活特征值，C为总类别数；

步骤D2：用双线性插值将所有的

缩放到与输入图像的尺寸相同，并将所有

拼接使用不带激活函数的1×1卷积计算得到合并边缘特征F_edge，然后对F_edge使用sigmoid激活得到边缘概率图，sigmoid计算公式如下：

其中，S(ε)表示F_edge中的特征值ε经过sigmoid处理后的概率，e为自然指数；

步骤D3：利用训练集的语义分割标注计算边缘标注，计算公式如下：

其中，y_edge(i,j)和

为坐标(i,j)位置的边缘标注和语义标注，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数；

步骤D4：利用语义分割和边缘两者的概率图与其对应标注，分别计算像素级的交叉熵，得到对应语义分割损失L_s和辅助监督的边缘损失L_edge，然后计算加权和损失L：

L＝L_s+αL_edge

其中，L_edge为合并边缘特征F_edge对应的损失值，α为L_edge在最终损失中所占的权重；

最后通过随机梯度下降优化方法，利用反向传播迭代更新模型参数，以最小化加权和损失L来训练整个深度神经网络，得到最后的深度神经网络模型。

本发明还提供了一种用于街景理解的基于像素重排重建的语义分割系统，包括：

预处理模块，用于对训练集输入图像进行预处理，包括让图像减去其图像均值使其标准化，以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，用于捕获多尺度上下文信息，然后以这两部分级联作为编码网络提取编码特征F_encoder；

解码特征提取模块，用于从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，提取解码特征F_decoder；

神经网络训练模块，用于用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练，得到深度神经网络模型；以及

语义分割模块，用于利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

相较于现有技术，本发明的有益效果是：首先在编码网络中的主干网过后的多尺度特征捕获中使用了稠密带孔空间金字塔池化，针对性地在带孔空间金字塔池化中对感受野从小到大的特征进行重用，使用编码特征得到更好的学习。然后在解码网络结合受辅助边缘监督的浅层特征，巧妙地利用像素重排的方式自然地让各级重建特征的尺寸统一起来，从而满足稠密网的基本要求，利用稠密网的方式针对性地对分辨率重建过程中的特征进行更有效地重用。与现有方法相比，本发明能在编码过程中有效地重用小尺度特征获取更强大的大尺度特征，同时获取更有点性质代表的编码特征，解码过程中利用像素重排的方式自然而巧妙地满足了稠密网的要求，从而使得重建特征可以进行重用，更便于解码网络的学习，同时对浅层特征进行边缘监督，明确其优化目标，能从边缘优化的角度更好地提高不同物体间的分割能力，使得最后的语义分割结果更准确且鲁棒。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种用于街景理解的基于像素重排重建的语义分割方法，如图1所示，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。

步骤B：用通用的卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，用于捕获多尺度上下文信息，然后以步骤B中所述这两部分级联作为编码网络提取编码特征F_encoder；具体包括以下步骤：

步骤B1：使用通用的卷积网络(本实施例采用deeplabv3+网络中提供的xception)对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

将

与F_backbone拼接得到

步骤B3：使用1×1卷积对特征

进行降维，然后用孔率为r_as的卷积核进行带孔卷积得到特征

并将

和

拼接结果作为新的

其中，

步骤B4：使用多个不同的孔率重复上一步骤，直至获得n_daspp个特征(本实施例为3个特征，孔率分别为6，12，18)；

和F_image拼接结果作为新的

再用一个不同孔率(本实施例中为24)执行步骤B3；

步骤B6：使用1×1卷积对

步骤C：从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算解码特征F_decoder；具体包括以下步骤：

步骤C1：将F_encoder作为当前的解码特征F_decoder；

像素重排计算公式如下：

其中，r_hs和r_ws分别表示

和F_decoder尺寸的上取整高度比和上取整宽度比，

表示在坐标

位置通道

处的像素值，

表示在坐标

位置通道

处的像素值；

步骤C3：使用最近邻插值处理编码特征F_encoder，得到与

尺寸相同的特征图

双线性插值到与

相同尺寸后再与

步骤C5：拼接

和

作为新的解码特征F_decoder；

步骤D：用解码特征F_decoder和边缘特征

分别获取语义分割概率图和边缘概率图，以训练集中的语义图像标注计算边缘图像标注，利用语义分割概率图和边缘概率图以及各自对应的标注分别计算得到语义分割损失和辅助监督的边缘损失，以最小化两者加权和损失为目标来对整个深度神经网络进行训练；具体包括以下步骤：

步骤D2：用双线性插值将所有的

缩放到与输入图像的尺寸相同，并将所有

其中，y_edge(i,j)和

L＝L_s+αL_edge

其中，L_edge为合并边缘特征F_edge对应的损失值，α为L_edge在最终损失中所占的权重，具体满足α＝1；

本发明还提供了用于实现上述方法的用于街景理解的语义分割系统，如图2所示，包括：

解码特征提取模块，用于从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

神经网络训练模块，用于用解码特征F_decoder和边缘特征

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种用于街景理解的基于像素重排重建的语义分割方法，其特征在于，包括以下步骤：

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，用于捕获多尺度上下文信息，然后提取编码特征F_encoder；

步骤C：从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

步骤D：用解码特征F_decoder和边缘特征

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果；

所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，然后提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

将

与F_backbone拼接得到

步骤B3：使用1×1卷积对特征

进行降维，然后用孔率为r_as的卷积核进行带孔卷积得到特征

并将

和

拼接结果作为新的

其中，

和F_image拼接结果作为新的

再用一个不同孔率执行步骤B3；

步骤B6：使用1×1卷积对

进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder；

所述步骤C中，从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

以基于像素重排技术的稠密网为解码网络，进行图像分辨率重建，计算解码特征F_decoder，包括以下步骤：

步骤C1：将F_encoder作为当前的解码特征F_decoder；

像素重排计算公式如下：

其中，r_hs和r_ws分别表示

和F_decoder尺寸的上取整高度比和上取整宽度比，

表示在坐标

位置通道

处的像素值，

表示在坐标

位置通道

处的像素值；

步骤C3：使用最近邻插值处理编码特征F_encoder，得到与

尺寸相同的特征图

双线性插值到与

相同尺寸后再与

步骤C5：拼接

和

作为新的解码特征F_decoder；

2.根据权利要求1所述的用于街景理解的基于像素重排重建的语义分割方法，其特征在于，所述步骤D中，用解码特征F_decoder和边缘特征

步骤D2：用双线性插值将所有的

缩放到与输入图像的尺寸相同，并将所有

其中，y_edge(i,j)和

L＝L_s+αL_edge

其中，α为L_edge在最终损失中所占的权重；

3.一种用于实现如权利要求1所述方法的用于街景理解的基于像素重排重建的语义分割系统，其特征在于，包括：

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取稠密带孔空间金字塔融合特征F_daspp，用于捕获多尺度上下文信息，然后提取编码特征F_encoder；

解码特征提取模块，用于从所述卷积网络中选取中间层特征

结合编码特征F_encoder计算边缘特征

神经网络训练模块，用于用解码特征F_decoder和边缘特征