CN110059768B

CN110059768B - 用于街景理解的融合点与区域特征的语义分割方法及系统

Info

Publication number: CN110059768B
Application number: CN201910359134.5A
Authority: CN
Inventors: 陈羽中; 林洋洋; 柯逍; 黄腾达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-11-15
Anticipated expiration: 2039-04-30
Also published as: CN110059768A

Abstract

本发明涉及一种用于街景理解的融合点与区域特征的语义分割方法及系统，该方法包括：对训练集输入图像进行预处理，使图像标准化并获取相同尺寸的预处理图像；用卷积网络提取通用特征，再基于通用特征获取多重上下文对比点特征，以这两部分级联作为编码网络提取编码特征；从卷积网络中选取中间层特征，结合编码特征计算区域特征，融合点域特征扩大解码特征分辨率，把这部分多次迭代作为解码网络，重建图像分辨率，计算解码特征；计算边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对深度神经网络进行训练；利用深度神经网络模型对待分割图像进行语义分割，输出分割结果。该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

Description

用于街景理解的融合点与区域特征的语义分割方法及系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于街景理解的融合点与区域特征的语义分割方法及系统。

背景技术

图像语义分割是人工智能领域中计算机视觉的一个重要分支，是机器视觉中关于图像理解重要的一环。图像语义分割就是将图像中的每一个像素准确地归类到其所属类别，使其与图像本身的视觉表示内容一致，所以图像语义分割任务也被称为像素级的图像分类任务。

由于图像语义分割与图像分类有一定的相似性，所以各式各样的图像分类网络常常在剔除最后的全连接层后，作为图像语义分割网络的主干网，并相互之间可替换。有时也会通过移除主干网中的池化层或使用带孔卷积等修改获得更大尺寸的特征，最后使用卷积核为1的卷积层获得语义分割结果。在与图像分类对比之下，图像语义分割的难度要更高，因为它不仅需要全局的上下文信息，还需要结合精细的局部信息来确定每个像素点的类别，所以常常利用主干网来提取较为全局的特征，然后再结合主干网中的浅层特征进行特征分辨率重建恢复到原始图像大小。基于特征尺寸先变小再变大的特征，所以常常把前者称为编码网络，后者称为解码网络。同时在编码过程中，为了能更好捕获不同大小物体的特征，常常结合不同感受野和尺度信息，比如带孔空间金字塔池化技术。在现有的语义分割模型中，编码过程和解码过程都是直接为优化语义分割效果而设计的，以融入更多信息来得到更强大的语义特征，如前者融合多尺度信息以及后者补充编码过程中遗漏的细节信息，因此这两个不同的过程没有能够对不同的目标进行优化，所以他们结合之后的表现能力也有限。实际上使用解码网络主要是因为硬件条件受限使用了降低分辨率的编码网络，因此需要进行分辨率重建，同时尽可能地优化其效果。所以自然地，编码结果代表的即是它本身分辨率下的优秀语义分割特征，而解码的过程则是在这之上利用对应的区域信息来扩大其分辨率，针对不同像素点以不同的方式来参考区域信息，从而自然地将互补的点信息和区域信息很好的融合起来，而这正是目前方法所没有考虑到的。

发明内容

本发明的目的在于提供一种用于街景理解的融合点与区域特征的语义分割方法及系统，该方法及系统有利于提高图像语义分割的准确性和鲁棒性。

为实现上述目的，本发明的技术方案是：一种用于街景理解的融合点与区域特征的语义分割方法，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后以这两部分级联作为编码网络提取编码特征F_encoder；

步骤C：从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，把这部分多次迭代作为解码网络，进行图像分辨率重建，计算解码特征F_decoder；

步骤D：用解码特征F_decoder获取语义分割概率图，利用图像语义分割标注计算边缘增强权重，并利用语义分割标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练；

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

进一步地，所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后以这两部分级联作为编码网络提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

步骤B3：用孔率为r_as的卷积核对F_backbone进行带孔卷积得到特征

卷积过程中使用批标准化来保持输入的同分布，用线性整流函数作为激活函数；其中，带孔卷积计算公式如下：

其中，

表示在输出坐标m_as位置的使用孔率为r_as的带孔卷积的处理结果，x_as[m_as+r_as·k_as]表示输入x_as在坐标m_as位置上于孔率为r_as且带孔卷积核坐标为k_as时所对应的输入参考像素，w_as[k_as]表示在带孔卷积核作为k_as位置的权重；

然后使用如下公式计算得到孔率为r_as的上下文对比点特征特征

步骤B5：对F_backbone整张图像进行平均池化，然后再使用最近邻插值恢复到原尺寸，再经过1×1卷积得到图像级特征F_image；

步骤B6：使用不同的孔率重复步骤B4，直至获得n_caspp个特征，然后将这n_caspp个特征与F_c ¹ _aspp和F_image进行拼接，得到多重上下文对比点特征F_caspp；

步骤B7：使用1×1卷积对F_caspp进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder。

进一步地，所述步骤C中，从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，把这部分多次迭代作为解码网络，进行图像分辨率重建，计算解码特征F_decoder，包括以下步骤：

步骤C1：将F_encoder作为当前的解码特征F_decoder；

步骤C2：从提取通用特征的卷积网络中选取尺寸与F_decoder相同的的中间层特征F_middle；

步骤C3：使用最近邻插值处理编码特征F_encoder，得到与F_decoder尺寸相同的特征图F_us；

步骤C4：将F_middle与F_us拼接后使用1×1卷积进行降维，然后使用多孔空间金字塔池化网络处理得到含有多尺度上下文信息的区域特征F_region；

步骤C5：拼接F_decoder和F_region，使用1×1卷积进行降维后，再使用3×3卷积提取特征得到解码特征F_decoder；

步骤C6：定义最初输入图像尺寸与特征尺寸的比率为该特征的输出步幅；选取所述卷积网络中输出步幅为os的中间层特征的尺寸作为下一级解码特征尺寸；如果此输出步幅在选取的处理列表内，则使用双线性插值F_decoder扩大到该尺寸，重复步骤C2至C5，否则解码特征提取完成。

进一步地，所述步骤D中，用解码特征F_decoder获取语义分割概率图，利用图像语义分割标注计算边缘增强权重，并利用语义分割标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练，包括以下步骤：

步骤D1：用双线性插值将F_decoder缩放到与输入图像的尺寸相同，并通过使用softmax作为激活函数的1×1卷积计算得到语义分割概率，softmax计算公式如下：

其中，σ_c为c类别的概率，e为自然指数，γ_c和γ_k分别表示类别为c和k的未激活特征值，C为总类别数；

步骤D2：利用图像语义分割标注获得边缘增强权重，计算公式如下：

其中w_edge(i,j)表示坐标(i,j)位置的边缘增强权重w_edge，

为坐标(i,j)位置预测语义图像语义分割标注结果，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数，α为像素边缘增强权重；

步骤D3：利用语义分割概率图与其对应标注，计算像素级的交叉熵，得到语义分割损失L_s，然后计算加权和损失L：

L＝(1+w_edge)L_s

最后通过随机梯度下降优化方法，利用反向传播迭代更新模型参数，以最小化加权和损失L来训练网络得到最后的模型。

本发明还提供了一种用于街景理解的融合点与区域特征的语义分割系统，包括：

预处理模块，用于对训练集输入图像进行预处理，包括让图像减去其图像均值使其标准化，以及随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像；

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后以这两部分级联作为编码网络提取编码特征F_encoder；

解码特征提取模块，用于从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，把这部分多次迭代作为解码网络，进行图像分辨率重建，计算解码特征F_decoder；

神经网络训练模块，用于用解码特征F_decoder获取语义分割概率图，利用图像语义分割标注计算边缘增强权重，并利用语义分割标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练；以及

语义分割模块，用于利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果。

相较于现有技术，本发明的有益效果是：首先在编码网络针对性地计算多重上下文对比点特征，强化了对各个像素点信息的获取。然后在解码网络利用浅层特征学习区域性特征，同时利用辅助边缘监督优化区域性特征的学习，针对性地利用其互补性将点域特征进行结合。与现有方法相比，本发明能在编码后获得更有点针对性的特征，在解码过程中获取与之互补，更有区域针对性且受边缘监督的特征，使得两个针对优化点强强联合，从而可以得到更精确的语义分割结果。

附图说明

图1是本发明实施例的方法实现流程图。

图2是本发明实施例的系统结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供了一种用于街景理解的融合点与区域特征的语义分割方法，如图1所示，包括以下步骤：

步骤A：对训练集输入图像进行预处理，首先让图像减去其图像均值使其标准化，然后随机对图像进行统一尺寸的剪切获取相同尺寸的预处理图像。

步骤B：用通用的卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后以步骤B中所述这两部分级联作为编码网络提取编码特征F_encoder；具体包括以下步骤：

步骤B1：使用通用的卷积网络(本实施例中采用deeplabv3+网络中提供的xception网络)对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

其中，

步骤B6：使用不同的孔率重复步骤B4，直至获得n_caspp个特征(本实施例为3个特征，孔率分别为6，12，18)，然后将这n_caspp个特征与

和F_image进行拼接，得到多重上下文对比点特征F_caspp；

步骤C：从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，把步骤C中这部分多次迭代作为解码网络，进行图像分辨率重建，计算解码特征F_decoder；具体包括以下步骤：

步骤C1：将F_encoder作为当前的解码特征F_decoder；

步骤C4：将F_middle与F_us拼接后使用1×1卷积进行降维，然后使用多孔空间金字塔池化网络处理得到含有多尺度上下文信息的区域特征F_region；此处，本方法可以选择任意卷积网络模块，只要能捕获多尺度上下文信息即可，本实施例采用了多孔空间金字塔池化，孔率为6，12，18；

步骤D：用解码特征F_decoder获取语义分割概率图，利用图像语义分割标注计算边缘增强权重，并利用语义分割标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练；具体包括以下步骤：

其中w_edge(i,j)表示坐标(i,j)位置的边缘增强权重w_edge，

为坐标(i,j)位置预测语义图像语义分割标注结果，(i_u,j_u)表示(i,j)坐标下的8邻域U₈中的一组坐标，sgn()为符号函数，α为像素边缘增强权重，本实施例取1；

L＝(1+w_edge)L_s

本发明还提供了用于实现上述方法的用于街景理解的语义分割系统，如图2所示，包括：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种用于街景理解的融合点与区域特征的语义分割方法，其特征在于，包括以下步骤：

步骤B：用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后提取编码特征F_encoder；

步骤C：从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，然后进行图像分辨率重建，计算解码特征F_decoder；

步骤E：利用训练好的深度神经网络模型对待分割图像进行语义分割，输出分割结果；

所述步骤B中，用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后提取编码特征F_encoder，包括以下步骤：

步骤B1：使用卷积网络对预处理图像提取通用特征F_backbone；

步骤B2：使用1×1卷积对特征F_backbone进行特征降维，得到特征

其中，

然后使用如下公式计算得到孔率为r_as的上下文对比点特征

步骤B4：对F_backbone整张图像进行平均池化，然后再使用最近邻插值恢复到原尺寸，再经过1×1卷积得到图像级特征F_image；

步骤B5：使用不同的孔率重复步骤B3，直至获得n_caspp个特征，然后将这n_caspp个特征与

和F_image进行拼接，得到多重上下文对比点特征F_caspp；

步骤B6：使用1×1卷积对F_caspp进行降维，然后再用深度学习中的dropout进行正则化，得到最后的编码特征F_encoder；

所述步骤C中，从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，然后进行图像分辨率重建，计算解码特征F_decoder，包括以下步骤：

步骤C1：将F_encoder作为当前的解码特征F_decoder；

步骤C2：从提取通用特征的卷积网络中选取尺寸与F_decoder相同的中间层特征F_middle；

2.根据权利要求1所述的用于街景理解的融合点与区域特征的语义分割方法，其特征在于，所述步骤D中，用解码特征F_decoder获取语义分割概率图，利用图像语义分割标注计算边缘增强权重，并利用语义分割标注计算得到边缘增强的语义分割损失，以最小化边缘增强的语义分割损失为目标来对整个深度神经网络进行训练，包括以下步骤：

其中w_edge(i,j)表示坐标(i,j)位置的边缘增强权重w_edge，

L＝(1+w_edge)L_s

3.一种用于实现如权利要求1所述方法的用于街景理解的融合点与区域特征的语义分割系统，其特征在于，包括：

编码特征提取模块，用于用卷积网络提取通用特征F_backbone，再基于通用特征F_backbone获取多重上下文对比点特征F_caspp，然后提取编码特征F_encoder；

解码特征提取模块，用于从所述卷积网络中选取中间层特征F_middle，结合编码特征F_encoder计算区域特征F_region，融合点域特征扩大解码特征分辨率，然后进行图像分辨率重建，计算解码特征F_decoder；