CN113762396A

CN113762396A - 一种二维图像语义分割方法

Info

Publication number: CN113762396A
Application number: CN202111059295.6A
Authority: CN
Inventors: 徐锋; 陈国栋; 聂瑜; 梁志强; 陈妍洁; 郭中远; 张文凯; 李瑾
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-07

Abstract

本发明公开了一种二维图像语义分割方法，包括：输入二维图像；将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图；将第二特征图和第三特征图通过金字塔池化操作获得第四特征图和第五特征图；使用特征融合模块将第一特征图、第三特征图、第四特征图和第五特征图进行融合；将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。本发明融合了网络的多层特征，特征信息更充分，对网络进行精度补偿，改善目标的边缘分割效果，实现更精细的图像语义分割。

Description

一种二维图像语义分割方法

技术领域

本发明涉及计算机视觉领域，特别涉及一种二维图像语义分割方法。

背景技术

语义分割是计算机视觉中一个重要的分支领域，其目的是为图像中的每个像素标记类别标签，对图像进行像素级别的分类，从而表示该像素的语义信息，采用学习到的算法模型预测同分布新图像的每个像素标签，将不同类别的对象分割出来。语义分割作为图像理解、图像生成等计算机视觉研究前沿领域的基础环节，在自动驾驶、遥感图像分析、机器人传感、医疗图像等方面有着广泛的应用，其具有重要的研究意义和应用价值。

全卷积神经网络FCN是语义分割的开创之作，实现了端到端的像素级别分类，但多次下采样和反卷积操作导致图像部分信息丢失，缺乏空间一致性。全局卷积网络GCN使用大的卷积核连接特征图和每个像素，使像素与特征图的结合更加紧密，主要提升了目标内部的准确率，对边界范围的影响较小。DeepLab系列网络的核心是使用空洞卷积扩大了感受野，但是网络在解码过程中仅融合一个尺度编码特征，导致部分细节信息丢失，最终分割结果不够精细。金字塔场景解析网络PSPNet开创性地引入金字塔池化模块(Pyramid PoolingModule,PPM)，其通过对不同区域的上下文信息进行聚合，提高网络使用全局上下文信息的能力，但其对小目标物体处理得不够理想，边缘分割得不够精准。

现有的大部分语义分割方法需要解决的关键问题如下：语义标签预测不准确，易混淆类别难以有效区分，图像边缘轮廓细化不佳，分割目标与背景之间的边缘信息易损失。

发明内容

为了解决上述问题中的至少一个而提出了本发明。本发明一种二维图像语义分割方法包括：输入二维图像，其包括用于网络训练的图像数据集和待分割图像；将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图；将第二特征图和第三特征图通过金字塔池化操作获得第四特征图和第五特征图；使用特征融合模块将第一特征图、第三特征图、第四特征图和第五特征图进行融合；将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。

优选的，所述训练过程采用联合损失方式，总损失为交叉熵损失(Cross EntropyLoss)与集合相似度损失(Dice Loss)之和。所述第一特征图为浅层特征，包含丰富的空间位置信息。所述第二特征图和第三特征图为较深层特征，包含丰富的语义信息。所述金字塔池化操作聚合不同区域的上下文信息，提高获取全局信息的能力。所述第四特征图和第五特征图融合了不同层次的特征，包含丰富的全局上下文信息。

优选的，所述特征融合模块首先将输入特征进行通道堆叠(concatenate)操作，然后使用三个膨胀率分别为1、2、3的3×3空洞卷积融合输入特征，同时保留局部细节，最后将三个并行卷积后的特征使用相加操作和1×1卷积操作进行加强特征融合。所述特征融合模块将包含丰富位置信息的第一特征图、包含丰富语义信息的第三特征图、包含丰富全局上下文信息的第四特征图和第五特征图进行融合以获得更加丰富的图像特征。

本发明与现有技术相比的优点在于，本发明一种二维图像语义分割方法使用特征融合模块融合了多种有效特征，并加入感受野模块增大感受野，对网络进行精度补偿，改善目标的边缘分割效果，细化分割图像的边缘轮廓，实现更精细的图像语义分割。

附图说明

图1是本发明一种二维图像语义分割方法的步骤流程图。

图2是本发明一种二维图像语义分割方法的网络框图。

图3是本发明一种二维图像语义分割方法的特征融合模块结构图。

图4是本发明一种二维图像语义分割方法的感受野模块结构图。

图5是本发明一种二维图像语义分割方法的图像分割流程图。

图6是不同模型在Pascal-VOC2012数据集上的语义分割可视化结果图。

具体实施方式

下面结合附图和具体实施方式对本发明进一步详细说明。

图1是本发明一种二维图像语义分割方法的步骤流程图，首先，输入二维图像，其包括用于模型训练的图像数据集和待分割图像。其次，将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图，其中第一特征图为浅层特征，包含丰富的空间位置信息，而第二特征图和第三特征图为深层特征，包含丰富的语义信息。其次，将第二特征图和第三特征图通过金字塔池化操作获得包含丰富全局上下文信息的第四特征图和第五特征图。然后，使用特征融合模块将包含丰富位置信息的第一特征图、包含丰富语义信息的第三特征图、包含丰富全局上下文信息的第四特征图和第五特征图进行融合以获得更加丰富的图像特征。最后，将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。

图2是本发明一种二维图像语义分割方法的网络框图，如图2所示，本发明的主干特征提取网络以ResNet50为例，输入图片通过主干特征提取网络ResNet50获得CONV3_x、CONV4_x、CONV5_x三层特征，三层特征通过1×1卷积降维后分别对应所述的第一特征图(FM1)、第二特征图(FM2)和第三特征图(FM3)，其中，第一特征图为浅层特征，包含丰富的空间位置信息，而第二特征图和第三特征图为较深层特征，包含丰富的语义信息。将第二特征图和第三特征图通过金字塔池化模块（Pyramid Pooling Module，PPM）获得丰富的上下文特征，而包含丰富空间位置信息的第一特征图则不使用金字塔池化操作，避免池化操作导致图像丰富的空间位置信息丢失，最后将得到多种特征使用特征融合模块融合后经过感受野模块进一步提高感受野以获得更加精细的分割结果。

更具体的，金字塔池化模块（Pyramid Pooling Module，PPM）是网络的核心部分，如图2中的PPM所示，其将输入特征图以1×1、2×2、3×3、6×6四种尺度分成不同层级，每个层级具有不同大小的子区域，通过池化操作获取每个子区域的特征，将不同层级的特征上采样后进行通道堆叠(concatenate)操作，得到包含局部和全局上下文信息的特征。

更具体的，如图2所示，主干特征提取网络ResNet50的CONV3_x、 CONV4_x 、CONV5_x三层特征经过1×1卷积降维后作为解码器的输入，三层特征在输入到解码器之前均使用1×1卷积进行通道降维的主要目的是减少计算量，降维后的三层特征分别对应第一特征图(FM1)、第二特征图(FM2)和第三特征图(FM3)。将第二特征图(FM2)和第三特征图(FM3)经过金字塔池化模块（PPM）获得包含局部和全局上下文信息的第四特征图(FM4)和第五特征图(FM5)。随后将包含丰富位置信息的第一特征图(FM1)、包含丰富语义信息的第三特征图(FM3)、包含丰富全局上下文信息的第四特征图(FM4)和第五特征图(FM5)使用本发明提出的特征融合模块（Feature Fusion Block, FFB）进行融合，融合后的特征经过感受野模块(Receptive Field Block, RFB)进一步增大感受野，将得到的特征进行卷积操作和上采样操作得到最后的输出结果。

图3是本发明一种二维图像语义分割方法的特征融合模块结构图，所述特征融合模块（Feature Fusion Block, FFB），其特征在于，首先将输入特征进行通道堆叠(concatenate)操作，然后使用三个膨胀率分别为1、2、3的3×3空洞卷积融合输入特征，同时保留局部细节，最后将三个并行卷积后的特征使用相加操作和1×1卷积操作进行加强特征融合。所述特征融合模块将包含丰富位置信息的第一特征图(FM1)、包含丰富语义信息的第三特征图(FM3)、包含丰富全局上下文信息的第四特征图(FM4)和第五特征图(FM5)进行融合。

图4是本发明一种二维图像语义分割方法的感受野模块结构图，首先使用1×1卷积对特征融合模块后的特征进行降维与重组学习，其次引入非对称卷积，利用 3×1卷积和1×3卷积，减少参数量，最后使用3×3空洞卷积提升感受野，将获得的特征使用相加操作进行融合。感受野模块利用多分支结构、非对称卷积和空洞卷积获得不同感受野的特征并融合，增强浅层特征融合并学习深层语义特征。本发明加入RFBNet中的感受野模块(Receptive Field Block，RFB)的目的是进一步增大网络的感受野从而提升网络的性能。

图5是本发明一种二维图像语义分割方法的图像分割流程图，首先获得二维图像数据和待分割的目标图像，然后将训练数据集输入到本发明构建好的深度神经网络中进行训练，获得深度神经网络模型。然后将待分割的目标图像输入到训练得到的深度神经网络模型中进行像素分类预测，获得图像分割结果。本发明的图像分割流程具体包括如下步骤。

S51、二维图像数据集，获取包含待分割目标的图像数据集，其包括正样本与负样本，二维图像数据集可以为公开数据集或自行拍摄并标注的图像数据，二维图像数据集的作用是进行深度学习图像分割的模型训练。

S52、构建深度神经网络，语义分割的深度神经网络包括主干特征提取网络、金字塔池化、特征融合模块、感受野模块、获得分割结果等。所述主干特征提取网络包括卷积、批量标准化、激活函数等操作，其目的是提取二维图像中的特征，获得由浅到深的特征图。所述获得分割结果使用反卷积进行，反卷积又称为转置卷积，其作用是对融合后的特征图进行上采样，上采样使用内插值法，在原有图像像素的基础上在像素点之间采用插值算法插入新的元素，即将小的特征图转化为大的特征图，将特征图映射为原图大小，对图像像素进行分类，实现像素级别的分类，得到二维图像的目标分割图，完成图像分割。

S53、待分割的目标图像，为待分割预测的目标图像。

S54、深度神经网络模型，使用图像数据集对S52构建的深度神经网络进行迭代训练，保存效果最佳的深度神经网络模型，确定为深度神经网络的模型。

S55、语义分割结果图，将待分割的目标图像输入到所述获得的深度神经网络模型中进行预测处理，训练得到的深度神经网络模型对待分割的目标图像进行像素分类，得到语义分割结果图。

更具体的，为了验证本发明的有效性，进行实验验证。实验平台的GPU型号为GeForce RTX 2070 Super，显存为8G，CPU型号为AMD Ryzen 7 3700X。模型评价指标为平均像素精度(Mean Pixel Accuracy, MPA)和平均交并比( Mean Intersection Over Union，mIoU)。主干特征提取网络以Resnet50为例，基准网络为金字塔场景解析网络PSPNet，在CamVid公开数据集上进行消融实验，实验结果表明，本发明方法的平均像素准确度MPA(%)提升了1.88%、平均交并比mIoU(%)提升了1.36%，验证了本发明方法各模块的有效性。在Pascal-VOC2012公开数据集上进行对比实验，实验结果表明，本发明方法的平均交并比mIoU(%)提升了1.1%，验证了本发明方法的泛化性。

图6是不同模型在Pascal-VOC2012数据集上的语义分割可视化结果图，为了更直观的观察出本发明方法的有效性，将本发明方法的预测结果与FCN、GCN、DeeplabV3、PSPNet的预测结果进行可视化对比分析，不同模型在Pascal-VOC2012数据集上的预测结果如图6所示。由图6可见，人的边缘处分割结果更为精细，瓶子的边缘和内部分割效果均获得了提升，由此可以证明本发明提出的方法在目标物体的边缘处分割效果更为精确，进一步验证了本发明方法的有效性。

上面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种二维图像语义分割方法，其特征在于，包含以下步骤：输入二维图像，其包括用于网络训练的图像数据集和待分割图像；将二维图像通过主干特征提取网络获得第一特征图、第二特征图和第三特征图；将第二特征图和第三特征图通过金字塔池化操作获得第四特征图和第五特征图；使用特征融合模块将第一特征图、第三特征图、第四特征图和第五特征图进行融合；将融合后的特征通过感受野模块和卷积上采样操作获得最终语义分割结果。

2.根据权利要求1所述的一种二维图像语义分割方法，其特征在于，所述训练过程采用联合损失方式，总损失为交叉熵损失(Cross Entropy Loss)与集合相似度损失(DiceLoss)之和。

3.根据权利要求1所述的一种二维图像语义分割方法，其特征在于，所述第一特征图为浅层特征，包含丰富的空间位置信息。所述第二特征图和第三特征图为较深层特征，包含丰富的语义信息。所述金字塔池化操作聚合不同区域的上下文信息，提高获取全局信息的能力。所述第四特征图和第五特征图融合了不同层次的特征，包含丰富的全局上下文信息。

4.根据权利要求1所述的一种二维图像语义分割方法，其特征在于，所述特征融合模块首先将输入特征进行通道堆叠(concatenate)操作，然后使用三个膨胀率分别为1、2、3的3×3空洞卷积融合输入特征，同时保留局部细节，最后将三个并行卷积后的特征使用相加操作和1×1卷积操作进行加强特征融合。所述特征融合模块将包含丰富位置信息的第一特征图、包含丰富语义信息的第三特征图、包含丰富全局上下文信息的第四特征图和第五特征图进行融合以获得更加丰富的图像特征。