CN113111886A

CN113111886A - 一种基于双层残差网络的交通场景图像语义分割方法

Info

Publication number: CN113111886A
Application number: CN202110419319.8A
Authority: CN
Inventors: 赵志诚; 谭睿俊; 谢新林; 贾志纲; 王银
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2021-04-19
Filing date: 2021-04-19
Publication date: 2021-07-13
Anticipated expiration: 2041-04-19
Also published as: CN113111886B

Abstract

本发明提供了一种基于双层残差网络的交通场景图像语义分割方法。首先，在特征提取阶段，构建双层残差网络，每层包括Layer1到Layer5五个不同的Layer块，采用双层残差网络对训练集提取各目标的细节特征，提高网络的特征提取能力以及部分细节的感知能力；其次，在特征融合阶段，在layer1块开始跳跃特征融合，并持续以2倍反卷积方法进行上采样操作，可以更高程度地融合底层特征与高层特征，降低部分细节信息丢失对分割精度的影响；最后使用网络分支训练方法，先训练图像上各目标的大概轮廓位置特征，在此基础上继续训练各目标的细节特征。本发明的方法可以得到准确率更高、分割目标边缘更加完整的交通场景图像语义分割结果。

Description

一种基于双层残差网络的交通场景图像语义分割方法

技术领域

本发明涉及交通场景图像语义分割技术领域，具体涉及一种基于双层残差网络的交通场景图像语义分割方法。

背景技术

近年来，随着深度学习的不断发展，计算机视觉(ComputerVision)领域也取得显著的成就。越来越多的交通场景需要精确且高效的分割技术，实现交通场景的图像语义分割成为广大人员研究的问题之一。交通场景图像语义分割，是对交通场景图像的底层细节中研究，是对交通场景图像的像素进行了相应类别的分类，为自动驾驶中的车辆控制与路径规划等问题提供了一个有效的解决方案。

常见的交通场景图像语义分割算法主要包括基于传统方法的图像语义分割和基于深度学习的图像语义分割。传统的分割方法主要有：阈值分割法，边缘检测法，交互式图像分割法等等。

阈值分割法作为传统图像语义分割方法的基石，主要是根据图像中像素的颜色或者灰度值对图像进行分割。其基本原理是根据图像的部分或整体信息，对于不同的分割目标来设定不一样的阈值，从而按照不同的阈值对每个像素点进行划分。其优点是计算简单高效，分割速度快，但是在实际交通应用场景中，当图像像素的灰度值接近或范围重叠时，阈值法就很难得到准确的分割结果。

边缘检测法通过检测确定区域的边界，再根据边界把图像分割成不同的区域。其基本思想是利用各区域的特征不一致性，来检测图像中存在的边界像素点，再根据边界像素点实现图像的分割，因此这类分割算法适合分割边缘的灰度值变化比较明显，整体图像噪声比较小的图像。

交互式图像分割法，是一种基于图划分(Graphpardoning)的方法，主要包括Normalizedcut方法和Grab cut方法，该算法针对大量复杂交通场景的图像分割存在一定的难度。

基于深度学习的图像语义分割，全卷积网络模型FCN能够在一定程度上预测出目标物体的大致轮廓，但对于边缘细节以及小目标物体的分割，分割精度很低，结果不够准确，这是因为FCN中有池化操作，池化层在增大感受野的同时使得图像损失了部分边缘位置信息。

发明内容

针对现有技术中的不足，本发明提供了一种双层残差网络的交通场景图像语义分割方法。该方法克服了FCN网络的特征提取网络模型的深度问题、下采样中的池化操作降低特征图分辨率问题以及特征融合获取的局部信息能力不足等问题，本发明提供的一种基于双层残差网络特征提取、跳跃特征融合以及分支丢弃训练方法的交通场景图像语义分割方法能够提高交通场景下的图像语义分割精度。

为实现上述目的，本发明采用了以下技术方案：

一种双层残差网络的交通场景图像语义分割方法，包括如下步骤：

步骤(1)、构建双层残差网络，并采用双层残差网络对标准训练集的图像进行特征提取：所述双层残差网络包括两层特征提取网络，每层特征提取网络包括Layer1到Layer5五个不同的Layer块，Layer1到Layer5为特征提取过程的五个部分，通过两层特征提取网络对标准训练集的图像同时进行两次特征提取操作，每经过一个Layer块特征提取，对应输出特征图的大小减半；

步骤(2)、将步骤(1)中双层残差网络中每层的五个Layer块的输出特征图进行相应位置的融合构成融合特征图，并作为上采样网络的输入，在上采样阶段，首先将高层Layer5块的融合特征图进行2倍反卷积操作，从Layer4块到Layer1块，依次将其融合特征图与其高一层Layer块的反卷积操作结果相加融合得到特征图，然后对其进行2倍反卷积操作，添加更多的跳跃连接结构，将高层信息与底层信息进行充分融合，将特征图恢复到原输入图尺寸；构成改进型双层残差网络；

步骤(3)、采用网络分支训练方法，对步骤(2)中所构建的改进型双层残差网络进行训练；

步骤(4)、训练完成后，利用步骤(3)训练好的改进型双层残差网络对测试集进行测试，得到测试集的图像语义分割结果。

进一步地，所述步骤(1)中的Layer1块由7×7的卷积层和最大池化下采样层组成；Layer2块由3个Block1模块构成；Layer3块由1个Block2模块和2个Block1模块构成；Layer4块由1个Block2模块和6个Block1模块构成；Layer5块由1个Block2模块和2个Block1模块构成。

再进一步地，所述Block1模块的主分支由1×1的卷积、3×3的卷积、1×1的卷积层组成，侧分支直接将输入连接到输出，最后叠加主分支与侧分支；所述Block2模块的主分支与Block1一致，侧分支经过1×1卷积，再将主分支与侧分支叠加得到最终的输出。

更进一步地，所述步骤(1)中的两层特征提取网络最后最终输出的特征图均为原图尺寸的1/32，即Layer5块输出的特征图为原图尺寸的1/32。

更进一步地，所述步骤(2)中，在上采样阶段首先将最高层Layer5块的融合特征图进行2倍反卷积操作，再从Layer4块到Layer1块，依次将融合特征图与其高一层Layer块的反卷积操作结果相加融合得到特征图，然后对其进行2倍反卷积操作，从而添加更多的跳跃连接结构，将高层信息与底层信息进行充分融合；具体为：

设双层残差网络中Layer1到Layer5块输出特征图进行相应位置的融合构成的融合特征图分别为X1，X2，X3，X4，X5，并作为上采样网络的输入，将Layer5块的输出特征图X5进行2倍反卷积操作，再与Layer4块的融合特征图X4进行相加融合得到特征图Y1；再与Layer3块的融合特征图X3进行相加融合得到特征图Y2；再将特征图Y2进行2倍反卷积操作，与Layer2块的融合特征图X2进行相加融合得到特征图Y3，最后将特征图Y3进行2倍反卷积操作，与Layer1块输出的融合图相加融合得到特征图Y4，再进行2倍反卷积操作，得到与原图相同尺寸的输出特征图。

本发明采用了跳跃特征融合，即将网络提取的底层特征和高层特征进行融合，成为提高语义分割精度的关键问题。考虑到原FCN网络通过一系列的卷积与池化操作进行特征提取，在提取过程中，底层网络易丢失部分细节信息，导致整体分割中感知细节部分的能力大大减弱，于是在Layer1块开始进行特征融合。目的在于弥补部分细节信息丢失对分割精度的影响，同时提高了网络对细节部分的感知能力。

更进一步地，所述步骤(3)采用网络分支训练方法对改进型双层残差网络进行训练；具体为：

首先，对标准训练集中的图像的各目标的轮廓形状进行训练；其次，在该轮廓的基础上对各目标的细节信息进行训练；即先对双层残差网络中底层Layer1块和Layer2块的融合特征图X1、X2进行训练，然后再依次对Layer1块和Layer5块的融合特征图X1、X2、X3、X4、X5进行训练。由于底层Layer1到Layer2块输出的特征图更多提取的是图像的边缘轮廓信息，而高层Layer3、Layer4、Layer5块提取到更多的是图像的深层细节语义信息，所以采用网络分支训练法，先对输出融合特征图X2与X1进行训练，再对所有的融合特征图进行训练，可以提高网络的训练分割精度。

本发明提供的一种基于双层残差网络的图像语义分割方法适用于交通场景下的图像语义分割，具有较高的准确率。

本发明的原理在于：首先采用双层残差网络对标准训练集的图像进行特征提取，经过Layer1、Layer2、Layer3、Layer4、Layer5块进行特征提取操作，每经过一个Layer块，所输出的特征图尺寸减半，最终输出的特征图为原图大小的1/32；其次将高层Layer5块的融合特征图进行2倍反卷积操作，从Layer4块到Layer1块，依次将其融合特征图与其高一层Layer块的反卷积操作结果相加融合得到特征图，对其进行2倍反卷积操作，添加更多的跳跃连接结构，将高层信息与底层信息进行充分融合；然后采用网络分支的训练方法，对改进型双层残差网络进行训练；最后训练完成后，利用训练好的改进型双层残差网络对测试集进行测试，得到测试集的图像语义分割结果。

本发明的内容主要包括以下三个方面：

双层残差网络特征提取。图像特征提取网络是获得更高分割精度的基础。考虑到图像语义分割中特征提取网络模型的深度问题以及下采样中的池化操作降低特征图分辨率等问题，利用双层残差网络代替原FCN网络中的VGG网络，可以从增加的特征提取网络深度中获得更高的特征提取能力。

跳跃特征融合。将网络提取的底层特征和高层特征进行融合，成为提高语义分割精度的关键问题。考虑到原FCN网络通过一系列的卷积与池化操作进行特征提取，在提取过程中，底层网络易丢失部分细节信息，导致整体分割中感知细节部分的能力大大减弱，于是在Layer1块开始进行特征融合。目的在于弥补部分细节信息丢失对分割精度的影响，同时提高了网络对细节部分的感知能力。

网络分支训练方法。首先对图像中各目标的大体轮廓形状进行训练；其次，在此基础上对各目标的细节信息进行训练，由于底层Layer1与Layer2块提取到更多的是图像的表面信息，而高层Layer3、Layer4、Layer5块提取到更多的是图像的语义信息，所以采用网络分支训练法，先对输出融合特征图X2与X1进行训练，再对所有的融合特征图进行训练。可以提高网络的训练分割精度。

与现有技术相比，本发明具有以下有益效果：

1、本发明提出的双层残差网络特征提取方法可获得更高的识别精度。由于原FCN网络的下采样过程由一系列的卷积、池化操作组成，下采样阶段导致特征图分辨率减小以及空间细节信息损失，本发明的双层残差网络，利用Layer块取代原来的下采样过程，该双层残差网络融合了一系列的Layer块，构建一个更深的网络结构，同时增加了更多的跳跃连接，可以获得更高的识别精度。

2、本发明提出的跳跃特征融合方法可提高图像的分割精度。由于底层Layer1与Layer2提取到更多的是图像的表面信息，而高层Layer3、Layer4、Layer5块提取到更多的是图像的语义信息，但随着对图像不断地进行特征提取，导致图像的表面信息容易缺失，融合底层的表面信息可以更好的还原部分目标的细节特征。因此融合了Layer1与Layer2块的底层特征，使得底层的表面信息与高层的语义信息能够更加充分的融合，提高图像的分割精度。

3、本发明提出的网络分支训练方法可提高网络的训练准确度。首先针对图像的轮廓位置进行训练，其次再对该位置上的目标的细节进行训练，具有一定的针对性，而原FCN的训练方法对其部分细节信息训练不够充分，于是利用网络分支训练方法对改进的网络进行训练，可一定程度地提高网络的训练准确度。

附图说明

图1为本发明的基于双层残差网络的交通场景图像语义分割方法的系统流程图；

图2为本发明的基于双层残差网络的交通场景图像语义分割方法的网络结构图；

图3为Layer1结构图；

图4为本发明的残差块结构图，其中图(a)为Block1模块的网络结构；图(b)为Block2模块的网络结构。

具体实施方式

下面结合附图并通过具体实施例来进一步说明本发明的技术方案。本领域技术人员应该明了，所述具体实施方式仅仅是帮助理解本发明，不应视为对本发明的具体限制。

如图1-4所示，一种基于双层残差网络的交通场景图像语义分割方法，包括以下步骤：

1、特征提取网络的构建

考虑到原FCN网络模型存在特征提取网络模型的深度问题以及下采样中的池化操作会降低特征图的分辨率，导致整个分割结果粗糙。因此需要一个更好的特征提取网络，来提高网络特征提取能力。

如图2所示，构建双层残差网络，该网络主要由两层网络组成，每一层网络均由5个不同的Layer块构成，Layer1块的结构如图3所示，由一个7×7的卷积层与最大池化下采样层构成，其余的Layer块由不同的残差块构成，Layer2块由3个Block1模块构成，Layer3块由1个Block2模块和2个Block1模块构成，Layer4块由1个Block2模块和6个Block1模块构成，Layer5块由1个Block2模块和2个Block1模块构成。其中Block1模块的网络结构如图4(a)所示，Block2模块的网络结构如图4(b)所示。

本发明采用双层残差网络对标准训练集的图像进行特征提取。

2、跳跃特征融合网络的构建

考虑原FCN网络模型存在池化操作，在增大感受野的同时，减小了特征图的分辨率，从而导致这些高层语义特征和之前的底层细节特征分辨率不一致，将底层特征与高层特征有效地融合，对提高网络的分割精度至关重要。

(1)双层残差网络中Layer块的特征融合。如图2所示，Layer1到Layer5块为特征提取过程的五个部分，通过两层特征提取网络对标准训练集的图像同时进行两次特征提取操作，并将双层残差网络中每层的五个Layer块的输出特征图进行相应位置的融合构成融合特征图，设双层残差网络中Layer1到Layer5块输出特征图进行相应位置的融合构成的融合特征图分别为X1、X2、X3、X4、X5，并作为上采样网络的输入，再进行上采样操作，该方法可一定程度地提高特征提取能力。

(2)上采样阶段的跳跃特征融合。如图2所示，将Layer5块输出的融合特征图X5进行2倍反卷积操作，再与Layer4块输出的融合特征图X4相加融合，得到特征图Y1；将特征图Y1进行2倍反卷积操作，再与Layer3块输出的融合特征图X3相加融合，得到特征图Y2；将特征图Y2进行2倍反卷积操作，再与Layer2块输出的融合特征图X2相加融合，得到特征图Y3；将特征图Y3进行2倍反卷积操作，再与Layer1块输出的融合特征图X1相加融合，得到特征图Y4；再进行2倍反卷积操作，得到与原图相同尺寸的输出特征图，使得底层的表面信息与高层的语义信息能够更加充分的融合，提高图像的分割精度。从而得到改进的改进的双层残差网络。

3、网络分支训练：采用网络分支训练方法，利用改进的双层残差网络对交通场景数据集Camvid的RGB图像进行训练；即训练时首先对训练集中的图像的各目标的轮廓形状进行训练；其次其轮廓形状的基础上对各目标的细节信息进行训练；即先对双层残差网络中底层Layer1块和Layer2块的融合特征图X1、X2进行训练，然后再依次对Layer1块和Layer5块的融合特征图X1，X2，X3，X4，X5进行训练。

4、图像语义分割结果：训练完成后，利用训练好的双层残差网络对测试集进行测试，得到测试集的图像语义分割结果。

本发明未详细阐述的技术内容属于本领域技术人员的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于双层残差网络的交通场景图像语义分割方法，其特征在于，包括以下步骤：

步骤(2)、将步骤(1)中的双层残差网络中每层的五个Layer块的输出特征图进行相应位置的融合构成融合特征图，并作为上采样网络的输入，在上采样阶段，首先将最高层Layer5块的融合特征图进行2倍反卷积操作，再从Layer4快到Layer1块，依次将融合特征图与其高一层Layer块的反卷积操作结果相加融合得到特征图，然后对其进行2倍反卷积操作，从而添加更多的跳跃连接结构，将高层信息与底层信息进行充分融合，将特征图恢复到原输入图尺寸；构成改进型双层残差网络；

2.根据权利要求1所述的一种基于双层残差网络的交通场景图像语义分割方法，其特征在于：所述步骤(1)中的Layer1块由7×7的卷积层和最大池化下采样层组成；Layer2块由3个Block1模块构成；Layer3块由1个Block2模块和2个Block1模块构成；Layer4块由1个Block2模块和6个Block1模块构成；Layer5块由1个Block2模块和2个Block1模块构成。

3.根据权利要求2所述的一种基于双层残差网络的交通场景图像语义分割方法，其特征在于：所述Block1模块的主分支由1×1的卷积、3×3的卷积、1×1的卷积层组成，侧分支直接将输入连接到输出，最后叠加主分支与侧分支；所述Block2模块的主分支与Block1一致，侧分支经过1×1卷积，再将主分支与侧分支叠加得到最终的输出。

4.根据权利要求1所述的一种基于双层残差网络的交通场景图像语义分割方法，其特征在于：所述步骤(1)中的两层特征提取网络中的Layer5块输出的特征图均为原图尺寸的1/32。

5.根据权利要求1所述的一种基于双层残差网络的交通场景图像语义分割方法，其特征在于：所述步骤(2)中，在上采样阶段首先将最高层Layer5块的融合特征图进行2倍反卷积操作，再从Layer4块到Layer1块，依次将融合特征图与其高一Layer块的反卷积操作结果相加融合得到特征图，然后对其进行2倍反卷积操作，从而添加更多的跳跃连接结构，将高层信息与底层信息进行充分融合；具体为：

设双层残差网络中Layer1到Layer5块输出特征图进行相应位置的融合构成的融合特征图分别为X1、X2、X3、X4、X5，并作为上采样网络的输入，将Layer5块的融合特征图X5进行2倍反卷积操作，再与Layer4块的融合特征图X4进行相加融合得到特征图Y1；再与Layer3块的融合特征图X3进行相加融合得到特征图Y2；再将特征图Y2进行2倍反卷积操作，与Layer2块的融合特征图X2进行相加融合得到特征图Y3，最后将特征图Y3进行2倍反卷积操作，与Layer1块输出的融合图相加融合得到特征图Y4，再进行2倍反卷积操作，得到与原图相同尺寸的输出特征图。

6.根据权利要求5所述的一种基于双层残差网络的交通场景图像语义分割方法，其特征在于：所述步骤(3)采用网络分支训练方法对所改进的双层残差网络进行训练；具体为：

首先，对标准训练集中图像的各类物体的轮廓形状进行训练；其次，在该轮廓的基础上对各类物体的细节信息进行训练；即先对双层残差网络中底层Layer1块和Layer2块的融合特征图X1、X2进行训练，然后再依次对Layer1块和Layer5块的融合特征图X1、X2、X3、X4、X5进行训练。