CN107644426A

CN107644426A - 基于金字塔池化编解码结构的图像语义分割方法

Info

Publication number: CN107644426A
Application number: CN201710948567.5A
Authority: CN
Inventors: 谭振涛; 刘斌; 俞能海
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-01-30

Abstract

本发明公开了一种基于金字塔池化编解码结构的图像语义分割方法，包括：通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理，提取输入图像的高维特征信息，构成深层特征图；通过一个包含反向卷积神经网络模型的解码网络，将深层特征图恢复至与输入图像相同的分辨率；通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器，将解码网络输出的特征图进行分类，实现图像语义分割。该方法在进一步提高网络对图像语义分割的能力的同时兼顾了网络模型大小和运算速度。

Description

基于金字塔池化编解码结构的图像语义分割方法

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于金字塔池化编解码结构的图像语义分割方法。

背景技术

图像语义分割融合了传统的图像分割和目标识别任务，需要将图像分割成几组具有特定语义含义的像素区域并且识别出每一类区域，得到一幅具有语义标注的图像。例如，对于一张包含复杂场景的交通图像，计算机需要自动识别出行人、车辆、建筑物等类别，对于同一类别的目标，需要自动分割出其准确的形状和位置，用同一种像素值表示出来。

目前图像语义分割的算法主要分为两类。第一类可以称之为传统方法，其利用图像像素值之间的联系，通过简单加权或者概率图模型来判断不同的像素值是否属于同一类别。这类方法的典型代表是N-cut算法，但是由于这类方法只利用了图像中的颜色信息，对于颜色相近的不同类目标或颜色反差较大的同类目标都不能较好地识别出来，其分割结果并不准确。第二类可以称之为主流方法，其利用深度卷积网络来进行图像语义分割。利用神经网络良好的学习性能，来学习不同目标物体的深度特征信息，并且将传统的分类网络的全连接层改为卷积层，直接得到分割好的图像。

现有主流方法具有几下不足：

由于神经网络的发展，当前主流方法均采用了深度神经网络作为其主要框架，并且为了进一步提升性能，一般还将条件随机场等概率模型作为一种后处理手段或嵌入到神经网络中。这种追求高性能的方式使得主流方法的网络模型极其庞大，需要大量的运算资源，很难实际应用于生活中。同时，随着自动驾驶等领域的发展，急需一种可以对图片进行实时分割的方法，而目前的主流方法在运行速度上都比较欠缺。

发明内容

本发明的目的是提供一种基于金字塔池化编解码结构的图像语义分割方法，在进一步提高网络对图像语义分割的能力的同时兼顾了网络模型大小和运算速度。

本发明的目的是通过以下技术方案实现的：

一种基于金字塔池化编解码结构的图像语义分割方法，包括：

通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理，提取输入图像的高维特征信息，构成深层特征图；

通过一个包含反向卷积神经网络模型的解码网络，将深层特征图恢复至与输入图像相同的分辨率；

通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器，将解码网络输出的特征图进行分类，实现图像语义分割。

所述通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理，提取输入图像的高维特征信息，构成深层特征图包括：

卷积神经网络模型包括卷积操作f_cnn和最大池化操作f_mp，操作过程表示为：

X₁＝f_cnn(I；θ_cnn),X₁∈R^M×N×D；

X₂＝f_mp(X₁),X₂∈R^M×N×D；

其中，I表示输入图像，X_i,i＝1,2，表示相应操作后提取的特征图，θ_cnn表示数学计算过程中需要通过机器学习确定的参数，M和N表示特征图的空间分辨率，D表示特征图的通道数；

通过金字塔池化模型对卷积神经网络模型输出的特征图，分别进行P个平行的池化操作，得到P组不同尺度的特征图；P组不同尺度的特征图代表了不同子区域的上下文信息；并使用卷积层对每一尺度的特征图进行调整，然后各自通过一个上采样过程恢复到池化之前的大小，再与卷积神经网络模型输出的特征图按通道叠加在一起得到一个包含不同区域特性的深层特征图。

所述通过一个包含反向卷积神经网络模型的解码网络，将深层特征图恢复至与输入图像相同的分辨率包括：

反向卷积神经网络模型包括上采样操作f_us和卷积操作f_cnn，操作过程表示为：

其中，X表示深层特征图，θ_cnn表示数学计算过程中需要通过机器学习确定的参数，M'和N'表示特征图的空间分辨率，D_j,j＝1,2表示相应特征图的通道数。

所述通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器，将解码网络输出的特征图进行分类包括：

先通过卷积操作f_cnn将特征图的通道数减少为需要识别的目标的总数目L，再通过Softmax层的分类操作f_s得到最后的分类结果I’，操作过程表示为：

X'＝f_cnn(Y；θ_cnn),X'∈R^M'×N'×L；

I'＝f_s(X')；

其中，Y表示解码网络输出的特征图，θ_cnn表示数学计算过程中需要通过机器学习确定的参数，M'和N'表示特征图的空间分辨率。

由上述本发明提供的技术方案可以看出，利用一种新的网络结构来优化网络提取特征信息的能力，使得其在性能上有较大的提升，同时采用非对称设计进一步减少模型参数，提升运行速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于金字塔池化编解码结构的图像语义分割方法的流程图；

图2为本发明实施例提供的金字塔池化模型的结构示意图；

图3为本发明实施例提供的两种金字塔池化操作的示意图；

图4为本发明实施例提供的分类结果示意图；

图5为本发明实施例提供的图像语义分割网络的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

图1为本发明实施例提供的一种基于金字塔池化编解码结构的图像语义分割方法的流程图。如图1所示，其主要包括：

步骤1、通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理，提取输入图像的高维特征信息，构成深层特征图。

本发明实施例中，卷积神经网络模型可以为VGG16网络模型，并且去掉了原来VGG16网络模型的全连接层，仅保留卷积层，并且在Conv5-2处用一个特别设计的金字塔池化模型来提高网络对于不同层面，不同大小区域的上下文信息的提取能力。

本发明实施例中，卷积神经网络模型主要包括卷积操作f_cnn和最大池化操作f_mp，操作过程表示为：

X₁＝f_cnn(I；θ_cnn),X₁∈R^M×N×D；

X₂＝f_mp(X₁),X₂∈R^M×N×D；

其中，I表示输入图像，X_i,i＝1,2，表示相应操作后提取的特征图，θ_cnn表示数学计算过程中需要通过机器学习确定的参数，M和N表示特征图的空间分辨率，D表示特征图的通道数。

通过金字塔池化模型对卷积神经网络模型输出的特征图，分别进行P个平行的池化操作，得到P组不同尺度的特征图；P组不同尺度的特征图代表了不同子区域的上下文信息；并使用卷积层(可以使用卷积核为1×1的卷积层)对每一尺度的特征图进行调整，然后各自通过一个上采样过程(双线性插值)恢复到池化之前的大小，再与卷积神经网络模型输出的特征图按通道叠加在一起得到一个包含不同区域特性的深层特征图。

金字塔池化级数，即池化层的个数可以根据需要进行调整，池化窗口的大小也可以相应地修改。示例性的，如图2所示，采用了三层结构，池化后的特征图大小分别选择1×1、2×2和4×4。但是，考虑到场景的不同，池化形式也可以不同。一般来说，特征图的分辨率越大，金字塔池化级数就可以取得越高，提取的上下文信息就越丰富；相反，如果特征图的分辨率本身就较低，那么就只能相应降低级数。同时，池化时的stride选取在水平和竖直方向上可以不同，根据场景本身的特性而定。例如道路场景中一般中间是路面，两侧是建筑物，见图3，则将池化后的特征图分别设置成1×1、3×2和6×4更为合理。为了区分这两种模型，称前一种为原始金字塔池化(Original Pyramid Pooling)，后一种为集中金字塔池化(Attention Pyramid Pooling)。本发明中选择平均池化作为该模型的池化方式。应用金字塔池化模型，该网络可以有效地提取到局部和全局信息来进行像素级的场景解析。

步骤2、通过一个包含反向卷积神经网络模型的解码网络，将深层特征图恢复至与输入图像相同的分辨率。

反向卷积神经网络模型包括上采样操作f_us和卷积操作f_cnn，每一个上采样层都和编码网络中的最大池化层一一对应，并且利用了最大池化层保留下来的参数来加快运算。

操作过程表示为：

与许多分割算法不同，本发明中采用非对称结构，即解码网络不是编码网络的镜像，以此来减少模型参数，提升网络处理速度。通过实验，本发明发现在每两个上采样层之间只保留一个卷积层可以在确保网络性能下降不多的情况下较大地压缩网络规模。在编码网络中，最大池化过程中并没有像大多数网络那样存储完整的池化前的特征图来用于上采样过程，而是只保存了每一个池化窗口中最大值的位置和数值。这样在上采样中生成的特征图便是稀疏的，需要经过接下来的卷积层使其变密集。通过该设计，极大地减少了网络参数数目，提高了其处理速度。

步骤3、通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器，将解码网络输出的特征图进行分类，实现图像语义分割。

本发明实施例中，先通过卷积操作f_cnn将特征图的通道数减少为需要识别的目标的总数目L，再通过Softmax层的分类操作f_s得到最后的分类结果I’，操作过程表示为：

X'＝f_cnn(Y；θ_cnn),X'∈R^M'×N'×L；

I'＝f_s(X')；

如图4所示，右侧为分类前的原始图，左侧为最终分类结果。

基于本发明实施例提供的上述方案，通过编码网络、解码网络及分类器构成了图像语义分割网络，整个网络结构如图5所示。该网络可以通过端到端的fine-tune来使其适应于不同的任务，训练时采用加权的交叉熵损失函数作为loss函数。

本发明实施例提供的上述技术方案主要具有如下优点：在进一步提高网络对图像语义分割的能力的同时兼顾了网络模型大小和运算速度，该方案的高性能和实时处理的能力还可以为自动驾驶提供即时的场景解析数据，提升自动驾驶系统快速应对道路环境变化的能力。一方面，利用特别设计的金字塔池化模型有效地提取多层次不同区域大小的特征信息，提高原始网络对图像局部和全局信息的理解；另一方面，采用非对称网络结构，设计了解码网络，利用最大池化操作时保留的信息来恢复特征图的分辨率。通过以上设计，本技术方案在CamVid测试集中取得了64.2％mIoU的成绩，并且处理速度达到16.4FPS。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于金字塔池化编解码结构的图像语义分割方法，其特征在于，包括：

2.根据权利要求1所述的一种基于金字塔池化编解码结构的图像语义分割方法，其特征在于，所述通过一个包含卷积神经网络模型和金字塔池化模型的编码网络对输入图像进行处理，提取输入图像的高维特征信息，构成深层特征图包括：

X₁＝f_cnn(I；θ_cnn),X₁∈R^M×N×D；

X₂＝f_mp(X₁),X₂∈R^M×N×D；

3.根据权利要求1所述的一种基于金字塔池化编解码结构的图像语义分割方法，其特征在于，所述通过一个包含反向卷积神经网络模型的解码网络，将深层特征图恢复至与输入图像相同的分辨率包括：

<mrow> <msub> <mi>X</mi> <mn>3</mn> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>u</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>X</mi> <mn>3</mn> </msub> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <msup> <mi>M</mi> <mo>,</mo> </msup> <mo>&times;</mo> <msup> <mi>N</mi> <mo>,</mo> </msup> <mo>&times;</mo> <msub> <mi>D</mi> <mn>1</mn> </msub> </mrow> </msup> <mo>;</mo> </mrow>

<mrow> <mi>Y</mi> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>c</mi> <mi>n</mi> <mi>n</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mn>3</mn> </msub> <mo>;</mo> <msub> <mi>&theta;</mi> <mrow> <mi>c</mi> <mi>n</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>Y</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mrow> <msup> <mi>M</mi> <mo>,</mo> </msup> <mo>&times;</mo> <msup> <mi>N</mi> <mo>,</mo> </msup> <mo>&times;</mo> <msub> <mi>D</mi> <mn>2</mn> </msub> </mrow> </msup> <mo>;</mo> </mrow>

4.根据权利要求1所述的一种基于金字塔池化编解码结构的图像语义分割方法，其特征在于，所述通过一个包含输出通道为类别数的卷积层和一个Softmax层的分类器，将解码网络输出的特征图进行分类包括：

X'＝f_cnn(Y；θ_cnn),X'∈R^M'×N'×L；

I'＝f_s(X')；