CN109086768B

CN109086768B - 卷积神经网络的语义图像分割方法

Info

Publication number: CN109086768B
Application number: CN201810768753.5A
Authority: CN
Inventors: 周全; 杨文斌; 从德春; 王雨; 卢竞男
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2021-10-29
Anticipated expiration: 2038-07-13
Also published as: CN109086768A

Abstract

本发明揭示了一种卷积神经网络的语义图像分割方法，通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。具体包括步骤：构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型，且模型中每一分层的步长大小，卷积核大小以及输出的特征图个数按规格定制；对网络架构中浅层与深层的信息进行融合，并将融合后的特征进行上采样至原图分辨率大小；对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。本发明方案的应用，通过不同分层的特征融合，充分利用了各层信息，提高了最终的准确率；结合全连接的CRF对网络输出结果进行后处理，处理了各像素点之间的联系，使得图片分割的结果更加精确和平滑。

Description

卷积神经网络的语义图像分割方法

技术领域

本发明属于语义图像分割领域，具体指采用深度学习的方法去实现语义图像分割。

背景技术

随着深度学习的不断突破，在各领域上得到了广泛应用，比如计算机视觉，语音识别，自然语言处理等。卷积神经网络（CNN）的提出使得深度学习在某种程度上成了一个热词，而全卷积神经网络（FCN）的提出，使得语义图像分割有了很大的突破，语义图像分割可以说是图像理解的基石性技术，在自动驾驶、无人机等应用中举足轻重。众所周知，图像是由许多像素点组成的，而语义图像分割，顾名思义就是对图片中的每一个像素点进行分类，即实现对图片中物体定位，也实现物体识别。在深度学习技术快速发展之前，就已经有了很多作为语义图像分割的技术，比较经典的有Normalized Cut （N-cut）和Grab cut。N-cut提出了一种考虑全局信息的方法来进行图像划分（Graph partitioning）。与 N-cut 一样，Grab cut 同样也是基于图像划分，不过 grab cut 是其改进版本，可以看作迭代式的语义分割算法。Grab cut 利用了图像中的纹理（颜色）信息和边界（反差）信息，只要少量的用户交互操作即可得到比较好的前后背景分割结果。

这些方法没有算法训练阶段，因此往往计算复杂度不高，但是其分割效果并不能让人满意。在计算机视觉步入深度学习时代之后，语义图像分割也步入了一个全新的发展阶段，其中全卷积网络（FCN）的提出可以说是深度学习在语义图像分割任务上的开创性工作，但全卷积网络也存在一些不足：

（1）在一定程度没有很好的利用上下层之间的信息，造成了信息的丢失；

（2）没有考虑到像素点之间的联系。

发明内容

鉴于上述现有技术的不足，本发明的目的旨在提出一种卷积神经网络的语义图像分割方法，利用了网络上下层的信息，也考虑到了图像像素点之间的联系。

本发明实现上述目的的技术解决方案为：卷积神经网络的语义图像分割方法，其特征在于：通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。

进一步地，上述语义图像分割方法包括步骤：

构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型，且模型中每一分层的步长大小，卷积核大小以及输出的特征图个数按规格定制；

对网络架构中浅层与深层的信息进行融合，并将融合后的特征进行上采样至原图分辨率大小；

对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。

进一步地，所述网络架构模型至少含有顺次排列的五个分层，每个分层由池化层及其相关联的卷积层构成，网络架构模型的输出端接一个对应原图分辨率的上采样层，且最末端分层与上采样层之间设有特征融合单元。

更进一步地，上述特征融合单元的运作方式：第四池化层和第五池化层的输出分别接一个卷积层，转变成通道数为21的输出，然后分别接一个对应第三池化层输出分辨率的上采样层；第三池化层的输出接一个卷积层转变成通道数为21的输出，然后把转变通道数后的各输出特征图通过求和的方式进行特征融合。

进一步地，上述优化分割通过能量公式最小化实现，所述能量公式为：

，其中

为一元能量项、

为二元能量项，仅当两个能量项均最小时得到最优的图像分割。

更进一步地，上述一元能量项表示像素点本身，公式为：

，其中

是网络架构模型对图片x中的每个像素点

输出的概率值，

为图片x中第i个像素点

所对应的标签，当

最大时，一元能量项

最小。

更进一步地，上述二元能量项表示像素点之间的关系，公式为：

，其中

和

分别代表像素点

和

的位置，

和

代表像素点

和

点的颜色，

与

分别代表图片x中第i、j个像素点

、

所对应的标签，参数

和

用于限制高斯核的尺度，在

不等于

的情况下

=1，否则

=0。

本发明卷积神经网络的语义图像分割方法的提出并应用，较之于传统此类方法具有显著的进步性：本发明方法一者提出了一种新的网络结构，通过不同层的特征融合，充分地利用了网络的各层信息，在一定程度上提高了最终的准确率；再者结合了全连接的CRF，对网络的输出结果进行后处理，很好地处理了各像素点之间的联系，使得图片分割的结果更加精确和平滑。

附图说明

图1为本发明语义图像分割方法构造的网络架构模型的结构图。

图2为网络架构模型各分层的结构说明。

图3为本发明方法在pascalvoc2012数据集下训练的loss曲线示意图。

图4为基于多原图的定性结果比较。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

本发明设计者潜心于语义图像分割的研究，总结并针对当前已有技术的不足与弊端，创新提出了一种卷积神经网络的语义图像分割方法，通过结合网络架构中部分分层特征融合和全连接的条件随机场处理实现语义图像分割。其概述性步骤包括：一、构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型，且模型中每一分层的步长大小，卷积核大小以及输出的特征图个数按规格定制；二、对网络架构中浅层与深层的信息进行融合，并将融合后的特征进行上采样至原图分辨率大小；三、对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割。

为更直观地理解，结合图示实施例详细阐述如下。从图1可以知道本发明的整体框架分为网络架构模型和全连接的条件随机场两部分。其中网络架构模型可以命名为DCCNet，从其结构来来看，它由卷积层，池化层，反卷积层，损失函数等几部分组成，至少含有顺次排列的五个分层，每个分层由池化层及其相关联的卷积层构成，且每层的参数（步长大小，卷积核大小以及每层输出的特征图个数）都可以从图2中查找。网络架构模型的输出端接一个对应原图分辨率的上采样层，且最末端分层与上采样层之间设有特征融合单元。

结合该特征融合单元的运作方式，该语义图像分割方法的前半部分操作过程为：（1）首先，将第四池化层和第五池化层的输出，接上一个卷积层使其变成通道数为21的输出，然后分别接上一个上采样层，使图片的分辨率大小与池化层3输出的分辨率大小一致；其中上采样层即反卷积层。（2）把第三池化层的输出后接一个卷积层，使他变成通道数为21的输出，以便于后面进行融合，其中21即为数据集中包含的类别数。（3）把第（1）步和第（2）步中输出特征图通过求和的形式进行特征融合，融合后通过一个上采样层使图片输出分辨率大小与原图分辨率大小一致。

而作为本发明方法的后半部分：对最后一个上采样层的输出，采用全连接的条件随机场进行后处理，处理过程如下：

能量公式：

，

当

最小时，分割结果最优。

从更细化的公式分析来看，上述一元能量项：

，

其中

是DCCNet对图片x中的每个像素点

输出的概率值，也就是指该像素点分配为各标签（类别）的概率。当

最大时，一元能量项

最小。

而二元能量项：

，

其中

和

分别代表像素点

和

的位置，

和

代表像素点

和

点的颜色，参数

和

用于限制高斯核的尺度，在

不等于

的情况下,则

=1，否则

=0。

对DCCNet的输出，通过全连接的条件随机场进行后处理，可以达到以下目的，（1）两个像素点颜色相似，但位置靠比较远时，分配不同标签。（2）两个像素点位置靠的近，但是颜色不相近，分配不同标签。（3）两个像素点颜色相似，位置靠的近，分配相同标签。对图片中的所有像素点进行同样的操作，就能对图片的整体与局部有一个很好的把握，也同时处理了位置和颜色上的问题，从而使得结果有了进一步提高。

根据图1的网络架构能很好的把握网络的上下层的信息，第三池化层，第四池化层，第五池化层特征的融合，能很好地把握图片的局部与整体特征，而采用全连接的条件随机场进行后处理能很好的处理像素点之间的关系。特征融合和全连接的条件随机场处理结合在一起使得本发明在结果上有了很大的提升。

图3是在pascalvoc2012数据集上训练的loss曲线（本发明所得到的结果都是在pascalvoc2012数据集下进行的），从图中能发现训练从0次迭代到10000次期间loss是下降最快的，从50万降到10万左右，而在接下来的几万次训练中loss下降处于一个缓慢下降的过程，虽然其中有些上下波动，但训练过程的整体趋势loss趋于下降。可知随着训练次数的增加，loss下降越来越缓慢最后趋于收敛，稳定在某个值。从loss曲线可以发现本发明的网络架构设定，网络参数设定都趋于最优，得到训练后的模型是最稳定的。

本发明的模型DCCNet（在pascalVOC2012训练集上进行训练），DCCNet⁺(在pascalVOC2012训练集加验证集上进行训练)和DCCNet+CRF的MIoU分别为71.4%，73.5% 和75.5%。在很大程度上已经超过了很多先进的模型。下面为mIOU的计算公式：

，其中C数据集中包含的类别（包括背景），

即类别为m的像素点分割成类别n的像素点。

图4是本发明模型与其它模型在定性上的比较，为了便于区别各类物体，对图片中的物体采用一些不同的形状进行标记，从图中可以看出DCCNet与DCCNet+CRF相比于FCN，Deeplab的分割结果，前者在边界上分割的比较好，并且DCCNet和DCCNet+CRF校正了FCN与Deeplab中分割成背景的目标物体，如图4中的第四行图片，FCN与Deeplab把行人分割成了背景，而DCCNet与DCCNet+CRF能正确的把行人分割出来。综上，无论从定量还定性的比较，充分展现了本发明在语义图像分割方面的优越性。通过不同层的特征融合，充分地利用了网络的各层信息，在一定程度上提高了最终的准确率；再者结合了全连接的CRF，对网络的输出结果进行后处理，很好地处理了各像素点之间的联系，使得图片分割的结果更加精确和平滑。

以上详细描述了本发明的优选实施方式，但是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内进行修改或者等同变换，均应包含在本发明的保护范围之内。

Claims

1.卷积神经网络的语义图像分割方法，其特征在于包括步骤：

构建由卷积层、池化层、上采样层、损失函数组成的网络架构模型，且模型中每一分层的步长大小、卷积核大小以及输出的特征图个数按规格定制，所述网络架构模型至少含有顺次排列的五个分层，每个分层由池化层及其相关联的卷积层构成，网络架构模型的输出端接一个对应原图分辨率的上采样层，且最末端分层与上采样层之间设有特征融合单元，所述特征融合单元的运作方式：（1）第四池化层和第五池化层的输出分别接一个卷积层，转变成通道数为21的输出，所述卷积层分别接一个上采样层，使图片的分辨率大小与第三池化层输出的分辨率大小一致；（2）第三池化层的输出接一个卷积层转变成通道数为21的输出；（3）然后把（1）和（2）中各输出的特征图通过求和的方式进行特征融合；将融合后的特征进行上采样至原图分辨率大小；

对上采样输出的特征图像采用全连接的条件随机场进行后处理优化分割，所述优化分割通过能量公式最小化实现，所述能量公式为：