CN109285162A

CN109285162A - 一种基于局部区域条件随机场模型的图像语义分割方法

Info

Publication number: CN109285162A
Application number: CN201811003417.8A
Authority: CN
Inventors: 李训根; 张誉矾; 潘勉; 于彦贞
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2019-01-29

Abstract

本发明涉及一种基于局部区域条件随机场模型的图像语义分割方法。本发明全卷积神经网络结构提取输入图片特征并获得一个粗糙的分割结果，区域选择结构将分割结果图进行边缘滤波，并选择分割结果为行人，自行车，机动车的部分的最大外接矩形，局部区域条件随机场模型在上述矩形区域建立条件随机场模型并精细优化上述矩形区域的分割结果。本发明有效的结合了条件随机场模型精度上的优势和全卷积神经网络速度上的优势。优化了条件随机场模型计算方式从而大幅降低了模型时间复杂度；提升了传统全卷积神经网络的分割精度；将概率图模型的应用和全卷积神经网络的应用设计为了一个端到端系统。

Description

一种基于局部区域条件随机场模型的图像语义分割方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于局部区域条件随机场模型的图像语义分割方法。

背景技术

近二十年来，深度卷积神经网络逐渐成为计算机视觉中关于图像理解的强大工具。近期，卷积神经网络在图像的语义分割任务上展现出了很好的效果。图像的语义分割作为图像理解的基石性技术，在多个方面有着举足轻重的地位，例如自动驾驶，无人机应用，可穿戴式设备等。如何设计出可以兼顾语义分割网络精度和语义分割速度的分割算法成为了当前研究的主流。

目前图像的语义分割应用按照侧重点逐渐发展为两个主要方向，第一个方向侧重于分割速度，它使用全卷积神经网络对图片进行分割，全卷积神经网络最大的特点是将原始神经网络中的全连接层用卷积层替换，这样很好的保留了原始卷积结构中因为全连接而破坏的图片空间位置信息，之后，通过上采样过程将全卷积网络的输出恢复到原始图片大小，最后通过对所得特征图中每个位置进行分类的方式来获得像素级别的分类效果。这种方法关注的是分割速度，它只使用涉及到普通卷积结构而无需建立复杂的数学模型。通常情况下，全卷积网络产生的分割结果在目标边界区域处的效果较差，这是因为卷积过程是空间不变的，它获取的是图片区域与区域之间的关系，很难获取图片像素级别的依赖关系，然而，对于图片目标边界处的分割，我们需要获得的更多是相邻像素之间的关系。这种分割的不精确在自动驾驶中往往会导致计算机不能准确的对车附近环境做出准确的判断(例如对于一些位置靠近的行人车辆，全卷积神经网络通常在这些单位中间的区域具有很差的效果)，这种对于路面关键性目标的判断不准确导致了全卷积网络在自动驾驶任务中很难开展应用。第二个方向是将全卷积神经网络和条件随机场模型一同使用，这是一种更侧重于分割效果的方法，该方法利用条件随机场模型来精细优化全卷积神经网络的分割结果，如图1所示，它以原始图片每个像素点为节点建立条件随机场模型，并利用全卷积神经网络的输出结果作为一元势函数的取值，然后通过建立混合高斯模型的方式来建立二元势函数表达式，最后通过平均场推断过程来获得最终分割结果，条件随机场模型更倾向于将图片中位置靠近、颜色相似的像素点分割为同一个类别。该方法能够很好的获取到图片像素级别的依赖关系，在图片中物体与物体之间边界处有很好的表现。但是，条件随机场模型中平均场推断过程类似于迭代应用双边滤波器，由于基础双边滤波步骤具有较高的计算复杂度，最终限制了该方法在实时系统中的应用。

如图2所示，左侧为输入图片，中间为通过全连接条件随机场模型后的结果，右侧为只通过卷积神经网络获得结果，对比后可以发现全连接条件随机场模型在诸如天空、道路、建筑等区域的分割结果相较于只通过卷积神经所得结果并没有太多提升，这些区域都存在一个明显的特点——区域与区域之间具有高度的区分性，对于这些连续性很强的区域，通过一般的卷积神经网络已经能够获得一个很好的分割效果。而对于那些不连续的区域，三辆车不连续的分散在图片中，并且车辆所在区域与其他区域没有很好的区分性，分割结果通过条件随机场模型后却能获得极大的提升。

因此，本发明针对现阶段两种语义分割算法中存在的缺陷，提出了一种新型的条件随机场模型建立方式，用来实现基于条件随机场模型的语义分割网络在交通场景中高效实时的应用。

发明内容

本发明的目的就是提供一种在交通模式中能够实时应用的基于局部区域条件随机场模型时图像语义分割方法，该方法相比于传统全卷积神经网络提升分割精度，相较于传统条件随机场模型优化了分割速度，最终使得结合条件随机场模型分割方法能够实时的应用在交通场景图像中。

本发明其拓扑结构主要包括全卷积神经网络结构DeepLab-RES18，区域选择结构，局部区域条件随机场模型结构；所述的全卷积神经网络结构用于提取输入图片特征并获得一个粗糙的分割结果，然后将该结果送入区域选择结构；区域选择结构用于将分割结果图进行边缘滤波，并选择分割结果为行人，自行车，机动车的部分的最大外接矩形，然后将这些矩形区域送入局部区域条件随机场模型；局部区域条件随机场模型用于在上述矩形区域建立条件随机场模型并精细优化上述矩形区域的分割结果。

所述的全卷积神经网络结构是改进的DeepLab v2结构，通过将DeepLab v2中的VGG-16结构更换为泛化能力更好的ResNet-18结构所得，并通过使用空洞卷积的方式扩大卷积过程中感受野大小；区域选择结构由一个边缘滤波器构成，用于获取分割结果中不同类别的边缘轮廓并保存属于行人，自行车，机动车的部分，然后获取这些部分的最大外接矩形区域；局部区域条件随机场模型在上述矩形区域中以每个像素点作为一个节点建立条件随机场模型，最终输出在上述矩形区域中更加精细的分割结果。

具体过程如下：

步骤一：通过线性插值的方式缩放训练样本至720*1080大小，并做减均值处理，选取数据样本中80％作为训练数据，20％作为测试数据，测试数据不参与训练过程。

步骤二：将ResNet-18分类模型在ImageNet上做预训练直到ResNet-18网络收敛。

步骤三：将经过预处理的训练数据送入经过预训练的全卷积网络结构中训练并输出一个粗糙分割结果特征图；

步骤四：选取这个分割结果图中结果为行人，自行车，机动车的部分的最大外接矩形区域，并滤除掉尺寸过小的部分。

步骤五：在步骤四中所得的最大外接矩形区域建立条件随机场模型，以DeepLab-RES18所产生的分割结果经过softmax后获得的单通道特征图作为初始输入，然后使用像素的颜色特征和空间位置特征的高斯特征计算特征图中每个像素点的二元势函数，得到一个双通道的分割特征图，接着将上述双通道特征图与一个1x1的卷积核进行卷积并输出一个单通道的特征图，然后，首先将上述单通道特征图按类别总数扩展到类别总数个通道，同样使用一个1x1的卷积核进行卷积操作并输出一个通道数为类别总数的分割结果，最后将上述过程所得结果直接与DeepLab-RES18网络产生的结果直接相加并进行softmax归一化后输出一个单通道结果图即为最终分割结果图。

步骤五中所述的条件随机场模型中对于任意输入区域，将其中的每一个像素点作为一个节点，然后将这些区域所有像素点拉伸为一个一维向量，这样，对于任意输入区域X，X＝(x₁，x₂，x_i，......x_N)(其中x_i为输入区域中第i个点的像素值，N为该区域像素点的个数)对应于一个输出区域Y，Y＝((y₁，y₂，y_i，......y_N))(其中y_i为输出区域中第i个像素点的分割结果，y_i的取值范围是L，L＝((l₁，l₂，l_i，......l_N))其中为l_i第i个标注类别)，这些成对出现的输入输出区域之间构成一个马尔科夫随机场；模型的目的在于求条件概率P(Y|X)取得最大值的时候的输出Y，这一概率可以描述为如式⑴：

表达式中E(Y|X)是描述随机变量Y变化趋势的函数，称为能量函数，

Z(X)＝∑_X,Yexp(-E(Y|X))作为归一化因子将势函数取值概率化；根据条件随机场定义，能量函数可以描述为式⑵：

E(Y)＝∑_iψ_u(y_i)+∑_i＜jψ_p(y_i,y_j) ⑵；

其中一元势函数ψ_u(y_i)描述像素点i被赋予标签y_i的似然概率，也就是描述了像素点i的标签为y_i需要花费的代价，二元势函数ψ_p(y_i,y_j)描述将像素点i和像素点j赋为同一个标签所花费的代价，一元势函数是没有考虑图片平滑性的，也没有考虑图片像素与像素之间的依赖关系，所以通过设计二元势函数来获得一元势函数中没有考虑的因素，二元势函数增加了一个图片平滑的过程，并且二元势函数鼓励相邻位置颜色相似的像素赋予同一种标签，模型中将二元势函数设计如下设计为混合高斯模型，见式⑶：

其中，k^(m)是混合高斯模型中所采用的高斯核个数k^(m)＝1,...,M,通常选取图像的颜色特征和空间特征作为高斯核，二元势函数具体可表示为式⑷：

其中，I_i,I_j代表两个像素点的颜色特征值，p_i,p_j代表两个像素点的空间位置特征值；通过上述一元、二元势函数计算求得E(Y|X)的值，从而求得需要的P(Y|X)的值，最后通过平均场推断过程使得P(Y|X)最大，获取P(Y|X)最大时Y的输出作为最终分割结果。

本发明有效的结合了条件随机场模型精度上的优势和全卷积神经网络速度上的优势。在概率图模型方面，本发明为了在交通场景中最高效的利用条件随机场模型，只把条件随机场模型应用在收益最高且最需要关注的区域，从而减少大量不必要的计算过程，使得条件随机场模型能够实时的应用道路交通场景当中。该方法在交通场景中首先选取一些特殊区域(分割结果为人，自行车，机动车的区域)，然后只针对这些区域建立条件随机场模型，高效的将条件随机场模型应用在收益较高的区域当中(离散的，区域间隔不明显的区域)，从而在保证分割精度的条件下大幅度降低了传统模型的时间复杂度。

同时在全卷积神经网络方面，本发明使用了改进的DeepLab v2模型——DeepLab-RES18模型，该模型将DeepLab v2中的VGG-16结构替换为泛化能力更强的ResNet18模型，如图3所示，并使用了空洞卷积的方式增加卷积过程中的感受野大小，因为ResNet18模型丢弃了VGG-16中的池化层，这样能够很好的保留原始VGG-16由于池化而丢失的图片空间位置信息，从而提升了分割准确度。最后本发明使得结合了条件随机场模型的语义分割方法在交通场景中能够高精度的实时应用。

本发明增益：优化了条件随机场模型计算方式从而大幅降低了模型时间复杂度；提升了传统全卷积神经网络的分割精度；将概率图模型的应用和全卷积神经网络的应用设计为了一个端到端系统。

附图说明

图1全连接条件随机场模型与全卷积分割网络输出对比结果图；

图2是传统条件随机场的应用方式；

图3是本发明中局部区域条件随机场建立步骤；

图4为本发明的最终分割流程图。

具体实施方式

一种基于局部区域条件随机场模型的图像语义分割方法，其拓扑结构主要包括全卷积神经网络结构，区域选择结构，局部区域条件随机场模型结构；全卷积神经网络结构用于提取输入图片特征并获得一个粗糙的分割结果，然后将该结果送入区域选择结构；区域选择结构用于将分割结果图进行边缘滤波，并选择分割结果为行人，自行车，机动车的部分的最大外接矩形，然后将这些矩形区域送入局部区域条件随机场模型；局部区域条件随机场模型用于精细优化上述矩形区域的分割结果。

全卷积神经网络结构是改进的DeepLab v2结构，通过将DeepLab v2中的VGG-16结构更换为泛化能力更好的ResNet-18结构所得，并通过使用空洞卷积的方式扩大卷积过程中感受野大小；区域选择结构由一个基于图片颜色边缘滤波器构成，用于将分割结果中相邻位置不同颜色的像素点的像素值设置为255，其余像素点设置为0，并记录下像素点颜色所属类别。最终获取并保存类别属于行人，自行车，机动车的轮廓的最大外接矩形区域；局部区域条件随机场模型将上述外接矩形区域中每个像素点作为一个节点并建立条件随机场模型，并根据输入区域面积大小选取不同的高斯特征作为条件随机场模型的二元势函数描述特征，当输入区域面积值小于原始图片大小1/10时，只使用像素颜色特征作为二元势函数中混合高斯核的高斯特征。最终输出在所述矩形区域中更加精细的分割结果。

如图3和4所示,一种基于局部区域条件随机场模型的图像语义分割方法，具体过程如下：

步骤五：在步骤四中所得的最大外接矩形区域建立条件随机场模型，经过如图4所示过程产生最终分割结果，并使用最终分割结果和输入标签求损失的方式来训练模型参数。图4中，U取自DeepLab-RES18所产生的预测结果值，将U按像素点位置逐通道经过softmax操作后获得的结果记为Q_in，以Q_in作为模型初始输入，将模型所需学习全部参数记为θ，在映射函数f_θ的作用下输出结果f_θ(Q_in)即为本专利最终输出结果；信息处理过程是使用颜色特征和空间位置特征的高斯核计算特征图中每个像素点的二元势函数，得到一个双通道的分割特征图；信息混合过程是将信息处理所得的分割特征图与一个1x1的卷积核卷积后得到一个单通道的特征图，并在训练过程中更新卷积核参数；信息兼容性转换过程首先将上述单通道特征图按类别总数扩展到类别总数个通道，同样使用一个1x1的卷积核进行卷积操作并输出一个通道数为类别总数的分割结果；最后将上述过程所得结果直接与DeepLab-RES18网络产生的结果直接相加并进行softmax归一化后输出一个单通道结果图即为最终分割结果图。

条件随机场模型中对于任意输入区域，将其中的每一个像素点作为一个节点，然后将这些区域所有像素点拉伸为一个一维向量，这样，对于任意输入区域X，X＝(x₁，x₂，x_i，......x_N)(其中x_i为输入区域中第i个点的像素值，N为该区域像素点的个数)对应于一个输出区域Y，Y＝((y₁，y₂，y_i，......y_N))(其中y_i为输出区域中第i个像素点的分割结果，y_i的取值范围是L，L＝((l₁，l₂，l_i，......l_N))其中为l_i第i个标注类别)，这些成对出现的输入输出区域之间构成一个马尔科夫随机场。模型的目的在于求条件概率P(Y|X)取得最大值的时候的输出Y，这一概率可以描述为如式⑴：

Z(X)＝∑_X,Yexp(-E(Y|X))作为归一化因子将势函数取值概率化。根据条件随机场定义，能量函数可以描述为式⑵：

E(Y)＝∑_iψ_u(y_i)+∑_i＜jψ_p(y_i,y_j) ⑵；

其中，I_i,I_j代表两个像素点的颜色特征值，p_i,p_j代表两个像素点的空间位置特征值。通过上述一元、二元势函数计算求得E(Y|X)的值，从而求得需要的P(Y|X)的值，最后通过平均场推断过程使得P(Y|X)最大，获取P(Y|X)最大时Y的输出作为最终分割结果。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。对这些实施例的多种修改对本领域的专业技术人员来说是显而易见的，本申请中所定义的一般原理可以在不脱离本发明的精神或范围的情况下在其它实施例中实现。因此，本发明将不会被限制于本申请所示的这些实施例，而是要符合与本申请所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于局部区域条件随机场模型的图像语义分割方法，其拓扑结构主要包括全卷积神经网络结构DeepLab-RES18，区域选择结构，局部区域条件随机场模型结构；其特征在于：所述的全卷积神经网络结构用于提取输入图片特征并获得一个粗糙的分割结果，然后将该结果送入区域选择结构；区域选择结构用于将分割结果图进行边缘滤波，并选择分割结果为行人，自行车，机动车的部分的最大外接矩形，然后将这些矩形区域送入局部区域条件随机场模型；局部区域条件随机场模型用于精细优化上述矩形区域的分割结果；

所述的全卷积神经网络结构通过改进DeepLab v2模型所得，将DeepLab v2中的VGG-16结构替换为泛化能力更好的ResNet-18结构；区域选择结构由一个边缘滤波器构成，用于获取分割结果中不同类别的边缘轮廓并保存属于行人，自行车，机动车的部分，然后获取这些部分的最大外接矩形区域；局部区域条件随机场模型在上述矩形区域中以每个像素点作为一个节点建立条件随机场模型，最终输出在上述矩形区域中更加精细的分割结果；

具体过程如下：

步骤一：通过线性插值的方式缩放训练样本至720*1080大小，并做减均值处理，选取数据样本中80％作为训练数据，20％作为测试数据，测试数据不参与训练过程；

步骤二：将ResNet-18分类模型在ImageNet上做预训练直到ResNet-18网络收敛；

步骤四：选取这个分割结果图中结果为行人，自行车，机动车的部分的最大外接矩形区域，并滤除掉尺寸过小的部分；

2.如权利要求1所述的一种基于局部区域条件随机场模型的图像语义分割方法，其特征在于：步骤五所述的条件随机场模型中对于任意输入区域，将其中的每一个像素点作为一个节点，然后将这些区域所有像素点拉伸为一个一维向量，这样，对于任意输入区域X，X＝(x₁，x₂，x_i，......x_N)(其中x_i为输入区域中第i个点的像素值，N为该区域像素点的个数)对应于一个输出区域Y，Y＝((y₁，y₂，y_i，......y_N))(其中y_i为输出区域中第i个像素点的分割结果，y_i的取值范围是L，L＝((l₁，l₂，l_i，......l_N))其中为l_i第i个标注类别)，这些成对出现的输入输出区域之间构成一个马尔科夫随机场；模型的目的在于求条件概率P(Y|X)取得最大值的时候的输出Y，这一概率可以描述为如式⑴：

E(Y)＝∑_iψ_u(y_i)+∑_i＜jψ_p(y_i,y_j) ⑵；

3.如权利要求1所述的一种基于局部区域条件随机场模型的图像语义分割方法，其特征在于：所述的全卷积神经网络DeepLab-RES18使用了空洞卷积的方式增加卷积过程中的感受野大小。