CN110264483A

CN110264483A - 一种基于深度学习的语义图像分割方法

Info

Publication number: CN110264483A
Application number: CN201910529371.1A
Authority: CN
Inventors: 朱和贵; 王宝玉
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-09-20
Anticipated expiration: 2039-06-19
Also published as: CN110264483B

Abstract

本发明提供一种基于深度学习的语义图像分割方法，涉及人工智能的计算机视觉技术领域。该方法包括：对输入图像进行预处理；利用带有共享分解卷积结构的深度卷积神经网络提取特征；提取深度网络中不同层级的特征信息；利用双线性插值法恢复空间特征分辨率；将所得特征进行级联；共享卷积计算并得到单通道特征图；恢复编码阶段所得特征的空间分辨率；将单通道特征图与解码阶段特征图进行级联；计算交叉熵损失，更新深度神经网络参数。本方法克服了随孔洞卷积膨胀率的增大而导致的网格伪影问题，并克服了随网络层次的加深而导致的稀疏空间特征分辨率的问题，同时提高了网络模型对于目标的分割精确度和平均交并比。

Description

一种基于深度学习的语义图像分割方法

技术领域

本发明涉及人工智能的计算机视觉技术领域，尤其涉及一种基于深度学习的语义图像分割方法。

背景技术

随着国家经济和科学技术的不断发展，人民对智能生活向往的需求越来越多。于是在这样的需求背景下，人工智能在各领域的应用得到快速发展。图像语义分割作为人工智能技术的一部分对未来人民生活、工农业生产和国防安全建设等领域都有着至关重要的作用。

语义图像分割技术是一种典型的计算机视觉问题，其涉及将一些原始数据(例如，平面图像)作为输入并将它们转换为具有突出显示的感兴趣区域的掩模，其中图像中的每个像素根据其所属的感兴趣对象被分配类别。早期的计算机视觉问题只发现边缘(线条和曲线)或渐变等元素，但它们从未完全按照人类感知的方式提供像素级别的图像理解。语义分割将属于同一目标的图像部分聚集在一起来解决这个问题，从而扩展了其应用领域。在深度学习方法流行之前，基于随机森林分类器等语义分割方法是用得比较多的方法。不过在深度卷积网络流行之后，深度学习方法相比传统方法模型效果得到大幅提升。

语义图像分割方法，是通过将图像分割成块后输入深度模型，然后对像素进行分类。语义图像分割的方法有很多，比较经典的模型有全卷积网络(FCN)、基于深度的编码与解码网络(SegNet)和具有孔洞卷积和条件随机场的深度卷积网络(DeepLabV1)等，各种方法都有一定的局限性，具体如下：

全卷积网络(FCN)：(1)下采样操作使得空间分辨率降低，削弱了空间位置信息；(2)没有考虑全局上下文信息；(3)分割不是实例级别的；(4)效率不够实时；(5)不完全适用于非结构化数据，例如三维点云等。

基于深度的编码与解码网络(SegNet)：(1)SegNet的基准表现太差；(2)多层最大池化和下采样导致了特征图大小和空间信息的损失，致使图像边界细节信息损失严重，不利于目标的精确分割。

具有孔洞卷积和条件虽机场的深度卷积网络(DeepLabV1)：随着孔洞卷积膨胀率的增大导致网格伪影问题。

孔洞卷积的优良性能在深度学习中得到了广泛应用。然而，对于输入特征图来说，各部分区域特征之间都存在着相互的依存关系，随着孔洞卷积膨胀率的不断增大，在卷积运算的周期性子采样过程中，网络将具有相关性的特征信息分配到不同组中，致使每组特征元素之间没有相互的依赖关系，导致局部信息的不一致，产生严重的网格伪影问题；此外，深度卷积神经网络的不断空间池化和下采样所导致的稀疏空间特征分辨率严重影响了语义图像分割任务的性能。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足，提供一种基于深度学习的语义图像分割方法，实现语义图像分割。

为解决上述技术问题，本发明所采取的技术方案是：一种基于深度学习的语义图像分割方法，包括以下步骤：

步骤1：收集图像，并对所得图像进行预处理，使图像具有相同的空间特征分辨率；

步骤1.1：对所得图像利用随机缩放的方法进行图像强化；

步骤1.2：将强化后的图像裁剪成固定大小，使其具有相同的空间特征分辨率；

步骤2：利用带有共享分解卷积结构的深度卷积神经网络对预处理后的图像进行特征提取，得到抽象后的图像特征；

步骤2.1：利用共享卷积对预处理后的图像中具有相关性的局部特征信息进行合并，得到特征合并后的图像；所述共享卷积的卷积核的大小为(2R-1)^D，其中，R为孔洞卷积的膨胀率，D为空间维数；

步骤2.2：在特征合并后的图像上进行子采样，子采样的频率根据孔洞卷积的膨胀率R来设定，然后将采样所得特征信息进行分组；当膨胀率R＝1时，即孔洞卷积为标准卷积；当膨胀率R＞1时，即在特征合并后的图像上每隔R-1个像素进行一次采样；

步骤2.3：将孔洞卷积中的所有孔洞去掉变成标准卷积，利用标准卷积与分组后的特征图进行卷积运算，得到运算后的特征子图；

所述标准卷积输出矩阵D＝(d_uv)由分组后的特征图矩阵C＝(c_uv)和卷积核矩阵V＝(v_pq)经下式计算得出，如下公式所示：

其中，v_p，q是标准卷积核矩阵p，q位置处的权重值，p，q是标准卷积核矩阵位置坐标，u，v是分组后的特征图矩阵位置坐标，K是卷积核大小；

步骤2.4：将所得的各组特征子图重新交织映射到孔洞卷积计算后所得图像的特征分辨率；

步骤3：利用边界强化结构来丰富图像的目标边界位置信息；

步骤3.1：提取深度卷积神经网络第1-3池化层所得的特征图作为边界强化结构的输入特征；

步骤3.2：对输入特征的空间分辨率进行恢复，使其具有原始图像的空间分辨率，然后将所得特征图进行级联；

步骤3.3：利用共享卷积对级联后的特征图进行卷积计算，得到单通道的卷积特征图；共享卷积核大小为1×1；

步骤4：利用双线性插值法对孔洞卷积计算后所得图像的特征分辨率进行恢复，得到特征恢复图，使其与原始图像空间特征分辨率相同；

步骤5：将所得特征恢复图与单通道的卷积特征图进行级联，通过softmax函数进行归一化，得到深度卷积神经网络模型预测的图像分割边界；

步骤6：计算深度卷积神经网络模型预测的分割边界与给定的标准分割边界之间的交叉熵损失，使用动量的批次随机梯度下降算法更新深度卷积神经网络的模型参数，实现对语义图像的分割。

采用上述技术方案所产生的有益效果在于：本发明提供的一种基于深度学习的语义图像分割方法，通过带有共享分解卷积的深度卷积神经网络来提取特征，利用共享卷积来实现对具有相关性特征的合并，减轻网格伪影问题；通过边界强化结构来丰富空间特征分辨率，强化空间目标边界位置信息，减轻由池化和下采样导致的稀疏空间分辨率问题。本发明方法克服了随孔洞卷积膨胀率的增大而导致的网格伪影问题，并克服了随网络层次的加深而导致的稀疏空间特征分辨率的问题，同时提高了网络模型对于目标的分割精确度和平均交并比。

附图说明

图1为本发明实施例提供的一种基于深度学习的语义图像分割方法的流程图；

图2为本发明实施例提供的对预处理后的图像进行特征提取的流程图；

图3为本发明实施例提供的利用边界强化结构来丰富图像的目标边界位置信息的流程图；

图4为本发明实施例提供的采用本发明方法和DeepLabV2模型对语义图像进行分割的效果对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施例以PASCAL VOC2012数据集为例，采用本发明的一种基于深度学习的语义图像分割方法在该数据集上进行语义图像分割。

一种基于深度学习的语义图像分割方法，如图1所示，包括以下步骤：

步骤1.1：对所得图像利用随机缩放的方法进行图像强化；

本实施例中，令裁剪后的图像为321×321的固定大小。

步骤2：利用带有共享分解卷积结构的深度卷积神经网络对预处理后的图像进行特征提取，如图2所示，得到抽象后的图像特征；

步骤2.1：利用共享卷积对预处理后的图像中具有相关性的局部特征信息进行合并，得到特征合并后的图像；所述共享卷积的卷积核的大小为(2R-1)^D，其中，R为孔洞卷积的膨胀率，一般情况下R常取2或4，D为空间维数；

步骤3：利用边界强化结构来丰富图像的目标边界位置信息，如图3所示，具体方法为：

步骤3.2：对输入特征的空间分辨率进行恢复，使其具有原始图像的空间分辨率，即将输入特征的空间分辨率恢复成321×321大小，然后将所得特征图进行级联；

本实施例中，PASCAL VOC2012数据集包含20个目标类和1个背景类。数据集由1464个训练数据、1449个评价数据和1456个测试数据组成。该数据集后来被额外注释增强为包含10582张训练图像。本实施例采用mIOU来作为评价分割效果好坏的性能指标。

本实施例中，在具有额外注释的PASCAL VOC2012数据集上进行模型训练与评价。在PASCAL VOC2012数据集上本发明的模型与其它模型的mIOU对比结果如表1所示，从表1可以看出，在MS-COCO数据集上进行过预训练的具有共享分解卷积和边界强化结构的DeepLabV2模型实现了76.3％mIOU，与在MS-COCO数据集上进行过预训练的原始DeepLabV2模型相比分割效果提升了1.2％，说明具有共享分解卷积和边界强化的深度卷积神经网络在减轻网格伪影问题和丰富边界位置信息的同时实现了更好的分割表现；表中，MSc代表在MS-COCO上进行预训练，SDC代表共享-分解卷积，BS代表边界强化结构。

表1在PASCAL VOC2012数据集上本发明模型与其它模型的mIOU对比

Method	mIOU
		MSRA-CFM	61.8
FCN	62.1
		TTI-Zoomout-16	64.4
DeepLab-MSc-CRF	67.1
		DeepLabV2	71.3
DeepLabV2-SDC	71.7
		DeepLabV2-SDC-BS	72.4
DeepLabV2-MSc	75.1
		deeplabV2-MSc-SDC	75.4
本发明模型	76.3

本实施例还给出了在PASCAL VOC2012数据集上利用本发明的模型与其它模型进行分割的效果对比，如图4所示，图中第一列为输入原图；第二列为目标真实边界；第三列为DeepLabV2模型的分割效果图；第四列为本发明模型的分割效果图；从中可以看出，本发明方法的模型对于目标的分割效果优于其它模型的分割效果，说明具有共享分解卷积和边界强化的网络模型对具有相关性的空间特征能够进行更好的处理，使网络获得更加精确的边界位置信息，实现更好的分割表现。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的语义图像分割方法，其特征在于：包括以下步骤：

步骤1.1：对所得图像利用随机缩放的方法进行图像强化；

步骤3：利用边界强化结构来丰富图像的目标边界位置信息；

2.根据权利要求1所述的一种基于深度学习的语义图像分割方法，其特征在于：所述步骤2的具体方法为：

步骤2.4：将所得的各组特征子图重新交织映射到孔洞卷积计算后所得图像的特征分辨率。

3.根据权利要求2所述的一种基于深度学习的语义图像分割方法，其特征在于：所述步骤3的具体方法为：

步骤3.3：利用共享卷积对级联后的特征图进行卷积计算，得到单通道的卷积特征图；共享卷积核大小为1×1。