CN110246149A

CN110246149A - 基于深度加权全卷积网络的室内场景迁移分割方法

Info

Publication number: CN110246149A
Application number: CN201910453625.6A
Authority: CN
Inventors: 田智强; 张银书; 陈张; 刘帅; 杜少毅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-17

Abstract

本发明提出了一种基于深度加权全卷积网络的室内场景图像迁移分割方法，针对室内场景分割问题，将全卷积网络模型迁移到室内场景的分割领域，并在训练过程中使用加权交叉熵损失函数，解决了训练过程中图像类别不平衡的问题，使得训练更快收敛，模型更加精确；同时通过生成图像翻译和水平反射来增加原始数据集，提高了模型的鲁棒性和准确度。本发明能够准确地对室内场景进行分割，为智能机器人的移动和物体抓取提供了视觉感知信息，在针对室内场景的领域有较高的应用价值。

Description

基于深度加权全卷积网络的室内场景迁移分割方法

技术领域

本发明涉及图像处理领域，特别涉及基于深度加权全卷积网络的室内场景迁移分割方法。

背景技术

图像分割是计算机视觉领域研究的热点，其旨在根据颜色、亮度、纹理等特征将给定图像划分为若干互不相交的区域。图像分割技术为移动机器人、行人检测和医学影像等应用提供了丰富的视觉感知信息，特别是使得智能服务机器人的运动避障和物体抓取成为可能。由于室内场景图像光照不均和遮挡、阴影的存在，室内场景的分割一直是图像分割领域的一个难点。随着深度学习的兴起，基于深度学习的图像分割渐渐表现出很好的性能。因而，基于深度学习的室内场景自动分割方法应运而生。

深度学习是一种特定类型的机器学习，通过较简单的表示来表达复杂表示。深度学习模型由称为隐藏层的多个处理层组成，相较于传统的机器学习方法，具有更高的灵活性和自主学习能力，显著提高了计算机视觉、模式识别、图像处理和许多其他领域如生物和药物领域的最新技术的性能。

在初期，深度学习模型的代表是卷积神经网络。Lecun等人采用传统分割方法和卷积神经网络相结合的方法，使用RGB图像和深度图对室内场景进行语义分割，但由于其中应用的超像素分割并不稳定，所以分类存在一些错误，分割的效果也一般。后来Farabet 和Pinheiro分别提出了基于分类卷积神经网络的patch级图像分割方法。这种方法从图像中提取patch，每个patch赋予一个表示前景或背景的标签，将所有的patch和标签输入图像级分类框架来训练卷积神经网络模型。但patch级的卷积神经网络性能会受到patch尺寸的影响。大的patch尺寸降低了定位的精度，而小的patch限制了上下文环境。为解决这个问题，Long等人提出了一种端对端的像素级自然图像分割方法。他们将一个现有的分类卷积神经网络修改为全卷积网络。通过对每个局部区域分类，可以从该网络获得一个粗略的标签图，并基于像素级分割的双线性插值进行简单的解卷积操作。全卷积网络的性能良好，为图像分割提供了新的思路，但是其分割结果比较笼统，并不能做准确的预测。

由于室内场景的复杂性，训练出高鲁棒性且高精度的分割模型一直是一个挑战。

发明内容

本发明的目的在于提供基于深度加权全卷积网络的室内场景迁移分割方法，以解决上述问题。

为实现上述目的，本发明采用以下技术方案：

基于深度加权全卷积网络的室内场景迁移分割方法，包括以下步骤：

步骤1，收集室内场景的图片，对图片中每个物体的轮廓进行人工分割得到真值标签，进行图像扩充后将其分为训练集和测试集；

步骤2，将全卷积网络模型迁移至室内场景的分割，将训练图像和相应的物体轮廓作为输入，进行端对端的训练，得到室内场景分割模型；

步骤3，对于训练好的室内场景分割模型，将测试图像作为输入，得到自动分割的物体轮廓。

进一步的，步骤2中的室内场景分割模型由全卷积网络模型进行迁移而得；室内场景分割模型是针对全卷积网络模型，对最后三层进行微调，将室内场景的训练集作为输入进行训练而得。

进一步的，步骤2中的室内场景分割模型由7个卷积层、5个池化层和3个上采样层构成；5个池化层分别连接在前5个卷积层后面，其它2个卷积层连接在最后一个池化层后面，3个上采样层分别连接在第3个池化层，第4个池化层和最后一个卷积层后面。

进一步的，前5个卷积层的卷积核尺寸均为3×3，步长为1，填充为1；后2个卷积层的卷积核尺寸依次为7×7和1×1，步长为1；5个池化层的卷积核尺寸均为2×2，步长为2；3个上采样层的卷积核尺寸依次为4×4，4×4和16×16，步长依次为2，2，8。

进一步的，步骤2中的训练过程中使用了加权交叉熵损失函数，该损失函数的表示如下：

其中，P_i表示真实情况或是黄金标准，表示一个体素i属于物体的概率，则表示权重，通常设为属于类别C的像素数量的绝对值的倒数；通过训练使得损失函数达到最小，即完成训练，得到室内场景分割模型。

进一步的，步骤3中具体工作流程如下：

1)对于室内场景分割模型，将测试集作为输入，得到模型自动分割的物体轮廓；

2)将室内场景分割模型的自动分割得到的物体轮廓与人工分割得到的真值标签进行视觉对比和定量对比，以此评估模型的训练效果。

进一步的，步骤1中，通过生成图像翻译和水平反射来增加原始数据集。

与现有技术相比，本发明有以下技术效果：

本发明提出的方法可用于室内场景的精确分割，具有高效率和高鲁棒性，且不需要任何手工特征，利用此方法辅助移动机器人进行障碍规避和物体抓取等操作；

本发明将全卷积网络模型迁移到室内场景的分割领域，并在训练过程中使用加权交叉熵损失函数，解决了训练过程中室内场景图像类别不平衡的问题，使得训练更快收敛，模型更加精确；避免物体和背景之间的不平衡引发的训练问题；

本发明通过生成图像翻译和水平反射来增加原始数据集，这种数据增加被证实可以提高深度学习的性能，获取测试数据集的鲁棒性和更高的精度。

附图说明

图1是本发明室内场景迁移分割方法的实现流程图；

图2是本发明的室内场景分割模型的网络结构图；

图3是本发明的室内场景分割模型的分割效果图；

具体实施方式

以下结合附图，对本发明进一步说明：

本发明提供了一种基于深度加权全卷积网络的室内场景迁移分割方法，具体步骤如图 1所示：

S1.收集室内场景的图像，对每个物体进行人工分割，并将其分为训练集和测试集。具体工作流程如下：

(1.1)、对于原始室内场景的图像，勾画出室内场景中每个物体的轮廓，即感兴趣区域，作为真值标签；

(1.2)、对(1.1)所述的原始室内场景和真值标签进行生成图像翻译和水平反射，以此增加原始数据集，获取测试数据集的鲁棒性和更高的精度；

(1.3)、将(1.2)所述的增加后的数据集分成训练集和测试集。

S2.将全卷积网络迁移到室内场景的分割上，输入训练图像和相应的物体轮廓，进行端对端的训练，得到室内场景分割模型。具体工作流程如下：

(2.1)、所述全卷积网络模型具有良好的分割效果，将全卷积网络模型的最后三层进行微调，其网络结构如图2所示，该网络结构由7个卷积层、5个池化层和3个上采样层连接而成；其中5个池化层分别连接在前5个卷积层后面，其它2个卷积层连接在最后一个池化层后面，3个上采样层分别连接在第3个池化层、第4个池化层和最后一个卷积层后面；

(2.2)、对于(2.1)所述的调整后的网络模型，将(1.3)所述训练集作为输入进行训练；

(2.3)、对于(2.1)所述的调整后的网络模型，训练过程中采用加权交叉熵损失函数，来避免物体和背景之间的不平衡引发的训练问题。该损失函数的表示如下：

其中，P_i表示真实情况或是黄金标准，表示一个体素i属于某个物体的概率，则表示权重，通常设为属于类别C的像素数量的绝对值的倒数；

(2.4)、对于(2.1)所述的调整后的网络模型，通过(2.2)所述的输入，通过训练使得(2.3)所示的损失函数达到最小，即完成训练，得到室内场景分割模型。

S3.对于训练好的室内场景分割模型，将测试图像作为输入，得到自动分割的物体轮廓，如图3所示。具体工作流程如下：

(3.1)、对于(2.4)所述的室内场景分割模型，将(1.3)所述的测试集作为输入，得到模型自动分割的物体轮廓；

(3.2)、将(3.1)所述的室内场景分割模型的自动分割得到的物体轮廓与(1.2)所述人工分割得到的真值标签进行对比，发现(2.4)所述的室内场景分割模型取得了极好的分割效果，并得到了较高的具有最低标准偏差的骰子相似系数和较低的具有最低标准偏差的Hausdorff距离。

以上结合附图对本发明的具体实施方式进行了描述。本行业的技术人员应该了解，本发明不受上述实施例的限制。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围之内。

Claims

1.基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，包括以下步骤：

步骤1，收集室内场景的图片，对图片中的物体进行人工分割得到真值标签，进行图像扩充后将其分为训练集和测试集；

2.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，步骤2中的室内场景分割模型由全卷积网络模型进行迁移而得；室内场景分割模型是针对全卷积网络模型，对最后三层进行微调，将室内场景的训练集作为输入进行训练而得。

3.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，步骤2中的室内场景分割模型由7个卷积层、5个池化层和3个上采样层构成；5个池化层分别连接在前5个卷积层后面，其它2个卷积层连接在最后一个池化层后面，3个上采样层分别连接在第3个池化层，第4个池化层和最后一个卷积层后面。

4.根据权利要求3所述的基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，前5个卷积层的卷积核尺寸均为3×3，步长为1，填充为1；后2个卷积层的卷积核尺寸依次为7×7和1×1，步长为1；5个池化层的卷积核尺寸均为2×2，步长为2；3个上采样层的卷积核尺寸依次为4×4，4×4和16×16，步长依次为2，2，8。

5.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，步骤2中的训练过程中使用了加权交叉熵损失函数，该损失函数的表示如下：

其中，P_i表示真实情况或是黄金标准，表示一个体素i属于一个物体的概率，则表示权重，通常设为属于类别C的像素数量的绝对值的倒数；通过训练使得损失函数达到最小，即完成训练，得到室内场景分割模型。

6.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，步骤3中具体工作流程如下：

2)将室内场景分割模型的自动分割得到的物体轮廓与人工分割得到的真值标签进行视觉对比和定量对比，评估模型。

7.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法，其特征在于，步骤1中，通过生成图像翻译和水平反射来增加原始数据集。