CN110246149A - 基于深度加权全卷积网络的室内场景迁移分割方法 - Google Patents

基于深度加权全卷积网络的室内场景迁移分割方法 Download PDF

Info

Publication number
CN110246149A
CN110246149A CN201910453625.6A CN201910453625A CN110246149A CN 110246149 A CN110246149 A CN 110246149A CN 201910453625 A CN201910453625 A CN 201910453625A CN 110246149 A CN110246149 A CN 110246149A
Authority
CN
China
Prior art keywords
indoor scene
convolutional network
full convolutional
layers
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910453625.6A
Other languages
English (en)
Inventor
田智强
张银书
陈张
刘帅
杜少毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201910453625.6A priority Critical patent/CN110246149A/zh
Publication of CN110246149A publication Critical patent/CN110246149A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明提出了一种基于深度加权全卷积网络的室内场景图像迁移分割方法,针对室内场景分割问题,将全卷积网络模型迁移到室内场景的分割领域,并在训练过程中使用加权交叉熵损失函数,解决了训练过程中图像类别不平衡的问题,使得训练更快收敛,模型更加精确;同时通过生成图像翻译和水平反射来增加原始数据集,提高了模型的鲁棒性和准确度。本发明能够准确地对室内场景进行分割,为智能机器人的移动和物体抓取提供了视觉感知信息,在针对室内场景的领域有较高的应用价值。

Description

基于深度加权全卷积网络的室内场景迁移分割方法
技术领域
本发明涉及图像处理领域,特别涉及基于深度加权全卷积网络的室内场景迁移分割方法。
背景技术
图像分割是计算机视觉领域研究的热点,其旨在根据颜色、亮度、纹理等特征将给定图像划分为若干互不相交的区域。图像分割技术为移动机器人、行人检测和医学影像等应用提供了丰富的视觉感知信息,特别是使得智能服务机器人的运动避障和物体抓取成为可能。由于室内场景图像光照不均和遮挡、阴影的存在,室内场景的分割一直是图像分割领域的一个难点。随着深度学习的兴起,基于深度学习的图像分割渐渐表现出很好的性能。因而,基于深度学习的室内场景自动分割方法应运而生。
深度学习是一种特定类型的机器学习,通过较简单的表示来表达复杂表示。深度学习模型由称为隐藏层的多个处理层组成,相较于传统的机器学习方法,具有更高的灵活性和自主学习能力,显著提高了计算机视觉、模式识别、图像处理和许多其他领域如生物和药物领域的最新技术的性能。
在初期,深度学习模型的代表是卷积神经网络。Lecun等人采用传统分割方法和卷积神经网络相结合的方法,使用RGB图像和深度图对室内场景进行语义分割,但由于其中应用的超像素分割并不稳定,所以分类存在一些错误,分割的效果也一般。后来Farabet 和Pinheiro分别提出了基于分类卷积神经网络的patch级图像分割方法。这种方法从图像中提取patch,每个patch赋予一个表示前景或背景的标签,将所有的patch和标签输入图像级分类框架来训练卷积神经网络模型。但patch级的卷积神经网络性能会受到patch尺寸的影响。大的patch尺寸降低了定位的精度,而小的patch限制了上下文环境。为解决这个问题,Long等人提出了一种端对端的像素级自然图像分割方法。他们将一个现有的分类卷积神经网络修改为全卷积网络。通过对每个局部区域分类,可以从该网络获得一个粗略的标签图,并基于像素级分割的双线性插值进行简单的解卷积操作。全卷积网络的性能良好,为图像分割提供了新的思路,但是其分割结果比较笼统,并不能做准确的预测。
由于室内场景的复杂性,训练出高鲁棒性且高精度的分割模型一直是一个挑战。
发明内容
本发明的目的在于提供基于深度加权全卷积网络的室内场景迁移分割方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
基于深度加权全卷积网络的室内场景迁移分割方法,包括以下步骤:
步骤1,收集室内场景的图片,对图片中每个物体的轮廓进行人工分割得到真值标签,进行图像扩充后将其分为训练集和测试集;
步骤2,将全卷积网络模型迁移至室内场景的分割,将训练图像和相应的物体轮廓作为输入,进行端对端的训练,得到室内场景分割模型;
步骤3,对于训练好的室内场景分割模型,将测试图像作为输入,得到自动分割的物体轮廓。
进一步的,步骤2中的室内场景分割模型由全卷积网络模型进行迁移而得;室内场景分割模型是针对全卷积网络模型,对最后三层进行微调,将室内场景的训练集作为输入进行训练而得。
进一步的,步骤2中的室内场景分割模型由7个卷积层、5个池化层和3个上采样层构成;5个池化层分别连接在前5个卷积层后面,其它2个卷积层连接在最后一个池化层后面,3个上采样层分别连接在第3个池化层,第4个池化层和最后一个卷积层后面。
进一步的,前5个卷积层的卷积核尺寸均为3×3,步长为1,填充为1;后2个卷积层的卷积核尺寸依次为7×7和1×1,步长为1;5个池化层的卷积核尺寸均为2×2,步长为2;3个上采样层的卷积核尺寸依次为4×4,4×4和16×16,步长依次为2,2,8。
进一步的,步骤2中的训练过程中使用了加权交叉熵损失函数,该损失函数的表示如下:
其中,Pi表示真实情况或是黄金标准,表示一个体素i属于物体的概率,则表示权重,通常设为属于类别C的像素数量的绝对值的倒数;通过训练使得损失函数达到最小,即完成训练,得到室内场景分割模型。
进一步的,步骤3中具体工作流程如下:
1)对于室内场景分割模型,将测试集作为输入,得到模型自动分割的物体轮廓;
2)将室内场景分割模型的自动分割得到的物体轮廓与人工分割得到的真值标签进行视觉对比和定量对比,以此评估模型的训练效果。
进一步的,步骤1中,通过生成图像翻译和水平反射来增加原始数据集。
与现有技术相比,本发明有以下技术效果:
本发明提出的方法可用于室内场景的精确分割,具有高效率和高鲁棒性,且不需要任何手工特征,利用此方法辅助移动机器人进行障碍规避和物体抓取等操作;
本发明将全卷积网络模型迁移到室内场景的分割领域,并在训练过程中使用加权交叉熵损失函数,解决了训练过程中室内场景图像类别不平衡的问题,使得训练更快收敛,模型更加精确;避免物体和背景之间的不平衡引发的训练问题;
本发明通过生成图像翻译和水平反射来增加原始数据集,这种数据增加被证实可以提高深度学习的性能,获取测试数据集的鲁棒性和更高的精度。
附图说明
图1是本发明室内场景迁移分割方法的实现流程图;
图2是本发明的室内场景分割模型的网络结构图;
图3是本发明的室内场景分割模型的分割效果图;
具体实施方式
以下结合附图,对本发明进一步说明:
本发明提供了一种基于深度加权全卷积网络的室内场景迁移分割方法,具体步骤如图 1所示:
S1.收集室内场景的图像,对每个物体进行人工分割,并将其分为训练集和测试集。具体工作流程如下:
(1.1)、对于原始室内场景的图像,勾画出室内场景中每个物体的轮廓,即感兴趣区域,作为真值标签;
(1.2)、对(1.1)所述的原始室内场景和真值标签进行生成图像翻译和水平反射,以此增加原始数据集,获取测试数据集的鲁棒性和更高的精度;
(1.3)、将(1.2)所述的增加后的数据集分成训练集和测试集。
S2.将全卷积网络迁移到室内场景的分割上,输入训练图像和相应的物体轮廓,进行端对端的训练,得到室内场景分割模型。具体工作流程如下:
(2.1)、所述全卷积网络模型具有良好的分割效果,将全卷积网络模型的最后三层进行微调,其网络结构如图2所示,该网络结构由7个卷积层、5个池化层和3个上采样层连接而成;其中5个池化层分别连接在前5个卷积层后面,其它2个卷积层连接在最后一个池化层后面,3个上采样层分别连接在第3个池化层、第4个池化层和最后一个卷积层后面;
(2.2)、对于(2.1)所述的调整后的网络模型,将(1.3)所述训练集作为输入进行训练;
(2.3)、对于(2.1)所述的调整后的网络模型,训练过程中采用加权交叉熵损失函数,来避免物体和背景之间的不平衡引发的训练问题。该损失函数的表示如下:
其中,Pi表示真实情况或是黄金标准,表示一个体素i属于某个物体的概率,则表示权重,通常设为属于类别C的像素数量的绝对值的倒数;
(2.4)、对于(2.1)所述的调整后的网络模型,通过(2.2)所述的输入,通过训练使得(2.3)所示的损失函数达到最小,即完成训练,得到室内场景分割模型。
S3.对于训练好的室内场景分割模型,将测试图像作为输入,得到自动分割的物体轮廓,如图3所示。具体工作流程如下:
(3.1)、对于(2.4)所述的室内场景分割模型,将(1.3)所述的测试集作为输入,得到模型自动分割的物体轮廓;
(3.2)、将(3.1)所述的室内场景分割模型的自动分割得到的物体轮廓与(1.2)所述人工分割得到的真值标签进行对比,发现(2.4)所述的室内场景分割模型取得了极好的分割效果,并得到了较高的具有最低标准偏差的骰子相似系数和较低的具有最低标准偏差的Hausdorff距离。
以上结合附图对本发明的具体实施方式进行了描述。本行业的技术人员应该了解,本发明不受上述实施例的限制。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围之内。

Claims (7)

1.基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,包括以下步骤:
步骤1,收集室内场景的图片,对图片中的物体进行人工分割得到真值标签,进行图像扩充后将其分为训练集和测试集;
步骤2,将全卷积网络模型迁移至室内场景的分割,将训练图像和相应的物体轮廓作为输入,进行端对端的训练,得到室内场景分割模型;
步骤3,对于训练好的室内场景分割模型,将测试图像作为输入,得到自动分割的物体轮廓。
2.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,步骤2中的室内场景分割模型由全卷积网络模型进行迁移而得;室内场景分割模型是针对全卷积网络模型,对最后三层进行微调,将室内场景的训练集作为输入进行训练而得。
3.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,步骤2中的室内场景分割模型由7个卷积层、5个池化层和3个上采样层构成;5个池化层分别连接在前5个卷积层后面,其它2个卷积层连接在最后一个池化层后面,3个上采样层分别连接在第3个池化层,第4个池化层和最后一个卷积层后面。
4.根据权利要求3所述的基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,前5个卷积层的卷积核尺寸均为3×3,步长为1,填充为1;后2个卷积层的卷积核尺寸依次为7×7和1×1,步长为1;5个池化层的卷积核尺寸均为2×2,步长为2;3个上采样层的卷积核尺寸依次为4×4,4×4和16×16,步长依次为2,2,8。
5.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,步骤2中的训练过程中使用了加权交叉熵损失函数,该损失函数的表示如下:
其中,Pi表示真实情况或是黄金标准,表示一个体素i属于一个物体的概率,则表示权重,通常设为属于类别C的像素数量的绝对值的倒数;通过训练使得损失函数达到最小,即完成训练,得到室内场景分割模型。
6.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,步骤3中具体工作流程如下:
1)对于室内场景分割模型,将测试集作为输入,得到模型自动分割的物体轮廓;
2)将室内场景分割模型的自动分割得到的物体轮廓与人工分割得到的真值标签进行视觉对比和定量对比,评估模型。
7.根据权利要求1所述的基于深度加权全卷积网络的室内场景迁移分割方法,其特征在于,步骤1中,通过生成图像翻译和水平反射来增加原始数据集。
CN201910453625.6A 2019-05-28 2019-05-28 基于深度加权全卷积网络的室内场景迁移分割方法 Pending CN110246149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910453625.6A CN110246149A (zh) 2019-05-28 2019-05-28 基于深度加权全卷积网络的室内场景迁移分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910453625.6A CN110246149A (zh) 2019-05-28 2019-05-28 基于深度加权全卷积网络的室内场景迁移分割方法

Publications (1)

Publication Number Publication Date
CN110246149A true CN110246149A (zh) 2019-09-17

Family

ID=67885238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910453625.6A Pending CN110246149A (zh) 2019-05-28 2019-05-28 基于深度加权全卷积网络的室内场景迁移分割方法

Country Status (1)

Country Link
CN (1) CN110246149A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539439A (zh) * 2020-04-30 2020-08-14 宜宾电子科技大学研究院 一种图像语义分割方法
CN114359300A (zh) * 2022-03-18 2022-04-15 成都数之联科技股份有限公司 一种图像分割模型的优化方法、装置、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980754A1 (en) * 2014-07-28 2016-02-03 Thomson Licensing Method and apparatus for generating temporally consistent superpixels
CN105760835A (zh) * 2016-02-17 2016-07-13 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的步态分割与步态识别一体化方法
CN109543754A (zh) * 2018-11-23 2019-03-29 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法
CN109584254A (zh) * 2019-01-07 2019-04-05 浙江大学 一种基于深层全卷积神经网络的心脏左心室分割方法
CN109754440A (zh) * 2018-12-24 2019-05-14 西北工业大学 一种基于全卷积网络和均值漂移的阴影区域检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980754A1 (en) * 2014-07-28 2016-02-03 Thomson Licensing Method and apparatus for generating temporally consistent superpixels
CN105760835A (zh) * 2016-02-17 2016-07-13 天津中科智能识别产业技术研究院有限公司 一种基于深度学习的步态分割与步态识别一体化方法
CN109543754A (zh) * 2018-11-23 2019-03-29 中山大学 基于端对端深度学习的目标检测与语义分割的并行方法
CN109754440A (zh) * 2018-12-24 2019-05-14 西北工业大学 一种基于全卷积网络和均值漂移的阴影区域检测方法
CN109584254A (zh) * 2019-01-07 2019-04-05 浙江大学 一种基于深层全卷积神经网络的心脏左心室分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YURI SOUSA AURELIO等: ""Learning from Imbalanced Data Sets with Weighted Cross-Entropy Function"", 《NEURAL PROCESSING LETTERS》 *
黄龙等: ""结合全卷积神经网络的室内场景分割"", 《中国图象图形学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539439A (zh) * 2020-04-30 2020-08-14 宜宾电子科技大学研究院 一种图像语义分割方法
CN114359300A (zh) * 2022-03-18 2022-04-15 成都数之联科技股份有限公司 一种图像分割模型的优化方法、装置、系统及存储介质
CN114359300B (zh) * 2022-03-18 2022-06-28 成都数之联科技股份有限公司 一种图像分割模型的优化方法、装置、系统及存储介质

Similar Documents

Publication Publication Date Title
WO2023077816A1 (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
He et al. A fully convolutional neural network for wood defect location and identification
CN109446992B (zh) 基于深度学习的遥感影像建筑物提取方法及系统、存储介质、电子设备
CN109033998B (zh) 基于注意力机制卷积神经网络的遥感影像地物标注方法
CN110428432B (zh) 结肠腺体图像自动分割的深度神经网络算法
CN109241982A (zh) 基于深浅层卷积神经网络的目标检测方法
CN106920243A (zh) 改进的全卷积神经网络的陶瓷材质件序列图像分割方法
CN108764228A (zh) 一种图像中文字目标检测方法
CN110046572A (zh) 一种基于深度学习的地标建筑物识别与检测方法
CN111640125A (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN107346420A (zh) 一种基于深度学习的自然场景下文字检测定位方法
CN106022237A (zh) 一种端到端的卷积神经网络的行人检测方法
CN105825511A (zh) 一种基于深度学习的图片背景清晰度检测方法
CN108846444A (zh) 面向多源数据挖掘的多阶段深度迁移学习方法
CN110120041A (zh) 路面裂缝图像检测方法
CN110334656B (zh) 基于信源概率加权的多源遥感图像水体提取方法及装置
CN109543630A (zh) 基于深度学习的遥感影像林地提取方法及系统、存储介质、电子设备
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
CN111127360B (zh) 一种基于自动编码器的灰度图像迁移学习方法
CN112149535B (zh) 一种结合SegNet和U-Net的车道线检测方法和装置
CN113343775B (zh) 一种用于遥感影像地表覆盖分类的深度学习泛化方法
CN103198479A (zh) 基于语义信息分类的sar图像分割方法
CN108364278A (zh) 一种岩心裂缝提取方法和系统
CN109685030A (zh) 一种基于卷积神经网络的马克杯杯口缺陷检测分类方法
CN110458132A (zh) 一种基于端到端的不定长文本识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917

RJ01 Rejection of invention patent application after publication