CN110163884A

CN110163884A - 一种基于全连接深度学习神经网络的单个图像分割方法

Info

Publication number: CN110163884A
Application number: CN201910412109.9A
Authority: CN
Inventors: 厉旭杰; 黄辉; 王艳丹; 童长飞
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-23
Anticipated expiration: 2039-05-17
Also published as: CN110163884B

Abstract

本发明公开了一种基于全连接深度学习神经网络的单个图像分割方法。该方法包括用户交互式的在待分割图像上涂前景和背景线条；构建全连接深度学习神经网络，提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，训练全连接深度学习神经网络；训练完全连接深度学习神经网络后，将待分割图像中逐个像素的特征值作为神经网络的输入，获得每个像素属于前景和背景的似然概率；根据全连接深度学习神经网络输出的每个像素属于前景和背景的似然概率，计算最终的图像分割结果。实施本发明仅仅利用涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，避免了神经网络在训练阶段需要大规模的训练样本的弊端。

Description

一种基于全连接深度学习神经网络的单个图像分割方法

技术领域

本发明涉及一种图像分割方法，尤其是一种基于全连接深度学习神经网络的单个图像分割方法。

背景技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。图像分割本质上是一个欠约束的问题，为了获得高质量的图像分割结果，通常需要用户提供三分图或者用户交互性的输入前景和背景线条，随后通过建立最优化模型传播这些信息到整个图像，从而完成图像分割，然而通常这种方法会耗费非常多时间和内存。参见Tao Wang,Jian Yang,Zexuan Ji et al.Probabilistic Diffusion forInteractive Image Segmentation.IEEE Transactions on Image Processing.2019,28(1):330-342。

图像分割一般采用如下原则：相同的图像特征具有相同的图像分割结果。基于这个原则，影响图像分割质量的决定性因素有两个：(1)如何构建图像的特征向量；(2)如何确定每个图像特征向量中各个向量的重要性。传统的基于最优化模型的图像分割方法着重研究如何构建图像的特征向量来提高图像分割的效果，比如Musialski等人采用颜色值作为特征向量，这种方法能把涂色线条信息进行远距离的传播，但是正是由于仅仅采用颜色值作为特征向量，当图像中的前景和背景像素的颜色值非常接近时，就很难对图像进行正确的分割。参见Musialski P,Cui M,Ye J.A framework for interactive image colorediting.The Visual Computer,2013,29(11):1173-1186。因此有不少学者把空间坐标，图像补丁等加入到特征向量中，但是这类方法往往不能自动决定特征向量中各个向量的重要性，需要用户提前手动来设置这些参数。参见Xu Li,Yan Qiong,Jia Jiaya.A SparseControl Model for Image and Video Editing.ACM Trans.Graph.2013,32(6):197:1--197:10。

近年来，深度学习在图像编辑任务中取得了很大的成功，特别是卷积神经网络能够有效的提取图像中的信息，而且能通过大量的训练样本自动决定图像特征向量的重要性，因此出现了许多的学者开始研究深度学习神经网络，特别是使用卷积神经网络来提高图像分割的质量，但是这些方法都是建立在图像级的训练样本，通常训练一个深度学习神经网络需要有足够量的训练图像，往往需要几天甚至几个月来训练深度学习神经网络。参见Liang-Chieh Chen，George Papandreou，Iasonas Kokkinos.DeepLab:Semantic ImageSegmentation with Deep Convolutional Nets,Atrous Convolution,and FullyConnected CRFs.IEEE Transactions on Pattern Analysis and MachineIntelligence.2018,40(4)：834-848。目前主流的基于深度学习的图像分割都是采用卷积神经网络，因为卷积层能有效的提取图像的高级特征，而且在图像语义分割也取得了很好的效果。参见Vijay Badrinarayanan,Alex Kendall,and Roberto Cipolla.SegNet:ADeep Convolutional Encoder-Decoder Architecture for Image Segmentation.IEEETRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2017,39(12):2481-2495。但是在像素级的图像分割中，如果采用图像补丁作为特征向量，产生的图像分割结果在边缘区域会有2-3个像素的误差，为了保证图像分割结果在分割边缘的准确性，通常需要进一步使用边缘保持的图像滤波算法提高图像分割的质量。

目前，图像分割主要存在两大问题：第一，基本上绝大部分的图像分割方法都不能自动决定特征向量中各个向量的重要性，需要用户提前手动来设置这些参数；第二，主流的基于深度学习神经网络的图像分割方法都是建立在图像级的训练样本，通常训练一个深度学习神经网络需要有足够量的训练图像，往往需要几天甚至几个月来训练深度学习神经网络，而且这些方法只能对图像进行语义分割，无法和用户进行交互。

发明内容

本发明的目的是为了克服现有技术存在的缺点和不足，而提供一种基于全连接深度学习神经网络的单个图像分割方法，该方法构建了一种全连接深度学习神经网络，将图像分割作为一个像素级的二分类问题，采用归一化的RGB颜色值和空间坐标作为特征向量来训练全连接深度学习神经网络。

为实现上述目的，本发明的技术方案是包括以下步骤：

(1)输入待分割图像，用户交互式的在待分割图像上涂前景和背景线条，形成涂色线条；

(2)构建全连接深度学习神经网络，提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，训练全连接深度学习神经网络；

(3)训练完全连接深度学习神经网络后，将待分割图像中逐个像素的特征值作为神经网络的输入，获得每个像素属于前景和背景的似然概率；

(4)根据全连接深度学习神经网络输出的每个像素属于前景和背景的似然概率，计算最终的图像分割结果。

进一步设置是在步骤(1)中：用户采用两种涂色线条，涂白色线条表示该区域像素属于前景，涂黑色线条表示该区域像素属于背景。

进一步设置是所述的步骤(2)中提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集具体为：

提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集

其中：i为索引值；M为训练的样本数，即被涂色线条覆盖的像素个数；z_i为深度学习神经网络第i个训练样本的输出，表示第i个训练样本的分类，前景像素z_i等于(1,0)，背景像素z_i等于(0,1)；p_i为深度学习神经网络第i个训练样本的输入：p_i＝[c,s]_i＝[(R,G,B),(x,y)]_i，[c,s]_i分别为第i个训练样本的RGB颜色值(R,G,B)和空间坐标(x,y)。

进一步设置是该全连接深度学习神经网络模型包括有颜色特征提取部分、空间特征提取部分、特征组合部分和分类估计部分；

所述颜色特征提取部分由3组全连接层和ReLU激活函数组成，每组全连接层和ReLU激活函数进行如下操作：f_ReLU(f_FC(p))，f_FC对应全连接层，f_ReLU对应ReLU激活函数；颜色特征提取部分中全连接层和ReLU激活函数的连接顺序为FC1-ReLU-FC2-ReLU-FC3-ReLU，其中FC1层、FC2层、FC3层为全连接层，FC1层输入神经元个数为3，输出神经元个数为64；FC2层输入神经元个数为64，输出神经元个数为128；FC3层输入神经元个数为128，输出神经元个数为256，ReLU为非线性激活函数，ReLU(x)＝max(0,x)；颜色特征提取部分提取全局颜色特征J_a(c)：

J_a(c)＝f_ReLU(f_FC3(f_ReLU(f_FC2(f_ReLU(f_FC1(c))))))

其中：c＝(R,G,B)是训练集中像素的归一化RGB向量，FC1-FC3是全连接层；

所述空间特征提取部分的输入为像素点的空间坐标，空间特征提取部分由1组全连接层和ReLU激活函数组成，其中全连接层FC4输入神经元个数为2，输出神经元个数为256，空间特征提取部分提取像素的空间特征J_b(s):

J_b(s)＝f_ReLU(f_FC4(s))

其中：s＝(x,y)是训练集中像素的空间坐标；空间坐标标准化至范围[0-1]；

所述的特征组合部分由2个全连接层和1个ReLU激活函数组成，两个全连接层FC5层和FC6层均为输入神经元个数256，输出神经元个数256，特征组合部分合并颜色特征和空间特征J_cs(c,s)：

J_cs(c,s)＝f_ReLU(f_FC5(J_a(c))+f_FC6(J_b(s)))

所述的分类估计部分采用全连接层和softmax激活函数来输出分类结果，全连接层FC7层输入神经元个数为256，输出神经元个数为2；分类估计部分输出像素属于前景和背景的似然概率：

J_e(c,s)＝f_softmax(f_FC7(J_cs(c,s)))

进一步设置是所述步骤(2)中训练全连接深度学习神经网络具体为：

训练样本经过全连接深度学习神经网络的输出和真实的训练样本输出之间的损失函数如下：

其中：z_i为训练集中第i个训练样本的分类，其中前景像素z_i等于(1，0)，背景像素z_i等于(0，1)；

P_i为softmax的输出，计算了第i个训练样本预测为属于前景和背景的似然概率；

a_i为第i个训练样本在softmax两个神经元的未激活的输出；

对损失函数E进行优化求最小化的极值，获得训练全连接深度学习神经网络的参数，本方法采用mini-batch Adam优化算法来训练全连接深度学习神经网络。

进一步设置是所述的步骤(3)具体为：

全连接深度学习神经网络训练完以后，将待分割图像中逐个像素的特征值作为全连接深度学习神经网络的输入，其中N为整个图像像素的个数；p_i＝[c,s]_i＝[(R,G,B),(x,y)]_i，[c,s]_i分别为第i个训练样本的RGB颜色值(R,G,B)和空间坐标(x,y)；训练后的全连接深度学习神经网络作为一个二值分类器产生每个像素属于前景和背景的似然概率。

进一步设置是所述的步骤(4)具体为：

全连接深度学习神经网络的softmax输出了每个样本属于前景和背景的似然概率，把概率最大的分类作为结果输出，从而获得图像分割结果：

其中：i为像素索引值；P_i1和P_i1为softmax输出P_i中的两个向量；P_i1计算了第i个样本属于前景的似然概率，P_i2计算了第i个样本属于背景的似然概率；y为最终的图像分割结果。

本发明不需要用户调整参数，该方法能自动确定每个特征向量的重要性，而且本发明方法仅仅利用涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，避免了神经网络在训练阶段需要大规模的训练样本的弊端。

本发明所设计的一种基于全连接深度学习神经网络的单个图像分割方法的有益效果是：

1.本方法提出了一个简单，且非常有效的深度全连接神经网络模型，提出的深度学习神经网络结构能够从全局和局部项依赖性中学习高级表示；

2.本方法采用归一化的RGB颜色值和空间坐标作为特征向量来训练全连接深度学习神经网络，不需要用户设置参数，该方法能自动确定每个特征向量的重要性，从而获得高质量的图像分割结果；

3.本方法利用全连接深度学习神经网络，将图像分割作为一个像素级的二分类问题，仅仅利用涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，避免了神经网络在训练阶段需要大规模的训练样本的弊端。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1是本发明的流程图；

图2是本发明全连接深度学习神经网络模型；

图3是本发明与目前主流的立体图像分割方法效果对比图；

图4是本发明对多组立体图像进行图像分割的结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

本实施例所描述的一种基于全连接深度学习神经网络的单个图像分割方法，包括以下四个步骤，参见图1：

S1：输入待分割图像，用户交互式的在待分割图像上涂前景和背景线条；

用户采用两种涂色线条，涂白色线条表示该区域像素属于前景，涂黑色线条表示该区域像素属于背景。

S2：构建全连接深度学习神经网络，提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，训练全连接深度学习神经网络；

提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集具体方法如下：

其中i为索引值；

M为训练的样本数，即被涂色线条覆盖的像素个数；

z_i为深度学习神经网络第i个训练样本的输出，表示第i个训练样本的分类，前景像素z_i等于(1,0)，背景像素z_i等于(0,1)；

p_i为深度学习神经网络第i个训练样本的输入：p_i＝[c,s]_i＝[(R,G,B),(x,y)]_i；

[c,s]_i分别为第i个训练样本的RGB颜色值(R,G,B)和空间坐标(x,y)。

本发明的一种基于全连接深度学习神经网络的单个图像分割方法，该全连接深度学习神经网络模型由颜色特征提取部分、空间特征提取部分、特征组合部分和分类估计部分组成见图2；基于全连接深度学习神经网络每个全连接层的输入和输出神经元个数见表1。

表1本方法基于全连接深度学习神经网络每个全连接层的输入和输出神经元个数，FC1-FC6每个全连接层后接一个ReLU激活函数，最后一个全连接层FC7后接softmax激活函数。

所述颜色特征提取部分由3组全连接层+ReLU激活函数组成，每组全连接层+ReLU激活函数进行如下操作：f_ReLU(f_FC(p))，f_FC对应全连接层，f_ReLU对应ReLU激活函数；颜色特征提取部分中全连接层+ReLU激活函数的连接顺序为FC1-ReLU-FC2-ReLU-FC3-ReLU；其中FC1层、FC2层、FC3层为全连接层，FC1层输入神经元个数为3，输出神经元个数为64；FC2层输入神经元个数为64，输出神经元个数为128；FC3层输入神经元个数为128，输出神经元个数为256，ReLU为非线性激活函数，ReLU(x)＝max(0,x)。颜色特征提取部分提取全局颜色特征J_a(c)：

J_a(c)＝f_ReLU(f_FC3(f_ReLU(f_FC2(f_ReLU(f_FC1(c))))))

其中c＝(R,G,B)是训练集中像素的归一化RGB向量，FC1-FC3是全连接层。

所述空间特征提取部分的输入为像素点的空间坐标，空间特征提取部分由1组全连接层+ReLU激活函数组成，其中全连接层FC4输入神经元个数为2，输出神经元个数为256，空间特征提取部分提取像素的空间特征J_b(s):

J_b(s)＝f_ReLU(f_FC4(s))

其中s＝(x,y)是训练集中像素的空间坐标；空间坐标标准化至范围[0-1]。

所述特征组合部分由2个全连接层和1个ReLU激活函数组成，两个全连接层FC5层和FC6层均为输入神经元个数256，输出神经元个数256。特征组合部分合并颜色特征和空间特征J_cs(c,s)：

J_cs(c,s)＝f_ReLU(f_FC5(J_a(c))+f_FC6(J_b(s)))

所述分类估计部分采用全连接层+softmax激活函数来输出分类结果，全连接层FC7层输入神经元个数为256，输出神经元个数为2。分类估计部分输出像素属于前景和背景的似然概率：

J_e(c,s)＝f_softmax(f_FC7(J_cs(c,s)))

a_i为第i个训练样本在softmax两个神经元的未激活的输出。

对损失函数E进行优化求最小化的极值，可以获得训练全连接深度学习神经网络的参数，为了使全连接深度学习神经网络尽快收敛，本方法在训练样本的时候随机打散训练数据；本方法采用mini-batch Adam优化算法来训练全连接深度学习神经网络。

S3：训练完全连接深度学习神经网络后，将待分割图像中逐个像素的特征值作为神经网络的输入，获得每个像素属于前景和背景的似然概率；

S4：根据全连接深度学习神经网络输出的每个像素属于前景和背景的似然概率，计算最终的图像分割结果；

其中i为像素索引值；P_i1和P_i1为softmax输出P_i中的两个向量；P_i1计算了第i个样本属于前景的似然概率，P_i2计算了第i个样本属于背景的似然概率；y为最终的图像分割结果。

本方法提出了一种基于全连接深度学习神经网络的单个图像分割方法，该方法利用全连接深度学习神经网络，将图像分割作为一个像素级的二分类问题，采用归一化的RGB颜色值和空间坐标作为特征向量来训练全连接深度学习神经网络。该方法包括用户交互式的在待分割图像上涂前景和背景线条；构建全连接深度学习神经网络，提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，训练全连接深度学习神经网络；训练完全连接深度学习神经网络后，将待分割图像中逐个像素的特征值作为神经网络的输入，获得每个像素属于前景和背景的似然概率；根据全连接深度学习神经网络输出的每个像素属于前景和背景的似然概率，计算最终的图像分割结果。

本发明使用python 3.7和chainer 5.3.0库实现了全连接深度学习神经网络的单个图像分割方法，所有实验都是在NVIDIA GeForce RTX 2080 Ti GPU和Intel I9-7900XCPU的机器上进行的。图3显示了本发明与目前主流的立体图像分割方法效果对比图，从图中可以看出本发明方法仅仅需要用户输入少量的涂色线条(白色线条表示前景，黑色线条表示背景)，就能产生高质量的图像分割结果，而Laplacian Coordinates方法(参见CasacaWallace,Gustavo Nonato Luis,Taubin Gabriel.Laplacian Coordinates for SeededImage Segmentation.The IEEE Conference on Computer Vision and PatternRecognition(CVPR).2014:384-391.)依赖于局部区域像素之间的相似性，不能将分割结果传播到距离离用户涂色线条相对较远的地方。

表2定量比较图3中本发明方法和标准图像分割结果的均方误差

	本发明方法	Laplacian Coordinates
			图3第1行	0.0110	0.0412
图3第2行	0.0025	0.0049
			图3第3行	0.0024	0.0085

为了定量计算本发明方法图像分割的性能，我们计算了本方法获得的图像分割结果和标准图像分割结果之间的均方误差MSE，均方误差MSE(mean-square error)的计算公式如下：

式中，i为像素位置索引，N为整个图像像素的个数，M_S为本方法获得的图像分割结果，M_G为标准图像分割结果。均方误差MSE越低，表示本方法获得的图像分割结果和标准图像分割结果越接近。

表3本发明方法运行效率

表2定量的比较了图3中本发明方法和标准图像分割结果的均方误差。从表2中可以看出，本发明方法的图像分割效果具有较小的均方误差，相比于Laplacian Coordinates方法，大大的提高了图像分割的质量。为了测试本发明方法的运行效率，表3显示了图3中三组图像的运行时间，第三列显示了涂色线条像素点，第四列显示了本发明方法运行时间，从表3中可以看出，因为本发明方法仅仅利用涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集，从而大大的减少了全连接深度学习神经网络训练的时间和内存要求，只需要十几秒的时间就能完成图像分割。

图4为本发明对多组立体图像进行图像分割的结果图，从图4中可以看出，本发明方法针对高纹理区域、色彩重叠以及具有琐碎区域的图像均取得了高质量的图像分割结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

应当注意，本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤组合为一个步骤执行，和/或将一个步骤分解为多个步骤执行。还应当注意，根据本发明的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

虽然已经参考若干具体实施例描述了本发明，但是应当理解，本发明不限于所公开的具体实施例。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等效布置。

Claims

1.一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于：在步骤(1)中：用户采用两种涂色线条，涂白色线条表示该区域像素属于前景，涂黑色线条表示该区域像素属于背景。

3.根据权利要求1所述的一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于所述的步骤(2)中提取涂色线条所在区域的像素特征值和相应的涂色线条分类为训练集具体为：

4.根据权利要求3所述的一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于：该全连接深度学习神经网络模型包括有颜色特征提取部分、空间特征提取部分、特征组合部分和分类估计部分；

J_a(c)＝f_ReLU(f_FC3(f_ReLU(f_FC2(f_ReLU(f_FC1(c))))))

J_b(s)＝f_ReLU(f_FC4(s))

J_cs(c,s)＝f_ReLU(f_FC5(J_a(c))+f_FC6(J_b(s)))

J_e(c,s)＝f_softmax(f_FC7(J_cs(c,s)))。

5.根据权利要求4所述的一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于：所述步骤(2)中训练全连接深度学习神经网络具体为：

a_i为第i个训练样本在softmax两个神经元的未激活的输出；

6.根据权利要求5所述的一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于：步骤(3)具体为：

7.根据权利要求6所述的一种基于全连接深度学习神经网络的单个图像分割方法，其特征在于所述的步骤(4)具体为：