CN109741341A

CN109741341A - 一种基于超像素和长短时记忆网络的图像分割方法

Info

Publication number: CN109741341A
Application number: CN201811560271.7A
Authority: CN
Inventors: 文颖; 谢恺
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-10
Anticipated expiration: 2038-12-20
Also published as: CN109741341B

Abstract

本发明公开了一种基于超像素和长短时记忆网络（Long Short‑Term Memory,LSTM）的图像分割方法，包括训练和测试两个阶段，训练阶段：对图像训练集进行预处理；利用一种超像素分割算法进行预分割；建立超像素图；根据超像素图构建适用于LSTM输入的特征序列训练集和真值集；训练LSTM模型。测试阶段：对待分割图像进行预处理、超像素分割、构建超像素图并构建特征序列；将特征序列输入已训练的LSTM模型，根据分类结果还原分割后的图像。本发明基于超像素分割，通过训练神经网络对超像素块进行分类获得分割结果，解决了传统分割网络对于空间边缘分割精度不足的问题，同时利用LSTM对于序列特征数据分类的特点，融合了超像素块的邻域信息，进一步提高了分割精度和时间性能。

Description

一种基于超像素和长短时记忆网络的图像分割方法

技术领域

本发明属于图像分割技术领域，是一种基于超像素和长短时记忆网络(LongShort-Term Memory，LSTM)的图像分割方法。

背景技术

图像分割是由图像处理进到图像分析的关键步骤，也是一种基本的计算机视觉技术。图像分割就是把图像分成各具特性的区域并提取出感兴趣目标区域的技术和过程。现有的图像分割主要分为下面几类：基于阈值的分割方法，基于区域的分割方法，基于边缘的分割方法以及基于聚类的分割方法。随着近年来深度学习的发展，越来越多基于深度神经网络的方法也逐渐应用于图像分割领域。Jonathan Long等人在2015年提出了全卷积神经网络(Fully Convolutional Networks，FCN)，通过构建端到端、像素到像素训练的卷积网络来提取图像语义信息，成功应用于图像分割领域。此外，循环神经网络(RecurrentNeural Network,RNN)由于能够接受序列结构输入，更好地考虑输入特征向量之间相关性，近年来也有研究将其应用于图像分割，尤其是医学图像分割领域。

传统基于聚类方法的图像分割算法，如K-Means、FCM、SOM等方法，在应用时都有各自的优缺点。例如K-means在实现时较为简单快速，但它对于噪点较为敏感，并且分割结果较大依赖于初始化；FCM和SOM对于初始化并不敏感，但这两种方法都需要依赖于不断地迭代，使得算法非常耗时。利用神经网络的图像分割，是一种有监督的机器学习方法。通过将待分割图像输入预训练的模型，即可得到分割结果，这使得在测试阶段的分割时间大大提升，并且能够处理更为复杂的图像分割任务。但是，目前广泛利用的分割网络FCN由于池化层的降采样操作，使得得到的分割结果在边缘精度上表现不佳。此外，像U-Net和SegNet虽然通过改进网络结构，在分割精度上有了很大提升，但由于此类网络是基于像素的语义分割网络，其分割结果存在对于个别像素语义信息分类错误的情况，因其较小的感受野，也没有很好地考虑其较大邻域的信息。

发明内容

本发明的目的是为了克服现有技术的上述缺陷而提出了一种基于超像素和长短时记忆网络(Long Short-Term Memory,LSTM)的图像分割方法，该方法利用超像素对图像进行预分割，通过训练LSTM对超像素块进行分类，实现图像分割。引入超像素解决了传统分割网络对于空间边缘分割精度不足的问题，同时利用LSTM对于序列特征数据分类的特点，融合了超像素块的邻域信息，在提高分割性能的同时也提高了分割的时间性能。

实现本发明目的的具体技术方案是：

一种基于超像素和长短时记忆网络的图像分割方法，该方法分为训练和测试两个阶段，包括如下步骤：

步骤a：对图像训练集进行预处理；

步骤b：利用一种超像素分割算法进行预分割，去除作为背景的超像素块，构建超像素图；

步骤c：根据超像素图构建适用于LSTM输入的特征序列训练集和真值集；

步骤d：训练LSTM分类模型；

步骤e：对待分割的测试图像，重复步骤a-c，将构建的特征序列输入已训练的LSTM模型，得到超像素块分类结果，将分类结果还原得到分割结果。

本发明提出的所述基于超像素和长短时记忆网络的图像分割方法中，所述步骤a中预处理为对全部训练图像进行灰度拉伸变换。

本发明提出的所述基于超像素和长短时记忆网络的图像分割方法中，所述步骤b中构建超像素图包括如下步骤：

步骤b1：对于所有的预处理后的训练图像，利用一种超像素分割算法(如SLIC)进行预分割，得到超像素块的预分割图像；

步骤b2：根据预分割图和超像素块的数量建立邻接矩阵，将每一块超像素区域作为图的节点，空间上相邻的超像素块间用边连接，从而构建超像素图。

本发明提出的所述基于超像素和长短时记忆网络的图像分割方法中，所述步骤c中根据超像素图构建适用于LSTM输入的特征序列训练集和真值集包括如下步骤：

步骤c1：对于每一张训练图像的每一个超像素节点，构建D×Q的特征序列，作为输入LSTM的训练样本；其中D为特征维数，Q为序列数；

步骤c2：对于每一张训练图像，根据该图的分割真值，构建真值向量；

步骤c3：对于整个训练集，重复步骤c1和c2，构建特征序列训练集和分割真值集。

本发明提出的所述基于超像素和LSTM的图像分割方法中，所述步骤d中训练LSTM模型包括如下步骤：

步骤d1：初始化LSTM网络结构；设置LSTM隐藏单元的数量numHiddemUnits ＝ 40，分割类别数量numClass＝4，特征维数D＝1，最大迭代轮数maxEpoch＝40，批大小miniBatchSize ＝512，以及选择使用随机梯度下降作为优化算法，选择交叉熵损失作为损失函数；

步骤d2：将c3中所得的特征序列训练集和分割真值集作为LSTM网络的输入，开始训练LSTM模型。训练过程为迭代过程：每一次迭代通过前向传播计算交叉熵损失，最小化目标函数，并反向传播更新模型参数。

本发明提出的所述基于超像素和LSTM的图像分割方法中，所述步骤e中对待分割测试图像得到分割结果包括如下步骤：

步骤e1：测试阶段，对于一张待分割的测试图像，重复步骤a-c，从而构建该图的特征序列，将其作为步骤d中训练所得的LSTM模型的输入，得到超像素节点的分类结果；

步骤e2：将超像素块分类结果对应到原图中超像素块所在的区域，用分类所得的类别编号作为该区域像素的值，得到分割结果。

本发明主要研究的是图像分割算法。本发明的有益效果在于：本发明是在超像素层面的图像分割算法，引入超像素在一定程度上提高了空间边缘的分割精度，同时也提高了分割速度；同时，利用LSTM网络对于序列特征数据分类的特点，使得输入的特征序列可以充分利用超像素块的邻域信息，提高分割精度。本发明解决了传统基于聚类分割算法(如K-menas,FCM，SOM等)因为多次迭代而导致分割时间过长的问题，同时也解决了基于卷积神经网络的语义分割方法(如FCN，U-Net，SegNet等)因为降采样而导致分割边缘精度不佳的问题。

附图说明

图1是本发明基于超像素和长短时记忆网络的图像分割方法的流程图，包括训练和测试两个阶段；

图2是实施例中原始的脑图像灰度图；

图3是实施例中原始脑图像经过灰度拉伸之后的图像；

图4是实施例预分割图像；其中，(a)是实施例中经过超像素分割后得到的预分割图像； (b)是实施例中对超像素预分割图像去除背景后的预分割图像；

图5是实施例中构建的特征序列的原理图；

图6是LSTM分类网络的结构图；

图7是分割结果图；其中，(a)是待分割图像割图像的真实分割结果；(b)是用本发明得到的分割结果；(c)是用FCN-8s网络得到的分割结果；(d)是用U-Net网络得到的分割结果；(e)是用SegNet网络得到的分割结果。

具体实施方式

结合以下具体实施例和附图，对本发明做进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明中涉及的一些数学符号的解释如下：

训练样本数量N；

训练样本集I_i为训练集中第i个样本的原始灰度图像，H_i和W_i分别为第个训练样本的高和宽；

训练集中第i个样本经灰度拉伸后的图像I_i′；

训练集中第i个样本经SLIC超像素预分割后得到的标签矩阵L_i；

训练集中第i个样本经在去除背景后得超像素分割标签图L′_i，所得超像素数量

训练集中第i个样本的真值标签图9_i

特征序列训练集X_train；

分割真值集合Y_train；

参阅图1，本发明的流程分为训练阶段和测试阶段。在实施例中，本发明以脑图像分割为例，选用BrainWeb脑图像公共数据库中图像构建训练样本集选取训练样本数N＝239，用于训练LSTM模型。在本实施例中，需要将脑图像划分为灰质(Gray Matter,GM)、白质(White Matter,WM)、脑脊液(Cerebro-Spinal Fluid,CSF)和背景(Background,BG)共四类，每类用不同颜色加以标注，用以可视化分割结果。本发明基于超像素和长短期记忆网络的图像分割方法具体步骤如下：

步骤a：对图像训练集进行预处理。对于全部训练图像进行灰度拉伸变换。灰度拉伸的目的是增强图像的对比度，使得每张图像的灰度值分布在0-255之间。即对于每一个灰度值为x的像素，灰度拉伸变换如下：

x′＝a+(x-c)×F(1)

式中，F＝(b-a)/(d-c)为比例系数，a和b分别为拉伸后图像中的最小灰度值和最大灰度值c和d分别为原始图像中的最小值和最大值。记变换之后的图像为 I_i′,i＝1,2,…,N。在本实施例中，图2为一张原始脑图像，图3为经过灰度拉伸变换之后的图像。

步骤b：利用一种超像素分割算法进行预分割，针对脑图像分割，进一步去除作为背景的超像素块，构建超像素图。本发明采用简单线性迭代聚类(Simple lineariterative clustering,SLIC)的超像素分割算法对图像进行预分割。超像素是指图像中具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块，SLIC通过在聚类中心邻域搜索迭代的方法生成超像素，其生成的超像素块能够较好地保持图像中不同物体的边缘信息。记SLIC超像素分割如公式(2)所示：

L_i＝SLIC(I_i,numSuperpixels ,compactness),i＝1,2,…,N (2)

其中，为标签矩阵，标量参数numSuperpixels为所需要的超像素数量，本例中取numSuperpixels＝2500,参数compactness为超像素的形状，其值大小控制了超像素的紧凑型，值越大，超像素的形状越规则，其值越小，超像素形状越不规则，边缘粘附性越强，本例中取compactness＝10。图4(a)显示了SLIC的分割结果。

由于超像素分割结果中存在不少超像素块为背景区域，在本实施例中通过设定阈值T 进一步将背景超像素块去除。由此，可以去除绝大部分背景超像素块，从而节约训练和测试时间。如式(3)所示，定义一个二值矩阵B_i，对L_i去除作为背景的超像素块，得到新的标签矩阵L′_i：

式中，B_i为去除背景后的二值矩阵，背景元素被置0，其余元素被置为1，图4(b)显示了背景去除后SLIC的超像素分割结果。

根据预分割图L′_i和超像素块的数量建立邻接矩阵A，将每一块超像素区域作为图的节点，空间上相邻的超像素块间用边连接，从而构建超像素图G(V,E)，其中L′(h,w)中为0 的像素为背景，将不作为图的一部分。

步骤c：根据超像素图构建适用于LSTM输入的特征序列训练集X_train和真值集Y_train，其定义如式(4)所示。

其中，表示第i个训练样本中第k个超像素节点构成的特征序列，D为特征维数，Q_i,k为序列长度，为其对应的真值。为第i个超像素图中的节点数量。

参阅图5，对于特征序列C_i,k的构建，进一步来说，由式(5)所示：

C_i,k由两部分构成：和表示当前节点的特征向量，表示与该节点相连的邻域节点构成的特征序列。N_i,k为与该节点相邻节点的数量。本发明中，取D＝1，则和的计算由式(6)表示：

式中，特征由该节点区域内像素的平均值计算所得，R_i,k表示第i个训练样本中第k个超像素节点所在的图像区域。由当前节点相邻节点依次排列构成，每一个邻接节点的特征由该节点区域内像素的最大值计算所得，表示第i个训练样本中第k个超像素节点的第m个邻接节点所在的图像区域。

对于真值y_i,k的构建，由式(7)所示：

其中，P_i(h,w)表示对应第i个训练样本I_i的真值标签图，在本实施例中，P_i(h,w)的取值为{1，2，3，4}，分别对应于脑图像中背景、脑脊液、灰质和白质四种类别。mode(·) 表示计算当前节点区域内元素的众数。

步骤d：训练LSTM分类模型。LSTM网络可以处理输入训练样本为序列的数据，并且样本序列的长度式可变的，相比于一般的循环网络模型，LSTM解决了训练过程中梯度消失和梯度爆炸的问题。LSTM通常用来处理时间序列的数据，而在本发明中，将超像素节点和它邻域节点的特征构建成特征序列C_i,k作为LSTM模型的一个输入样本，这样做能够较好地利用超像素点周围邻域的信息，提高LSTM作为分类网络的准确率。参阅图6，先将特征序列作为LSTM的输入，经过LSTM单元(LSTM Cell)输出最后一个序列的结果，然后经过一个全连接层和Softmax层，最后输出长度为4(类别数)的向量。

本发明中使用的基本的LSTM网络结构定义如下：在一个LSTM单元中，LSTM接受当前的特征向量x_i作为输入，并输出隐藏状态和单元状态作为下一阶段的输入,其中d为输出向量维数。LSTM网络包含三个门：输入门(input gate)gⁱ，遗忘门(forget gate)g^f和输出门(output gate)g^o，还有一个控制门g^g， Wⁱ,W^f,W^o,W^g分别为对应的权重矩阵。记H_i由当前阶段输入特征向量x_i和上一阶段输出隐藏状态h_i拼接而成，那么输出的隐藏状态h_i+1和单元状态c_i+1可以通过公式(8)更新：

式中σ表示sigmoid函数，⊙表示对应元素相乘。为了用更简单的形式表示上述公式，记W为四个权重矩阵的组合，用LSTM(·)的形式将公式(8)简写为公式(9)的形式：

(h_i+1,c_i+1)＝LSTM(H_i,c_i,W) (9)

在本实施例中，在初始化LSTM网络结构时，设置LSTM隐藏单元的数量numHiddemUnits＝40，分割类别数量numClass＝4，特征维数d＝1，最大迭代轮数maxEpoch＝40，批大小miniBatchSize ＝512，以及选择使用随机梯度下降(SGD) 作为优化算法，选择交叉熵损失作为损失函数。训练过程为迭代过程：每一次迭代通过前向传播计算交叉熵损失，最小化目标函数，并反向传播更新模型参数，最终得到LSTM 分类模型。

步骤e：对待分割的测试图像，重复步骤a-c，将构建的特征序列输入已训练的LSTM模型，得到超像素块分类结果，将分类结果还原得到分割结果。该步骤进一步包括如下步骤：

(e1)重复步骤a-c，从而该图的构建特征序列，将其作为步骤d中训练所得的LSTM分类模型的输入，得到超像素节点的分类结果；

(e2)将超像素块分类结果对应到原图中超像素块所在的区域，用分类所得的类别编号作为该区域像素的值，得到分割结果。

为了比较本发明与其它神经网络和传统聚类算法在图像分割上的优劣性，经本发明分割后的图像如图7(b)所示，图7(a)为分割真实结果，图7(c)，图7(d)和图7 (e)分别表示用FCN-8s,U-Net和SegNet三种常用的基于卷积神经网络分割模型得到的结果。通过对比发现，本发明有效地保留了物体边缘信息，取得了较好的分割准确率，而通过卷积神经网络如FCN-8s的分割结果在边缘精度上明显不足，此外，像U-Net和 SegNet网络虽然通过改进网络结构，在分割精度上有了很大提升，但由于此类网络是基于像素的语义分割网络，其分割结果存在对于个别像素语义信息分类错误的情况，因其较小的感受野，没有很好地考虑其较大邻域的信息。在与传统聚类算法比较上，本发明方法在时间上有了很大提升，而传统聚类算法如K-means,FCM等方法则要花费更多的时间。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于超像素和长短时记忆网络的图像分割方法，其特征在于，分为训练和测试两个阶段，包括如下步骤：

步骤a：对图像训练集进行预处理；

步骤d：训练LSTM模型；

2.如权利要求1所述的基于超像素和长短时记忆网络的图像分割方法，其特征在于，所述步骤a中预处理为对全部训练图像进行灰度拉伸变换。

3.如权利要求1所述的基于超像素和长短时记忆网络的图像分割方法，其特征在于，所述步骤b中构建超像素图包括如下步骤：

步骤b1：对于所有的预处理后的训练图像，利用超像素分割算法进行预分割，得到超像素块的预分割图像；

4.如权利要求1所述的基于超像素和长短时记忆网络的图像分割方法，其特征在于，所述步骤c中根据超像素图构建适用于LSTM输入的特征序列训练集和真值集包括如下步骤：

5.如权利要求1所述的基于超像素和长短时记忆网络的图像分割方法，其特征在于，所述步骤d中训练LSTM模型包括如下步骤：

步骤d1：初始化LSTM网络结构；设置LSTM隐藏单元的数量numHiddemUnits＝40，分割类别数量numClass＝4，特征维数D＝1，最大迭代轮数maxEpoch＝40，批大小miniBatchSize＝512，以及选择使用随机梯度下降作为优化算法，选择交叉熵损失作为损失函数；

6.如权利要求1所述的基于超像素和长短时记忆网络的图像分割方法，其特征在于，所述步骤e具体包括如下步骤：