CN107330907B

CN107330907B - 一种结合深度学习形状先验的mrf图像分割方法

Info

Publication number: CN107330907B
Application number: CN201710508705.8A
Authority: CN
Inventors: 汪西莉; 王研; 杨建功; 马君亮
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2018-04-13
Anticipated expiration: 2037-06-28
Also published as: CN107330907A

Abstract

本公开揭示了一种结合深度学习形状先验的MRF图像分割方法，所述方法图像分割问题以能量函数的形式表示，当其最小时对应的则是最优分割结果，且易于以新能量项形式添加其他约束信息。但在基于MRF模型的图像分割研究中，由于自然图像存在阴影、杂乱背景等各种干扰因素，不仅增加了分割的难度，而且分割的效果往往也不好。本方法通过深度学习模型组合底层的特征形成高层的数据抽象特征，引入对目标形状的约束信息和先验信息以更好地解决图像分割问题。对于形状表示，本方法采用研究较多的水平集中的方式，将先验形状表示成符号距离函数，然后经过变换将其以形状能量项添加到分割能量函数中。

Description

一种结合深度学习形状先验的MRF图像分割方法

技术领域

本发明属于图像处理技术领域，特别涉及一种结合深度学习形状先验的MRF图像分割方法。

背景技术

图像分割利用图像的某些特性将图像分割成多个特征相似、互不重叠的区域，分割后的区域有各自的类别，并且每个区域内部的属性特征相似，而不同区域间的属性特征有明显的差别。传统方法主要是基于灰度、边缘和纹理等图像底层数据信息，但在实际应用中，由于噪声、目标遮挡、背景混乱等干扰因素的存在，使得图像分割问题面临着很多的困难和挑战。当图像较为平滑或者目标背景易于区分时，使用早期的图像分割方法能够得到较好的分割结果，但是在存在干扰因素的情况下，仅仅依赖图像数据信息，往往很难得到理想的分割结果。在这种情况下，可以通过使用高层的、全局的先验形状等信息来辅助图像分割，降低图像中干扰因素对分割结果的影响，从而提高图像分割的准确性。

对于一些常见的目标，其形状信息可以为图像分割提供很强的约束，能够有效改善分割效果，使得对存在噪声、遮挡、阴影等干扰因素的图像进行分割时更健壮。目前，已经有很多方法来表示二维形状。例如，本方法中涉及到的网格结构的马尔科夫随机场，网格结构的马尔科夫随机场模型可以表示为由一元项和二元项组成的能量函数形式，其中定义的一元能量项表示为像素点分配一个标记的可能性，二元能量项表示相邻像素之间的依赖关系，也即是施加给相邻像素之间局部区域限制强调形状的局部特征(平滑性或连通性)，但网格结构的马尔科夫随机场模型由于无法捕捉到凸性或曲率等更复杂的形状属性，故而表达全局形状时有一定的限制。

发明内容

基于此，本公开揭示了一种结合深度学习形状先验的MRF图像分割方法，所述方法包括下述步骤：

S100、图像粗分割：

输入图像I，基于MRF，计算所述图像I的外观能量项E^A(f|I)，对外观能量项E^A(f|I)进行最小化，得到图像I的粗分割结果f¹；

S200、训练由RBM、DBN、DBM形状模型组成的深度学习模型：

对和图像I属于同一视频序列的多帧图像进行归一化，得到一批形状图像，将这批形状图像作为训练数据输入深度学习模型中，分别训练RBM、DBN、DBM形状模型，得到深度学习模型的参数；

S300、采样得到形状先验：

按照步骤S100中的方法对和图像I属于同一视频序列的多帧图像I_i进行粗分割，得到多帧图像I_i的粗分割结果f_i ¹，将粗分割结果f_i ¹归一化至步骤S200中形状图像的大小，并将归一化后的f_i ¹分别作为步骤S200中已得到参数的深度学习模型的的输入，经过采样得到形状先验S，然后将形状先验S缩放到输入图像I大小；

S400、利用约束项进行图像分割：

基于MRF，计算得到由步骤S300得到形状先验S的能量项E^S(f|I)，与步骤S100中的外观能量项E^A(f|I)结合得到总能量约束项E(f|I)，求解E(f|I)的最小值，进而得到最终的分割结果f。

本公开具有以下有益效果：

1、本公开所述的方法通过深度学习模型提取图像的高层特征进而形成形状先验能量项的形式对图像分割进行约束，使得图像分割正确率大大提高。

2、本公开提出一种融合深度学习形状先验的MRF图像分割方法，该方法使用RBM、DBN、DBM作为形状模型，将从模型中生成的目标先验形状信息引入基于MRF的图像分割框架中，利用图割算法最小化能量函数，进而得到分割结果。深度学习形状先验信息能够对目标的轮廓进行约束，从而得到较为完整的分割结果，并且使得分割效率大幅提高。本发明具有操作简便、精度高、抗噪性强等优点，可用于各种彩色和黑白图像的分割。

附图说明

图1为本公开所述方法的流程图；

图2(a)为本公开RBM模型结构；图2(b)为本公开DBN模型结构；图2(c)为本公开DBM模型结构；

图3(a1)-图3(a10)为输入数据；图3(b1)-图3(b10)为RBM模型的处理结果；图3(c1)-图3(c10)为DBN模型的处理结果；图3(d1)-图3(d10)为DBM模型的处理结果；

图4(a1)-图4(a4)为原始图像；图4(b1)-图4(b4)为MRF方法的分割结果；图4(c1)-图4(c4)为RBM先验形状；图4(d1)-图4(d4)为结合RBM形状先验MRF方法的分割结果；图4(e1)-图4(e4)为DBN先验形状；图4(f1)-图4(f4)为结合DBN形状先验MRF方法的分割结果；图4(g1)-图4(g4)为DBM先验形状；图4(h1)-图4(h4)为结合DBM形状先验MRF方法的分割结果。

具体实施方式

下面结合附图对本发明进一步详细说明：

在一个实施例中，本公开揭示了一种结合深度学习形状先验的MRF图像分割方法，所述方法包括下述步骤：

S100、图像粗分割：

S200、训练由RBM、DBN、DBM形状模型组成的深度学习模型：

S300、采样得到形状先验：

S400、利用约束项进行图像分割：

在本实施例中，提出一种融合深度学习形状先验的MRF图像分割方法，该方法使用如图2(a)、图2(b)、图2(c)所示的RBM、DBN、DBM作为形状模型，将从模型中生成的目标先验形状信息引入基于MRF的图像分割框架中，利用图割算法最小化能量函数，进而得到分割结果。深度学习形状先验信息能够对目标的轮廓进行约束，从而得到较为完整的分割结果，并且使得分割效率大幅提高。本发明具有操作简便、精度高、抗噪性强等优点，可用于各种彩色和黑白图像的分割。

在一个实施例中，所述的外观能量项E^A(f|I)按下式计算：

v_p是像素点p的特征向量，是概率密度函数的参数向量，v_p、v_q是像素p、q的特征向量，dist(p,q)是像素p和q间的欧氏距离，参数σ是对噪声的估计，权值λ用来衡量二阶势函数的相对重要性。

在一个实施例中，所述步骤S100中利用最大流/最小割定理对外观能量项E^A(f|I)进行最小化。

在一个实施例中，步骤S200中深度学习模型的参数包括深度学习模型的权值和偏置。

在一个实施例中，步骤S200中对和图像I属于同一视频序列的多帧图像进行归一化具体为：将和图像I属于同一视频序列的多帧图像归一化为32x32或64x64大小的图像。

在一个实施例中，步骤S400中所述先验能量项E^S(f|I)按下式计算：

其中，表示为：

此时表示形状模板在像素点p处的值。

在一个实施例中，按照下式计算步骤S400中的E(f|I)：

E(f|I)＝E^A(f|I)+E^S(f|I)。

在一个实施例中，所述步骤S400中利用最大流/最小割定理求解E(f|I)的最小值。

在一个实施例中，步骤S300中通过Matlab中的reshape函数或者SIFT方法将形状先验S缩放到待分割图像I大小。

在一个实施例中，基于MRF的图像分割模型是一种基于能量的框架，其能量函数是定义在图像的颜色等信息上的，通过求解分割的最大可能分布，将图像分割问题转化为求解能量函数最小值问题，能量最小时对应的即是最终的分割结果。在确定能量函数之后，可以通过优化方法得到最优解。

给定一幅图像I，将图像分割作为一个标记问题。用P＝{1,2,......m}表示图像中m个像素的集合，L＝{0,1}对应目标和背景的标记集合，其中目标的标记是1，背景的标记是0。对于离散的标记集合I，使其取值为f的概率可以表示为P(f|I)，对于I，任务就是找一个在一定意义上的最优映射Φ:P→L，为I中的每个像素点分配最佳标记，使P(f|I)取得最大值，其中f表示为像素点分配的一组标记，从而将分割转化为一个最优化问题：

上式中的f^*表示的是优化后像素点的标记，根据Hammersley-Chifford定理，可以得到：

其中Z是一个归一化因子，E(f|I)是一个能量函数。从上式中可得：求最大后验概率等同于求解能量函数最小值问题。

深度学习模型。当样本集中形状复杂、变化较大时，先验信息也会比较复杂。对于一幅复杂的自然图像，提供一个有效的形状先验信息辅助分割是非常必要的，目前受限玻尔兹曼机(RestrictedBoltzmann Machine,RBM)、深度信念网络(Deep Belief Network,DBN)、深度玻尔兹曼机(Deep Boltzmann Machine,DBM)模型由于其能够学习到形状变化的能力受到了研究人员的关注。作为形状模型的RBM、DBN、DBM的结构如图1所示。

RBM包含一个可见层、一个隐层两层结构且对称连接，层间全连接、层内无连接。可见层单元向量v是样本数据，隐层单元向量是从v中提取的高层特征。DBN是包含一个可见层和多个隐层的概率图模型，DBN是由两种不同的网络混合而成，最上面两层形成一个无向网，其它较低层形成一个有向的sigmoid信念网络。DBM是一个无向图，所有层与层之间的连接都是无向的。结合自下而上的传递和自上而下的反馈来解决不确定性问题。

给定一组训练形状，在模型训练完成之后，可以通过使用吉布斯采样得到形状样本。将得到的形状以符号距离函数的形式表示，定义形状能量函数，作为目标的形状先验信息。

从模型中采样生成的形状如图3(a1)-图3(d10)所示：其中，图3(a1)-图3(a10)为输入数据；图3(b1)-图3(b10)为RBM模型的处理结果；图3(c1)-图3(c10)为DBN模型的处理结果；图3(d1)-图3(d10)为DBM模型的处理结果。

能量函数定义：为了引入形状先验，将能量函数定义为两部分，即下式中的E^A、E^S，分别表示外观先验(Appearance)和形状先验信息(Shape prior)。本方法的创新点在于：将上节中由深度学习模型生成的形状以能量项E^S的形式与外观先验信息E^A相结合即

E(f|I)＝E^A(f|I)+E^S(f|I)

其中E^A(f|I)以一阶势函数和二阶势函数的组合来建模外观信息：

一阶势函数表示为像素点分配一个标记的可能性，它在衡量给定图像数据时，给像素p分配一个标记f_p时的代价或惩罚。定义为：

vp是像素点p的特征向量，是概率密度函数的参数向量，文中采用高斯混合模型建模二阶势函数用来衡量相邻像素点之间的相似性，给像素p分配一个标记f_p和给其相邻像素分配一个标记fp的代价或惩罚，定义为：

v_p、v_q是像素p、q的特征向量，dist(p,q)是像素p和q间的欧氏距离，参数σ是对噪声的估计，权值λ用来衡量二阶势函数的相对重要性。

由深度学习模型采样生成的形状以符号距离函数的形式表示，通过定义形状能量函数，作为目标的形状先验信息E^S(f|I)，定义为：

其中，表示为：

此时表示形状模板在像素点p处的值。

能量函数最小化。由上述知识可知，基于MRF的图像分割等价于求解能量函数最小值，图割算法是比较常用的求解方法。这里，图像分割能量函数中的二阶势函数V_pq满足V_pq(0,0)+V_pq(1,1)≤V_pq(0,1)+V_pq(1,0)条件，所以使用图割算法可以求出能量函数的全局最优解。

使用图割算法最小化能量函数E(f|I)的步骤是：对图像I先创建图G＝(ν,ε)，像素点和两个特殊节点(源点s和汇点t)构成节点集ν，边集ε包括n-links和t-links两种无向边，每个像素点通过t-links与源点s、汇点t相连，邻域系统中的相邻像素通过n-links连接。一个割将节点集分为集合S、T，当连接S和T的所有边被移除后，s和t之间没有任何通路。图像分割的结果是根据各个像素点在S或T中分配得到，定义目标的标记是1、背景的标记是0，如果i∈S，f_p＝1；如果i∈T，f_p＝0。这样，每个割都会对应一个标记结果f及能量E(f|I)，而且E(f|I)的最小值与图G的最小割是对应的。根据maxflow/mincut定理，能量函数E(f|I)可以通过maxflow/mincut求解。

在一个实施例中，本发明所要解决的技术问题在于克服原始MRF图像分割方法的缺点，提供一种基于深度学习模型生成的高层的、全局的先验形状信息来辅助图像分割方法。

解决上述技术问题所采用的技术方案包括下述步骤：

1.图像粗分割

给一幅任意大小的彩色或者灰度图像I，由下式计算得到外观能量项E^A(f|I)，使用图割算法对其进行最小化，得到粗分割结果f¹；

2.训练深度学习模型

将原图归一化为32*32像素的形状图像，把一批已归一化的形状图像作为训练数据输入深度学习模型，分别训练RBM、DBN、DBM形状模型；

3.采样得到形状先验

将粗分割结果f¹归一化至步骤2中用于训练形状图像的大小，并将其分别作为RBM、DBN、DBM形状模型的输入，经过Gibbs采样得到形状S，后将S通过Matlab中的reshape函数将生成的形状缩放到待分割图像I大小；

4.利用约束项进行图像分割

由下述公式计算得到由步骤3采样生成的形状的形状先验能量项E^S(f|I)，与步骤(1)中的E^A(f|I)结合得到总能量约束项E(f|I)，使用图割算法求解E(f|I)的最小值，进而得到最终的分割结果f。

E(f|I)＝E^A(f|I)+E^S(f|I)

采用Windows 7 32位操作系统，内存为8GB，CPU处理器为IntelCore i5 3.10GHZ，编程环境为MATLAB R2010a，核心C++程序使用Microsoft Visual C++2010编译。模型的可见层以及两个隐层的单元个数分别设置为1024、500、500。迭代次数设置为1500，学习率为0.01，CD的步数设置为1。为简单起见，将公式中的λ的值设置为5，σ的值设置为相邻像素间颜色差异的均值。

结合附图，本实施例的步骤如下：

第一步，在输入的原图如附图图4(a1)-图4(a4)上使用最大流/最小割方法对图像进行粗分割，粗分割结果如图4(b1)-图4(b4)所示，并由此计算得到图像的外观能量项E^A；

第二步，使用归一化后的图像对深度学习模型进行训练，得到模型的各参数。

第三步，通过采样得到深度学习的生成形状，如附图图4(c1)-图4(c4)、图4(e1)-图4(e4)、图4(g1)-图4(g4)分别为RBM、DBN、DBM三种深度学习模型通过采样后生成的形状，并由此计算得到形状的形状能量项E^S；

第四步，将外观能量项和形状能量项相结合，作为最终分割的条件约束，结合RBM、DBN、DBM形状先验MRF方法的分割结果最终分割结果如附图图4(d1)-图4(d4)、图4(f1)-图4(f4)、图4(h1)-图4(h4)所示。

以上所述仅为本公开的优选实施例，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种结合深度学习形状先验的MRF图像分割方法，其特征在于，所述方法包括下述步骤：

S100、图像粗分割：

S200、训练由RBM、DBN、DBM形状模型组成的深度学习模型：

S300、采样得到形状先验：

按照步骤S100中的方法对和图像I属于同一视频序列的多帧图像I_i进行粗分割，得到多帧图像I_i的粗分割结果f_i ¹，将粗分割结果f_i ¹归一化至步骤S200中形状图像的大小，并将归一化后的f_i ¹分别作为步骤S200中已得到参数的深度学习模型的输入，经过采样得到形状先验S，然后将形状先验S缩放到输入图像I大小；

S400、利用约束项进行图像分割：

基于MRF，计算得到由步骤S300得到形状先验S的能量项E^S(f|I)，得：其中，表示形状模板在像素点p处的值，P表示图像中像素的集合，f_p表示给像素p分配的一个标记，与步骤S100中的外观能量项E^A(f|I)结合得到总能量约束项E(f|I)，求解E(f|I)的最小值，进而得到最终的分割结果f。

2.根据权利要求1所述的方法，其特征在于，所述的外观能量项E^A(f|I)按下式计算：

<mrow> <msup> <mi>E</mi> <mi>A</mi> </msup> <mrow> <mo>(</mo> <mi>f</mi> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </munder> <msubsup> <mi>V</mi> <mi>p</mi> <mi>A</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>&Element;</mo> <msub> <mi>N</mi> <mi>p</mi> </msub> </mrow> </munder> <msubsup> <mi>V</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mi>A</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>q</mi> </msub> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>V</mi> <mi>p</mi> <mi>A</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>&theta;</mi> <msub> <mi>f</mi> <mi>p</mi> </msub> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>V</mi> <mrow> <mi>p</mi> <mi>q</mi> </mrow> <mi>A</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>,</mo> <msub> <mi>f</mi> <mi>q</mi> </msub> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&delta;</mi> <mrow> <mo>(</mo> <mrow> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>|</mo> <mi>I</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mi>f</mi> <mi> </mi> <msub> <mi>f</mi> <mi>p</mi> </msub> <mo>&NotEqual;</mo> <msub> <mi>f</mi> <mi>q</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

<mrow> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>|</mo> <mi>I</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&lambda;</mi> <mi>exp</mi> <mo>&lsqb;</mo> <mo>-</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mi>p</mi> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>q</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mrow> <mn>2</mn> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> </mrow> </mfrac> <mo>&rsqb;</mo> <mfrac> <mn>1</mn> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

f_p是给像素p分配的一个标记，f_q是给像素q分配的一个标记，P为图像中全部像素的集合，Np为像素p相邻所有像素的集合，v_p是像素点p的特征向量，是概率密度函数的参数向量，v_p、v_q是像素p、q的特征向量，dist(p，q)是像素p和q间的欧氏距离，参数σ是对噪声的估计，权值λ用来衡量二阶势函数的相对重要性。

3.根据权利要求1所述的方法，其特征在于：所述步骤S100中利用最大流/最小割定理对外观能量项E^A(f|I)进行最小化。

4.根据权利要求1所述的方法，其特征在于，步骤S200中深度学习模型的参数包括深度学习模型的权值和偏置。

5.根据权利要求1所述的方法，其特征在于，步骤S200中对和图像I属于同一视频序列的多帧图像进行归一化具体为：将和图像I属于同一视频序列的多帧图像归一化为32x32或64x64大小的图像。

6.根据权利要求1所述的方法，其特征在于：步骤S300中通过Matlab中的reshape函数或者SIFT方法将形状先验S缩放到待分割图像I大小。

7.根据权利要求1所述的方法，其特征在于，按照下式计算步骤S400中的E(f|I)：

E(f|I)＝E^A(f|I)+E^S(f|I)。

8.根据权利要求7所述的方法，其特征在于：所述步骤S400中利用最大流/最小割定理求解E(f|I)的最小值。