CN105894523A

CN105894523A - 一种基于结构张量与图割模型的图像分割方法

Info

Publication number: CN105894523A
Application number: CN201610281307.2A
Authority: CN
Inventors: 袁家政; 刘宏哲; 张勇
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2016-08-24

Abstract

本发明公开了一种基于结构张量与图割模型的图像分割方法，属于数字图像处理领域。根据黎曼几何的观点，将图像看作三维欧式空间的一个超曲面，进而得到经典的结构张量ST。将得到的ST与图像的颜色信息相结合，得到扩展的结构张量EST。运用PCA对得到的EST进行降维得到紧缩的结构张量CST。运用PM方程的向量化形式对得到的CST进行非线性扩散。计算两个张量空间的KL距离。将得到的距离刻画带入到GrabCut模型中，完成图像的分割。本发明参数少、计算简单、处理速度快、图像分割效果好，适合于要分割的对象与背景有极高相似度的情况。

Description

一种基于结构张量与图割模型的图像分割方法

技术领域

本发明是基于结构张量和图割模型的图像分割方法，属于数字图像处理领域。

背景技术

图像分割是数字图像处理与计算机视觉领域的一项基本研究问题，通过将图像划分为若干互不重叠的子区域或光滑封闭的曲线，且每个子区域或封闭曲线具有特殊的含义，因此，它成为图像分析与视觉计算的研究基础。视觉活动作为人们在社会生产中认识和了解外界事物的一种主要途径，主要从物体的形状、颜色和纹理三方面来视觉感知的。然而，纹理作为广泛存在于自然界物体表面的一种基本属性，反映物体表面粗糙性、方向性和规则性等，是人们描述和识别不同物体的重要特征之一

近年来,随着计算机技术、电子技术的飞速发展,信息技术在人们生产、生活中的渗透，以及机器视觉系统在各个领域，如国防安全、农产品质量检测、交通管理、生成过程的应用,纹理图像分割技术正在成为机器视觉领域研究的热点课题之一。按照所使用的数学手段不同，纹理描述的方法可以分为：基于统计的方法、基于模型的方法、基于结构分析的方法、以及基于频谱的方法。基于统计的方法主要来源于早期的视觉感知实验，通过对相关统计特征，如利用熵、相关性、平稳性、能量、惯性矩等进行分析与计算来区分不同的纹理，它们不仅具有较好的纹理描述能力，而且计算简单，但都具有较高的计算复杂度。基于模型的方法主要是把纹理看作是某种数学描述的形式化模型，利用信号分析和数理统计等理论方法对纹理模型进行分解和分析来提取纹理特征，在常用的基于模型的方法是马尔科夫随机场模型，主要优点是提供了一种一般而自然的用来表达空间上相关随机变量之间的相互作用的模型。

由于大多数应用场合需要联合分布，而由条件分布推导联合分布通常比较困难。结构分析方法认为纹理是由纹理基元的类型和数目以及基元之间的“重复性”的空间组织结构和排列规则来描述，且纹理基元几乎具有规范的关系，假设纹理图像的基元可以分离出来，以基元特征和排列规则进行纹理分割。由于结构方法强调纹理的规律性，较适用于分析人造纹理,而真实世界的大量自然纹理通常是不规则的，且结构的变化是频繁的，因此对该类方法的应用受到很大程度的限制，相应的研究没有其他三个家族的方法那么广泛和深入。基于频谱的方法将图像的空域信息转化成频谱域表示，使得纹理特征在某些尺度和某些方向上具有较大的响应，进而将不同频率与不同尺度的纹理区域分开。Gabor变换与小波变换各自优势相结合的Gabor小波变换，在空间域与频谱域具有最优的联合分辨率，且具有方位选择性与频率选择性。虽然，Gabor小波具有诸多优势，但是，它的主要缺点在于计算量较大，需要通过手动设置中心频率、空间尺度数和方位数等重要参数，过大的参数设置，将导致提取的纹理特征具有较高的信息冗余度、复杂度、且维数较高。在1991年Bigun等人给出了一种方案:被誉为二阶矩矩阵结构张量ST被用来分割纹理，并分析了其基本特性:仅仅产生三个特征通道，且每个通道比Gabor滤波能提供更多非常显著的信息，而且从中提取出图像的边界、拐角、纹理等重要信息。

发明内容

本发明的目的在于针对传统纹理提取方法计算量大，参数设置复杂的问题，找到一种基于结构张量的纹理提取方法，并将其与颜色信息相结合，引入到GrabCut图割模型中，提出一种准确性和鲁棒性都较好的交互式图像分割算法，实现对彩色纹理图像的精确分割。具体包括如下步骤：

步骤一、根据黎曼几何的观点，将图像看作三维欧式空间的一个超曲面，进而得到经典的结构张量(Structural Tensor)ST。

步骤二、将得到的ST与图像的颜色信息相结合，得到扩展的结构张量(ExtendedStructural Tensor)EST。

步骤三、运用PCA对得到的EST进行降维得到紧缩的结构张量(CompactStructural Tensor)CST。

步骤四、运用PM方程的向量化形式对得到的CST进行非线性扩散。

步骤五、计算两个张量空间的KL距离(Kullback-Leibler Divergence)。

步骤六、将得到的距离刻画带入到GrabCut模型中，完成图像的分割。

本发明的有益效果：参数少，计算简单，处理速度快，图像分割效果好，适合于要分割的对象与背景有极高相似度的情况。

附图说明

图1是本发明的流程示意图

图2、迭代收敛示意图

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

S1、根据黎曼几何的观点，将灰度值图像I(x,y)看作三维欧式空间的一个以(x,y)为参数的(超)曲面S：(x,y,I(x,y))，得到一个弧长微元dI表达式为：

d I = (\frac{\partial I}{\partial x} d x + \frac{\partial I}{\partial y} d y)

进而得到：

{| d I |}^{2} = < d I, d I > = < \frac{\partial I}{\partial x} d x + \frac{\partial I}{\partial y} d y >^{2} = E {(d x)}^{2} + 2 F d x d y + G {(d y)}^{2}

其中其中<a,b>表示向量内积，上式也能够表示为如下二次型：

{| d I |}^{2} = {[\begin{matrix} d x \\ d y \end{matrix}]}^{T} A [\begin{matrix} d x \\ d y \end{matrix}] = {[\begin{matrix} d x \\ d y \end{matrix}]}^{T} [\begin{matrix} E & F \\ F & G \end{matrix}] [\begin{matrix} d x \\ d y \end{matrix}]

与上式相同而矩阵即为经典的结构张量，上述描述也可推广到向量值图像，即m维图像I＝(I⁽¹⁾,I⁽²⁾,...,I^(m)),对应的线性结构张量为：

A = [\begin{matrix} Σ_{i = 1}^{m} {(\frac{\partial I^{(i)}}{\partial x})}^{2} & Σ_{i = 1}^{m} (\frac{\partial I^{(i)}}{\partial x}) (\frac{\partial I^{(i)}}{\partial y}) \\ Σ_{i = 1}^{m} (\frac{\partial I^{(i)}}{\partial x}) (\frac{\partial I^{(i)}}{\partial y}) & Σ_{i = 1}^{m} {(\frac{\partial I^{(i)}}{\partial y})}^{2} \end{matrix}]

早在1991年Bigun等人给出了一种迭代方案：被誉为二阶钜矩阵结构张量被用来分割纹理，并分析了其基本特性：仅仅产生三个特征通道，且每个通道比Gabor滤波能提供更多非常显著地信息，而且从中提取出图像的边界、拐角、纹理等重要信息。对于给定的一幅灰度值图像I，其对应的线性结构张量T为:

T = G_{R} ([\begin{matrix} I_{x} \\ I_{y} \end{matrix}] [\begin{matrix} I_{x} & I_{y} \end{matrix}]) = G_{R} ([\begin{matrix} I_{x} I_{x} & I_{x} I_{y} \\ I_{x} I_{y} & I_{y} I_{y} \end{matrix}]) = [\begin{matrix} T_{x x} & T_{x y} \\ T_{x y} & T_{y y} \end{matrix}]

其中G_R为方差为R的高斯核函数。

S2、将颜色信息带入到提取的纹理信息中，得到扩展的结构张量。对于灰度图像I，在像素点P构造EST：

E_{(p)}^{T} = {[\begin{matrix} D_{P}^{T} & I_{P} \end{matrix}]}^{T} = {[\begin{matrix} I_{x} & I_{y} & I \end{matrix}]}^{T}

T_{E} = G_{R} ({EE}^{T}) = G_{R} ([\begin{matrix} I_{x} \\ I_{y} \\ I \end{matrix}] [\begin{matrix} I_{x} & I_{y} & I \end{matrix}]) = G_{R} ([\begin{matrix} I_{x}^{2} & I_{x} I_{y} & I_{x} I \\ I_{y} I_{x} & I_{y}^{2} & I_{y} I \\ I_{x} I & I_{y} I & I^{2} \end{matrix}])

上式中G_R为高斯核函数，I_x，I_y为像素点在x，y方向的偏导，I为像素点的像素值，对于彩色图像，每个像素点包含三个通道，R、G和B分别表示红绿蓝三种颜色通道；

I_p＝[I_R，I_G，I_B]^T

得到：

F_{(P)}^{T} = {[\begin{matrix} D_{(P)}^{T} & I_{(P)} \end{matrix}]}^{T} = {[\begin{matrix} \hat{I_{x}} & \hat{I_{y}} & I_{R} & I_{G} & I_{B} \end{matrix}]}^{T},

其中

\hat{I} = \frac{1}{3} (I_{R} + I_{G} + I_{B}) .

S3、由于F有五个独立分量，所以得到的EST将有15个独立分量，具有很高的维度，而且有冗余度较高，为减少计算量和信息冗余度对EST进行PCA降维得到CST，对于得到的每一个向量F进行PCA降维操作得到F的子空间投影

\hat{F} = A (F - \overset{&OverBar;}{F}) = {[\begin{matrix} \hat{F_{1}} & \hat{F_{2}} \end{matrix}]}^{T}

其中A表示PCA的转换矩阵，表示所有向量F的平均量，和表示F的两个主要成分。则最终得到的CST只具有三个独立分量与原始的ST是一样的。

T_{C} = G_{R} (\hat{F} {\hat{F}}^{T}) = G_{R} ([\begin{matrix} \hat{F_{1}} \hat{F_{1}} & \hat{F_{1}} \hat{F_{2}} \\ \hat{F_{2}} \hat{F_{1}} & \hat{F_{2}} \hat{F_{2}} \end{matrix}])

S4、经典的线性结构张量有一个致命的问题，就是在高斯核函数平滑过程中，会产生边界衰减，将导致不相连接的数据在其邻域内产生不精确的结果。解决此问题关键点是利用非线性扩散代替高斯平滑，具体方案是采用非线性扩散Perona-Malik方程的向量化版本：

\frac{\partial F_{i}}{\partial t} = d i v (g (Σ_{k = 1}^{3} {| &dtri; F_{k} |}^{2}) &dtri; F_{i}), &ForAll; i = 1, 2, 3

其中F₃＝I_xI_y，而g(·)是边缘检测函数，一般表达式有如下两种：

\{\begin{matrix} g_{1} (r) = e^{- {(\frac{K}{r^{2}})}^{\frac{P}{2}}} \\ g_{2} (r) = \frac{1}{1 + {(K \cdot r^{2})}^{\frac{P}{2}}} \end{matrix}

其中K为常数，P∈R且P≥1。这样，非线性结构张量即为：

\hat{J_{p}} = (\begin{matrix} \hat{F_{1}} & \hat{F_{3}} \\ \hat{F_{3}} & \hat{F_{2}} \end{matrix})

其中是以为初始值的非线性眼花结果。将T_C带入到非线性扩散框架中得到非线性紧缩的结构张量

S5、计算结构张量的KL距离，设m，n为图像上的两个像素点的张量KL距离为：

{dis}_{T} (T_{m}, T_{n}) = \sqrt{(\frac{1}{4} (t r (T_{m}^{- 1} T_{n} + T_{n}^{- 1} T_{m}) - 4))}

其中tr(·)表示计算矩阵的迹。将上一步计算得到的非线性紧缩的结构张量带入到上式中得到KL距离。

S6、将上一步计算得到的KL距离带入到Grabut模型中，得到GMMs能量函数。

\begin{matrix} E_{T} (a) \\ = \underset{u &Element; U}{Σ} - \log Σ_{j = 1}^{k_{T}} {\frac{π_{T} (a_{u}, j)}{\sqrt{2 {πσ}_{T}^{2} (a_{u}, j)}} \exp (- \frac{{dis}_{T}^{2} (T_{u}, \overset{&OverBar;}{M_{r}} (a_{u}, j))}{2 σ_{T}^{2} (a_{u}, j)})} \\ + Σ_{(m, n &Element; N)} [a_{m} &NotEqual; a_{n}] {γ_{T} {dis}^{- 1} (m, n) \exp (- β_{T} {dis}_{T}^{2} (T_{m}, T_{n}))} \end{matrix}

β_{T} = {(2 \frac{Σ_{(m, n &Element; N)} {dis}_{T}^{2} (T_{m}, T_{n})}{| N |})}^{- 1}

其中a_u＝1时(a_u，j)表示前景GMM的第j个分量，当a_u＝0时表示背景的第j个分量，U表示人工框选的区域，N表示设定的相邻像素点，τ表示去噪常数，其余的参数遵从原始GrabCut算法的设定。通过GrabCut算法的迭代取得最终的分割效果。

Claims

1.一种基于结构张量与图割模型的图像分割方法，其特征在于：该方法具体包括如下步骤，

步骤一、根据黎曼几何的观点，将图像看作三维欧式空间的一个超曲面，进而得到经典的结构张量ST；

步骤二、将得到的ST与图像的颜色信息相结合，得到扩展的结构张量EST；

步骤三、运用PCA对得到的EST进行降维得到紧缩的结构张量CST；

步骤四、运用PM方程的向量化形式对得到的CST进行非线性扩散；

步骤五、计算两个张量空间的KL距离；

2.根据权利要求1所述的一种基于结构张量与图割模型的图像分割方法，其特征在于：

d I = (\frac{\partial I}{\partial x} d x + \frac{\partial I}{\partial y} d y)

进而得到：

{| d I |}^{2} = < d I, d I > = < \frac{\partial I}{\partial x} d x + \frac{\partial I}{\partial y} d y >^{2} = E {(d x)}^{2} + 2 F d x d y + G {(d y)}^{2}

{| d I |}^{2} = {[\begin{matrix} d x \\ d y \end{matrix}]}^{T} A [\begin{matrix} d x \\ d y \end{matrix}] = {[\begin{matrix} d x \\ d y \end{matrix}]}^{T} [\begin{matrix} E & F \\ F & G \end{matrix}] [\begin{matrix} d x \\ d y \end{matrix}]

A = [\begin{matrix} Σ_{i = 1}^{m} {(\frac{\partial I (i)}{\partial x})}^{2} & Σ_{i = 1}^{m} (\frac{\partial I (i)}{\partial x}) (\frac{\partial I (i)}{\partial y}) \\ Σ_{i = 1}^{m} (\frac{\partial I (i)}{\partial x}) (\frac{\partial I (i)}{\partial y}) & Σ_{i = 1}^{m} {(\frac{\partial I (i)}{\partial y})}^{2} \end{matrix}]

仅仅产生三个特征通道，且每个通道比Gabor滤波能提供更多非常显著地信息，而且从中提取出图像的边界、拐角、纹理等重要信息；对于给定的一幅灰度值图像I，其对应的线性结构张量T为:

T = G_{R} ([\begin{matrix} I_{x} \\ I_{y} \end{matrix}] [\begin{matrix} I_{x} & I_{y} \end{matrix}]) = G_{R} ([\begin{matrix} I_{x} I_{x} & I_{x} I_{y} \\ I_{x} I_{y} & I_{y} I_{y} \end{matrix}]) = [\begin{matrix} T_{x x} & T_{x y} \\ T_{x y} & T_{y y} \end{matrix}]

其中G_R为方差为R的高斯核函数；

S2、将颜色信息带入到提取的纹理信息中，得到扩展的结构张量；对于灰度图像I，在像素点P构造EST：

E_{(p)}^{T} = {[\begin{matrix} D_{P}^{T} & I_{P} \end{matrix}]}^{T} = {[\begin{matrix} I_{x} & I_{y} & I \end{matrix}]}^{T}

T_{E} = G_{R} ({EE}^{T}) = G_{R} ([\begin{matrix} I_{x} \\ I_{y} \\ I \end{matrix}] [\begin{matrix} I_{x} & I_{y} & I \end{matrix}]) = G_{R} ([\begin{matrix} I_{x}^{2} & I_{x} I_{y} & I_{x} I \\ I_{y} I_{x} & I_{y}^{2} & I_{y} I \\ I_{x} I & I_{y} I & I^{2} \end{matrix}])

I_p＝[I_R，I_G，I_B]^T

得到：

F_{(P)}^{T} = {[\begin{matrix} D_{(P)}^{T} & I_{(P)} \end{matrix}]}^{T} = {[\begin{matrix} \hat{I_{x}} & \hat{I_{y}} & I_{R} & I_{G} & I_{B} \end{matrix}]}^{T},

其中

\hat{I} = \frac{1}{3} (I_{R} + I_{G} + I_{B}) .

其中A表示PCA的转换矩阵，表示所有向量F的平均量，和表示F的两个主要成分；则最终得到的CST只具有三个独立分量与原始的ST是一样的；

S4、经典的线性结构张量有一个致命的问题，就是在高斯核函数平滑过程中，会产生边界衰减，将导致不相连接的数据在其邻域内产生不精确的结果；解决此问题关键点是利用非线性扩散代替高斯平滑，具体方案是采用非线性扩散Perona-Malik方程的向量化版本：

\frac{\partial F_{i}}{\partial t} = d i v (g (Σ_{k = 1}^{3} {| &dtri; F_{k} |}^{2}) &dtri; F_{i}), &ForAll; i = 1, 2, 3

\{\begin{matrix} g_{1} (r) = e^{- {(\frac{K}{r^{2}})}^{\frac{P}{2}}} \\ g_{2} (r) = \frac{1}{1 + {(K \cdot r^{2})}^{\frac{P}{2}}} \end{matrix}

其中K为常数，P∈R且P≥1；这样，非线性结构张量即为：

其中是以为初始值的非线性眼花结果；将T_C带入到非线性扩散框架中得到非线性紧缩的结构张量

{dis}_{T} (T_{m}, T_{n}) = \sqrt{(\frac{1}{4} (t r (T_{m}^{- 1} T_{n} + T_{n}^{- 1} T_{m}) - 4))}

其中tr(·)表示计算矩阵的迹；将上一步计算得到的非线性紧缩的结构张量带入到上式中得到KL距离；

S6、将上一步计算得到的KL距离带入到Grabut模型中，得到GMMs能量函数；

\begin{matrix} E_{T} (a) \\ = \underset{u &Element; U}{Σ} - \log Σ_{j = 1}^{K_{T}} {\frac{π_{T} (a_{u}, j)}{\sqrt{2 {πσ}_{T}^{2} (a_{u}, j)}} \exp (- \frac{{dis}_{T}^{2} (T_{u}, \overset{&OverBar;}{M_{r}} (a_{u}, j))}{2 σ_{T}^{2} (a_{u}, j)})} \\ + Σ_{(m, n &Element; N)} [a_{m} &NotEqual; a_{n}] {γ_{T} {dis}^{- 1} (m, n) \exp (- β_{T} {dis}_{T}^{2} (T_{m}, T_{n}))} \\ β_{T} = {(2 \frac{Σ_{(m, n &Element; N)} {dis}_{T}^{2} (T_{m}, T_{n})}{| N |})}^{- 1} \end{matrix}

其中a_u＝1时(a_u，j)表示前景GMM的第j个分量，当a_u＝0时表示背景的第j个分量，U表示人工框选的区域，N表示设定的相邻像素点，τ表示去噪常数，其余的参数遵从原始GrabCut算法的设定；通过GrabCut算法的迭代取得最终的分割效果。