CN102799646B

CN102799646B - 一种面向多视点视频的语义对象分割方法

Info

Publication number: CN102799646B
Application number: CN201210222728.XA
Authority: CN
Inventors: 朱仲杰; 王玉儿
Original assignee: Zhejiang Wanli College
Current assignee: Zhejiang Wanli College
Priority date: 2012-06-27
Filing date: 2012-06-27
Publication date: 2015-09-30
Anticipated expiration: 2032-06-27
Also published as: CN102799646A

Abstract

本发明公开了一种面向多视点视频的语义对象分割方法，特点是包括了视觉特征提取、统计建模、参数估计、标记与区域合并四个步骤；优点是专门针对多视点视频，充分利用了多视点视频中颜色、对比度、空间频率运动等综合视觉特征，采用基于统计建模的方法对多视点视频进行语义对象分割，可以获得比较准确的分割结果，能有效降低过分割或欠分割现象，有效提高分割结果的主观视觉感知匹配性。

Description

一种面向多视点视频的语义对象分割方法

技术领域

本发明涉及一种多视点视频的处理技术，尤其是涉及一种面向多视点视频的语义对象分割方法。

背景技术

多视点视频（MVV）是一种能够提供多个视点视频信息和能够实现立体感知的新型视频。不同于传统的单目视频，多视点视频是使用多个摄像机从不同位置拍摄同一场景，记录同一时刻多个视点的视频信号，可以提供真实三维世界景物的深度信息。在显示时可以根据观看者的位置提供不同视点或者同时提供多个视点的视频信息，并根据需要可以实现立体感知。多视点视频在未来自由视点电视、立体电视、虚拟现实、机器视觉、远程医疗等领域将有着广泛的应用前景，被认为是未来视频技术的一个重要发展方向。语义对象分割是指按照一定的标准将视频内容分割成具有一定意义的语义对象。语义对象分割是对象基视频编码、基于内容的视频检索等多媒体应用领域中的关键技术，也是当前国内外图像视频处理领域的研究前沿。虽然国内外有很多学者从事图像与视频目标分割算法的研究，相关的图像与视频目标分割算法也很多，但目前面向多视点视频的语义对象分割方法还很少，通常是采用现有的图像与视频目标分割方法，如基于Graphcut的方法^[1]、基于JSEG的方法^[2]和基于C-V活动轮廓模型的方法^[3]等（参考文献：[1]Y.Deng,B.S.Manjunath,“Unsupervised segmentation of color-texture regions in images andvideo”,IEEE trans.on PAMI,vol.23,no.8,pp.800-810,May 2001；[2]J.Shi,J.Malik,“Normalized Cuts and image segmentation”,IEEE Trans.on PAMI,vol.22,no.8,pp.888-905,Aug.2000；[3]G.P.Zhu,and Q.S.Zeng,“Image Segmentation based on ActiveContour Model,”Harbin Institute of Technology.October 2007），将这些方法直接应用到多视点视频中，但这些方法分割结果不够准确、分割效果不理想，容易造成过分割或欠分割现象，主观视觉感知匹配性较差。

发明内容

本发明所要解决的技术问题是提供一种可获得更准确的分割结果，能有效降低过分割或欠分割现象，能有效提高分割结果的主观视觉感知匹配性的面向多视点视频的语义对象分割方法。

本发明解决上述技术问题所采用的技术方案为：一种面向多视点视频的语义对象分割方法，包括以下步骤：

(1)、视觉特征提取：对图像中的每个像素分别提取像素灰度值、8-邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量，即映射后的每个像素可以用一个六维的特征矢量来表示，图像中所有像素映射后的矢量全体构成一个六维的特征空间I，表示为I={P_l}，P_l表示第l个像素的六维特征矢量，表示为l=0,1,..,N，其中N表示图像中像素的总个数，x_l,y_l表示第l个像素的位置坐标，g_l表示第l个像素的灰度值，表示第l个像素的8-邻域灰度均值，f_l表示第l个像素空间频率，表示第l个像素的对比度敏感度，的计算方法为

c_{f_{l}} = 2.6 (0.192 + 0.114 f_{l}) e^{[- {(0.114 f_{l})}^{1.1}]};

(2)、统计建模：将特征空间I用有限混合模型表示为Θ={K,ω，θ}表示模型的参数，其中K表示混合成分的数量，ω={ω_i|i＝1,…,K}表示K个混合成分的混合系数，θ={θ_i|i＝1,…,K}表示K个混合成分的模型参数，X表示像素的特征矢量分布的随机矢量，S_i表示第i个混合成分，θ_i表示第i个混合成分的模型参数，ω_i表示第i个混合成分的混合系数，P(X|S_i,θ_i)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数，将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布，则P(X|S_i,θ_i)可以表示为

P (X | S_{i}, θ_{i}) = \frac{1}{{(2 π)}^{d / 2} {\det (Σ_{i})}^{1 / 2}} \exp (- \frac{1}{2} {(X - μ_{i})}^{T} Σ_{i}^{- 1} (X - μ_{i})),

μ_i和∑_i分别表示X的均值和X的方差矩阵，det(∑_i)表示∑_i的行列式，d表示X的维数，此时模型的参数为Θ={K,ω_i,μ_i,∑_i|i=1,…,K}；

(3)、参数估计：采用极大似然估计法估计模型的参数，其中，L(I,Θ)=-∑logP(X |I,Θ)表示目标函数，参数估计的具体步骤如下：

a、提取深度图，对深度图采用分水岭算法进行预分割，统计分割区域数量，作为初始K值；

b、采用EM算法进行模型的参数估计，迭代进行E步和M步，直到满足收敛条件，在E步，计算第l个像素X_l来自第i个混合成分S_i的后验概率：

P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l}) = \frac{ω_{i}^{(k)} P (X_{l} | S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)})}{Σ_{m = 1}^{K} ω_{m}^{(k)} P (X_{l} | S_{m}, μ_{m}^{(k)}, Σ_{m}^{(k)})} (i = 1, . . ., K; l = 1, . . . ., N)

其中，X_l表示第l个像素的特征矢量，k表示迭代次数，分别表示第k次迭代计算得到的μ_i、ω_i和∑_i；

在M步，基于E步得到的后验概率，更新模型的参数：

ω_{i}^{(k + 1)} = \frac{1}{N} Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})

μ_{i}^{(k + 1)} = \frac{Σ_{j = 1}^{N} X_{l} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})}{Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})}

Σ_{i}^{(k + 1)} = \frac{Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l}) (X_{l} - μ_{i}^{(k + 1)}) {(X_{l} - μ_{i}^{(k + 1)})}^{T}}{Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})}

其中，分别表示第k+1次迭代计算得到的μ_i、ω_i和∑_i；

c、当EM算法收敛后，执行合并操作，具体步骤如下:

对任意两个混合成分S_i和S_j，计算二者的相似度M_ij，计算公式为M_ij=τD_kl(I,S_ij)+(1-τ)D_kl(S_i,S_j)，1≤i≤K,1≤j≤K，其中τ表示加权系数，设置为τ=0.5，S_ij表示S_i与S_j的和，表示将混合成分S_i与混合成分S_j所各自对应的图像像素进行合并，合并后的像素全体属于同一个混合成分，记为S_ij，将上述公式中的D_kl(I，S_ij)表示为D_kl(I,S_i)，D_kl(I,S_i)表示第i个混合成分S_i与图像的局部概率密度函数P(X|I,θ_i)之间的Kullback-Leibler距离，用来衡量第i个混合成分S_i与有限混合模型全体数据之间的匹配性，D_kl(S_i,S_j)表示第i个混合成分S_i与第j个混合成分S_j之间的Kullback-Leibler距离，用来衡量两个混合成分S_i与S_j所对应的概率分布之间的的差异，其中D_kl(I,S_i)与D_kl(S_i,S_j)的定义如下：

D_{kl} (I, S_{i}) = &Integral; P (X | S_{i}, θ_{i}) \log \frac{P (X | S_{i}, θ_{i})}{P (X | I, θ_{i})}

D_{kl} (S_{i}, S_{j}) = &Integral; P (X | S_{i}, θ_{i}) \log \frac{P (X | S_{i}, θ_{i})}{P (X | S_{j}, θ_{j})}

其中，P(X|I,θ_i)表示与P(XS_i,θ_i)相对应的图像局部的采样密度，其计算方式如下：

P (X | I, θ_{i}) = \frac{Σ_{l = 1}^{N} δ (X - X_{l}) P (S_{i}, θ_{i} | X_{l})}{Σ_{l = 1}^{N} P (S_{i}, θ_{i} | X_{l})}

其中，δ(X-X_l)表示单位脉冲函数，当X-X_l=0时，δ(X-X_l)=1，否则δ(X-X_l)=0；P(S_i,θ_i|X)表示P(X|S_i,θ_i)的后验概率，其计算方法如下：

P (S_{i}, θ_{i} | X) = \frac{ω_{i} P (X | S_{i}, θ_{i})}{Σ_{i = 1}^{K} ω_{i} P (X | S_{i}, θ_{i})}

而P(S_i,θ_i|X_l)则表示第l个像素属于第i个混合成分S_i的后验概率；

根据M_ij计算阈值T_m，T_m的计算方法如下：将计算出的每一个M_ij分别与T_m进行比较，如果M_ij大于阈值T_m，则将S_i与S_j进行合并，认为S_i与S_j的数据属于同一个混合成分，此时将混合成分的数量K的值减1，当所有的M_ij与T_m进行比较完成后，K值就表示合并后的混合成分的最终数量；

(4)、标记与区域合并：模型的参数估计结束后，计算各个像素属于各混合成分类的后验概率，基于后验概率对图像进行标记，即对第l个像素X_l，如果1≤P≤K，l=0,1，...,N，则将像素X_l标记为第i类，其中p是表示混合成分的数量的一个变量，表示使ω_pP(S_p,θ_p|X_l)取最大值时p的值，基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域，对上述分割结果基于运动信息进行进一步的区域合并，具体步骤如下：首先利用帧差法提取二值运动掩模图像，用O_B(x,y)表示，O_B(x,y)=1表示运动区域，O_B(x,y)=0表示静止区域，设O_s(s=0,1,…,Q)表示基于统计建模的分割结果，Q表示区域数量，令N_s表示区域O_s的大小，定义其运动活动性α_sB如下：(s=0,1,…,Q)，比较每个区域与其临域的运动活动性，选取运动活动性之差最小的两个区域进行合并，然后计算合并后的新的区域的运动活动性，然后再次进行领域搜索与合并，直到最后所有领域的运动活动性之差大于实际给定的阈值α_T，阈值α_T设置为0.5，最后对合并后的对象进行形态后处理运算，即得到最终的语义分割结果。

与现有技术相比，本发明的优点在于专门针对多视点视频，充分利用了多视点视频中颜色、对比度、空间频率运动等综合视觉特征，采用基于统计建模的方法对多视点视频进行语义对象分割，可以获得比较准确的分割结果，能有效降低过分割或欠分割现象，有效提高分割结果的主观视觉感知匹配性。

附图说明

图1为标准测试序列原图像；

图2为基于JSEG方法的分割结果；

图3为基于Graph cut方法的分割结果；

图4为基于C-V活动轮廓模型的分割结果；

图5为本发明的分割结果。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

一种面向多视点视频的语义对象分割方法，包括以下步骤：

c_{f_{l}} = 2.6 (0.192 + 0.114 f_{l}) e^{[- {(0.114 f_{l})}^{1.1}]};

P (X | S_{i}, θ_{i}) = \frac{1}{{(2 π)}^{d / 2} {\det (Σ_{i})}^{1 / 2}} \exp (- \frac{1}{2} {(X - μ_{i})}^{T} Σ_{i}^{- 1} (X - μ_{i})),

P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l}) = \frac{ω_{i}^{(k)} P (X_{l} | S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)})}{Σ_{m = 1}^{K} ω_{m}^{(k)} P (X_{l} | S_{m}, μ_{m}^{(k)}, Σ_{m}^{(k)})} (i = 1, . . ., K; l = 1, . . . ., N)

在M步，基于E步得到的后验概率，更新模型的参数：

ω_{i}^{(k + 1)} = \frac{1}{N} Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})

μ_{i}^{(k + 1)} = \frac{Σ_{j = 1}^{N} X_{l} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})}{Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})}

Σ_{i}^{(k + 1)} = \frac{Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l}) (X_{l} - μ_{i}^{(k + 1)}) {(X_{l} - μ_{i}^{(k + 1)})}^{T}}{Σ_{l = 1}^{N} P (S_{i}, μ_{i}^{(k)}, Σ_{i}^{(k)} | X_{l})}

其中，分别表示第k+1次迭代计算得到的μ_i、ω_i和∑_i；

c、当EM算法收敛后，执行合并操作，具体步骤如下:

对任意两个混合成分S_i和S_j，计算二者的相似度M_ij，计算公式为M_ij=τD_kl(I,S_ij)+(1-τ)D_kl(S_i,S_j)，1≤i≤K,1≤j≤K，其中τ表示加权系数，设置为τ=0.5，S_ij表示S_i与S_j的和，表示将混合成分S_i与混合成分S_j所各自对应的图像像素进行合并，合并后的像素全体属于同一个混合成分，记为S_ij，将上述公式中的D_kl(I,S_ij)表示为D_kl(I,S_i)，D_kl(I,S_i)表示第i个混合成分S_i与图像的局部概率密度函数P(X|I,θ_i)之间的Kullback-Leibler距离，用来衡量第i个混合成分S_i与有限混合模型全体数据之间的匹配性，D_kl(S_i,S_j)表示第i个混合成分S_i与第j个混合成分S_j之间的Kullback-Leibler距离，用来衡量两个混合成分S_i与S_j所对应的概率分布之间的的差异，其中D_kl(I,S_i)与D_kl(S_i,S_j)的定义如下：

D_{kl} (I, S_{i}) = &Integral; P (X | S_{i}, θ_{i}) \log \frac{P (X | S_{i}, θ_{i})}{P (X | I, θ_{i})}

D_{kl} (S_{i}, S_{j}) = &Integral; P (X | S_{i}, θ_{i}) \log \frac{P (X | S_{i}, θ_{i})}{P (X | S_{j}, θ_{j})}

P (X | I, θ_{i}) = \frac{Σ_{l = 1}^{N} δ (X - X_{l}) P (S_{i}, θ_{i} | X_{l})}{Σ_{l = 1}^{N} P (S_{i}, θ_{i} | X_{l})}

P (S_{i}, θ_{i} | X) = \frac{ω_{i} P (X | S_{i}, θ_{i})}{Σ_{i = 1}^{K} ω_{i} P (X | S_{i}, θ_{i})}

(4)、标记与区域合并：模型的参数估计结束后，计算各个像素属于各混合成分类的后验概率，基于后验概率对图像进行标记，即对第l个像素X_l，如果1≤P≤K，l=0,1，...,N，则将像素X_l标记为第i类，其中p是表示混合成分的数量的一个变量，表示使ω_pP(Sp,θ_p|X_l)取最大值时p的值，基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域，对上述分割结果基于运动信息进行进一步的区域合并，具体步骤如下：首先利用帧差法提取二值运动掩模图像，用O_B(x,y)表示，O_B(x,y)=1表示运动区域，O_B(x,y)=0表示静止区域，设O_s(s=0,1,…,Q)表示基于统计建模的分割结果，Q表示区域数量，令N_s表示区域O_s的大小，定义其运动活动性α_sB如下：(s=0,1,…,Q)，比较每个区域与其临域的运动活动性，选取运动活动性之差最小的两个区域进行合并，然后计算合并后的新的区域的运动活动性，然后再次进行领域搜索与合并，直到最后所有领域的运动活动性之差大于实际给定的阈值α_T，阈值α_T设置为0.5，最后对合并后的对象进行形态后处理运算，即得到最终的语义分割结果。

为了验证本发明分割算法的准确性和跟踪算法的有效性，基于VC6.0的软件平台，进行实验仿真，图1为分割前的原图，图5给出了本发明分割方法的分割结果，从图中可以看出本发明的分割算法是有效的。

Claims

1.一种面向多视点视频的语义对象分割方法，其特征在于包括以下步骤：

(1)、视觉特征提取：对图像中的每个像素分别提取像素灰度值、8-邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量，即映射后的每个像素可以用一个六维的特征矢量来表示，图像中所有像素映射后的矢量全体构成一个六维的特征空间I，表示为I={P_l}，P_l表示第l个像素的六维特征矢量，表示为 l=0,1,..,N，其中N表示图像中像素的总个数，x_l,y_l表示第l个像素的位置坐标，g_l表示第l个像素的灰度值，表示第l个像素的8-邻域灰度均值，f_l表示第l个像素空间频率，表示第l个像素的对比度敏感度，的计算方法为

(2)、统计建模：将特征空间I用有限混合模型表示为 Θ={K,ω，θ}表示模型的参数，其中K表示混合成分的数量，ω={ω_i|i＝1,…,K}表示K个混合成分的混合系数，θ={θ_i|i＝1,…,K}表示K个混合成分的模型参数，X表示像素的特征矢量分布的随机矢量，S_i表示第i个混合成分，θ_i表示第i个混合成分的模型参数，ω_i表示第i个混合成分的混合系数，P(X|S_i,θ_i)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数，将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布，则P(X|S_i,θ_i)可以表示为 μ_i和∑_i分别表示X的均值和X的方差矩阵，det(∑_i)表示∑_i的行列式，d表示X的维数，此时模型的参数为Θ={K,ω_i,μ_i,∑_i|i=1,…,K}；

在M步，基于E步得到的后验概率，更新模型的参数：

其中，分别表示第k+1次迭代计算得到的μ_i、ω_i和∑_i；

c、当EM算法收敛后，执行合并操作，具体步骤如下:

对任意两个混合成分S_i和S_j，计算二者的相似度M_ij，计算公式为M_ij=τD_kl(I,S_ij)+(1-τ)D_kl(S_i,S_j)，1≤i≤K,1≤j≤K，其中τ表示加权系数，设置为τ=0.5，S_ij表示S_i与S_j的和，表示将混合成分S_i与混合成分S_j所各自对应的图像像素进行合并，合并后的像素全体属于同一个混合成分，记为S_ij，将上述公式中的D_kl(I,S_ij)表示为D_kl(I,S_i)，D_kl(I,S_i)表示第i个混合成分S_i与图像的局部概率密度函数 P(X|I,θ_i)之间的Kullback-Leibler距离，用来衡量第i个混合成分S_i与有限混合模型全体数据之间的匹配性，D_kl(S_i,S_j)表示第i个混合成分S_i与第j个混合成分S_j之间的Kullback-Leibler距离，用来衡量两个混合成分S_i与S_j所对应的概率分布之间的的差异，其中D_kl(I,S_i)与D_kl(S_i,S_j)的定义如下：

其中，P(X|I,θ_i)表示与P(X|S_i,θ_i)相对应的图像局部的采样密度，其计算方式如下：

(4)、标记与区域合并：模型的参数估计结束后，计算各个像素属于各混合成分类的后验概率，基于后验概率对图像进行标记，即对第l个像素X_l，如果 1≤P≤K，l=0,1，...,N，则将像素X_l标记为第i类，其中p是表示混合成分的数量的一个变量，表示使ω_pP(S_p,θ_p|X_l)取最大值时p的值，基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域，对上述分割结果基于运动信息进行进一步的区域合并，具体步骤如下：首先利用帧差法提取二值运动掩模图像，用O_B(x,y)表示，O_B(x,y)=1表示运动区域，O_B(x,y)=0表示静止区域，设O_s(s=0,1,…,Q)表示基于统计建模的分割结果，Q表示区域数量，令N_s表示区域O_s的大小，定义其运动活动性α_sB如下： (s=0,1,…,Q)，比较每个区域与其临域的运动活动性，选取运动活动性之差最小的两个区域进行合并，然后计算合并后的新的区域的运动活动性，然后再次进行领域搜索与合并，直到最后所有领域的运动活动性之差大于实际给定的阈值α_T，阈值α_T设置为0.5，最后对合并后的对象进行形态后处理运算，即得到最终的语义分割结果。