CN102420985B

CN102420985B - 一种多视点视频对象提取方法

Info

Publication number: CN102420985B
Application number: CN201110386288.7A
Authority: CN
Inventors: 蒋刚毅; 周晓亮; 郁梅; 李福翠; 邵枫; 彭宗举
Original assignee: Ningbo University
Current assignee: Ningbo University
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2014-01-22
Anticipated expiration: 2031-11-29
Also published as: CN102420985A

Abstract

本发明公开了一种多视点视频对象提取方法，其通过纹理边缘检测、最大类间方差法提取多视点视频中的彩色视频帧的纹理信息和亮度信息，并利用多视点视频中的彩色视频帧对应的深度视频帧，采用前背景分割法获取彩色视频帧的前背景信息，然后将纹理信息、亮度信息和前背景信息相融合得到彩色视频帧的精细掩膜，最后通过运动信息和深度信息进一步地修正得到彩色视频帧最终的对象掩膜，由于本发明方法有效利用了多视点视频的纹理、亮度、深度、运动等多种信息，通过发掘它们之间各自的特性，取长补短，将多种信息有机地融合在一起，因此能够快速分割并提取得到符合人眼视觉感知的精准的视频对象，能够较好地满足多视点视频编码对对象提取方法的要求。

Description

一种多视点视频对象提取方法

技术领域

本发明涉及一种视频对象提取技术，尤其是涉及一种多视点视频编码中基于深度信息的对象提取方法。

背景技术

视频对象是通过视频对象的分割提取获得的，它不仅是实现基于内容的视频编码的前提条件，也是实现基于内容的视频检索和交互式多媒体应用所必需的，可以实现对视觉信息的主观描述、合成、交互。因此，视频对象提取技术在视频编码、模式识别、视频检索等领域有着广泛的应用。

传统的视频对象提取主要利用视频的时空、颜色、纹理等信息，而在立体视频和多视点视频中，除上述信息外，深度信息对视频对象的提取也十分有用。在基于深度和颜色的联合分割中，由于深度分割不能够精确地确定所要分割对象的边界轮廓，而颜色分割则可以得到可靠的分割对象的边界轮廓，因此视频对象的分割是通过在一个深度平面上的颜色分割部分的融合来完成的。但是，这种基于深度和颜色的联合分割方法所耗费的时间依赖于视频内容的复杂程度，通常要比基于主动轮廓的分割方法花费更多的时间，并且不精确的深度分割对最终的分割结果有很大的影响。基于主动轮廓的分割方法是一种基于边界的分割方法，这类方法通常是首先选取恰当的初始轮廓，并且使用梯度信息来定位对象边界，属于半自动的分割方法。然而，基于主动轮廓的分割方法对初始轮廓的选择过于敏感，如果一些边界点偏离了视频对象的轮廓，其分割结果就会受到严重影响。结合运动几何空间的对象分割方法是通过引入运动几何空间(MGS)的概念构建的一种快速、新颖的无监督语义立体视频对象分割方法，这种方法的优势在于计算量小、处理速度快，同时又能得到整体上较为理想的分割结果。然而，这种结合运动几何空间的对象分割方法在某些对象轮廓区域的分割结果质量不佳，所以需要用其它方法进行判别选择。

综上所述，现有的视频对象提取方法存在的问题主要有：对象区域的分割不精确，也即没有完全符合人眼视觉特性；分割代价花费过大，也即计算量大、分割时间长。

发明内容

本发明所要解决的技术问题是提供一种面向多视点图像视频压缩与传输的多视点视频对象提取方法，其能够快速分割并提取到精准的视频对象，符合人眼视觉特性。

本发明解决上述技术问题所采用的技术方案为：一种多视点视频对象提取方法，其特征在于包括以下步骤：

①定义多视点视频中当前正在处理的视点为当前视点，定义当前视点的彩色视频序列中t时刻的彩色视频帧为当前彩色视频帧，记为C_t，定义当前视点的深度视频序列中对应的t时刻的深度视频帧为当前深度视频帧，记为D_t；

②采用帧间差分运算计算当前彩色视频帧C_t的帧差图，记为K′_t，

K_{t}^{'} (x, y) = \{\begin{matrix} 1, & if | C_{t} (x, y) - C_{t - 1} (x, y) | &GreaterEqual; {Threshold}_{m} \\ 0, & if | C_{t} (x, y) - C_{t - 1} (x, y) | < {Threshold}_{m} \end{matrix},

然后对当前彩色视频帧C_t的帧差图K′_t进行N×N块化，得到当前彩色视频帧C_t的二值运动区域图，记为K_t，其中，K′_t(x，y)表示当前彩色视频帧C_t的帧差图K′_t中坐标位置为(x，y)的像素点的像素值，C_t(x，y)表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点的像素值，C_t-1(x，y)表示当前视点的彩色视频序列中t-1时刻的彩色视频帧C_t-1中坐标位置为(x，y)的像素点的像素值，“||”为取绝对值符号，Threshold_m为第一判定阈值，1≤x≤W，1≤y≤H，W表示多视点视频的彩色视频序列中的彩色视频帧和深度视频序列中的深度视频帧的宽度，H表示多视点视频的彩色视频序列中的彩色视频帧和深度视频序列中的深度视频帧的高度，N为一常数，1×1＜N×N＜W×H；

③对当前彩色视频帧C_t提取纹理边缘，得到当前彩色视频帧C_t的二值纹理区域图，记为S_t，将当前彩色视频帧C_t的二值纹理区域图S_t中坐标位置为(x，y)的像素点的像素值记为S_t(x，y)，如果S_t(x，y)＝1，则表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点属于纹理区域，如果S_t(x，y)＝0，则表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点属于非纹理区域，其中，1≤x≤W，1≤y≤H；

④采用最大类间方差法分割当前彩色视频帧C_t，得到当前彩色视频帧C_t的二值背景对象区域图，记为O_t，

O_{t} (x, y) = \{\begin{matrix} 1, & if C_{t} (x, y) &GreaterEqual; {Threshold}_{β} \\ 0, & if C_{t} (x, y) < {Threshold}_{β} \end{matrix},

其中，O_t(x，y)表示当前彩色视频帧C_t的二值背景对象区域图O_t中坐标位置为(x，y)的像素点的像素值，1≤x≤W，1≤y≤H，Threshold_β为采用最大类间方差法得到的亮度分割阈值；

⑤对当前深度视频帧D_t进行前背景区域划分，得到当前彩色视频帧C_t的粗略前背景区域图，记为F′_t，

F_{t}^{'} (x, y) = \{\begin{matrix} 1, & if D_{t} (x, y) &GreaterEqual; {Threshold}_{d} \\ 0, & if D_{t} (x, y) < {Threshold}_{d} \end{matrix},

然后对当前彩色视频帧C_t的粗略前背景区域图F′_t进行N×N块化，得到当前彩色视频帧C_t的前背景区域图，记为F_t，其中，F′_t(x，y)表示当前彩色视频帧C_t的粗略前背景区域图F′_t中坐标位置为(x，y)的像素点的像素值，D_t(x，y)表示当前深度视频帧D_t中坐标位置为(x，y)的像素点的像素值，Threshold_d为第二判定阈值，

k₂为对当前深度视频帧D_t的前背景区域进行划分的视觉加权值，0.85≤k₂≤1.5，

1≤x≤W，1≤y≤H，N为一常数，1×1＜N×N＜W×H；

⑥将当前彩色视频帧C_t的二值纹理区域图S_t、当前彩色视频帧C_t的二值背景对象区域图O_t以及当前彩色视频帧C_t的粗略前背景区域图F′_t相融合，得到当前彩色视频帧C_t的粗略掩膜，记为I_t，然后对当前彩色视频帧C_t的粗略掩膜I_t进行N×N块化和形态学的膨胀、腐蚀处理，得到当前彩色视频帧C_t的精细掩膜，记为P_t，其中，N为一常数，1×1＜N×N＜W×H；

⑦对当前彩色视频帧C_t的精细掩膜P_t与当前彩色视频帧C_t的二值运动区域图K_t进行或操作，然后对或操作后得到的图像与当前彩色视频帧C_t的前背景区域图F_t进行与操作，得到当前彩色视频帧C_t粗略的对象掩膜，记为ROI′_t，ROI′_t＝(P_t∪K_t)∩F_t，再去除当前彩色视频帧C_t粗略的对象掩膜ROI′_t中的小块连通区域，得到当前彩色视频帧C_t最终的对象掩膜，记为ROI_t，其中，“∪”表示或操作，“∩”表示与操作。

所述的步骤③中对当前彩色视频帧C_t提取纹理边缘，得到当前彩色视频帧C_t的二值纹理区域图S_t的具体过程为：

③-1、采用Sobel算子计算当前彩色视频帧C_t的梯度图像，记为G_t；

③-2、根据当前彩色视频帧C_t的梯度图像G_t，获取当前彩色视频帧C_t的二值纹理区域图，记为S_t，

S_{t} (x, y) = \{\begin{matrix} 1, & if G_{t} (x, y) &GreaterEqual; {Threshold}_{l} \\ 0, & if G_{t} (x, y) < {Threshold}_{l} \end{matrix},

其中，S_t(x，y)表示当前彩色视频帧C_t的二值纹理区域图S_t中坐标位置为(x，y)的像素点的像素值，如果S_t(x，y)＝1，则表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点属于纹理区域，如果S_t(x，y)＝0，则表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点属于非纹理区域，G_t(x，y)表示当前彩色视频帧C_t的梯度图像G_t中坐标位置为(x，y)的像素点的像素值，1≤x≤W，1≤y≤H，Threshold_l为第三判定阈值，

k₁为加权系数，

为当前彩色视频帧C_t的梯度图像G_t中所有像素点的像素值的最大值。

所述的步骤③-2中的加权系数

其中，

和

分别表示当前彩色视频帧C_t的梯度图像G_t中所有像素点的像素值的最大值和平均值，

T_{α} = \{\begin{matrix} 2.2, & ifΔB < 0.1 % and B_{av} < 0.03 \\ 1, & ifΔB < 0.1 % and B_{av} &GreaterEqual; 0.03 \\ 1.5, & if 0.1 % \leq ΔB < 0.1 % \\ 1.9, & ifΔB &GreaterEqual; 0.1 % \end{matrix},

ΔB＝(B_max-B_min)×100％，

B_{\max} = \max {\frac{G_{k}^{av}}{G_{k}^{\max}} | 1 \leq k \leq K},

B_{\min} = \min {\frac{G_{k}^{av}}{G_{k}^{\max}} | 1 \leq k \leq K},

B_{av} = \frac{B_{\max} + B_{\min}}{2},

K表示当前视点的彩色视频序列中用于计算T_α所采用的彩色视频帧的帧数，

和

分别表示用于计算T_α所采用的K帧彩色视频帧中的第k帧彩色视频帧C_k的梯度图像G_k中所有像素点的像素值的最大值和平均值，1≤K≤K′，K′表示当前视点的彩色视频序列中包含的彩色视频帧的总帧数，max{}为取最大值函数，min{}为取最小值函数。

所述的步骤②、步骤⑤和步骤⑥中N×N块化的具体过程为：令Image表示要进行N×N块化的二值图像，该二值图像的宽度为W，该二值图像的高度为H；然后将Image划分成

个互不重叠的尺寸为N×N的图像块；再对Image中的每个N×N的图像块逐一进行以下处理，完成N×N块化的操作，得到N×N块化后的二值图像：定义Image中当前正在处理的N×N的图像块为当前图像块，如果当前图像块中像素值为1的像素点的个数大于等于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为1；如果当前图像块中像素值为1的像素点的个数小于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为0。

所述的块化阈值Threshold_e的取值范围为：1≤Threshold_e≤N×N。

所述的步骤⑥的具体过程为：

⑥-1、对当前彩色视频帧C_t的二值纹理区域图S_t与当前彩色视频帧C_t的二值背景对象区域图O_t进行或操作，然后对或操作后得到的图像与当前彩色视频帧C_t的粗略前背景区域图F′_t进行与操作，得到当前彩色视频帧C_t的粗略掩膜，记为I_t，I_t＝(S_t∪O_t)∩F_t′，其中，“∪”表示或操作，“∩”表示与操作；

⑥-2、依次对当前彩色视频帧C_t的粗略掩膜I_t进行8×8块化和形态学的膨胀、腐蚀处理；

⑥-3、依次对经过步骤⑥-2处理后得到的图像再进行16×16块化和形态学的膨胀、腐蚀处理，得到当前彩色视频帧C_t的精细掩膜，记为P_t。

与现有技术相比，本发明的优点在于通过纹理边缘检测、最大类间方差法提取多视点视频中的彩色视频帧的纹理信息和亮度信息，并利用多视点视频中的彩色视频帧对应的深度视频帧，采用前背景分割法获取彩色视频帧的前背景信息，然后将纹理信息、亮度信息和前背景信息相融合得到彩色视频帧的精细掩膜，最后通过运动信息和深度信息进一步地修正得到彩色视频帧最终的对象掩膜，由于本发明方法有效利用了多视点视频的纹理、亮度、深度、运动等多种信息，通过发掘它们之间各自的特性，取长补短，将多种信息有机地融合在一起，因此能够快速分割并提取得到符合人眼视觉感知的精准的视频对象，能够较好地满足多视点视频编码对对象提取方法的要求。

附图说明

图1为本发明方法的总体实现框图；

图2a为“Ballet”测试视频序列中的第0视点对应的彩色视频序列的第2帧彩色视频帧；

图2b为“Breakdancers”测试视频序列中的第0视点对应的彩色视频序列的第2帧彩色视频帧；

图2c为“Champagne Tower”测试视频序列中的第0视点对应的彩色视频序列的第2帧彩色视频帧；

图3a为图2a所示的彩色视频帧的二值纹理区域图；

图3b为图2b所示的彩色视频帧的二值纹理区域图；

图3c为图2c所示的彩色视频帧的二值纹理区域图；

图4a为图2a所示的彩色视频帧的二值背景对象区域图；

图4b为图2b所示的彩色视频帧的二值背景对象区域图；

图4c为图2c所示的彩色视频帧的二值背景对象区域图；

图5a为图2a所示的彩色视频帧的前背景区域图；

图5b为图2b所示的彩色视频帧的前背景区域图；

图5c为图2c所示的彩色视频帧的前背景区域图；

图6a为图2a所示的彩色视频帧的粗略掩膜；

图6b为图2b所示的彩色视频帧的粗略掩膜；

图6c为图2c所示的彩色视频帧的粗略掩膜；

图7a为图2a所示的彩色视频帧的精细掩膜；

图7b为图2b所示的彩色视频帧的精细掩膜；

图7c为图2c所示的彩色视频帧的精细掩膜；

图8a为图2a所示的彩色视频帧的最终的对象掩膜；

图8b为图2b所示的彩色视频帧的最终的对象掩膜；

图8c为图2c所示的彩色视频帧的最终的对象掩膜；

图9a为图2a所示的彩色视频帧的对象区域；

图9b为图2b所示的彩色视频帧的对象区域；

图9c为图2c所示的彩色视频帧的对象区域。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种多视点视频对象提取方法，能够快速分割并准确提取到多视点视频的对象区域，图1给出了本发明方法的总体实现框图，其具体包括以下步骤：

①定义多视点视频中当前正在处理的视点为当前视点，定义当前视点的彩色视频序列中t时刻的彩色视频帧为当前彩色视频帧，记为C_t，定义当前视点的深度视频序列中对应的t时刻的深度视频帧为当前深度视频帧，记为D_t。

本实施例中，将分别采用如图2a、图2b和图2c所示的“Ballet”、“Breakdancers”和“Champagne Tower”测试视频序列中的第0视点的彩色视频序列的第2帧彩色视频帧，作为当前正在处理的视点的彩色视频序列中t时刻的彩色视频帧C_t来说明本发明对象提取的过程，其中，“Ballet”和“Breakdancers”测试视频序列中的图像帧的尺寸为1024×768，“Champagne Tower”测试视频序列中的图像帧的尺寸为1280×960。

K_{t}^{'} (x, y) = \{\begin{matrix} 1, & if | C_{t} (x, y) - C_{t - 1} (x, y) | &GreaterEqual; {Threshold}_{m} \\ 0, & if | C_{t} (x, y) - C_{t - 1} (x, y) | < {Threshold}_{m} \end{matrix},

然后对当前彩色视频帧C_t的帧差图K′_t进行N×N块化，得到当前彩色视频帧C_t的二值运动区域图，记为K_t，其中，K′_t(x，y)表示当前彩色视频帧C_t的帧差图K′_t中坐标位置为(x，y)的像素点的像素值，C_t(x，y)表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点的像素值，C_t-1(x，y)表示当前视点的彩色视频序列中t-1时刻的彩色视频帧C_t-1中坐标位置为(x，y)的像素点的像素值，“||”为取绝对值符号，Threshold_m为第一判定阈值，1≤x≤W，1≤y≤H，W表示多视点视频的彩色视频序列中的彩色视频帧和深度视频序列中的深度视频帧的宽度，H表示多视点视频的彩色视频序列中的彩色视频帧和深度视频序列中的深度视频帧的高度，N为一常数，1×1＜N×N＜W×H。在本实施例中，Threshold_m采用了固定阈值，在此取Threshold_m＝12；实际操作时，阈值Threshold_m也可以采用自适应的方式设定，例如令

和σ_K′分别为当前彩色视频帧C_t的帧差图K′_t的均值和标准差，α为加权系数。此外，对于当前视点的彩色视频序列中的第一帧(即t＝1时刻的帧)，因其没有前一时刻的帧，因此可令其二值运动区域图K₁＝K₂。

在本实施例中，对当前彩色视频帧C_t的帧差图K′_t进行N×N块化，得到当前彩色视频帧C_t的二值运动区域图K_t的具体过程为：将当前彩色视频帧C_t的帧差图K′_t划分成

个互不重叠的尺寸为N×N的图像块；再对当前彩色视频帧C_t的帧差图K′_t中的每个N×N的图像块逐一进行以下处理，完成N×N块化的操作，得到N×N块化后的二值图像，即当前彩色视频帧C_t的二值运动区域图K_t：定义当前彩色视频帧C_t的帧差图K′_t中当前正在处理的N×N的图像块为当前图像块，如果当前图像块中像素值为1的像素点的个数大于等于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为1；如果当前图像块中像素值为1的像素点的个数小于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为0。需要说明的是，因为基于块的视频编码和处理中，其块的尺寸通常为2的幂次，因此本发明中N×N块化中的N也采用2的幂次，如2、4、8、16、32、64等；块化阈值Threshold_e的取值范围为1≤Threshold_e≤N×N。在本实施例的本步骤中，取N＝16，Threshold_e＝8。

③对当前彩色视频帧C_t提取纹理边缘，得到当前彩色视频帧C_t的二值纹理区域图，记为S_t，将当前彩色视频帧C_t的二值纹理区域图S_t中坐标位置为(x，y)的像素点的像素值记为S_t(x，y)，如果S_t(x，y)＝1，则表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点属于纹理区域，如果S_t(x，y)＝0，则表示当前彩色视频帧C_t中坐标位置为(x，y)的像素点属于非纹理区域，其中，1≤x≤W，1≤y≤H。

在本实施例中，对当前彩色视频帧C_t提取纹理边缘，得到当前彩色视频帧C_t的二值纹理区域图S_t的具体过程为：

③-1、采用Sobel算子计算当前彩色视频帧C_t的梯度图像，记为G_t。

S_{t} (x, y) = \{\begin{matrix} 1, & if G_{t} (x, y) &GreaterEqual; {Threshold}_{l} \\ 0, & if G_{t} (x, y) < {Threshold}_{l} \end{matrix},

k₁为加权系数，

在本实施例中，步骤③-2中的加权系数其中，

和

T_{α} = \{\begin{matrix} 2.2, & ifΔB < 0.1 % and B_{av} < 0.03 \\ 1, & ifΔB < 0.1 % and B_{av} &GreaterEqual; 0.03 \\ 1.5, & if 0.1 % \leq ΔB < 0.1 % \\ 1.9, & ifΔB &GreaterEqual; 0.1 % \end{matrix},

ΔB＝(B_max-B_min)×100％，

B_{\max} = \max {\frac{G_{k}^{av}}{G_{k}^{\max}} | 1 \leq k \leq K},

B_{\min} = \min {\frac{G_{k}^{av}}{G_{k}^{\max}} | 1 \leq k \leq K},

B_{av} = \frac{B_{\max} + B_{\min}}{2},

和

分别表示用于计算T_α所采用的K帧彩色视频帧中的第k帧彩色视频帧C_k的梯度图像G_k中所有像素点的像素值的最大值和平均值，1≤K≤K′，K′表示当前视点的彩色视频序列中包含的彩色视频帧的总帧数，即所选择的K帧用于计算T_α的彩色视频帧可以是多视点视频中当前视点的彩色视频序列的全部帧，也可以是其部分帧，max{}为取最大值函数，min{}为取最小值函数。在本发明方法中，T_α是一个动态计算得到的动态值，但对于多视点视频的一个视点的彩色视频序列其T_α值是相同的。本实施例中，由步骤③计算得到的图2a、图2b和图2c所示的彩色视频帧的二值纹理区域图分别如图3a、图3b和图3c所示。

O_{t} (x, y) = \{\begin{matrix} 1, & if C_{t} (x, y) &GreaterEqual; {Threshold}_{β} \\ 0, & if C_{t} (x, y) < {Threshold}_{β} \end{matrix},

其中，O_t(x，y)表示当前彩色视频帧C_t的二值背景对象区域图O_t中坐标位置为(x，y)的像素点的像素值，1≤x≤W，1≤y≤H，Threshold_β为采用最大类间方差法得到的亮度分割阈值。

本实施例中，由步骤④计算得到的图2a、图2b和图2c所示的彩色视频帧的二值背景对象区域图分别如图4a、图4b和图4c所示。

F_{t}^{'} (x, y) = \{\begin{matrix} 1, & if D_{t} (x, y) &GreaterEqual; {Threshold}_{d} \\ 0, & if D_{t} (x, y) < {Threshold}_{d} \end{matrix},

1≤x≤W，1≤y≤H，N为一常数，1×1＜N×N＜W×H。

在本实施例中，对当前彩色视频帧C_t的粗略前背景区域图F′_t进行N×N块化，得到当前彩色视频帧C_t的前背景区域图F_t的具体过程为：将当前彩色视频帧C_t的粗略前背景区域图F′_t划分成

个互不重叠的尺寸为N×N的图像块；再对当前彩色视频帧C_t的粗略前背景区域图F′_t中的每个N×N的图像块逐一进行以下处理，完成N×N块化的操作，得到N×N块化后的二值图像，即当前彩色视频帧C_t的前背景区域图F_t：定义当前彩色视频帧C_t的粗略前背景区域图F′_t中当前正在处理的N×N的图像块为当前图像块，如果当前图像块中像素值为1的像素点的个数大于等于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为1；如果当前图像块中像素值为1的像素点的个数小于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为0。在本实施例的本步骤中，取N＝16，Threshold_e＝230。

图5a、图5b和图5c分别给出了根据图2a、图2b和图2c所示的彩色视频帧对应的深度视频帧计算得到的图2a、图2b和图2c所示彩色视频帧的前背景区域图。

⑥将当前彩色视频帧C_t的二值纹理区域图S_t、当前彩色视频帧C_t的二值背景对象区域图O_t以及当前彩色视频帧C_t的粗略前背景区域图F′_t相融合，得到当前彩色视频帧C_t的粗略掩膜，记为I_t，然后对当前彩色视频帧C_t的粗略掩膜I_t进行N×N块化和形态学的膨胀、腐蚀处理，得到当前彩色视频帧C_t的精细掩膜，记为P_t，其中，N为一常数，1×1＜N×N＜W×H。

本实施例中，步骤⑥的具体过程为：

⑥-1、对当前彩色视频帧C_t的二值纹理区域图S_t与当前彩色视频帧C_t的二值背景对象区域图O_t进行或操作，然后对或操作后得到的图像与当前彩色视频帧C_t的粗略前背景区域图F′_t进行与操作，得到当前彩色视频帧C_t的粗略掩膜，记为I_t，即I_t＝(S_t∪O_t)∩F′_t，其中，“∪”表示或操作，“∩”表示与操作。

⑥-2、依次对当前彩色视频帧C_t的粗略掩膜I_t进行8×8块化和形态学的膨胀、腐蚀处理。在此，对当前彩色视频帧C_t的粗略掩膜I_t进行8×8块化的具体过程为：将当前彩色视频帧C_t的粗略掩膜I_t划分成

个互不重叠的尺寸为8×8的图像块；再对当前彩色视频帧C_t的粗略掩膜I_t中的每个8×8的图像块逐一进行以下处理，完成8×8块化的操作，得到8×8块化后的二值图像：定义当前彩色视频帧C_t的粗略掩膜I_t中当前正在处理的8×8的图像块为当前图像块，如果当前图像块中像素值为1的像素点的个数大于等于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为1；如果当前图像块中像素值为1的像素点的个数小于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为0。在此，取Threshold_e＝3。

⑥-3、依次对经过步骤⑥-2处理后得到的图像再进行16×16块化和形态学的膨胀、腐蚀处理，得到当前彩色视频帧C_t的精细掩膜，记为P_t。在此，对经过步骤⑥-2处理后得到的图像再进行16×16块化的具体过程为：将经过步骤⑥-2处理后得到的图像划分成个互不重叠的尺寸为16×16的图像块；再对经过步骤⑥-2处理后得到的图像中的每个16×16的图像块逐一进行以下处理，完成16×16块化的操作，得到16×16块化后的二值图像：定义经过步骤⑥-2处理后得到的图像中当前正在处理的16×16的图像块为当前图像块，如果当前图像块中像素值为1的像素点的个数大于等于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为1；如果当前图像块中像素值为1的像素点的个数小于块化阈值Threshold_e，则将当前图像块中所有像素点的像素值置为0。在此，对于不同内容的彩色视频帧，本发明的本步骤中所采用的Threshold_e在50到63之间。

图6a、图6b和图6c分别给出了图2a、图2b和图2c所示的彩色视频帧的粗略掩膜。图7a、图7b和图7c则分别给出了图2a、图2b和图2c所示的彩色视频帧的精细掩膜。

图8a、图8b和图8c分别给出了图2a、图2b和图2c所示的彩色视频帧的最终的对象掩膜。图9a、图9b和图9c分别给出了按照图8a、图8b和图8c所示的最终的对象掩膜提取出的图2a、图2b和图2c所示的彩色视频帧的对象区域。

Claims

1.一种多视点视频对象提取方法，其特征在于包括以下步骤：

K_{t}^{'} (x, y) = \{\begin{matrix} 1, & if | C_{t} (x, y) - C_{t - 1} (x, y) | &GreaterEqual; {Threshold}_{m} \\ 0, & if | C_{t} (x, y) - C_{t - 1} (x, y) | < {Threshold}_{m} \end{matrix},

然后对当前彩色视频帧C_t的帧差图K′_t进行N×N块化，得到当前彩色视频帧C_t的二值运动区域图，记为K_t，其中，K′_t(x,y)表示当前彩色视频帧C_t的帧差图K′_t中坐标位置为(x,y)的像素点的像素值，C_t(x,y)表示当前彩色视频帧C_t中坐标位置为(x,y)的像素点的像素值，C_t-1(x,y)表示当前视点的彩色视频序列中t-1时刻的彩色视频帧C_t-1中坐标位置为(x,y)的像素点的像素值，“||”为取绝对值符号，Threshold_m为第一判定阈值，1≤x≤W，1≤y≤H，W表示多视点视频的彩色视频序列中的彩色视频帧和深度视频序列中的深度视频帧的宽度，H表示多视点视频的彩色视频序列中的彩色视频帧和深度视频序列中的深度视频帧的高度，N为一常数，1×1<N×N<W×H；

③对当前彩色视频帧C_t提取纹理边缘，得到当前彩色视频帧C_t的二值纹理区域图，记为S_t，将当前彩色视频帧C_t的二值纹理区域图S_t中坐标位置为(x,y)的像素点的像素值记为S_t(x,y)，如果S_t(x,y)=1，则表示当前彩色视频帧C_t中坐标位置为(x,y)的像素点属于纹理区域，如果S_t(x,y)=0，则表示当前彩色视频帧C_t中坐标位置为(x,y)的像素点属于非纹理区域，其中，1≤x≤W，1≤y≤H；

O_{t} (x, y) = \{\begin{matrix} 1, & if C_{t} (x, y) &GreaterEqual; {Threshold}_{β} \\ 0, & if C_{t} (x, y) < {Threshold}_{β} \end{matrix},

其中，O_t(x,y)表示当前彩色视频帧C_t的二值背景对象区域图O_t中坐标位置为(x,y)的像素点的像素值，1≤x≤W，1≤y≤H，Threshold_β为采用最大类间方差法得到的亮度分割阈值；

F_{t}^{'} (x, y) = \{\begin{matrix} 1, & if D_{t} (x, y) &GreaterEqual; {Threshold}_{d} \\ 0, & if D_{t} (x, y) < {Threshold}_{d} \end{matrix},

然后对当前彩色视频帧C_t的粗略前背景区域图F′_t进行N×N块化，得到当前彩色视频帧C_t的前背景区域图，记为F_t，其中，F′_t(x,y)表示当前彩色视频帧C_t的粗略前背景区域图F′_t中坐标位置为(x,y)的像素点的像素值，D_t(x,y)表示当前深度视频帧D_t中坐标位置为(x,y)的像素点的像素值，Threshold_d为第二判定阈值，

，k₂为对当前深度视频帧D_t的前背景区域进行划分的视觉加权值，0.85≤k₂≤1.5，

1≤x≤W，1≤y≤H，N为一常数，1×1<N×N<W×H；

⑥将当前彩色视频帧C_t的二值纹理区域图S_t、当前彩色视频帧C_t的二值背景对象区域图O_t以及当前彩色视频帧C_t的粗略前背景区域图F′_t相融合，得到当前彩色视频帧C_t的粗略掩膜，记为I_t，然后对当前彩色视频帧C_t的粗略掩膜I_t进行N×N块化和形态学的膨胀、腐蚀处理，得到当前彩色视频帧C_t的精细掩膜，记为P_t，其中，N为一常数，1×1<N×N<W×H；

⑦对当前彩色视频帧C_t的精细掩膜P_t与当前彩色视频帧C_t的二值运动区域图K_t进行或操作，然后对或操作后得到的图像与当前彩色视频帧C_t的前背景区域图F_t进行与操作，得到当前彩色视频帧C_t粗略的对象掩膜，记为ROI′_t，ROI′_t=(P_t∪K_t)∩F_t，再去除当前彩色视频帧C_t粗略的对象掩膜ROI′_t中的小块连通区域，得到当前彩色视频帧C_t最终的对象掩膜，记为ROI_t，其中，“∪”表示或操作，“∩”表示与操作。

2.根据权利要求1所述的一种多视点视频对象提取方法，其特征在于所述的步骤③中对当前彩色视频帧C_t提取纹理边缘，得到当前彩色视频帧C_t的二值纹理区域图S_t的具体过程为：

S_{t} (x, y) = \{\begin{matrix} 1, & if G_{t} (x, y) &GreaterEqual; {Threshold}_{l} \\ 0, & if G_{t} (x, y) < {Threshold}_{l} \end{matrix},

其中，S_t(x,y)表示当前彩色视频帧C_t的二值纹理区域图S_t中坐标位置为(x,y)的像素点的像素值，如果S_t(x,y)=1，则表示当前彩色视频帧C_t中坐标位置为(x,y)的像素点属于纹理区域，如果S_t(x,y)=0，则表示当前彩色视频帧C_t中坐标位置为(x,y)的像素点属于非纹理区域，G_t(x,y)表示当前彩色视频帧C_t的梯度图像G_t中坐标位置为(x,y)的像素点的像素值，1≤x≤W，1≤y≤H，Threshold_l为第三判定阈值，

k₁为加权系数，

3.根据权利要求1或2所述的一种多视点视频对象提取方法，其特征在于所述的步骤②、步骤⑤和步骤⑥中N×N块化的具体过程为：令Image表示要进行N×N块化的二值图像，该二值图像的宽度为W，该二值图像的高度为H；然后将Image划分成

4.根据权利要求3所述的一种多视点视频对象提取方法，其特征在于所述的步骤⑥的具体过程为：

⑥-1、对当前彩色视频帧C_t的二值纹理区域图S_t与当前彩色视频帧C_t的二值背景对象区域图O_t进行或操作，然后对或操作后得到的图像与当前彩色视频帧C_t的粗略前背景区域图F′_t进行与操作，得到当前彩色视频帧C_t的粗略掩膜，记为I_t，I_t=(S_t∪O_t)∩F′_t，其中，“∪”表示或操作，“∩”表示与操作；