CN102202224A

CN102202224A - 用于平面视频立体转换的字幕去抖方法及字幕去抖装置

Info

Publication number: CN102202224A
Application number: CN 201110169307
Authority: CN
Inventors: 戴琼海; 徐琨
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-06-22
Filing date: 2011-06-22
Publication date: 2011-09-28
Anticipated expiration: 2031-06-22
Also published as: CN102202224B

Abstract

本发明公开了一种用于平面视频立体转换的字幕去抖方法，包括如下步骤：输入预定数量的原视频序列和原视频序列的深度图序列；计算原视频序列中每帧图像的特征值，并将相邻两帧图像的特征值的差值与特征阈值进行比较以得到初始遮罩图；对初始遮罩图进行图像去噪；计算有效图像区域的直方图，并将有效图像区域的直方图与预设直方图进行匹配；对更新后的去噪后遮罩图进行拓展以得到最终遮罩图；对当前帧的最终遮罩图进行深度赋值；对字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。本发明还公开了一种用于平面视频立体转换的字幕去抖装置。本发明可以有效地改善深度图中字幕的深度信息，减小甚至消除字幕的抖动和扭曲现象。

Description

用于平面视频立体转换的字幕去抖方法及字幕去抖装置

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种用于平面立体视频的字幕去抖方法及字幕去抖装置。

背景技术

立体视频技术是一种能够提供立体感的新型视频技术，已经作为未来多媒体技术的发展方向。随着3D立体显示技术的不断发展，立体电影、电视、移动设备等立体产品迅速普及，用户对立体视频的需求程度越来越高。此时，除了提供新的立体拍摄片源以外，还有大量平面视频资料需要通过立体化的方法才能实现立体观赏。

对于广大的普通用户而言，通过电视观看立体影视是最直接且便捷的手段。但是，电视节目拥有快捷性和复杂性的特点。具体而言，快捷性要求平面视频立体化的方法快速有效，复杂性要求对电视节目中的大量字幕等特效能够有比较好的立体效果。传统支持自动立体化转换的电视可以完成将屏幕视频资料转换为立体视频。在视频中，除了用户观看的主体内容(如画面、声音等)，字幕也是用户观看的一个重要内容。但是视频画面之间深度的不连续性会引起字幕的抖动，画面内部字幕附近区域深度不一致会造成字幕的扭曲。字幕作为视频中的非自然物体，一旦出现抖动和扭曲，很容易引起用户观赏的不适。传统的支持立体化转换的电视还不能解决视频中字幕的抖动和扭曲的问题。

发明内容

本发明的目的旨在至少解决上述技术缺陷之一。

为此，本发明的第一个目的在于提出一种用于平面视频立体转换的字幕去抖方法，该方法可以有效减少甚至去除立体化视频中字幕抖动和扭曲的现象。

本发明的第二个目的在于提出一种用于平面视频立体转换的字幕去抖装置。

为实现上述目的，本发明第一方面的实施例提出了一种用于平面视频立体转换的字幕去抖方法，包括如下步骤：

输入预定数量的原视频序列和所述原视频序列的深度图序列，其中，所述原视频序列和所述深度图序列的分辨率相同；

计算所述原视频序列中每帧图像的特征值，并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值，将所述相邻两帧图像的特征值的差值与特征阈值进行比较，将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图，其中，所述特征阈值与所述特征值对应于所述每帧图像的同一个特征；

对所述初始遮罩图进行图像去噪以去除所述初始遮罩图中的噪声点和孤立像素点，生成去噪后遮罩图，所述去噪后遮罩图包括原视频序列的静态区域和字幕区域；

生成有效图像区域，其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点，计算所述有效图像区域的直方图，并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域，对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图；

对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图，所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘；

对所述当前帧的最终遮罩图进行深度赋值，包括将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图；和

对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。

根据本发明实施例的用于平面视频立体转换的字幕去抖方法，可以有效地改善深度图中字幕的深度信息，减小甚至消除字幕的抖动和扭曲现象，解决立体化视频播放中字幕抖动给用户造成的不适。

本发明第二方面的实施例提出一种用于平面视频立体转换的字幕去抖装置，包括：输入模块，所述输入模块用于输入预定数量的原视频序列和所述原视频序列的深度图序列，其中，所述原视频序列和所述深度图序列的分辨率相同；特征值计算模块，所述特征值计算模块与所述输入模块相连，用于计算所述原视频序列中每帧图像的特征值，并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值，将所述相邻两帧图像的特征值的差值与特征阈值进行比较，将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图，其中，所述特征阈值与所述特征值对应于所述每帧图像的同一个特征；去噪模块，所述去噪模块与所述特征值计算模块相连，用于对所述初始遮罩图进行图像去噪以去除所述遮罩图中的孤立像素点，生成去噪后遮罩图，其中，所述去噪后遮罩图包括原图像序列的静态区域和字幕区域；字幕检测模块，所述字幕检测模块与所述去噪模块相连，用于生成有效图像区域，其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点，计算所述有效图像区域的直方图，并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域，对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图；字幕区域拓展模块，所述字幕区域拓展模块与所述字幕检测模块相连，用于对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图，所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘；深度赋值模块，所述深度赋值模块分别与所述输入模块和所述字幕区域拓展模块相连，用于将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图；平滑模块，所述平滑模块与所述深度赋值模块相连，用于对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。

根据本发明实施例的用于平面视频立体转换的字幕去抖装置，可以有效地改善深度图中字幕的深度信息，减小甚至消除字幕的抖动和扭曲现象，解决立体化视频播放中字幕抖动给用户造成的不适。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的用于平面视频立体转换的字幕去抖方法的流程图；和

图2为根据本发明实施例的用于平面视频立体转换的字幕去抖装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下面参考图1描述根据本发明实施例的用于平面视频立体转换的字幕去抖方法。

如图1所示，根据本发明实施例的用于平面视频立体转换的字幕去抖方法，包括如下步骤：

S101：输入预定数量的原视频序列和原视频序列的深度图序列。

输入预定数量的原视频序列和所述原视频序列的深度图序列，其中，原视频序列可以为解码后的视频序列。对于字幕区域，输入的深度图序列质量没有特别的要求，但是必须保证输入的原视频序列和深度图序列的分辨率相同。在本发明的一个实施例中，预定数量根据原视频序列的运动信息选取。具体而言，当原视频序列的图像运动速度小于预设阈值时，预定数量设置为两帧，即输入两帧的原视频序列和两帧的深度图序列。当原视频序列的图像运动速度大于预设阈值时，预定数量设置为三帧或三帧以上，即输入三帧或三帧以上的原视频序列和相同数量的深度图序列。

为了便于后续对相邻视频帧图像的特征的比较，原视频序列和深度图序列的数量不能小于相邻视频帧序列的总和。例如，在下一步的步骤102中，如果对前后两张视频帧图像的特征值进行比较，则在步骤101中需要输入至少两帧的原视频序列。如果对前后相邻的三帧视频帧图像的特征值进行比较，则在步骤101中需要输入至少大于三帧的原视频序列，其他数量依次类推。

另外，为了便于后续对图像进行时域平滑，原视频序列和深度图序列的数量要大于后续进行时域平滑的帧的数量。例如，如果要对相邻的前后两帧的视频帧图像进行时域平滑，则需要输入至少两帧的原视频序列。如果要对三帧的视频帧图像进行时域平滑，则需要保证输入至少三帧的原视频序列，其他可依次类推。

S102：计算每帧图像的特征值以及相邻两帧图像的特征值的差值，获取初始遮罩图。

视频中的字幕一般都为静止的或者缓慢运动的，并且字幕的大小一般是固定的。通常，具有上述特征的字幕包含在原视频序列的不动区域中。因此，通过检测原视频序列中的不同区域，即可实现对字幕区域的检测。

在本发明的一个实施例中，通过对相邻两帧的图像的特征值进行比较，将其中差异较小的区域或像素进行标记，形成初始遮罩图，从而实现对字幕区域的检测。

首先，选取对字幕比较显著的特征以进行比较，这样可以得到比较好的检测效果。图像中的字幕通常表现为形状不变、高亮度、单色或者直方图单一等特性，因此。本发明的实施例可以选取灰度特征、直方图、颜色特征和运动向量中的任一项作为待比较的特征。其中，灰度特征对于亮度敏感，通过检测灰度特征可以有效的检测到白色字幕。通过检测直方图特征可以检测到字幕变化小或者字幕大小有变化但统计特征没有变化的字。通过检测颜色特征可以检测到不是白色但是颜色基本不变的字。通过检测运动向量特征可以检测到字幕和颜色均不变，但在视频中有轻微运动的字。

然后，根据已选取好的特征，计算原视频序列中每帧图像的基于该特征的特征值，并根据每帧图像的特征值计算相邻两帧图像的特征值的差值。在本发明的一个实施例中，根据选取的特征的不同，原视频序列中每帧图像的特征值可以为每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。

将相邻两帧图像的特征值的差值与基于该特征而预设的特征阈值进行比较，将特征值的差值小于所述特征阈值的像素点进行标记，例如将特征值的差值小于所述特征阈值的像素点标记为白色，将不满足该条件的像素点标记为黑色，从而形成一张初始遮罩图。可以理解的是，特征阈值和特征值必须是对应于每帧图像的同一个特征。

下面以灰度特征为例对步骤S102进行详细说明。

首先，计算图像灰度图，得到每帧图像的灰度值。对前后两帧图像的灰度值进行比较，将灰度值的差值小于预设的灰度特征阈值的像素标记为白色，其他像素为黑色，从而形成一张初始遮罩图。

所述初始遮罩图中像素计算公式如下：

Z_{(x, y)} = \{\begin{matrix} 1 & (Δ_{(x, y)} \leq α) \\ 0 & (Δ_{(x, y)} > α) \end{matrix}

其中，(x，y)为像素在图像中的坐标，Z_(x，y)为像素点(x，y)在初始遮罩图中的像素值，Δ_(x，y)为相邻帧对应像素点的灰度值的差值的绝对值，α为预设的灰度特征阈值。

在本发明的一个实施例中，Δ_(x，y)可以选取为10。

当像素(x，y)的深度差，即该像素对应灰度值的差值的绝对值Δ_(x，y)小于或等于α时，则认为该像素点(x，y)没有变化，当Δ_(x，y)大于α时，则认为该像素点(x，y)有变化。

S103：对初始遮罩图进行图像去噪。

由于噪声点的像素特征比较小，在步骤S102中的得到初始遮罩图中还会存在很多的噪声点和孤立像素点，这些噪声和孤立像素点将对后续的步骤产生干扰，因此需要对初始遮罩图进行图像去噪以去除上述像素噪声和孤立像素点。现有的对图像进行去噪的方法均可实现对本发明实施例的初始遮罩图的图像去噪。

在本发明的一个实施例中，采用形态学方法中的腐蚀算法对初始遮罩图进行图像去噪。利用腐蚀算法对初始遮罩图进行图像去噪不仅能够有效去除遮罩图中的孤立的噪声点，而且运算速度快，执行效率高。如果在初始遮罩图中噪声点较多，可以多次使用腐蚀算法来减少噪声。但是，多次使用腐蚀算法进行图像去噪会影响字幕区域的检测质量，因此图像去噪的次数需要视情况而定。

通过上述步骤的图像去噪，去除了初始遮罩图中的孤立像素点和噪声点，生成去噪后遮罩图。去噪后遮罩图包括有原视频序列的静态区域和字幕区域。

S104：基于直方图的字幕检测。

步骤S103中得到去噪后遮罩图，包括字幕区域和静态区域。在本步骤中，采用快速匹配算法对字幕区域进行检测。由于字幕区域一般都具有比较固定的直方图统计特性，因此可以通过检测直方图特征检测出字幕区域。

首先生成有效图像区域，其中，有效图像区域包括去噪后遮罩图中的特征值的差值小于特征阈值的像素在原视频序列中对应的像素点。具体而言，在去噪后遮罩图中将有效的像素在原视频帧图像中对应的像素点提取出来，即将去噪后遮罩图中标记为白色的像素点提取出来，将该部分像素点和其他像素点共同形成有效图像区域。换言之，将像素Z_(x，y)等于1的像素点提取出来，并将这部分像素Z_(x，y)等于1与其他像素点共同形成有效图像区域。有效图像区域中像素Z_(x，y)等于1的像素点赋值为在原视频序列中的对应点的像素值。由此，在该有效图像区域中，只有初始遮罩图中Z_(x，y)等于1的像素点的位置有像素值，而其他位置的像素点为空，将上述其他像素点所在的位置标记为黑色。

统计上述有效图像区域的直方图。并将有效图像区域的直方图与常用字幕的直方图模板进行比较。其中，常用字幕的直方图模板为预先定义的。上述常用字幕的直方图模板主要定义字幕的形状、颜色等特征，而与字幕大小没有关系。

有效图像区域包括有多个区段，将每个区段的直方图与预设的直方图模板进行区段匹配，找到最佳匹配的区段作为字幕区域。

下面对每个区段的直方图与预设的直方图模板的过程进行描述。

首先，通过下述公式计算每个区段的直方图和预设直方图的均方差。

f (x_{1}, x_{2}) = Σ_{i = x_{1}}^{x_{2}} Σ_{j = x_{1}}^{x_{2}} {(\frac{h (i)}{h (x_{1}, x_{2})} - \frac{H (j)}{H (x_{1}, x_{2})})}^{2},

其中，x₁表示当前区段的起始位置，x₂表示所述当前区段的终止位置，h(i)表示i位置处的像素点的常用的字幕直方图的值，i位于x₁和x₂之间，H(j)表示当前区段中j位置处原图像直方图的值，j位于x₁和x₂之间，h(x₁，x₂)表示常用的字幕直方图取值之和，H(x₁，x₂)表示当前区段的直方图的取值之和。

根据上述公式计算得到的均方差，选取均方差最小的区段作为字幕区域。在匹配过程中，当计算得到多个匹配区段时，则在原视频序列中包含有多个字幕区域。在得到字幕区域后，更新去噪后遮罩图。将字幕区域在原视频序列中对应的像素标记到新的去噪后遮罩图中，生成更新后的去噪后遮罩图，从而，在所述更新后的去噪后遮罩图中仅包括字幕区域。

S105：字幕区域拓展。

步骤104中得到的更新后的去噪后遮罩图所述包含的字幕区域并不完整，缺乏字幕区域的边缘信息。为了使深度图中字幕区域及其周围区域较平滑，需要通过区域扩散的方法对字幕区域进行拓展。

在本发明的一个实施例中，采用形态学中的膨胀算法对所述更新后的去噪后遮罩图进行拓展。本步骤中的膨胀算法是步骤103中的腐蚀算法的相反过程。如果在步骤S103中采用腐蚀算法执行了多次腐蚀以去噪，则在本步骤中执行相同或者更多次数的膨胀算法，从而保证字幕区域及其边缘均能够包含在遮罩图像中。膨胀算法可以对更新后的去噪后遮罩图的边缘进行膨胀以得到更大的遮罩区域，上述拓展后的遮罩区域记为最终遮罩图。最终遮罩图包括字幕区域和字幕区域的边缘。本步骤得到的最终遮罩图标记了最终的字幕区域。最终遮罩图为完整的遮罩图像，最终遮罩图中的标记位即为检测到的字幕区域。

S106：字幕区域深度赋值。

字幕区域的深度是决定最终深度图质量以及渲染质量的关键。对字幕赋值的关键是要保证视频帧内部字幕区域深度的一致性和视频帧之间字幕区域深度的连续性。当满足上述特性是，才能够得到较好的字幕渲染效果而不影响观赏质量。

在本步骤中，利用相邻帧的深度图对字幕区域进行深度赋值。将视频相邻帧的字幕区域深度赋值给当前视频帧字幕区域。通常用之前的相邻帧深度替代在时间上较晚的帧的字幕深度，然后将字幕区域深度合并到原深度图中。具体而言，将当前帧的最终遮罩图中的像素点在当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点，即利用前C个帧图像的深度图中对应当前帧的字幕区域的深度值赋值给当前帧深度图中的字幕区域。其中，C的数量大于等于1。

如果采用前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值，则字幕区域的深度图赋值公式为：

D_{(x, y) &Element; Mask} = Σ_{i = 1}^{C} α_{i} D_{(x, y) &Element; Mask}^{i}

其中，D表示当前帧的最终遮罩图中的像素点的深度值，Mask为所述最终遮罩图中特征值的差值小于所述特征阈值的像素点，C为用于时域平滑的总帧数，α_i是C个帧中对应帧的加权系数，Dⁱ是C个帧中对应帧的对应像素点的深度值。

具体而言，对当前帧的前C个帧图像进行时域平滑，采用当前帧的前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值以获取当前帧的最终遮罩图中的像素点的深度值。

在本发明的一个实施例中，对当前帧的最终遮罩图中的像素点的深度值进行复制也可以采用直接赋值，或者其他方法的组合。

通过上述步骤可以完成对字幕区域深度的最终赋值，从而得到字幕区域的深度图。

S107：深度图平滑处理。

步骤S106得到的字幕区域的深度图在字幕边缘存在明显的不连续现象，即在字幕边缘和当前帧的其他区域会存在一定的不连续性，需要通过平滑算法来消除边缘的不连续问题，从而使字幕边缘的过渡柔和。

在本步骤中，对字幕区域的深度图进行平滑处理包括对字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。

在本发明的一个实施例中，对字幕区域的深度图进行帧内的图像平滑处理可以采用高斯滤波方法或中值滤波方法。其中，采用对称或者非对称高斯滤波可以有效的减少字幕边缘的锯齿，增加平滑度。

在本发明的一个实施例中，对字幕区域的深度图进行帧间的时域平滑处理可以采用滑动平均方法或时域加权方法。其中，帧间平滑使用的帧数需要由视频中场景的运动情况决定。

当采用前后帧进行滑动平均以对字幕区域的深度图进行时域平滑处理，通过下述公式计算当前帧的深度图。

Z_i＝α·Z_i-1+(1-α)·Z_i (0≤α≤1)

其中，Z_i为当前帧对应像素点的深度值，Z_i-1为前一帧图像中相同位置像素点的深度值，α为滑动平均的系数。

通过滑动平均对字幕区域的深度图进行时域平滑处理，可以增加深度图的时域连续性，减少抖动。

通过上述对字幕区域的深度图的平滑处理可以得到字幕去抖动之后的最终的深度图。然后采用立体渲染的方法得到虚拟的多视角视图，即立体图像。对上述立体图像进行视频编码，得到可供观赏的立体视频。

根据本发明实施例的用于平面视频立体转换的字幕去抖方法，可以有效地改善深度图中字幕的深度信息，减小甚至消除字幕的抖动和扭曲现象，产生更好的字幕区域的深度图便于后续的渲染和立体显示，解决立体化视频播放中字幕抖动给用户造成的不适。

本发明实施例提供的用于平面视频立体转换的字幕去抖方法不限于平面视频立体化领域，还可以用于图像、视频处理的其他需要进行字幕检测的场合。在视频立体化的领域内，本发明实施例提供的用于平面视频立体转换的字幕去抖方法可以用于半自动和全自动的处理，并且能够和全自动算法更好的结合。

下面参考图2描述根据本发明实施例的用于平面视频立体转换的字幕去抖装置200。

如图2所示，本发明实施例提供的用于平面视频立体转换的字幕去抖装置200包括输入模块210、特征值计算模块220、去噪模块230、字幕检测模块240、字幕区域拓展模块250、深度赋值模块260和平滑模块270。其中，输入模块210和特征值计算模块220相连，去噪模块230和特征值计算模块220相连，字幕检测模块240和去噪模块230相连，字幕区域拓展模块250和字幕检测模块240相连，深度赋值模块260分别与输入模块210和字幕区域拓展模块250相连，平滑模块270和深度赋值模块260相连。

输入模块210输入预定数量的原视频序列和所述原视频序列的深度图序列，其中，原视频序列可以为解码后的视频序列。对于字幕区域，输入模块210输入的深度图序列质量没有特别的要求，但是必须保证输入的原视频序列和深度图序列的分辨率相同。在本发明的一个实施例中，预定数量根据原视频序列的运动信息选取。具体而言，当原视频序列的图像运动速度小于预设阈值时，预定数量设置为两帧，即输入模块210输入两帧的原视频序列和两帧的深度图序列。当原视频序列的图像运动速度大于预设阈值时，预定数量设置为三帧或三帧以上，即输入模块210输入三帧或三帧以上的原视频序列和相同数量的深度图序列。

为了便于后续对相邻视频帧图像的特征的比较，原视频序列和深度图序列的数量不能小于相邻视频帧序列的总和。例如，如果后续的特征值计算模块220对前后两张视频帧图像的特征值进行比较，则输入模块210需要输入至少两帧的原视频序列。如果特征值计算模块220对前后相邻的三帧视频帧图像的特征值进行比较，则输入模块210需要输入至少大于三帧的原视频序列，其他数量依次类推。

另外，为了便于后续对图像进行时域平滑，原视频序列和深度图序列的数量要大于后续进行时域平滑的帧的数量。例如，如果平滑模块270要对相邻的前后两帧的视频帧图像进行时域平滑，则输入模块210需要输入至少两帧的原视频序列。如果平滑模块270要对三帧的视频帧图像进行时域平滑，则输入模块210需要保证输入至少三帧的原视频序列，其他可依次类推。

在本发明的一个实施例中，特征值计算模块220通过对相邻两帧的图像的特征值进行比较，将其中差异较小的区域或像素进行标记，形成初始遮罩图，从而实现对字幕区域的检测。

首先，特征值计算模块220选取对字幕比较显著的特征以进行比较，这样可以得到比较好的检测效果。图像中的字幕通常表现为形状不变、高亮度、单色或者直方图单一等特性，因此。本发明的实施例可以选取灰度特征、直方图、颜色特征和运动向量中的任一项作为待比较的特征。其中，灰度特征对于亮度敏感，通过检测灰度特征可以有效的检测到白色字幕。通过检测直方图特征可以检测到字幕变化小或者字幕大小有变化但统计特征没有变化的字。通过检测颜色特征可以检测到不是白色但是颜色基本不变的字。通过检测运动向量特征可以检测到字幕和颜色均不变，但在视频中有轻微运动的字。

然后，特征值计算模块220根据已选取好的特征，计算原视频序列中每帧图像的基于该特征的特征值，并根据每帧图像的特征值计算相邻两帧图像的特征值的差值。在本发明的一个实施例中，根据选取的特征的不同，特征值计算模块220计算原视频序列中每帧图像的特征值可以为每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。

特征值计算模块220将相邻两帧图像的特征值的差值与基于该特征而预设的特征阈值进行比较，将特征值的差值小于所述特征阈值的像素点进行标记，例如将特征值的差值小于所述特征阈值的像素点标记为白色，将不满足该条件的像素点标记为黑色，从而形成一张初始遮罩图。可以理解的是，特征阈值和特征值必须是对应于每帧图像的同一个特征。

下面以特征值计算模块220计算灰度特征为例对特征值比较进行详细说明。

首先，特征值计算模块220计算图像灰度图，得到每帧图像的灰度值。特征值计算模块220对前后两帧图像的灰度值进行比较，将灰度值的差值小于预设的灰度特征阈值的像素标记为白色，其他像素为黑色，从而形成一张初始遮罩图。

所述初始遮罩图中像素计算公式如下：

Z_{(x, y)} = \{\begin{matrix} 1 & (Δ_{(x, y)} \leq α) \\ 0 & (Δ_{(x, y)} > α) \end{matrix}

在本发明的一个实施例中，Δ_(x，y)可以选取为10。

由于噪声点的像素特征比较小，上述得到初始遮罩图中还会存在很多的噪声点和孤立像素点，这些噪声和孤立像素点将对后续的步骤产生干扰，因此去噪模块230需要对初始遮罩图进行图像去噪以去除上述像素噪声和孤立像素点。现有的对图像进行去噪的方法均可实现对本发明实施例的初始遮罩图的图像去噪。

在本发明的一个实施例中，去噪模块230采用形态学方法中的腐蚀算法对初始遮罩图进行图像去噪。利用腐蚀算法对初始遮罩图进行图像去噪不仅能够有效去除遮罩图中的孤立的噪声点，而且运算速度快，执行效率高。如果在初始遮罩图中噪声点较多，去噪模块230可以多次使用腐蚀算法来减少噪声。但是，多次使用腐蚀算法进行图像去噪会影响字幕区域的检测质量，因此图像去噪的次数需要视情况而定。

通过去噪模块230对图像去噪，去除了初始遮罩图中的孤立像素点和噪声点，生成去噪后遮罩图。去噪后遮罩图包括有原视频序列的静态区域和字幕区域。

由去噪模块230去噪后遮罩图，包括字幕区域和静态区域。字幕检测模块240采用快速匹配算法对字幕区域进行检测。由于字幕区域一般都具有比较固定的直方图统计特性，因此可以通过检测直方图特征检测出字幕区域。

首先，字幕检测模块240生成有效图像区域，其中，有效图像区域包括去噪后遮罩图中的特征值的差值小于特征阈值的像素在原视频序列中对应的像素点。具体而言，字幕检测模块240在去噪后遮罩图中将有效的像素在原视频帧图像中对应的像素点提取出来，即将去噪后遮罩图中标记为白色的像素点提取出来，将该部分像素点和其他像素点共同形成有效图像区域。换言之，将像素Z_(x，y)等于1的像素点提取出来，并将这部分像素Z_(x，y)等于1与其他像素点共同形成有效图像区域。有效图像区域中像素Z_(x，y)等于1的像素点赋值为在原视频序列中的对应点的像素值。由此，在该有效图像区域中，只有初始遮罩图中Z_(x，y)等于1的像素点的位置有像素值，而其他位置的像素点为空，将上述其他像素点所在的位置标记为黑色。

有效图像区域包括有多个区段，字幕检测模块240将每个区段的直方图与预设的直方图模板进行区段匹配，找到最佳匹配的区段作为字幕区域。

下面对字幕检测模块240进行区段匹配的过程进行描述。

首先，字幕检测模块240通过下述公式计算每个区段的直方图和预设直方图的均方差。

f (x_{1}, x_{2}) = Σ_{i = x_{1}}^{x_{2}} Σ_{j = x_{1}}^{x_{2}} {(\frac{h (i)}{h (x_{1}, x_{2})} - \frac{H (j)}{H (x_{1}, x_{2})})}^{2},

根据上述公式计算得到的均方差，字幕检测模块240选取均方差最小的区段作为字幕区域。在匹配过程中，当计算得到多个匹配区段时，则在原视频序列中包含有多个字幕区域。在得到字幕区域后，字幕检测模块240更新去噪后遮罩图。字幕检测模块240将字幕区域在原视频序列中对应的像素标记到新的去噪后遮罩图中，生成更新后的去噪后遮罩图，从而，在所述更新后的去噪后遮罩图中仅包括字幕区域。

上述得到的更新后的去噪后遮罩图所述包含的字幕区域并不完整，缺乏字幕区域的边缘信息。为了使深度图中字幕区域及其周围区域较平滑，需要由字幕区域拓展模块250通过区域扩散的方法对字幕区域进行拓展。

在本发明的一个实施例中，字幕区域拓展模块250采用形态学中的膨胀算法对所述更新后的去噪后遮罩图进行拓展。本步骤中的膨胀算法是去噪模块230采用的腐蚀算法的相反过程。如果去噪模块230采用腐蚀算法执行了多次腐蚀以去噪，则字幕区域拓展模块250执行相同或者更多次数的膨胀算法，从而保证字幕区域及其边缘均能够包含在遮罩图像中。膨胀算法可以对更新后的去噪后遮罩图的边缘进行膨胀以得到更大的遮罩区域，上述拓展后的遮罩区域记为最终遮罩图。最终遮罩图包括字幕区域和字幕区域的边缘。字幕区域拓展模块250生成的最终遮罩图标记了最终的字幕区域。最终遮罩图为完整的遮罩图像，最终遮罩图中的标记位即为检测到的字幕区域。

深度赋值模块260利用相邻帧的深度图对字幕区域进行深度赋值。将视频相邻帧的字幕区域深度赋值给当前视频帧字幕区域。深度赋值模块260通常用之前的相邻帧深度替代在时间上较晚的帧的字幕深度，然后将字幕区域深度合并到原深度图中。具体而言，深度赋值模块260将当前帧的最终遮罩图中的像素点在当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点，即利用前C个帧图像的深度图中对应当前帧的字幕区域的深度值赋值给当前帧深度图中的字幕区域。其中，C的数量大于等于1。

D_{(x, y) &Element; Mask} = Σ_{i = 1}^{C} α_{i} D_{(x, y) &Element; Mask}^{i}

具体而言，深度赋值模块260对当前帧的前C个帧图像进行时域平滑，采用当前帧的前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值以获取当前帧的最终遮罩图中的像素点的深度值。

在本发明的一个实施例中，深度赋值模块260对字幕区域的深度赋值也可以采用直接赋值，或者其他方法的组合。

深度赋值模块260通过上述步骤可以完成对字幕区域深度的最终赋值，从而得到字幕区域的深度图。

深度赋值模块260赋值后得到的字幕区域的深度图在字幕边缘存在明显的不连续现象，即在字幕边缘和当前帧的其他区域会存在一定的不连续性，需要由平滑模块270通过平滑算法来消除边缘的不连续问题，从而使字幕边缘的过渡柔和。

在本步骤中，平滑模块270对字幕区域的深度图进行平滑处理包括对字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。

在本发明的一个实施例中，平滑模块270对字幕区域的深度图进行帧内的图像平滑处理可以采用高斯滤波方法或中值滤波方法。其中，采用对称或者非对称高斯滤波可以有效的减少字幕边缘的锯齿，增加平滑度。

在本发明的一个实施例中，平滑模块270对字幕区域的深度图进行帧间的时域平滑处理可以采用滑动平均方法或时域加权方法。其中，帧间平滑使用的帧数需要由视频中场景的运动情况决定。

当平滑模块270采用前后帧进行滑动平均以对字幕区域的深度图进行时域平滑处理，通过下述公式计算当前帧的深度图。

Z_i＝α·Z_i-1+(1-α)·Z_i (0≤α≤1)

平滑模块270通过滑动平均对字幕区域的深度图进行时域平滑处理，可以增加深度图的时域连续性，减少抖动。

根据本发明实施例的用于平面视频立体转换的字幕去抖装置，可以有效地改善深度图中字幕的深度信息，减小甚至消除字幕的抖动和扭曲现象，产生更好的字幕区域的深度图便于后续的渲染和立体显示，解决立体化视频播放中字幕抖动给用户造成的不适。

本发明实施例提供的用于平面视频立体转换的字幕去抖装置不限于平面视频立体化领域，还可以用于图像、视频处理的其他需要进行字幕检测的场合。在视频立体化的领域内，本发明实施例提供的用于平面视频立体转换的字幕去抖装置可以用于半自动和全自动的处理，并且能够和全自动算法更好的结合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种用于平面视频立体转换的字幕去抖方法，其特征在于，包括如下步骤：

2.如权利要求1所述的字幕去抖方法，其特征在于，所述预定数量为两帧、三帧或三帧以上。

3.如权利要求1所述的字幕去抖方法，其特征在于，所述原视频序列中每帧图像的特征值为所述每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。

4.如权利要求1所述的字幕去抖方法，其特征在于，采用腐蚀算法对所述初始遮罩图进行图像去噪。

5.如权利要求1所述的字幕去抖方法，其特征在于，所述有效图像区域包括多个区段，将每个区段的直方图与预设直方图进行匹配，包括如下步骤：

采用下述公式计算所述每个区段的直方图和所述预设直方图的均方差，

f (x_{1}, x_{2}) = Σ_{i = x_{1}}^{x_{2}} Σ_{j = x_{1}}^{x_{2}} {(\frac{h (i)}{h (x_{1}, x_{2})} - \frac{H (j)}{H (x_{1}, x_{2})})}^{2},

其中，x₁表示当前区段的起始位置，x₂表示所述当前区段的终止位置，h(i)表示i位置处的像素点的常用的字幕直方图的值，i位于x₁和x₂之间，H(j)表示所述当前区段中j位置处原图像直方图的值，j位于x₁和x₂之间，h(x₁，x₂)表示常用的字幕直方图取值之和，H(x₁，x₂)表示所述当前区段的直方图的取值之和；

选取所述均方差最小的区段作为所述字幕区域。

6.如权利要求1所述的字幕去抖方法，其特征在于，采用膨胀算法对所述更新后的去噪后的遮罩图进行拓展。

7.如权利要求1所述的字幕去抖方法，其特征在于，通过下述公式将所述当前帧的最终遮罩图中的像素点在所述当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点，

D_{(x, y) &Element; Mask} = Σ_{i = 1}^{C} α_{i} D_{(x, y) &Element; Mask}^{i},

8.如权利要求1所述的字幕去抖方法，其特征在于，所述对所述字幕区域的深度图进行帧内的图像平滑处理采用高斯滤波方法或中值滤波方法。

9.如权利要求1所述的字幕去抖方法，其特征在于，所述对所述字幕区域的深度图进行帧间的时域平滑处理采用滑动平均方法或时域加权方法。

10.一种用于平面视频立体转换的字幕去抖装置，其特征在于，包括：

输入模块，所述输入模块用于输入预定数量的原视频序列和所述原视频序列的深度图序列，其中，所述原视频序列和所述深度图序列的分辨率相同；

特征值计算模块，所述特征值计算模块与所述输入模块相连，用于计算所述原视频序列中每帧图像的特征值，并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值，将所述相邻两帧图像的特征值的差值与特征阈值进行比较，将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图，其中，所述特征阈值与所述特征值对应于所述每帧图像的同一个特征；

去噪模块，所述去噪模块与所述特征值计算模块相连，用于对所述初始遮罩图进行图像去噪以去除所述遮罩图中的孤立像素点，生成去噪后遮罩图，其中，所述去噪后遮罩图包括原图像序列的静态区域和字幕区域；

字幕检测模块，所述字幕检测模块与所述去噪模块相连，用于生成有效图像区域，其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点，计算所述有效图像区域的直方图，并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域，对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图；

字幕区域拓展模块，所述字幕区域拓展模块与所述字幕检测模块相连，用于对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图，所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘；

深度赋值模块，所述深度赋值模块分别与所述输入模块和所述字幕区域拓展模块相连，用于将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图；和

平滑模块，所述平滑模块与所述深度赋值模块相连，用于对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。

11.如权利要求10所述的字幕去抖装置，其特征在于，所述预定数量为两帧、三帧或三帧以上。

12.如权利要求10所述的字幕去抖装置，其特征在于，所述特征值计算模块计算所述原视频序列中每帧图像的特征值为所述每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。

13.如权利要求10所述的字幕去抖装置，其特征在于，所述去噪模块采用腐蚀算法对所述初始遮罩图进行图像去噪。

14.如权利要求10所述的字幕去抖装置，其特征在于，所述有效图像区域包括多个区段，所述字幕检测模块采用下述公式计算所述每个区段的直方图和所述预设直方图的均方差，

f (x_{1}, x_{2}) = Σ_{i = x_{1}}^{x_{2}} Σ_{j = x_{1}}^{x_{2}} {(\frac{h (i)}{h (x_{1}, x_{2})} - \frac{H (j)}{H (x_{1}, x_{2})})}^{2},

所述字幕检测模块根据计算得到所述每个区段的直方图和所述预设直方图的均方差。选取所述均方差最小的区段作为所述字幕区域。

15.如权利要求10所述的字幕去抖装置，其特征在于，所述字幕区域拓展模块采用膨胀算法对所述更新后的去噪后的遮罩图进行拓展。

16.如权利要求10所述的字幕去抖装置，其特征在于，所述深度赋值模块通过下述公式将所述当前帧的最终遮罩图中的像素点在所述当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点，

D_{(x, y) &Element; Mask} = Σ_{i = 1}^{C} α_{i} D_{(x, y) &Element; Mask}^{i},

17.如权利要求10所述的字幕去抖装置，其特征在于，所述平滑模块采用高斯滤波方法或中值滤波方法对所述字幕区域的深度图进行帧内的图像平滑处理。

18.如权利要求10所述的字幕去抖装置，其特征在于，所述平滑模块采用滑动平均方法或时域加权方法对所述字幕区域的深度图进行帧间的时域平滑处理。