CN102202224A - 用于平面视频立体转换的字幕去抖方法及字幕去抖装置 - Google Patents

用于平面视频立体转换的字幕去抖方法及字幕去抖装置 Download PDF

Info

Publication number
CN102202224A
CN102202224A CN 201110169307 CN201110169307A CN102202224A CN 102202224 A CN102202224 A CN 102202224A CN 201110169307 CN201110169307 CN 201110169307 CN 201110169307 A CN201110169307 A CN 201110169307A CN 102202224 A CN102202224 A CN 102202224A
Authority
CN
China
Prior art keywords
shade
captions
pixel
value
caption area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 201110169307
Other languages
English (en)
Other versions
CN102202224B (zh
Inventor
戴琼海
徐琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN 201110169307 priority Critical patent/CN102202224B/zh
Publication of CN102202224A publication Critical patent/CN102202224A/zh
Application granted granted Critical
Publication of CN102202224B publication Critical patent/CN102202224B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Picture Signal Circuits (AREA)

Abstract

本发明公开了一种用于平面视频立体转换的字幕去抖方法,包括如下步骤:输入预定数量的原视频序列和原视频序列的深度图序列;计算原视频序列中每帧图像的特征值,并将相邻两帧图像的特征值的差值与特征阈值进行比较以得到初始遮罩图;对初始遮罩图进行图像去噪;计算有效图像区域的直方图,并将有效图像区域的直方图与预设直方图进行匹配;对更新后的去噪后遮罩图进行拓展以得到最终遮罩图;对当前帧的最终遮罩图进行深度赋值;对字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。本发明还公开了一种用于平面视频立体转换的字幕去抖装置。本发明可以有效地改善深度图中字幕的深度信息,减小甚至消除字幕的抖动和扭曲现象。

Description

用于平面视频立体转换的字幕去抖方法及字幕去抖装置
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种用于平面立体视频的字幕去抖方法及字幕去抖装置。
背景技术
立体视频技术是一种能够提供立体感的新型视频技术,已经作为未来多媒体技术的发展方向。随着3D立体显示技术的不断发展,立体电影、电视、移动设备等立体产品迅速普及,用户对立体视频的需求程度越来越高。此时,除了提供新的立体拍摄片源以外,还有大量平面视频资料需要通过立体化的方法才能实现立体观赏。
对于广大的普通用户而言,通过电视观看立体影视是最直接且便捷的手段。但是,电视节目拥有快捷性和复杂性的特点。具体而言,快捷性要求平面视频立体化的方法快速有效,复杂性要求对电视节目中的大量字幕等特效能够有比较好的立体效果。传统支持自动立体化转换的电视可以完成将屏幕视频资料转换为立体视频。在视频中,除了用户观看的主体内容(如画面、声音等),字幕也是用户观看的一个重要内容。但是视频画面之间深度的不连续性会引起字幕的抖动,画面内部字幕附近区域深度不一致会造成字幕的扭曲。字幕作为视频中的非自然物体,一旦出现抖动和扭曲,很容易引起用户观赏的不适。传统的支持立体化转换的电视还不能解决视频中字幕的抖动和扭曲的问题。
发明内容
本发明的目的旨在至少解决上述技术缺陷之一。
为此,本发明的第一个目的在于提出一种用于平面视频立体转换的字幕去抖方法,该方法可以有效减少甚至去除立体化视频中字幕抖动和扭曲的现象。
本发明的第二个目的在于提出一种用于平面视频立体转换的字幕去抖装置。
为实现上述目的,本发明第一方面的实施例提出了一种用于平面视频立体转换的字幕去抖方法,包括如下步骤:
输入预定数量的原视频序列和所述原视频序列的深度图序列,其中,所述原视频序列和所述深度图序列的分辨率相同;
计算所述原视频序列中每帧图像的特征值,并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值,将所述相邻两帧图像的特征值的差值与特征阈值进行比较,将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图,其中,所述特征阈值与所述特征值对应于所述每帧图像的同一个特征;
对所述初始遮罩图进行图像去噪以去除所述初始遮罩图中的噪声点和孤立像素点,生成去噪后遮罩图,所述去噪后遮罩图包括原视频序列的静态区域和字幕区域;
生成有效图像区域,其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点,计算所述有效图像区域的直方图,并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域,对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图;
对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图,所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘;
对所述当前帧的最终遮罩图进行深度赋值,包括将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图;和
对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。
根据本发明实施例的用于平面视频立体转换的字幕去抖方法,可以有效地改善深度图中字幕的深度信息,减小甚至消除字幕的抖动和扭曲现象,解决立体化视频播放中字幕抖动给用户造成的不适。
本发明第二方面的实施例提出一种用于平面视频立体转换的字幕去抖装置,包括:输入模块,所述输入模块用于输入预定数量的原视频序列和所述原视频序列的深度图序列,其中,所述原视频序列和所述深度图序列的分辨率相同;特征值计算模块,所述特征值计算模块与所述输入模块相连,用于计算所述原视频序列中每帧图像的特征值,并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值,将所述相邻两帧图像的特征值的差值与特征阈值进行比较,将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图,其中,所述特征阈值与所述特征值对应于所述每帧图像的同一个特征;去噪模块,所述去噪模块与所述特征值计算模块相连,用于对所述初始遮罩图进行图像去噪以去除所述遮罩图中的孤立像素点,生成去噪后遮罩图,其中,所述去噪后遮罩图包括原图像序列的静态区域和字幕区域;字幕检测模块,所述字幕检测模块与所述去噪模块相连,用于生成有效图像区域,其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点,计算所述有效图像区域的直方图,并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域,对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图;字幕区域拓展模块,所述字幕区域拓展模块与所述字幕检测模块相连,用于对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图,所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘;深度赋值模块,所述深度赋值模块分别与所述输入模块和所述字幕区域拓展模块相连,用于将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图;平滑模块,所述平滑模块与所述深度赋值模块相连,用于对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。
根据本发明实施例的用于平面视频立体转换的字幕去抖装置,可以有效地改善深度图中字幕的深度信息,减小甚至消除字幕的抖动和扭曲现象,解决立体化视频播放中字幕抖动给用户造成的不适。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的用于平面视频立体转换的字幕去抖方法的流程图;和
图2为根据本发明实施例的用于平面视频立体转换的字幕去抖装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
下面参考图1描述根据本发明实施例的用于平面视频立体转换的字幕去抖方法。
如图1所示,根据本发明实施例的用于平面视频立体转换的字幕去抖方法,包括如下步骤:
S101:输入预定数量的原视频序列和原视频序列的深度图序列。
输入预定数量的原视频序列和所述原视频序列的深度图序列,其中,原视频序列可以为解码后的视频序列。对于字幕区域,输入的深度图序列质量没有特别的要求,但是必须保证输入的原视频序列和深度图序列的分辨率相同。在本发明的一个实施例中,预定数量根据原视频序列的运动信息选取。具体而言,当原视频序列的图像运动速度小于预设阈值时,预定数量设置为两帧,即输入两帧的原视频序列和两帧的深度图序列。当原视频序列的图像运动速度大于预设阈值时,预定数量设置为三帧或三帧以上,即输入三帧或三帧以上的原视频序列和相同数量的深度图序列。
为了便于后续对相邻视频帧图像的特征的比较,原视频序列和深度图序列的数量不能小于相邻视频帧序列的总和。例如,在下一步的步骤102中,如果对前后两张视频帧图像的特征值进行比较,则在步骤101中需要输入至少两帧的原视频序列。如果对前后相邻的三帧视频帧图像的特征值进行比较,则在步骤101中需要输入至少大于三帧的原视频序列,其他数量依次类推。
另外,为了便于后续对图像进行时域平滑,原视频序列和深度图序列的数量要大于后续进行时域平滑的帧的数量。例如,如果要对相邻的前后两帧的视频帧图像进行时域平滑,则需要输入至少两帧的原视频序列。如果要对三帧的视频帧图像进行时域平滑,则需要保证输入至少三帧的原视频序列,其他可依次类推。
S102:计算每帧图像的特征值以及相邻两帧图像的特征值的差值,获取初始遮罩图。
视频中的字幕一般都为静止的或者缓慢运动的,并且字幕的大小一般是固定的。通常,具有上述特征的字幕包含在原视频序列的不动区域中。因此,通过检测原视频序列中的不同区域,即可实现对字幕区域的检测。
在本发明的一个实施例中,通过对相邻两帧的图像的特征值进行比较,将其中差异较小的区域或像素进行标记,形成初始遮罩图,从而实现对字幕区域的检测。
首先,选取对字幕比较显著的特征以进行比较,这样可以得到比较好的检测效果。图像中的字幕通常表现为形状不变、高亮度、单色或者直方图单一等特性,因此。本发明的实施例可以选取灰度特征、直方图、颜色特征和运动向量中的任一项作为待比较的特征。其中,灰度特征对于亮度敏感,通过检测灰度特征可以有效的检测到白色字幕。通过检测直方图特征可以检测到字幕变化小或者字幕大小有变化但统计特征没有变化的字。通过检测颜色特征可以检测到不是白色但是颜色基本不变的字。通过检测运动向量特征可以检测到字幕和颜色均不变,但在视频中有轻微运动的字。
然后,根据已选取好的特征,计算原视频序列中每帧图像的基于该特征的特征值,并根据每帧图像的特征值计算相邻两帧图像的特征值的差值。在本发明的一个实施例中,根据选取的特征的不同,原视频序列中每帧图像的特征值可以为每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。
将相邻两帧图像的特征值的差值与基于该特征而预设的特征阈值进行比较,将特征值的差值小于所述特征阈值的像素点进行标记,例如将特征值的差值小于所述特征阈值的像素点标记为白色,将不满足该条件的像素点标记为黑色,从而形成一张初始遮罩图。可以理解的是,特征阈值和特征值必须是对应于每帧图像的同一个特征。
下面以灰度特征为例对步骤S102进行详细说明。
首先,计算图像灰度图,得到每帧图像的灰度值。对前后两帧图像的灰度值进行比较,将灰度值的差值小于预设的灰度特征阈值的像素标记为白色,其他像素为黑色,从而形成一张初始遮罩图。
所述初始遮罩图中像素计算公式如下:
Z ( x , y ) = 1 ( Δ ( x , y ) ≤ α ) 0 ( Δ ( x , y ) > α )
其中,(x,y)为像素在图像中的坐标,Z(x,y)为像素点(x,y)在初始遮罩图中的像素值,Δ(x,y)为相邻帧对应像素点的灰度值的差值的绝对值,α为预设的灰度特征阈值。
在本发明的一个实施例中,Δ(x,y)可以选取为10。
当像素(x,y)的深度差,即该像素对应灰度值的差值的绝对值Δ(x,y)小于或等于α时,则认为该像素点(x,y)没有变化,当Δ(x,y)大于α时,则认为该像素点(x,y)有变化。
S103:对初始遮罩图进行图像去噪。
由于噪声点的像素特征比较小,在步骤S102中的得到初始遮罩图中还会存在很多的噪声点和孤立像素点,这些噪声和孤立像素点将对后续的步骤产生干扰,因此需要对初始遮罩图进行图像去噪以去除上述像素噪声和孤立像素点。现有的对图像进行去噪的方法均可实现对本发明实施例的初始遮罩图的图像去噪。
在本发明的一个实施例中,采用形态学方法中的腐蚀算法对初始遮罩图进行图像去噪。利用腐蚀算法对初始遮罩图进行图像去噪不仅能够有效去除遮罩图中的孤立的噪声点,而且运算速度快,执行效率高。如果在初始遮罩图中噪声点较多,可以多次使用腐蚀算法来减少噪声。但是,多次使用腐蚀算法进行图像去噪会影响字幕区域的检测质量,因此图像去噪的次数需要视情况而定。
通过上述步骤的图像去噪,去除了初始遮罩图中的孤立像素点和噪声点,生成去噪后遮罩图。去噪后遮罩图包括有原视频序列的静态区域和字幕区域。
S104:基于直方图的字幕检测。
步骤S103中得到去噪后遮罩图,包括字幕区域和静态区域。在本步骤中,采用快速匹配算法对字幕区域进行检测。由于字幕区域一般都具有比较固定的直方图统计特性,因此可以通过检测直方图特征检测出字幕区域。
首先生成有效图像区域,其中,有效图像区域包括去噪后遮罩图中的特征值的差值小于特征阈值的像素在原视频序列中对应的像素点。具体而言,在去噪后遮罩图中将有效的像素在原视频帧图像中对应的像素点提取出来,即将去噪后遮罩图中标记为白色的像素点提取出来,将该部分像素点和其他像素点共同形成有效图像区域。换言之,将像素Z(x,y)等于1的像素点提取出来,并将这部分像素Z(x,y)等于1与其他像素点共同形成有效图像区域。有效图像区域中像素Z(x,y)等于1的像素点赋值为在原视频序列中的对应点的像素值。由此,在该有效图像区域中,只有初始遮罩图中Z(x,y)等于1的像素点的位置有像素值,而其他位置的像素点为空,将上述其他像素点所在的位置标记为黑色。
统计上述有效图像区域的直方图。并将有效图像区域的直方图与常用字幕的直方图模板进行比较。其中,常用字幕的直方图模板为预先定义的。上述常用字幕的直方图模板主要定义字幕的形状、颜色等特征,而与字幕大小没有关系。
有效图像区域包括有多个区段,将每个区段的直方图与预设的直方图模板进行区段匹配,找到最佳匹配的区段作为字幕区域。
下面对每个区段的直方图与预设的直方图模板的过程进行描述。
首先,通过下述公式计算每个区段的直方图和预设直方图的均方差。
f ( x 1 , x 2 ) = Σ i = x 1 x 2 Σ j = x 1 x 2 ( h ( i ) h ( x 1 , x 2 ) - H ( j ) H ( x 1 , x 2 ) ) 2 ,
其中,x1表示当前区段的起始位置,x2表示所述当前区段的终止位置,h(i)表示i位置处的像素点的常用的字幕直方图的值,i位于x1和x2之间,H(j)表示当前区段中j位置处原图像直方图的值,j位于x1和x2之间,h(x1,x2)表示常用的字幕直方图取值之和,H(x1,x2)表示当前区段的直方图的取值之和。
根据上述公式计算得到的均方差,选取均方差最小的区段作为字幕区域。在匹配过程中,当计算得到多个匹配区段时,则在原视频序列中包含有多个字幕区域。在得到字幕区域后,更新去噪后遮罩图。将字幕区域在原视频序列中对应的像素标记到新的去噪后遮罩图中,生成更新后的去噪后遮罩图,从而,在所述更新后的去噪后遮罩图中仅包括字幕区域。
S105:字幕区域拓展。
步骤104中得到的更新后的去噪后遮罩图所述包含的字幕区域并不完整,缺乏字幕区域的边缘信息。为了使深度图中字幕区域及其周围区域较平滑,需要通过区域扩散的方法对字幕区域进行拓展。
在本发明的一个实施例中,采用形态学中的膨胀算法对所述更新后的去噪后遮罩图进行拓展。本步骤中的膨胀算法是步骤103中的腐蚀算法的相反过程。如果在步骤S103中采用腐蚀算法执行了多次腐蚀以去噪,则在本步骤中执行相同或者更多次数的膨胀算法,从而保证字幕区域及其边缘均能够包含在遮罩图像中。膨胀算法可以对更新后的去噪后遮罩图的边缘进行膨胀以得到更大的遮罩区域,上述拓展后的遮罩区域记为最终遮罩图。最终遮罩图包括字幕区域和字幕区域的边缘。本步骤得到的最终遮罩图标记了最终的字幕区域。最终遮罩图为完整的遮罩图像,最终遮罩图中的标记位即为检测到的字幕区域。
S106:字幕区域深度赋值。
字幕区域的深度是决定最终深度图质量以及渲染质量的关键。对字幕赋值的关键是要保证视频帧内部字幕区域深度的一致性和视频帧之间字幕区域深度的连续性。当满足上述特性是,才能够得到较好的字幕渲染效果而不影响观赏质量。
在本步骤中,利用相邻帧的深度图对字幕区域进行深度赋值。将视频相邻帧的字幕区域深度赋值给当前视频帧字幕区域。通常用之前的相邻帧深度替代在时间上较晚的帧的字幕深度,然后将字幕区域深度合并到原深度图中。具体而言,将当前帧的最终遮罩图中的像素点在当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点,即利用前C个帧图像的深度图中对应当前帧的字幕区域的深度值赋值给当前帧深度图中的字幕区域。其中,C的数量大于等于1。
如果采用前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值,则字幕区域的深度图赋值公式为:
D ( x , y ) ∈ Mask = Σ i = 1 C α i D ( x , y ) ∈ Mask i
其中,D表示当前帧的最终遮罩图中的像素点的深度值,Mask为所述最终遮罩图中特征值的差值小于所述特征阈值的像素点,C为用于时域平滑的总帧数,αi是C个帧中对应帧的加权系数,Di是C个帧中对应帧的对应像素点的深度值。
具体而言,对当前帧的前C个帧图像进行时域平滑,采用当前帧的前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值以获取当前帧的最终遮罩图中的像素点的深度值。
在本发明的一个实施例中,对当前帧的最终遮罩图中的像素点的深度值进行复制也可以采用直接赋值,或者其他方法的组合。
通过上述步骤可以完成对字幕区域深度的最终赋值,从而得到字幕区域的深度图。
S107:深度图平滑处理。
步骤S106得到的字幕区域的深度图在字幕边缘存在明显的不连续现象,即在字幕边缘和当前帧的其他区域会存在一定的不连续性,需要通过平滑算法来消除边缘的不连续问题,从而使字幕边缘的过渡柔和。
在本步骤中,对字幕区域的深度图进行平滑处理包括对字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。
在本发明的一个实施例中,对字幕区域的深度图进行帧内的图像平滑处理可以采用高斯滤波方法或中值滤波方法。其中,采用对称或者非对称高斯滤波可以有效的减少字幕边缘的锯齿,增加平滑度。
在本发明的一个实施例中,对字幕区域的深度图进行帧间的时域平滑处理可以采用滑动平均方法或时域加权方法。其中,帧间平滑使用的帧数需要由视频中场景的运动情况决定。
当采用前后帧进行滑动平均以对字幕区域的深度图进行时域平滑处理,通过下述公式计算当前帧的深度图。
Zi=α·Zi-1+(1-α)·Zi    (0≤α≤1)
其中,Zi为当前帧对应像素点的深度值,Zi-1为前一帧图像中相同位置像素点的深度值,α为滑动平均的系数。
通过滑动平均对字幕区域的深度图进行时域平滑处理,可以增加深度图的时域连续性,减少抖动。
通过上述对字幕区域的深度图的平滑处理可以得到字幕去抖动之后的最终的深度图。然后采用立体渲染的方法得到虚拟的多视角视图,即立体图像。对上述立体图像进行视频编码,得到可供观赏的立体视频。
根据本发明实施例的用于平面视频立体转换的字幕去抖方法,可以有效地改善深度图中字幕的深度信息,减小甚至消除字幕的抖动和扭曲现象,产生更好的字幕区域的深度图便于后续的渲染和立体显示,解决立体化视频播放中字幕抖动给用户造成的不适。
本发明实施例提供的用于平面视频立体转换的字幕去抖方法不限于平面视频立体化领域,还可以用于图像、视频处理的其他需要进行字幕检测的场合。在视频立体化的领域内,本发明实施例提供的用于平面视频立体转换的字幕去抖方法可以用于半自动和全自动的处理,并且能够和全自动算法更好的结合。
下面参考图2描述根据本发明实施例的用于平面视频立体转换的字幕去抖装置200。
如图2所示,本发明实施例提供的用于平面视频立体转换的字幕去抖装置200包括输入模块210、特征值计算模块220、去噪模块230、字幕检测模块240、字幕区域拓展模块250、深度赋值模块260和平滑模块270。其中,输入模块210和特征值计算模块220相连,去噪模块230和特征值计算模块220相连,字幕检测模块240和去噪模块230相连,字幕区域拓展模块250和字幕检测模块240相连,深度赋值模块260分别与输入模块210和字幕区域拓展模块250相连,平滑模块270和深度赋值模块260相连。
输入模块210输入预定数量的原视频序列和所述原视频序列的深度图序列,其中,原视频序列可以为解码后的视频序列。对于字幕区域,输入模块210输入的深度图序列质量没有特别的要求,但是必须保证输入的原视频序列和深度图序列的分辨率相同。在本发明的一个实施例中,预定数量根据原视频序列的运动信息选取。具体而言,当原视频序列的图像运动速度小于预设阈值时,预定数量设置为两帧,即输入模块210输入两帧的原视频序列和两帧的深度图序列。当原视频序列的图像运动速度大于预设阈值时,预定数量设置为三帧或三帧以上,即输入模块210输入三帧或三帧以上的原视频序列和相同数量的深度图序列。
为了便于后续对相邻视频帧图像的特征的比较,原视频序列和深度图序列的数量不能小于相邻视频帧序列的总和。例如,如果后续的特征值计算模块220对前后两张视频帧图像的特征值进行比较,则输入模块210需要输入至少两帧的原视频序列。如果特征值计算模块220对前后相邻的三帧视频帧图像的特征值进行比较,则输入模块210需要输入至少大于三帧的原视频序列,其他数量依次类推。
另外,为了便于后续对图像进行时域平滑,原视频序列和深度图序列的数量要大于后续进行时域平滑的帧的数量。例如,如果平滑模块270要对相邻的前后两帧的视频帧图像进行时域平滑,则输入模块210需要输入至少两帧的原视频序列。如果平滑模块270要对三帧的视频帧图像进行时域平滑,则输入模块210需要保证输入至少三帧的原视频序列,其他可依次类推。
视频中的字幕一般都为静止的或者缓慢运动的,并且字幕的大小一般是固定的。通常,具有上述特征的字幕包含在原视频序列的不动区域中。因此,通过检测原视频序列中的不同区域,即可实现对字幕区域的检测。
在本发明的一个实施例中,特征值计算模块220通过对相邻两帧的图像的特征值进行比较,将其中差异较小的区域或像素进行标记,形成初始遮罩图,从而实现对字幕区域的检测。
首先,特征值计算模块220选取对字幕比较显著的特征以进行比较,这样可以得到比较好的检测效果。图像中的字幕通常表现为形状不变、高亮度、单色或者直方图单一等特性,因此。本发明的实施例可以选取灰度特征、直方图、颜色特征和运动向量中的任一项作为待比较的特征。其中,灰度特征对于亮度敏感,通过检测灰度特征可以有效的检测到白色字幕。通过检测直方图特征可以检测到字幕变化小或者字幕大小有变化但统计特征没有变化的字。通过检测颜色特征可以检测到不是白色但是颜色基本不变的字。通过检测运动向量特征可以检测到字幕和颜色均不变,但在视频中有轻微运动的字。
然后,特征值计算模块220根据已选取好的特征,计算原视频序列中每帧图像的基于该特征的特征值,并根据每帧图像的特征值计算相邻两帧图像的特征值的差值。在本发明的一个实施例中,根据选取的特征的不同,特征值计算模块220计算原视频序列中每帧图像的特征值可以为每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。
特征值计算模块220将相邻两帧图像的特征值的差值与基于该特征而预设的特征阈值进行比较,将特征值的差值小于所述特征阈值的像素点进行标记,例如将特征值的差值小于所述特征阈值的像素点标记为白色,将不满足该条件的像素点标记为黑色,从而形成一张初始遮罩图。可以理解的是,特征阈值和特征值必须是对应于每帧图像的同一个特征。
下面以特征值计算模块220计算灰度特征为例对特征值比较进行详细说明。
首先,特征值计算模块220计算图像灰度图,得到每帧图像的灰度值。特征值计算模块220对前后两帧图像的灰度值进行比较,将灰度值的差值小于预设的灰度特征阈值的像素标记为白色,其他像素为黑色,从而形成一张初始遮罩图。
所述初始遮罩图中像素计算公式如下:
Z ( x , y ) = 1 ( Δ ( x , y ) ≤ α ) 0 ( Δ ( x , y ) > α )
其中,(x,y)为像素在图像中的坐标,Z(x,y)为像素点(x,y)在初始遮罩图中的像素值,Δ(x,y)为相邻帧对应像素点的灰度值的差值的绝对值,α为预设的灰度特征阈值。
在本发明的一个实施例中,Δ(x,y)可以选取为10。
当像素(x,y)的深度差,即该像素对应灰度值的差值的绝对值Δ(x,y)小于或等于α时,则认为该像素点(x,y)没有变化,当Δ(x,y)大于α时,则认为该像素点(x,y)有变化。
由于噪声点的像素特征比较小,上述得到初始遮罩图中还会存在很多的噪声点和孤立像素点,这些噪声和孤立像素点将对后续的步骤产生干扰,因此去噪模块230需要对初始遮罩图进行图像去噪以去除上述像素噪声和孤立像素点。现有的对图像进行去噪的方法均可实现对本发明实施例的初始遮罩图的图像去噪。
在本发明的一个实施例中,去噪模块230采用形态学方法中的腐蚀算法对初始遮罩图进行图像去噪。利用腐蚀算法对初始遮罩图进行图像去噪不仅能够有效去除遮罩图中的孤立的噪声点,而且运算速度快,执行效率高。如果在初始遮罩图中噪声点较多,去噪模块230可以多次使用腐蚀算法来减少噪声。但是,多次使用腐蚀算法进行图像去噪会影响字幕区域的检测质量,因此图像去噪的次数需要视情况而定。
通过去噪模块230对图像去噪,去除了初始遮罩图中的孤立像素点和噪声点,生成去噪后遮罩图。去噪后遮罩图包括有原视频序列的静态区域和字幕区域。
由去噪模块230去噪后遮罩图,包括字幕区域和静态区域。字幕检测模块240采用快速匹配算法对字幕区域进行检测。由于字幕区域一般都具有比较固定的直方图统计特性,因此可以通过检测直方图特征检测出字幕区域。
首先,字幕检测模块240生成有效图像区域,其中,有效图像区域包括去噪后遮罩图中的特征值的差值小于特征阈值的像素在原视频序列中对应的像素点。具体而言,字幕检测模块240在去噪后遮罩图中将有效的像素在原视频帧图像中对应的像素点提取出来,即将去噪后遮罩图中标记为白色的像素点提取出来,将该部分像素点和其他像素点共同形成有效图像区域。换言之,将像素Z(x,y)等于1的像素点提取出来,并将这部分像素Z(x,y)等于1与其他像素点共同形成有效图像区域。有效图像区域中像素Z(x,y)等于1的像素点赋值为在原视频序列中的对应点的像素值。由此,在该有效图像区域中,只有初始遮罩图中Z(x,y)等于1的像素点的位置有像素值,而其他位置的像素点为空,将上述其他像素点所在的位置标记为黑色。
统计上述有效图像区域的直方图。并将有效图像区域的直方图与常用字幕的直方图模板进行比较。其中,常用字幕的直方图模板为预先定义的。上述常用字幕的直方图模板主要定义字幕的形状、颜色等特征,而与字幕大小没有关系。
有效图像区域包括有多个区段,字幕检测模块240将每个区段的直方图与预设的直方图模板进行区段匹配,找到最佳匹配的区段作为字幕区域。
下面对字幕检测模块240进行区段匹配的过程进行描述。
首先,字幕检测模块240通过下述公式计算每个区段的直方图和预设直方图的均方差。
f ( x 1 , x 2 ) = Σ i = x 1 x 2 Σ j = x 1 x 2 ( h ( i ) h ( x 1 , x 2 ) - H ( j ) H ( x 1 , x 2 ) ) 2 ,
其中,x1表示当前区段的起始位置,x2表示所述当前区段的终止位置,h(i)表示i位置处的像素点的常用的字幕直方图的值,i位于x1和x2之间,H(j)表示当前区段中j位置处原图像直方图的值,j位于x1和x2之间,h(x1,x2)表示常用的字幕直方图取值之和,H(x1,x2)表示当前区段的直方图的取值之和。
根据上述公式计算得到的均方差,字幕检测模块240选取均方差最小的区段作为字幕区域。在匹配过程中,当计算得到多个匹配区段时,则在原视频序列中包含有多个字幕区域。在得到字幕区域后,字幕检测模块240更新去噪后遮罩图。字幕检测模块240将字幕区域在原视频序列中对应的像素标记到新的去噪后遮罩图中,生成更新后的去噪后遮罩图,从而,在所述更新后的去噪后遮罩图中仅包括字幕区域。
上述得到的更新后的去噪后遮罩图所述包含的字幕区域并不完整,缺乏字幕区域的边缘信息。为了使深度图中字幕区域及其周围区域较平滑,需要由字幕区域拓展模块250通过区域扩散的方法对字幕区域进行拓展。
在本发明的一个实施例中,字幕区域拓展模块250采用形态学中的膨胀算法对所述更新后的去噪后遮罩图进行拓展。本步骤中的膨胀算法是去噪模块230采用的腐蚀算法的相反过程。如果去噪模块230采用腐蚀算法执行了多次腐蚀以去噪,则字幕区域拓展模块250执行相同或者更多次数的膨胀算法,从而保证字幕区域及其边缘均能够包含在遮罩图像中。膨胀算法可以对更新后的去噪后遮罩图的边缘进行膨胀以得到更大的遮罩区域,上述拓展后的遮罩区域记为最终遮罩图。最终遮罩图包括字幕区域和字幕区域的边缘。字幕区域拓展模块250生成的最终遮罩图标记了最终的字幕区域。最终遮罩图为完整的遮罩图像,最终遮罩图中的标记位即为检测到的字幕区域。
字幕区域的深度是决定最终深度图质量以及渲染质量的关键。对字幕赋值的关键是要保证视频帧内部字幕区域深度的一致性和视频帧之间字幕区域深度的连续性。当满足上述特性是,才能够得到较好的字幕渲染效果而不影响观赏质量。
深度赋值模块260利用相邻帧的深度图对字幕区域进行深度赋值。将视频相邻帧的字幕区域深度赋值给当前视频帧字幕区域。深度赋值模块260通常用之前的相邻帧深度替代在时间上较晚的帧的字幕深度,然后将字幕区域深度合并到原深度图中。具体而言,深度赋值模块260将当前帧的最终遮罩图中的像素点在当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点,即利用前C个帧图像的深度图中对应当前帧的字幕区域的深度值赋值给当前帧深度图中的字幕区域。其中,C的数量大于等于1。
如果采用前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值,则字幕区域的深度图赋值公式为:
D ( x , y ) ∈ Mask = Σ i = 1 C α i D ( x , y ) ∈ Mask i
其中,D表示当前帧的最终遮罩图中的像素点的深度值,Mask为所述最终遮罩图中特征值的差值小于所述特征阈值的像素点,C为用于时域平滑的总帧数,αi是C个帧中对应帧的加权系数,Di是C个帧中对应帧的对应像素点的深度值。
具体而言,深度赋值模块260对当前帧的前C个帧图像进行时域平滑,采用当前帧的前C个帧图像的深度图中对应当前帧的字幕区域的深度值进行加权赋值以获取当前帧的最终遮罩图中的像素点的深度值。
在本发明的一个实施例中,深度赋值模块260对字幕区域的深度赋值也可以采用直接赋值,或者其他方法的组合。
深度赋值模块260通过上述步骤可以完成对字幕区域深度的最终赋值,从而得到字幕区域的深度图。
深度赋值模块260赋值后得到的字幕区域的深度图在字幕边缘存在明显的不连续现象,即在字幕边缘和当前帧的其他区域会存在一定的不连续性,需要由平滑模块270通过平滑算法来消除边缘的不连续问题,从而使字幕边缘的过渡柔和。
在本步骤中,平滑模块270对字幕区域的深度图进行平滑处理包括对字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。
在本发明的一个实施例中,平滑模块270对字幕区域的深度图进行帧内的图像平滑处理可以采用高斯滤波方法或中值滤波方法。其中,采用对称或者非对称高斯滤波可以有效的减少字幕边缘的锯齿,增加平滑度。
在本发明的一个实施例中,平滑模块270对字幕区域的深度图进行帧间的时域平滑处理可以采用滑动平均方法或时域加权方法。其中,帧间平滑使用的帧数需要由视频中场景的运动情况决定。
当平滑模块270采用前后帧进行滑动平均以对字幕区域的深度图进行时域平滑处理,通过下述公式计算当前帧的深度图。
Zi=α·Zi-1+(1-α)·Zi    (0≤α≤1)
其中,Zi为当前帧对应像素点的深度值,Zi-1为前一帧图像中相同位置像素点的深度值,α为滑动平均的系数。
平滑模块270通过滑动平均对字幕区域的深度图进行时域平滑处理,可以增加深度图的时域连续性,减少抖动。
通过上述对字幕区域的深度图的平滑处理可以得到字幕去抖动之后的最终的深度图。然后采用立体渲染的方法得到虚拟的多视角视图,即立体图像。对上述立体图像进行视频编码,得到可供观赏的立体视频。
根据本发明实施例的用于平面视频立体转换的字幕去抖装置,可以有效地改善深度图中字幕的深度信息,减小甚至消除字幕的抖动和扭曲现象,产生更好的字幕区域的深度图便于后续的渲染和立体显示,解决立体化视频播放中字幕抖动给用户造成的不适。
本发明实施例提供的用于平面视频立体转换的字幕去抖装置不限于平面视频立体化领域,还可以用于图像、视频处理的其他需要进行字幕检测的场合。在视频立体化的领域内,本发明实施例提供的用于平面视频立体转换的字幕去抖装置可以用于半自动和全自动的处理,并且能够和全自动算法更好的结合。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (18)

1.一种用于平面视频立体转换的字幕去抖方法,其特征在于,包括如下步骤:
输入预定数量的原视频序列和所述原视频序列的深度图序列,其中,所述原视频序列和所述深度图序列的分辨率相同;
计算所述原视频序列中每帧图像的特征值,并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值,将所述相邻两帧图像的特征值的差值与特征阈值进行比较,将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图,其中,所述特征阈值与所述特征值对应于所述每帧图像的同一个特征;
对所述初始遮罩图进行图像去噪以去除所述初始遮罩图中的噪声点和孤立像素点,生成去噪后遮罩图,所述去噪后遮罩图包括原视频序列的静态区域和字幕区域;
生成有效图像区域,其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点,计算所述有效图像区域的直方图,并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域,对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图;
对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图,所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘;
对所述当前帧的最终遮罩图进行深度赋值,包括将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图;和
对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。
2.如权利要求1所述的字幕去抖方法,其特征在于,所述预定数量为两帧、三帧或三帧以上。
3.如权利要求1所述的字幕去抖方法,其特征在于,所述原视频序列中每帧图像的特征值为所述每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。
4.如权利要求1所述的字幕去抖方法,其特征在于,采用腐蚀算法对所述初始遮罩图进行图像去噪。
5.如权利要求1所述的字幕去抖方法,其特征在于,所述有效图像区域包括多个区段,将每个区段的直方图与预设直方图进行匹配,包括如下步骤:
采用下述公式计算所述每个区段的直方图和所述预设直方图的均方差,
f ( x 1 , x 2 ) = Σ i = x 1 x 2 Σ j = x 1 x 2 ( h ( i ) h ( x 1 , x 2 ) - H ( j ) H ( x 1 , x 2 ) ) 2 ,
其中,x1表示当前区段的起始位置,x2表示所述当前区段的终止位置,h(i)表示i位置处的像素点的常用的字幕直方图的值,i位于x1和x2之间,H(j)表示所述当前区段中j位置处原图像直方图的值,j位于x1和x2之间,h(x1,x2)表示常用的字幕直方图取值之和,H(x1,x2)表示所述当前区段的直方图的取值之和;
选取所述均方差最小的区段作为所述字幕区域。
6.如权利要求1所述的字幕去抖方法,其特征在于,采用膨胀算法对所述更新后的去噪后的遮罩图进行拓展。
7.如权利要求1所述的字幕去抖方法,其特征在于,通过下述公式将所述当前帧的最终遮罩图中的像素点在所述当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点,
D ( x , y ) ∈ Mask = Σ i = 1 C α i D ( x , y ) ∈ Mask i ,
其中,D表示当前帧的最终遮罩图中的像素点的深度值,Mask为所述最终遮罩图中特征值的差值小于所述特征阈值的像素点,C为用于时域平滑的总帧数,αi是C个帧中对应帧的加权系数,Di是C个帧中对应帧的对应像素点的深度值。
8.如权利要求1所述的字幕去抖方法,其特征在于,所述对所述字幕区域的深度图进行帧内的图像平滑处理采用高斯滤波方法或中值滤波方法。
9.如权利要求1所述的字幕去抖方法,其特征在于,所述对所述字幕区域的深度图进行帧间的时域平滑处理采用滑动平均方法或时域加权方法。
10.一种用于平面视频立体转换的字幕去抖装置,其特征在于,包括:
输入模块,所述输入模块用于输入预定数量的原视频序列和所述原视频序列的深度图序列,其中,所述原视频序列和所述深度图序列的分辨率相同;
特征值计算模块,所述特征值计算模块与所述输入模块相连,用于计算所述原视频序列中每帧图像的特征值,并根据所述每帧图像的特征值计算相邻两帧图像的特征值的差值,将所述相邻两帧图像的特征值的差值与特征阈值进行比较,将特征值的差值小于所述特征阈值的像素点进行标记以得到初始遮罩图,其中,所述特征阈值与所述特征值对应于所述每帧图像的同一个特征;
去噪模块,所述去噪模块与所述特征值计算模块相连,用于对所述初始遮罩图进行图像去噪以去除所述遮罩图中的孤立像素点,生成去噪后遮罩图,其中,所述去噪后遮罩图包括原图像序列的静态区域和字幕区域;
字幕检测模块,所述字幕检测模块与所述去噪模块相连,用于生成有效图像区域,其中所述有效图像区域包括所述去噪后遮罩图中的特征值的差值小于所述特征阈值的像素在所述原视频序列中对应的像素点,计算所述有效图像区域的直方图,并将所述有效图像区域的直方图与预设直方图进行匹配以得到字幕区域,对所述字幕区域在所述原视频序列中对应的像素点进行标记以生成更新后的去噪后遮罩图;
字幕区域拓展模块,所述字幕区域拓展模块与所述字幕检测模块相连,用于对所述更新后的去噪后遮罩图进行拓展以得到最终遮罩图,所述最终遮罩图包括所述字幕区域及所述字幕区域的边缘;
深度赋值模块,所述深度赋值模块分别与所述输入模块和所述字幕区域拓展模块相连,用于将所述当前帧的最终遮罩图中的像素点在所述当前帧的前面多个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点以得到所述字幕区域的深度图;和
平滑模块,所述平滑模块与所述深度赋值模块相连,用于对所述字幕区域的深度图进行帧内的图像平滑处理和帧间的时域平滑处理。
11.如权利要求10所述的字幕去抖装置,其特征在于,所述预定数量为两帧、三帧或三帧以上。
12.如权利要求10所述的字幕去抖装置,其特征在于,所述特征值计算模块计算所述原视频序列中每帧图像的特征值为所述每帧图像的灰度特征值、直方图特征值、颜色特征值或运动向量特征值。
13.如权利要求10所述的字幕去抖装置,其特征在于,所述去噪模块采用腐蚀算法对所述初始遮罩图进行图像去噪。
14.如权利要求10所述的字幕去抖装置,其特征在于,所述有效图像区域包括多个区段,所述字幕检测模块采用下述公式计算所述每个区段的直方图和所述预设直方图的均方差,
f ( x 1 , x 2 ) = Σ i = x 1 x 2 Σ j = x 1 x 2 ( h ( i ) h ( x 1 , x 2 ) - H ( j ) H ( x 1 , x 2 ) ) 2 ,
其中,x1表示当前区段的起始位置,x2表示所述当前区段的终止位置,h(i)表示i位置处的像素点的常用的字幕直方图的值,i位于x1和x2之间,H(j)表示所述当前区段中j位置处原图像直方图的值,j位于x1和x2之间,h(x1,x2)表示常用的字幕直方图取值之和,H(x1,x2)表示所述当前区段的直方图的取值之和;
所述字幕检测模块根据计算得到所述每个区段的直方图和所述预设直方图的均方差。选取所述均方差最小的区段作为所述字幕区域。
15.如权利要求10所述的字幕去抖装置,其特征在于,所述字幕区域拓展模块采用膨胀算法对所述更新后的去噪后的遮罩图进行拓展。
16.如权利要求10所述的字幕去抖装置,其特征在于,所述深度赋值模块通过下述公式将所述当前帧的最终遮罩图中的像素点在所述当前帧的前C个帧的深度图序列中对应的像素点的深度值赋值到所述当前帧的最终遮罩图中的像素点,
D ( x , y ) ∈ Mask = Σ i = 1 C α i D ( x , y ) ∈ Mask i ,
其中,D表示当前帧的最终遮罩图中的像素点的深度值,Mask为所述最终遮罩图中特征值的差值小于所述特征阈值的像素点,C为用于时域平滑的总帧数,αi是C个帧中对应帧的加权系数,Di是C个帧中对应帧的对应像素点的深度值。
17.如权利要求10所述的字幕去抖装置,其特征在于,所述平滑模块采用高斯滤波方法或中值滤波方法对所述字幕区域的深度图进行帧内的图像平滑处理。
18.如权利要求10所述的字幕去抖装置,其特征在于,所述平滑模块采用滑动平均方法或时域加权方法对所述字幕区域的深度图进行帧间的时域平滑处理。
CN 201110169307 2011-06-22 2011-06-22 用于平面视频立体转换的字幕去抖方法及字幕去抖装置 Expired - Fee Related CN102202224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110169307 CN102202224B (zh) 2011-06-22 2011-06-22 用于平面视频立体转换的字幕去抖方法及字幕去抖装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110169307 CN102202224B (zh) 2011-06-22 2011-06-22 用于平面视频立体转换的字幕去抖方法及字幕去抖装置

Publications (2)

Publication Number Publication Date
CN102202224A true CN102202224A (zh) 2011-09-28
CN102202224B CN102202224B (zh) 2013-03-27

Family

ID=44662554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110169307 Expired - Fee Related CN102202224B (zh) 2011-06-22 2011-06-22 用于平面视频立体转换的字幕去抖方法及字幕去抖装置

Country Status (1)

Country Link
CN (1) CN102202224B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724384A (zh) * 2012-06-19 2012-10-10 清华大学 一种立体视频字幕检测方法及使用该方法的系统
CN102769720A (zh) * 2012-03-26 2012-11-07 新奥特(北京)视频技术有限公司 一种增强画面显示效果的方法
WO2013075611A1 (zh) * 2011-11-23 2013-05-30 华为技术有限公司 一种深度图像滤波方法、获取深度图像滤波阈值的方法和装置
CN103186780A (zh) * 2011-12-30 2013-07-03 乐金电子(中国)研究开发中心有限公司 视频字幕识别方法及装置
CN103826114A (zh) * 2013-11-15 2014-05-28 青岛海信电器股份有限公司 一种立体显示方法及自由立体显示装置
EP2852164A4 (en) * 2012-05-14 2016-01-06 Sony Corp IMAGE PROCESSING DEVICE, METHOD, AND PROGRAM
US9237334B2 (en) 2012-05-17 2016-01-12 Mstar Semiconductor, Inc. Method and device for controlling subtitle applied to display apparatus
CN106162330A (zh) * 2016-07-27 2016-11-23 成都索贝数码科技股份有限公司 一种在视频画面中提取字幕区域的方法
CN106937104A (zh) * 2015-12-31 2017-07-07 深圳超多维光电子有限公司 一种图像处理方法及装置
CN109214999A (zh) * 2018-09-21 2019-01-15 传线网络科技(上海)有限公司 一种视频字幕的消除方法及装置
CN110400339A (zh) * 2019-07-11 2019-11-01 Oppo广东移动通信有限公司 深度图处理方法和装置
WO2020119558A1 (zh) * 2018-12-12 2020-06-18 惠科股份有限公司 显示驱动方法、显示驱动装置和显示装置
WO2021068598A1 (zh) * 2019-10-08 2021-04-15 腾讯科技(深圳)有限公司 共享屏幕的编码方法、装置、存储介质及电子设备
CN113727176A (zh) * 2021-08-30 2021-11-30 杭州国芯科技股份有限公司 一种视频运动字幕检测方法
WO2023004727A1 (zh) * 2021-07-30 2023-02-02 华为技术有限公司 视频处理方法、视频处理装置及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010085074A2 (en) * 2009-01-20 2010-07-29 Lg Electronics Inc. Three-dimensional subtitle display method and three-dimensional display device for implementing the same
CN101902582A (zh) * 2010-07-09 2010-12-01 清华大学 一种立体视频字幕添加方法及装置
WO2011001859A1 (ja) * 2009-06-29 2011-01-06 ソニー株式会社 立体画像データ送信装置および立体画像データ受信装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010085074A2 (en) * 2009-01-20 2010-07-29 Lg Electronics Inc. Three-dimensional subtitle display method and three-dimensional display device for implementing the same
WO2011001859A1 (ja) * 2009-06-29 2011-01-06 ソニー株式会社 立体画像データ送信装置および立体画像データ受信装置
CN101902582A (zh) * 2010-07-09 2010-12-01 清华大学 一种立体视频字幕添加方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Acoustics,Speech and Signal Processing》 20080404 Cong Li Caption-aided speech detection in videos , *
《有线电视技术》 20051231 何前勇 一种基于3D-DCT的视频水印算法研究 , 第15期 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013075611A1 (zh) * 2011-11-23 2013-05-30 华为技术有限公司 一种深度图像滤波方法、获取深度图像滤波阈值的方法和装置
CN103139577A (zh) * 2011-11-23 2013-06-05 华为技术有限公司 一种深度图像滤波方法、获取深度图像滤波阈值的方法和装置
US9594974B2 (en) 2011-11-23 2017-03-14 Huawei Technologies Co., Ltd. Depth image filtering method, and depth image filtering threshold obtaining method and apparatus
CN103186780A (zh) * 2011-12-30 2013-07-03 乐金电子(中国)研究开发中心有限公司 视频字幕识别方法及装置
CN102769720A (zh) * 2012-03-26 2012-11-07 新奥特(北京)视频技术有限公司 一种增强画面显示效果的方法
CN102769720B (zh) * 2012-03-26 2017-09-12 新奥特(北京)视频技术有限公司 一种增强画面显示效果的方法
EP2852164A4 (en) * 2012-05-14 2016-01-06 Sony Corp IMAGE PROCESSING DEVICE, METHOD, AND PROGRAM
US9686529B2 (en) 2012-05-14 2017-06-20 Saturn Licensing Llc Image processing apparatus, image processing method, and program
US9237334B2 (en) 2012-05-17 2016-01-12 Mstar Semiconductor, Inc. Method and device for controlling subtitle applied to display apparatus
TWI555400B (zh) * 2012-05-17 2016-10-21 晨星半導體股份有限公司 應用於顯示裝置的字幕控制方法與元件
CN102724384A (zh) * 2012-06-19 2012-10-10 清华大学 一种立体视频字幕检测方法及使用该方法的系统
CN102724384B (zh) * 2012-06-19 2015-01-14 清华大学 一种立体视频字幕检测方法及使用该方法的系统
CN103826114B (zh) * 2013-11-15 2017-04-19 青岛海信电器股份有限公司 一种立体显示方法及自由立体显示装置
CN103826114A (zh) * 2013-11-15 2014-05-28 青岛海信电器股份有限公司 一种立体显示方法及自由立体显示装置
CN106937104A (zh) * 2015-12-31 2017-07-07 深圳超多维光电子有限公司 一种图像处理方法及装置
CN106937104B (zh) * 2015-12-31 2019-03-26 深圳超多维科技有限公司 一种图像处理方法及装置
CN106162330B (zh) * 2016-07-27 2019-04-12 成都索贝数码科技股份有限公司 一种在视频画面中提取字幕区域的方法
CN106162330A (zh) * 2016-07-27 2016-11-23 成都索贝数码科技股份有限公司 一种在视频画面中提取字幕区域的方法
CN109214999A (zh) * 2018-09-21 2019-01-15 传线网络科技(上海)有限公司 一种视频字幕的消除方法及装置
WO2020119558A1 (zh) * 2018-12-12 2020-06-18 惠科股份有限公司 显示驱动方法、显示驱动装置和显示装置
CN110400339A (zh) * 2019-07-11 2019-11-01 Oppo广东移动通信有限公司 深度图处理方法和装置
CN110400339B (zh) * 2019-07-11 2021-04-16 Oppo广东移动通信有限公司 深度图处理方法和装置
WO2021068598A1 (zh) * 2019-10-08 2021-04-15 腾讯科技(深圳)有限公司 共享屏幕的编码方法、装置、存储介质及电子设备
US12108065B2 (en) 2019-10-08 2024-10-01 Tencent Technology (Shenzhen) Company Limited Encoding method and apparatus for screen sharing, storage medium, and electronic device
WO2023004727A1 (zh) * 2021-07-30 2023-02-02 华为技术有限公司 视频处理方法、视频处理装置及电子装置
CN113727176A (zh) * 2021-08-30 2021-11-30 杭州国芯科技股份有限公司 一种视频运动字幕检测方法

Also Published As

Publication number Publication date
CN102202224B (zh) 2013-03-27

Similar Documents

Publication Publication Date Title
CN102202224B (zh) 用于平面视频立体转换的字幕去抖方法及字幕去抖装置
KR100841848B1 (ko) 전자 워터마크 검출 방법, 장치 및 프로그램을 기록한 기록 매체
JP3862140B2 (ja) ピクセル化されたイメージをセグメント化する方法および装置、並びに記録媒体、プログラム、イメージキャプチャデバイス
CN101651772B (zh) 一种基于视觉注意的视频感兴趣区域的提取方法
US10298905B2 (en) Method and apparatus for determining a depth map for an angle
JP5962393B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US8515172B2 (en) Segmentation of image data
CN101765022B (zh) 一种基于光流与图像分割的深度表示方法
CN102883175B (zh) 深度图提取、判断视频场景切换及深度图边缘优化方法
CN105678724A (zh) 图像的背景替换方法及装置
KR100846513B1 (ko) 영상 처리 방법 및 장치
JP2003058894A (ja) ピクセル化された画像をセグメント化するための方法および装置
JP6715864B2 (ja) 画像に対する深度マップを決定するための方法及び装置
CN102420985B (zh) 一种多视点视频对象提取方法
CN101510304B (zh) 一种分割获取前景图像的方法、装置和摄像头
CN106251348A (zh) 一种面向深度相机的自适应多线索融合背景减除方法
CN106447656B (zh) 基于图像识别的渲染瑕疵图像检测方法
WO2016199418A1 (en) Frame rate conversion system
Guttmann et al. Content aware video manipulation
CN112700485B (zh) 图像深度信息提取方法
JP6708131B2 (ja) 映像処理装置、映像処理方法及びプログラム
CN106780646A (zh) 一种适用多场景的无参数背景建模方法
KR101264358B1 (ko) 자동화된 포토 모자이크 영상 생성 방법 및 시스템
CN110278439A (zh) 基于帧间预测的去水印算法
JP5867128B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130327