CN104144334B - 用于立体视频内容的字幕检测 - Google Patents
用于立体视频内容的字幕检测 Download PDFInfo
- Publication number
- CN104144334B CN104144334B CN201410193707.9A CN201410193707A CN104144334B CN 104144334 B CN104144334 B CN 104144334B CN 201410193707 A CN201410193707 A CN 201410193707A CN 104144334 B CN104144334 B CN 104144334B
- Authority
- CN
- China
- Prior art keywords
- local
- caption
- unit
- image
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/172—Processing image signals image signals comprising non-image signal components, e.g. headers or format information
- H04N13/183—On-screen display [OSD] information, e.g. subtitles or menus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
- G06V20/647—Three-dimensional objects by matching two-dimensional images to three-dimensional objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0081—Depth or disparity estimation from stereoscopic image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及用于立体视频内容的字幕检测。提供了右图像和左图像。然后提供与两个图像相关联的视差估计图,并且生成用于左图像的左字幕检测图和用于右图像的右字幕检测图。每个图表示图像内的字幕区域。针对所述字幕区域并且基于所述视差估计图来确定共同用于所有字幕区域的针对X方向和Y方向的字幕视差值。所述左字幕图和所述右字幕图以及所述字幕的X视差值和所述字幕的Y视差值被用在图像插值处理中。
Description
技术领域
本公开涉及一种用于处理3D视频内容中的字幕的方法。具体地,本公开涉及一种用于检测3D视频内容中的字幕的方法,其结果被用于将中间图像插值在例如多视图3D TV环境中。本公开还涉及用于检测3D图像内容中的字幕区域的设备和计算机程序以及非临时性记录介质。
背景技术
在本技术中,已知的应用实现了在视频图像中的字幕区域的检测。当插值帧速率上转换所需的中间帧时,字幕区域的检测是有帮助的。例如,一个应用被公开在US 2010/0328529A1中。该文件公开了用于检测被包括作为在视频信号中的图像的一部分的静止字幕部分的方法。
尽管用于视频图像中的字幕检测的已知应用在2D视频图像环境中令人满意,它们对于在例如需要用于插值图像的深度/视差估计的3D多视图系统的3D视频图像环境中的理想的准确度并不有用。然而,随着对象彼此覆盖,估计处理是困难的,如字幕结果处于对于图像某区域错误分配的深度信息中。具体地,当将3D图像插值在多视图系统中时,字幕的视差被背景运动破坏。当观看3D视频图像时,字幕的不准确或时间上的不稳定视差将导致非常显眼并且恼人的伪影(artefact)。与标准的2D视频内容对比,观看者精确地知道在屏幕上字幕看起来应该是什么样,并且观看者同样期望字幕具有时间稳定性深度效果。
本文中所提供的“背景技术”的描述是为了总体呈现本公开的背景。就该背景部分所描述以及提交时以其他方式还尚未取得作为现有技术资格的描述的各个方面的这个意义上来说,当前署名的发明者的工作既不明示也未暗示地承认为相对于本发明的现有技术。
发明内容
目标是提供克服上述缺点的方法。具体地,目标是提供检测立体3D视频图像中的字幕、能够插值具有正确的和时间上稳定的深度效果的字幕的3D图像的方法。
进一步的目标是提供用于检测3D图像内容中是的字幕区域的设备和用于实施所述方法的计算机程序以及用于实施所述方法的非临时性计算机可读记录介质。
根据一个方面,提供了一种方法,包括:
提供右图像和左图像;
提供与两个图像相关的视差估计图;
生成用于所述左图像的左字幕检测图和用于所述右图像的右字幕检测图,每个图表示图像内的字幕区域;
针对所述字幕区域并且基于所述视差估计图来确定用于所有的字幕区域的针对X方向和Y方向的共同字幕视差值;
将所述左字幕图和所述右字幕图以及所述字幕的X视差值和所述字幕的Y视差值用在图像插值处理中。
根据另一方面,提供了一种用于检测3D图像内容中的字幕区域的设备,所述设备包括视差估计单元,用于提供与左图像和右图像相关联的视差估计图;字幕检测单元,被适配于检测所述左图像和所述右图像中的字幕文本区域,用于提供左字幕检测图和右字幕检测图;以及视差提取单元,被适配于提取用于检测到的文本区域的共同视差X值和Y值。
根据又一方面,提供了一种包括程序代码手段的计算机程序,当所述计算机程序在计算机上被执行时,所述程序代码手段用于使所述计算机执行本文中所公开的方法的步骤。此外,提供了一种非临时性计算机可读介质,当通过处理器执行所述计算机程序产品时,所述计算机程序产品使所本文中所公开的方法被执行。
本发明的优选实施方式被限定在从属权利要求中。应当理解,所要求保护的设备、所要求保护的计算机程序以及所要求保护的计算机可读记录介质具有与所要求保护的方法并且与在从属权利要求所限定的相似和/或相同的优选实施方式。
本公开的方面之一被用于实施字幕/文本检测方法,所述方法被设计用于对立体的3D视频内容进行字幕检测和字幕视差分配。具体地,该方法利用出现在左图像和右图像中的相同的字幕,由于视差而仅具有不同的位置。字幕检测的结果以及视差估计的结果被作为用于提供针对两个方向(即,X和Y方向)的共同的字幕视差值,使得实现时间上稳定的深度效果。
将理解的是,本发明的前述总体描述以及接下来的详细描述对本发明是示例性的,而非限制性的。
附图说明
通过参照以下结合附图所做的详细描述,对本发明更完整的评价及其许多附带的优点将会很容易地获得并且变得更好地理解,附图中:
图1示出了用于视图插值的图像处理系统的框图;
图2示出了字幕检测单元的框图;
图3示出了示出字幕检测处理的框图;
图4示出了用于示出文本边缘检测的示图;
图5示出了用于示出文本边缘分类的示图;
图6示出了用于示出文本边缘检测的示图;
图7示出了示出封闭文本边缘的步骤;
图8示出了描述时间稳定性的步骤的框图;
图9示出了示出确定边界区域/框的方法的流程图;
图10示出可用于更加详细地描述确定边界框的步骤的示图;
图11示出了经由框合并的边界框生成的示例;
图12示出了用于说明边界框确认的示图;
图13示出了示出文本边缘检测的结果的示图;
图14示出了在多视图系统中的视差和插值方案;以及
图15示出了错误视差以及字幕的伪影的结果。
具体实施方式
在本技术中,已知的是实现了无眼镜的3D TV的所谓的多视图系统。在这种系统中,必须在左输入图像和右输入图像之间插值中间图像,以在从不同视点观看TV时实现不同的深度效果。如例如在图14中示出的,左图像12和右图像14包括在X和/或Y方向上空间移位的物体。在图14中,例如,将物体“足球”例如从左图像12至右图像14向左空间移位20像素。称为“视差(disparity)”的该空间位移实现了3D立体感觉。在本技术中,用于估计在左图像与右图像之间的视差的技术是已知的并且提供了所谓的视差估计图,该视差估计图包括针对图像(其也可称为“帧”)的像素或像素块的视差值。
在多视图系统中,现在需要针对不同的用途插值图像。由于不同的视点,这种所插值的图像必须提供与左图像12和右图像14相比不同的深度效果。因此,这种多视图系统的图像处理必须基于用于左图像12和右图像14的视差估计图来插值视差值。通过改变“足球”的空间位移将其示出在图14中。
如果左图像和右图像包括字幕,故立体的输入视频内容也包括字幕,则字幕的视差可能被例如背景运动所破坏,如在图15中所示。当观看3D视频内容时,字幕的不准确或时间上不稳定的视差将导致非常显眼并且恼人的伪影。与标准的视频内容相比,观看者清楚地知道在屏幕上字幕看起来应该是什么样,并且观看者同样期望字幕具有时间上稳定的深度效果。
根据本公开和下面所描述的方法和设备将允许提供非常准确并且稳定的字幕检测以及字幕视差信息。
现在参考图1至图13,描述了根据本公开的方法和设备。应注意,在附图中示出的框图被用来表示用于方法和设备两者的功能单元。功能单元实现预定的功能,并且因此代表方法步骤以及系统或设备单元这两者。
图1示出了被适配于提供插值图像作为输出的图像处理系统20。该图像处理系统20的输入是例如3D视频的左图像和右图像12、14对。图像处理系统包括三个主单元或者模块,即视差估计单元22、插值单元24以及字幕检测单元26。将不再详细描述视差估计单元22和插值单元24,因为它们的功能是已知的并且对于描述被实施在字幕检测单元26中的本公开是不必要的。
字幕检测单元26接收作为输入的左图像12和右图像14以及视差估计图,该视差估计图是通过视差估计单元22利用例如递归块匹配算法计算出的。
字幕检测单元26生成两个位图,即左字幕检测图L_subdet_map和右字幕检测图R_subdet_map,该两个位图包含所检测的字幕分别在当前左图像/帧和右图像/帧中的位置。
进一步地,字幕检测单元26还计算用于字幕的水平和垂直视差(dx,dy),在图1中被表示为subdet_disparity。
基于字幕检测图和字幕视差,插值单元24插值中间图像。
在图2中,更加详细地示出了字幕检测单元26。字幕检测单元26包括用于左图像的字幕检测单个单元28L和用于右图像的字幕检测单个单元28R。两个字幕检测单个单元28L、28R被相似地设计并且相似地操作,使得在下面仅涉及字幕检测单个单元28。字幕检测单个单元28接收左图像或右图像,并且传递原始位图L_subdet_raw或R_subdet_raw,原始位图表示针对每个输入图像的字幕位置。
作为可替换的,原始位图L_subdet_raw或R_subdet_raw可以每图像像素或者像素块包含多于单个位。这允许给出更多的信息,例如表示像素是字幕的概率的概率值而不是仅说明像素/像素块是否是字幕。非二进制图的优点是插值处理可以使用此信息以应用空间上稳健的插值方法来减少例如像素错误。
两个字幕检测单个单元28的输出被供应给视差提取单元30,该视差提取单元30还从视差估计单元22接收视差图。视差提取单元30被适配于从视差图提取字幕视差。结果和因此的输出用subdet_dsp来表示,其优选地包括用于X方向的视差值以及用于Y方向的视差值。
字幕检测单元26进一步包括一致性检查单元32,该一致性检查单元32接收字幕检测单个单元28和视差提取单元30的输出。进一步地,一致性检查单元32还接收作为输入的左图像和右图像。
一致性检查单元32的输出是字幕检测图和被表示为subdet_desp的字幕视差。
一致性检查单元32总体上被适配与利用视差信息的帮助来评估左字幕检测结果与右字幕检测结果之间的一致性。例如,这可以通过对字幕区域应用后匹配(postmatching)来完成。
现在参考图3,利用用于提供字幕检测原始位图L/R_subdet_raw所必须的功能块更加详细地示出了字幕检测单个单元28。
字幕检测单个单元28包括文本边缘检测单元34、运动检测单元36、时间稳定性单元38,并且可选地,边界框可靠性检查单元40。
文本边界检测单元34以及运动检测单元36两者接收输入图像12、14。运动检测单元36还从帧延迟单元42接收延迟输入图像,使得运动检测单元36的输入是时间t时的图像以及时间t-1时的图像。
文本边缘检测单元34的输出优选地是二进制图,其中使用二进制1来表示文本边缘以及使用二进制0表示非文本边缘。
运动检测单元36的输出是二进制图,其表示运动的区域以及没有运动的区域。优选地,二进制值1代表没有运动的区域,并且二进制值0代表有运动的区域。运动检测单元36使用已知的用于在两个图像中找出相应的物体/区域的匹配算法。
通过文本边缘检测单元34所执行的文本边缘检测被设计为检测文本特定的边缘并且忽略非文本边缘。与已知的边缘检测技术相比,该文本边缘检测可以减少检测结果中误报(false positives)。
如在图4中所示,在文本边缘检测单元34中所实施的主要构思被用于检测文本“上下(up-down)”边缘对。
例如,如通过图4中的箭头42所示,如果从左到右扫描图像,可以发现亮度级的改变。这些亮度级改变是图像边缘并且经常出现在上和下边缘对中。
因此,文本边缘检测中的第一步是通过使用例如索贝尔滤波器(sobel filter)的梯度滤波器来检测图像中的所有边缘,并且然后将它们分类。
在图5中,示出了几个边缘分类。具体地,示出了八个边缘类别,即两个水平的、两个垂直的、两个斜向以及两个反斜向的类别。在此分类方案中,当例如梯度不足以强到成为边缘时,未在图5中示出的类别1表示“没有边缘”。
例如,类别2意指具有从低(由黑色表示)到高(由白色表示)的亮度级改变的上至下的扫描方向。因此,它是水平上边缘。
现在,文本边缘检测中的下一步是找出相应的的文本边缘对。例如,在给定的字符宽度的最大值(例如10个像素)内,一定有相应的对。具体地,一定有上和下边缘对,即使用2-6或4-8或3-7或5-9分类的对。
没有为其找出边缘对的单个边缘被认为是非文本边缘。
在下一个步骤中,如在图6中所示,对边缘分类图应用二进制化,以得到文本边缘。
在图6的上面的行中,具有文本内容的图像输入到文本边缘检测单元34中。在边缘检测和边缘分类后,找到用于每个边缘像素的边缘对。以这种方式,可以检测到文本边缘。如在上面的行中所示,边缘检测的结果是二进制图,该二进制图包含用于文本边缘的二进制1和用于无文本边缘的二进制0。
在图6的下面的行中,输入图像示出了其中没有文本的正常图像内容。在边缘检测和边缘分类步骤后,没有找到边缘对。所以移除单个边缘,并且最终文本边缘检测结果示出了在此图像中没有文本边缘。因此,二进制图仅包含二进制0。
如在图7中所示,在通过文本边缘检测单元34执行的文本边缘检测的最终的步骤中,封闭了边缘之间的空间。换句话说,此步骤检测文本的轮廓,并且利用二进制1填充这对边缘之间的间隙。在此操作之后,还可以应用膨胀和侵蚀过滤操作以填充间隙。
由文本边界检测单元34所提供的二进制图使用二进制1表示文本,并且使用二进制0表示无文本。这里应注意的是,该图还可以包含给出更多信息的非二进制值,仅表示针对文本的是/否。该图可以包含表示文本是否存在的概率。
完成了通过运动检测单元36执行的所提及的检测,以在视频内容中检测静止区域。假设在一些图像/帧中字幕应该是静态的,则所检测的字幕的文本边缘应当位于静止区域中。因此,静止区域的检测可以被用于确认所检测的文本。
运动检测单元36计算两个连续帧之间的帧差,并且以像素分辨率来输出字幕信息。例如,如果绝对像素差小于预定阈值stillTh,此像素被检测为静止区域。另一方面,如果绝对帧差大于给定的阈值,像素被检测为运动区域。下面的等式描述了通过运动检测单元36所执行的函数。
其中in(x,y,t)指在位置(x,y)处和时间t时的输入亮度图像像素值,并且still(x,y)是在位置(x,y)处的静止区域信息。
因此,运动检测单元36的结果是二进制图,包括用于静止区域的二进制1和用于运动区域的二进制0。
将文本边缘检测单元34和运动检测单元36的输出被供给至将它们进行组合以形成左/右最终边缘图L/R_final_edge_map的逻辑与门(AND gate)44。
此结果被供给至时间稳定性单元38,时间稳定性单元38被适配于基于字幕区域的时间连续性来检查字幕区域的可靠性。字幕通常连续地存在于几个帧中同样的位置。因此,这个单元检测字幕检测结果的连续性,并且基于检测结果的历史来生成用于字幕检测结果的掩模数据(mask data)。
在图8中,以其包括历史检查单元46和逻辑与门48的框图的形式示出了时间稳定性的步骤。
字幕检测结果的连续性可被检测如下:
其中subdet(x,y)是在位置(x,y)处的当前字幕检测结果,history(x,y,t)是在位置(x,y)处和时间t时的历史数据,并且histmax是历史的上限值。
在此历史计算之后,掩模数据被生成如下:
最后,通过逻辑与门48将这个掩模数据与当前的字幕检测结果L/R_final_edge_map相组合。
时间稳定性单元38的输出接着被供给至边界框可靠性检查单元40,该边界框可靠性检查单元40执行另外的步骤以减少所供给的二进制图中的误报。单元40在所检测的字幕区域的周围生成所谓的边界框。每个边界框由四个参数组成以描述字幕区域的位置:
bb_i_x:左上角的X坐标,
bb_i_y:左上角的Y坐标,
bb_i_w:边界框的宽度,
bb_i_h:边界框的高度,
其中,i是边界框的索引。
图9以流程图的形式示出了边界框生成的示例。此方法以连续的顺序扫描所供给的二进制图中的每行并且形成高度为1(一个像素)和依据所检测的二进制1的数量的宽度bb_i_w的框。在图10中,示出了并利用参考数字50表示了所供给的二进制图的一部分的列/行。当例如从左到右扫描这个行(N-1)时,该方法识别形成宽度为3的第一边界框52的三个连续二进制1。进一步地,在同一行中,该方法生成具有宽度为2的另一个框54。
换句话说,边界框52、54表示在所供给的二进制图的行或列中的一系列连续的二进制1。
如在图10中进一步示出的,扫描下一行(使用第N行表示),并且生成框52、54,然而,所述框52、54不与在前扫描行(N-1)中生成的框52、54相对应。
在图9中利用“将新的边界框与先前边界框合并”描述的下一步骤中,只要该边界框与在第(N-1)图像行中的边界框在水平方向上具有交集,则将把边界框合并到在第(N-1)图像行中的边界框。在图10中还示出了并且利用参考数据56表示了边界框的这种合并步骤的结果。合并的边界框56具有矩形格式并且覆盖两个连续扫描的边界框52或54。然而,仅合并了具有利用58表示的水平交集重叠的那些边界框。
在已扫描了整个图之后,边界框是已知的。在图11中示出了经由边界框合并的边界框生成的另一示例。
在下一步骤中,可基于边界框的大小及其检测覆盖区域来验证边界框。首先,字幕是可读文本,所以它们不允许过小或者过大。所以可以设定四个阈值(以像素为单位的w_min、w_max、h_min、h_max)以限制有效水平和垂直大小。
例如,如在图12的右图像中示出的,由于其过小的尺寸而检测到无效的边界框。
另一种验证方法是使用检测覆盖区域除以该边界框的像素总数,检测覆盖区域被定义为在边界框内检测为字幕的像素的数量。在封闭边缘检测对之间的间隙的步骤之后,如上所述,字幕检测结果通常具有相对高的局部检测覆盖区域,所以同样可以设定检测覆盖区域阈值(以%为单位的cov_min)。具有比cov_min更小的检测覆盖区域的边界框是无效的。边界框可靠性检查的结果是左/右原始字幕检测图L/R_subdet_raw,将其提供给一致性检查单元32,如在图2中所示。
在图2中,其示出了一致性检查单元32还接收视差提取单元30的结果。该视差提取单元30为在一个帧/图像中检测到所有的字幕确定一个共同的水平视差(dx)和一个共同的垂直视差(dy)。这基于字幕在一个帧中应具有的相同的视差的假设。
该视差信息可以从通过视差估计单元22所供应的视差图中提取。多数的字幕视差是正确的,并且仅它们中的一些被背景运动影响,如参考图15所描述的。主要构思是例如通过所关注的相关区域的直方图分析来识别共同视差值。这些区域是在确认了边界框之后被边界框或者原始字幕区域覆盖的区域。换句话说,仅考虑视差图的视差值,该视差值属于分别通过边界框和字幕区域所表示的区域。
如在图2中所示,视差提取单元30的输入是来自视差估计单元22的视差图以及来自字幕检测单个单元28L和28R的字幕检测原始图。优选地,视差估计单元供应四个视差图,也就是左至右水平视差图(dlx)、左至右垂直视差图(dly)、右至左视差图(drx)以及右至左垂直视差图(dry)。dlx和dly图描述左和右图像的像素位移,参考图像是左图像。drx和dry图使用右图像作为参考图像。L/R_subdet_raw图表示字幕的位置并且它们可以被用作视差提取的掩模。
总而言之,视差提取单元30在边界框确认之后分析在边界框的区域中的视差值或者原始字幕,并且根据预定的标准选择一个X视差值和一个Y视差值。作为结果,存在针对所有字幕区域的共同的X视差值和共同的Y视差值。
现在,一致性检查单元32使用通过视差提取单元30所供应的共同视差dx和dy对所供应的左字幕检测原始图和右字幕检测原始图应用一致性检查。进行该一致性检查的可行的方式是通过下面的方程所描述的后匹配:
其中,R_input是左和右输入图像的灰度图像值,并且dx和dy是共同视差值。
如之前所提及的,可提供字幕检测图,(即,图L_subdet_raw和R_subdet_raw)作为非二进制图。在这种情况下,没有将根据上面方程的差值与阈值diffTh进行比较,而是将该差值作为非二进制值直接存储在图中。非二进制图在进一步的图像处理中将是有用的,例如在之后的插值处理中。
图13示出了连续性检查的简单示例。左侧的图示出了字幕水平视差dx是80。因为垂直视差是0,故没有在图中将其示出。在下面的图中,可以看到绿色标记的图像部分具有20的水平视差。假设通过视差提取单元提取了正确的视差。在一致性检查单元中,将左图像中的字幕投影在右图像位置上。这意味着在此示例中,将在左图像中的left_subdet_raw图中所检测的图像像素向左平移80像素,然后将它与右图像对比。正确检测将得出良好匹配(上面的图),并且误报将不能得出匹配(下面的图)。该连续性检查被应用在左至右投影和右至左投影两者上,使得将移除在左和右字幕检测原始图两者上的误报。
因此,一致性检查单元32为左图像L_subdet_map和右图像R_subdet_map连同共同字幕检测视差subdet_dsp一起提供了非常准确的字幕检测图。这些结果被供应至插值单元24并且通过字幕处理单元60处理,使得将中间图像具有准确的并稳定的深度效果插值在字幕区域中。此外,字幕区域信息可以被用于根据用户偏好通过将字幕区域的视差值替换为来自用户的给定的视差值来调整字幕位置(后或前)。
如之前已经提及的,在图1、图2和图3中示出的框图被用来说明方法和设备的功能组成。因此,每个块或者单元表示方法步骤以及图像处理电路的模块。
本公开提供了具体设计用于立体3D视频内容的字幕检测。这个检测的特征之一是非常准确的文本边缘检测,其减少了由非文本边缘引起的误报并且连续性检查还增加了字幕检测的准确度。
显然,根据上述教导本公开可以有许多的变形和变化。因此,应当理解,在所附权利要求的区域内,除了如本文中明确描述的以外,还可以以其他方式实践本发明。
在权利要求中,术语“包括(comprising)”不排除其他元件或步骤,不定冠词“一(a)”或“一个(an)”不排除多个。单个的元件或其他单元可满足权利要求中所列举的多项特征的功能。仅仅是特定措施记载在相互不同的从属权利要求中的事实不表示这些措施的组合不能被用于改进。
如通过软件控制数据处理装置至少部分地实施,已描述了本发明的实施方式,将理解的是还考虑了携带这种软件的诸如光盘、磁盘、半导体存储器等等的非临时性机器可读介质用于表示本发明的实施方式。进一步地,这种软件同样可以以其他形式分发,诸如经由互联网或者其他有线或无线电信系统。
电路是电子组件的结构组合,电子组件包括传统电路元件、包括专用集成电路的集成电路、标准集成电路、专用标准产品以及现场可编程门阵列。进一步地,电路包括中央处理单元、图形处理单元以及根据软件编码编程或者配置的微处理器。尽管电路包括上述硬件执行软件,但电路不包括纯软件。
Claims (18)
1.一种用于检测3D图像内容中的字幕区域的设备,包括:
视差估计单元,用于提供与左图像和右图像相关的视差估计图;
字幕检测单元,被适配于生成用于所述左图像的左字幕检测图和用于所述右图像的右字幕检测图,每个图表示图像内的字幕区域;
视差提取单元,被适配于针对所述字幕区域并且基于所述视差估计图来确定对于所有字幕区域共同的X方向和Y方向的字幕视差值;
插值单元,被适配于接收所述左字幕检测图和所述右字幕检测图以及所述字幕的X视差值和所述字幕的Y视差值以执行图像插值处理,
其中,所述字幕检测单元包括:
文本边缘检测单元,被适配于对所述图像应用文本边缘检测,用于提供表示文本特定边缘的二进制文本边缘图;以及
运动检测单元,被适配于对所述图像和先前图像应用运动检测,用于提供表示具有运动和不具有运动的区域的静止区域图,
其中,所述字幕检测单元进一步包括一致性检查单元,所述一致性检查单元使用通过所述视差提取单元所供应的共同视差值对所供应的左字幕检测图和右字幕检测图应用一致性检查,以移除在左字幕检测图和右字幕检测图两者上的误报。
2.根据权利要求1所述的设备,其中,所述字幕检测单元进一步被适配于使所述二进制文本边缘图和所述静止区域图经过与门,以提供二进制最终边缘图。
3.根据权利要求1所述的设备,其中,所述文本边缘检测单元进一步被适配于检测在所述图像中表示亮度级的上下改变的上下边缘对。
4.根据权利要求3所述的设备,其中,所述文本边缘检测单元进一步被适配于应用梯度滤波器。
5.根据权利要求4所述的设备,其中,所述文本边缘检测单元进一步被适配于对所述亮度级的改变进行分类。
6.根据权利要求2所述的设备,其中,所述字幕检测单元包括时间稳定性单元,所述时间稳定性单元被适配于对所述二进制最终边缘图应用时间稳定性。
7.根据权利要求6所述的设备,其中,所述时间稳定性包括对连续的所述二进制最终边缘图的连续性进行评估。
8.根据权利要求1至7中任一项所述的设备,其中,所述字幕检测单元包括可靠性检查单元,所述可靠性检查单元被适配于将临近的字幕区域合并为矩形边界区域。
9.根据权利要求8所述的设备,其中,所述可靠性检查单元进一步被适配于对所述边界区域进行评估并且舍弃没有达到预定标准的边界区域。
10.根据权利要求9所述的设备,其中,所述标准是所述矩形边界区域的大小。
11.根据权利要求10所述的设备,其中,所述可靠性检查单元进一步被适配于如果所述边界区域的区域大小小于预定值,则所述边界区域作为无效的而被舍弃。
12.根据权利要求9所述的设备,其中,所述视差提取单元进一步被适配于:
对所述边界区域中的所述视差估计图进行评估;以及
基于所述评估来确定X方向和Y方向共同视差值。
13.根据权利要求12所述的设备,其中,所述评估包括对所述边界区域中的视差值应用直方图分析并且选择最高频率的视差值。
14.根据权利要求12所述的设备,其中,所述一致性检查单元被适配于对所述边界区域中的所述共同视差值的一致性进行评估。
15.根据权利要求14所述的设备,其中,所述一致性检查单元进一步被适配于:
使用所述共同视差值对所述左图像和所述右图像的边界区域进行后匹配;以及
生成二进制左字幕检测图和所述二进制右字幕检测图,以二进制值表示是否匹配。
16.根据权利要求4所述的设备,其中,所述梯度滤波器为索贝尔滤波器。
17.一种用于检测3D图像内容中的字幕区域的方法,包括:
提供右图像和左图像;
提供与两个图像相关的视差估计图;
生成用于所述左图像的左字幕检测图和用于所述右图像的右字幕检测图,每个图表示图像内的字幕区域;
针对所述字幕区域并且基于所述视差估计图来确定对于所有字幕区域共同的X方向和Y方向的字幕视差值;
将所述左字幕检测图和所述右字幕检测图以及所述字幕的X视差值和所述字幕的Y视差值用在图像插值处理中;
对所述图像应用文本边缘检测,用于提供表示文本特定边缘的二进制文本边缘图;
对所述图像和先前图像应用运动检测,用于提供表示具有运动和不具有运动的区域的静止区域图;并且
通过视差提取单元供应的共同视差值对所供应的左字幕检测图和右字幕检测图应用一致性检查,以移除在左字幕检测图和右字幕检测图两者上的误报。
18.一种非临时性计算机可读记录介质,所述非临时性计算机可读记录介质中存储有计算机程序,当通过处理器执行所述计算机程序时,
所述计算机程序使根据权利要求17所述的方法被执行。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13167084.6 | 2013-05-08 | ||
EP13167084 | 2013-05-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104144334A CN104144334A (zh) | 2014-11-12 |
CN104144334B true CN104144334B (zh) | 2018-02-27 |
Family
ID=48288936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410193707.9A Active CN104144334B (zh) | 2013-05-08 | 2014-05-08 | 用于立体视频内容的字幕检测 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9762889B2 (zh) |
CN (1) | CN104144334B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9237386B2 (en) | 2012-08-31 | 2016-01-12 | Google Inc. | Aiding discovery of program content by providing deeplinks into most interesting moments via social media |
US9401947B1 (en) | 2013-02-08 | 2016-07-26 | Google Inc. | Methods, systems, and media for presenting comments based on correlation with content |
US10210597B2 (en) * | 2013-12-19 | 2019-02-19 | Intel Corporation | Bowl-shaped imaging system |
US10442355B2 (en) | 2014-09-17 | 2019-10-15 | Intel Corporation | Object visualization in bowl-shaped imaging systems |
KR20180011215A (ko) * | 2015-05-21 | 2018-01-31 | 코닌클리케 필립스 엔.브이. | 이미지를 위한 깊이 맵을 결정하기 위한 방법 및 장치 |
CN105657395A (zh) * | 2015-08-17 | 2016-06-08 | 乐视致新电子科技(天津)有限公司 | 一种3d视频的字幕播放方法及装置 |
CN115830518B (zh) * | 2023-02-15 | 2023-05-09 | 南京瀚元科技有限公司 | 一种红外场景下电力巡检视频智能抽帧的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102143371A (zh) * | 2010-01-28 | 2011-08-03 | 株式会社东芝 | 图像处理装置、三维显示装置和图像处理方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6782132B1 (en) * | 1998-08-12 | 2004-08-24 | Pixonics, Inc. | Video coding and reconstruction apparatus and methods |
US9013551B2 (en) * | 2008-12-01 | 2015-04-21 | Imax Corporation | Methods and systems for presenting three-dimensional motion pictures with content adaptive information |
KR101639053B1 (ko) * | 2009-02-17 | 2016-07-13 | 코닌클리케 필립스 엔.브이. | 3d 이미지 및 그래픽 데이터의 조합 |
CA2752691C (en) * | 2009-02-27 | 2017-09-05 | Laurence James Claydon | Systems, apparatus and methods for subtitling for stereoscopic content |
JP4915457B2 (ja) * | 2009-04-03 | 2012-04-11 | ソニー株式会社 | 情報処理装置、情報処理方法、及び、プログラム |
JP5407968B2 (ja) * | 2009-06-29 | 2014-02-05 | ソニー株式会社 | 立体画像データ送信装置および立体画像データ受信装置 |
JP4620163B2 (ja) | 2009-06-30 | 2011-01-26 | 株式会社東芝 | 静止字幕検出装置、静止字幕を含む画像を表示する映像機器、および静止字幕を含んだ画像の処理方法 |
US20120320153A1 (en) * | 2010-02-25 | 2012-12-20 | Jesus Barcons-Palau | Disparity estimation for stereoscopic subtitling |
GB2478156A (en) * | 2010-02-26 | 2011-08-31 | Sony Corp | Method and apparatus for generating a disparity map for stereoscopic images |
GB2478157A (en) * | 2010-02-26 | 2011-08-31 | Sony Corp | Method and apparatus for cutting between a first and second image sequence in a stereoscopic video |
JP6068329B2 (ja) * | 2010-04-01 | 2017-01-25 | トムソン ライセンシングThomson Licensing | 立体表示用のサブタイトルを生成する方法及びシステム |
JP2011239169A (ja) * | 2010-05-10 | 2011-11-24 | Sony Corp | 立体画像データ送信装置、立体画像データ送信方法、立体画像データ受信装置および立体画像データ受信方法 |
KR20110138151A (ko) | 2010-06-18 | 2011-12-26 | 삼성전자주식회사 | 자막 서비스를 포함하는 디지털 방송 서비스를 제공하기 위한 비디오 데이터스트림 전송 방법 및 그 장치, 자막 서비스를 포함하는 디지털 방송 서비스를 제공하는 비디오 데이터스트림 수신 방법 및 그 장치 |
US20130120544A1 (en) * | 2010-07-21 | 2013-05-16 | Thomson Licensing | Method and device for providing supplementary content in 3d communication system |
JP5633259B2 (ja) * | 2010-09-06 | 2014-12-03 | ソニー株式会社 | 立体画像データ送信装置、立体画像データ送信方法および立体画像データ受信装置 |
US20120206567A1 (en) | 2010-09-13 | 2012-08-16 | Trident Microsystems (Far East) Ltd. | Subtitle detection system and method to television video |
KR101975247B1 (ko) * | 2011-09-14 | 2019-08-23 | 삼성전자주식회사 | 영상 처리 장치 및 그 영상 처리 방법 |
US9100642B2 (en) * | 2011-09-15 | 2015-08-04 | Broadcom Corporation | Adjustable depth layers for three-dimensional images |
FR2982448A1 (fr) * | 2011-11-07 | 2013-05-10 | Thomson Licensing | Procede de traitement d'image stereoscopique comprenant un objet incruste et dispositif correspondant |
WO2013121823A1 (ja) * | 2012-02-16 | 2013-08-22 | ソニー株式会社 | 送信装置、送信方法および受信装置 |
US20130321572A1 (en) * | 2012-05-31 | 2013-12-05 | Cheng-Tsai Ho | Method and apparatus for referring to disparity range setting to separate at least a portion of 3d image data from auxiliary graphical data in disparity domain |
JP6351588B2 (ja) * | 2012-07-20 | 2018-07-04 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | 奥行きフィルタリング用のメタデータ |
-
2014
- 2014-04-25 US US14/262,093 patent/US9762889B2/en active Active
- 2014-05-08 CN CN201410193707.9A patent/CN104144334B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102143371A (zh) * | 2010-01-28 | 2011-08-03 | 株式会社东芝 | 图像处理装置、三维显示装置和图像处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104144334A (zh) | 2014-11-12 |
US20140333720A1 (en) | 2014-11-13 |
US9762889B2 (en) | 2017-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104144334B (zh) | 用于立体视频内容的字幕检测 | |
US8773430B2 (en) | Method for distinguishing a 3D image from a 2D image and for identifying the presence of a 3D image format by feature correspondence determination | |
US10298905B2 (en) | Method and apparatus for determining a depth map for an angle | |
EP2382791B1 (en) | Depth and video co-processing | |
US9070042B2 (en) | Image processing apparatus, image processing method, and program thereof | |
US9398289B2 (en) | Method and apparatus for converting an overlay area into a 3D image | |
US9049336B2 (en) | Auto-detect method for detecting image format and playback method applying the same | |
US20050286758A1 (en) | Color segmentation-based stereo 3D reconstruction system and process employing overlapping images of a scene captured from viewpoints forming either a line or a grid | |
US8817020B2 (en) | Image processing apparatus and image processing method thereof | |
US20120242792A1 (en) | Method and apparatus for distinguishing a 3d image from a 2d image and for identifying the presence of a 3d image format by image difference determination | |
Xiang et al. | No-reference depth assessment based on edge misalignment errors for T+ D images | |
Wang et al. | Stereoscopic image retargeting based on 3D saliency detection | |
CN105791795B (zh) | 立体图像处理方法、装置以及立体视频显示设备 | |
Zhang et al. | Interactive stereoscopic video conversion | |
US20150030233A1 (en) | System and Method for Determining a Depth Map Sequence for a Two-Dimensional Video Sequence | |
Zhu et al. | View-spatial–temporal post-refinement for view synthesis in 3D video systems | |
US10096116B2 (en) | Method and apparatus for segmentation of 3D image data | |
Kim et al. | A study on the possibility of implementing a real-time stereoscopic 3D rendering TV system | |
Nam et al. | Hole‐Filling Methods Using Depth and Color Information for Generating Multiview Images | |
Kakaletsis et al. | A technique for fake 3d (2d-to-3d converted) video recognition | |
Lie et al. | Semi-automatic 2D-to-3D video conversion based on background sprite generation | |
Peng et al. | A depth video processing algorithm based on cluster dependent and corner-ware filtering | |
EP2658266B1 (en) | Text aware virtual view rendering | |
JP6131256B6 (ja) | 映像処理装置及びその映像処理方法 | |
Zhang et al. | Automatic 3D video format detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |