CN103503455B - 针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法 - Google Patents

针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法 Download PDF

Info

Publication number
CN103503455B
CN103503455B CN201180070583.XA CN201180070583A CN103503455B CN 103503455 B CN103503455 B CN 103503455B CN 201180070583 A CN201180070583 A CN 201180070583A CN 103503455 B CN103503455 B CN 103503455B
Authority
CN
China
Prior art keywords
video
reformatting
image
block
captioned test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180070583.XA
Other languages
English (en)
Other versions
CN103503455A (zh
Inventor
张冬青
虹·希瑟·郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN103503455A publication Critical patent/CN103503455A/zh
Application granted granted Critical
Publication of CN103503455B publication Critical patent/CN103503455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/08Systems for the simultaneous or sequential transmission of more than one television signal, e.g. additional information signals, the signals occupying wholly or partially the same frequency band, e.g. by time division
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • H04N7/0122Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal the input and the output signals having different aspect ratios

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

根据一项实施例,一种处理具有字幕文本的电子图像的方法包括:接收电子源图像;检测所述电子源图像中的所述字幕文本;对所述电子源图像进行重定格式;对所述字幕文本进行重定格式;以及将重定格式的字幕文本覆盖在重定格式的电子图像上,以便形成合成图像。

Description

针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法
本发明要求2011年8月4日递交的发明名称为“针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法(System and Method forVideo Caption Re-Overlaying for Video Adaptation and Retargeting)”的第13/198,024号美国临时申请案的在先申请优先权,该临时申请案要求2011年5月2日递交的发明名称为“针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法”的第61/481,421号美国临时申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文本中。
技术领域
本发明涉及图像处理,而且在具体实施例中,涉及一种针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法。
背景技术
移动内容是在移动装置上观看或使用的任何类型的媒体,例如,铃声、图形、折扣优惠、游戏、电影,以及GPS导航。自二十世纪九十年代中期以来,移动电话的使用就在增加,因此,这些装置在日常生活中的重要性也相应增加。移动电话的机主现在可以使用他们的装置来制定日程表、发送和接收文本消息(SMS)、听音乐、看视频、拍短片、兑换购物优惠券、查看办公文档、在地图上得到驾驶指示等等。移动内容的使用也已相应地增加。
由于出现了更快的移动网络,因此,在小屏幕装置上显示视频变得越来越实际。移动视频的形式有多种,包括3GPP、MPEG-4、实时流协议(RTSP),以及Flash Lite。移动视频还可以采用视频流节目的形式通过移动网络进行传输和接收。直播视频也可以经由手机进行流动和分享。
说明字幕是电影和电视节目中的对话的文字版本,通常显示在屏幕的底部。这些说明字幕可以是外语对话的书面翻译,也可以是同种语言对话的书面呈现,其中添加或未添加信息来帮助耳聋或耳背的观众来理解对话,或者协助那些无法理解口语对话或有口音识别问题的人。隐藏字幕就是在电视机、电视屏幕或其他直观显示器上显示文本的过程,以便为想要了解额外信息或解释信息的人提供这些信息。隐藏字幕通常在节目的声音部分出现时呈现该部分的抄本(一字不差或者经过编辑),有时包括非言语成分。通常,说明字幕是出现在视频画面中的图形,而隐藏字幕则作为数据与视频信号一起传输,并且由接收装置嵌入在视频图像中。
发明内容
根据一项实施例,一种处理具有字幕文本的电子图像的方法包括:接收电子源图像;检测所述电子源图像中的所述字幕文本;对所述电子源图像进行重定格式;对所述字幕文本进行重定格式;以及将重定格式的字幕文本覆盖在重定格式的电子图像上,以便形成合成图像。
根据另一实施例,一种用于对视频字幕文本进行重定格式的系统包括视频重定格式块,所述视频重定格式块具有耦接到输入视频源的输入端,以及用于产生重定格式的视频源的输出端。所述系统还包括:字幕检测块,其用于提取视频源中的字幕文本;以及字幕重新布局兼重新覆盖块,其耦接到所述视频重定格式块的所述输出端和所述字幕检测块的输出端。所述字幕重新布局兼重新覆盖块用于对所提取的字幕文本进行重定格式,以及将重定格式的字幕文本覆盖在重定格式的视频源中。
根据又一实施例,一种非瞬时计算机可读媒体上存储有可执行程序,其中所述程序指示微处理器执行以下步骤:接收视频源图像;检测所述视频源图像中的字幕文本;对所述视频源图像进行重定格式;对所述字幕文本进行重定格式;以及将重定格式的字幕文本覆盖在重定格式的视频源图像上,以便形成合成图像。
前述内容已相当宽泛地概述了本发明的实施例的特征,以便更好地理解下文对本发明的详细描述。下文将描述本发明的实施例的额外特征和优点,这些特征和优点形成本发明的权利要求书的标的物。所属领域的技术人员应了解,所揭示的概念和具体实施例可以容易地用作修改或设计其他结构或过程的基础,以便实现与本发明相同的目的。所属领域的技术人员还应意识到,此类等效构造并不脱离所附权利要求书中所阐述的本发明的精神和范围。
附图说明
为了更完整地理解本发明及其优点,现在参考以下结合附图进行的描述,其中:
图1提供视频字幕重新覆盖系统的框图;
图2a到图2b示出字幕重新布局兼覆盖实施例的实例;
图3示出本发明的一项实施例的应用场景;
图4示出方法实施例的流程图;
图5示出可以用于实施本发明的方法的处理系统;以及
图6示出字幕已经调整大小的视频帧与字幕尚未调整大小的视频帧之间的比较情况。
具体实施方式
下文将详细论述当前优选实施例的制作和使用。然而,应了解,本发明提供的许多适用发明性概念可以在多种具体环境中实施。所论述的具体实施例仅仅说明用以制作和使用本发明的具体方式,而并不限制本发明的范围。
本发明的实施例揭示一种用于处理视频图像的系统和方法。一种示例性方法包括:检测字幕文本,例如,使用基于计算机视觉的检测算法进行检测;从视频帧中获得检测到的字幕文本;单独对获得的字幕文本以及所述视频帧的剩余部分进行重调大小;以及将重调大小的字幕文本覆盖回到重调大小的视频帧上。所述方法还包括后处理程序,以便将重新覆盖的字幕文本与背景更加无缝地融合。
在本发明的实施例中,覆盖字幕文本是在视频后处理流水线过程中添加在视频上的文本,以便显示声音抄本(例如,对于外国电影或隐藏字幕而言)或者传达其他信息。在视频自适应和重定目标至诸如移动电话等小屏幕装置的过程中,高分辨率视频(例如,HD分辨率)经过尺寸缩减而成为低分辨率视频,从而适合于小型显示器。覆盖字幕也会与视频内容的其余部分一起缩减。因此,覆盖字幕文本可能会变得过小而不可读。
解决此问题的一个解决方案是通过图像增强或改变编码参数而在视觉上增强字幕文本,因而在编码过程中分配更多位来覆盖文本。但对于小屏幕装置而言,存在的主要问题可能是文本大小较小,而非其他视觉特性。因此,本发明的一些实施例提供一种在显示于较小屏幕(例如,移动电话)上的视频中显示字幕(或其他信息)的技术。在本发明的实施例中,覆盖字幕文本是在视频后处理流水线过程中添加在视频上的文本,以便显示声音抄本或者传达其他信息。有利的是,这一过程可以用于视频自适应和重定目标至小屏幕装置。
本发明的实施例进一步包括一种用于保证覆盖字幕文本的视觉质量的系统和方法,方式是将从输入高分辨率视频中获得的高分辨率字幕文本重新覆盖到尺寸缩减的视频上。首先,使用基于计算机视觉的检测算法来检测字幕文本。随后,从视频帧中获得检测到的字幕文本,以进行单独处理,例如,进行对比度调整。在视频帧重调大小而变得较小之后,将经过适当重调大小和重新布局之后的字幕文本覆盖回到重调尺寸的视频帧上。在这个过程中,字幕文本的尺寸缩减比通常小于视频帧的尺寸缩减比,因此,与常规统一减小的情况相比,这会在尺寸缩减的视频上形成按比例更大且更加可见的字幕文本。进一步实施后处理程序,以便将重新覆盖的字幕文本与背景更加无缝地融合。
本发明的第一实施例在图1中示出,该图提供视频字幕重新覆盖系统100的框图。源视频102被提供作为输入,以输入到视频尺寸缩减块106和字幕检测块104。字幕图像处理块108对检测到的字幕执行图像处理,而且字幕重新布局兼重新覆盖块110将尺寸缩减的视频和检测到的字幕组合起来。融合后处理块112对组合图像执行进一步处理,以便产生合成视频114。
在一项实施例中,源视频102是常规的高清晰度(HD)或标准清晰度(SD)视频,但是包括,但不限于,DCIF、16CIF、4SIF、CIF以及SIF的其他图像分辨率类型可以同样受益于本文本所论述的技术。在此实例中,合成视频是用于移动装置的视频,分辨率为480x320等。在移动视频适配场景下,视频经过尺寸缩减,以便适应小型显示器。在替代实施例中,其他图像类型和分辨率都可以用于源视频和合成视频。
在图1中,字幕检测块104使用自动字幕检测算法来检测表示成边界框或其他形式的字幕区域。在检测到字幕区域之后,获得这些字幕区域并将它们馈送到字幕图像处理块108。字幕图像处理块108会执行字幕图像增强处理过程,例如,调整对比度、使检测到的字幕的边缘锐化,或者其他图像处理操作,包括但不限于,去噪和直方图均衡化。
在一项实施例中,字幕检测块104用于检测字幕在视频帧中的位置。在一些实施例中,使用以下公开案中描述的字幕检测技术:张(Zhang)等人的“使用时空3D方法在视频中进行的时间一致字幕检测(TemporallyConsistent Caption Detection in Videos Using a Spatiotemporal 3DMethod)”,IEEE图像处理国际会议(ICIP)2009,第1881到1884页,以及张(Zhang)等人的“用于检测和识别视频中的叠加文本的一般技术和特定领域技术(General and Domain-Specific Techniques for Detecting andRecognizing Superimposed Text in Video)”IEEE图像处理国际会议(ICIP)2002,第I-593-6页,这些公开案的全文以引入的方式并入本文本中。
一项字幕检测工作流程的实施例包括三个步骤:特征提取、候选像素分组,以及后滤波处理。在特征提取步骤,提取视频帧中每个像素周围的特征,例如,结构和运动特征。该像素被确定为字幕候选像素,或者并不基于这些特征。决定过程可以通过自动分类来完成。随后,候选像素分组步骤将彼此接近的候选像素分组在一起,以形成模糊点(blob)。每个模糊点都可以是潜在的文本区域。随后执行一些几何规则来移除不合情理的模糊点。此类规则的一个实例是防止区域的纵横比变得过大。最后,应用后滤波过程,以便通过时域滤波来移除可能的错误正区域。在一项实施例中,字幕检测算法的输出是字幕文本的边界框。字幕图像是使用边界框输从视频帧中获得的。在替代实施例中,将输入视频帧分成块,并且针对每个块直接执行分类算法,以确定块中是否含有字幕文本。在此类实施方案中,可以避开特征提取阶段。
在一些实施例中,字幕图像处理块108对所提取的字幕图像进行预处理。可以应用多种预处理过程,包括但不限于,增加对比度,以及使字幕的边缘锐化。在替代实施例中,可以应用其他图像处理操作。在进一步实施例中,可以省略字幕图像处理块108。
视频尺寸缩减块执行视频尺寸缩减,以便使用所属领域已知的技术将视频重调大小成较小。在一些实施例中,视频尺寸缩减块进一步将字幕图像重调大小成更小。通过缩减视频的尺寸,大尺寸视频可以转换成较小的视频,以适应小屏幕,例如,智能手机等便携式电子装置所用的那些屏幕。在一项实施例中,例如,尺寸缩减功能可以通过使用特定的开源软件而由标准尺寸缩减算法来实现,例如,OpenCV或其他算法。在一些实施例中,减小操作还同时应用于视频帧和所提取的字幕。为了让字幕按比例更大并且更易于为人眼所见,就要使字幕图像的减小比小于视频帧的减小比,具体取决于减小定量和相应的视频格式。
在一些实施例中,视频尺寸缩减块106还可以影响视频格式的改变,例如,纵横比。在进一步实施例中,可以在并未缩减视频尺寸的情况下调整视频的纵横比。在其他实施例中,系统100可以具有取代或补充尺寸缩减块106的尺寸增加块(未示出),所述尺寸增加块用于增加视频的尺寸。
字幕重新布局兼重新覆盖块110得到增强字幕图像,而且如果在一些实施例中,检测到的字幕含有一个以上图像片段,那么所述字幕重新布局兼重新覆盖块对字幕图像进行重新布局。重新布局之后,将产生的字幕图像重新覆盖在尺寸缩减的视频上。字幕重新布局兼重新覆盖块110将经过提取、处理和单独重调大小的字幕框覆盖在减小的输入视频上。由于字幕框的减小比可能比视频帧要小,因此,一个潜在问题就是覆盖的字幕框可能会延伸到视频帧的边界之外。因此,在一些实施例中,字幕框要首先重定格式,然后再进行覆盖。
可以使用多种方法来对字幕框重定格式。例如,一种方法是将长文本行截成两行或多行。为了避免字符分段,可以使用字符分割算法,例如,“用于检测和识别视频中的叠加文本的一般技术和特定领域技术”中所述的那些使用字幕文本图像的投影轮廓的算法,以便首先发现字符分割点,并且只在分割点处截断文本行。图2a到图2b示出此类算法的输出的一个实例。图2a示出比视频帧122长的文本行120,而图2b示出视频帧122重定格式以将文本行124一分为二之后,该视频帧中的文本行。在其他实施例中,可以执行其他重新布局操作。重新布局之后,字幕框覆盖在视频帧上,例如,方式为用单独重调大小的字幕图像中的内容替换视频帧中的替换矩形内的图像内容。在一项实施例中,替换矩形的大小与单独重调大小的字幕图像相同,而且该矩形的左上角是在重新布局的过程中确定的。
在一些实施例中,可选的融合后处理块112采用无缝融合算法将处理过的字幕图像融合在视频帧上,因而处理过的帧看起来更自然而且似乎没有人工痕迹。在一项实施例中,使用泊松图像编辑(PIE),如佩雷斯(Perez)等人在“泊松图像编辑(Poisson Image Editing)”中所述,ACMSIGGRAPH公报2003,第22卷,第313到318页,该文档的全文以引入的方式并入本文本中。PIE这种方法使用基于偏微分方程(PDE)的方法来将覆盖的小图像组合在大图像上,同时使对象与下方图像之间平滑过渡。在替代实施例中,也可以将其他现有的图像混合算法用于融合过程,例如,在替换矩形的周围应用平滑滤波器。图2示出在典型CDN(内容分布网络)应用场景中使用发明方法的典型系统架构。
图3示出流视频系统200的实施例,所述系统将源视频220作为输入并且发送适合于在移动装置210上观看的合成视频222。系统200可以在内容分布网络(CDN)应用场景中使用这些实施例系统和方法。在一项实施例中,原始或源服务器202吸入由内容提供商等提供的源视频220。随后,自适应服务器204执行视频适配或自适应任务,例如,视频转码。本发明的系统的实施例可以结合转码过程一起执行。随后,适配视频缓存在一个或多个边缘服务器206处,所述边缘服务器更接近客户。边缘服务器206借助互联网208或其他网络将适配视频流到观看装置210。例如,观看装置210可以是移动电话、计算机、智能手机,或者其他消费者或非消费者装置。
图4示出方法实施例的流程图300。在步骤302中,对输入图像中的字幕进行检测。在一项实施例中,所述图像是视频图像,然而可以使用其他图像类型,例如,静态图像。接着,在步骤304中,缩减输入图像的尺寸。在一些实施例中,步骤302和304可以同时执行。在步骤306中,对字幕执行图像处理,并且在步骤308中,根据尺寸缩减的视频的减小比来对字幕重定格式。在一些实施例中,应用于字幕的减小比小于应用于图像的其余部分的减小比,这是为了让观看尺寸减小的画面的人能看见并阅读字幕
在步骤310中,通过将重定格式的字幕图像放入尺寸缩减的视频帧中,将字幕重新覆盖在图像上。最后,在步骤312中,将字幕和图像融合,以形成融合图像。在一些实施例中,应用后处理,以便通过使缝合边界平滑而使覆盖在图像上的字幕看起来更自然,如上文实施例所述。
图5示出可以用于实施本发明的方法的处理系统400。在此情况下,主要处理过程在处理器402中执行,所述处理器可以是微处理器、数字信号处理器或任何其他合适的处理装置。在一些实施例中,可以使用多个处理器来实施处理器402。程序代码(例如,实施上述算法的代码)和数据可以存储在存储器404中。存储器404可以是诸如DRAM等本地存储器,或者大容量存储器,例如,硬盘驱动器、光盘驱动器或其他存储器(可以是本地或远程存储器)。虽然使用单个块在功能上说明了存储器,但应理解,可以使用一个或多个硬件块来实施该功能。
在一项实施例中,处理器402可以用于实施图1所示的各种(或所有)单元。例如,所述处理器可以在不同时间用作特定的功能单元,以实施执行本发明的技术时所涉及的子任务。或者,可以使用不同的硬件块(例如,与处理器相同或不同)来执行不同功能。在其他实施例中,某些子任务由处理器402执行,而其他子任务则使用单独的电路来执行。
图5还示出了I/O端口406,所述端口可以用于将视频和/或图像数据提供给处理器,并且从所述处理器中得到所述视频和/或图像数据。用虚线示出的视频源408(目的地并未明确示出)表明它不是系统的必需部分。例如,所述视频源可以通过诸如互联网等网络或通过本地接口(例如,USB或LAN接口)链接到系统。
在一项实施例中,一种处理具有字幕文本的电子图像的方法包括:接收电子源图像;检测所述电子源图像中的所述字幕文本;对所述电子源图像进行重定格式;对所述字幕文本进行重定格式;以及将重定格式的字幕文本覆盖在重定格式的电子图像上,以便形成合成图像。对所述电子源图像进行重定格式可以包括使用第一尺寸缩减比来缩减所述电子源图像的尺寸,而对所述字幕文本进行重定格式可以包括使用第二尺寸缩减比来缩减所述字幕文本的尺寸。在一项实施例中,所述第一尺寸缩减比大于所述第二尺寸缩减比。所述电子源图像可以包括视频图像,例如,所述视频图像为高清晰度视频图像,而所述合成图像可以包括用于移动视频的低清晰度图像。或者,可以使用其他图像类型。
在一项实施例中,所述方法还包括对所述重定格式的字幕文本和所述重定格式的电子图像进行后处理。后处理过程可以包括将图像混合算法应用于所述重定格式的字幕文本和所述重定格式的电子图像。在一些实施例中,检测所述字幕文本包括提取所述字幕文本的特征,以及基于所提取的特征而将所述字幕文本的候选像素分组。
在一些实施例中,所述方法进一步包括基于检测所述字幕文本,从所述电子源图像中获得所述字幕文本,而且在一些实施例中,对所述字幕文本进行重定格式可以包括将一行所述字幕文本分成多行。
在一项实施例中,一种用于对视频字幕文本进行重定格式的系统包括视频重定格式块、字幕检测块,以及字幕重新布局兼重新覆盖块。所述视频重定格式块具有耦接到输入视频源的输入端,以及用于产生重定格式的视频源的输出端,而所述字幕检测块用于提取视频源中的字幕文本。所述字幕重新布局兼重新覆盖块耦接到所述视频重定格式块的所述输出端和所述字幕检测块的输出端。在一项实施例中,所述字幕重新布局兼重新覆盖块用于对所提取的字幕文本进行重定格式,以及将重定格式的字幕文本覆盖在重定格式的视频源中。
在一项实施例中,所述系统进一步包括字幕图像处理块,所述字幕图像处理块耦接在所述字幕检测块与所述字幕重新布局兼重新覆盖块之间。所述字幕图像处理块可以用于对所提取的字幕进行预处理。在一些实施例中,所述字幕图像处理块用于调整所提取的字幕的对比度,而且在一些实施例中,所述视频重定格式块用于降低视频源的分辨率。
所述系统还可以包括耦接到所述字幕重新布局兼重新覆盖块的输出端的融合后处理块,其中所述融合后处理块用于使重定格式的字幕文本与重定格式的视频源在视觉上混合。在一些实施例中,所述字幕重新布局兼重新覆盖块用于将一行字幕文本分成多行。此外,在一些实施例中,例如,所述视频重定格式块、所述字幕检测块以及所述字幕重新布局兼重新覆盖块可以由在计算机服务器上运行的软件实施。
在一项实施例,一种非瞬时计算机可读媒体上存储有可执行程序。所述程序指示微处理器执行以下步骤:接收视频源图像;检测所述视频源图像中的字幕文本;对所述视频源图像进行重定格式;对所述字幕文本进行重定格式;以及将重定格式的字幕文本覆盖在重定格式的视频源图像上,以便形成合成图像。在一些实施例中,对所述视频源图像进行重定格式包括使用第一尺寸缩减比来缩减电子源图像的尺寸,而对所述字幕文本进行重定格式包括使用第二尺寸缩减比来缩减所述字幕文本的尺寸。所述第一尺寸缩减比可以大于所述第二尺寸缩减比。
在一项实施例中,所述程序进一步指示所述微处理器对所述重定格式的字幕文本和所述重定格式的视频源图像执行后处理。在一项实施例中,检测所述字幕文本的步骤可以包括提取所述字幕文本的特征,以及基于所提取的特征而将所述字幕文本的候选像素分组。此外,对所述字幕文本进行重定格式的步骤可以包括将一行字幕文本分成多行。
各项实施例的优点包括能够使视频字幕在诸如移动电话等小屏幕装置上更为可读。例如,在一项实施例中,所述系统和方法检测字幕区域、处理检测到的字幕区域、重调字幕区域的尺寸并进行重新布局,而且在视频适配和重定目标的过程中,将处理过的字幕覆盖在尺寸缩减的视频上,以便提高字幕可见度。
对检测到的字幕进行重新布局的过程也是有利的特征,因为检测到的字幕可以包括多个片段。在一些情况下,如果这些检测到的字幕采用原始的空间布置覆盖在视频帧上,那么字幕可能无法适应减小的视频帧。实施例重新布局过程可以用于确保字幕可以重新覆盖在帧边界内。在一些实施例中,使用预定义的一组布局规则来执行重新布局过程。
重新覆盖兼后处理过程是另一个有利特征,该过程将字幕覆盖在减小的视频帧中的合适位置。此实施例过程可以将字幕图像与下方的视频内容融合,而不会出现明显的人工编辑痕迹。这个字幕融合过程可以由某些现有的图像处理算法实现,例如,泊松图像编辑。
此外,本发明的实施例可以在多种背景下使用。例如,多项实施例可以并入内容递送网络(CDN)或媒体云产品中的部件或模块。此部件可以保证小屏幕装置中播放的视频的字幕文本的视觉质量。在视频重定目标至小屏幕装置后,覆盖文本的质量得以保证。
一个益处在于,在观看诸如移动电话等小屏幕装置上播放的视频内容时,媒体用户可以体验到更好的质量。当视频传输到诸如移动电话等小屏幕装置时和/或在低带宽环境下,视频上的覆盖字幕质量得到保证。
图6示出本发明的一些实施例的又一优点。视频帧502代表输入图像,而视频帧504示出尺寸缩减版图像502。如图所示,尺寸缩减帧504中的文本字幕510明显小于原始视频帧502中的文本字幕508。另一方面,具有文本字幕512的帧506根据实施例系统和方法单独重调大小。因此,帧506中的视频字幕大小明显大于尺寸缩减帧504中的字幕510。
虽然已参考说明性实施例描述了本发明,但此描述并不意图限制本发明。所属领域的技术人员在参考该描述后会了解说明性实施例的各种修改和组合,以及本发明的其他实施例。因此,所附权利要求书意图涵盖任何此类修改或实施例。

Claims (16)

1.一种处理具有字幕文本的电子图像的方法,所述方法包括:
接收电子源图像;
检测所述电子源图像中的所述字幕文本;
对所述电子源图像进行重定格式;
对所述字幕文本进行重定格式;以及
将重定格式的字幕文本覆盖在重定格式的电子图像上,以便形成合成图像;
其中所述电子源图像包括高清晰度视频图像,所述合成图像包括用于移动视频的低清晰度图像,所述字幕文本是在视频后处理流水线过程中添加在所述重定格式的电子图像上的文本,以便显示声音抄本或者传达其他信息。
2.根据权利要求1所述的方法,其中对所述电子源图像进行重定格式包括使用第一尺寸缩减比来缩减所述电子源图像的尺寸。
3.根据权利要求2所述的方法,其中对所述字幕文本进行重定格式包括使用第二尺寸缩减比来缩减所述字幕文本的尺寸。
4.根据权利要求3所述的方法,其中所述第一尺寸缩减比大于所述第二尺寸缩减比。
5.根据权利要求1所述的方法,其中所述电子源图像包括视频图像。
6.根据权利要求1所述的方法,其进一步包括对所述重定格式的字幕文本和所述重定格式的电子图像进行后处理。
7.根据权利要求6所述的方法,其中后处理过程包括将图像混合算法应用于所述重定格式的字幕文本和所述重定格式的电子图像。
8.根据权利要求1所述的方法,其中检测所述字幕文本包括:
提取所述字幕文本的特征;以及
基于所提取的特征,将所述字幕文本的候选像素分组。
9.根据权利要求1所述的方法,其进一步包括基于检测所述字幕文本,从所述电子源图像中获得所述字幕文本。
10.根据权利要求1所述的方法,其中对所述字幕文本进行重定格式包括将一行所述字幕文本分成多行。
11.一种用于对视频字幕文本进行重定格式的系统,所述系统包括:
视频重定格式块,其具有耦接到输入视频源的输入端,以及用于产生重定格式的视频源的输出端;
字幕检测块,其用于提取所述视频源中的字幕文本;以及
字幕重新布局兼重新覆盖块,其耦接到所述视频重定格式块的所述输出端和所述字幕检测块的输出端,所述字幕重新布局兼重新覆盖块用于对所提取的字幕文本进行重定格式,以及将重定格式的字幕文本覆盖在重定格式的视频源中以便形成合成图像;
其中所述视频重定格式块用于降低所述视频源的分辨率,所述视频源包括高清晰度视频图像,所述合成图像包括用于移动视频的低清晰度图像,所述字幕文本是在视频后处理流水线过程中添加在所述重定格式的视频源上的文本,以便显示声音抄本或者传达其他信息。
12.根据权利要求11所述的系统,其进一步包括字幕图像处理块,所述字幕图像处理块耦接在所述字幕检测块与所述字幕重新布局兼重新覆盖块之间,所述字幕图像处理块用于对所提取的字幕进行预处理。
13.根据权利要求12所述的系统,其中所述字幕图像处理块用于调整所提取的字幕的对比度。
14.根据权利要求11所述的系统,其进一步可以包括融合后处理块,所述融合后处理块耦接到所述字幕重新布局兼重新覆盖块的输出端,所述融合后处理块用于使所述重定格式的字幕文本与所述重定格式的视频源在视觉上混合。
15.根据权利要求11所述的系统,其中所述字幕重新布局兼重新覆盖块用于将一行字幕文本分成多行。
16.根据权利要求11所述的系统,其中所述视频重定格式块、所述字幕检测块以及所述字幕重新布局兼重新覆盖块由在计算机服务器上运行的软件实施。
CN201180070583.XA 2011-05-02 2011-11-21 针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法 Active CN103503455B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161481421P 2011-05-02 2011-05-02
US61/481,421 2011-05-02
US13/198,024 US8754984B2 (en) 2011-05-02 2011-08-04 System and method for video caption re-overlaying for video adaptation and retargeting
US13/198,024 2011-08-04
PCT/CN2011/082511 WO2012149822A1 (en) 2011-05-02 2011-11-21 System and method for video caption re-overlaying for video adaptation and retargeting

Publications (2)

Publication Number Publication Date
CN103503455A CN103503455A (zh) 2014-01-08
CN103503455B true CN103503455B (zh) 2016-11-09

Family

ID=47090003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180070583.XA Active CN103503455B (zh) 2011-05-02 2011-11-21 针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法

Country Status (5)

Country Link
US (1) US8754984B2 (zh)
EP (1) EP2695381A4 (zh)
KR (1) KR101527672B1 (zh)
CN (1) CN103503455B (zh)
WO (1) WO2012149822A1 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL2149827T3 (pl) * 2008-07-28 2015-03-31 Grieshaber Vega Kg Generowanie obrazów do stosowania w wielojęzycznych programach operacyjnych
EP2525568B1 (en) * 2011-05-19 2017-11-15 EchoStar Technologies L.L.C. Automatic subtitle resizing
SG10201510667SA (en) * 2012-06-27 2016-01-28 Agency Science Tech & Res Text detection devices and text detection methods
US9628865B2 (en) * 2012-09-10 2017-04-18 Apple Inc. Enhanced closed caption feature
GB2514410A (en) * 2013-05-24 2014-11-26 Ibm Image scaling for images including low resolution text
US9456170B1 (en) * 2013-10-08 2016-09-27 3Play Media, Inc. Automated caption positioning systems and methods
US9305239B2 (en) 2014-05-13 2016-04-05 Samsung Electronics Co., Ltd. Detecting and processing small text in digital media
CN107005624B (zh) * 2014-12-14 2021-10-01 深圳市大疆创新科技有限公司 处理视频的方法、系统、终端、装置、处理器和存储介质
US20160314130A1 (en) * 2015-04-24 2016-10-27 Tribune Broadcasting Company, Llc Computing device with spell-check feature
US9900665B2 (en) 2015-06-16 2018-02-20 Telefonaktiebolaget Lm Ericsson (Publ) Caption rendering automation test framework
US9740952B2 (en) * 2015-06-16 2017-08-22 Telefonaktiebolaget Lm Ericsson (Publ) Methods and systems for real time automated caption rendering testing
JP6969386B2 (ja) * 2016-01-26 2021-11-24 ソニーグループ株式会社 受信装置、受信方法、送信装置および送信方法
CN106303579A (zh) * 2016-09-20 2017-01-04 上海斐讯数据通信技术有限公司 视频播放装置和方法
CN108174308B (zh) * 2017-12-28 2020-06-16 Oppo广东移动通信有限公司 视频播放方法、视频播放装置、存储介质及电子设备
CN110620947A (zh) * 2018-06-20 2019-12-27 北京优酷科技有限公司 字幕显示区域确定方法及装置
CN110620946B (zh) * 2018-06-20 2022-03-18 阿里巴巴(中国)有限公司 字幕显示方法及装置
GB2575117B (en) * 2018-06-29 2021-12-08 Imagination Tech Ltd Image component detection
US11665312B1 (en) * 2018-12-27 2023-05-30 Snap Inc. Video reformatting recommendation
US10887542B1 (en) 2018-12-27 2021-01-05 Snap Inc. Video reformatting system
US11336902B1 (en) * 2019-06-27 2022-05-17 Meta Platforms, Inc. Systems and methods for optimizing video encoding
CN110287949B (zh) * 2019-07-30 2021-04-06 腾讯音乐娱乐科技(深圳)有限公司 视频片段提取方法、装置、设备及存储介质
CN111225288A (zh) * 2020-01-21 2020-06-02 北京字节跳动网络技术有限公司 展示字幕信息的方法、装置以及电子设备
CN114514560A (zh) * 2020-05-13 2022-05-17 谷歌有限责任公司 图像替换修复
US11838375B2 (en) * 2020-11-12 2023-12-05 Harman International Industries, Incorporated Universal software communication bus
WO2022116070A1 (en) * 2020-12-03 2022-06-09 Qualcomm Incorporated Content-aware bifurcated upscaling
CN113438514B (zh) * 2021-04-26 2022-07-08 深圳Tcl新技术有限公司 字幕处理方法、装置、设备及存储介质
KR102335096B1 (ko) * 2021-05-21 2021-12-03 손승호 전경 동영상 및 배경 동영상을 합성하는 영상 제작 서비스 제공 시스템
CN113365145B (zh) * 2021-06-03 2022-11-08 北京字节跳动网络技术有限公司 视频处理、视频播放方法、装置、计算机设备及存储介质
US11735186B2 (en) 2021-09-07 2023-08-22 3Play Media, Inc. Hybrid live captioning systems and methods

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6348951B1 (en) * 1999-02-03 2002-02-19 Lg Electronics, Inc. Caption display device for digital TV and method thereof
CN1438802A (zh) * 2001-12-28 2003-08-27 索尼公司 显示设备、显示方法、程序、存储介质和显示系统
CN1658227A (zh) * 2004-02-18 2005-08-24 三星电子株式会社 检测视频文本的方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07107415A (ja) * 1993-10-08 1995-04-21 Hitachi Ltd テレビジョン信号処理装置
US6097442A (en) * 1996-12-19 2000-08-01 Thomson Consumer Electronics, Inc. Method and apparatus for reformatting auxiliary information included in a television signal
US7278117B2 (en) * 2002-07-02 2007-10-02 Hewlett-Packard Development Company, L.P. Image segmentation and warping for specialized display viewing
KR100970727B1 (ko) * 2002-10-15 2010-07-16 삼성전자주식회사 텍스트 데이터와 다운로드 폰트를 이용한 다국어 지원용서브 타이틀 데이터가 기록된 정보저장매체 및 그 장치
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US7106381B2 (en) * 2003-03-24 2006-09-12 Sony Corporation Position and time sensitive closed captioning
US20090207305A1 (en) * 2005-02-28 2009-08-20 Panasonic Corporation Caption Display Device
US7683930B2 (en) * 2005-06-20 2010-03-23 Microsoft Corporation Portable vertical blanking interval signal
CN1956541A (zh) 2005-10-25 2007-05-02 影腾媒体科技股份有限公司 影像压缩方法
JP4253327B2 (ja) * 2006-03-24 2009-04-08 株式会社東芝 字幕検出装置及び字幕検出方法ならびにプルダウン信号検出装置
JP5067599B2 (ja) * 2006-06-08 2012-11-07 ソニー株式会社 映像信号処理装置、映像表示装置および映像表示方法
US7724957B2 (en) * 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
JP2009065640A (ja) * 2007-08-10 2009-03-26 Sharp Corp 画像作成装置、画像作成方法、画像作成プログラム、および画像作成プログラムを記録したコンピュータ読取り可能な記録媒体
TW201104563A (en) * 2009-07-27 2011-02-01 Ipeer Multimedia Internat Ltd Multimedia subtitle display method and system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6348951B1 (en) * 1999-02-03 2002-02-19 Lg Electronics, Inc. Caption display device for digital TV and method thereof
CN1438802A (zh) * 2001-12-28 2003-08-27 索尼公司 显示设备、显示方法、程序、存储介质和显示系统
CN1658227A (zh) * 2004-02-18 2005-08-24 三星电子株式会社 检测视频文本的方法和装置

Also Published As

Publication number Publication date
CN103503455A (zh) 2014-01-08
EP2695381A1 (en) 2014-02-12
EP2695381A4 (en) 2014-10-22
US20120281139A1 (en) 2012-11-08
US8754984B2 (en) 2014-06-17
WO2012149822A1 (en) 2012-11-08
KR20130140904A (ko) 2013-12-24
KR101527672B1 (ko) 2015-06-09

Similar Documents

Publication Publication Date Title
CN103503455B (zh) 针对视频自适应和重定目标进行视频字幕重新覆盖的系统和方法
US9870801B2 (en) Systems and methods for encoding multimedia content
US10575067B2 (en) Context based augmented advertisement
KR101685888B1 (ko) 상세를 유지하는 이미지 블러
US20160198097A1 (en) System and method for inserting objects into an image or sequence of images
US20130188862A1 (en) Method and arrangement for censoring content in images
TW201036437A (en) Systems and methods for providing closed captioning in three-dimensional imagery
CN108010037A (zh) 图像处理方法、装置及存储介质
CN108141634B (zh) 用于产生预览图像的方法和设备以及计算机可读存储介质
US9349204B1 (en) Systems and methods for generating videos using animation and motion capture scene information
KR101791917B1 (ko) 일반 영상을 가상 현실 영상으로 자동 변환하는 방법 및 이를 이용한 장치
CN108076359B (zh) 业务对象的展示方法、装置和电子设备
CN106303694A (zh) 一种多媒体幻灯片制备的方法
WO2023065961A1 (zh) 视频植入方法、装置、设备及计算机可读存储介质
Hach et al. Seamless 3D interaction of virtual and real objects in professional virtual studios
EP2693426A1 (en) Display apparatus, image post-processing apparatus and method for image post-processing of contents
CN110597577A (zh) 一种头戴可视设备及其分屏显示方法和装置
CN106303366B (zh) 一种基于区域分类编码的视频编码的方法及装置
Řeřábek et al. JPEG backward compatible coding of omnidirectional images
CN108737892B (zh) 用于渲染具有内容的媒体的系统及计算机实现方法
KR101970787B1 (ko) 안드로이드 플랫폼 기반 듀얼 메모리를 이용한 비디오 디코딩 장치 및 방법
JP2017143339A (ja) 画像合成装置、画像合成装置の動作方法およびコンピュータプログラム
CN112399250A (zh) 基于图像识别的影视节目海报生成方法及装置
US12101529B1 (en) Client side augmented reality overlay
US20230127589A1 (en) Real-time video overlaying and sharing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant