CN102845067B - 三维(3d)呈现中的字幕 - Google Patents

三维(3d)呈现中的字幕 Download PDF

Info

Publication number
CN102845067B
CN102845067B CN201180017612.6A CN201180017612A CN102845067B CN 102845067 B CN102845067 B CN 102845067B CN 201180017612 A CN201180017612 A CN 201180017612A CN 102845067 B CN102845067 B CN 102845067B
Authority
CN
China
Prior art keywords
captions
commentary
parallax
adjustment
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201180017612.6A
Other languages
English (en)
Other versions
CN102845067A (zh
Inventor
威廉·吉本斯·雷德曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
International Digital Madison Patent Holding SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN102845067A publication Critical patent/CN102845067A/zh
Application granted granted Critical
Publication of CN102845067B publication Critical patent/CN102845067B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/183On-screen display [OSD] information, e.g. subtitles or menus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Processing Or Creating Images (AREA)

Abstract

描述了一种准备用于立体呈现的字幕的方法和系统。该方法允许通过将字幕的初始覆盖区与图像显示区相比较来显示字幕,而不会被删节或遮盖。如果初始覆盖区的任何部分位于图像显示区之外,则根据调整信息调整字幕,使得经调整的字幕完全位于图像显示区内,调整信息包括以下中的至少一个:缩放因子、平移量以及视差变化。此外,可以通过考虑要与字幕一起显示的下层图像中的一个或多个对象的视差来调整字幕的视差。

Description

三维(3D)呈现中的字幕
相关申请的交叉引用
本专利申请要求2010年4月1日递交的美国临时专利申请序号No.61/319948“三维(3D)呈现中的字幕(SubtitlesinThree-Dimensional(3D)Presentation)”的优先权权益,将其全部结合在此作为参考。
技术领域
本发明涉及准备供立体呈现使用的字幕。
背景技术
在三维(3D)数字电影剧场呈现中,屏幕上的遮挡(masking)可能模糊或侵占在已经显示了字幕或解说词,因此必然要对字幕进行修改,例如字幕在屏幕上的位置和/或尺寸。同样的情形会出现在3D视频显示中,如果内容或原始字幕的全光栅占用比监视器的显示区域大的区域。在这种情形下,在3D中,不仅必须调整字幕或解说词的大小或尺寸和/或针对每只眼睛的图像以协同的方式重新放置字幕或解说词,而且必须存在针对解说词所覆盖的3D内容的处所,使得解说词不会干扰内容中元素的视深度,也不会不适合地一直显示到相对于下层内容的前景中。术语“视深度(apparentdepth)”是观看者相对于屏幕的感知,这由左眼与右眼图像之间的视差引起。3D呈现通常受限于提供视深度,这是因为对于图像中的相同元素不同位置处的观看者会感知到不同的视深度。
在3D呈现中,解说词的“覆盖”或“合成”提供了解说词与关联的图像或内容的组合,以在图像空间内可读地向观看者呈现。这必然模糊一部分图像,其中手动地选择(例如,通过美工或字幕技师)或者在一些情况下自动选择被模糊的图像部分。解说词整体上或部分可以是半透明的。
在3D的情况下,字幕通常具有通常以像素度量的指定视差(即,右眼字幕与左眼字幕之间的偏移),使得负责呈现文本的系统可以与3D图像内容一起呈现文本,并且具有在右眼字幕与左眼字幕之间应用的适当偏移,使得正确放置文本和3D图像内容。当右眼和左眼之间的位置偏移为零时,字幕看起来在屏幕的表面。当位置偏移将针对右眼的字幕置于针对左眼的字幕的右侧时,字幕看起来在屏幕的后面。如果针对右眼的字幕在针对左眼的字幕的左侧,则字幕看起来在屏幕的前面。
其他人在共同转让的专利申请(例如,Redmann在题为“MethodandApparatusforPreparingSubtitlesforDisplay”的公开PCT专利申请WO2010/096030中,以及Izzat等人在题为“SystemandMethodforCombiningTextwithThree-DimensionalContent”的PCT公开专利申请WO2008/115222中)中已经描述了用于字幕显示的各种方法和系统。两个PCT申请中的教导的全部内容通过引用合并于此。
通常,剧场呈现中的解说词和字幕具有不同意义。例如,解说词是指主音频语言的注释,而字幕通常是除主音频以外的语言。然而,这二者是在主图像上应用文本的实例。由于本发明实施例等同地应用于解说词和字幕,因此这些术语在本讨论中是可互换使用的。
解说词和字幕也经常会面对被‘开启’或‘关闭’。开启的解说词或字幕对于所有观看者可见,并且被‘叠印(burned)’,即成为主图像(例如,用于呈现或显示的图像或内容)的不可分元素。然而,关闭的解说词或字幕不作为主图像的一部分提供。取而代之,结合主图像或内容的显示,通过监视器或投影仪或驱动监视器的机顶盒或服务器的动作来显示关闭的解说词或字幕。
在一些情况下,例如,在数字电影呈现中,向字幕或解说词提供针对它们在主图像中的布置的元数据。在其他情况(例如,电视)下,提供不具有布置信息的关闭的解说词,并且布置留给呈现系统负责。
大多数电视系统提供关闭的解说词作为由显示设备呈现的文本流。在数字电影系统中,可以提供解说词或字幕作为定时文本,其中可以缺省或明确知道和提供的字体来呈现文本串,或者解说词或字幕可以作为文本的静止帧图像提供。
发明内容
本发明原理的实施例提供一种准备用于立体呈现的字幕或解说词的方法和系统。可以按照不同方式调整字幕,使得字幕可以在给定图像显示区域内显示,而不会被删节或模糊。这样的调整包括通过应用缩放因子来改变字幕的尺寸、在图像空间中平移字幕,改变字幕的视差或视深度或其组合。由于可以通过考虑下层图中图其他对象或元素的视差来进行对字幕的视差调整,因此可以使深度提示冲突(depthcurconflict)最小化,获得改善的立体观看体验。
一个实施例提供了一种准备用于立体呈现的字幕的方法,包括:根据调整信息来处理字幕,并且将处理后的字幕合成到至少一个立体图像中,以产生用于立体呈现的至少一个变换的立体图像。
另一实施例提供了一种准备用于立体呈现的字幕的系统,包括:第一处理器,被配置用于根据以下至少一个的调整信息来自动处理字幕:缩放因子、平移量和视差变化,并且将处理后的字幕合成到立体图像中,以产生用于立体呈现的变换的立体图像。
附图说明
通过考虑结合附图的以下详细描述,可以更加易于理解本发明的教导,在附图中:
图1示出了呈现中屏幕的示例;
图2示出了图1场景中3D镜头或合成的左眼视图;
图3示出了图1场景中3D镜头或合成的右眼视图;
图4示出了通过重叠图2-3的左眼图像和右眼图像而形成的立体视图;
图5示出了具有解说词的立体图像,示出了解说词和各种对象的视差;
图6示出了从立体图像感知到的3D虚拟视图;
图7A示出了解说词被裁剪的立体视图;
图7B示出了具有缩小的解说词的图7A立体视图;
图8示出了被调整以免裁剪的解说词;
图9示出了立体图像,其中解说词位置相对于3D图像中的对象被调整以免裁剪和与深度提示冲突;
图10A示出了图7B的图像的虚拟视图;
图10B是示出了图8和9中两个显示的虚拟视图;
图11示出了场景中另一解说词布置;
图12示出了解说词被裁剪的图11中的显示;
图13示出了被向上平移以免裁剪的图11中的解说词;
图14示出了具有调整视差以提供相对于3D图像或内容中对象的视差的特定关系的解说词;
图15是示出了图13和14的两个显示的虚拟视图;
图16示出了调整用于具有3D内容呈现的显示的字幕的方法;
图17A示出了字幕调整过程的第一实施例;
图17B示出了字幕调整过程的第二实施例;
图17C示出了字幕调整过程的第三实施例;
图17D示出了字幕调整过程的第四实施例;
图18示出了两个覆盖区的空白区和参数;
图19示出了用于实现本发明原理的实施例的系统。
为了便于理解,在可能的情况下将相同的参考数字用于指示附图中公共的相同元件。
具体实施方式
本发明的实施例提供了一种准备用于在立体呈现中显示的字幕或解说词的方法和系统,包括:调整与字幕相关联至少一个参数,使得可以通过显示系统的部件或配置来在给定显示区域中呈现调整的字幕,而不会被模糊或删节。可调整参数可以包括字幕在显示平面中的位置、尺寸或大小,以及相对于显示平面的水平视差或视深度。通过基于字幕下层内容(即,占用相同显示图像区域)中其他对象的视差来调整字幕的水平视差,可以向观看者显示字幕和对象,而不会与深度提示冲突。
本发明原理可以使用在数字电影影院设备和视频设备中,例如前端广播或流传输系统以及消费者侧设备,包括电视监视器、机顶盒、DVD播放器、视频录像机、个人计算机、手持显示器(例如视频播放器或智能电话上的手持显示器)、以及其他移动或便携式设备。本发明原理适用于还没有被叠印到主画面或图像内容中的关闭的解说词或字幕(不管是否提供布置信息作为元数据),并且用于连同形成呈现一部分的图像或内容一起显示这些字幕或解说词。
在以下讨论中,术语‘字幕’和‘解说词’互换使用,以指代没有按照分布叠印到主图像中的文本或图形。此外,字幕和解说词可以包括无论由终端设备产生还是作为内容流的一部分提供的图形覆盖元素。由终端设备提供的图形覆盖元素的示例包括机顶盒(例如,有线或卫星盒)的菜单、来自DVD播放器的屏幕上显示器、或包括针对回放速度、音量设置或当前频道的指示器的电视控制器。作为内容流的一部分提供的图形覆盖元素的一些示例可以是体育比分、新闻爬行字幕、嵌入式广告、“下时段呈现”通知、广播网络图标等。类似地,可以以如本文描述的相同方式来处理画中画显示元素的布置和视差,并且可以理解为通过参考字幕或解说词包括画中画显示元素的布置和视差。
根据本发明原理,根据需要利用尺寸调整实时地定位或重新定位用于3D呈现的字幕或解说词(包括字幕、图形覆盖、画中画元素等),无论在数字电影还是视频中,来适应遮挡或图像大小调整,并且避免对立体图像中的内容(即,对象)的尺寸元素的侵占。备选地,可以在实际内容呈现之前进行对字幕或解说词的调整,并且存储调整后的字幕以供某些未来呈现使用。
因此,对于给定图像显示区域或系统配置(例如,如遮挡、图像大小调整或系统相关布置所限定),本方法允许自动调整解说词的位置、比例和/或立体视差(或其组合),以提供具有美感和清晰度改善的解说词和内容显示。
存在会干扰适当字幕显示的许多可能的侵扰源或系统配置。例如,在影院中,投影仪可以由于屏幕弯曲、投影角度、不理想镜头大小或调整而超出屏幕的边界,使得显著地缩减了图像空间。屏幕遮挡或幕帘可以侵占投影屏幕的可用区域,或者可以将梯形失真图像修剪成更具美感的矩形。
在另一示例中,家庭监视器(例如,大屏幕电视机)可能对图像进行过扫描(以在全屏幕上显示图像的子集),例如,以免显示内容的边缘或者呈现高分辨率内容而无需重新缩放)。在一些模式中,单独监视器可以扩大纵横比与监视器本身不同的画面,例如,如果纵横比16∶9的HD(高清)监视器接收纵横比4∶3的SD(标清)节目,因此图像的特定部分被裁剪掉。根据本发明的实施例可以通过调整字幕来避免对正确字幕显示的这种干扰或模糊。
与2D和3D字幕或解说词的布置有关的一些背景有助于理解本发明原理的各个方面。存在指定2D解说词的布置的不同方式。在一个示例中,可以指定边界框(例如,根据显示轴取向的最小尺寸矩形,用于包围感兴趣的对象或项目),如解说词的总体高度和宽度以及位置(例如,边界框的左上角)所限定。如果没有指定边界框,则可以呈现解说词的文本,并且确定边界框。如果没有指定位置,则位置缺省为预定值(例如,屏幕底部的10%并且以左到右的中心)。这样的布置惯例是公知的并在标准中公开,例如,SMPTE429-5-2009D-CinemaPackaging-TimedTextTrackFile以及由theSocietyofMotionPictureandTelevisionEngineers,WhitePlains,NY公开的现有技术;MPEG-4Part17textbasedsubtitleformatforMPEG-4,2006年公开为ISO/IEC14496-17;以及theSynchronizedMultimediaIntegrationLanguage(SMIL)producedbytheinternationalcommunityoftheWorldWideWebConsortium(W3C),withofficesinCambridge,MA,提供的最新文本是version2.0;或在文件格式SubstationAlpha(.SASfiles)由同名旧产品使用,CLLow创建;以及AdvancedSubstationAlpha格式(从.SAS格式导出的.ASS文件)asusedbytheAegisubsubtitleeditor(amongothers)promotedbyadevelopmentcommunityattheAegisubwebsite(www.aegisub.org)。
代替边界框,更精确的描述是2D解说词的“最小覆盖区”,是包括光栅化解说词所有像素的集合的区域(在光栅化解说词空间中,不在显示空间中),光栅化解说词具有对完全显示图像的非零贡献(即,既不完全透明也不被遮挡,或者离开屏幕)。
对于本发明而言,可以提供2D解说词的“覆盖区”作为边界框(即,完全封闭解说词所有像素的矩形)、上述最小覆盖区区域、或者实质上包括最小覆盖区区域的其他几何图形。
3D解说词的布置类似于2D解说词的布置,除了与解说词的右眼呈现与左眼呈现之间的水平偏移或水平视差或距离(例如,可以由像素数目、屏幕宽度百分比或距离单位等表示)相对应的附加参数以外。这可以作为单个值提供,单个值表示右眼解说词与用于对应2D解说词的布置位置或参考位置的偏移,其中左眼解说词取符号相反的偏移(即,自2D布置位置沿着与右眼解说词方向相反方向放置)。备选地,单个值可以表示右眼解说词与左眼解说词之间的距离,其中根据2D解说词布置信息放置左眼解说词。在本讨论中,使用后一种呈现,尽管两种呈现同样有效,并且可以使用简单算术从一个呈现转换到另一个呈现,以调整水平布置值。
为了设置后续附图的上下文,图1示出了来自呈现的代表场景,例如,以下进行讨论的后续镜头的花园中的场景。花园场景100示出了在前景中站在一组花园大小的国际象棋棋子102(包括一个特定国际象棋棋子,车)中间的演员103。在演员103后面是树104。大约相同距离但后退到右侧是灯105,并且还有建筑物106。图2-15中所示的花园场景100的镜头拍摄自图1中呈现的有利位置略微向右的位置。
图2和3表示来自花园场景100的镜头或合成的立体图像对,其中图2示出了左眼图像200,图3示出了右眼图像300。每个图像200或300包括来自花园场景100的各个单独对象的记录图像,使得花园场景中的每个对象在左眼图像和右眼图像200和300中具有对应的记录图像。为了避免来自场景100的对象图像与立体图像200和300之间的潜在混乱,立体图像也可以被称作左眼合成200和右眼合成300,因此,演员103具有对应图像103L和103R,车101具有对应图像101L和101R,树104具有对应图像104L和104R,灯105具有对应图像105L和105R,并且建筑物106具有对应图像106L和106R。
图4是由图像200与300的重叠形成的立体视图,其中,左眼图像200如虚线所示,使得示出了左眼图像和右眼图像(200,300)之间的立体视差或位置偏移。
在图4中示出了若干视差。例如与车101相关联的车视差401(例如,根据右眼车图像和左眼车图像101R和101L的对应垂直边缘之间的分离所测量的)大约为水平-40个像素,其中当右眼图像在左眼图像右侧时度量为正。在车101的情况下,由于右眼图像101R位于左眼图像101L的左侧,因此聚焦在车101上的观看者眼睛在示出了该立体对的显示器(或屏幕或监视器)的前面会聚,即车101出现在显示器的前面。
演员视差403大约为-5个像素,如在演员的衣袖处测量的,这略微在屏幕平面的前面。树图像104L和104R呈现大约+40个像素的视差,其中右眼图像104R在左眼图像104L右侧。因此,树104对于观看者而言出现在显示器或屏幕的后面。灯105以图像105L与105R之间大约+45个像素的视差405出现,并且建筑物106以106L与106R之间大约+60个像素的视差406出现,每一个出现的距离比树104更远。
图5示出了立体解说词510相对于图4的立体视图的期望布置。立体解说词510包括右眼图像510R和左眼图像510L,在解说词的左边缘处具有大约-7个像素的解说词视差511(针对解说词的其他部分测量的视差511’和511”也彼此相等)。该解说词的覆盖区(无论边界框还是更紧凑的非空区域)在针对右眼解说词图像510R的水平位置512和针对左眼解说词图像510R的水平位置514处具有最左边缘。
对于平直出现的解说词(迄今为止最普通的意图),解说词视差应当在解说词宽度上一致或恒定,例如,在‘B’处的视差511,在下方‘t’处的511’以及在‘ss’处的511”。通过改变解说词视差,解说词可以沿深度方向以透视或弯曲方式出现,但是这是罕见的。
如图5所示,左眼解说词图像510L的最左边缘514位于右眼车图像101L的最右边缘515的右侧。因此,车101与解说词不交叠或交叉。如本发明原理的讨论中使用的,解说词(或其覆盖区)与图像的交叠或覆盖是指图像空间中(例如,在x-y坐标空间中)的交叠,而不是沿着深度方向的交叠。右眼车图像101R的最右边缘513与左眼解说词510L的最左边缘512之间的间隙更明显。这是美学偏好的问题,以免在视差比解说词小的对象上显示解说词(具有较小视差的对象与具有较大视差的另一对象相比看起来更接近观看者)。换言之,优选地不使更远离观看者的解说词(具有更大视差)与更接近观看者的对象交叠。避免这种覆盖的原因在于,对于观看者而言,观看者对破坏3D效果感知的立体信息存在差异。从目前的观点看,这导致混乱并且在较长时间段产生疲劳。
图6是左眼611和右眼612观看具有解说词510的立体图像500的观看者610所感知的3D图像或场景的虚拟视图。(图6是被称作虚拟的是因为该视图实际上不能从该有利位置观察到)。对于观察者610而言,立体车视差401引起在示出了立体图像500的屏幕前面感知到车图像601。演员图像603(具有偏移或视差403)略微在屏幕前面,其中解说词510正好在演员图像的前面。树视差404、灯视差45、建筑物视差106分别产生对在屏幕后面的递增距离处的对应图像604、605和606的感知。
尽管在图6中作为平面示出了与不同对象相对应的图像,但是实际上,观看者610应当将在与相应视差相对应的不同距离处的对象图像601、603、604、605和606感知为3D。图6示出了针对具有相应视差401、403、404、405和406(还参见图4)的对象的感知3D位置。每个对象的感知位置有从左眼611和右眼612追踪通过参考点(在参考点处,针对给定对象测量视差)的相应光线的交叉点所指示。
通过参展图7-15讨论根据本发明的准备用于立体呈现的字幕或解说词布置的不同情形和方法。
示例1
图7A是示出了具有解说词510的立体图像对500(即,与左眼图像和右眼图像重叠的立体视图)在区域700中被裁剪或遮挡或模糊的情形。可以导致这种模糊区域700的一个示例是影院遮挡(例如,结合图10A讨论的遮挡1020)。在图7A的呈现中,从视图上解说词510的实质部分被模糊的区域700遮挡,这损害了观看者对放映的体验和享受。
图7B示出了图7A中的立体解说词510被立体解说词710代替的字幕显示(也可以被称作字幕校正或调整)的第一实施例,立体解说词710包括右眼解说词图像和左眼解说词图像710R和710L,分别是右眼解说词图像510R和左眼解说词图像510L的缩小版本。针对图像710R和710L的缩放因子相同,并且选择这些缩放因子以确保生成的解说词图像不被区域700模糊。对于本实施例,将解说词视差711设置为与解说词视差511相同,使得立体解说词710保持与解说词510相同的深度。此外,立体解说词710的覆盖区的最左边缘715(例如,对应于字母“B”的左边缘)与最左边缘515相同,因此确保立体解说词710的边界框覆盖区落在立体解说词510的边界框覆盖区内,并且因此不会干扰任何其他对象的深度感知。
图10A示出了图7B中所示的通过缩放产生的字幕的虚拟视图1000A,其中缩放的解说词710出现在图6中看到解说词510的相同位置,但是由于减小了对解说词710的缩放,因此影院遮挡1020(或幕帘)不会模糊解说词。解说词710保持与解说词510相同的视差,并且从而保持距离屏幕相同明显距离。
该提供缩放的立体解说词710的方法的一个可能缺点在于,解说词510的原始覆盖区和模糊区域700的一些组合需要使得立体解说词710无美感地较小的缩放因子,或者可能导致没有解决方案(即,如果解说词510的原始覆盖图完全在模糊区域700内的话)。如果没有找到解决方案,或者针对立体解说词710的缩放因子小于预定值,则应当选择不同的校正或方法(以下讨论这些方法中的若干方法)。在另一实施例中,可以评估若干校正或正确动作,并且如下所述选择最佳得分的一个来使用。
示例2
在字幕显示的第二实施例中,如果在立体解说词510的覆盖区与模糊区域700之间存在任何交叠或交叉,则将立体解说词平移或位移(即,移动)了特定距离,以免模糊区域700删节解说词。然而,立体解说词510向右的简单平移可能导致解说词510覆盖或与车101的立体图像交叠(即,当解说词和车图像占用显示平面中的相同x-y坐标,或者在2D图像空间的相同区域)。由于车具有小于解说词视差511(即,与解说词相比,车视差是更大的负数,并且因此车看起来比解说词更接近观看者1010)的视差401,因此这产生深度提示冲突或矛盾,其中解说词510看起来与车101交叠,并且还具有指示其在车后面的视差。在这种情况下,解说词的视差还可以被调整为与最近的交叠对象(在这种情况下,是具有视差401的车101)的视差相比更小(例如,更接近观看者,这可以是幅度更大的示出,但是符号为负)。
因此,在图8中,立体呈现800包括立体解说词810,立体解说词810由右眼解说词810R和左眼解说词810L(如虚线所示)组成,右眼解说词810R和左眼解说词810L相对于解说词510的覆盖区水平向左平移了足以保持模糊区域700空白的量。选择小于或等于车视差401的解说词视差811,因此使解说词810看起来在车101前面或者在与车101相同的视深度。
图10B示出了与图8相对应的虚拟视图1000B,其中解说词810具有经修改的位置和视差。通过将图10B与图6相比较,可以看到解说词810的解说词布置和视深度相对于解说词510的原始布置和视深度的变化。
解说词810相对于解说词510的平移的一个选择是确定解说词510的垂直中心线应当出现在屏幕宽度的什么部分(在图5中这是自呈现500的左边缘的大约60%),并且再次应用呈现的空白部分内的百分比,即,将百分比重新计算为空白区的百分比,如所示。另一选择(未示出)是选择平移的解说词将模糊区域清除了预定量所需的最小距离。该选择引起左眼图像810L(虚线解说词图像)的最右边缘(在‘ss’处)刚好将模糊区域清除了预定量(即,最小释放(relief)值或阈值)。
在一些情况下,选择的平移或位移值可能引起解说词跨过呈现或显示的图像/内容的相对边缘,使得超过空白区的相对边缘平移的解说词的部分变得模糊。如Redmann的WO2010/096030所教导的,该解说词位移产生‘相对边缘侵犯’,这需要缩小解说词的比例,以免跨过任一边缘,这是由于仅平移不能避免字幕的删节和裁剪。在这种情况下,确定要应用于解说词的缩放因子还应当考虑视差如何变化可以增加或减小覆盖区。在这种情况下,使解说词的宽度最小化而同时保持预定最小释放值‘r’的缩放因子由方程1给出:
EQ . 1 : s = ( W A - | D N | - 2 r ) W O + | D O |
其中,‘s’是缩放因子,是WA是未模糊区域的可用宽度,DN是新视差(在这种情况下,解说词视差811),WO是原始宽度(即,针对任一个眼睛的解说词宽度,即,解说词图像510R或510L),并且DO是原始视差(在这种情况下是解说词视差511)。
如果‘s’大于或等于1,则不需要缩放,并且可用宽度足够。但是如果‘s’小于1,则必须将解说词的右眼图像和左眼图像中的每一个缩小因子s倍,结果立体解说词插入到可用宽度中在任一侧正好最小释放值。缩小(或调整)的解说词的宽度WN由方程2给出:
EQ.2:WN=s×WO
可用建立针对此类校正的美感实用函数以包括缩放因子‘s’的值(如果不需要缩放,则缩放因子‘s’被设置为1),以及视差变化的幅度|DO-ON|或有符号的视差变化(DO-ON)。出于本讨论的目的,美感实用函数用于对与特定解说词布置或调整相关联美感质量的选择进行量化或合理化。该函数可以采取任何形式,通常受特定边缘条件的约束。在本发明的上下文中,函数或方程包括诸如缩放因子‘s’和视差变化‘d’等参数。函数可以基于经验度量,并且在许多情况下,根据有根据的推测或者来源组合,以创建“实用度量”,例如与原始解说词布置的美学偏离的度量(因为由具有艺术能力的人所创建,因此可能被视为“理想”)。
在给出解说词缩放和/或位移的若干可能性的情况下,实用函数可以提供对最不能引起反感或最佳可用选择的度量。理想地,相同的实用函数能够用于解说词重新定位的所有可能变型,但是不必是这种情况。然而,如果针对不同解说词操作来创建不同度量,则需要确定两个可能位移中的哪个是优选的或者同样可接受的机制。较大的视差变化可以引起“难以观看”呈现810,这对于观看者没有吸引力,因为解说词810在感兴趣对象(在这种情况下,是演员103)的图像前面较远处。呈现500中解说词的原始艺术意图在于将立体解说词510正好放在演员103的立体图像前面或者接近该立体图像,使得在读取解说词510与演员103之间几乎不存在观看者眼睛会聚的变化。
示例3
在针对字幕显示的第三实施例中,对另外删节字幕的校正涉及避免立体解说词510的覆盖区与模糊区域700之间的交叉或交叠。这可以通过平移立体解说词以不仅避免模糊区域700而且还避免包含视差小于解说词的对象(即,接近观众或者在解说词前面出现的对象)的区域。一种方法是跟踪空白区,首先,从与图像500相对应的区域中扣除模糊区域700,然后从空白区中去除具有视差小于解说词的视差511的对象的所有区域。这可以可以通过以下来实现:创建或获得用于立体图像500的视差图并且将视差图中的每个位置与视差511相比较,从而对视差图进行二值化。
例如,向视差等于或大于视差511的位置分配第一值,并且向视差小于视差511的位置分配第二值。如果按照策略,存在最小释放值‘r’,通过该最小释放值‘r’解说词清除接近对象(例如,车101),则二值化的视差图可以被‘r’膨胀(dilation),以膨胀接近对象区域(膨胀是与二值图像一起使用的普通图像处理函数,其中真值像素的范围‘r’内的任何假值像素被设置为真。这类似于围绕车101添加后的‘r’的环状物,并且出于解说词布置目的考虑模糊区域700的等同物)。可以从空白区中去除生成的二值化视差图和模糊区域700。在备选实施例中,从与图像500相对应的区域中减去前景车101和模糊区域700所占用的区域,以获得空白区,然后该空白区被最小释放值‘r’被腐蚀以根据策略来精炼空白区(利用腐蚀,将假值像素的范围r内的任何真值像素设置为假)。
在图9中示出了该校正的结果,其中已经平移或位移了解说词910,以免与模糊区域700和接近观众的对象车101交叠。解说词910的右眼图像910R和左眼图像910L之间的视差与原始视差相同。因此,解说词910避免模糊区域700,并且通过保持车101为空白,还避免与深度提示冲突。此外,如原始选择的解说词910保持在相同视深度,从而保持至少一些原始艺术意图。
在图10B中的虚拟视图1000B中示出了图9中位置修改了的解说词910(并且还示出了以上描述的解说词810)。通过将图10B与图6相比较,可以看出解说词910的解说词布置和视深度相对于解说词510的原始布置和视深度的变化。
为了确定足以将至少一部分模糊解说词(例如,510)完全放置在空白或安全区域(例如,立体图像90的区域扣除了模糊区域700和包含车101的区域)的最小或近似最小平移或位移,可以使用以下过程。对于空白区中的每个像素,确定解说词(如果位于该像素处)的覆盖区是否完全位于空白区内,其中,覆盖区“位于该像素处”,覆盖区中的每个像素位于空白区内。当解说词的覆盖区被称作位于像素处时,这意味着该像素用于确定覆盖区的位置。一种可能选项是使用像素来限定边界框的左上角位置。另一选项是解说词质心的位置(或者边框质心的位置,可以是相同度量)。对于覆盖区内与空白区外部的像素交叉的每个像素(即,覆盖区超出空白区或者在空白区外部扩展),计算最大缩放因子,使得具有相同位置的缩放覆盖区与像素不交叉,并且对于位置注释也计算最小缩放因子。在备选实施例中,并不检验空白区中的每个像素,而是可以稀疏地或者仅针对一些像素进行位置检验。例如,可以检验每第10行中每第10个像素的光栅,或者可以使用MonteCarlo方法来评价空白区内的随机点。
与该第三解说词重新定位方法一起使用的实用函数可以基于重新定位或新的解说词位置与原始解说词位置之间的距离以及缩放因子。再多几个像素的新位置远离原始位置,但是不需要缩放,这与需要解说词收缩10%的略微近的位置相比可能是更好的选择。实用函数认为垂直位移比水平位移成本更高并且不令人期望。空白区上实用函数的评价(即,针对空白区中的每个像素或选定像素完全或稀疏地进行评价)产生对于重新定位的解说词910而言最小值是优选选择的梯度。由于对点进行采样,并且坡度逐步发展,因此更高级搜索策略可以使用发展坡度来集中在分数高的区域,从而优化选择,而不会局限在局部最小值。
在类似方法中,可以从空白区中扣除图像的显著区域(例如,具有重要特征)。例如,重新定位解说词910使得覆盖了演员103的脸部,这是不好的呈现,因为演员的脸部通常定义了图像的显著区域。类似地,如果存在在背景中进行的动作的特定重要细节,则重新定位字幕导致该动作被隐藏是不好的选择。为此,可以从空白区中扣除显著区域(例如,以LeMuer等人在专利申请US2009/0110269中较大的方式检测到的那些显著区域)。这样,以同样的方式将图像的显著部分视为模糊区域(例如,700),或者比解说词更近的对象(例如,车101)。US2009/0110269主旨的全部内容通过引用合并于此。在备选实施例中,在候选位置被解说词的覆盖区覆盖的显著图(例如,如LeMuer等人所教导的)可以累积,并且应用于针对该位置的实用函数。这样,在其他条件都相同的情况下,与覆盖不显著和/或更少像素的不同解说词位置相比,覆盖或与更多显著像素交叉的解说词位置接收较差的实用值。
注意当在某位置处确定对象或显著区域的像素与解说词的像素之间的交叉或交叠时,在左眼图像对象与左眼解说词图像(例如,图5中车101L和解说词510L)之间进行第一比较,并且在右眼图像对象(例如,101R)与右眼解说词图像(例如,图5中的车101R和解说词510R)之间进行第二比较。备选地,在解说词的覆盖区(包括左眼解说词图像与右眼解说词图像的合并)与针对左眼和右眼的空白区交叉之间进行比较。例如,可以通过消除前景中的所有对象(即,生成的空白区排除对象所占用的区域),仅针对右眼计算空白区。然后,通过排除针对左眼图像的对象所占用的区域,针对左眼进行同样的计算。“空白区的交叉”是在左眼和右眼的空白区中的那些像素。
在另一实施例中,可以仅针对一只眼睛进行比较,即,将左(或右)眼图像与左(或右)眼解说词相比较,期望空间相干性不会产生实质上不同的判定。(空间相关性在这里是指以下概念:如果左眼图像示出了不会影响解说词的良好平滑表面,则另一只眼睛图像不可能呈现完全不同的轮廓,并且如果呈现了完全不同的轮廓,则这也是很少发生的)。如果对最小释放值的正确选择可以实质上确保不会发生对显然更近对象的干扰,上述选择特别有效。为了获得这种保证,在多数情况下,足以将最小释放值(或者对象与解说词之间的最小分开)应用于对象的仅一侧,该侧也与所考虑的对应眼睛图像同侧(即,当考虑左眼图像时,最小释放值可以应用于所讨论的对象图像的仅左侧)。备选地,该最小释放值还可以应用于解说词图像的左侧。为了策略或艺术的意图,可以指定解说词与该最小释放值相比不那么接近对象。在一个实施例中,这可以由视差(例如,1/2个像素或1个像素)表示,使得即使在其最近布置处,解说词看起来也与其上放置了解说词的下层对象分离。视深度(或者与x-y图像平面相对的z方向)的这种分离由根据最小释放值设置的解说词视差产生。
在图11-13中还示出了该解说词布置方法,其中图11示出了另一种呈现1100,其中具有右眼解说词图像1110R和左眼解说词图像1110L的解说词1110具有大于车视差401的立体视差1111。通过将解说词1110定位在车101前面,可以避免解说词与车之间的视深冲突。类似于图10B中的解说词810,接近车101放置解说词1110,并且在屏幕前面的较远位置处。
图12示出了模糊区域1200剪裁解说词1110的一部分从而损害呈现1100的示例。这一点在图13中通过将解说词1110定位到不会引起对解说词的任何裁剪或遮挡并且避免覆盖视差比解说词和任何显著区域更小的任何对象(例如,演员103的脸部)的位置来纠正。因此,呈现1300示出了包括右眼解说词图像1310R和左眼解说词图像1310L的解说词1310,解说词1310是解说词1110的重新定位版本,即,向上平移以避免模糊区域1200,但是没有远到足以覆盖演员的脸部。保持解说词1110的原始视差1111作为图13中的视差1311,使得解说词1310仍出现在屏幕前面的较远位置处。
示例4
图14示出了根据图13的解说词进一步调整解说词1310的视差的呈现1400。具体地,已经针对最小视差检验在解说词1310的覆盖区以下或者覆盖解说词1310的覆盖区的呈现或图像内容(即,识别覆盖解说词的覆盖区的最接近观众的对象),并且在找到最近对象时,将解说词的视差增加达到最近对象的视差(即,将解说词移到离观众更远的位置)。因此,如果之前将字幕或解说词向前置于较远位置以免深度提示与不再看得见的对象冲突(例如,置于车101前面的解说词1310,现在会被模糊区域1200隐藏),则远离字幕所覆盖的最近对象移动字幕,但是不要太远,因为这会产生深度提示冲突。这防止解说词在其他对象前面被完全“孤立”,否则这会导致难以观看到呈现1300。因此,利用力视差1411设置包括右眼解说词图像1410R和左眼解说词图像1410L的解说词1410,立体视差1400与演员103的图像的视差403相同或略微小。备选地,如上所述可以将解说词推送回到相对于覆盖的最近对象不比预定的“最小释放值”近的位置。
图15示出了呈现1300和1400的组合虚拟视图,其中,仅将解说词1110向上平移以避免图13中的模糊区域1200引起解说词1300看起来完全浮在最近对象图像(即,演员图像603)前面。(注意最初将解说词1310定位在前面较远位置处以免与先前最近对象(车图像101)的深度提示冲突,该车图像101现在被遮挡1520模糊)。不让解说词1310在前面较远位置处,解说词1310的视差增加(使得成为更大的正数)以类似于下个最近对象的视差,如以上针对图14描述的,引起解说词1410在深度上看起来接近演员603。然而,解说词视差应当不超过下个最近对象的视差,在一些实施例中,与最小释放值相比不接近解说词所覆盖的下个对象。
以下对上述用于调整解说词的示例进行总结:
1)在位置上缩放解说词,而不改变解说词视差(当不存在与任何对象的深度提示冲突时);
2)利用可选的缩放平移解说词,以避免模糊区域,但是减小视差(接近观看者一定解说词)以免与对象的深度提示冲突;
3)利用可选缩放平移解说词,以避免模糊区域和深度提示冲突;以及
4)利用可选缩放平移解说词,以避免模糊区域,并且如果在下个最近对象前面太远位置则增加视差(远离观看者移动解说词)。
图16示出了根据本发明原理实施例的准备用于显示的解说词的方法。该过程包括重新定位或重新布置一个或多个解说词,使得完整地显示每个解说词,而不会被剪裁或遮蔽,例如,就好像可以由于缩减的图像区域而出现,就好像当图像的部分变得被剪裁或遮蔽时。方法1600在步骤1601开始,在步骤1601中确定呈现系统和关联的设置(例如,特定观众席或显示器,以及设置,相应地例如影院遮挡或图像拉伸和/或裁减)。
在步骤1602中校准呈现系统及其设置,以识别整个图像区域的哪个区域被模糊。Redmann在PCT公开申请WO2010/096030“MethodandApparatusforPreparingSubtitlesforDisplay”中详细地讨论了这样的校准技术。例如,一个校准过程包括:将坐标网格投影到屏幕上,并且指出观察到的最接近屏幕角的最外坐标。这些角坐标内部的区域限定空白的投影图像区的区域,而这些角坐标外部的区域从视图上看被模糊。通常针对立体操作模式中的任一只眼睛进行校准,或者在2D中,通过禁用立体操作。然而,在特定不经常情况下,需要为每只眼睛单独产生校准,例如,如果从实质上不同的点投影右眼和左眼立体图像,因此潜在地具有实质上不同的模糊区域。同样可能的是,投影仪或显示器具有针对右眼图像和左眼图像中的每一个具有不同的水平偏移(即,水平会聚有缺陷,或者已经被有意改变),则两只眼睛图像在两侧实质上以不同方式被剪裁。
校准的结果是在呈现系统上建立图像的空白或非模糊区,呈现系统可以是特定观众席中的投影屏幕或者家庭娱乐系统或其它观看设备中的监视器。通常对于右眼图像和左眼图像中的每一个空白区是相同的,但是如上所指出的,在一些情况下,空白区对于右眼图像和左眼图像而言不同(例如,当投影仪在物理上分开投影两个图像时)。
如果使用方法1600以在电影或呈现播放时实时地改变解说词的位置,则在步骤1603处开始呈现。如果不与放映或呈现同时实时地使用方法1600,则例如通过检验包括要在后续时间播放的内容的文件来在步骤1603处进行对解说词的预处理。然后根据以下描述的后续步骤来处理这些文件的解说词或字幕。
在步骤1604中,检验内容文件中的字幕或解说词,或者在整个呈现期间实时地进行。在步骤1605中,进行比较以确定解说词的覆盖区是否延伸到根据步骤1602获得的空白区之外。如果对于右眼图像和左眼图像而言存在单个空白区,则在两个分开步骤中进行比较,针对右眼和左眼解说词图像覆盖区中的每一个进行一个比较;或者在一个步骤,将右眼和左眼解说词图像覆盖区的合并或组合与空白区相比较。如果针对左眼图像和右眼图像的空白区不同,则一种实现方式是分别针对每个眼睛图像跟踪空白区,并且针对每个空白区分别比较解说词的覆盖区。另一种实现方式可以将左眼解说词和右眼解说词的组合覆盖区(即,覆盖区的合并)与左眼和右眼空白区(即,空白区对于两个立体图像是公共的)的交叉相比较。后者更精确,后一种选择的各种组合可以更经济,还完全适合。备选地,还可以将空白区与两个解说词图像覆盖区之一相比较,加上扩展的覆盖区部分以说明相对于另一眼睛的解说词图像的视差或偏移。
如果比较示出了解说词(覆盖区)完全位于空白区内,则通过将解说词覆盖或合成到图像来继续处理,如以下讨论的步骤1609中所示。否则,可以在步骤1606中执行一个或多个解说词或字幕调整过程。
可以提供四个示例性字幕调整过程(例如,图17A-D中分别示出的过程1700、1710、1720和1730)中的一个或多个以在步骤1606处使用。在该实施例中,每个过程还返回质量评价,例如,可以在步骤1607中使用以确定特定字幕调整过程的结果是否可接受的实用函数。在以下描述中,步骤1606中的每个解说词调整过程返回计算的实用函数,该函数表示可用性的经验评价和调整的字幕的美学质量。如果实用函数大于预定值(对于不同过程可以相同或不同),则调整是可接受的并且可以应用在步骤1608中。否则,在步骤1606处尝试另一字幕调整过程。
在一个实施例中,可以选择步骤1606中尝试或评价的字幕调整过程的量级以使找到适合或可接受的结果的期望计算成本最小化。例如,如果期望每个字幕调整‘a’提供具有可能性或概率‘p(a)’的可接受结果,并且尝试调整的期望计算成本为‘c(a)’,则根据c(a)/p(a)的增加比的量级(这实质上表示每单位成功机会的成本)来评价各个过程通常提供最小期望成本。评价这些过程的量级可以基于经验证据或现有经验,并且还可以基于特定场景中的结果自动改变。这假定每个p(a)独立于针对‘a’的其他值的成功或失败,即,如果一个方法不能产生令人满意的结果,那么也不会影响其他方法的概率。
在另一实施例(未示出)中,在步骤1606尝试或评价字幕调整的每个方法,并且将返回的美学实用函数值彼此相比较(而不是如在步骤1607中与预定的‘足够良好’值相比较)。这提供了最佳的可用调整,但是始终具有最差情况的成本。如果选择仅一个解说词调整过程在步骤1606中使用,则省略步骤1607(这是因为不存在比较的其他备选过程)。
在步骤1608处对字幕进行调整之后,或者如果在步骤1605中确定了字幕在空白区内(并因此不需要调整),则在步骤1609处将立体字幕与立体图像合成。如果方法1600在内容呈现期间实时地执行,则将字幕合成到图像中,并且呈现生成的合成。如果过程没有实时地进行,则将字幕合成到与其相关联的立体图像中,以产生经变换的图像,并且将结果(例如,作为被合成到相应图像中的一个或多个数据文件字幕)存储在一个或多个存储器设备(未示出)中以供后续使用。
在步骤1610处,如果确定不存在多个要检查的字幕,则方法在步骤1604处重复。否则,在步骤1611处完成调整方法。
图17A-D示出了不同的过程或方法,这些过程或方法例如可以在步骤1606中用于调整字幕或解说词以适合为了图像显示而缩减的空白区,使得生成的字幕可以完整地显示,例如,不会被遮挡或裁剪。
方法1
图17A示出了用于原地缩放解说词调整的过程1700。术语“原地”意味着不存在对超出器原始覆盖区的解说词的平移或布置。在步骤1701处发起该过程,其中初始条件是原始解说词的覆盖图没有完全包含在空白区(例如,如根据系统校正所确定的,例如,图16中的步骤1602)中。在步骤1702处,将新的覆盖区设置为等于原始覆盖区与空白区的交叉。在步骤1703处,确定缩放因子以应用于原始覆盖区的高度和宽度,使得充分缩减缩放尺寸以适合新覆盖区。在不同实施例中,缩减的解说词可以保持原始覆盖区的纵横比(即,针对高度和宽度使用相同的缩放因子),或者可以允许纵横比在限制量内变化。
例如,在对覆盖区进行跟踪并且与其边界框比较的实施例中,覆盖区的原始高度为HO且宽度为WO的解说词在与空白区交叉时产生高度HN和宽度WN的新覆盖区。注意可以将边界框视为“充分大”类型的覆盖区。“恰好覆盖区”精确地是被解说词文本(例如包括阴影或光圈效应)改变的那些像素,而不会是其他像素。扩大的覆盖图是将恰好覆盖图膨胀了r(最小释放值)。通常,覆盖图可以是复杂、不连续、不连贯的区域。覆盖图的边界框版本简化了计算,并且通常产生相似的结果(尽管可能是不同的结果)。
图18示出了空白区ABCD,原始覆盖图WXYZ,新的覆盖图WXY’Z’,及其相应参数。在这种情况下,WO=WN。可以将简单缩放因子(通常由‘s’表示)确定为更低或更小的高度比HN/HO(或sH)以及宽度比WN/WO(或sW)。由于‘s’用于缩小解说词的比例,因此‘s’小于或等于1。针对右眼和左眼解说词图像中的每一个重复该计算,以用于整个呈现。备选地,可以基于右眼和左眼解说词图像边界框来计算缩放因子,但是当高度比保持相同时,宽度比变为(WN-|DO|)/(WO-|DO|),其中,DO表示对象的视差(例如,针对车101的视差401),因为要用于该方法,保留右眼图像与左眼图像之间的原始视差。
如果要保留解说词的纵横比,则在步骤1704处对高度和宽度使用相同的缩放因子‘s’来缩放解说词。然而,如果允许以变量‘v’改变纵横比,在一个示例中,可以将该变量预先确定为30%(v的值是策略问题,尽管实际上值2(200%)变得难以读取),则可以将经缩放的解说词的其他轴(相对于比值或缩放因子较小的轴)的比例从‘s’增加到s(1+v),其中s(1+v)具有最大值1。例如,如果从整体上看需要将解说词的宽度收缩到50%(s=0.5),则这不一定意味着必须将高度缩放相同量。变量‘v’限制允许高度保留像现在这样的程度(如果v=0,则将高度缩放到恰好为宽度)。然而,不期望使缩放的高度超过(即,大于)其原始值,因为这增大了覆盖区,并且可能引入负面美学效果。
作为示例,假定立体解说词原始总共为500个像素宽(即,包括右眼和左眼解说词图像),并且50个像素高,其中视差为20个像素(备选地,右眼和左眼解说词图像分别为480个像素)。从而,WO=500,HO=50,并且DO=20。在特定呈现环境中(例如,在步骤1601处建立的呈现环境),假定在步骤1602处确定的空白区将该特定解说词的原始覆盖区水平裁剪了100个像素,而在垂直方向没有裁剪,以产生WN=400,且HN=50(未改变)的新覆盖区。这产生sW=(WN-DO)/(WO-DO)=380/480,或者近似0.79,以及sH=HN/HO=1。如果针对缩放的解说词保留原始纵横比,则针对解说词的高度和宽度而选择的缩放因子是0.79。然而,如果允许纵横比变化高达v=30%,则针对高度的缩放比应当高达0.79*(1+v)或者大约1.03,根据以上约束(即,不会将高度缩放到超出其原始值),该缩放比会固定值1.0。如果空白区将该特定解说词的原始覆盖区水平裁剪了200个像素(而不是100个像素),则应当sW是280/480=0.58(大约),并且sH应当高达0.58*(1+v),或者大约0.76。注意保留了解说词的原始纵横比的情况与设置v=0%相同。
为了应用该字幕调整,如在步骤1703中所确定的将原始字幕缩放了sW和sH。向缩放的解说词应用平移,以确保该缩放的解说词完整地位于新覆盖区内,因此完整地显示,即不会被裁剪。对于这种平移的良好选择是使字幕位置沿着任一轴或方向不变,假如沿着该方向解说词的尺寸没有缩减(例如,如果的HN/HO比值为1,则垂直位置可以保持不变)。如果必须缩减或者缩小沿着给定方向的解说词尺寸,则沿着该轴的解说词位置可以被设置为,使得缩放的解说词的中心与新覆盖区的中心一致。该缩放和平移的应用可以在步骤1704处进行,或者可以被延迟,直到例如在步骤1608处完成对该特定调整的选择为止。作为澄清,方法1700首先通过图16的步骤1606,其中对从步骤1705估计的质量执行步骤1607处的测试。
如果多个调整方法(例如,图17A-D中所示)可用于步骤1606中,则对于第一种方法,在步骤1705处应当对呈现质量值进行估计。如果在步骤1607处来自第一方法的结果被视为不充分,则在步骤1606中评价另一解说词调整方法,其中将覆盖区和字幕重置到原始位置和设置。例如,在原地缩放解说词调整过程1700的情况下,用于步骤1705的呈现质量值应当基于较小或较低的缩放因子(由‘s1’表示),即,两个比值HN/HO和WN/WO中的较小者。例如,被缩减到其原始大小的50%的解说词与被缩减到其原始大小的70%的解说词相比产生较差的质量呈现。实用函数,或者在这种情况下质量函数‘qs’通常通过经验评价来产生,以确定提供的参数与呈现质量值之间的适当关系(例如,较小的缩放因子,或者与特定方法相关的其他参数)。例如,可以通过考虑以其原始大小的100%的解说词是理想的,来构造针对基于较小缩放因子的呈现质量的示例性函数,该函数由(‘qs(s1)’)表示。注意,qs是“基于缩放的质量函数”,对于本实施例而言,qs基于作为较低或较小缩放值s1(即不是s(1+v))的缩放因子。在这种情况下,qs(1)=1。当然,根本看不到高度或宽度被缩减到0%的解说词,并且该解说词呈现了非常不好的呈现质量,从而qs(0)=0。如果原始覆盖区与空白区之间的交叉为空,则会出现这样的情况。
然而,被缩放到如此小以至于不可读的解说词还表示类似的较差呈现质量。从而,对于特定给定字体和其他情况,存在预定缩放因子s0(或者阈值缩放值),在该预定缩放因子以下质量函数为零。因此,qs(s0)也等于0。如果s0等于0.5,则这意味着在50%的缩放因子处或以下字体不可定,并且使得解说词没有价值。对于这样的解说词,质量函数‘qs’可以以较小的缩放因子以及在其以下解说词变得无用的缩放因子来表达:
方程3:
q s ( s l , s 0 ) = if ( s l , ≥ s 0 ) → ( s l - s 0 ) / ( 1 - s 0 ) otherwise → 0
这里,括号内的部分表示条件等式。如果s1大于或等于s0,则(s1-s0)/(1-s0)用于计算qs的结果。如果s1<s0(其他条件),则是qs是0。
对于大于阈值缩放因子s0并且高达1的缩放因子s1,该示例性质量函数获得从0到1的线性质量函数。质量函数可以针对不同字体而不同。例如,一些字体可能不是如此限制性的(例如,滑体、非斜体、非粗体),并且可以被估计具有s0=0.3。同样,花式草写字体对缩放非常敏感,并且具有s0=0.9。通常,s0是经验上确定的值,并且有时是主观的。此外,本文提出的方程仅作为说明并非限制。
随着步骤1705处对呈现质量的估计,过程1700可以在步骤1706返回(并且根据需要返回值步骤1607),记录对所提出的解说词变化的估计质量。
方法2
图17B示出了第二字幕调整过程1710。过程1710允许字幕水平和/或垂直平移,以根据需要利用缩放保留在空白区内。此外,检查重新定位字幕的新覆盖区下层的图像中任何对象的视差是否需要调整字幕本身的视差(从而字幕通过出现在字幕所覆盖的另一对象后面而不会与该对象的视深度冲突)。
过程1710在步骤1711处开始,初始条件是原始解说词或字幕的覆盖图没有完全包含在空白区内。在步骤1712处,识别被原始字幕覆盖区侵犯的空白区的边缘(例如,Redmann的WO2010/096030所教导的),并且将字幕平移足够量以克服这些边缘侵犯。如果在步骤1703处,字幕没有全部位于空白区内,例如,如果字幕比空白区宽,则在步骤1714处,对字幕进行缩放以适合空白区(并且如上,缩放可以保留原始纵横比,或者根据预定策略来修改该缩放)。
在步骤1714之后,将字幕的视差与平移且可能缩放的字幕的新覆盖区下层的立体图像的视差相比较。如果字幕具有小于或等于下层立体图像的视差(即,字幕看起来接近字幕下面的对象),则认为字幕调整是成功的,并且在步骤1718处处理继续。
然而,如果经调整的字幕的视差大于其覆盖的对象的视差(或者在预定最小视差差值内),则在步骤1716处将立体字幕的视差调整为小于或等于下层对象的最小视差(或者小于或等于下层对象的最小视差,而不是预定的最小视差差值)。
作为示例,如果处理美学策略,将重新定位的字幕限制为略微在下层对象之上浮动,则首先将字幕的视差缩减到下层对象的视差,然后缩减较小量(例如,预定最小视差差值),这可能是仅一个像素。这种视差减小的结果是经调整的字幕不再施加与下层对象的冲突深度提示。如果使用预定最小视差差值,则经调整的字幕通过(典型较小的)预定最小视差差值引入的视深度清除下层对象。
然而,在一些情况下,视差的改变会因其立体字幕的新覆盖区大小的增加。潜在地,这可以引起附加的边缘侵犯,或者可能引起先前在步骤1715处没有考虑的对象覆盖。如果在步骤1717处检测到新覆盖区的增大,则例程重复回到步骤1713。否则,在步骤1718处处理继续。
注意,对预定或动态计算的过补偿的明智使用会降低或消除需要循环会倒步骤1713的可能性。例如,这样的过补偿可以包括:基于避免边缘侵犯所需的最小值,将字幕(在步骤1712中)平移额外5个像素;基于步骤1714中所需的最小值,将字幕的缩小额外50%;或者在步骤1715中,当检验字幕覆盖区下层的最小视差的立体图像时,将检验的区域水平地扩大额外15个像素。
在步骤1718处,进行对具有经修改或调整的立体字幕的呈现质量的估计。类似于图17A的步骤1705,该质量函数应当至少部分基于缩放因子(如在示例性方程3中)。然而,对于过程1710,还存在要关于平移和视差(或者深度)变化而估计的质量效果。较大平移会冒着模糊下层立体图像的重要部分或至少是感兴趣部分的风险。较大的视差变化会引起字幕远离(在视深度方面)感兴趣的主平面(例如,当前讲话者的脸部)。由于针对基于缩放的qs的原始质量方程用于原地缩放过程1700,针对qt和qd的质量方程(即,分别基于平移和视差调整的质量函数)是针对质量估计的适合候选,以与平移、缩放和视差调整过程1710一起使用。
方程4:
q t ( t H , t V ) = ( 1 - | t H | 2 ) 1 2 × ( 1 - | t V | 2 )
方程5:
q d ( ∂ d , d ∞ ) = ( 1 2 ) | ∂ d | d ∞
tH=水平平移(作为屏幕宽度的一部分)
tV=垂直平移(作为屏幕高度的一部分)
(以像素为单位)
d=与出现在无限远的对象相对应的视差(以像素为单位)(即,两眼分离)。
利用方程3,方程4和5中的每一个的形式提供小于或等于1的正质量估计。例如,在方程4中,当给出空平移时,qt(0,0)=1。在针对方程4的其他极限处,从图像的一个角到另一个角的平移(沿着水平和垂直中的每一个不可能100%平移)产生非零结果:qt(1,1)等于大约0.35,这是因为完全跨过屏幕移动的解说词(尽管是无美感的)是无用的。解说词仍是可读的(假定其完整地保留在空白区内)。
此外,构造了方程4,使得水平位移与类似比例的垂直平移相比几乎没有效果,这是因为为了读取英语,沿着水平方向的眼睛移动与类似尺寸的垂直平移相比不那么直观。对于日语和其他垂直书写的语言而言,经验结果可以相反。
以方程4的形式,括号内的每一项的指数(针对包括tH的项的收敛‘1/2’,对于包括tV的项的发散‘1’)允许每个项的重要性或贡献相对彼此进行比较。括号内的项分别具有0和1之间的值。从而任何正的有限值指数会产生同样在0和1之间的间隔内。更具体地,如果指数为1,则平移与对质量因素的影响之间的关系是线性的。对于小于1的指数而言,较小平移的差值与较大平移的相同大小差值相比几乎没有效果。相反,大于1的指数可以在其他质量函数中使用(即,不限于方程4中示出的特定形式),并且对于较小平移产生较大效果,但是随着平移变大效果转为下降。
分别地,括号内的每一项的分数中的分母(示例方程4中的‘2’)还影响针对tH和tV中每一个的质量值的最大缩减。这些常数(分母和指数)均可以根据对质量的经验评价来调整,以适合方程,从而提高估计。此外,其他表达式(与方程4不同的表达式)也可以用作对质量qt的测量。对于方程而言有价值的是不产生落在范围0至1范围之外的qt值,但是这也可以通过固定到并不是方程本身固有的程度(例如,如果给定方程实际上没有将它们的限制在0到1的范围中,则当结果小于0时将qt设置为0,并且当结果大于1时将qt设置为1)或者通过提供不同形式的方程来实现。
例如,一个备选形式接受针对由于平移而质量降低的经验上确定的下值或下限(对于水平和垂直方向的平移分别表示为qminH和qminV,这确保每个平移轴(或沿着特定轴或方向的每次平移,例如,沿着字母的高度和宽度)的贡献不大于特定质量估计降低。如以下方程6所示,当将这些值设置为qminH=0和qminV=0时,该方程会产生与方程4相同的结果,其中括号内的项包括分母1(而不是方程4中所示的2)。然而,由于qminH和qminV增大而接近1,方程所估计的最小质量(即,Qt(1,1))增大。
方程6:
Q t ( t H , t V ) = ( ( 1 - t H ) 1 2 × ( 1 - q min H ) + q min H × ) × ( ( 1 - t V ) × ( 1 - q min V ) + q min V )
基于平移的质量估计的又一种形式能够以相同方式处理沿着水平和垂直方向的平移,其中,总计位移的幅度提供质量估计。应当理解,各种形式的方程可以适合于提供质量估计,其中方程4和6提供两个示例。
这种形式的质量估计的组合简单地可以是如方程7中所示的乘法,方程7保留提供0和1之间的生成质量估计的特性。
方程7:
q ( s l , s 0 , t H , t V , ∂ d , d ∞ ) = q s = ( s l , s 0 ) × q t ( t H , t V ) × q d ( ∂ d , d ∞ )
该方程还可以使用在过程1700中,但是由于tH、tV均为零(由于1700不提供平移和视差调整),因此生成的质量估计与方程3中的质量估计相同。
类似于过程1700中字幕调整步骤1704,在步骤1714和步骤1716处进行的实际调整既可以在呈现期间实时地执行,也可以对调整进行记录并且在后续执行。
方法3
图17C示出了第三字幕或解说词调整过程1720。过程1720不仅允许将解说词平移到均可见的区域(即,不会平移到可以被遮挡的任何区域中),而且平移到下层对象不具有较小视差的区域(即,图像中的对象应当出现在解说词后面的位置)。
在步骤1721处开始过程1720,其中初始条件是原始解说词的覆盖区没有完全包含在空白区内。在解说词下层的立体图像对的深度图要么具有立体图像(例如,作为元数据),要么从立体图像直接导出。在步骤1722处,空白区(例如,来自图16中的步骤1602)与视差大于或等于解说词的视差的立体对的区域交叉,以限定适合于将解说词布置在其当前视差处的新空白区。
在步骤1723、1724和1726(也被称作过程中的循环)处,检验适合于解说词布置的一个或多个潜在位置,并且针对每个位置确定缩放因子和基于缩放因子和解说词平移(即,基于检验在位置处定位原始解说词所需的平移量)来确定质量估计或质量函数。可以对这些潜在位置进行彻底搜索(例如,通过逐行和逐像素光栅化空白区)、稀疏搜索(例如,通过根据预定过程通过空白区来光栅化,例如每第十行和列跳过)或者随机搜索(例如,通过针对每次重复拾取空白区内的随机行和列)。在该上下文中,可以将“平移”视为通过循环(测试每个可能位置)横贯的(x,y)空间中的光栅,其中平移量由循环的当前{x,y}值减去原始解说词的{x,y}位置给出。
对于在步骤1723处选择的每个潜在位置,在步骤1724处确定缩放因子,缩放因子产生具有在正检验位置处放置的解说词的纵横比的最大矩形。如果该矩形至少像解说词的覆盖区一样大,则将缩放因子设置为1。否则,将缩放因子设置为最大矩形与解说词的覆盖区的尺寸(线性尺寸,例如,高度或宽度)比。该缩放因子表示解说词必须缩减以适合当前位置处的空白区的量。在一个示例中,步骤可以适合于提供沿着两个不同轴或方向的两个缩放因子。首先,确定为两个轴工作的缩放因子。然后对于过约束的轴,确定高度变量‘v’的极限的容许再扩展。解说词仍由于通过缩放因子‘s’减小了尺寸而劣化,但是如果改变解说词的纵横比由于非零的‘v’指示,则可能通过其他轴的再扩展而恢复一些可读性。可以使用适当实用函数来完成这样的选项。
一旦在步骤1724处确定了缩放因子(或因子),则可以在步骤1725处确定质量估计,例如利用方程7(实现由于视差保持不变)。如果质量估计好于(即,高于)针对该解说词的先前估计,则将估计的质量保留为迄今为止的最佳,并将位置的缩放因子也保留为最佳。
注意如果已经获知(在步骤1724之前)如在方程4中例如基于平移的部分质量估计低于迄今为止缩减的最佳质量估计(即,将来自在过程1700中进行的平移的质量估计与在过程1720中进行的质量估计),则可以获得效率。对于这样的位置,例如可以通过使用其他优化步骤来跳过步骤1724处的缩放确定和步骤1725处更复杂的质量估计。
在步骤1726处,确定是否应当检验附加位置。如果对于可能位置光栅化循环(无论彻底还是稀疏),并且如果保持可能位置,过程返回至步骤1723。然而,在一些情况下,不需要检验所有位置。例如,如果对位置的检验被布置为从在解说词的原始位置附近的测试位置开始,并且前进至检验较远的位置,则只要方程4的质量估计超过在步骤1725处进行的最佳质量估计,循环可以终止,这是由于具有更大平移的所有位置具有来自方程7的更差质量估计。(注意方程4对经历纯平移的重新定位字母的质量,排他性地返回0(无用)与1(理想)之间的值。方程7采用方程4作为乘法中的一项,其中其他项基于缩放以及视差的变化。类似地,将这些其他项约束为返回0和1之间的值。因此,一旦方程7的任何单个项落在针对方程4找到的最佳值以下时,整个方程7不能胜过方程4的结果)。
在步骤1727处,根据来自步骤1725的最佳质量估计来平移和缩放解说词,同时保持相同的解说词视差。如上所述,穿过空白区逐步光栅化来在步骤1723处进行解说词的后续平移,并且根据需要在1724处确定缩放(如果不需要缩放则缩放是1)。在步骤1728处,过程1720将找到的最佳质量估计连同调整的解说词返回至例如方法1600中的步骤1606(或者备选地,如果实现方式在步骤1727处放弃调整,则连同调整所需的平移和缩放因子返回)。
方法4
图17D示出了图17C的过程1720中平移并缩放解说词的第四解说词调整过程1730(因此,图17D中的步骤1731、1732、1733、1734和1739对应于图17C中步骤1721、1722、1723、1724和1726)。然而,过程1730在步骤1735处引入测试,以确定立体图像部分与经调整的解说词覆盖区(通过步骤1732确保不小于解说词的覆盖图)之间的视差的差值是否实际上太大,例如,大于可以基于美学偏好的预定值。图13和15示出了解说词1310与下层立体图像部分之间的视差差值被视为太大使得图15中的解说词1310位于演员603前面较远位置处的示例。如果在步骤1735处检测到该过度视差差值,则在步骤1736处调整解说词的视差,使得适当地接近背景图像中的元素或对象的视差(例如,引起解说词410的视差接近演员603的视差)。在步骤1737中,确定调整视差的解说词的覆盖区是否增大。如果是,则处理返回至步骤1734以确定另一优化所需的适当缩放因子。
然而,如果在步骤1737处确定覆盖区没有增大,或者如果在步骤1735处确定下层视差与解说词的视差并没有什么不同,则在步骤1738处进行质量估计,记录最佳质量估计,以及关联的平移、缩放因子和视差调整。
在步骤1739处,如果对于解说词的可能布置存在要检验的又一位置,则处理返回至步骤1733。否则,可以根据在步骤1738处记录的最佳发现来调整解说词(或者这可以在稍后进行)。过程1730在步骤1741处退出,将质量估计和经调整的解说词例如返回至方法1600的步骤1606(或者用于进行适当调整的指令)。
上述方法可以应用于或适合于立体呈现的一个或多个帧中的解说词布置。在一些实施例中,针对解说词的布置检验下层立体图像的过程可以包括:针对单个帧不只是检验立体图像。通常针对多于一个帧在屏幕上显示解说词,并且一些实践者可以选择一旦显示解说词就将解说词保持在同一位置。在这样的情况下,可以通过考虑在显示解说词的持续时间在该解说词下层的所有立体帧来进行解说词布置。解决该问题的一种视差信息处理方式是对立体图像的视差图(或深度图)进行求和作为针对至少在要显示解说词的整个持续时间所获取的每个区域(例如像素或较大区)的视差最小值(即,最近视深度)。针对最小视差要检验的区域对应于与解说词或其覆盖区交叠的区域。在许多情况下,如果仅耦合获取或采样视差,则能够充分表示这种对视差图求和。例如,可以针对要与解说词一起显示的立体图像或帧的相应数目,通过确定在特定持续时间(例如解说词的显示间隔)上最小视差值(基于每个像素或较大区),来处理视差信息。通常,在缓慢变化的场景中,这样的信息不需要经常更新,并且即使连续传递视差以允许这种计算,也不需要计算每个帧的视差。然而,对于快速移动场景(例如,在体育或动作电影中),存在应当检验每个帧(对应于不同立体图像)以确保不能忽视视差最小值的序列。
最后,已经示出了适用于修改具有原始设置视差以及立体图像中的位置的3D解说词和字母本方法实施例。然而,这些实施例还适用于适应2D解说词和字母布置,其中简单假定将初始视差设置为某预定值(例如,零),或者被解说词覆盖区所覆盖的立体图像的最小视差(例如,最近视深度)。这样,针对2D呈现而创建的解说词可以容易的适合于相同内容的3D呈现。
图17A-D中的过程是不同方法或过程的说明,可以用于自动处理(与手动处理相反)解说词或字幕(例如,文本和/或图形)以用于针对3D图像或内容呈现的方法。在这些处理中,可以调整与解说词相关联的一个或多个参数(例如,位置、尺寸(宽度和/或高度))以及视差或视深度,使得可以在显示设备的特定区域(例如,影院屏幕的可见区域,电视、计算机、蜂窝电话或其他移动设备的显示监视器)内显示解说词,而不会在相对于3D图像或内容中的一个或多个对象以特定视差或视深度提供解说词时被模糊或遮挡。例如,通过根据与解说词附近的那些对象的特定关系来调整解说词的视差,可以避免与针对观看者的深度提示信息冲突,获得改善的观看体验。
因此,针对3D内容呈现的方法通常包括:确定适合于字幕显示的区域(可以被称作预定区,或空白区);确定具有给定初始位置、尺寸和/或视差的的字幕位于该区域内。如果否,则根据一个或多个过程以其字幕的位置、尺寸和/或视差来调整字幕。例如,可以通过沿着显示平面中至少一个方向将字幕平移特定量来调整字幕的位置,并且可以通过基于显示区域和字幕覆盖区应用至少一个缩放因子来调整字幕的尺寸。可以通过与覆盖或交叠经缩放和/或平移的字幕的对象的至少一个图像的视差相比较来调整解说词的视差,并且调整解说词的视差以免与图像中的一个或多个对象的深度感知冲突,或者提供美学上更令人愉悦的3D呈现。缩放因子、平移量以及视差变化也可以被称作调整信息,调整信息可以用于处理供立体呈现实验的字幕。根据一个或多个预定准则对经处理或调整的字幕进行评价,在合成到3D图像或内容中以进行显示之前这可以包括质量测量(例如,使用质量函数)。
本发明的一个方面提供了一种具有其上存储有特定程序指令的计算机可读介质(例如,存储器、存储设备、可拆卸介质等),当由一个或多个处理器执行所述指令时,使得根据本发明原理实施例实现上述方法。
本发明的另一方面是提供用于实现上述方法和过程的系统,例如通过一个存储有算法或指令的一个或多个存储或存储器设备,当由系统中的一个或多个处理器执行时,使得实现方法和/或过程。这种系统的一个示例时具有具体被编程为执行上述方法和/过程的各个步骤的处理器的数字电影服务器,例如,用于确定用于字幕显示的空白区;播放数字内容文件;检验与空白区交叠的一个或多个字幕;根据建立的规则或准则来评估或评价一个或多个字幕调整过程;以及为具有3D内容的显示呈现经调整的字幕。
图19是示出了本发明的一个实现方式的框图。数字电影系统1900包括数字电影服务器1910和适合于呈现立体图像的数字电影投影仪1920。具有对存储设备1920的读取访问的数字电影服务器1910被配置用于读取来自存储设备1912的作品,并且解码立体画面和音频要素。通过连接1914向数字电影投影仪1920提供与立体字幕放映有关的画面要素和定时信息,连接1914可以是单向或双向通信路径。数字电影投影仪1920根据立体画面要素产生立体图像,并且通过透镜1922将生成的图像投影到观众席上的屏幕(未示出)。通过数字电影服务器1910项音频再现链(未示出)提供音频要素,音频再现链向观众席中的观众传递与立体画面要素相关联或者附带立体画面要素的音频分量。
在当今配置中,通过数字电影服务器1910向投影仪1920通知存储装置1912中存在对应的字幕要素。可以通过网络1918向投影仪1920通信通知,网络1918经由相应连接1924和1916与投影仪1920和电影服务器1910相连。然而,该系统还可以被配置为使得可以经由连接1914发送通知和/或字幕。
在本发明中,针对输入到存储装置1926中的校正数据来检查如此存取的每个立体字幕(例如,字幕510),以确定是否需要确定字幕(例如,平移和/或缩放等)的变换。在字幕与由画面要素形成的图像合成之前进行任何必要的变换。
如本领域技术人员已知的,可以在字幕文件中以不同形式提供字幕。如果以“定时文本”形式提供字幕,则需要在投影字幕之前(无论是否合成)呈现该字幕。然而,如果以“子画面”形式提供字幕,则可以简单投影该字幕(无论是否合成)。在本讨论的上下文中,应当理解,字幕的投影图像是指以上两种情况,而与在投影之前是否首先呈现字幕无关。
在备选实施例中,对立体字幕的控制以及与立体图像的合成可以通过数字电影服务器1910来执行,并且可以提供给投影仪1920,以准备用于显示。
在又一实施例(未示出)中,适合家用的消费者设备(包括机顶盒、或DVD播放器)可以执行对字幕的控制以及与立体图像的合成,以在支持3D的监视器(即,能够显示立体图像的显示器)上显示。备选地,对字幕的控制和与立体图像的合成可以完全通过支持3D的监视器内的计算机来执行。
尽管上述涉及本发明的各个实施例,但是在不背离本发明基本范围的前提下可以设想本发明的其他和另外实施例。这样,应根据所附权利要求来确定本发明的适当范围。

Claims (17)

1.一种准备用于立体呈现的字幕的方法,包括:
根据调整信息来处理字幕;
将处理后的字幕合成到至少一个立体图像中,以产生用于立体呈现的至少一个变换的立体图像;
将字幕的覆盖区与所述至少一个立体图像的预定区相比较;
如果覆盖区的任何部分在预定区之外,则确定所述调整信息,以应用于字幕来产生经调整字幕,经调整字幕具有完全位于预定区内的经调整覆盖区;
平移字幕,以减小位于预定区之外的字幕部分;
如果经平移的字幕的覆盖区的任何部分位于预定区之外,则对经平移的字幕应用缩放因子,使得缩小的平移字幕完全在预定区内;并且
将经平移且可选地缩小的字幕的视差调整为不大于在调整了视差的字幕的经调整覆盖区内出现的对象的最小视差。
2.根据权利要求1所述的方法,其中,调整信息包括以下中的至少一个:缩放因子、平移量以及视差变化。
3.根据权利要求1所述的方法,其中,在校准过程中建立预定区以识别与关联于字幕的位置和尺寸之一有关的至少一个参数。
4.根据权利要求1所述的方法,还包括:
基于调整信息来导出质量参数;并且
如果质量参数超过预定值,则产生经调整的字幕。
5.根据权利要求1所述的方法,还包括:
将经调整覆盖区限定为覆盖区与预定区之间的交叉区;并且
确定所述缩放因子,以应用于覆盖区来产生经调整覆盖区。
6.根据权利要求1所述的方法,还包括:
如果经调整覆盖区具有在预定区之外的任何部分,则进一步缩小调整了视差的字幕,并且将进一步缩小的字幕的视差调整为不大于在进一步调整的字幕的覆盖区内的任何对象的最小视差。
7.根据权利要求1所述的方法,还包括:
限定预定区域和至少一个立体图像的区域之间的交叉区;其中所述至少一个立体图像的区域中对象的视差至少等于字幕的视差;并且
对字幕应用缩放因子和平移量,以在交叉区内产生缩小且平移的字幕;
其中,根据预定质量准则来选择缩放因子和平移量。
8.根据权利要求7所述的方法,还包括:
将缩小且平移的字幕改变为经调整的视差,所述经调整的视差与交叉区中其他对象的视差的距离在预定量内。
9.根据权利要求8所述的方法,其中,所述字幕的经调整的视差不大于交叉区中其他对象的视差。
10.根据权利要求1所述的方法,其中,所述至少一个立体图像是多个图像。
11.根据权利要求1所述的方法,其中,所述至少一个立体图像是要与处理后的字幕合成的多个立体图像,并且所述方法还包括通过以下步骤来确定字幕的视差变化:
检验所述多个立体图像的相应部分的视差,其中每个立体图像的相应部分与经调整的字幕的经调整覆盖区交叠;并且
将经调整的字幕的视差改变为至多等于每个立体图像的每个相应部分的最小视差。
12.根据权利要求11所述的方法,其中,所述多个立体图像表示了用于在持续时间内呈现的图像序列。
13.一种准备用于立体呈现的字幕的系统,包括:
第一处理器,被配置用于根据包括以下至少一个的调整信息来自动处理字幕:缩放因子、平移量和视差变化,并且将处理后的字幕合成到立体图像中,以产生用于立体呈现的变换立体图像;以及
第二处理器,被配置用于:
将字幕的覆盖区与立体图像的预定区相比较,并且如果字幕覆盖区的任何部分在预定区之外,则确定所述调整信息,以应用于字幕来产生经调整字幕,经调整字幕具有完全位于预定区内的经调整覆盖区;
平移字幕,以减小位于预定区之外的字幕部分;
如果经平移的字幕的覆盖区的任何部分位于预定区之外,则对经平移的字幕应用缩放因子,使得缩小的平移字幕完全在预定区内;并且
将经平移且可选地缩小的字幕的视差调整为不大于在调整了视差的字幕的经调整覆盖区内出现的对象的最小视差。
14.根据权利要求13所述的系统,其中,第一处理器与第二处理器相同。
15.根据权利要求13所述的系统,第二处理器还被配置用于:
基于调整信息来导出质量参数;并且如果质量参数超过预定值,则产生经调整的字幕。
16.根据权利要求13所述的系统,还包括:存储器,用于存储具有合成的字幕的变换立体图像。
17.根据权利要求13所述的系统,其中,第一处理器在以下之一中提供:数字电影服务器,包括机顶盒的消费者设备、电视监视器、视频录像机、数字视频播放器、个人计算机和移动设备。
CN201180017612.6A 2010-04-01 2011-04-01 三维(3d)呈现中的字幕 Expired - Fee Related CN102845067B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US31994810P 2010-04-01 2010-04-01
US61/319,948 2010-04-01
PCT/US2011/000590 WO2011123178A1 (en) 2010-04-01 2011-04-01 Subtitles in three-dimensional (3d) presentation

Publications (2)

Publication Number Publication Date
CN102845067A CN102845067A (zh) 2012-12-26
CN102845067B true CN102845067B (zh) 2016-04-20

Family

ID=44120887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180017612.6A Expired - Fee Related CN102845067B (zh) 2010-04-01 2011-04-01 三维(3d)呈现中的字幕

Country Status (6)

Country Link
US (1) US9241149B2 (zh)
EP (1) EP2553931A1 (zh)
JP (1) JP6068329B2 (zh)
KR (1) KR101834263B1 (zh)
CN (1) CN102845067B (zh)
WO (1) WO2011123178A1 (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2540088A1 (en) * 2010-02-25 2013-01-02 Thomson Licensing Stereoscopic subtitling with disparity estimation and limitation on the temporal variation of disparity
US8730301B2 (en) * 2010-03-12 2014-05-20 Sony Corporation Service linkage to caption disparity data transport
JP5505637B2 (ja) * 2010-06-24 2014-05-28 ソニー株式会社 立体表示装置および立体表示装置の表示方法
CN105812771B (zh) * 2010-06-27 2017-12-08 Lg电子株式会社 数字接收器以及在数字接收器中处理字幕数据的方法
CN103026713B (zh) * 2010-07-12 2016-02-24 皇家飞利浦电子股份有限公司 3d视频广播中的辅助数据
GB2485140A (en) * 2010-10-26 2012-05-09 Sony Corp A Method and Apparatus For Inserting Object Data into a Stereoscopic Image
KR101727899B1 (ko) * 2010-11-26 2017-04-18 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
EP2495979A1 (en) * 2011-03-01 2012-09-05 Thomson Licensing Method, reproduction apparatus and system for display of stereoscopic 3D video information
US9485494B1 (en) * 2011-04-10 2016-11-01 Nextvr Inc. 3D video encoding and decoding methods and apparatus
US9407902B1 (en) 2011-04-10 2016-08-02 Nextvr Inc. 3D video encoding and decoding methods and apparatus
JP5536283B2 (ja) * 2011-06-06 2014-07-02 富士フイルム株式会社 画像加工装置、複眼撮像装置、画像加工方法及びプログラム
US20130050420A1 (en) * 2011-08-22 2013-02-28 Ding-Yun Chen Method and apparatus for performing image processing according to disparity information
US9407897B2 (en) * 2011-09-30 2016-08-02 Panasonic Intellectual Property Management Co., Ltd. Video processing apparatus and video processing method
WO2013054371A1 (ja) * 2011-10-11 2013-04-18 パナソニック株式会社 立体字幕処理装置および立体字幕処理方法
CN102510558B (zh) * 2011-10-13 2018-03-27 中兴通讯股份有限公司 一种信息显示方法及系统、发送模块与接收模块
US9111352B2 (en) * 2011-12-27 2015-08-18 Avid Technology, Inc. Automated detection and correction of stereoscopic edge violations
KR101899458B1 (ko) * 2012-01-11 2018-09-18 삼성전자주식회사 3d 디스플레이 장치 및 그 방법
CN103312863A (zh) * 2012-03-08 2013-09-18 中兴通讯股份有限公司 移动终端视频的呈现方法及装置
JP6307213B2 (ja) * 2012-05-14 2018-04-04 サターン ライセンシング エルエルシーSaturn Licensing LLC 画像処理装置、画像処理方法およびプログラム
US20130321572A1 (en) * 2012-05-31 2013-12-05 Cheng-Tsai Ho Method and apparatus for referring to disparity range setting to separate at least a portion of 3d image data from auxiliary graphical data in disparity domain
CN103475831A (zh) * 2012-06-06 2013-12-25 晨星软件研发(深圳)有限公司 应用于显示装置的字幕控制方法与元件
EP2972863A4 (en) * 2013-03-13 2016-10-26 Intel Corp IMPROVED PROCESSES FOR THREE-DIMENSIONAL IMAGE PROCESSING
US9762889B2 (en) * 2013-05-08 2017-09-12 Sony Corporation Subtitle detection for stereoscopic video contents
TWI632810B (zh) * 2013-07-19 2018-08-11 新力股份有限公司 Data generating device, data generating method, data reproducing device, and data reproducing method
TWI630821B (zh) 2013-07-19 2018-07-21 新力股份有限公司 File generation device, file generation method, file reproduction device, and file reproduction method
TWI630820B (zh) 2013-07-19 2018-07-21 新力股份有限公司 File generation device, file generation method, file reproduction device, and file reproduction method
KR102143472B1 (ko) * 2013-07-26 2020-08-12 삼성전자주식회사 다시점 영상 처리 장치 및 그 영상 처리 방법
CN104811679A (zh) * 2014-01-29 2015-07-29 宏达国际电子股份有限公司 立体图像的调整方法与图像处理装置
US9930315B2 (en) * 2015-04-29 2018-03-27 Lucid VR, Inc. Stereoscopic 3D camera for virtual reality experience
US9652683B2 (en) 2015-06-16 2017-05-16 Telefonaktiebolaget Lm Ericsson (Publ) Automatic extraction of closed caption data from frames of an audio video (AV) stream using image filtering
US9900665B2 (en) 2015-06-16 2018-02-20 Telefonaktiebolaget Lm Ericsson (Publ) Caption rendering automation test framework
WO2016206019A1 (zh) * 2015-06-24 2016-12-29 冯旋宇 机顶盒语言控制方法及系统
CN105430512A (zh) * 2015-11-06 2016-03-23 腾讯科技(北京)有限公司 一种在视频图像上显示信息的方法和装置
US10531063B2 (en) 2015-12-25 2020-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing stereoscopic video
CN106993227B (zh) * 2016-01-20 2020-01-21 腾讯科技(北京)有限公司 一种进行信息展示的方法和装置
JP6969386B2 (ja) * 2016-01-26 2021-11-24 ソニーグループ株式会社 受信装置、受信方法、送信装置および送信方法
CN106060437B (zh) * 2016-07-21 2022-10-21 厦门视诚科技有限公司 桌面式控台字幕显示装置及显示方法
CN106484397A (zh) * 2016-09-18 2017-03-08 乐视控股(北京)有限公司 一种3d空间中用户界面控件的生成方法及其装置
WO2018124965A1 (en) * 2016-12-28 2018-07-05 Razer (Asia-Pacific) Pte. Ltd. Methods for displaying a string of text and wearable devices
CN108712642B (zh) * 2018-04-20 2020-07-10 天津大学 一种适用于立体视频的立体字幕添加位置自动选择方法
CN110620946B (zh) 2018-06-20 2022-03-18 阿里巴巴(中国)有限公司 字幕显示方法及装置
CN109951523B (zh) * 2019-01-18 2021-11-26 广州宁基智能系统有限公司 基于现场工业局域网的数据通讯方法、系统及存储介质
US11687714B2 (en) * 2020-08-20 2023-06-27 Adobe Inc. Systems and methods for generating text descriptive of digital images
CN112328091B (zh) * 2020-11-27 2022-03-25 腾讯科技(深圳)有限公司 弹幕显示方法、装置、终端及存储介质
US20230221833A1 (en) * 2022-01-10 2023-07-13 Apple Inc. Methods for displaying user interface elements relative to media content

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1893590A (zh) * 2005-05-28 2007-01-10 三星电子株式会社 显示系统、显示设备以及控制视频源和显示设备的方法
CN1922652A (zh) * 2004-02-27 2007-02-28 松下电器产业株式会社 信息显示方法以及信息显示装置
CN101312506A (zh) * 2007-05-21 2008-11-26 株式会社卡西欧日立移动通信 附带字幕的影像重现装置及程序
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法
WO2010010499A1 (en) * 2008-07-25 2010-01-28 Koninklijke Philips Electronics N.V. 3d display handling of subtitles
CN101682793A (zh) * 2006-10-11 2010-03-24 皇家飞利浦电子股份有限公司 创建三维图形数据

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3423189B2 (ja) * 1997-05-27 2003-07-07 三洋電機株式会社 ディジタル立体放送によるテロップ表示装置
US7206029B2 (en) 2000-12-15 2007-04-17 Koninklijke Philips Electronics N.V. Picture-in-picture repositioning and/or resizing based on video content analysis
US20040213542A1 (en) 2003-04-22 2004-10-28 Hiroshi Hamasaka Apparatus and method to reproduce multimedia content for a multitude of resolution displays
EP1875440B1 (en) * 2005-04-19 2008-12-03 Koninklijke Philips Electronics N.V. Depth perception
JP2006325165A (ja) * 2005-05-20 2006-11-30 Excellead Technology:Kk テロップ発生装置、テロップ発生プログラム、及びテロップ発生方法
FR2888375A1 (fr) 2005-07-06 2007-01-12 Thomson Licensing Sa Procede d'obtention d'une carte de saillance a partir d'une pluralite de cartes de saillances etablies a partir de grandeurs visuelles differentes
JP4458094B2 (ja) * 2007-01-05 2010-04-28 船井電機株式会社 放送受信装置
CA2680724C (en) 2007-03-16 2016-01-26 Thomson Licensing System and method for combining text with three-dimensional content
CN102232294B (zh) * 2008-12-01 2014-12-10 图象公司 用于呈现具有内容自适应信息的三维动态影像的方法和系统
US8803948B2 (en) * 2009-02-12 2014-08-12 Lg Electronics Inc. Broadcast receiver and 3D subtitle data processing method thereof
WO2010096030A1 (en) 2009-02-18 2010-08-26 Thomson Licensing Method and apparatus for preparing subtitles for display
CA2752691C (en) * 2009-02-27 2017-09-05 Laurence James Claydon Systems, apparatus and methods for subtitling for stereoscopic content
US20100332214A1 (en) * 2009-06-30 2010-12-30 Shpalter Shahar System and method for network transmision of subtitles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922652A (zh) * 2004-02-27 2007-02-28 松下电器产业株式会社 信息显示方法以及信息显示装置
CN1893590A (zh) * 2005-05-28 2007-01-10 三星电子株式会社 显示系统、显示设备以及控制视频源和显示设备的方法
CN101682793A (zh) * 2006-10-11 2010-03-24 皇家飞利浦电子股份有限公司 创建三维图形数据
CN101312506A (zh) * 2007-05-21 2008-11-26 株式会社卡西欧日立移动通信 附带字幕的影像重现装置及程序
WO2010010499A1 (en) * 2008-07-25 2010-01-28 Koninklijke Philips Electronics N.V. 3d display handling of subtitles
CN101360193A (zh) * 2008-09-04 2009-02-04 北京中星微电子有限公司 一种视频字幕处理装置及方法

Also Published As

Publication number Publication date
JP2013528010A (ja) 2013-07-04
EP2553931A1 (en) 2013-02-06
US9241149B2 (en) 2016-01-19
US20130010062A1 (en) 2013-01-10
KR101834263B1 (ko) 2018-03-06
KR20130066572A (ko) 2013-06-20
CN102845067A (zh) 2012-12-26
JP6068329B2 (ja) 2017-01-25
WO2011123178A1 (en) 2011-10-06

Similar Documents

Publication Publication Date Title
CN102845067B (zh) 三维(3d)呈现中的字幕
JP5820276B2 (ja) 3d画像及びグラフィカル・データの結合
US10225545B2 (en) Automated 3D photo booth
US8294754B2 (en) Metadata generating method and apparatus and image processing method and apparatus using metadata
CN102292977B (zh) 用于在三维图像中提供隐藏式字幕编排的系统及方法
US20140063019A1 (en) 2d to 3d user interface content data conversion
US20190075351A1 (en) Image Processing Method And Apparatus
JP2012530998A (ja) 相対的奥行きを持たせた立体画像への3dオブジェクトの組み入れ
CN102835117B (zh) 在三维(3d)呈现中使用浮动窗口的方法和系统
KR20110053431A (ko) 서브타이틀들의 3d 디스플레이 처리
CN102484738A (zh) 3d屏幕尺寸补偿
WO2011042479A1 (en) Method of displaying a 3d video with insertion of a graphic item and terminal for implementing the method
US20140225987A1 (en) Video processing apparatus and video processing method
US20120154554A1 (en) Video signal processing apparatus, processing method, and video display apparatus
JP5355758B2 (ja) 映像処理装置及び映像処理方法
Andiel et al. Position-and velocity-depending subpixel correction for spatially multiplexed autostereoscopic displays
KR20110060756A (ko) 3차원 영상 디스플레이 장치 및 방법
JP2012244450A (ja) 表示装置、表示方法、並びにプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190202

Address after: Paris France

Patentee after: International Digital Madison Patent Holding Co.

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

Effective date of registration: 20190202

Address after: I Si Eli Murli Nor, France

Patentee after: THOMSON LICENSING

Address before: I Si Eli Murli Nor, France

Patentee before: THOMSON LICENSING

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160420

Termination date: 20210401

CF01 Termination of patent right due to non-payment of annual fee