CN102812711B

CN102812711B - 利用视差估计和视差时间变化限制的立体字幕加载

Info

Publication number: CN102812711B
Application number: CN201080064705.XA
Authority: CN
Inventors: J.巴康-帕劳; J.拉克
Original assignee: Thomson Licensing SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2010-02-25
Filing date: 2010-12-20
Publication date: 2016-11-02
Anticipated expiration: 2030-12-20
Also published as: KR20120131170A; EP2540088A1; CN102812711A; JP2013520925A; WO2011105993A1; US20120320153A1

Abstract

在本发明的各个实施例中，立体内容中字幕之间沿时间的视差的差受到时间和视差的函数约束。这保证了两个连续的字幕如果在时间上接近，那么它们将会具有相似的视差。更具体地，一种用于在立体内容中定位字幕的方法包括：估计在立体内容的至少一帧中的字幕位置以及使用时间和视差的函数约束在至少两帧的字幕之间的视差的差。在这样的一个实施例中，所述估计可以包括使用在待插入所述字幕的至少一帧中的区域内的对象的视差来计算字幕的视差值。然后，字幕被调整为位于对象的前面或后面。

Description

利用视差估计和视差时间变化限制的立体字幕加载

相关申请的交叉引用

本申请要求申请于2010年2月25日提交的美国临时专利申请第61,308,174号的权益，并且为所有目的，通过引用将其整体合并于此。

技术领域

本发明涉及一种字幕，尤其涉及一种为立体字幕确定视差估计的方法、设备和系统。

背景技术

对二维内容而言，字幕通常被放置在相同的位置，例如，在一帧或帧序列的底部。形成对比的是，对三维内容来说，依据帧内的元素将字幕放置在一帧或帧序列的特定区域是有道理的。

为三维内容加载字幕需要考虑的另一个因素是涉及显示三维内容的视差。更具体地说，在二维内容中，两只眼睛接收相同的帧，然而对于维内容，每只眼睛接收不同的帧。同样地，三维内容的字幕可以被呈现在水平轴的不同的位置上。水平位置的不同被称为视差。三维图像的视差可能给在三维内容中放置字幕带来问题。更具体地说，未应用足够的视差或提供太多的视差给三维图像中的字幕都会给图像带来负面影响。

例如，图1示例了没有提供足够的视差给字幕的情况下，正在被嵌入屏幕对象内部的字幕的问题。在图1中，图的左边部分是带有呈现的字幕的立体图像的左视图和右视图。由于视差，房子会从屏幕上突出出来，而字幕（不具有视差）会停留在屏幕平面上。图的右边部分展示了视图的3D表示并暴露了问题：房子本应该覆盖字幕，而这里看起来字幕在房子内部。

另外，图2描绘了被不恰当地嵌入立体图像的字幕的表示图，该字幕较之立体图像中的对象具有太多的视差。在图2中，图的左边部分是带有呈现的字幕的立体图像的左视图和右视图。由于它的视差，房子会陷进屏幕，而字幕会从中突出出来。图的右边部分展示了视图的3D表示并暴露了问题：房子和字幕之间的视差太高，这使得用户总是将注意力集中在观看两个元素。

这样，由于需要控制和考虑的变量要多得多，因此为三维内容提供字幕比为二维内容提供字幕要复杂得多。

发明内容

本发明的实施例通过提供一种用于确定立体内容的字幕的位置的视差估计方法、设备和系统解决克服现有技术的缺陷。在本发明的各个实施例中，提供了一种立体序列的字幕的视差估计算法。

在本发明的一个实施例中，字幕之间沿时间的视差的差受到时间和视差的函数约束。这保证了两个连续的字幕如果在时间上接近，那么它们将会具有相似的视差。

更具体地说，在本发明的一个实施例中，一种用于对立体内容中的字幕定位的方法包括：估计字幕在立体内容的至少一帧中的位置，以及通过时间和视差的函数约束在至少两帧中的字幕之间的视差的差。在这样的实施例中，所述估计可以包括使用在待插入字幕的至少一帧的区域内的对象的视差来计算字幕的视差值。然后，该字幕可以被调整为位于该对象的前面或后面。

在本发明的一个可替代性实施例中，用于确定立体内容中的字幕位置的加载字幕装置包括：用于存储至少程序例程、内容和数据文件的存储器以及用于执行这些程序例程的处理器。在这样的实施例中，当处理器执行这些程序例程时，被配置为估计字幕在立体内容的至少一帧中的位置，并通过时间和视差的函数来约束在至少两帧中的字幕之间的视差的差。

在本发明的一个可替代性实施例中，一种用于确定立体内容的字幕的位置的系统包括：待插入字幕的立体内容的至少一个左眼视图帧的源，插入字幕的立体内容的至少一个右眼视图帧的源以及，加载字幕装置，用于估计字幕在立体内容的至少一帧中的位置，通过时间和视差的函数来约束在至少两帧中的字幕之间的视差的差，以及使用估计和约束的位置将字幕插入帧内。

附图说明

考虑下面详细的描述连同附图，本发明的教导将更容易理解，附图中：

图1描绘了被不恰当地嵌入立体图像中的字幕的代表图，该字幕较之立体图像中的对象缺乏足够的视差；

图2描绘了被不恰当地嵌入立体图像中的字幕的代表图，该字幕较之立体图像中的对象具有太多的视差；

图3描绘了根据本发明实施例的对立体图像中的字幕的位置进行粗略估计的代表图；

图4描绘了根据本发明实施例的估计单元（cell）的视差的算法；

图5描绘了根据本发明实施例的按照电影的序列沿时间赋予单元的视差值的图；

图6描绘了经过本发明的平衡处理后的图5的细节。

图7描绘了根据本发明实施例的将加载字幕单元切割成单帧长单元（one-frame-long cells）后的图5的电影的视差值的图。

图8描绘了应用了本发明实施例的发明性概念后的图5的电影的细节图；

图9描绘了根据本发明实施例的将字幕当作图像中的对象的示例；

图10描绘了根据本发明实施例的用于提供视差估计以便为立体内容提供字幕的系统的高级框图；

图11描绘了适合用于执行本发明各个实施例的发明性方法和过程的字幕装置的实施例高级框图；

图12描绘了根据本发明实施例的适合在图10和图11的字幕装置中使用的图形用户界面的高级框图；

图13描绘了根据本发明实施例的用于提供视差估计以便为立体内容提供字幕的方法的流程图。

应该被理解的是，这些附图都用作举例说明本发明的概念的目的，它们并不一定是示例本发明唯一可能的配置。为了便于理解，尽可能地使用相同的标号表示对所有附图来说共有的相同的元件。

具体实施方式

本发明有利地提供了一种用于为立体内容提供字幕和视差估计的方法、设备和系统。尽管下面将会主要在为三维内容提供字幕的情景中描述本发明，但是本发明的具体实施例不应该被视为限制本发明的范围。本领域技术人员和被告知本发明的教导的人员将要了解的是，本发明的概念可以被应用于任何实质性的立体图像内容。

图中所示的各种元件的功能可以通过使用专用硬件和能够联合合适的软件执行软件的硬件提供。当由处理器提供时，该功能可以由单个专用的处理器或单个共用的处理器或其中有一些可以共用的多个独立的处理器提供。并且，明确的使用术语“处理器”或“控制器”不应该被解读为排他性地专指能够执行软件的硬件，而应该被解读为没有限制地、隐含地包括数字信号处理器（DSP）硬件、用于存储软件的只读存储器（ROM）、随机存储器（RAM）和非易失性存储器。并且，本说明书中的陈述引用的本发明的所有的原理、方面和实施例，以及其特定示例都包括其结构和功能的等价物。并且，这些等价物也包括现在已知的等价物和未来将会开发出来的等价物（即，任何被开发出来的执行相同功能而不论其结构如何的元件）。

因此，例如，本领域技术人员将要了解的是，本说明书展示出来的框图表示实施本发明原理的示例性系统组件和/或电路的概念图。类似地，将要了解的是，任何流程图、流程图示、状态转换图、伪代码等表示可在计算机可读介质中被实质性表示并由计算机或处理器执行的各种过程，不论这些计算机或处理器是否明显地显示出来。

如前所述，为立体内容如三维（3D）内容添加字幕比为二维内容添加字幕要复杂得多。例如，对3D内容来说，依据帧内的元素/对象将字幕放置在一帧或帧序列的某一区域内是有道理的。并且，对3D内容来说，必须将涉及显示3D内容的视差考虑在内。这样，用于三维内容的字幕可以被呈现在水平轴的不同位置上。

以前提出的一个解决方案是将字幕放置在尽可能接近屏幕上的对象的位置，但是这也也会产生问题。无法保证在时间上相互接近的连续的字幕具有相似的视差。在时间上接近的字幕之间的较大的视差的差可能会引起用户视觉疲劳并破坏视觉体验。更具体地说，在立体序列的左帧和右帧中出现的对象的视差可以是0、正数或负数。当视差是0时，对象的3D投影将会在屏幕的平面内；当视差是正数时，对象将会陷进屏幕；当视差是负数时，对象将会突出屏幕。通常地，视差以像素为量度。

目前存在几种估计屏幕中对象的视差的方法。对这些方法的一种可能的分类是根据它们提供的视差点的数目划分的。因此，这些方法被划分为两类：

稠密视差图，其中每个像素（或者几乎每个像素）都具有视差值。

稀疏视差图，其中只有一些像素具有视差值。

本说明书中描述的本发明的各个实施例的方法的实现方式和描述都实现稀疏视差图，但是也可以根据本发明的概念使用稠密视差图而不影响过程或结果。

在描述本发明的概念中，发明人将字幕定义为划分在被定义为“单元（cell）”的一些单位（unit）。每个单元通常由增量唯一标识符（incrementalunique identifier）、时间戳和文本其自身组成。在本发明的一个实施例中，字幕单元中的字段（fields）是：

时间戳，决定何时呈现字幕。

文本，将要被呈现的字幕文本。

根据本发明的一个实施例，为立体图像放置字幕开始于是估计。也就是说，可以在呈现之前估计将要被呈现字幕的区域。即使区域的精确大小和位置不是完全已知的（由于尺寸和字型会变化，所以区域也会变化），但粗略估计也足够开始下面的工作。例如，图3描绘了根据本发明实施例的对立体图像中的字幕的位置进行粗略估计的代表图。如在图3的实施例中所描绘的，字幕被放置在位于其后方的对象的前面，并靠近这些对象。这样，使用字幕区域内的对象的视差来计算字幕的视差值。

在本发明的一个实施例中，字幕区域的尺寸和位置用帧尺寸的百分比定义，X范围为帧宽度的10%到90%，Y范围为帧高度的70%到100%。

根据本发明的各个实施例，根据下列关系估计字幕单元的视差：

C＝{c₁，c₂,...,c_M}描绘了字幕单元的集合，t_i表示字幕单元c_i的时间戳（注意时间戳t_i表示在哪几帧中必须呈现字幕单元c_i的文本）。描绘了被时间戳t_i覆盖的帧的集合，并且D_R描述了字幕区域R内的视差D的集合。描述了被时间戳t_i覆盖的区域R内的视差的集合，并且描述了中第帧的区域R内的视差D的集合（按照增大的顺序排列）。

上面描述的关系将视差值赋予字幕单元c_i。因为此目的而使用视差值集合根据本发明，被设定为最小视差值其中α是负值（记住视差越小，对象的3D投影越靠近用户，并且在t_i期间在R内字幕必须比其它任何对象要靠近用户）。

应该注意到的是，中的一些视差可以是异常值（outliers）。因此，估计的方法必须要能应对这种不便。解决异常值问题的一种方法如图4所示。更加具体地说，图4描绘了一种估计单元c_i的视差的算法。在图4中，D_d描绘字幕单元的缺省视差，D_N描绘最大视差值。

例如，图5描绘了根据本发明实施例的为电影的序列沿时间赋予单元的视差值的图。红点表示用于所有帧的DR中的估计的视差。粗黄色线是在平衡处理前赋给字幕单元的视差值。细蓝色线是在平衡处理后赋给字幕单元的视差值。

在本发明的一个实施例中，使用两个特征点之间的位移向量的水平分量计算视差值。并且，图4中说明的算法的变量为：D_d=-10，D_M=-80，V=10，W=10，P=6，Q=6，α=-5。

根据本发明，如上所述，视差值被赋给每个字幕单元c_i。图4的实施例的值是在不知道其相邻的单元的任何信息的情况下被赋予的，这可能导致在两个连续的单元之间的存在让人讨厌的视差跳变。

根据本发明的一个实施例，为了解决这个问题，必须对字幕单元进行平衡处理。这种处理的在于向C的视差集合引入约束——时间和视差的函数。在本发明的一个实施例中，时间（即，帧序号）上接近的字幕被强制具有相似的视差。在本发明的一个实施例中，这通过在具有较高视差（即，更靠近屏幕的3D投影）的字幕单元上加上一个负值以便避免图1中描绘的问题来完成。

例如，图6描绘了经过如上所述的本发明的平衡处理后的图5的细节。注意到在图6中，赋给三个单元中的两个的视差在经过平衡处理后仍旧保持不变，而另外一个发生改变。

在本发明的一个实施例中，用于在具有较高视差的细小单元（subtle cell）上加上一个负值的算法如下：

其中，间隙(t_i，t_i+1)是时间戳t_i的结束和时间戳t_i+1的开始之间的帧的数目，T是阈值，ε是负值。在一个实施例中，T=3，ε=1。

在本发明的各个实施例中，C的细小单元可以被切割成单帧长单元，生成新的单元集合。将本发明的视差估计方法应用于这个新的单元集合会使得字幕根据D_R上元素的视差平滑地在Z轴上移动。这个技术会带给用户更好的体验。尽管在已经描述的实施例中，已经生成了单帧长单元，但是在本发明的替代性实施例中，生成更多帧的数目的单元也是可能的。并且，可以再次对视差值滤波以更多地约束时间一致性（temporal consistency）。

例如，图7描绘了根据本发明实施例的将加载字幕单元切割成单帧长单元后的图5的电影的视差值的图。更进一步地，图8描绘了应用了本发明实施例的发明性概念后的图5的电影的细节图。注意到视差如何随着时间平滑地变化。

根据本发明的概念，字幕可以被视为是屏幕上的其它对象。也就是说，字幕可以被存在于内容中对象部分地或者完全地遮蔽。例如，图9描绘了根据本发明实施例的将字幕当作图像中的对象的示例。在图9中，挖掘机和文本被用作屏幕的对象的实例。想象一下铲的视差是-50，履带上的链条的视差是-10。可以通过以在铲和链条之间的视差值（即，-30）呈现字幕而将字幕融入屏幕。并且，将只呈现未与铲重叠的部分字幕。图9中的字幕的文本是“屏幕的一些对象可以遮蔽字幕”。

另外，根据除了视差之外的本发明的概念，字幕的其它特征（如大小、颜色、纹理、字型等）也可以依据屏幕的特性变化。例如，当字幕从屏幕中突出来的时候，字幕的尺寸可以增大。并且，本发明的算法可以被改进以便以更快的方式平衡字幕。例如，在本发明的一个实施例中，最大视差值可以被这样设定以使得两个字幕单元之间的视差的差比允许的最大值更高时，必须要改变的单元的视差可以被设定为另一个单元的视差加上它们之间允许的最大视差的差。

更进一步地，在本发明的替代性实施例中，确定感兴趣区域（regions ofinterest），并将字幕放置在其中的对象的相同的视差处。如果在字幕区域中存在具有更大负值的视差的对象，那么那里的视差将会被设定为1。还可以对字幕进行平衡处理。

并且，根据本发明的各个实施例，可以设定一个缺省值。这样，具有缺省视差值的字幕单元可以被视为锚点以将其它字幕单元拉到它的位置。并且，虽然可以使用两个特征点之间的位移向量的水平分量来计算视差值，但是水平分量和垂直分量都可以被用来计算视差值。在这样的实施例中，区域DR可以随时间改变。

图10描绘了根据本发明实施例的用于提供视差估计以便为立体（3D）内容提供字幕的系统100的高级框图。图10的系统100示例性地包括3D内容的左眼视图的源105和右眼视图的源110。图10的系统100进一步包括立体字幕装置115、混合器125和用于呈现立体（3D）图像的呈现器130。

在图10的系统100中，来自左眼视图的源105和右眼视图的源110的内容通过立体字幕装置115通信给混合器125。在本发明的一个实施例中，图10的系统100的混合器125能够使用3D显示器所支持的模式混合来自两个源105和110的内容，例如，线交叉或棋盘图案。立体字幕装置115接收来自左眼视图的源105和右眼视图的源110的内容以及包含与将要被插入立体（3D）图像中的字幕有关的信息的信息（文本文件）。即，在本发明的一个实施例中，立体字幕装置115接收立体图像和与在被接收的待插入字幕的立体图像中的字幕有关的信息。本发明的字幕装置，根据本发明的概念并具体地如上所述，在三维内容的至少一帧中估计字幕的位置，并通过时间和视差的函数来约束随后的帧的字幕之间的视差的差。

图11描绘了适合用于执行本发明各个实施例的发明性方法和过程的字幕装置115的实施例的高级框图。更具体地，图11的字幕装置115示例性地包括处理器1110和用于存储控制程序、文件信息、存储的媒体等的存储器1120。字幕装置115与常规支持电路1130，诸如，电源、时钟电路、缓存存储器等以及协助执行存储在存储器1120中的软件例程的电路协作。这样，可以考虑的是，本说明书中作为软件过程讨论的某些过程步骤也可以在硬件内被实施为，例如，与字幕装置115协作以运行各个步骤的电路。字幕装置115还包含形成在各个与字幕装置115通信的功能元件（诸如混合器、显示器、内容源等）之间的接口的输入输出电路1140。

再一次，根据本发明，尽管图11中的字幕装置115被描述为被编程以运行各种控制功能的通用计算机，但是本发明也可以被实施为例如特定用途集成电路（ASIC）的硬件。这样，本说明书中描述的过程步骤应该被广泛地解释为是由软件、硬件或二者组合等效地执行实现的。

图12描绘了根据本发明实施例的适合在图10和图11的字幕装置中使用的图形用户界面的高级框图。如图12所示，根据本发明的实施例的GUI可以包括定位将要加载的文件的游览器、用于字幕的左和右位置指示器、用来偏移左和右位置的上和下按钮、全局偏置指示器和X、Y、Z调整按钮、用于命名输出文件的文本条、时间和文件名指示器，以及时间码指示器和键入按钮（cue button）。根据本发明的实施例，Z调整用于调整帧内字幕的视差或位置并被用来执行本发明的如上所描述的用于放置字幕的所描述的发明性概念。

图12的GUI进一步示例性地包括包含播放/暂停、前进和后退按钮的回放视口。图12的GUI的回放视口区更进一步地包括X和Y微调偏移按钮和指示器。主题字幕的回放可以被配置为循环回放或使用各自的按钮选择前一个的或下一个字幕。如图12所描绘的，在图12的GUI的另一个区中，用户可以可选地为字幕设置安全区边界。更加具体地，在本发明的一个实施例中，安全字幕区可以被设置在立体内容的帧上。当例如使用图12的GUI指定这样的区域时，只有在该区域内的元素才保证会被呈现在任何兼容的显示器上。

如图12所示，本发明的GUI可以进一步包括为字幕插入评论的评论选项。在本发明的一个实施例中，评论被显示在GUI上并与控制器文件信息存储在一起。

图13描绘了根据本发明实施例的用于提供视差估计以便为立体内容提供字幕的方法的流程图。图13的方法1300在步骤1302开始，在该步骤中，估计在立体内容的至少一帧中的字幕的位置。如上所述，在本发明的一个实施例中，该估计包括使用在待插入字幕的至少一帧的区域内的对象的视差值计算用于字幕的视差值。方法1300前进到步骤1304。

在步骤1304，通过时间和视差的函数来约束在至少两帧的字幕之间的视差的差。如上所述，在本发明的一个实施例中，通过将负视差值应用于具有更高视差值的字幕来约束在至少两帧的字幕之间的视差的差。也就是说，在本发明的各个实施例中，帧之间的字幕的最大视差的差被如此设定以使得当两个字幕之间的视差的差比最大值更高时，必须要改变的字幕的视差值被设定为另一个字幕的视差值加上最大视差的差。然后，方法1300退出。

描述完用于视差估计以提供字幕给立体内容的方法、设备和系统的各个实施例（示例性而非限制性的）之后，注意到，在上述教导的启发下，本领域技术人员可以做出修改和变化。因此，应该理解的是，在公开的本发明的某一实施例中可以做出在本发明的范围和精神实质内的改变。然而，以上内容是针对本发明的各种实施例的，在不偏离其基本范围的情况下，还可以设计出本发明的其它和更多的实施例。

Claims

1.一种用于在立体内容中确定字幕位置的方法，所述方法包括：

估计在所述立体内容的至少一帧中的字幕位置；

将字幕分割成单元，每个单元包括增量唯一标识符、时间戳和字幕文本；以及

通过时间和视差的函数抑制时间上接近的字幕的单元之间的视差的差。

2.如权利要求1所述的方法，其中，所述估计包括使用在待插入所述字幕的所述至少一帧中的区域内的对象的视差来计算字幕的视差值。

3.如权利要求2所述的方法，其中，所述字幕被放置在所述对象的前面并靠近所述对象。

4.如权利要求2所述的方法，其中，所述区域包括字幕区域，并且所述字幕区域的尺寸和放置由所述至少一帧的尺寸的百分比定义。

5.如权利要求1所述的方法，其中，通过将负视差值应用在具有较高视差值的字幕上来约束在所述至少两帧中的字幕之间的视差的差。

6.如权利要求1所述的方法，进一步包括设定最大视差的差，使得当两个字幕之间的视差的差比所述最大值更高时，被选择要改变的所述字幕的所述视差值被设定为所述另一个字幕的视差值加上所述最大视差的差。

7.如权利要求1所述的方法，进一步包括将字幕分割成一个帧长度的单元。

8.如权利要求1所述的方法，进一步包括设定缺省视差值使得具有缺省视差值的字幕被视为锚点以将其它字幕拉到它的位置。

9.如权利要求1所述的方法，其中使用算法运行所述约束。

10.一种用于在立体内容中确定字幕位置的加载字幕装置，所述装置包括：

存储器，用于存储至少程序例程、内容和数据文件；以及

处理器，用于执行所述程序例程，当所述处理器执行所述程序例程时，被配置为运行下列步骤：

估计在所述立体内容的至少一帧中的字幕位置；

11.如权利要求10所述的加载字幕装置，其中所述加载字幕装置包括使得用户能够在所述立体内容的至少一帧中定位字幕的图形用户界面。

12.一种用于在立体内容中确定字幕位置的系统，所述系统包括：

待插入字幕的所述立体内容的至少一个左眼视图帧的源；

待插入字幕的所述立体内容的至少一个右眼视图帧的源；以及

加载字幕装置，用于：

估计在所述立体内容的至少一帧中的字幕位置；

将字幕分割成单元，每个单元包括增量唯一标识符、时间戳和字幕文本；

通过时间和视差的函数抑制时间上接近的字幕的单元之间的视差的差；以及

使用所述估计并抑制的位置将所述字幕的单元插入所述帧。

13.如权利要求12所述的系统，进一步包括用于混合已被加载字幕的至少一个左眼视图帧和对应的已被加载字幕的至少一个右眼视图帧的混合器。

14.如权利要求12所述的系统，进一步包括用于呈现所述已被加载字幕的立体内容的呈现装置。

15.如权利要求12所述的系统，进一步包括用于使得用户能够在所述立体内容的至少一帧中定位字幕的用户接口。