CN101563935A

CN101563935A - 将二维视频转换为三维视频的方法和系统

Info

Publication number: CN101563935A
Application number: CNA2007800470857A
Authority: CN
Inventors: D·布拉泽罗维克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-12-19
Filing date: 2007-12-14
Publication date: 2009-10-21
Anticipated expiration: 2027-12-14
Also published as: JP2010514318A; RU2009127757A; KR20090092839A; JP5366824B2; EP2092760A1; CN101563935B; RU2454025C2; US8493448B2; WO2008075276A1; US20100026784A1

Abstract

2D/3D视频转换使用用于向视频序列提供对视觉深度的估计的方法，该方法包括音频场景分类(34)，在该音频场景分类中，根据对该场景的音频信息(32)的分析来制定该场景的视觉深度(37)的视觉深度分类指数，其中该视觉深度分类指数(37)被用于随后的、根据相同场景的视频信息(33)进行的视觉深度估计(38)，由此减少了计算负载并且加快了处理速度。

Description

将二维视频转换为三维视频的方法和系统

技术领域

本发明涉及用于为视频序列提供视觉深度的估计的方法。

本发明还涉及用于将二维(2D)图像转换为三维(3D)图像的方法，其中该方法包括视觉深度的估计。

本发明进一步涉及用于为视频序列提供视觉深度估计的系统。

背景技术

视觉深度，即观察点与图像中的物体之间的距离，是用于将原始2D图像转换为3D图像的重要参数。为了将2D图像转换为3D图像，必须产生视觉深度图，其中为每个像素提供深度值，其通常被称为z值。该z值可以是绝对的也可以是相对的。通过使用像素上的数据和深度图，可以建立一左一右两个图像。左图像和右图像组合成3D数据流。3D图像显示装置能够产生两个略有差异的图像，这两个图像由观众感知为左图像和右图像，从而提供了3D图像的外观和感觉。

为了精确地产生左图像和右图像，需要知道视觉深度，或者知道视觉深度是有益的。

公知的是，尝试从图像线索中估计出图像内的像素的深度值。这样的图像线索例如为遮挡(occlusion)(一个图像元素位于另一图像元素之后)，物体之间焦点的差异，物体的相对大小，与之前的图像的比较。

尽管这样的方法可以提供合理的结果，进行视觉深度估计所需的计算功率通常是非常大的，所涉及的数据量也非常大。即使可行，实时地将2D转换为3D也是困难的。

需要一种允许减少计算负载并且由此使得能够进行更有效率的深度估计的方法。

发明内容

为此目的，根据本发明的方法的特征在于，该方法包括音频场景分类，在该音频场景分类中，根据对场景的音频信息的分析提供该场景的视觉深度的视觉深度分类指数，其中，该视觉深度分类指数被用于随后的、根据相同场景的视频信息所进行的视觉深度估计。

根据本发明的系统的特征在于，该系统包括音频分类器，其用于分析场景的音频信息并且根据该分析将该场景归类为视觉深度分类，该音频分类器具有用于提供该场景的视觉深度分类指数的输出端，其中，该视觉深度分类指数被提供给相同场景的视频信息的视频视觉深度分析器。

本发明所基于的构思在于，在音频场景和摄影机(观看)距离之间存在相关性。

通过使用音频信息，场景能够被归类为视觉深度分类，例如大特写(extreme clos-up)、特写、中景等，即能够将视觉深度分类指数提供给场景。

然后，此视觉深度分类指数作为用于根据相同场景的视频信息来确定视觉深度的信息被用于随后的步骤中。

由于音频少得多的数据吞吐量，用音频分析来代替视频分析意味着降低了计算延迟。在文献资料中，音频分类器已被描述为在时间帧比一个视频帧要短若干倍的基础上，其工作得要比实时的快几十倍。因此，由音频分析收集的信息不会造成很多计算负载并且能够被实时地执行(或者如果视频节目的整个音轨已经在存储器中，甚至可以更快)。然而，从音频分析收集的信息的确显著地减少了随后的视频分析中的计算负载，因为来自所述音频分类器的信息是一个好的起点。

优选地，所述视觉深度分类指数包括被分析的场景的音频的概率，该概率表明场景落入一个或多个视觉深度分类的概率。

需要说明的是，在本发明的框架内，“指数(index)”可以是单个指示，例如视觉深度分类的单个指示，比如“此场景是大特写”或者更复杂的数据。在优选的实施例中，所述指数提供了场景属于某个视觉深度分类的概率。这样的指示能够被用于随后的、根据视频信息进行的视觉深度分析，以便快速地(即利用相对较快和简单的算法)尝试具有最高概率的深度分类是否为正确的起点，或者下一个最可能的深度分类才是。

因此，所述概率信息为所述视觉深度确定的更适当的起点提供了机会。该概率信息减少了随后的、不是由来自所述音频分析器的信息所辅助的视觉深度分析被来自该音频分析器的信息误导的机会。

在实施例中，所述音频场景分类基于决策树，其中，以该决策树的形式来分析音频线索。

在实施例中，所述音频场景分类基于一种方法，其中，每个音频线索被用于提供单独的分类并且相应于音频线索的权重为每个分类分配权重。

在第一实施例中，音频线索基于语音内容。语音与摄影机距离之间的对应关系(correspondance)被发现是相对较高的。

在另一个实施例中，音频线索基于音乐内容。已发现音乐的基调和/或强度与摄影机距离相关。

在又一个实施例中，音频线索基于噪声。

附图说明

通过使用以下附图来更详细地描述本发明的这些和其他有利的方面。

图1示出了图像的一部分的几何形状以及两个定向；

图2示出了图像的一部分的图像；

图3示意性地示出了根据本发明的方法和系统；

图4示出了典型的摄影机位置；

图5示出了一些实验结果；

图6示出了典型的视觉深度线索的依赖性；

图7示出了本方法的一个示例性实施方式的全视图；

图8示出了音频分类(左边)以及音频帧数据和视频帧数据的时间对齐(右边)；

图9示出了决策树的例子；

图10示出了关于摄影机定位和运动的例子。

附图不是按比例绘制的。一般而言，在附图中，相同的部件由相同的附图标记来表示。

具体实施方式

当前，3D电视这个概念正经历着真正的复兴，其体现在对现有的和新的3D模式和技术及其周边领域的日益增长的投资中。与以往不同，目前的努力致力于并行地处理生产消费链中的所有方面，即同时在内容和显示器方面。当电影产业正在倡导基于立体图像记录和观看的3D影院体验之时，厂家们正提供着用于将这样的立体的或常规的2D视频转换为适于在自动立体(消费者)显示器上进行呈现的格式的解决方案。与此同时，在诸如MPEG的论坛中正在讨论这样的格式的标准化。所有这些使得3D电视似乎对于许多人来说是推动下一个主要媒体的催化剂。

为了成功地将3D电视推广到市场上，(自动的)2D到3D的转换的可用性是一个重要的组成部分。由于仅能得到有限量的立体材料，因而如果现有材料(例如DVD)也能够在3D中被显示，那么3D电视才会吸引广大观众。此转换的中心思想在于对深度的估计，也就是说，根据场景中哪些物体(图像中的像素)比其他物体更接近观众来进行量化。这样的转换能够由播送者进行，而产生的像素深度图则在常规电视信号之外而被传送。然而，在消费者一侧的转换允许改良的3D电视的推广，其不需要针对广播基础设施进行调整。

图1示出了图像10的一部分的几何形状以及两个定向12a、12b。图像的一部分可以例如是人或者任何在该图像中的物体。本发明涉及一种用于提供图像的深度图的方法。深度图可以被视为将z值，即深度值，分配给物体的点。当包括图像10的所述部分的场景图像是通过来自不同方向12a、12b的点投影而获得的时候，图像的该部分上的点14、15在该图上可被见到的位置是点14、15的投影16a、16b、17a、17b。所述投影可以通过从点14、15开始经过定向12a、12b到图像平面18上所画出的直线19a-19d来说明。为了阐明基本原理，定向12a、12b是在与图像平面18平行的平面中被选择的，但本发明不限于这样的定向12a、12b的选择。这些直线19a-19d和图像平面18的相交部分示出了图像10的所述部分的点14、15将在图像上可被见到的位置。

需要注意的是，观察点12a、12b的改变导致图像的该部分上的点14、15在该图像平面中可被见到的位置16a、16b、17a、17b的移位。此移位反比于所述观察点和所述点之间的深度“z”，并且正比于该观察点的位置的变化量。因此，所述移位对于具有离定向12a、12b不同深度“z”的图像10的所述部分的点14、15而言将是不同的。当所述z深度图将从二维图像中得到时，通常使用视觉线索，例如遮挡、物体的大小、相似物体的相对大小、物体边缘的清晰度等。然而，结果常常是含糊的。像素大小较小的树可以是附近的小树或者一定距离之外的大树，因此，大小是一种线索但可能是误导性的。物体是否清晰(infocus)可以表明与其他远离的物体相比，该物体是一个前景物体。然而，摄影机和物体之间的距离是小还是较大却不能被区分开来。因此，清晰或者不清晰形成了视频线索但可能是误导性的。以下，给出了误导性的线索的更多例子。

发明人已经意识到，一些相对固定的设置常被使用，例如大特写、特写、中景、全景和远景。这些设置中的每一个具有摄影机物体距离的较大或较小特征范围。

此外，发明人还发现，在音频场景，即与场景相关联的音轨，和摄影机距离之间存在相关性。

这形成了本发明的核心：通过使用音频信息来向场景提供指示摄影机距离的指数。与视频数据相比，音频信息需要少得多的数据和计算能力并且能够以显著更快的速度被分析。

图3示出了根据本发明的方法和系统的基本结构。这允许2D到3D的转换。

输入信号I(2D)，即2D的视频场景，在输入端31中被划分为音频场景部分32和视频场景部分33。该音频场景被发送到音频分类器34。该分类器包括分析器35，其用于对生成一定特征(例如语音的存在、音乐的存在、语音音乐的响度、噪声存在等)的所述音频场景进行分析。以下将给出例子。此信息被用于内部分类器36，该内部分类器使用所述分析的结果，以便对所述音频场景进行分类并给其一指数37，该指数例如是一个数字，指示该场景为大特写，或者是一个表格，给出该场景是大特写、特写、中景等的概率。

指数37被用于视觉深度估计器38中。该视觉深度估计器38一方面使用该指数数据，另一方面使用相同的视频场景中的视频线索，以便建立深度图。该深度图被加入到图像数据中。通过使用该深度图，现在，图像就能够在3D图像装置上进行显示了。

本发明的优点在于，通过使用组合的音频和视频线索，2D到3D的转换能够加速许多并且常常甚至能够实时地完成。

图4示出了典型的摄影机位置，大特写(大CU)、特写(CU)、中景、全景和远景。最重要的物体和摄影机之间的典型距离或者典型的距离范围与这些摄影机设置中的每一个相关联。尽管人眼，或者更确切地说人脑，能够几乎立即区分出不同的摄影机设置，但是用视频文件中的视频线索来做同样的事情常常需要大量的计算功率，即便如此还可能出现含糊的结果。从2D视频中对深度进行自动估计本质上要依靠启发式的深度线索，其中的每一个深度线索不可避免的是不完美的并且可能对于不同的场景类型(例如特写场景对中景、室内对室外)所起的作用有好有坏。已经对图像中视频场景的分类作为单独的问题进行了研究，并且已提出了许多解决方案，它们都包括诸如(多元)模式分析和/或监督学习的技术。然而，当把高吞吐量的视频数据(每秒钟许多图像)作为输入时，这些技术常常引入显著的计算延迟，由于这个原因，它们不能获得实用的2D到3D的视频转换系统。

这意味着非常期望有一种检测不同场景类型的机制，从而使得所述线索间的适当的(动态)混合或切换成为可能。

发明人发现，音频场景和摄影机设置之间存在相关性。由于数据量小许多，因而音频场景能以显著更快的速度被分析和分类。这种根据音频进行的检测允许非常快速地对摄影机设置之一中的场景进行粗分类。此分类提供了要在视觉分析中使用的非常重要的线索，该线索通常作为一个或多个用于算法的参数的起点，所述算法被用在视觉深度分析器38中。本发明有效地利用了如下事实，即在视频中，尤其在电影中，各种声源(例如语音、电影音乐、环境声音等)的结合和特性透露了关于该场景的许多内容。音频场景和摄影机(观看)距离之间存在相关性。

需要说明的是，已知将音频场景分类为例如独白和对话、室内室外场景，但还没有将它们与摄影机设置的分类或者将这样的分类用于图像的2D到3D的转换相联系起来。

图5示出了一些实验结果。图5示出了音频场景分量与摄影机距离之间的相关性，其中1＝“大特写”，2＝“特写”，3＝“中景”，4＝“全景”，5＝“远景”。图5采用从电影(“加勒比海盗”)中任意选取(约7分钟长)的选录来进行实验。上面的部分描述了音频分类器的结果，该音频分类器运行在此视频序列的音轨上。尽管不可避免的是不完美的，但发现这些结果较好地接近真实情况。图5的底部示出了关于摄影机距离对此视频进行的精确到帧的人工标注。通过比较不同的图，能够得到一些重要的观察结论：

1.具有较多语音活动的间隔基本上总是相应于较小的摄影机距离(特写和大特写)。

2.具有显著的背景音乐并且缺乏语音(但包括其他声源)的间隔常常相应于较大的摄影机距离(中景、全景和远景)。

因此，音频分类器使得能够在很多情况下对摄影机距离进行分析。

现在将更详细地讨论与2D到3D的转换相关联的问题。

许多用于从2D视频中对深度进行估计的系统使用静止的深度轮廓，或者将该深度轮廓作为用于处理的起点或者甚至将其作为全部的线索。图6示出了这样的深度轮廓对视觉场景的依赖性。在深度图中，越暗表示(与观众)离得越远。

图6明显地示出了此线索较好地适用于在地平面和水平线之间具有清晰间隔的中景拍摄(例如室外)，但显然不适用于在其中同一个物体延伸很大一部分画面高度或者延伸整个画面高度的特写和大特写。

在其中场景的类型可以确定基于计算机的深度估计的过程和性能的其他一些例子是：

-运动场景——包括物体的运动或者记录场景的摄影机的运动，有时是同时的。运动的存在以及运动的复杂度水平可以是重要的参数，因为对运动流程的精确估计能够推断出场景中的遮挡(从而因此为深度)关系。

-复杂的场景——包括多个物体和(纹理)背景。视觉不均匀性的水平对执行适当的物体边界分割的能力起决定作用，这进而可以被用于推断深度(不)连续性。

为了避免视觉场景的多样化对计算机生成的视觉深度线索的性能产生抑制作用，我们提出对场景的一些特征类型进行区分并且相应地调整对那些深度线索的计算、混合和可能的后处理。

本发明的特征和实施例如下：

1.我们从如下观点出发，即视频中的许多场景本质上是由音频驱动的，这对于来自专业电视和电影制作的叙述内容而言是非常正确的。

2.本发明的中心思想在于使2D到3D的视频转换方案可以使用音频分类器的输出——将待转换的视频的音轨作为输入。音频分类器输出视觉深度分类指数，该视觉深度分类指数可以包括概率，该音频分类器通过该概率为每个音频帧分配一个或一组音频分类(例如语音、音乐、寂静、噪声、环境声等)中的一个。通过在视频(若干帧)的一定间隔期间对这些概率进行分析，能够获得关于场景类型的线索。例如：

-语音活动多表明有对话存在的可能性较大，从而因此为特写。

-背景音乐和/或环境声(可能与语音结合)表明有动作存在的可能性较大，从而因此为复杂的(运动)场景。

更复杂的判决策略当然是可行的，其中的一些将在下文中予以讨论。

此外，如果音频片段被发现属于单个(主导)的音频类别，那么可以对该音频片段进行进一步的专门针对那个类别的分析，例如：

-说话人(改变的)跟踪——知道语音片段交替地属于不同的说话人增加了对话的可能性，从而因此为特写。

-音乐速度分析——动态的电影音乐常被用于跟随紧张的动作，从而因此表示(复杂的)运动场景。

-音乐气氛的分析——“戏剧性的”电影音乐常被用于预示随后的悬念，这通常为拍摄为特写和中景的交换。

-例如“噪声”或“环境声”(比如人群、掌声、射击、爆炸等)的子分类能够提供关于行为及其环境(室内、室外等)的有用线索。

由于音频显著更小的数据吞吐量，用音频分析代替视频分析意味着减少了计算延迟。

用来自附加的图像分析的决定对以这样的速度从音频信息中获得的决定(场景分类指数)进行补充，以提高可靠性。

图7给出了本方法的示例性实施方式的全视图。以下对不同的处理步骤做更详细的解释。需要说明的是，至少由虚线表示的部件对于基本方案来说是可选的。

-数据缓存——这在非实时的2D到3D视频转换中是特别有用的，在非实时的2D到3D视频转换中，可以将场景分类应用到视频的较大间隔上，例如包含在一对关键帧(例如检测到的摄影镜头边界)之间的许多帧。

-音频分类器——为每个音频帧分配概率，通过该概率，该帧可以被分配到一组预定义的类别(例如语音、音乐、寂静、噪声、环境声等)中的每一个。在文献资料中报导了各种不同的能够执行快速和可靠的音频分类的算法，在这些算法中，不同的音频类别的概率常常是以非累加的方式(即相互独立地)计算的。图8示出了这样的现有分类器的可能的输出。

-阈值——可以被应用于主导的(最大的)和/或其他非零的概率，作为一种确定音频帧来自单个声源(音频类别)的方法。

-辅助音频分析——是指专门针对某个音频类别的处理，例如：

-说话人(改变)跟踪：虽然对说话人的识别通常是一个困难的问题，但是仅识别说话人的改变而不考虑其确切的身份是可行的。

-音乐速度分析：其涵盖于系统的扩展，还包括一些更先进的关于音乐的气氛、节拍、音调等的分析。

-将环境声分类为人群、射击、爆炸等。

-基于音频的视觉场景分类——指的是对音频类别概率的分析，以及对从辅助音频分析中获得的可能的其他信息的分析，其目的在于根据其代表的场景类别对一定的视频时间帧进行分类。该分析意味着简单的基于规则的逻辑或者更复杂的处理，这将在下文中予以说明。

-时间对齐——以视频的速度对齐从音频中获得的分类。这可以通过对插值的基于音频帧的数据取平均以及注意对于每个视频帧和音频帧来说可得到的时间戳的方式来实现。这也被示出在图8中。

-控制逻辑——意味着用于根据检测到的场景类型来切换一定的深度指数或者调整其计算(例如初始化、参数设置)或权重的规则。

-深度估计——指的是从任一深度指数中为图像生成深度图，这通常是通过将来自所有线索(每个线索给予一定权重)的深度图累加起来的方式进行的。

图8示出了音频分类(左边)和音频和视频帧数据的时间对齐(右边)。在这里，该对齐是通过对每两个连续的视频帧之间的(较高速度的)音频帧数据取平均的方式实现的。需要注意的是，特征向量可以有效地为标量，即代表场景分类的结果的“场景标记指数”。

存在若干种使用音频线索来提供视觉深度分类指数的方法。一种利用音频线索的简单方法为：通过决策树来使用基于规则的逻辑。决策树通过一系列问题来对模式进行分类，其中，下一个问题取决于对当前问题的回答。图9示出了一个例子。音频分类、说话人改变的跟踪以及音乐速度的分析的含义和实施已在上文中提及。语音速度和气氛的量化是韵律的标准分析的一个方面，其指的是口语的“超音段”方面(例如音高、持续时间、响度和音色的改变)。对于音乐而言，这样的认知分析更加困难；然而，已报导了各种研究，它们探讨了利用取自声信号的强度、音色和节奏相关的特征的信号处理和模式分类技术(例如神经网络)。需要注意的是，在摄影机距离方面的分类是根据所定义的五种距离进行的：大特写、特写、中景、全景和远景。同样，一些分支以含糊的分类结束，这通过附加的(基于图像的)分析来消除。

一种有益的实施例为，决策至少部分地基于角色信息。角色信息例如为导演的名字或者演员的名字。某些导演有特殊的风格。一些导演比其他导演使用多得多的特写。同样地，一些演员很容易被拍特写(通常为主角)，而其他演员则较少被拍特写。通过使用此通常可以得到的信息，可以进行更加准确的预测。

另一种适用于实施本发明的方法为贝叶斯(Bayesian)推断。贝叶斯推断规定了将自然状态(例如视觉场景的类型)的后验概率、该状态的先验概率以及对来自自然的一些特征的测量(例如，音频分类)相互联系起来的基本规则。公式(1)说明了此规则，而在公式(1)的下方通过符号表示法的例子给出了进一步的说明。每个贝叶斯信度网(belief net)由节点和与节点相关联的状态组成。节点间的连接代表基于证据的直接因果影响。例如，节点B可以具有状态{b₁，b₂，...}，其全体由b来表示；P(b)指的是先验概率{p(b₁)，p(b2)，...}，p(c|b)指的是在b出现的情况下c的条件概率(可能性)。所有的先验与可能性能够被用于通过公式(1)来计算用于形成决策规则的后验概率。

p (ω_{j} | x) = \frac{p (x | ω_{j}) \cdot p (ω_{j})}{Σ_{j = 1}^{c} p (x | ω_{j}) \cdot p (ω_{j})} - - - (1)

在贝叶斯分类器中，对(类别条件)概率的估计起着决定性的作用。在一些情况下，对于不同的概率采用标准分布(例如高斯分布)可能就足够了；在其他情况下，从训练样本中(例如离线地)估计这些分布将更加合适。

控制逻辑意味着规则，所述规则用于根据检测到的场景类别信息来切换不同的视觉深度线索或者调整它们的计算(初始化、参数设置等)以及可能的后处理。若干这样的规则是可想到的，并且根据经验证据，可以将它们制定得有点儿保守——当场景的某个特征(例如在摄影机距离方面)可能对一些深度线索起决定作用时，该特征对于其他深度线索而言可以是更“中立的”。对不同选择的评估是正在进行的研究的主题，在下一部分中也将对其予以讨论。现在，我们示出一些似然的结构，这些结构很好地说明了原理思想。

以下给出了用于根据场景分类来控制深度估计的可能的逻辑的伪随机码。其说明了对一些常见的深度线索或深度估计策略的选择和部署是如何可以被所获得的分类控制的。这样的深度线索的实施是可以改变的并且可以包括在文献资料中报导的大量算法中的任何一个。

if(video_genre＝＝’movie’){

while(shot_nr≤last_shot){

switch(scene_classification[shot_nr].viewing_distance){

case:‘close_up’

apply_static_depth_slant＝FALSE；

estimate_camera_motion＝TRUE；

apply_face_dection＝TRUE；

case:‘extreme_close_up’/*不能仅从音频中检测到*/

apply_static_depth_slant＝FALSE；

estimate_defocus＝TRUE；

case:‘medium_view’

estimate_motion_flow＝TRUE；

estimate_(de-)occlussions＝TRUE；

case:‘full_view’

apply_static_depth_slant＝TRUE；

slant_profile＝”quadratic”；

estimate_background＝TRUE；

case:‘long_view’

apply_static_depth_slant＝TRUE；

slant_profile＝”linear”；

estimate_vanishing_lines＝TRUE；

/*etc.*/

}

}/＊电影结束＊/

需要说明的是，“视觉深度分类指数”可以是给出视图深度指示的简单指数，但也可以是更具体的。

除了观看距离之外，电影制作者还使用许多其他的形式定义和形式约定。图10示出了与摄影机的定向和运动相关的例子。例如，对物体的“跟踪”(见图10的下方)不太可能伴有许多谈话(语音)。同时，物体跟踪可以较大地影响通过使用关于运动(这里，不仅物体是运动的，而且背景也是变化的)和/或视觉不均匀性的假设来估计深度的算法。因此，音频场景被用于建立视觉深度分类，所述视觉深度分类涉及关于该场景中摄影机定位(观看距离、视觉深度)和运动的电影摄影术的句法元素。那么，该视觉分类指数具有至少两个分量，视觉深度和运动和/或视觉不均匀性。所述运动可以包括速度的指示，在声音和运动速度之间常存在相关性，其中响且快的音乐和语音是快速运动的指示或者是摄影机位置快速改变的指示，然而，轻音乐是与相对较慢的运动相关联的。

在优选实施例中，使用了模糊逻辑，以便从音频线索中提取出视觉深度分类指数。

本发明还体现在任何包括程序代码装置的计算机程序中，该程序代码装置用于当所述程序运行在计算机上时执行根据本发明的方法，本发明还体现在任何包括存储在计算机可读介质上的、用于执行根据本发明的方法的程序代码装置的计算机程序产品中。计算机程序产品可以例如包括用于游戏机的图形处理器。

当然，在本发明的框架内可以有许多变型。本领域的技术人员应当理解，本发明不限于以上特别示出和描述的内容。本发明存在于每一个新颖的特征和特征的每一种组合中。在权利要求中的附图标记并不限制它们的保护范围。动词“包括”及其变化形式的使用不排除未在权利要求中列出的要素的存在。在要素前使用的冠词“一”不排除存在多个这样的要素。

根据特定的实施例已对本发明进行了描述，但这是用于说明本发明的而不应被解释为限定本发明。本发明可以以硬件、固件或者软件，或以它们的组合实施在方法和装置中。其他的实施例在随后的权利要求的范围之内。

Claims

1.一种用于向视频序列提供对视觉深度的估计的方法，其中该方法包括音频场景分类(34)，在该音频场景分类中，根据对场景的音频信息(32)的分析来制定该场景的视觉深度(37)的视觉深度分类指数，其中该视觉深度分类指数(37)被用于随后的、基于相同场景的视频信息(33)的视觉深度估计(38)。

2.根据权利要求1所述的方法，其中所述视觉深度分类指数包括被分析的场景的音频的概率，该概率表明场景落入一个或多个视觉深度分类的概率。

3.根据权利要求1所述的方法，其中所述视觉深度指数包括数据，该数据涉及关于摄影机定位(观看距离)和运动和/或视觉不均匀性的电影摄影术的句法和约定。

4.根据前述权利要求中任一项所述的方法，其中所述音频场景分类基于决策树，其中以该决策树的形式来分析音频线索。

5.根据前述权利要求中任一项所述的方法，其中音频场景分类基于一种方法，其中每个音频线索被用于提供独立的分类，并且相应于所述音频线索的权重为每个分类分配权重。

6.根据前述权利要求中任一项所述的方法，其中通过使用模糊逻辑(聚类分析)来建立音频场景分类和视频场景分类之间的相关性。

7.根据前述权利要求中任一项所述的方法，其中语音内容是线索。

8.根据前述权利要求中任一项所述的方法，其中音乐内容是线索。

9.根据前述权利要求中任一项所述的方法，其中从所述视觉场景中记录的或者在电影后期制作期间创建的非语音声音和非音乐声音的结合是一种线索。

10.一种用于将2D视频转换为3D视频的方法，其中使用根据前述权利要求中任一项所述的用于对视觉深度进行估计的方法。

11.一种计算机程序，该计算机程序包括当该程序运行在计算机上时用于执行根据权利要求1至10中任一项所述的方法的程序代码装置。

12.一种计算机程序产品，该计算机程序产品包括存储在计算机可读介质上的、当所述程序运行在计算机上时用于执行根据权利要求1至10中任一项所述的方法的程序代码装置。

13.一种用于向视频序列提供对视觉深度的估计的系统，其中该系统包括音频分类器(34)，该音频分类器用于分析场景音频信息(32)并且根据该分析将该场景归类为一视觉深度分类，该音频分类器(34)具有提供该场景的视觉深度分类指数(37)的输出端，其中该视觉深度分类指数(37)被提供到相同场景的视频信息的视频视觉深度分析器(38)。

14.根据权利要求13所述的系统，其中所述视觉深度分类指数包括场景落入一个或多个视觉深度分类中的概率。

15.根据权利要求13或14所述的系统，其中所述分析器被设置为根据决策树来进行分类。

16.根据权利要求13、14或15所述的系统，其中所述分析器被设置为根据一种方法来进行分类，其中每个音频线索被用于提供独立的分类，并且相应于所述音频线索的权重为每个分类分配权重。

17.根据权利要求13所述的系统，其中所述分析器被设置为根据模糊逻辑(聚类分析)来进行分类。

18.根据权利要求13所述的系统，其中该系统将2D图像数据转换为3D图像数据。