CN102257827A

CN102257827A - 从图像创建深度图

Info

Publication number: CN102257827A
Application number: CN2009801510371A
Authority: CN
Inventors: P.L.E.范德瓦勒; C.瓦雷坎普; R.B.M.克莱因古内韦克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-12-19
Filing date: 2009-12-14
Publication date: 2011-11-23
Anticipated expiration: 2029-12-14
Also published as: EP2380358A1; CN102257827B; JP5624053B2; US8937645B2; EP2380358B1; US20110249099A1; KR101650702B1; KR20110100653A; WO2010070568A1; JP2012513057A

Abstract

一种为多个图像生成多个深度图的方法，该方法包括：接收第一图像、得到与由第一图像定义的镜头有关的信息、按照第一图式生成对于第一图像的深度图、接收第二图像、得到与由第二图像定义的镜头有关的信息、检测在第一和第二图像之间在所得到的信息中的改变、以及按照第二图式生成对于第二图像的深度图，该第二图式具有与第一图式的复杂性不同的复杂性。该方法可包括访问第一和第二深度模型。在一个实施例中，第一图式包括第一深度模型，以及第二图式包括第二模型，而在第二实施例中，第一图式包括第一深度模型，以及第二图式包括第一和第二深度模型的组合。

Description

从图像创建深度图

技术领域

本发明涉及用于为多个图像生成多个深度图的方法和系统。在一个实施例中，这可以在用于足球视频的自动深度估计中使用。

背景技术

有可能在不久的将来，在家庭和商业环境中，三维(3D)显示设备将变得越来越普遍。这样的设备，要么是需要用户戴上专门的眼镜来观看3D图像的立体设备，要么是不需要为了观看3D图像而有任何专门的眼镜的自动立体设备。为了创建3D图像，需要两个不同的2D图像，其中的一个图像提供给用户的左眼而另一个图像提供给用户的右眼。但是提供单个图像以及附加的深度图或差异图（disparity）也是足够的，所述深度图或差异图包含允许生成第二图像的足够的信息。这后一种解决方案具有许多优点，因为它在3D图像的最后递送中允许有更多的灵活性。

然而，事实是：目前以及可预见的将来，大多数图像和视频将被生成为2D图像帧。为了在原始的源是2D图像时创建3D图像，则需要创建深度图。这个深度图可被使用来创建第二图像，或是创建用于第二图像的差异图。

最近在足球分析和2D足球视频到3D的转换的课题方面进行了许多研究[见参考文献1到4]。这些方法中的大多数是根据可获得的数据来估计3D模型。有几个方法使用可以手动/自动校准的多个摄影机[见参考文献1到4]。通常，校准是通过使用在足球场上可看见的线条的交叉而完成的。这主要在球门附近的区域适用，其中许多线条是在摄影机视图中可看见的。这个方法可以通过加上椭圆检测方法而被扩展到场地中心。当在视图中只能看见非常少的线条(或根本看不见线条)时，这样的方法不太有效。在这种情形下，有可能使用运动估计来计算在连续帧之间的单应性（homography）。

在生成深度图时，下一个步骤是检测比赛者和球并估计它们的3D位置，这通常是使用颜色分割来进行[参考文献2]。Liu等人使用高斯混合模型(Gaussian Mixture Model)来检测比赛场地[参考文献2]，同时还已知使用基于直方图的方法来组合HSI和RGB颜色空间。也有可能使用两队的衣服和裤子的颜色，并检测衣服和裤子的组合。在这种情形下，有可能通过使用比赛者的衣服的颜色、他们的相对的垂直位置和/或平均速度，而分开地跟踪互相遮挡的多个比赛者。当球在地面上时，球的位置可以容易地估计，但球在空中时位置就难以估计。在这样的情形下，典型地假设抛物线轨迹，因此，需要球在接触地面时的两个点。Liu等人手动地指示这样的点[参考文献2]。不同的解决方案是使用多个摄影机，或单个摄影机以及当球接触地面时它的方向的改变。

那些工作中的主要应用是自由视点视频，其中用户可以选择来自任意视点的视图，其是从在固定摄影机位置处捕获的视点内插的。在这样的情形下，场地、比赛者和球的3D重建常常是从输入数据进行构建的。将比赛者和球放置在虚拟3D足球场的正确位置的这个处理过程提出了与比赛者的姿势估计或对于更精确分割的抠像（matting）有关的附加要求。如果没有检测到比赛者，就不能把他正确地放置在3D模型中。

在诸如3D TV之类的应用中，主要目标是产生视觉上令人愉悦的深度图像。对于这样的应用的约束条件与对于自由视点视频的约束条件不同，且其常常不那么严格。例如，没有被检测到的比赛者接收与周围的场地像素相同的深度值。这减少了深度效果，且给出局部失真，但它没有造成诸如在重建完全的3D模型时的伪像。然而，对于令人愉悦的观看体验，需要高度的鲁棒性和时间稳定性。

现有方法的主要问题是这些方法对于特定类型的情景失效。如上所述，摄影机校准对于包含球门的情景适用，但当捕获场地的中心部分时表现要差得多。现有方法的另一个问题是，它们有时需要带有专门的摄影机的装置，为此需要进行顺应于捕获基础设施的昂贵的调整。

现有技术算法的焦点在于产生正确的3D模型，而不在于3D印象和鲁棒性。为了克服算法的不稳定性问题或弱点，许多已提出的算法需要相当大量的手动干预来指示例如线交叉点、连接空中轨迹的在地面上球的开始点和结束点、或难以进行分割的比赛者的校正。

发明内容

所以，本发明的目的是对于已知技术进行改进。

按照本发明的第一方面，提供了为多个图像生成多个深度图的方法，该方法包括：接收第一图像、得到与由第一图像定义的镜头(shot)有关的信息、按照第一图式(schema)生成对于第一图像的深度图、接收第二图像、得到与由第二图像定义的镜头有关的信息、检测在第一和第二图像之间在所得到的信息中的改变、以及按照第二图式生成对于第二图像的深度图，该第二图式具有与第一图式的复杂性不同的复杂性。

按照本发明的第二方面，提供了用于为多个图像生成多个深度图的系统，该系统包括：接收机，被安排来接收第一和第二图像；和处理器，被安排来得到与由第一图像定义的镜头有关的信息、按照第一图式生成对于第一图像的深度图、得到与由第二图像定义的镜头有关的信息、检测在第一和第二图像之间在所得到的信息中的改变、以及按照第二图式生成对于第二图像的深度图，该第二图式具有与第一图式的复杂性不同的复杂性。

按照本发明的第三方面，提供了在计算机可读介质上的、用于为多个图像生成多个深度图的计算机程序产品，所述产品包括指令，用于：接收第一图像、得到与由第一图像定义的镜头有关的信息、按照第一图式生成对于第一图像的深度图、接收第二图像、得到与由第二图像定义的镜头有关的信息、检测在第一和第二图像之间在所得到的信息中的改变、以及按照第二图式生成对于第二图像的深度图，该第二图式具有与第一图式的复杂性不同的复杂性。

由于本发明，有可能提供用于从图像生成深度图的解决方案，其通过与不同的图式合作而具有增加的鲁棒性和稳定性，所述不同的图式使用具有变化的复杂性的深度模型(例如，恒定的深度、成斜坡的深度、或带有比赛者分割的成斜坡的深度)。通过得到与在每个图像中定义的镜头有关的信息，这个信息可被用作为切换图式的触发器。在图式的最简单的实现中，图式是深度模型，其规定用于最终深度图的一个或多个深度剖面（depth profile）。简单的图式可以是规定在深度图各处有单个恒定的深度的深度模型。较复杂的图式可以是规定在深度图上有简单的梯度的深度模型，再复杂一些的图式可以规定梯度加上对一个或多个比赛者的检测(例如，通过分割)。当定义的环境出现时，诸如场景中的置信度（confidence）太低，算法自动切换回对于其而言有可能进行精确重建的较低的(较简单的)场景(深度模型)。例如，如果比赛者分割具有低的置信度，则仅仅使用场地模型，而不用比赛者分割。

另外，在诸如视频内容的3D显示之类的应用中，不需要将视频精确校准到实际的场地坐标。将场地与观众区域之间的过渡建模为单条直线或一对两条直线便足够了。这是比在当前方法中所使用的更简单的模型，且它对于3DTV应用的需要来说也是足够的。本发明可被用作为将足球视频转换成3D的自动/半自动方法。它可被广播公司以及捕获/分发足球材料的其它内容供应商使用。本发明也可以被体现在电视机内，电视机接收2D图像输入、将2D流转换成3D，然后显示3D输出。

提供了新的算法，这个算法可被使用于体育视频的自动2D到3D转换，所述体育视频是诸如未经处理的足球视频材料，即足球视频，可能有摄影机视图的改变但没有图形覆盖。与目的在于重建正在进行的比赛的完全3D模型的大多数现有方法不同，本方法提供了将产生可用的深度图的解决方案，其典型地导致不那么严格的约束条件。为了得到鲁棒的转换，引入了可以使用具有变化复杂性的深度模型(例如，恒定的深度、成斜坡的深度、或带有比赛者分割的成斜坡的深度)的多个图式/场景。当有低的置信度时，有可能切换回较简单的场景/深度模型。当检测到一个或多个定义的准则，诸如置信度低于阈值时，可以使用较低复杂性的图式。

有利地，本方法包括访问第一和第二深度模型，其中第一图式包括第一深度模型，以及第二图式包括第二模型。这是新系统的最简单的实现，它使用两个模型，并且当检测到镜头改变时在模型之间切换。在第二个实施例中，也使用第一和第二深度模型，第一图式包括第一深度模型，以及第二图式包括第一与第二深度模型的组合。这样，深度图上的突然改变被避免，且模型的混合被使用来创建第二图式。

在第二实施例中，优选地，本方法包括按照自从第一图式上次单独被用于生成深度图以来的图像的数目而设置混合因子，混合因子确定第一和第二深度模型的相对贡献。对根据自从发起到第二图式的改变以来的图像数目而设置的混合因子的使用，保证了从一个图式到第二图式的平滑过渡。

理想地，本方法还包括检测在第二图像中的一个或多个不可靠的元素，其中第二深度模型被使用于第二图像中的该检测到的不可靠的元素或者每个检测到的不可靠的元素，以及第一深度模型被使用于第二图像的其余部分。图式的改变也可以被使用于图像的深度图的局部校正。原始图像的不可靠元素在关于原始图像的这个部分的置信度低的情况下可以用第二图式而不是用第一图式编码。

关于是否从一个图式切换到另一个图式的判决是基于所得到的、与由图像定义的镜头有关的信息。这个信息可以从图像本身得出，或者可以例如通过使用元数据而从图像外部得出。这个元数据可以随相应图像一起被载送，或者可以从另一个源获得。得到与图像有关的元数据。

在有利的实施例中，所得到的元数据包括电子节目指南(EPG)数据。EPG数据典型地规定当前正在传送什么节目。知道被传送节目的类型后，可以使用比低复杂性缺省图式有更高复杂性的图式。低复杂性图式例如可以采用基于倾斜的图式；即，梯度深度图，已知其给出非常稳定的、然而轮廓不太分明的深度图。但是，如果EPG数据指示当前正被观看的节目是足球比赛，则有可能切换到为足球比赛而剪裁（tailor）的更高复杂性的图式，诸如在下文介绍的。

在另一个有利的实施例中，所得到的元数据包括被使用来捕获图像的摄影机的标识，以及检测所得到的信息中的改变的步骤包括：检测相对于第一图像的用于创建第二图像的不同摄影机的使用。如果由特定摄影机捕获的镜头的位置和类型是已知的，则有可能使用关于被用来创建当前图像的那个摄影机的元数据作为用于切换到较低复杂性图式的根据。例如，在诸如橄榄球(football)那样的体育环境中，放置在球门后面的摄影机极可能提供动作的特写，以及对切换到这个摄影机的检测可被用作为移到较低复杂性图式的根据。

在替换的或另外的实施例中，所得到的元数据包括被使用来捕获图像的摄影机的焦距，以及检测所得到的信息中的改变的步骤包括：检测摄影机的焦距低于用于第二图像创建的预定阈值。这个元数据可被使用来确定摄影机正聚焦在动作上，因此在生成复杂的3D输出时多半是较低的置信度。再次地，这可被用作为切换到较低复杂性图式的触发器。

优选地，得到与由图像定义的镜头有关的信息的步骤包括处理图像。这个得到信息的方法可以代替或者附加于在得到与当前镜头有关的信息时对元数据的使用。例如，在一个有利的实施例中，图像的处理包括：确定图像中的预定对象的尺寸，以及检测所得到的信息中的改变的步骤包括：检测在第二图像中的预定对象的尺寸高于预定阈值。在这种情形下，在这样的体育运动环境中，具有高于某个水平的尺寸的诸如比赛者那样的对象可被使用来指示特写。当这被检测到时，则系统可切换到不太复杂的图式。

在另外的优选实施例中，图像的处理包括：确定图像中的预定线条的位置，以及检测所得到的信息中的改变的步骤包括：检测在第二图像中的预定线条的位置所具有的间隔高于预定阈值。由于许多体育活动的特征是在观看区域中存在多个线条或标记，这些线条或标记可以在图像内被检测到，然后被使用来确定当前是否正在显示特写镜头。然后这可被使用来切换到用于计算深度图的较低复杂性图式。本发明的优选应用是在足球报道方面，但应用到足球场地的原理也可以应用到具有线条或可区分边缘的其它形状的场地、庭院、圆形场地、菱形场地、平台或投掷场地。它们的例子是棒球内场、篮球场、橄榄球场、冰球场、网球场、板球场地、或者甚至是沙壶球台。

类似地，一旦信息――诸如导致所使用的模型切换的置信度水平――有逆转，就将进行回到更高复杂性图式的切换。当与当前的镜头有关的信息指示图式的复杂性的改变是所希望的时，系统将在图式之间切换。本发明的最简单的实施例是预备两个深度模型，其中一个是恒定的深度图，而另一个是使用梯度的更复杂的深度图。系统将在两个模型之间切换，这由元数据和/或对图像的处理来确定，以确定关于当前镜头的信息，诸如当前的图像是特写还是广角镜头。

附图说明

现在将参照附图，仅仅以举例方式，描述本发明的实施例，其中：

图1是有多个图像和多个深度图的图；

图2是用于生成深度图的系统的示意图；

图3是各种深度模型的图；

图4到7是各种二进制掩模(mask)的图；

图8是具有两个边界框的、在图像中检测到的对象的示意图；

图9是显示在图像的不同部分上深度斜坡的指派的图；

图10是显示对于图像的深度图的生成的图；以及

图11是生成深度图的方法的流程图。

具体实施方式

图1图示基本原理。要被显示的视频包括一系列图像10，在许多情形下也被称为帧，它们被使用来生成对应系列的深度图12，每个图像10具有各自的深度图12。深度图的生成支持在最终的显示设备处从由系列图像10所代表的原始2D格式生成3D图像。深度图12可被使用来生成一个或多个附加图像，这些图像然后连同原始图像10一起在自动立体或立体显示设备中被使用。深度图12也可以被使用来生成差异图，如果特定的3D应用需要那样的话。

正如以上所讨论的，就参考文献中所阐述的现有技术而言，从源图像10生成这样的深度图12是公知的。本发明提供了在生成深度图12的方法中的改进方案，以便提供自动的实时方法，该方法当在3D系统中使用时生成深度图12，它将提供不会在特定情形下恶化的解决方案，众所周知，当前的解决方案情况是如此的。

在当前的系统中体现的算法是用于足球视频的自动2D到3D转换，作用在没有图形覆盖(诸如频道信息、当前的分数等等)的、未经处理的视频信号上。图2显示这样的系统的例子。比赛场地14由多个摄影机16覆盖。为了易于说明起见，仅仅显示了两个摄影机16，但应意识到，在实际的实现中，将使用多得多的摄影机16。摄影机16a提供比赛场地14的广角视图，以及摄影机16b提供在球门口区域后面的动作的特写。

摄影机16被连接到设备18，设备18主要包括接收机20和处理器22。接收机20被安排来接收来自摄影机16的多个图像10，且处理器22被安排来生成对于各个图像10的深度图12，正如按图1说明的。设备18可被认为位于比赛场地14处存在的电视广播系统的外部广播单元内。这样，实况的3D馈送便能够由广播公司提供，该实况的3D馈送可以附加于2D馈送而被载送，使得那些具有3D显示设备的最终用户可以有视频以3D形式显示给他们。然而，应当指出，该设备18可以位于广播链的接收机端，在这种情形下，适当地启用的接收设备，诸如先进的数字电视，将执行从原始2D信号到3D信号的转换。

在处理器22逐帧地处理视频时，系统18可以操控从一个摄影机16到另一个摄影机的切换。处理器22以四个主要步骤来计算深度图12。首先，通过使用颜色阈值技术检测候选的足球场像素。然后，将足球场的边缘检测为在草地与观众区域之间的过渡。接着，检测比赛者，最后，通过使用检测信息而指派深度图12。在以下的段落中，详细地描述这些步骤。为了示例性实施例的目的，采用了使用尺寸为960×540像素的帧的系统，但该系统可被调整为与任何的帧尺寸一起使用。

在生成深度图12时，利用了使用具有增加的复杂性的深度模型的不同图式(场景)，如图3所示。这个图显示了三个不同的深度模型24。图3a显示场景0，它是所有像素都具有固定深度的2D图像，图3b显示场景1，它是仅仅使用场地和观众区域深度模型的深度图像，没有比赛者，而图3c显示场景2，它是使用场地、观众区域和比赛者模型的深度图像。缺省地，系统18使用场景2。在接下来的段落中，详细地给出深度图生成算法。在这之后，进一步讨论在不同场景之间的切换。当操作当前模型的能力的置信度为低时，系统切换到较低复杂性模型。

为了更详细地说明深度模型24和深度图12，应当明白，深度图12向图像10内的像素指派对应于那个像素的相对深度的深度值。在图3的例子中，深度值范围从0到255，255是最靠近取景器的深度。为了容易地形象化深度的概念，这些值可被表示为灰度值，由黑色表示0，而由白色表示255。中间值由适当的灰色水平表示。

在图3a中，恒定的深度0被指派给所有的像素，因此在图的左手侧是黑色图像。在图3a的右手侧是贯穿深度模型24a的垂直切片（slice），显示在该切片处跨越整个y轴的深度值255 (切片可以取在模型中的任何地方，因为模型是均匀的)。深度模型24b是更复杂的，且将少量的潜在深度范围指派给在顶部的带条(它将对应于人群)，而将较大的范围指派给模型的下面部分(比赛场地表面)。右手的图表是在线26上贯穿模型24b的切片。深度模型24c类似于24b，但还将深度指派给图像10内所检测到的元素，诸如比赛者。再次地，右手的图表是在线26上贯穿模型24c的切片。

生成深度图12的第一阶段是检测候选的足球场像素。如果以下的对于像素i的颜色的约束条件成立，则它就是候选的足球场像素，所述约束条件为：R_i<G_i, G_i>80, 1.2B_i<G_i,其中R_i、G_i和B_i分别是像素i的8比特红色、绿色和蓝色分量。这个处理将导致候选足球场像素的二进制掩模M₁的产生。这被显示于图4，它图示候选足球场像素30的二进制掩模28。掩模28在每个像素要么是候选像素30(显示为白色)要么不是候选像素(显示为黑色)的意义上是二进制的。这个处理过程近似确定：图像10内的当前的比赛场地被处理。

处理图像10以生成各个深度图12的第二阶段是检测在图像10内的场地边缘。场地边缘是在图像10内比赛场地与观众区域相接的地方。场地边缘是通过使用对候选场地像素的双扫描方法而被检测的，首先是从图像10的顶部向下工作的由上至下的方法，其次是从图像10的底部向上工作的由下至上的方法。

图5a显示由上至下的方法。对于场地中的二十个规则地间隔开的列，从顶部到底部扫描所述列，直至找到第一个像素i为止，对于该第一个像素i，在接下来的七个像素(下面)中的六个像素是绿色的。这被取作为场地边缘的样本。接着，通过100个样本评估，使用最小平方中值(LMedS)方法，线f₁被通过这二十个点(每个列中一个点)而鲁棒地拟合（fit）。鲁棒的拟合确保去除噪声和离群值（outlier），诸如来自穿绿衣服的观众的样本。

图5b显示由下至上的方法。首先，对于候选的场地像素掩模M₁执行扩张（dilation），接着是使用15×15滤波器执行侵蚀，导致新的二进制掩模M₂。这样做，以便将场地线条包括在候选的场地掩模中。然后对于M₂执行相连接的部分（component）的标记，最大的部分被选择为足球场。对于每列，这个区域的顶部像素被选择为场地边缘的样本(或者，如果在那列中没有像素是场地区域的一部分，则是图像的底部像素被选择为场地边缘的样本)。接着，如上面那样，通过100个样本评估，使用LMedS方法，计算通过这些点的鲁棒的线拟合f₂。再次地，鲁棒的拟合确保去除噪声和离群值，诸如与场地边缘相连接的比赛者。

然后，对于拟合f₁和f₂，计算掩模M₃，其包含在估计的场地边缘之上的候选场地像素和在估计的边缘之下的非候选像素。在掩模M₃中保持与最低数目的“1”像素的拟合，且这被称为拟合f。这个掩模M₃被显示于图5c。误差掩模M₃显示在估计的场地边缘之上的候选场地像素和在估计的场地边缘之下的非候选场地像素。

接着，计算新的误差度量e，从而计数垂直地连接到估计的场地边缘的、未拟合于该模型的像素。首先，将线f上的像素添加到二进制掩模M₃，导致新的掩模M₄，在该掩模M₄上执行相连接的部分的标记。保持被连接到线f的所有的部分，以及具有被标记的部分的新掩模M₅。这个掩模被显示于图6b。对于每列i,计数在线f之下和之上直至在掩模M₅中从1到0的第一次过渡的这个部分的像素的数目，并保持最大的数目(在线之上或之下)。任意选择将线之下的像素标记为正的，和将线之上的像素标记为负值。仅仅计数在第一次过渡之前的而不只是在一列上所有被标记的像素的总和的优点在于，可以去除在某个点上被连接的场地线条等(也参阅图6c)。这导致具有W个整数值的向量E，其指示不拟合于该线模型的像素的数目(W是图像的宽度，参阅图6)。这个向量的元素的绝对值的和值e被表示为如下：

其中k是列号(0<k<W)

图6显示在计算误差度量E时使用的各种掩模。图6a显示估计的场地边缘和真正的场地边缘。图6b显示与场地边缘相连接的像素的掩模M₅。图6c显示要按列计数的像素，显示了在第一次1-0过渡后的像素被去除。图6d显示作为列的函数的误差度量E。如果这个误差度量e高于500像素的阈值，则有可能得出结论：在图像上有个拐角，以及应拟合二线模型。使用LMedS(如按图5的方法)，通过对其而言E_i>10的点来拟合鲁棒的线f’。计算这个新的线f’与原始线f的交叉点，对于这个交叉点的左面和右面的点，分开地执行新的LMedS拟合。现在计算对于这个二线拟合的误差度量e’，将它与对于单线拟合的误差e进行比较，并保留最好的那个。

图7显示对于场地边缘使用二线拟合的方法。在图7a上，第二线被通过具有最大误差值的点拟合，以及在图7b上，通过在二线拟合之间的交叉点两边的点执行新的拟合。对于原始图像10上的二线情形的检测是必须的，因为图像10的很大比例将落入这个类别。这发生在摄影机16聚焦在场地的特定部分时，包括场地的角落区域。二线拟合确定了一种合理地精确确定图像10内比赛场地的角落形状的方法。

生成对于图像10的深度图12的过程中的第三阶段是比赛者检测。在这个过程中，首先，通过使用在二进制掩模M₆上被标记的相连接的部分而检测候选的比赛者，该被标记的相连接的部分是这样计算的，即通过使用侵蚀，后面跟随对于二进制候选场地像素掩模M₁的逆（inverse）的两个扩张步骤(使用5×5滤波器)，乘以估计的场地(在场地边缘之下为1，在边缘处和边缘之上为0)。这个运算从M₁中去除场地线，但也将(偶尔)从比赛者上去除细的身体部分(例如，腿或手臂)(其以后将被再次加回)。这个过程检测所定义的比赛场地(由所检测的场地边缘定义)的那些具有足够像素尺寸可能是比赛者的非绿色区域。接着，对于每个候选的比赛者使用以下的条件进行检验。所述区域必须大于五十个像素，以及边界框A₁的高度必须大于它的宽度。图8显示比赛者检测的原理。按照以上的两个条件检验区域32。对象32在尺寸上必须是至少50个像素，以及限制对象32的框A₁所具有的高度必须大于它的宽度。

然后对于每个候选的对象32，把在第二边界框A₂内的M₁的像素指派给那个比赛者32，该第二边界框A₂比环绕候选比赛者32的原始边界框A₁高50个像素和宽10个像素。使用更大的边界框A₂是为了能够加回在早先的侵蚀步骤中被消除的身体的小的部分。为了也包括混合的（blended）像素，对于最终得到的比赛者标记也执行5×5扩张。

在这个阶段，还去除接触场地顶部边界的任何候选的比赛者(例如，如图7所示)，因为检测到全部这些比赛者的可能性是非常低的。系统将仅仅检测在所估计的场地边缘之下的比赛者候选者。如果系统要保留接触顶部边界的候选者，则可能是检测到半个比赛者，导致非常恼人的伪象。另外，一旦这被完成，则平均比赛者尺寸S_p就被计算为高于40个像素的最小值的比赛者高度的中值。

所述过程的第四阶段是深度图指派。为了执行这个步骤，必须计算观众区域和足球场的深度斜率，如图9所示。观众区域具有固定的斜率s₁:

其中H是以像素计的图像高度。场地的斜率s₂使用剩余的深度范围：

其中H_f是观众区域高度的最小值(以像素计)。图9图示观众区域和足球场的深度斜率的计算。图9a上的图像10被划分成两个区域，在线34之上是观众区域，在线34之下是运动场区域。对于每个区域可用的深度的量被显示于图9b，它实际上将深度图中从0到255的可用深度的更大比例指派给比赛场地区域。计算的H_f确定在被指派给每个区域的深度的量之间的比率。

然后，可以在从图像的底部到顶部的扫描中计算深度图12，从底部255的深度开始，且首先以场地斜率s₂减小,然后以观众斜率s₁减小。在第二扫描时，比赛者的所有像素的深度被设置为它的底部像素的场地深度。这样，所检测到的比赛者32具有被指派给他的深度，其对应于图像10上他们接触地面的点。这个深度值然后被使用于组成比赛者32的所有的像素。这与地面的像素的深度值形成对照，对于地面的每个像素行，其深度值将渐增。

图10图示上述的足球变换算法的不同步骤。图10a显示输入帧10。图10b显示候选的足球场像素掩模28(M₁)。图10c显示对应于以上的场景1的、所检测到的场地边缘和具有两个斜率的深度图12，以及图10d显示对应于以上的场景2的、所检测到的比赛者和深度图12。本系统的主要优点通过在不同场景(图式)之间的切换行为而被提供。这可以在两个级别上完成，即全局和/或局部级别的任一或二者。如果在当前的深度模型中总的置信度太低，设备18可以全局地切换回较低复杂性场景(深度模型)。例如，当摄影机16被使用于特写时，就这样做。可以检测特写镜头的一个方法是：其中所估计的平均比赛者高度S_p大于预定尺寸（例如150个像素）的镜头(对于平均比赛者高度S_p的估计，参阅上文)。通常，对于特写镜头，场地检测和比赛者分割不是非常精确的和稳定的，所以，在那种情形下，设备18将切换回场景0。

设备18，具体地是设备18的处理器22，被安排来：按照第一图式(诸如场景2)生成对于第一图像10的深度图12；检测与第二图像10中的镜头有关的信息的改变；并因此按照第二图式生成对于第二图像10的深度图12，第二图式不同于第一图式，它例如是作为场景0。关于在第二图像10中所定义镜头的信息改变的检测，可包括处理图像10，例如通过检测在第二图像10中的预定对象(诸如比赛者)的尺寸高于预定阈值来进行。

可以使用检测关于当前镜头的信息的改变的其它方法。例如，检测在第一和第二图像12之间的所得到信息中的改变的步骤可以通过检测相对于第一图像10的对创建第二图像10的不同摄影机16的使用而完成。这可以在图2上看到，例如，其中从摄影机16a改变到摄影机16b（由体育报道的导播进行）作为广播中的最终输出，可以导致使用不同的(较低复杂性)图式来生成深度图12。由于摄影机16b极可能是动作的特写，因而场景0可被使用于深度图生成。来自正在捕获视频的摄影机16的元数据也可以被用作为检测镜头改变的方法。例如，聚焦改变将表明摄影机16正在推向该动作。

从一个图式切换到另一个图式，诸如从场景2切换到场景0，可以通过对于帧t使用混合系数α_t而逐渐完成。在帧t处的最后的深度帧D⁰ _t是使用场景2计算的深度帧与使用场景0计算的深度帧的混合(它对于场景0是0，但当切换到场景1时它是非零的)：

混合系数α_t是使用下式从先前帧t-1处的混合系数α_t-1计算出来的：

α_t = max (0.9α_t-1,0.1) 如果 Sp > var

α_t = min (1.1α_t-1,1) 如果Sp ≤ var。

其中在第一式中的最大值和在第二式中的最小值被取为将系数限制在0.1与1之间，以及变量“var”将依赖于图像尺寸，且它可以被设置为例如150。实际上，这个混合把深度范围逐渐减小到约为0(场景0，在对深度图凑整（rounding）后)，以及当切换回场景2时再逐渐增加该深度范围。

处理器22访问第一和第二深度模型，其中第一图式包括第一深度模型，以及第二图式包括第一和第二深度模型的组合。在一个实施例中，处理器22按照自从第一图式上次单独地被用于生成深度图12以来图像10的数目来设置混合因子α_t，混合因子α_t确定第一和第二深度模型的相对贡献。由于用于像素的深度值是数值，例如，按0到255的尺度，因而混合因子确定来自两个不同的图式的加权平均，以作为在深度图12中被使用的实际值。当维持特写的更多的帧10被接收时，则场景0对深度图贡献得越来越多。这确保不使用会导致视觉伪象的场景的突然改变。

另外，如果仅仅是模型的局部置信度(典型地是检测到的比赛者)太低的话，设备18还可以在场景之间局部地切换。正如以上讨论的，对于其而言确定性太低的特定比赛者没有被包括在模型中。对于与场地的估计的顶部边缘交叉的比赛者候选人是这样做的，因为通常还有未检测到的在这个边缘之上的比赛者的一部分。还丢弃了其高度小于宽度的候选比赛者。类似地，设备18丢弃高度大于1.5倍的估计的平均比赛者高度S_p的候选比赛者。这些候选者典型地由当前帧中连在一起的多个比赛者组成，或者是与场地上的部分线条组合在一起被检测到的比赛者。在这种情形下，处理器仅仅局部地使用场地模型(场景1)，并忽略比赛者(场景2)。结果，这些比赛者获得与他们周围的足球场相同的深度。这减小了总体深度效果，但也避免了可见的伪象，并导致非常稳定的算法。

在执行深度图的局部切换时，处理器22检测在第二图像10上的一个或多个不可靠的元素，其中第二深度模型被使用于第二图像12上的每个检测到的不可靠的元素，以及第一深度模型被使用于第二图像12的其余部分。

图11概述为多个图像10生成多个深度图12的方法。该方法包括：在步骤S1，接收多个图像。在步骤S2，实行的是按照第一图式生成对于第一图像10的深度图。第一图式被显示为包括第一模型36a。下一个步骤是步骤S3，检测在第二图像中的镜头改变，以及最后的步骤S4是这样的步骤：按照第二图式生成对于第二图像10的深度图12，第二图式不同于第一图式。第二图式被显示为包括第二模型36b。然而，来自模型36a的虚线表明：第二图式可以是两个模型36a和36b的混合。这样，当在图像12中或在图像12的一部分中的置信度为低时，则使用不同的模型。镜头改变被使用来确定：置信度是低的。

参考文献

[1] O.Grau, G.A.Thomas, A.Hilton, J.Kilner,and J.Starck, A Robust Free-Viewpoint Video System for Sport Scenes, Proc. IEEE 3DTV Conference, 2007.

[2] Y.Liu, D.Liang, Q.Huang, and W.Gao, Extracting 3D Information from Broadcast Soccer Video, Image and Vision Computing, Vol.24, pp.1146-1162, 2006.

[3] T.Bebie and H.Bieri, SoccerMan-Reconstructing Soccer Games from Video Sequences, Proc. IEEE International Conference on Image Processing, pp.898-902, 1998.

[4] S.Würmlin and C.Niederberger, Method and System for Generating a Representation of a Dynamically Changing 3D Scene, EU Patent No.EP 1 862 969 A1, Dec.2007.

Claims

1. 一种为多个图像(10)生成多个深度图(12)的方法，该方法包括:

接收第一图像(10),

得到与由第一图像(10)定义的镜头有关的信息,

按照第一图式(24)生成对于第一图像(10)的深度图(12),

接收第二图像(10),

得到与由第二图像(10)定义的镜头有关的信息,

检测在第一和第二图像(10)之间在所得到的信息中的改变，以及

按照第二图式(24)生成对于第二图像(10)的深度图(12)，该第二图式(24)具有与第一图式(24)的复杂性不同的复杂性。

2. 按照权利要求1的方法，还包括访问第一和第二深度模型(24c,24a),其中第一图式(24)包括第一深度模型(24c)，以及第二图式(24)包括第二模型(24a)。

3. 按照权利要求1的方法，还包括访问第一和第二深度模型(24c,24a),其中第一图式(24)包括第一深度模型(24c)，以及第二图式(24)包括第一和第二深度模型(24c和24a)的组合。

4. 按照权利要求3的方法，还包括按照图像(10)的数目来设置混合因子(α_t), 该混合因子(α_t)确定第一和第二深度模型(24c和24a)对用于第二图像(10)的深度图(12)的相对贡献。

5. 按照权利要求3的方法，还包括检测在第二图像(10)中的一个或多个不可靠的元素，其中第二深度模型(24a)被使用于第二图像(10)中的所述检测到的不可靠的元素或每个检测到的不可靠的元素，以及第一深度模型(24c)被使用于第二图像(10)的其余部分。

6. 按照任一前述权利要求的方法，其中得到与由图像(10)定义的镜头有关的信息的步骤包括：得到与图像(10)有关的元数据。

7. 按照权利要求6的方法，其中所得到的元数据包括被使用来捕获图像(10)的摄影机(16)的标识，以及检测在所得到的信息中的改变的步骤包括：检测相对于第一图像(10)的对创建第二图像(10)的不同摄影机(16)的使用。

8. 按照权利要求6或7的方法，其中所得到的元数据包括被使用来捕获图像(10)的摄影机(16)的焦距，以及检测在所得到的信息中的改变的步骤包括：检测摄影机(16)的焦距低于用于创建第二图像(10)的预定阈值。

9. 按照任一前述权利要求的方法，其中得到与由图像(10)定义的镜头有关的信息的步骤包括：处理图像(10)。

10. 按照权利要求9的方法，其中图像(10)的处理包括：确定图像(10)中的预定对象的尺寸，以及检测在所得到的信息中的改变的步骤包括：检测在第二图像(10)中的预定对象的尺寸高于预定阈值。

11. 按照权利要求9或10的方法，其中图像(10)的处理包括：确定图像(10)中的预定线条的位置，以及检测在所得到的信息中的改变的步骤包括：检测在第二图像(10)中的预定线条的位置所具有的间隔高于预定阈值。

12. 一种用于为多个图像(10)生成多个深度图(12)的系统，包括:

接收机(20)，被安排来接收第一和第二图像(10),以及

处理器(22)，被安排来得到与由第一图像(10)定义的镜头有关的信息、按照第一图式(24)生成对于第一图像(10)的深度图(12)、得到与由第二图像(10)定义的镜头有关的信息、检测在第一和第二图像(10)之间在所得到的信息中的改变、以及按照第二图式(24)生成对于第二图像(10)的深度图(12)，该第二图式(24)具有与第一图式(24)的复杂性不同的复杂性。

13. 按照权利要求12的系统，还包括被安排来捕获图像(10)的多个摄影机(16)，其中处理器(22)被安排成：当得到与由图像(10)定义的镜头相关的信息时，从摄影机(16)得到与图像(10)有关的元数据。

14. 按照权利要求13的系统，其中所得到的元数据包括被使用来捕获图像(10)的摄影机(16)的标识，以及处理器(22)被安排成：当检测在所得到的信息中的改变时，检测相对于第一图像(10)的对创建第二图像(10)的不同摄影机(16)的使用。

15. 按照权利要求13或14的系统，其中所得到的元数据包括被使用来捕获图像(10)的摄影机(16)的焦距，以及处理器(22)被安排成：当检测在所得到的信息中的改变时，检测摄影机(16)的焦距低于用于创建第二图像(10)的预定阈值。

16. 一种在计算机可读介质上的、用于为多个图像(10)生成多个深度图(12)的计算机程序产品，所述产品包括指令，用于：

接收第一图像(10),

得到与由第一图像(10)定义的镜头有关的信息,

按照第一图式(24)生成对于第一图像(10)的深度图(12),

接收第二图像(10),

得到与由第二图像(10)定义的镜头有关的信息,