CN102239504A

CN102239504A - 深度图的生成

Info

Publication number: CN102239504A
Application number: CN2009801482884A
Authority: CN
Inventors: C.瓦雷坎普; P.L.E.范德瓦勒
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-12-02
Filing date: 2009-11-26
Publication date: 2011-11-09
Also published as: JP2012510660A; TW201030672A; EP2194504A1; EP2374108A1; WO2010064174A1; US20110227914A1; JP5404806B2; KR20110100635A

Abstract

为图像生成深度图的方法包括以下步骤：显示图像；在图像的第一区域中在图像上显示指示；显示多个标签；接收选择多个标签之一的用户输入；将用于第一区域的标签设置成所选择的标签；对于不同的区域，重复步骤2到5，直至预定事件已发生；存取用于将标签地图转换成深度图的预定方案；以及根据预定方案和按照用户输入设置的标签，生成深度图。

Description

深度图的生成

技术领域

这个发明涉及用于生成深度图的方法和系统。在一个实施例中，本发明能够用于3D图片创建的问题界面（question interface）。例如，本发明可以应用于数码相框中或应用于互动网站上。

背景技术

或许在不久的将来，三维（3D）显示设备将在家庭和商业环境中变得越来越普遍。这样的设备或是立体的，其需要用户佩戴特殊的眼镜来观看3D图像，或者这样的设备是自动立体的，其不需要任何特殊的眼镜来观看3D图像。为了创建3D图像，需要两个不同的2D图像，提供其中一个图像给用户的左眼，并提供另一个图像给用户的右眼。提供单个图像以及或附加的深度图或视差图也是足够的，其中附加的深度图或视差图包含足够的信息以允许生成第二图像。这后一种解决方案具有许多优点，因为其在3D图像的最终交付方面允许更多的灵活性。然而，事实是：在目前以及对于可预见的未来，大多数图像和视频将作为2D图像帧而生成。为了在原始来源是2D图像时创建3D图像，则需要创建深度图。这个深度图能够用于创建第二图像，或者能够用于为第二图像创建视差图。

存在各种已知的方法来利用最少的用户输入创建这样的深度图。Vezhnevets和Konouchine已研制一种方法，其中用户使用涂鸦来指示前景和背景区域中的小部分，并且分段算法从用户涂鸦中导出边缘对齐的分段。用户必须随后将深度值分配给所指示的区域。至于更多的细节，参见Vezhnevets V.、Konouchine V.的“’Grow-Cut’-Interactive Multi-Label N-D Image Segmentation by cellular automata”, Proc. Graphicon 2005 http://www.graphicon.ru/2005/proceedings/papers/VezhntvetsKonushin.pdf。

类似地，美国专利US7035451披露了一种创建深度图的方法，其包括以下步骤：将深度分配给图像中的至少一个像素或部分；为图像中的至少一个像素或部分中的每一个确定相对位置和图像特性；利用一个或多个深度、图像特性以及相应的位置来确定算法，以便将深度特性确定（ascertain）为与位置和图像特性相关的函数；利用所述算法来为图像中的每一个像素或部分计算深度特性，其中这些深度特性形成该图像的深度图。在处理的第二阶段，深度图形成关键帧，以便使用相对位置、图像特性以及相对于一个或多个关键帧的距离来为非关键帧生成深度图。该专利描述用于将某个深度分配给一组像素并将此传播至全深度图的方法。

然而，所有的生成深度图的已知方法都要求用户给至少一个图像的一个或多个部分分配（绝对的或相对的）深度。必须绘制深度图的问题是需要向用户解释复杂的计算机绘图程序和解释他们必须如何为指定图片绘制深度图。通常，对于不熟练的用户而言，获得具有合理均匀度的满意结果是几乎不可能的任务。对于大量的图像而言，不熟练的用户将无法足够好地操作深度分配程序来提供可接受的深度图。另外，绘制深度图的方案也需要使用笔来描画物体轮廓或指向物体的界面。因此，构造在使用之前需要极少解释或不需要解释的简单的用户界面并不是容易的。

发明内容

因此，本发明的目的是对已知技术进行改进。根据本发明的第一方面，提供一种为图像生成深度图的方法，包括：

a）显示图像；

b）显示多个语义图像类型；

c）接收将图像定义成显示的图像类型之一的用户输入；

d）根据定义的图像类型，选择多个标签；

e）根据预定分段算法，将图像分段成区域；

f）在图像的第一区域中在图像上显示指示；

g）显示多个标签；

h）接收选择多个标签之一的用户输入；

i）将用于第一区域的标签设置成选择的标签；

j）对于不同的区域，重复步骤f）到i），直至预定事件已发生；

k）存取用于将标签地图（label map）转换成深度图的预定方案；以及

l）根据预定方案以及按照用户输入设置的标签，生成深度图。

根据本发明的第二方面，提供一种用于为图像生成深度图的系统，其包括：显示设备，被安排为显示图像、显示多个语义图像类型、显示多个标签、以及重复地在图像的不同区域中在图像上显示指示；用户界面，被安排为接收将图像定义成显示的图像类型之一的用户输入、以及对于相应区域的指示的每一次显示而接收选择多个标签之一的多个用户输入；以及处理器，被安排为根据定义的图像类型来选择多个标签、根据预定算法将图像分段成区域、将用于每一个相应区域的标签设置成所选择的标签、存取用于将标签地图转换成深度图的预定方案、以及根据预定方案和按照用户输入设置的标签来生成深度图。

根据本发明的第三方面，提供一种用于为图像生成深度图的计算机可读介质上的计算机程序产品，该产品包括用于以下的指令：

a）显示图像；

b）显示多个语义图像类型；

c）接收将图像定义成所显示的图像类型之一的用户输入；

d）根据定义的图像类型，选择多个标签；

e）根据预定分段算法，将图像分段成区域；

f）在图像的第一区域中在图像上显示指示；

g）显示多个标签；

h）接收选择多个标签之一的用户输入；

i）将用于第一区域的标签设置成选择的标签；

j）对于不同的区域，重复指令f）到i），直至预定事件已发生；

k）存取用于将标签地图转换成深度图的预定方案；以及

归因于本发明，有可能提供一种生成深度图的方法，该方法首先不要求用户选择图像内的任何区域，并且不要求用户为所考虑的图像的任何部分提供任何深度值，但是能够为图像提供工作深度图而不需要任何附加的预处理或附加的自动深度计算。提供用于处理图像的界面而不需要深度图或如何创建深度图的知识。询问有关图片的多个（语义）问题，而不是不得不绘制深度图。对于用户输入的这些问题的回答有效地为特定区域提供标签。这样，用户可以提供小部分的（加）标签，即，此时校正自动生成的（加）标签，或者可以提供大部分的（加）标签。一旦已回答了这些问题，就自动地计算深度图并且在例如3D相框上可以观看3D图片。

提供一种允许用户为静止图像创建深度图的方法，由此用户被要求输入某些图像位置的语义信息。该系统将例如依据所呈现的图像以及已给出的回答来自动地确定被询问信息的位置。用户能够使用按钮界面来输入语义信息（例如，所指示的区域代表地面还是天空等等）。用户不需要分配深度值或者直接地与深度图本身交互。

如果询问有关图像中的元素的简单问题，则不需要向用户解释任何事。该系统被有效地设计成询问有关图片中的不同元素的问题。这些问题能够涉及在某个图像位置上的物体，其中该图像位置使用诸如圆圈或问号之类的符号来自动地指示。对这些问题的回答随后自动地用于计算深度图。因此，也不需要用户查看深度图，该深度图能够完全被创建并被使用而用户不知道深度图的处理或存在。用户只需要在例如自动立体显示器上查看中间的或最终的结果。

有利地，将用于区域的标签设置成选择的标签的步骤包括：将用于相应区域的选择标签的置信水平设置成1。置信水平能够与图像中的一个或多个区域相关使用、与不同的可能的标签相关使用。例如，三个不同的标签L1、L2和L3可以与图像相关使用。语义上，它们可以分别地与地面、天空和物体相关。如果用户被问及特定的区域并且他们将标签“地面”分配给那个区域，则标签L1将具有与那个区域相关的置信水平1。该区域具有与其他两个标签L2和L3相关的置信水平0。

优选地，该方法进一步包括：在将用于区域的标签设置成选择的标签之后，根据预定算法，为与相应区域接壤（border）的区域的选择标签设置置信水平。对于附着于区域上的标签使用置信水平的优点在于：当用户为区域选择标签时，这个能够用于推断出有关连接到当前区域的分段的信息。例如，类似的颜色或形状信息可以用于为相邻区域的相同选择的标签设置介于0与1之间的置信水平。这样，标签信息将通过该图像传播而用户不被问及每一个单个区域。实际上，随着用户已为之选择标签的区域的数量增加，所有的区域对于至少一个标签将具有超过零的置信水平的可能性也增加。这样，为整个图像生成标签地图。

在一个实施例中，在图像的不同区域中在图像上显示指示的步骤有利地包括：选择具有标签的最低置信水平的不同区域。一旦用户已为区域进行了标签选择，那么该系统将为被问及的用户选择新的区域。实现此的一种有利方法是选择对于标签、或作为单个标签或作为所有标签上的总和（total）具有最低置信水平的当前区域。这增加能够用于生成标签地图的速度，并且减少用户需要就图像中的特定区域而被问及的次数。

在不同的实施例中，在图像的不同区域中在图像上显示指示的步骤能够包括：选择对于两个不同的标签具有的置信水平二者都超过预定阈值的不同区域。由于该方法在用户选择之后利用被分配置信水平的相邻区域来增强，所以有可能单个区域对于两个或更多不同的标签将具有超过零的置信水平。该系统能够被故意配置成：识别这样的区域，这些区域对于两个不同的标签具有的置信水平二者都超过预定阈值；并且选择该区域以便用户选定标签，从而将一个标签置信水平升到一（1），并且消除标签地图中明显的不确定性。

该方法进一步包括：显示多个图像类型，接收将图像定义成显示的图像类型之一的用户输入，以及根据定义的图像类型来选择将要显示的标签。在用户开始就被检查的图像而被询问的处理之前，他们能够被询问简单的问题，诸如该图像是在内部还是在外部被获取的，或者该图像是否包含例如人。被呈现给用户的标签随后根据由用户响应于这个问题而选定的图像类型来调节。这使得该处理精简，并允许使用更恰当的用于将标签地图转换成深度图的预定方案。

有利地，该方法进一步包括根据预定的过分段（oversegmentation）算法来过分段图像，其中该图像被分成多个像素区域。能够用于使用这些区域的一种简单方法是在第一区域中向用户显示指示，并且在用户已进行了标签选择时，则将该指示移到新的区域。

附图说明

现在将参考附图仅利用示例来描述本发明的实施例，其中：

图1是用于生成深度图的设备的示意图；

图2是图像类型和标签分级结构的图表；

图3是显示从图像中创建深度图的示意图；

图4是用于生成深度图的方法的流程图；

图5是用于生成深度图的设备和服务器的示意图；和

图6a-c是图像、标签地图和深度图的示意图。

具体实施方式

在图1中显示数码相框10。该相框具有正在显示图像14的显示设备12、处理器15并且也包括用户界面部件16，该部件包括三个按钮17。每一个按钮17显示标签18，在这个示例中这些标签是标签“天空”、“建筑物”和“地面”。利用单个按钮17显示的特定标签18能够利用相框10来改变，因为每个按钮17实际上是单个显示部件。

在图像14的区域中，在处理器15的控制下，在图像14上显示指示20。图片14中的位置20利用圆圈（可以使用问号或箭头）来指示。用户能够选择被呈现为选择选项的小集合标签18中的一个标签。图1提供所建议的用于3D图片创建的用户界面。通过按压三个按钮17中的一个按钮，用户设置在利用圆圈指示的位置20上的物体的分类。只要已进行了选择，圆圈20就改变位置，并且能够由用户给出新的输入。对于第一个问题，圆圈20的位置是固定的。在每一个后面的问题之后，该圆圈20取决于分类结果而被重新定位。该圆圈20以区域的中心位置为中心，而对于该区域，任一给定分类中的确定性是最低的。

不为用户所知的是：在优选实施例中，处理器15已执行图像14的颜色过分段，以推导出密集分类（dense class）标签地图。当用户选择标签18时，这个标签18被分配到该指示20落入其中的区域。对于这个区域，分类标签被设置成用户选择的标签18，并且置信度被设置成1.0（这是最大的）。该指示20随后由处理器15移动到新的位置，并且该处理被重复。当用户对结果满意时，该处理停止，或者作为选择，这也能够在固定数量的问题之后或者在对于总质量或置信度自动计算的量度达到预定水平时停止。在这一点上，仍具有许多尚未被分配分类号的区域。这能够被视为“未分配集合”的区域。对于这些区域，分类标签随后使用以下算法来查找：

1．将所有区域和所有可能标签的置信度设置成零；

2．将圆圈的位置设置在图像的中心（对于第一问题的位置）；

3．当用户还没有退出该处理时：

a．对于所指示的区域，获得用户输入；

b．将用于所指示的区域的分类标签设置成选择的标签；

c．对于所有的分类标签，将“未分配集合”中的所有区域设置成0；

d．对于所有的分类标签k=1..K：

i．对于N_iter次迭代：

l．对于处于“未分配集合”中的所有区域：

a．更新分类标签k中的置信度；

e．对于所有的区域：

i．选择具有最高置信度的标签；

f．更新分类标签地图；

g．更新深度图；

h．将圆圈重新定位到在任何分类中具有最低置信度的区域；

结束。

标签k中置信度的更新以相邻区域的标签k中的置信度为基础。对于具有相邻区域j的区域i，使用下式来更新置信度：

其中：

。

迭代的数量典型地是N_iter=50。第二等式中的加权被设置为α=0.1。为了获得更好的混合，有可能在每一个方向从前往后以及从后往前进行若干次重复扫描区域列表。在优选实施例中，在每一个方向进行五十次迭代。

加标签的图像随后使用以下算法被转换成深度图：

1．查找最大的y坐标y_max，其中对于该y坐标，像素具有标签“地面”（注意，右手侧坐标系的原点位于图像的左下部）。从这个点到图像底部的距离是h。图像高度称为H；

2．计算“地面”的坡度：

；（对于该参数，使用）；

3．在标签地图L上执行连接的部件加标签；

4．为每一个连接的部件m，确定底部像素的垂直位置y_m；

5．自底到顶列式（column-wise）扫描标签地图L，并计算深度图D：

如果L(x,y) =“地面”，则D(x,y) = 255-s.y;

如果L(x,y) =“建筑物”或“其他”，则D(x,y) = 255-y_m.s;

如果L(x,y) =“天空”，则D(x,y) = 0。

图1显示简单的菜单结构。然而，为了使得图像到深度图的转换一般地说是可应用的，可以使用如图2所示的分级结构。注意，图2中所呈现的分级结构仅仅是示例性的。在根据本发明生成深度图时可以使用的可供选择的分级结构被介绍在由Nedovic, V.等人在Computer Vision, 2007. ICCV 2007, 2007年10月14-21日公开的“In Depth Information by Stage Classification”中。

用户随后首先被询问有关图片的一般特性。如果该图片包含人物特写，那么用户将看到不同的菜单结构。标签地图的解释也可以不同。例如，可以假设人在前景和占据大部分图片的面部中，能够分配详细的深度模型。分级结构考虑“上下文相关的”菜单以及标签地图到深度图的转换。显示设备12显示多种图像类型22，并且相框10接收将图像14定义成所显示的图像类型22之一的用户输入，而且根据所定义的图像类型22来选择将要显示的标签18。这帮助用户语义选择与被处理的图像14有关的类型18。

图3阐明发生的数据流，其中图像14被转换成标签地图24，该标签地图随后被转换成深度图26。在创建标签地图24中，标签18和用户输入28用于生成标签地图24。如上所述，标签18被预先定义，并且在用户被问及图像14中的特定位置时，用户从呈现给他们的列表中选择标签18。标签地图24到深度图26的转换是根据预定方案30进行的，上面给出其一个示例。

在图3中概述的处理的主要优点在于：首先，用户不必提供任何的深度信息，并且其次，他们不必在原始图像14中选择或定义任何区域。这使得用户的任务简单得多，并且与标签18和方案30相结合就足以为原始图像14生成工作深度图26。这也意味着：能够使用具有非常简单的用户界面且不支持或真实（诸如笔）或虚拟（诸如鼠标光标）的指示设备的非常简单的设备例如相框10来创建深度图26。

创建深度图26的处理对用户而言实际上是不可见的，并且发生在背景中，因为用户正在相对于指示20的当前位置进行标签选择。分类算法对用户而言同样是不可见的；不需要在图像14上将最终得到的分类显示给用户（尽管在更资深的用户希望查看重叠在图像14上的分类的结果时，也能够向用户显示最终得到的分类）。

图3将该处理显示为一系列阶段，但是实际上标签地图和深度图可以并行进行构建。这意味着：只有用户为指示20的当前位置进行标签选择，则标签地图24将反映那个变化，并且深度图26能够正好利用那个当前信息来生成。一旦用户为新的位置进行另一标签选择，那么标签地图24和深度图26将被更新。如果显示设备12是3D显示设备，那么利用那个设备12显示的图像14能够被再现在3D中，因为在用户对图像中的不同区域进行其选择的同时深度图26正在被构建。这样，一旦用户对最终结果感到满意，他们就能够终止该处理。

在图4中概述生成深度图26的全过程。为图像14生成深度图26的方法包括：在步骤S1，显示图像14，以及根据预定的过分段算法来分段图像14。例如，依靠颜色或边缘检测，能够使用生成过分段的任何适当的分段算法。该算法应有利地被调谐成将图像14过分段，因为已发现此生成最佳结果。

在步骤S2，执行对应于图像14的第一位置在图像14上指示20的显示以及多个标签18的显示。例如，通过简单地选择在图像14的中心的位置或通过按照像素大小选择最大区域的中心位置，自动地确定利用指示20标记的第一位置。能够使用其他的选择将要标记的第一位置的方法。

该处理的下一个阶段是步骤S3，其包括：接收用户输入28，这是选择被显示给用户的多个标签18之一；并将用于第一分段的标签18设置成选择的标签18。用户被要求识别在指示20的位置中图像14的当前部分。用户不知道这与图像14的分段中的区域相关联。例如，该用户仅看到指针20，并且按压“天空”按钮17。这导致恰当的标签18被附着到那个区域。

在标签的这种设置之后，该方法将进行检查，以查看由用户进行的标签选择是否应终止。如果回答是否的话，那么该方法返回到步骤S2，并且在图像14上显示与图像14的不同分段相对应的指示20，接收选择多个标签18之一的用户输入28，以及将用于不同区域的标签18设置成选择的标签18。这个重复指示的显示、用户输入的接收以及将用于不同区域的标签设置成选择的标签的处理继续，直至预定的状况/事件已发生。这将随后结束该处理的这个部分。预定事件可能仅仅是用户终止该处理，或者可能是回答了有关不同区域的特定数量的问题，或者识别了足够的区域来合理地确定最终结果等等。

在步骤S4，该处理通过存取用于将标签地图24转换成深度图26的预定方案30来继续，并且在步骤S5完成，其中步骤S5包括根据预定方案30以及按照用户输入28设置的标签18来生成深度图26。这样，产生深度图26。该流程图显示在步骤S3之后被询问的终止问题，但是实际上步骤S4和S5能够直接地从步骤S3中得出，其中在步骤S5之后执行环形循环（loop round），返回到步骤S2。这样，产生迭代深度图26，并且更熟练的用户能够在决定是否回答关于指示20的新位置的进一步问题之前检查该深度图26。

在步骤S1中过分段算法的使用是该处理的优选实施例，但并不是必要步骤。如果不使用过分段，则能够选择单个像素或可变大小的圆形区域。该信息随后能够使用像素邻域从这个区域进行传播。例如，该区域可以正好是利用指示20标记的确切区域，如果其是圆圈等等，或者可以是围绕该指示20的特定数量的像素。一旦用户作出标签选择，则那个标签18就被附着到那个点或区域，并且可以向外填充（populate）到其他区域，如上所述。

有可能在该处理中包括不同类型的先验信息作为在图像14内为不同的标签18预填充（pre-populate）置信水平的方法，其中用户输入用于改善预定的置信水平。例如，有可能基于颜色等等将初始（先验）置信度提供给标签（例如，在图像顶部的蓝色有可能是天空，肤色部分有可能属于某个人，等等）。

虽然上面的描述论述了相框的使用，其中图像14、标签地图24以及深度图26的所有处理在处理器15的控制下发生在一个位置上，但是图5显示该系统的一种可供选择的实施方式。这个附图的实施例使用经由诸如因特网的网络34而连接到由服务器32运行的web（网络）服务的客户端设备10，诸如常规的台式计算机10。这种配置允许用户接入将从图像14中生成深度图26的服务，而用户不必购买任何特殊的硬件，这是因为连接到因特网34的计算机10是非常广泛可利用的，并且已存在于许多家庭中。

在这个实施例中，该图像的处理能够完全在本地处理器15的控制下进行，或者能够利用在处理器15与服务器32之间分布的处理功能来完成。为了接入深度图创建服务，用户将以常规方式连接到网站，并且或将其图像14上载到在服务器32上运行的web服务，或将从服务器32下载客户程序，以便经历生成深度图26的处理。用户将以与上述相同的方式与涉及将被分配给图像14的（某些）部分的标签18的问题相互作用（interface）。一旦他们已完成了标签问题，则将生成深度图26。

在上面的描述中，显示在图像14上的指示20的位置由处理器15进行控制。然而，该系统也能够被适配，以便除了处理器15的决定之外，也能够进行指示20的位置的用户选择。当前系统的一个优点在于：它能够在并不具有任何的指示或光标功能的设备中进行实施，但是如果这种功能在该设备上是可利用的，例如在图5的实施例中，那么用户能够指示图像14中的点，并且给出那个点的语义信息。

图6显示对于特定图像14实现的生成深度图26的处理。这个高度示意性的图像14旨在以简单的方式来阐明本发明。图像14包括在路旁草坪上的两棵树，其中天空在后面。图6a显示在图像14已根据颜色被分段为分段36之后的该图像14。如上所述，分段不被用户看到，这由处理器15在背景中完成，并且不被显示。实际上，对于真实图像，将利用分段算法创建更大数量的不同分段36。

为了为这个图像14生成深度图26，下一个动作将是向终端用户显示用于分段36a的指示20（未示出）。该用户将从所显示的标签18（又未示出）中为这个特定分段选择标签“地面”。该指示20将随后在处理器15的控制下被移到新的分段36，并且加标签处理将继续。图6b显示将从用户给不同分段36加标签中得到的标签地图24。标签地图24包括四个不同的区域，这些不同的区域是天空、地面和两个单独的物体。

一旦加标签处理已终止，那么将从标签地图24以及所定义的方案30中生成深度图26。在上文描述方案。现在，以其最简单的形式，从0到255（相对深度标度）的深度值将被分配给原始图像14的每一个像素。天空的像素将被设置成最深的深度（0），而构成地面的像素将被给予某一范围的值，其中每一行的像素具有相同的深度值。图像14中最低（处于底部）的行将具有255的值，而在上面的行中的值将按比例缩减到0。每一个物体中的所有像素将具有相同的深度值，这将相当于处于其最低y坐标（实际上，这是它们触及地面的地方）上的地面的像素行。

这样，生成在图6c中所示的深度图26。对于原始图像中的每一个像素，该深度图26具有在0到255范围中的值，并且这些值可以被表示为灰度值，以便提供在真正意义上能够被裸眼观看的深度图26。如能够明白的，地面具有按比例缩放的深度值，而单个物体具有恒定的深度值，这些深度值将这些物体置于在相对刻度0到255内的某个距离上。

上文呈现的算法可以有利地用于将加标签转换成深度图。本发明可以有利地与其他的生成深度图的方法例如在特此引入作为参考的由S. Battiato等人在Proc. SPIE, Vol. 5302, 95 (2004)中公开的“Depth map generation by image classification”中披露的方法一起使用。这个特别的论文披露如何可以使用图像的分段来生成深度图。本发明可以有利地用于改善在分段之后的加标签（处理），并由此可以提供改进的深度图。

将意识到，在根据本发明的用于生成深度图的系统中，用户输入可以采用各种方式来提供，并且不需要限于按钮和/或触摸屏的使用。在这方面，注意：特别地，在使用相框时，在设备的前部使用触摸感应界面并不是可取的。在设备的前部应用触摸感应输入装置通常导致在显示器表面上留下指纹和污迹。替代触摸感应输入装置的一种简单的可供选择的方案利用可被集成在显示设备/相框中的静电感应检测器来提供。可选择地，可以在显示设备的侧面提供触摸感应输入设备。

将意识到，上面的描述为清楚起见而参考不同的功能单元和处理器来描述本发明的实施例。然而，可以使用在不同的功能单元或处理器之间任何适当的功能分布而无损于本发明，这将是显然的。例如，被阐明为由单独的处理器或控制器执行的功能可以由同一处理器或控制器来执行。因此，对特定功能单元的引用将仅仅被视为是对用于提供所述功能的适当装置的引用，而不是表示严格的逻辑或物理结构或机构。

本发明能够采用任何适当的包括硬件、软件、固件或其任何组合的形式来实现。本发明可以选择地至少部分地被实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元素和部件可以在物理上、功能上和逻辑上以任何适当的方式来实施。实际上，功能可以在单个单元中、在多个单元中进行实施，或作为其他的功能单元的一部分来实施。因此，本发明可以在单个单元中实施，或者可以在物理上和功能上分布于不同的单元和处理器之间。

虽然结合一些实施例描述了本发明，但是并不打算将本发明限制于在这里阐述的特定形式。相反，本发明的范围仅利用所附的权利要求书来限制。此外，虽然某个特征可能看来似乎是结合特定实施例来描述的，但是本领域技术人员将认识到，所述实施例的各种特征可以按照本发明进行组合。在权利要求书中，术语包括并不排除其他元素或步骤的存在。

此外，虽然单个地列出，但是多个装置、元素或方法步骤可以利用例如单个单元或处理器来实施。此外，虽然个别特征可以被包括在不同的权利要求中，但是这些特征可能可以有利地进行组合，并且在不同的权利要求中的包括并不暗示：特征的组合不是可行的和/或有益的。将特征包括在某一类别的权利要求中也并不暗示对这个类别的限制，而是表明该特征同样可酌情应用于其他的权利要求类别。此外，特征在权利要求中的顺序并不暗示这些特征必须以此来工作的任何特定顺序，并且特别地，在方法权利要求中各个步骤的顺序并不暗示这些步骤必须以这个顺序来执行。相反，这些步骤可以按照任何适当的顺序来执行。此外，单数引用并不排除复数。因而，对“一”、“一个”、“第一”、“第二”等等的引用并不排除多个。权利要求书中的参考符号仅仅作为澄清示例来提供，而不应解释成以任何方式对权利要求的范围进行限制。

Claims

1.一种为图像（14）生成深度图（26）的方法，包括：

a）显示图像（14）；

b）显示多个语义图像类型（22）；

c）接收将图像（14）定义成显示的图像类型（22）之一的用户输入；

d）根据定义的图像类型（22），选择多个标签（18）；

e）根据预定分段算法，将图像（14）分段成区域（36）；

f）在图像（14）的第一区域（36）中在图像（14）上显示指示（20）；

g）显示多个标签（18）；

h）接收选择多个标签（18）之一的用户输入（28）；

i）将用于第一区域（36）的标签（18）设置成选择的标签（18）；

j）对于不同的区域（36），重复步骤f）到i），直至预定事件已发生；

k）存取用于将标签地图（24）转换成深度图（26）的预定方案（30）；和

l）根据预定方案（30）和按照用户输入（28）设置的标签（18），生成深度图（26）。

2.根据权利要求1的方法，其中将用于区域（36）的标签（18）设置成选择的标签（18）的步骤包括：将用于相应区域（36）的选择标签（18）的置信水平设置成1。

3.根据权利要求1或2的方法，并且进一步包括：在将用于区域（36）的标签（18）设置成选择的标签（18）之后，根据预定算法，为与相应区域（36）接壤的区域（36）的选择标签（18）设置置信水平。

4.根据权利要求3的方法，其中在图像（14）的不同区域（36）中在图像（14）上显示指示（20）的步骤包括：选择具有标签（18）的最低置信水平的不同区域（36）。

5.根据权利要求3的方法，其中在图像（14）的不同区域（36）中在图像（14）上显示指示（20）的步骤包括：选择对于两个不同的标签（18）具有的置信水平二者超过预定阈值的不同区域（36）。

6.一种用于为图像（14）生成深度图（26）的系统，包括：

显示设备（12），被安排为：显示图像（14），显示多个语义图像类型（22），显示多个标签（18），以及重复地在图像（14）的不同区域（36）中在图像（14）上显示指示（20）；

用户界面（16），被安排为：接收将图像（14）定义为显示的图像类型（22）之一的用户输入，以及接收选择多个标签（18）之一的多个用户输入（28），用于相应区域（36）的指示（20）的每一次显示；以及

处理器（15），被安排为：根据定义的图像类型（22）来选择多个标签（18），根据预定算法将图像（14）分段成区域（36），将用于每一个相应区域（36）的标签（18）设置成选择的标签（18），存取用于将标签地图（24）转换成深度图（26）的预定方案（30），以及根据预定方案（30）和按照用户输入（28）设置的标签（18）来生成深度图（26）。

7.根据权利要求6的系统，其中该系统包括数码相框（10）。

8.根据权利要求6的系统，其中该系统包括计算机（10）和服务器（32）。

9.一种用于为图像（14）生成深度图（26）的计算机可读介质上的计算机程序产品，该产品包括用于以下的指令：

a）显示图像（14）；

b）显示多个语义图像类型（22）；

d）根据定义的图像类型（22），选择多个标签（18）；

e）根据预定分段算法，将图像（14）分段成区域（36）；

g）显示多个标签（18）；

h）接收选择多个标签（18）之一的用户输入（28）；

j）对于不同的区域（36），重复指令f）到i），直至预定事件已发生；

k）存取用于将标签地图（24）转换成深度图（26）的预定方案（30）；以及

l）根据预定方案（30）以及按照用户输入（28）设置的标签（18），生成深度图（26）。