CN103608847A

CN103608847A - 一种用于图像模型构建的方法和装置

Info

Publication number: CN103608847A
Application number: CN201280030771.4A
Authority: CN
Inventors: 唐尼·媞加替; 欧文·塞克斯; 萨米·利芬斯; 马滕·阿兹
Original assignee: Alcatel Optical Networks Israel Ltd
Current assignee: Alcatel Lucent SAS; Alcatel Optical Networks Israel Ltd
Priority date: 2011-06-20
Filing date: 2012-06-04
Publication date: 2014-02-26
Anticipated expiration: 2032-06-04
Also published as: CN103608846A; KR20140037936A; US20140212031A1; WO2012175321A1; US9324191B2; US9269194B2; KR101547780B1; CN103608846B; JP2014520332A; JP5806399B2; EP2538389B1; WO2012175320A1; EP2538388B1; US20140212030A1; JP2014520333A; EP2538389A1; KR101560508B1; JP5784226B2; KR20140024058A; EP2538388A1

Abstract

一种用于从至少一个图像数据输入（IV1；IV1-IVn）来构建图像模型（M1；M）的方法，包括步骤，以迭代的方式，确定所述至少一个图像数据输入（IV1；IV1-IVn）的至少一个状态（PS1；PS1-PSn），以及中间学习模型（MF；MIF）的状态（PSMF）从所述至少一个图像数据输入的所述至少一个状态（PS1；PS1-PSn），以及从所述中间学习模型（MF；MIF）的所述状态（PSMF）来确定目标状态（TSP），根据所述被确定的目标状态（TSP），对所述至少一个图像数据输入（IV1；IV1-IVn）执行至少一个变换，从而生成至少一幅被变换的图像（IV1T；IV1T-IVnT），聚合所述至少一幅被变换的图像（IV1T；IV1T-IVnT）与中间学习模型（MF；MIF；MIT；MFT）信息，从而生成所述图像模型（M1；M）的更新的估计，提供所述图像模型（M1；M）的所述更新的估计作为所述图像模型（M1；M）同时还在反馈循环中，提供所述图像模型（M1；M）的所述更新的估计给模型物体学习模块（500）用于派生所述中间学习模型（MF，MIF）的更新。

Description

一种用于图像模型构建的方法和装置

技术领域

本发明涉及一种用于图像模型构建(image model construction)的方法。

背景技术

目前，基于真实动态场景或甚至基于被廉价相机(camera)摄取的图像的模型构建可以是一个难题。

专用硬件解决方案存在但它们是昂贵的，使用了昂贵的相机，并且使用繁琐。此外，绝大多数解决方案还不允许场景是动态地，这显著地限制了它们的使用。

对于三维的，其，在余下的文本中将被缩写为3D，从3D测量值的构建，最先进的网格算法能够从高质量的测量值创建具有好质量的结果；然而这些解决方案是计算上强度非常高的。此外，用于基于较低质量的图像生成具有好的质量的3D模型的解决方案是不可得的。

发明内容

因此本发明的实施例的一个目标是提出一种用于图像模型构建的方法和装置，其能够从较低质量的真实捕获来生成高质量的2D和3D图像模型和视频场景，并同时提供一种廉价和简单的解决方案。

根据本发明的实施例，该目标是通过一种用于从至少一个图像数据输入来构建图像模型的方法来达到的，所述方法包括步骤，在迭代过程中

–确定所述至少一幅图像数据输入的至少一个状态，以及中间学习模型的状态，

–从所述至少一个图像数据输入的所述至少一个状态，以及从所述中间学习模型的所述状态来确定目标状态

–根据所述被确定的目标状态，对所述至少一幅图像数据输入执行至少一个变换，从而生成至少一幅被变换的图像，

–聚合所述至少一幅被变换的图像与中间学习模型信息，从而生成所述图像模型的更新的估计，

–提供所述图像模型的所述更新的估计作为所述图像模型，同时还

–在反馈循环中，提供所述图像模型的所述更新的估计给模型物体学习模块来派生所述中间学习模型的更新。

用这种方式，通过提供所述模型的后续的更新的估计，在迭代过程中，通过使用这些以前生成的更新的估计模型中的至少一个来生成学习模型，并且通过利用输入以及该连续地被调适（adapted）的学习模型的状态参数，高度准确的模型将被获得，同时使用相比当前最新技术少得多的计算工作量和资源。

在一个实施例中，不仅对一些或所有的输入数据，而且对该中间学习模型的变换被执行。这些变换是根据该确定的目标状态来被执行的。在聚合步骤期间，通过进一步使用由此生成的中间被变换的模型连同该被变换的一幅图像或多幅图像，该图像模型的更准确的更新的估计能够以甚至更快的方式被获得。

在另一个实施例中，关于相同的图像数据输入的后续的状态被确定，其中所述聚合步骤包括所述图像模型的所述更新的估计的后续的更新的估计的收敛检查，这样仅所述图像模型的最后的更新的估计做为所述图像模型被提供。

这尤其适合用于对可能是低质量的静态图像输入生成准确的模型，与现有技术方法相比使用更少的计算资源。

在另一个实施例中，关于视频数据输入的后续帧的状态的后续值被确定，这样所述图像模型的后续的更新的估计跟踪所述视频的所述后续帧中的物体。

这对生成高质量的跟踪视频上的物体的模型的问题提供了解决方案。

在另一个实施例中，所述至少一个图像数据输入包括包括2D或2D+格式的物体的第一图像数据输入，以及包括所述物体的完全的3D图像的第二图像数据输入，其中所述状态包括以3D表示所述物体的方位和变形参数的值的组合，这样，所述3D图像模型的连续的更新的估计作为所述图像模型来被提供。

在一个实施例中，这样的方位参数可以包括所述3D物体的取向，所述3D物体的缩放，所述3D物体的位置。变形参数可以包括表示面部特征的参数假使人的头部要被表示，或颜色和纹理假使相对静止的物体例如汽车要被表示。

这给出用于生成跟踪2D视频图像的高质量3D模型的第一具体的实例。这可以被用于如视频会议应用中，其中高质量3D模型将被生成跟踪2D视频中的物体。

假使第二图像数据输入包括具有至少一个不同的特征的所述物体的完全的3D图像，该生成的模型能够比如去跟踪该2D视频序列的该物体，然而显示该不同的特征。在另一个实施例中，这样的3D估计被进一步投影到2D平面上，这样2D上的这些2D投影作为所述图像模型被提供给输出。

这也可以在视频会议应用中或在如互联网或在线会议应用中有用，其中人们可能期望与对他们拍摄的真实（real-life）的视频输入相比，以改善的，虽然仍然是逼真的，方式来被表现。这能够是这样的情况例如，在这样的视频在线会议会话期间，当某人正在键盘上打消息的时候。这个人从而没有直视相机，然而他/她可能期望被不管怎样都直视镜头的实时跟踪模型来表现，因为该实时跟踪模型将被传送给，并被该在线会议的其他的参与者所看到。这些实施例对此问题提供了简单，然而非常准确的解决方案。轻微纠正过的模型因此被生成，其可能或者是以3D或者在投影步骤之后以2D来被提供，并且，取决于应用，如作为该生成的模型的视频序列被进一步地传送或传输，或存储。

但在其他的实施例中，所述目标状态进一步基于与所述图像模型为其要被生成的物体相关的信息来被确定。

可选地，所述中间学习模型还可以进一步从被从外部地提供的模型信息派生出来。

本发明还涉及一种用于执行该方法的装置，涉及包含这样的装置的图像或视频处理设备，并且涉及一种包括当在数据处理装置上被执行时，适用于执行上述提及的或要求的方法步骤的软件的计算机程序产品。

应注意术语“连接”，在权利要求书中被使用，不应被解释为仅限于直接连接。因此，表述“设备A连接到设备B”不应被限制于其中设备A的输出被直接连接到设备B的输入的设备或系统。其表示在设备A的输出和设备B的输入间存在着路径，其可以是包含其他设备或装置的路径。

应注意术语“包括”，在权利要求书中被使用，不应被解释为局限于其后列举的装置。因此，表述“设备包含装置A和B”的范围不应被限制在仅仅由组件A和B组成的装置。其表示就本发明而言，该设备的相关组件仅为A和B。

在整个文本中，二维将被所缩写为2D，并且，如前文所提及，三维将被缩写为3D。

附图说明

通过参考下文实施例的描述并结合附图，本发明上述和其他的目标和特征将变得更明显，并且本发明本身将会被最好地理解，在附图中，

图1a-b示出用于从图像数据的单个输入源提供模型的方法的示意性实施例；

图1c示出用于从单个输入源提供模型的装置A1的示意性实施例；

图2a-b示出用于从图像数据的多个输入源提供模型的方法的示意性实施例；

图2c示出用于从图像数据的n个输入源提供模型的装置An的示意性实施例；

图3a-b示出该方法的两种另外的实施例，适合于生成逼真的3D模型，其几乎瞬时地表示一个人的运动和特性，该人的2D+z信息以及单个3D图像被提供。

图4a示出该方法的再一个不同的实施例，适合于基于可能显示人的瑕疵的2D视频，并基于此人的单个3D图像来生成3D模型的方法。

图4b示出图4a的实施例的另一个变体。

本领域技术人员应理解此处的框图表示体现本发明原理的示例性电路的概念视图。任何流程图，流图，状态转换图，伪代码，和类似物，表示可以在计算机可读的介质中被基本上表示出来并因此可以被计算机或处理器执行的各种进程，无论这样的计算机或处理器是否被明确地示出。

具体实施方式

图1a示出用于从单个图像数据输入生成并提供2D或3D图像模型的方法的实施例的示意图。该图像数据输入可能已被，提供可能以2D，3D或2D+z格式的静态图像或表示运动的物体的图片系列的，相机所提供。用2D+z指的是二维像素数据连同深度数据一起被提供。这样的表示能够被用于重建3D像素数据，并通常是通过3D相机来生成的。图像输入数据也可以是从如存储器(memory)或存储设备(storage device)得到的，或通过任何类型的通信网络，如被常规的移动电话发送的MMS图片，来被提供的。输入图像数据在图1a中被记作IV1并经受两种操作。第一操作涉及状态提取或确定，用其表示用于表示图像输入的物体的状态的状态参数是确定了的。物体特征的配置被用状态来指示，而且这些特征本身被一组值所表现。这些值可以从而描述物体的可能的可变的属性或特征。这组值能够被排列到矢量中，但其他的用于这样的状态的表示当然也是可能的。对于人的头部作为其状态要被确定的物体的实例，该状态可以被具有下面的特性或属性的值的矢量表示为：（headOrientation_x,headOrientation_y,headOrientation_z,scale,location_x,location_y,location_z,faceExpression_1_x,faceExpression_1_y,…,faceExpression_68_x,faceExpression_68_y）。HeadOrientation_x从而指示头部在水平方向的倾斜，headOrientation_y从而指示头部在垂直方向的倾斜并且headOrientatin_z从而指示头部在深度方向的倾斜。FaceExpression_1_x表示在图像中被记作项目1的某面部特征的水平方向的位置。在上面提及的实例中，这样的68个特征将然后被通过他们的2D位置来被表示。这样的面部特征可以如为嘴或眼睛的左/右边缘，等。

类似地，假使如赛车的运动的图像，要被表示的物体将是该赛车，并且该物体的状态可以用矢量为下面的特性的来被表示：汽车的3D取向，汽车的3D缩放和位置，车轮的3D方位，颜色，等。

如从上述实例中所示，显然如这些确定脸部表情的变形特征，以及如颜色和纹理，被用来确定与外观相关的特征，而如取向，缩放和位置的方位参数被用来确定3D方位。

用于从到来的原始数据中确定物体的状态的方法将一般地首先包括可能地但非必需地通过执行分割操作来识别在考虑中的物体的步骤，接下来是对该因此被识别的物体的进一步的深入的分析。该进一步分析可以如包括使用主动外观模型，缩写为AAM（ActiveAppearance Model），其允许，如，假使人的头部作为基于2D图像输入的要被建模的物体，通过与3D或2D AAM内部成型模型的拟合来确定2D输入图像上的脸部特征的形状和外观。这可以开始于比较2D输入图像与2D AAM模型的起始值，AAM模型本身然后进一步逐渐地改变其来找出最好的拟合。一旦好的匹配被发现，基于该AAM被调适的模型从而被确定的参数如face_expression_1_x，face_expression_1_y，等等，被输出。

当然其他的方法可以被用来确定被识别的物体的状态，正如被本领域技术人员所众所周知的。

假使图像数据输入包括多于一个物体，用于确定状态参数的过程可以为每一个为其模型被期望的物体来被执行。根据输入数据本身是否是静止图像或运动图像，根据期望的准确度级别，以及根据可用的计算资源，这能够被并行或顺序地执行。假使图像数据包含多于一个物体，本领域技术人员应能够生成用于提供多个模型的实施例。

在图1a中，物体的状态被记作PS1并被用于被记作模块200“目标状态合成”的步骤的输入。在这个步骤期间，目标状态TSP基于一个或多个状态输入被确定。在图1a的实例中，两个状态输入被示出：输入图像的状态PS1，以及“学习模型状态”PSMF。后者涉及从输出模型的反馈所获取的值。一般地，这样的反馈信息在为要被分析的第一幅图像启动方法时还不可得，这样假使关于最终模型的一些初始的知识可以已经是事先已知的，PSMF的初始值能够是一个缺省值。可选地，步骤200能够只是忽略该第一PSMF值。在另一个实施例中，一些在图1a上被记作PSE的外部状态信息，也能够作为可选输入被提供，如在图1a上被虚线箭头所指示的。该外部信息能够比如是从外部语音分析模块所获取的，在相同的输入视频数据IV1上被执行的，假使IV1包括这样的视频。通过提供其为来自语音分析的结果的额外的音频信息给目标状态确定模块200，一些复杂的方法能够被用来将早前在PS1中被确定的面部表情与该语音信息比较，并由此推断或优化更精确的面部状态作为目标状态TSP来被提供。

其他的用于从不同的输入状态PS1，PSMF和可选地从额外的信息PSE中确定目标状态，在图1a中被记作TSP，的方法，可以包括执行各种输入状态的加权组合，用权重反映状态的置信度，置信度级别本身是在状态提取自身期间被确定的。对于前面提及的用于确定PS1参数的AAM方法的实例，识别匹配结果的参数可以就如被选择为这样的置信度度量。

另一种用于确定目标状态的方法可以简单地包括选择输入状态中的一个，该选项，在如在前文实例中所说明的不同状态的插值或加权组合的结果的检查指示了这样的插值的结果位于预先确定的范围之外的情形下，能够是优选的。该选项也可以在该方法的初始化阶段期间是更恰当的，假使PSMF仅包括缺省值，或假使在输入状态之间的差别是相当大的。这可以例如发生在这样的情况下，PS1指示头部的取向是z方向的180度，其可以是当头部转向后面的情况，具有置信度0.2，同时由于比如利用对于模型的已知信息，另一个状态值，如PSMF指示仅20度取向，具有置信度0.6。在这样的情况下，最好是仅选择两个状态中的一个做为目标状态，而不是执行加权组合或插值。选择本身可以就只是基于选择具有最高置信度级别的状态。

目标状态TSP被用于执行输入图像数据的变换，该变换被步骤300“图像变换”来表示。这样的图像变换可以在2D中在像素级别发生，或在3D中在体素，其为指示3D像素的术语，级别发生。在一个实施例中，在2D中一些过滤操作可以发生比如用于仅保留相对于其模型要在输出被显示的物体的有用的像素信息。该物体当然是与其状态被确定了的那一个物体相同。因此状态提取以及图像变换的过程应该被对齐并也被同步，这样图像变换在目标状态的确定之后发生。

这样的图像变换的另一个实例可以包括面部参数的调整。在一个实例中，其中2D输入数据要被调适，一种利用三角形来表示面部特征的方法可以被使用。通过如被这些三角形所定义的插值距离，并给这些新位置的像素赋予以前被赋予给在其以前位置的这些像素的特征，图像变换可以产生。

另一种用于执行该变换的方法将在描述图3a-b的实施例的实例时被给出。

在所有的情况下，该图像变换操作的结果是被记作IV1T的被变换的图像，其一般地仅包含在考虑中的物体的细节。

该被变换的图像IV1T将被与中间学习模型信息MF聚合。在方法启动时，该MF信息能够包含关于模型的缺省信息，或可选地可以只是被忽略。IV1T以及MF，如果可用，将在步骤400中被聚合成单幅图像，该单幅图像包括物体的估计模型，并且将一般地作为输出。该图像模型被记作M1。

该被确定的估计模型M1被反馈给模型物体学习模块500，其适用于从该估计模型派生出学习模型的更新。由于该学习模型将然后连续地在依次的迭代步骤中被调适，它一般地被记作“中间学习模型”MF。从图像模型M1的估计中派生中间学习模型的更新可以包括通过如存储它们，保持记录模型M1的依次的估计，并也可以包括对于图像模型的所有以前被确定的估计的最近的一个，或全部，或一个子集的处理操作，用于从最近模型和以前生成的输出M1来生成中间学习模型MF。在第一迭代步骤中，MF可以与M1相同，被相同的被称为模块500所执行的该模型物体学习步骤，在这种情况下，然后只是包括派生“中间学习模型”MF为与它的第一输入M1相同。由于一般几个迭代可以被包括，MF的后续的值将被生成，这样所述中间学习模型可以连续地变化，根据被使用的反馈的迭代的数量，并根据在聚合步骤之后图像模型的估计本身可以如何变化。

中间学习模型MF将也经历状态提取步骤100用于确定该中间学习模型的状态。在这个方面，如用于确定输入图像的状态的类似的操作可以被执行，但，由于模型将一般地仅包含在考虑中的物体的数据，物体识别一般不再需要。中间学习模型的状态被记作PSMF。中间学习模型的状态参数连同输入图像数据的状态参数一起被用于确定目标状态TSP。

在反馈过程期间，从而在中间学习模型生成以及其状态提取期间，IV1可以已经改变，尤其在输入视频其中的下一帧可以已经在输入IV1被呈现的情况下。在这种情况下，视频序列的该新的帧可以被进一步用于状态提取步骤101以及用于图像变换。然而这不是必需的，并将取决于实施例。假使在输入处新的帧被呈现，状态提取于是可以随即发生，这样该输入图像的新的状态将连同基于以前的帧被确定的中间学习模型的状态一起被用于生成TSP。假使IV1没有变化，如假使是静态输入图像，状态提取101将很可能得到如在该操作的以前周期中的类似结果，但目标状态合成现在将把从中间学习模型被提取的状态考虑进来。用这种方式，目标状态的更好的调整将产生，其，依次地，将进一步影响图像变换300。这将一般地导致更快的收敛。在如图1b中那个所示的另一个实施例中，中间学习模型MF由目标状态参数控制，也将经历图像变换步骤301。对于中间学习模型的该图像变换可以以如对于图像输入数据的变换类似的方式来被执行，或可能地根据数据本身，如，假使图像输入数据以2D呈现，而模型是3D模型，来以另外的方式来被执行。对于两个变换操作，不管怎样TSP作为对两个过程的控制输入被使用。对MF的图像变换操作的结果被记作中间被变换模型MFT。在本实施例中，在聚合步骤期间，MFT被用作中间学习模型信息。

显然为了顺利的操作，所有这些步骤的时间控制是极度重要的，这样MF的变换不发生在状态TSP被确定之前。在图1a的实施例中，其中对于学习模型，没有执行变换，其中被变换的图像数据要与未被变换的学习到的模型聚合的聚合步骤的时间控制是极度重要的。然而本领域技术人员了解实现这一点的技术，这样在本文档中这将不再被讨论。

在图1b中示出的实施例中，由于被变换的图像数据1V1T和MFP都将被进一步作为在聚合步骤400中的输入来被使用，模型的更好的及更逼真的估计将产生。通过对于M1的后续的更新的估计进一步重复被由此说明的反馈过程，作为结果的模型将被进一步地调优。图像模型的后续的更新的估计可以在后续的定时实例中被提供给输出。对于输入视频数据这是最有用的，其中用这种方式模型将跟踪输入视频中要被建模的物体的运动。可选地，聚合步骤本身还可以包括检查如收敛准则，这样仅当模型已向不再进一步实质性改变的估计收敛之后，它将被提供给输出。显然这样的实施例更适合于静态图像，反之随时间过去，改变的图像的速度，如在使用输入视频的情况下，可以是如阻止对于一幅图像几个迭代发生。在另外的处理输入视频数据的实施例中，在模型的最新的更新可以提供给输出之前，一些迭代可以发生在后续被提供的图像或帧上。在这样的情况下，收敛测试也能够再次被应用。

图1c示出用于执行图1a的方法的步骤的装置A1。这样的装置可以通过软件实现，该软件或是通过在载体上的可执行代码，或是可编程到存储器中，或是通过从服务器的下载的操作，这样它能够在处理器上运行或可选地在该服务器本身上被执行，来被提供。可选地，这样的装置可以通过硬件元件，如通过单个处理器，或以分布式的方式来被实现。不同的步骤被不同的模块表示，但显然这样的清楚的结构性的描述在一些实施例中可以不出现，并且步骤的全部或子集可以通过一个单个处理器来被执行。

图1a的实施例还示出，在模型物体学习步骤500期间，关于该模型，如一个在本方法以前使用期间所获取的，并被外部地存储的以前生成的模型的外部数据现在能够作为外部输入来被提供。这是个可选的步骤，然而其能够提高收敛速度。

图2a示出本方法的另一个实施例，其现在使用来自各种输入源的图像信息。在图2a的实施例中，n个不同的图像输入被示出其被记作IV1，IV2到IVn。这些包括图像数据，如2D，3D和2D+z的图像信息，并可以包括来自相机的真实的流数据，或可以包括被存储器或通过通信信道从远处的计算机或相机或移动设备等所提供的数据。

图2a的实施例与图1a的相似，区别在于对于每个图像输入数据，状态与其模型要被表示为输出M的物体相关地被确定。因此n个状态提取步骤可以对于n个图像输出源被并行地执行，生成该相同的物体的n个物体状态。显然对于好的操作，这些状态提取模块再一次要被同步并必须是有效的例如提取一些基本细节可能事先已知的相同的物体的参数。可选地，根据计算资源，n个状态提取101，102到10n可以以串行的方式，例如被同样的模块来执行。而且在这种情况下在它们和下面要被执行的步骤之间的好的时间同步是重要的，并且本领域技术人员应适应注意同步的方面来认识实现。由于此与本发明主题不直接相关，在本文档中我们不再讨论该方面的进一步的细节。

如果目标是如生成人的头部的好的模型，所有的状态提取模块101，102到10n适用于搜索“类似人的头部”的物体，并且不适用于搜索如汽车假使其可能偶尔出现在图像中。作为结果的该物体的被提取的状态参数，记作PS1，PS2到PSn，被提供给目标状态合成模块200，其现在适用于确定目标状态TSP。一般地，关于相同的物体的越多的图像输入源被用于生成该物体的模型，模型能够被构建得越好。然而，假使物体是例如偶尔地未出现在输入图像上，应注意排除，或至少较少关注获取的这些值。目标状态合成步骤200可以与在图1a中的实施例中所使用的相似，但现在把更多的输入考虑进来。关于这些状态的第一检查可以是对确定是否考虑它们全部有帮助的，其可以通过检查是否它们都包含位于一定的预先确定的界限之内的值，或将它们相互比较。假使一些值的确位于这些界限之外，而其他的大多数不是，例如假使与其他n-2个值相比2个状态具有非常偏离的值的情况下，丢弃这些值是恰当的。

被保留的状态可以就通过插值，如，通过它们的值的加权平均来被用于确定目标状态。可选地，置信度级别的检查可以指示仅选择具有最高置信度的状态，如在参照图1a的前面的段落中所说明的。

基于由此被确定的目标状态TSP，如被步骤301,302和30n所指示的，以类似于关于图1a所说明的方式，输入图像分别经历变换。在一些实施例中，如关于图3a-b和4a-b将被说明的，根据模型本身是否与图像数据输入严重偏离，这些变换中的一些与其他的相比将是次要的。接下来被变换的图像数据IV1T，IV2T到IVnT在步骤400中被聚合。与图1a的实施例类似，中间学习模型MIF的初始的缺省值可以在初始阶段在该聚合步骤中被使用，或该值可以只是被忽略。在n个被变换的图像以及可能的在迭代过程的第一个周期中的MIF的输入缺省值的聚合期间，通过被TSP用于变换的与状态一致的数据的组合，模型的更逼真的估计将很可能产生。此外，度量能够被用来甚至更进一步地精确化并改进模型的作为结果的估计，尤其是当在聚合步骤过程中将某输入图像的可靠性作为度量考虑进来时。例如，为了构建人的头部的模型的面部特征，正面拍摄的图像的可靠性一般地但非必需地大于侧面拍摄的图像的可靠性。在聚合步骤过程中，与侧面拍摄的图像相比，通过从而使用正面拍摄的图像的相对较多的信息，更好的估计模型可以被获得。而且当在聚合步骤过程中判断给予哪幅图像更高的权重时，在状态提取过程中所确定的可靠性能够被使用。

再一次，作为结果的模型M被反馈给模型物体学习模块500，其例如可以随时间保持跟踪后续被确定的估计模型，并且其能够从它们，或从最近生成的一个被确定的估计模型，或从其加权组合，等，创建改进的中间学习模型MIF。当然更多的用于生成中间学习模型的实现是可能的。

中间学习模型MIF将经历状态提取步骤100，其被提取的状态PSMF在目标状态合成200过程中进一步被使用。该由此被获取的目标状态参数TSP在输入图像IV1到IVn的变换过程中，并且可能地，如在图2b的实施例中所示，在关于中间学习模型的模型变换步骤300的过程中，被进一步使用。后一步骤将提供中间被变换的模型MIT。通过加入该中间被变换的模型到被变换的图像数据中，到期望的输出的模型M的更准确的并且更快速的收敛将被获得。

根据输入图像数据的类型，并且根据可用的计算资源，与关于图1a-b所说明相类似的考虑可以应用到关于输出模型的提供上。在该以及可能的下面的迭代步骤过程中，尤其考虑到假使为视频的变化的输入图像数据，关于状态确定以及输入图像数据本身的变换，也可以做类似的评论。还再一次要提出所有步骤的同步对于保证顺利的操作是重要的。再一次，本领域技术人员能够意识到该同步方面。

图2c示出用于执行该方法的装置。而且此处类似的考虑应用到关于如同关于在图1c所提及的那些同样的装置的实现。

和图1a-c中的实施例类似，一些被外部提供的数据，如在该方法的以前使用过程中获取的被外部保存的以前的模型，能够被提供给步骤500，来在模型物体学习步骤过程中被使用。如在图1a的实施例的说明过程中被更细节地说明的，提供外部信息给目标状态合成模块200也是可能的。

通过图3a-b和4a-b中所示出的进一步的实施例，这些方法和装置的优势将甚至变得更清楚。

图3a示出的实施例接收包括如人的头部，汽车，树，……物体的2D+z图像序列的第一图像数据输入IV1，以及包括该相同物体的静态3D图像的第二图像数据输入IV2。该物体的图像模型M是3D模型并且优选地应“实时地”被提供，由此意味着在2D+z图像序列中显示的该物体的运动，若有，应该被表现并且应该是逼真的，尽可能地准确并且是3D的。

这样的情况能够如发生在当用户位于笔记本前面，同时可能地但非必需地通过两个网络相机的廉价组合来被实现的立体相机，正在录制他的/她的脸部和上身。

目前，甚至当使用装备了最好的立体匹配算法与最好的3D重建算法组合的最好最贵的立体相机，也不可能以足够高的质量以3D重建完整的头部。无疑地，对于通过廉价相机被获取的2D+z图像数据的情况也将一定是这样。

现在第二图像输入被使用，在该情况下是3D图片，可能是线下拍摄的并且从而可能是在该物体或人的2D+z视频序列之前拍摄的。假使其准确的并“真实的(real-life)”模型要被生成的物体涉及到汽车，该汽车的3D图像被使用，等等。

对于其中2D+z的被监测的人的头部和脸部的准确的“真实的”3D表示要被提供的实施例，状态被确定为方位参数，如头部取向，3D缩放，3D位置，以及变形参数，如关于脸部表情的这些参数，的组合。变形参数本身能够如通过，如与嘴，鼻子，眼睛，下颌线，眉毛等的特定的相对或绝对方位相关的68个属性的值来被表示。这些值可以被表达为它们的3D绝对或相对坐标。对于要被建模的汽车的情况，状态可以包括3D的，表示方位参数和变形参数的值的组合，再一次，方位参数是关于该汽车的3D位置，缩放和取向，以及变形参数确定子物体比如车轮的颜色，纹理，取向，等。

3D图片的状态可以与2D+z视频的图像各自后续的图像的状态共同确定，但，由于3D图片涉及到离线静态图像，这也可以已经事先被完成了。在那种情况下，这些状态参数可以早前已经被确定，并被存储了。然而对于在线2D+z输入图像数据，图像将变化正如人将不可避免地不时地运动，并且目标是尽可能紧密地跟踪这些图像，来尽可能逼真地渲染表示人的头部和运动的模型。对于将会运动，外观和景色可以变化，车轮的方位和取向可以变化，等的运动汽车的其他实例，类似的考虑是有效的。

人的头部的2D+z图像序列的每一幅的或其子集的期望的状态能够通过用于头部姿势估计和脸部特征提取的现有的图像处理技术来被确定。比如前面被说明的AAM方法的技术可以被用于确定脸部特征，同时头部姿势参数值能够，如通过使用Grunet算法的脸部特征三角形匹配来被确定。

3D图形的状态可以早前已经被一个用户，通过该人的头部的该3D图像的几个被投影的版本上的一组脸部特征的人工指示，来确定。可选地，这也可以用更自动的方式，如通过识别技术来被执行。状态PS1和PS2都作为用于确定目标状态TSP的输入来被提供。在此情况下，运动的跟踪是最重要的，这样关于后续的2D+z图像来确定的状态与3D图像的不变化的状态相比将被赋予较高的权重。在一个实施例中，TSP可以甚至只是接收作为2D+z图像的状态的PS1的值，从而丢弃PS2值。在接下来的迭代周期中，生成的中间模型的被提取的状态将也可以用于目标状态的确定，但这将在后面的段落中进一步被说明。

基于目标状态TSP，图像被变换。由于目的是尽可能紧密地跟随2D+z视频图像的运动和表情，所以包括个体图像的后续的视频帧将不被显著地变换，仅一些过滤将发生。在另一方面，3D图像要被变换，例如更朝着在后续的2D+z图像中所呈现的脸部的变化的表情/运动来调适它。这能够通过物体的旋转，平移和缩放，连同使用当试图调适到作为TSP输入来被提供的某脸部特征时，指示在输入图像中的被检测到的物体的哪些像素/体素要被改变的如“绑定的3D模型”方法的脸部特征的调适来被完成。

除这些图像输入数据之外，还有在后续的迭代循环中被连续地反馈的人的头部的3D模型M本身的反馈信息。模型物体学习步骤500隐含着3D模型M的不同的迭代或估计的日志，其可以因此作为变化的表情和运动的函数随时间变化。此外，中间学习模型MIF本身也在几个反馈循环中被调适，优选地以一种空间独立的方式，这意味着，中间学习模型MIF将，如同一般地被用于稀疏适应取样，为在3D空间中的每个被考虑的点，被赋予距离度量。在每个学习模型操作过程中，基于呈指数下降的时态模型，这些距离度量进一步被调适。

中间学习模型MIF还进一步被用于状态提取，该状态提取信息还以在前面的段落中所说明的方式，从而通过首先确定是否插值是合适的，来进一步地被用于确定目标状态TSP。在如假使PS1数据的置信度不是那么高，如50%的情况下，插值能够是恰当的。可选地，假使PS1有低置信度如低于20%，仅使用PSMF可以甚至是更恰当的。假使PS1数据有相对高的置信度，如高于50%，可以仅使用PS1数据。当然其他的准则能够被使用并且，在插值的情况下，IV1输入视频的状态仍然能够相对于PSMF被赋予较高的权重，用于目标状态的确定。

目标状态TSP能够被用于变换输入图像数据。在图3a的实施例中，没有中间学习到的模型的进一步的变换，这意味着在这种情况下，中间学习到的模型MIF是“状态依赖的”。在图3b中的可选实施例中，中间模型MIF根据TSP，通过考虑TSP的进一步的调整，因此也间接考虑进变化的输入的状态，来被进一步地变换。这被记作“状态独立模型”。在图3a的实施例中中间学到的模型被直接用于聚合步骤400中，而在图3b的实施例中，被变换的模型信息MIT被用在这个步骤中。在两个实施例中，聚合步骤400都可以进一步基于置信度映射，其在一些实施例中，可以连同2D+z数据被提供，因为置信度可以是当从立体相机图像确定2D+z数据时的立体匹配过程的结果。

置信度映射也能够为被变换的3D数据IV2T来被构建。例如，当显著的变换被应用到脸部的某部分时，有可能使得3D被离线扫描的数据的初始高置信度下降。

对于关于学习到的模型MIF的置信度度量，人们可以从过去推断置信度：如果例如对于某像素，模型的以前的状态与新的测量结果不一致，人们可以假定在那一部分中有运动，并且置信度也要被降级。

通过组合被调适的图像IV1T，IV2T与它们的被恰当地确定的置信度，与MIF或MIT，3D构建算法，如，“移动立方体（marching cubes）”算法，能够被用来建立准确地跟随2D+z运动和表情的一致的3D模型。

前面提到的用于提供人的头部的准确的和“真实的”3D表示的实例，因此可以被应用到在如视频会议，其中参与成员的完全的3D表示被期望显示并被传送给所有其他的参与者的情况，即使仅有有限的用于在线跟踪此人的资源可用时。在这样的情况下，如两个网络相机或一个网络相机和比如笔记本的移动设备的一个内置相机的组合，能够被用来生成所有参与者的廉价的2D+z图像，然而在另一方面，每个人的逼真的和准确的以3D表示的离线表示可以事先被存储，这样，在视频会议期间，通过利用本方法的实施例，每个人可以实时地以3D来被表现。

图4a描述了一种用于生成3D视屏的实施例，其可以稍后如通过如用被记作“P”的步骤600在图4b中所示的普通的投影技术来被用于从不同的视角来表现输入实时2D视频，并同时已经纠正可能包含一些人工痕迹的原始的真实的2D视频。该纠正能够是从不同的投影角度投影的结果，这样在这种情况下，为后续的投影，考虑进该不同的投影角度和平面，仅一个正确的3D模型会被生成。在这种情况下关于图3a所说明的技术能够被使用，接着是投影步骤。用于实现逼真的3D模型的信息通过相同的物体的，但不显示该人工痕迹的3D图像来被提供。这能够在例如在线视频通信领域是有用的，其中用户正被网络相机拍摄，并且因此被期望直视相机，但反而正在他的/她的键盘上打字。虽然如此，由于这个人的眼睛直视相机的视图可能被期望被发送给该通信的其他各方，一些图像处理操作可能被需要用于生成此人的模型，逼真地跟踪他的/她的运动，但眼睛被纠正为如具有所期望的显示视图。人向“下”看的现象被称为注视（eye-gaze）；并且注视纠正因此被期望。

以前的用来执行这样的注视纠正的方法包括围绕屏幕设置多个相机并且包括用于对必需的相机位置做视图插值（viewinterpolation）。在另一方面，图4a-b的实施例非常简单，并仅需要正确视图的，从而参与者直视相机的，可能是离线拍摄的3D图像。

如关于图3a的前面的实例所说明的，状态，再一次，被定义为方位和变形参数的组合，更特别地，由于其再一次涉及到人的头部，面部旋转，缩放，3D位置以及面部表情。实时2D视频的状态将被作为目标状态使用，并且被离线扫描的3D测量值考虑进该目标状态来被变换。在聚合步骤中，离线3D图像的3D几何结构连同通过被实时采集的2D信息来被提供的纹理信息一起被使用。

在图4a-b记作M3D的3D模型被生成，并在迭代循环中被反馈。在图4a的实施例中，该3D模型被提供给输出，而在图4b中，额外的投影步骤发生，这样该生成的模型的2D投影被提供给输出。在两个实施例中模型变换都被执行，但存在其他的没有该步骤300的实施例，如关于图3a所说明的。

在所有这些实施例中，目标状态可以用如图3a的实施例中的模拟的方式来被确定，这样3D模型跟踪2D视频图像的运动和脸部表情。通过简单地投影被获取的人的头部的该从而被实现的3D模型到不同的投影平面，然后注视纠正能够已经被获得。就这个方面来说，类似于图3a的那个的实施例，外加额外的投影步骤600，虽然仅接收2D视频而不是2D+z视频，可以已是足够的。

以可选的方式，3D模型将不只是跟随输入2D视频的表情和运动，并且将也考虑进被3D图像所提供的改进的看的方位。用这种方式TSP需要从PS2来得到输入，这样与图3a-b的实施例相比，用于计算TSP的不同的方式将被使用。在IV1的图像变换步骤301过程中，TSP将被考虑，这样IV1被变换为已经试图具有所期望的特征，在这个情况中是有该人的不同的，被纠正过的样子，然而IV2也基于TSP被变换，比如跟随IV1的变化的表情，但仍然保持被纠正的特征。一种用于实现这一点的可能的方式是通过使用“绑定的（rigged）”3D模型，如前面所说明的，从而当试图调适到被作为TSP输入来提供的某些脸部特征时，指示在输入图像中的被检测到的物体的哪些像素/体素要被改变。

学习模型本身也可以在模型变换步骤，300，中，基于该“绑定的模型”来被变换，这样来自IV1数据的改变的信息被用于调适中间学习模型。

在所有的实施例中，各自被变换的图像或是与最近生成的模型，或是与最近被变换的模型聚合。在一个实施例中，IV1T的纹理信息被与IV2T的纹理信息，以及MIF或MIT合并。这能够通过被称为“alpha混合”的技术来被实现，其中，与IV2T和MIT的体素权值相比，IV1T的像素将被赋予更高的权值。关于几何结构，众所周知的泊松表面构建(Poisson surface construction)技术可以被用来生成网格。

图4b的实施例还示出外部的模型信息ME的，到模型物体学习步骤500的，可选的输入。该外部的信息可以如从如图3a的那个实施例来被提供，并能够在本方法的第一初始的步骤过程中作为起始值来被使用，这样在这种情况下，MIF的初始值能够已经被提供给状态提取步骤，并被用于模型变换。在再一个实施例中，其中该模型变换操作300不存在，该初始信息ME，能够用作MIF，在聚合步骤400过程中被直接提供并被使用。

虽然本发明的原理与具体的装置一起在上文中已被描述，应清楚地理解本说明书仅为用实例的方式来制作，而不是作为如在附录的权利要求书中所定义的本发明的范围的限制。关于此点，在权利要求书中被表达为用于执行特定的功能的装置的任何元件意在包含执行该功能的任何方式。这可以包括，例如，电子或机械元件，其用于执行该功能，或软件，其以任何形式，包括，因此，固件，微代码或其类似物，与用于执行该软件来执行该功能的适当的电路，以及连接到被软件所控制的电路的机械元件，如有，相结合，的组合。本发明，如被这样的权利要求书所定义的，存在于被各种列举的装置所提供的功能是以权利要求书要求的方式被组合与集合起来的事实上，并且除非另被特别地定义，任何物理结构对于本发明的新颖性具有微小的或没有价值。申请人因此认为能够提供那些功能的任何装置是与此处所示的那些等同的。

Claims

1.用于从至少一个图像数据输入（IV1；IV1-IVn）来构建图像模型（M1；M）的方法，所述方法包括步骤，以迭代的方式，

-确定所述至少一个图像数据输入（IV1；IV1-IVn）的至少一个状态（PS1；PS1-PSn），以及中间学习模型（MF；MIF）的状态（PSMF）

-从所述至少一个图像数据输入的所述至少一个状态（PS1；PS1-PSn），以及从所述中间学习模型（MF；MIF）的所述状态（PSMF）来确定目标状态（TSP），

-根据所述被确定的目标状态（TSP），对所述至少一个图像数据输入（IV1；IV1-IVn）执行至少一个变换，从而生成至少一幅被变换的图像（IV1T；IV1T-IVnT），

-聚合所述至少一幅被变换的图像（IV1T；IV1T-IVnT）与中间学习模型（MF；MIF；MIT；MFT）信息，从而生成所述图像模型（M1；M）的更新的估计，

-提供所述图像模型（M1；M）的所述更新的估计作为所述图像模型（M1；M），同时还

-在反馈循环中，提供所述图像模型（M1；M）的所述更新的估计给模型物体学习模块（500）用于派生所述中间学习模型（MF，MIF）的更新。

2.根据权利要求1所述的方法，还包括步骤，根据被确定的目标状态（TSP）来对所述中间学习模型（MF，MIF）执行变换从而生成中间被变换的模型（MFT；MIT），这样在所述聚合步骤期间，所述中间被变换的模型（MFT；MIT）被与所述至少一幅被变换的图像（IV1T；IV1T-IVnT）聚合来生成所述图像模型（M1；M）的所述更新的估计。

3.根据权利要求1或2所述的方法，其中所述至少一个图像数据输入包括第一图像数据输入（IV1），该第一图像数据输入（IV1）包括以2D或2D+z格式的物体的视频序列，以及第二图像数据输入（IV2），该第二图像数据输入（IV2）包括所述物体的完全的3D图像，其中所述状态包括以3D表示所述物体的方位和变形参数，这样所述3D图像模型的后续的更新的估计被作为所述图像模型（M3D）来被提供。

4.根据权利要求3所述的方法，其中所述物体的所述完全的3D图像显示具有关于所述物体的所述视频序列图像的至少一个不同的特征的所述物体，并且其中所述物体的所述3D图像模型（M3D）显示所述至少一个不同的特征。

5.根据权利要求3或4所述的方法，还包括步骤，投影所述3D图像模型的所述更新的估计（M3D）到2D平面，并且提供所述更新的估计的2D投影（M2D）作为所述图像模型。

6.根据前述权利要求1-5中任一项所述的方法，其中，所述目标状态基于与所述图像模型为其要被生成的物体相关的额外的信息（PSE）来被进一步确定。

7.根据前述权利要求1-6中任一项所述的方法，其中，所述中间学习模型从外部被提供的模型信息（ME）来被进一步派生。

8.用于从至少一个图像数据输入（IV1；IV1-IVn）构建图像模型（M1；M）的装置（A1），所述装置适用于

-确定被提供给所述装置的至少一个输入的所述至少一个图像数据输入（IV1；IV1-IVn）的状态（PS1;PS1-PSn），和以及中间学习模型（MF；MIF），的各自的值

-从所述至少一个图像数据输入的所述状态（PS1；PS1-PSn）的所述各自的值中的至少一个值，以及从所述中间学习模型（MF；MIF）的所述状态的至少一个值来确定目标状态（TSP）的至少一个值，

-执行所述至少一个图像数据输入（IV1；IV1-IVn）的至少一个变换，从而生成至少一幅被变换的图像（IV1T；IV1T-IVnT），

-在反馈循环中，提供所述图像模型（M1;M）的所述更新的估计来由此派生所述中间学习模型（MF，MIF）的更新，

-提供所述图像模型（M1；M）的所述更新的估计作为所述图像模型（M1;M）给所述装置的输出。

9.根据权利要求8所述的装置（An）,还适用于，根据所述被确定的目标状态（TSP）来对所述中间学习模型（MF，MIF）执行变换从而生成中间被变换的模型（MFT；MIT），这样所述中间被变换的模型（MFT；MIT）被与所述至少一个被变换的图像（IV1T；IV1T-IVnT）聚合来生成所述图像模型（M1；M）的所述更新的估计。

10.根据权利要求8或9所述的装置，其中所述至少一个图像数据输入包括第一图像数据输入（IV1），该第一图像数据输入包括物体的以2D或2D+z格式的视频序列，以及第二图像数据输入（IV2），该第二图像数据输入（IV2）包括所述物体的完全的3D图像，其中所述状态包括3D的表示所述物体的方位和变形参数，所述装置适用于生成所述3D图像模型的后续的更新的估计来作为所述图像模型（M3D）。

11.根据权利要求10所述的装置，还适用于，投影所述3D图像模型的所述更新的估计（M3D）到2D平面，并且提供所述更新的估计的2D投影（M2D）作为所述图像模型给所述输出。

12.根据前述权利要求8-11中任一项所述的装置，还适用于，基于与所述图像模型为其要被生成并被提供给所述装置的另一个输入的物体相关的额外的信息（PSE）来确定所述目标状态（TSP）。

13.根据前述权利要求8-12中任一项所述的装置，还适用于，从被提供给所述装置的另一个输入的，被外部地提供的模型信息（ME）来派生所述中间学习模型（MF；MIF）。

14.图像处理装置，包括如前述权利要求8至13中任一项所述的装置。

15.一种计算机程序产品包括，当在数据处理装置上被执行时，适用于执行根据权利要求1至7中任一项所述的方法步骤的软件。