CN102652319A

CN102652319A - 用于改进图像匹配的方法和设备

Info

Publication number: CN102652319A
Application number: CN2010800560751A
Authority: CN
Inventors: D·蒂盖特; J-F·麦克; S·利文斯; M·埃尔茨
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2009-12-11
Filing date: 2010-12-07
Publication date: 2012-08-29
Anticipated expiration: 2030-12-07
Also published as: CN102652319B; JP5559349B2; JP2013513842A; WO2011070023A1; US20120299911A1; EP2333692A1; KR101428627B1; KR20130004249A; US9589369B2

Abstract

一种用于确定多个图像（图像1、图像2）之间的至少一组匹配属性（像素、物体）的方法，包括：将所述多个图像中的图像的至少部分投影到3维空间，产生多个3D投影图像（图像1_3D、图像2_3D）的步骤；在所述多个3D投影图像中的3D投影图像内搜索至少一个组对应单元的步骤；反向计算回所述多个图像中的原始图像内的所述对应单元，并且提供所述原始图像内的所述对应单元作为所述至少一组匹配属性的步骤。

Description

用于改进图像匹配的方法和设备

技术领域

本发明涉及一种确定多个图像之间的至少一组匹配属性的方法。

背景技术

用于确定所述一组例如匹配像素或匹配物体的匹配属性的当前技术利用此后缩写为2D的2维图像处理技术来找到两个或更多图像之间的所述匹配属性。这涉及在2D域中实施搜索以找到这些图像中的对应像素或像素组。已知技术多数是基于块匹配技术，所述块匹配技术涉及：在图像中的一个的像素周围放置虚构块，以及在剩余图像中搜索与第一个最对应的块，所述搜索使用基于图像中像素周围的这些块计算对应性或匹配分数的度量。这些解决方案是计算密集的，并且，当图像例如由两个具有大基线的相机生成的时不健壮，其中，具有大基线意味着这些相机之间距离远。所述图像或视图将示出显著差别。已知方法中的多数此外还要求在其间搜索对应性或匹配的图像中的物体的特定重叠。另外，当在物体级别而非在像素其自身级别搜索对应性时，假设视角差别大到使这些物体的像素内容完全不同，尽管事实是物体自身在两个图像中相同，但当前技术的方法失灵。这可以例如是以下情况：当一个图像显示例如示出人脸细节（因为该图像是从此人正面的相机摄取的）的人头，而另一图像显示同一人头，但细节是例如头发的头后部（因为该图像是从同一人后面的相机摄取的）时。

发明内容

本发明的目的由此是阐述一种改进的用于确定多个图像之间的匹配属性的方法，所述方法可以解决上面提到的当前技术的问题。

根据本发明，该目的由这样的方法来解决，该方法包括：将所述多个图像中的图像的至少部分投影到3维空间产生多个3维投影图像的步骤，在所述多个3维投影图像中的3维投影图像内搜索至少一组对应3维单元的步骤，将所述至少一组中的所述对应3维单元反向计算回所述多个图像中的图像内的对应2维属性、以及提供所述图像内的所述对应2维属性作为所述至少一组匹配属性的步骤。

将所述二维图像投影到此后缩写为3D的三维空间，这在例如深度信息对于这些图像可用的情况下可能，其将使能够在该3D空间中搜索对应或匹配单元。如从进一步描述的不同实施例中将变得显而易见的，此在3D空间中搜索对应单元相比于在2D空间中搜索容易得多并且计算较不密集。通过将来自3D的所述3D对应单元反向计算回2D空间，匹配属性将以简单而还非常精确的方式被提供。此外，此在3D空间中搜索对应单元将使能在例如之前提到示例的2D中找到匹配属性，之前提到的示例为从摄取自同一人的正面和后面的图像识别和辨识出的人头。直到现在为止，这通过使用当前技术的2D技术是不可能的。

属性可以包括像素，由此使能确定不同图像之间的匹配像素。属性可以还包括包含一组像素的物体，其使能确定所述不同图像之间的匹配物体。

一个变型实施例进一步包括：选择所述多个图像中的一个图像作为参考图像的步骤，在所述参考图像上识别属性的步骤，将所述属性的3维投影识别为所述至少一组对应3维单元中的3维单元的步骤，由此，至少一个对应3维单元被在所述多个图像中的其余图像的3维投影图像中进行搜索。

特别在所述多个图像包括多于两个图像的情况下，这提供一种简单方法。通过选择一个图像作为参考图像，如将借助于几个示例示出的那样，用于找到该参考图像与其余图像之间的匹配属性的计算可以非常简单。

在另一实施例中，所述属性包括像素，以及，搜索所述至少一个对应3维单元是通过：在所述像素的3维投影周围形成体积物（volume body），从而落入所述体积物轮廓内的所述多个图像中其余图像的3维投影图像的投影像素被认为是所述像素的所述3维投影的对应3维单元。

这提供一种用于识别匹配像素的简单方法，所述匹配像素包括被考虑像素和对落入所述体积物轮廓内的3维像素的反向投影。

被用于在3D空间中确定对应像素的任意体积物可以是以所述像素的所述3维投影为中心的椭圆体。

这提供一种用于形成以3D投影像素为中心的3D体积物的非常简单的实施例。

在另一变型方法中，所述至少一组对应3维像素单元中的单元包括至少一个投影3维物体，所述投影3维物体获取自从所述多个图像中选出的各个参考图像的一个或更多3维投影，以及，对应3维单元被确定为来自所述多个图像中的另一投影图像的一组3维像素投影，其中，所述3维像素投影落在靠近所述至少一个投影3维物体的体积物的轮廓内，从而所述至少一组匹配属性通过将所述至少一个投影3维物体和所述组反向计算回2维域中的原始图像而获得。

这允许识别匹配物体。

一种变型方法进一步包括步骤：在所述各个参考图像上进行2维图像辨识，使得所述各个参考图像上的至少一个辨识出的物体关联于所述至少一个投影3维物体。

这允许基于先前在所述多个图像中的另一图像上实施的物体辨识来在一个图像中识别匹配物体。这样，获得一种用于在图像上进行图案或图像辨识的简单方法，其是通过识别该图像与参考图像之间的匹配物体，其中，已在2D域中在所述参考图像上实施了辨识技术，并且因此已在所述参考图像上识别出了所辨识的物体或图案。通过经由之前提到的技术确定图像与参考图像中已识别出的物体之间的匹配属性，通过对该图像应用分割获得一种实施图案或物体辨识的非常简单的方法。

另一变型方法进一步包括步骤：在所述各个参考图像的所述一个或更多3D投影上进行3维图像辨识，使得从所述3维图像辨识产生的至少一个辨识出的物体关联于所述至少一个投影3维物体。

这为这样的图像提供了一种替代方法，其中，对于所述图像来说，2维物体辨识非常困难。基于3维物体辨识技术，可以在2维空间中反向识别出物体。

在另一变型中，从与所述至少一个投影3维物体相关联的一组体积模型中选出所述体积物。

假设将识别具有例如人头的典型形态形状的匹配物体，则这证明是非常有趣的。通过从一组体积模型中选出具有例如人头形状的体积模型，可以然后认为落在该头轮廓内的其它图像的3D投影像素是属于3D中的3D投影头的对应像素，以及其向2D的反向投影将然后产生在2D中对该人头的识别或辨识。

在又另一实施例中，可以通过使所述体积物适应所述至少一个投影3维物体来调整所述体积物。

这允许进一步改进匹配过程的精度，其通过例如使用2D中被辨识头的实际3D投影像素数据改变人头的所选形状。由此进一步改进辨识的鲁棒性。

所述方法的实施例可以还被用在对来自多个图像的图像进行图像辨识的方法中，从而所述至少一组匹配属性中的并且属于所述图像的匹配属性将与所述各个参考图像上的所述至少一个辨识出的物体相关联。

所述用于确定匹配像素的方法的实施例可以还被用在用于以下的方法中：确定在不同时刻摄取的视频序列中的两个图像之间的运动矢量。

在第一变型中，所述方法包括步骤：根据权利要求1-4中任一个，对于第一视频序列中摄取自所述不同时刻的两个图像之间的确定的2维运动矢量的起始像素，确定最早时刻处所述两个图像中的第一个内的匹配像素，所述方法进一步包括步骤：将所述第一视频序列的所述2维运动矢量投影到3维空间，以便获取3维运动矢量，其中，所述3维运动矢量被应用于所述匹配像素的3维投影，以便由此获得对应的终点，所述终点被进一步反向投影回所述两个图像的第二个图像中的终止像素，从而所述匹配像素和所述终止像素定义视频序列中的两个图像之间的运动矢量。

可替换地，用于确定摄取自不同时刻的视频序列中两个图像之间的运动矢量的方法可以包括步骤：根据权利要求1-4中任一个，对于第一视频序列中摄取自所述不同时刻的两个图像之间的确定的2维运动矢量的起始和终止像素，在所述两个图像内确定各自的匹配像素，所述两个图像中的所述各自匹配像素对由此定义所述视频序列的所述运动矢量的起始和终止像素。

用于确定运动矢量的可替换方法，以及用于确定几个图像之间的匹配像素的方法包括的实施例，这两者都可以为基于经典2维块匹配技术的计算运动矢量的经典方法呈现有价值的可替换方法。

特别对于视频编码应用，这还允许显著减少运动矢量计算的处理工夫。

本发明也涉及用于实施本方法实施例的设备、适于实施本方法实施例中任一个的计算机程序以及包括所述计算机程序的计算机可读存储介质。

本发明也涉及用于包含所述设备的视频编码器和图像分析器。

应当指出，用在权利要求中的术语“耦合的”不应当被解释为限于仅直接连接。由此，“设备A耦合到设备B”这一表述的范围不应当被限于其中设备A的输出直接连接到设备B的输入的设备或系统。其是指，A的输出与B的输入之间存在通路，该通路可以是包括其它设备或装置的通路。

应当指出，用在权利要求中的术语“包括”不应当被解释为限于其后列出的装置。由此，“设备包括装置A和B”这一表述的范围不应当被限于仅由部件A和B组成的设备。其是指，关于本发明，所述设备的仅有的相关部件是A和B。

附图说明

通过参考以下结合附图对实施例的描述，本发明的以上和其它目的及特征将变得更显而易见，并且本发明其自身将被最好地理解，其中：

图1示出了本方法的高层示意；

图2示出了用于确定一组匹配像素的、图1中方法的实施例；

图3a示出了用于确定一组匹配物体的、图1中方法的实施例；

图3b示出了特别适于识别人物的、图3a中方法的优选实施例；

图3c示出了用于确定一组匹配物体的、本方法的另一变型实施例；

图4a示出了用于图像2的分割的、图3a中方法的应用；

图4b示出了图3b中所示方法的应用，其用于关于人物辨识的对图像2的分割；

图5示意地示出了图4b的方法可以怎样被应用于这样的图像，所述图像示出从不同侧观察的人脸；

图6a示出了用于确定运动矢量的、图2中方法的另一应用；

图6b示出了用于确定运动矢量的、图6a中所示实施例的可替换项；

图7a示意地阐述了如图6a中所示出的、用于确定运动矢量的方法；以及

图7b示意地阐述了如图6b中所示的、用于确定运动矢量的方法。

具体实施方式

本说明书和附图仅示例了本发明的原理。由此应当认识到，本领域的技术人员将能够设想各种安排，所述各种安排尽管在此处未明确描述或示出，但体现了本发明的原理，并且被包括在其精神和范围内。此外，此处详述的所有示例主要特别旨在仅用于教育目的，其用于帮助读者理解本发明的原理和发明人为推动本领域进步而贡献的概念，并且应当被解释为不限于所述特别详述的示例和条件。此外，此处详述本发明的原理、方面和实施例以及其特定示例的所有陈述旨在包含其等价体。

本领域的技术人员应当认识到，此处的任意框图代表体现本发明原理的示例电路的概念图。类似地，应当认识到，任意流程图表、流程图解、状态转换图、伪代码等表示各种过程，所述过程可以本质上被表示在计算机可读介质中，并且因此被计算机或处理器执行，不论所述计算机或处理器是否被明确示出。

图1示出了用于确定多个图像之间的一组匹配属性的方法的高层实施例。在图1中，仅示出了两个图像图形1和图像2，但用于确定多于两个图像之间的匹配属性的其它实施例也是可能的。

这些图像或其部分被进一步转换为三维（贯穿本文档缩写为3D）的图像，分别指示为图像1_3D和图像2_3D。这对于那些包括二维中的像素信息以及还有深度信息的图像表示是可能的。深度是可以从例如一对立体图像提取的参数。假设图像仅由简单相机捕获，则这涉及某些已知的处理技术。该深度信息可以还通过使用所谓的2D+Z相机来直接获取，所述2D+Z相机例如是飞行时间相机。通过将该深度信息与2D颜色像素数据一起使用，所述两个图像的3D表示可以通过将2D图像数据投影到3D空间来生成。

通常，仅对于这些构成属性的一部分或与属性相关联的像素需要3D投影或表示，其中，将在其余图像中搜索所述属性的匹配属性。例如，如果仅将搜索表示物体的一个特定像素组的匹配对应物，所述物体例如是汽车，则仅属于该汽车的像素需要被投影到3D空间。将在其中搜索匹配属性的其余图像可以也被部分地投影，例如，仅对应于或围绕该汽车在第一图像中的像素位置的部分可以需要投影。然而，也有可能在其它实施例中，将从多个中的全部2D图像重建完整3D图像。在所有情况下，图像i_3D是指完整图像或图像的仅一部分的3D投影，其中，i指示各个图像。

一旦获得了所述3D表示，则可以在该3D空间内搜索对应单元。假设将确定3D投影之间的对应像素，则一种可能将是，把在2D中用于块匹配的方法外推为对例如围绕投影像素的简单体积的体积匹配。虽然这代表在3D空间内搜索对应或匹配像素的一种可能，但一种更简单的方法涉及，仅使用例如图像1_3D的仅一个3D图像的像素周围的简单体积，以及然后仅检查图像2_3D的投影像素是否被包括在该体积内。

将参考图2进一步详细阐述该实施例。

这些将在3D空间中确定的对应单元可以是像素，但可以也包括例如包含一组像素的被识别物体或结构，例如前面所提到示例中的汽车，或者可以包括与所述一组像素相关联的某些进一步的元数据，例如被识别人的名字，或者被识别汽车的类型。在2D图像中搜索所述匹配物体可以然后再次通过以下来实施：通过将2D图像或其部分投影到3D空间，以及通过在该3D空间中搜索对应投影物体体积。这可以借助于从对投影体积的第一次猜想开始的某种迭代过程以及通过经由使用某种度量在其间搜索最佳匹配来完成。将关于图3a到3c进一步详细阐述可替换的更简单方法。

一旦已在3D中确定这样的一组对应单元，则将实施所述对应3D单元的对应像素向2D空间的重新计算。这将然后导致提供2D中两个图像之间的一组匹配属性。如之前提到的，所述一组匹配属性可以是：一组匹配像素；或者一组匹配结构，所述匹配结构是一组像素组；或者一组匹配物体，每个匹配物体在两者图像中再次由一组像素表示。

假设搜索匹配像素，图2中示出一种非常简单的方法。如在一般情况下那样，两者图像的部分可以被投影到3D空间，这导致产生由图像13D和图像2_3D指示的3D表示。假设搜索一个图像中的一个特定像素在其余图像中的匹配像素，则仅此一个特定像素可以被投影到3D空间，从而图像1_3D仅包括该单一投影像素。这在图2中所示的实施例中示出。如果已知两者图像相似，则位于该特定像素周围或邻近位置处的其余图像的仅少量像素需要被投影。假设该知识不可用，则全部其余图像的全部像素可以需要被投影到3D以便生成图像2_3D。

对于将在其余图像中确定其某些匹配像素的特定像素，将在其3D投影周围构建或创建简单任意体积。通过检查其余图像的其余像素的3D表示是否构成该体积的一部分，可以确定其余图像的这些其余像素是否匹配。

然而，取决于在参考的各个投影像素周围的该体积的尺寸和形状，这可以引起几组3D对应像素，一种进一步精细改进可以被实施以便识别最相关的对应3D像素，其例如通过考虑与参考像素的投影的距离。该精细改进未在图2中示出。

对于识别3D中的对应像素，将搜索其匹配候选项的3D投影像素周围的简单体积可以是椭圆体、或球体、或立方体、或束状、或任意其它体积物。尽管球体或立方体代表非常简单的体积，其允许有限的计算资源，但使用具有不同轴向尺寸的体积可以具有与匹配自身的精度相关的优点。例如对于2D中的立体图像对，这可以是引人关注的。对于这些图像，3D投影所需的深度参数通常经由传统方法计算出。所计算深度的精度然而与深度自身的值成反比，由此，对于跨图像可变的深度值，使用具有可变尺寸的椭圆体可以帮助进一步提高在3D空间中确定对应像素或单元的精度。

一旦已在其余图像的3D投影中（在该情况下仅在图像2_3D中）找到这样的对应像素，则这些对应3D投影像素将被进行反向计算以便指示像素在原始2D图像中的位置，对于原始图像产生一组2D中的匹配像素。假设在其余图像的一个或更多内找到几个匹配像素，这在3D投影像素周围的体积物的尺寸太大的情况下当然可能，则可以实施某些进一步的迭代或精细计算，其通过调整所选体积物的尺寸，或者可选地，可以基于某些度量选择3D投影图像内的对应3D像素中的一个，所述度量例如是，该3D像素与将找到其匹配的参考图像中的3D投影像素之间在3D空间中计算出的距离。然后将选择相对于参考图像中的3D投影像素具有最小3D距离的、3D投影图像中的3D像素作为在3D中的最佳匹配，从而将选择此作为3D中的对应单元。然后将把此反向计算回2D中的原始图像。

图3a示出了用于识别两个图像之间的匹配物体的方法的实施例。可以通过使用自动化物体辨识技术或借助于人工辨识来在2D图像上识别出物体。一般选择一个图像，通常该图像是已在较早步骤中被确定为所述多个图像中最易于在其上实施物体辨识的一个。然而，如将在稍后段落中详细阐述的那样，也可能选择将在其上实施图像辨识的更多参考图像。对用于在其上实施图像辨识的参考图像的确定或选择，可以再次已由人类用户实施，或者再次通过首先使用例如传统图像辨识技术对全部图像的扫描、随后通过对该首先结果的分析被自动化地实施。某些传统辨识技术允许粗略辨识，其通过仅包括有限数量的特征，或通过限制对数据的分析。通过对多个图像实施所述快速初步粗略辨识，其中所述辨识产生指示物体辨识的质量的度量，则可以做出对将在其上进行完全辨识步骤的图像的选择。

该预选未在图3a中示出，其中该图进一步指示，选择图像1接受2D中的物体辨识过程。在该物体辨识技术之后，选择辨识出的物体中的一个用于进一步搜索在其余图像中的匹配物体。因此将图像1上属于该物体的像素投影到3D空间，产生图像1_3D。可替换地，可以将图像1的全部像素投影到3D空间，并且将在该图像1_3D中特别标识出属于物体的像素。同样并行地，通过将图像2的像素的全部或部分投影到3D空间而生成图像2_3D。

为找到辨识出的物体的匹配物体，首先的可能包括，对于该物体的全部像素搜索匹配像素。为此，几个选项可用，所述选项将在稍后段落中讨论。一旦已找到这些匹配像素，则认为包括这些匹配像素的像素组是其它图像中的匹配物体。在某些实施例中，取决于将进一步使用匹配物体组的应用，可以需要对所获得的匹配物体组进行某些进一步的后期处理。对于例如进一步消除噪声，该后期处理可以是令人关注的。

为检查图像2的哪一组像素构成与图像1中已选择或识别的物体匹配的物体，可以应用逐像素方法，其通过再次在图像1_3D的3D投影物体的全部投影像素周围形成任意体积物，目的是对于构成物体的全部像素识别匹配像素。这可以再次通过使用前面提到的椭圆体或球体或立方体来完成。然后对于图像2_3D的每个像素检查其是否被包括在这些体积的轮廓内，并且然后将确实如此的这些像素认为是属于3D中的对应物体的对应像素。

可替换地，可以创建围绕图像1_3D的3D物体的全部投影像素的大体积VO，或者是包围每个像素周围例如椭圆体的各个小体积的体积，或者是这两者的混合。一旦已选择或生成所述体积VO，则确定图像2_3D的投影像素是否位于或被包括在该任意体积VO的轮廓内。然后将被包括在该体积VO轮廓内的图像2_3D的全部投影像素识别为属于3D中的对应物体，并且将对其在图像2中的位置进行反向计算，基于此，由于对该3D像素组向2D域的反向计算，获得图像2中的匹配物体。

在某些实施例中，体积物可以只是由物体自身的3D投影形成的物体。

在其它实施例中，由体积物来近似模拟3D物体。这例如在物体的形状从辨识过程可知的情况下合适，在该情况下，可以使用近似模拟3D投影物体的泛化体积。例如，如果已知被辨识的物体涉及膝上电脑，则可以选择某个柱状体积来在3D空间中代表该膝上电脑。类似地，如果已知物体涉及球，则球体可以被用于代表该球。因此也可以从已知体积的库中选择该体积物体，所述已知体积类似3D中被辨识物体的形状。可以选择这些基础体积或形状，或者可选地进一步使其适应物体，例如通过调整所选形状的半径和中心点以便近似模拟投影球。尽管一些实施例经由调整体积的某些尺寸来实施相当粗略的近似和适应，但可以甚至进一步使这些体积的形态或形状适合以便尽可能接近地近似3D投影物体。这可以例如是辨识人头的情况。在此情况下，具有人头形状的某个形态体积可以被选择，并且被进一步精细调整，或者，在其它实施例中，可以在3D空间中被创建以便由此适应由该头的3D投影像素创建的包围体积。这在图3b中示出。通过检查来自图像2_3D的像素是否形成该形态体积的一部分，由此通过检查其是否被包括在该体积的轮廓内，以及通过将其反向计算回2D空间，可以甚至在仅示出该头的后部的图像上完成一种用于实施人脸辨识的非常简单的方法。这将在讨论图5时被进一步示出。

可以对所有类型的物体、因此不是仅对于人头实施形态适应体积的创建。

在其它实施例中，选择几个参考图像而不是仅仅一个。然后以提高辨识的精度为目的对全部这些参考图像实施图像辨识。这例如再次是摄取自左、右和后侧的人头的3个视图或图像的情况。暗含对人的识别的图像辨识不可以在摄取自后侧的视图上实施，因此可以使用仅左和右侧。再次由于这些视图凭其自身不足以进行好的辨识，所以然后将左和右视图这两者选择为参考视图，其中，在所述参考视图上实施图像辨识。然后将把这两者投影到3D空间，以及然后将把被辨识物体的投影合并为一个3D被辨识物体或单元，其中，将对于该3D被辨识物体或单元确定在其它3D投影图像中的对应单元。为搜索该对应3D物体，再次可以检查其它3D投影图像的3D投影的像素是否落在或被包括在近似模拟3D被辨识物体的体积物的轮廓内。一旦找到这些像素，这将把其反向计算回对应2D图像，引出在摄取自后侧的图像上对该人头的辨识。

在又一些其它实施例中，不在2维空间而直接在3D空间中实施物体辨识。再次可以然后将一个或更多所选参考图像投影到3D空间，其中，基于该步骤在3D中实施图像辨识。用于完成此的技术是本领域的技术人员已知的，并且可以包括：找到3D特征点或形状，以及断言其是否组成正被辨识的物体的可行模型。

还是在此情况下，由于与2D情况下相同的原因，可以使用多于一个参考投影。一旦已识别出3D投影参考图像中的参考物体，则搜索其它图像的3D投影中的对应物体，其通过将该单一或一组3D中的已识别物体近似为体积物，其中所述体积物可以由此也仅是该物体自身的3D投影，基于该步骤，确定落入该体积物轮廓内的其它图像的投影的像素。对于在3D中符合该准则的像素组，将实施向包括参考图像的2D原始图像的反向计算，以便识别原始2D图像中的匹配物体。图3c示出了该变型的一个实施例，其中，对于图像1的3D投影在3D空间中实施图像辨识。

图4a示出了用于生成分割图像的方法的实施例的第一应用。其基本上示出了与图3a中所述这些相同的步骤，但在此情况下，整个图像1被分割为几个物体。对于图像1中的被辨识物体的每个，如果有的话在图像1中确定匹配物体，然后将该匹配物体也与被识别物体相关联。这样，仅基于已分割的图像1和使用前面提到的方法实施例的物体匹配，将获得图像2的完整分割。图4b示出了对于以下情况的该应用：其中，已分割的图像1包含例如脸的被识别人物。然后在图像2中识别匹配人物，再次导致图像2的分割。由于通常图片将包含人和非人物体的混合，所以这两种方法的组合当然也可能。

通过使用该方法，可以由此从一个单一已分割图像获得全部多个图像的分割，通常，该单一已分割图像是被选择为用于实施图案辨识的最佳图像的那个。通过对于该已选图像中已辨识出的物体搜索3D空间内的对应单元，经由前面提到的3D技术确定在原始2D空间中其它图像中的对应物体，以及，将同样的已辨识出物体与其它图像中的匹配物体相关联，获得了一种非常简单但非常强大的匹配和分割技术。

图5进一步示出了此，其借助于一个来自同一人但摄取自180度差别角度的两个图像的非常简单的示例。这两者原始2D图片被示为分别的步骤（a）和（b）。脸识别在图像1上是可能，其导致步骤（c）中的已分割的图像1。由于图像2上缺少足够区分特征，经由当前技术的方法，不能在该第二图像2上辨识出该同一人。然而，通过使用例如图3b中所示那个的本方法的实施例，可以在已辨识出的“John Doe”的3D投影中生成近似被辨识人头部的形态体积，以及，然后将落入该3D体积内的图像23D的像素也识别为在3D中属于匹配的“John Doe”物体。通过将图像2_3D中的对应“John Doe”的对应3D像素反向计算回图像2，可以获得图像2中对“John Doe”的辨识以及伴随的分割。这在步骤（d）中表示。

如已阐述的用于确定几个图像之间的匹配像素的方法可以进一步在这样的应用中使用，所述应用用于确定从一个视频序列到一个或几个其它视频序列的运动矢量。

运动矢量多数用于视频编码应用，在该上下文中，其代表用于帧间预测的二维矢量，该二维矢量提供从原始或解码图片中的坐标到参考图片中的坐标的偏移量。确定所述二维运动矢量可以通过使用基于块的关联方法来完成，所述基于块的关联方法在特定时刻遍历该图像的部分，以便对于参考图像的像素或像素块找到匹配的像素或像素块。运动矢量因此被计算为：该图像中的当前像素块的位置与参考图像中同样尺码和尺寸和朝向的最佳匹配块的位置之间的像素距离。

然而运动矢量可以被用于超出仅视频编码应用的目的。这些应用中的一个包括跟踪，其中，运动矢量可被用于贯穿视频序列跟踪感兴趣的物体。在识别出该感兴趣的物体之后，可以在视频序列中使用运动矢量来贯穿时间跟踪该感兴趣的物体。

在本专利申请中，将以其最宽泛的方式使用术语“运动矢量”，该定义因此意味着这样的二维矢量，所述二维矢量确定：视频序列中摄取自特定时刻的帧或图像的特定像素或块的像素位置与摄取自另一特定时刻的该视频序列中的另一帧或图像的最佳匹配像素或块之间位移。

对两个图像之间的所述运动矢量的传统确定意味着对最佳匹配像素或像素块对的识别，所述对中的像素或像素块来自每个图像。

在图6a中阐述用于以新的可替换方式确定所述运动矢量的第一实施例。该图示出了两个视频序列——视频1和视频2，示出了仅其位于两个特定时刻t和t-1的两个特定帧。当然，这两者视频序列通常包括多于两帧，而作为替代包括摄取自一系列时刻的一系列图像或帧。为不使附图负载过多，示出了其中的仅两个：图像11（t-1）和图像12（t）是分别在时刻t-1和t处的来自视频1的帧，以及，图像21（t-1）和图像22（t）是同样分别在时刻t-1和t处的来自视频2的帧。

选择视频序列中的一个用于实施在图像上对运动矢量的传统2D确定。在图6a中，选择视频1用于传统2D运动矢量计算，所述计算由此是基于图像11（t-1）和图像12（t）。如在之前段落中阐述的，这意味着对图像11与图像12之间的匹配像素对的计算。对于这两者图像的运动矢量像素对的两个像素，然后如步骤（a）和步骤（b）中所示的那样计算出在3D空间中的投影像素，由此得到如步骤（e）中所示的用于该像素对的3D运动矢量。

并行地，还借助于这些图像11（t-1）和图像21（t-1）的3D投影确定都摄取自t-1的图像对图像11与图像21之间如关于前面实施例所阐述的匹配像素。图像21（t-1）的3D投影在步骤（c）中示出。在3D中对对应像素的确定在步骤（d）中实施。该确定可以使用前面提到的技术来完成，其利用放置在投影图像中的一个的像素周围的例如椭圆体或其它体积。这些计算得到t-1处两个投影图像图像11_3D与图像21_3D之间的一组对应像素。

另一方面，还对于视频1的一个或更多3D运动矢量确定起始和终止像素值。现在通过合并两个集合，由此，对于3D运动矢量中图像11_3D的起始像素在图像21_3D中的对应像素，应用已对于视频1确定的3D运动矢量转换，获得图像22（t）的3D投影的对应运动矢量的终点。这些可以被反向计算回原始图像22（t）。全部这些在步骤（f）中反映。

图7a示意地示出了此。该图在左侧示出了视频1的图像——图像11和图像12的投影，所述投影分别在步骤（a）和（b）中表示为图像11_3D(t-1)和图像12_3D(t)。3D运动矢量mv1也被示出，并且被获取为这样的3D矢量，该3D矢量联接属于先前确定的2D运动矢量的像素对的3D投影。这些2D运动矢量像素被表示为来自图像11的p11(t-1)和来自图像12的p12(t)，并且其3D投影被分别表示为p11_3D(t-1)和p12_3D(t)。mv1由此在步骤（e）中表示链接两个投影像素的3D运动矢量。该图右侧示出了图像21(t-1)的3D投影，该投影被表示为步骤（c）中的图像21_3D(t-1)。该3D投影示出了另一3D投影像素，该另一3D投影像素是p21_3D(t-1)，其被获取为像素p12_3D(t-1)在3D域中的对应像素，所述获取是通过使用如关于搜索匹配像素所阐述的方法中的某个。该确定的结果由步骤（d）示出。

图7a还示出了图像22(t)的3D投影。该3D投影仅为了示例原因而被示出，因为在该实施例中，计算3D运动矢量mv2不需要该3D投影。实际上，在该实施例中假设mv2等于mv1。这由步骤（f）表示。因此，同样的3D运动矢量mv2=mv1被应用于作为起始点的p21_3D(t-1)，其得到作为3D终点的p22_3D(t)。

一旦然后确定了图像——图像21(t-1)和图像22(t)的3D投影中的3D运动矢量的终点，这些被分别反向计算回原始图像——图像21(t-1)和图像22(t)。这导致，在不必对该视频序列进行完全运动矢量估计步骤的情况下，对于视频2计算出2D运动矢量。该方法由此提供一种找到运动矢量的廉价方法，该方法可被用于视频编码和对许多图像处理技术的优化，所述图像处理技术例如是图像辨识、图像分割、立体匹配、跟踪等。应当指出，在从运动矢量的3D终点向原始2D图像22(t)的反向计算期间，将产生深度参数。然而该深度参数不是从图像22(t)实际测量或立体获取到的深度，其是基于图像11(t-1)、图像12(t)和图像21(t-1)的深度的估计，其中，所述深度被用于计算这些图像的3D投影。无论如何，该深度参数已是合适的估计，其可被用作例如使用更多传统方法进一步精细调整该深度参数时的起点，所述传统方法是基于例如立体图像分析。

图6b和7b示出了用于确定所述2D运动矢量的另一变型方法。步骤（a）、（b）、（c）和（d）类似于图6a和7a中所示的这些，并且因此将不重复对其阐述。然而，与图6a和7a的变型相反，该实施例利用图像22(t)的深度参数，该深度参数由此允许生成被表示为图像22_3D(t)的该图像的3D投影，这在步骤（e）中完成。

这然后允许对于图像12_3D(t)中的3D运动矢量的终点p12_3D(t)确定图像22_3D(t)中的对应像素。该对应像素被表示为p22_3D(t)，并且其确定在步骤（f）中示出。这样，获得了视频2的3D运动矢量mv2的起始和终止点，并且这些可以然后被反向计算回2D中的原始图像，由此测到视频2中的对应2D运动矢量。

应当指出，通过使用第二种变型方法获得的运动矢量可以比借助于首先描述的变型方法获得的更精确。但该较高精度是以更多处理工夫为代价获得的，因为将创建图像22(t)的3D投影，其自身取决于深度值的可用性。假设不存在可用的，或者假设处理高效性代表更严格的边界条件，则可以优选首先描述的变型。

尽管上面已结合特定装置描述了本发明的原理，但应当清楚地理解，本说明书仅作为示例给出，并且不作为对在所附权利要求中定义的本发明范围的限制。

Claims

1.一种用于确定多个图像（图像1、图像2）之间的至少一组匹配属性（像素1i、像素2j；物体1i、物体2j）的方法，所述方法包括：将所述多个图像中的图像的至少部分投影到3维空间产生多个3维投影图像（图像1_3D、图像2_3D）的步骤；在所述多个3维投影图像中的3维投影图像内搜索至少一组对应3维单元的步骤；将所述至少一组中的所述对应3维单元反向计算回所述多个图像中的图像内的对应2维属性，以及提供所述图像内的所述对应2维属性（像素1i、像素2j；物体1i、物体2j）作为所述至少一组匹配属性的步骤。

2.根据权利要求1的方法，进一步包括：选择所述多个图像中的一个图像（图像1）作为参考图像的步骤；识别所述参考图像上的属性的步骤；识别所述属性的3维投影作为所述至少一组对应3维单元中的3维单元（像素3D、物体3D），由此在所述多个图像中的其余图像的3维投影图像内搜索至少一个对应3维单元的步骤。

3.根据权利要求2的方法，其中，所述属性包括像素，以及其中，通过在所述像素的3维投影周围形成体积物搜索所述至少一个对应3维单元，从而落在所述体积物轮廓内的所述多个图像中其余图像的3维投影图像的投影像素被识别为所述像素的所述3维投影的对应3维单元。

4.根据权利要求3的方法，其中，所述体积物是以所述像素的所述3维投影为中心的椭圆体。

5.根据权利要求1所述的方法，

其中，所述至少一组对应3维单元中的单元包括，从选自所述多个图像的各个参考图像的一个或更多3维投影获得的至少一个投影3维物体；以及

其中，对应3维单元被确定为一组来自所述多个图像中的另一投影图像的像素的3维投影，其中，所述像素的3维投影落在靠近所述至少一个投影3维物体的体积物的轮廓内，

从而，所述至少一组匹配属性通过将所述至少一个投影3维物体和所述组反向计算回2维域中的原始图像而获得。

6.根据权利要求5的方法，进一步包括步骤：在所述各个参考图像上进行2维图像辨识，从而所述各个参考图像上的至少一个辨识出的物体与所述至少一个投影3维物体相关联。

7.根据权利要求5的方法，进一步包括步骤：在所述各个参考图像的所述一个或更多3D投影上进行3维图像辨识，从而，从所述3维图像辨识产生的至少一个辨识出的物体与所述至少一个投影3维物体相关联。

8.根据权利要求5-7的方法，其中，从与所述至少一个投影3维物体相关联的一组体积模型中选出所述体积物。

9.根据权利要求5到8的方法，进一步包括步骤：通过使所述体积物适应所述至少一个投影3维物体来调整所述体积物。

10.一种用于对来自多个图像的图像进行图像辨识的方法，所述方法包括根据前面权利要求6-9中任一个的步骤，从而，所述至少一组匹配属性中的并且属于所述图像的匹配属性将与所述各个参考图像上的所述至少一个识别出的物体相关联。

11.一种用于确定摄取于不同时刻（t-1、t）的视频序列（视频2）中的两个图像（图像21(t-1)、图像22(t)）之间的运动矢量的方法，所述方法包括步骤：根据权利要求1-4中任一个，对于第一视频序列（视频1）中摄取于所述不同时刻（t-1、t）的两个图像（图像11(t-1)、图像12(t)）之间的已确定的2维运动矢量的起始像素（p11），确定在最早时刻（t-1）处的所述两个图像中的第一个（图像21(t-1)）内的匹配像素（p21），所述方法进一步包括步骤：将所述第一视频序列的所述2维运动矢量投影到3维空间，以便获取3维运动矢量（mv1），其中，所述3维运动矢量（mv1）被应用于所述匹配像素（p21）的3维投影（p21_3D(t-1)），以便由此获得对应终止点（p22_3D(t-1)），该对应终止点（p22_3D(t-1)）被进一步反向投影到所述两个图像中的第二个图像（图像22(t)）中的终止像素（p22），从而所述匹配像素（p21）和所述终止像素（p22）定义所述视频序列中的所述两个图像之间的所述运动矢量。

12.一种用于确定摄取于不同时刻（t-1、t）的视频序列（视频2）中的两个图像（图像21(t-1)、图像22(t)）之间的运动矢量的方法，所述方法包括步骤：根据权利要求1-4中任一个，对于第一视频序列（视频1）中摄取于所述不同时刻（t-1、t）的两个图像（图像11(t-1)、图像12(t)）之间的已确定的2维运动矢量的起始（p11）和终止（p12）像素，确定在所述两个图像内的各个匹配像素（p21、p22），所述两个图像（图像21(t-1)、图像22(t)）内的所述各个匹配像素（p21、p22）对由此定义所述视频序列的所述运动矢量的起始和终止像素。

13.一种适于实施在前面权利要求1到12中阐述的步骤中任一个的设备。

14.一种适于实施根据权利要求1到13中任一个的方法中的任一个的计算机程序。

15.一种包括根据权利要求14的计算机程序的计算机可读存储介质。