DE102009014955A1

DE102009014955A1 - Verfahren zur Schätzung einer Lage, Orientierung und/oder Bewegung eines Objekts

Info

Publication number: DE102009014955A1
Application number: DE102009014955A
Authority: DE
Inventors: Björn Dipl.-Ing.(FH) Barrois; Christian Dr.rer.nat. Wöhler
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2009-11-12

Abstract

Die Erfindung betrifft ein Verfahren zur Schätzung einer Lage, Orientierung und/oder Bewegung zumindest eines Objekts (O1 bis O3), wobei mittels einer Bilderfassungseinheit eine Szene (S) des zumindest einen Objekts (O1 bis O3) stereoskopisch in zumindest einem ersten Bild (B1) und einem zweiten Bild (B2) erfasst wird, welche das Objekt (O1 bis O3) und/oder eine Umgebung des Objekts (O1 bis O3) darstellen. In einem ersten Schritt wird mittels eines Stereoalgorithmus und/oder Flussalgorithmus die Szene als bewegungsattributierte 3-D-Punktewolke repräsentiert, anhand derer die Szene (S) segmentiert wird. Es wird ein dreidimensionales Objektmodell (OM) verwendet, um die Lage, Orientierung und/oder Bewegung zu ermitteln. Anschließend werden in einem zweiten Schritt mittels des Objektmodells (OM) und anhand von Bildausschnitten (A11 bis An1, A12 bis An2) um zweidimensionale Punkte (P11 bis Pn1, P12 bis Pn2) in dem ersten Bild (B1) und dem zweiten Bild (B2) zumindest die im ersten Schritt ermittelte Lage und/oder Orientierung überprüft und gegebenenfalls korrigiert. Zusätzlich kann durch einen Vergleich der korrespondierenden Bildausschnitte (A11 bis An1, A12 bis An2, A13 bis An3, A14 bis An4) der zum ersten Zeitpunkt erfassten Bilder (B1 und B2) und der einem späteren zweiten Zeitpunkt erfassten Bilder (B1' und B2') die Bewegung des Objekts (O1, O2, O3) ermittelt werden.

Description

Die Erfindung betrifft ein Verfahren zur Schätzung der Lage, Orientierung und/oder Bewegung zumindest eines Objekts, wobei mittels einer Bilderfassungseinheit eine Bildszene des zumindest einen Objekts erfasst wird, welche das Objekt und/oder eine Umgebung des Objekts darstellt.
Aus der DE 10 2008 019 604 A1 ist ein Verfahren zur Schätzung der Raumlage und/oder Orientierung mindestens eines Objektes in einer erfassten 3D-Punktewolke bekannt, wobei das Objekt anhand von mehreren dreidimensionalen Punkten eines Raumkoordinatensystems beschrieben wird. Raumkoordinaten der das Objekt repräsentierenden 3D-Punkte werden in Polarkoordinaten transformiert, wobei anhand der Polarkoordinaten ein Fehlermaß bestimmt wird und anhand des Fehlermaßes die Raumlage und/oder Orientierung des Objektes angepasst wird.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Schätzung der Lage, Orientierung und/oder Bewegung zumindest eines Objekts anzugeben, anhand dessen die Lage, Orientierung und Bewegung des Objekts sehr genau bei gleichzeitig geringem Aufwand bestimmt werden können.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren gelöst, welches die im Anspruch 1 angegebenen Merkmale aufweist.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
Bei dem Verfahren zur Schätzung einer Lage, Orientierung und/oder Bewegung zumindest eines Objekts wird mittels einer Bilderfassungseinheit eine Szene des zumindest einen Objekts stereoskopisch in zumindest einem ersten Bild und einem zweiten Bild erfasst, welche das Objekt und/oder eine Umgebung des Objekts darstellen.
Erfindungsgemäß wird in einem ersten Schritt mittels eines Stereoalgorithmus und/oder Flussalgorithmus eine mit Bewegungsinformation attributierte 3D-Punktewolkenrepräsentation der Szene (S) ermittelt. Die Szene (S) wird auf Basis dieser attributierten 3D-Punktewolkenrepräsentation segmentiert, wobei ein dreidimensionales Objektmodell (OM) verwendet wird, um die Lage, Orientierung und/oder Bewegung zu ermitteln. Anschließend wird in einem zweiten Schritt mittels des Objektmodells und anhand von Bildausschnitten um zweidimensionale Punkte in dem ersten Bild und dem zweiten Bild zumindest die im ersten Schritt ermittelte Lage und/oder Orientierung überprüft und gegebenenfalls korrigiert.
Aus der Segmentierung mittels Stereo- und/oder Flussberechnung resultiert insbesondere der Vorteil, dass ein Verarbeitungs- bzw. Rechenaufwand verringert wird und Stereo- und Flussinformationen schnell ermittelt werden können. Zusätzlich ist es durch den zweiten Schritt in besonders vorteilhafter Weise möglich, die Lage, Orientierung und gemäß einer besonders bevorzugten Weiterbildung auch die Bewegung des Objekts sehr genau zu ermitteln. Auch ist ein Vergleich der Bildausschnitte des ersten und zweiten Bilds mit weiteren Bildern, welche zu späteren Zeitpunkten erfasst wurden, aufgrund der Verwendung eines Objektmodells ausführbar, so dass alle relevanten Informationen genutzt werden und somit die Ergebnisse bei der Ermittlung der Lage, Orientierung und Bewegung des Objekts weiter präzisiert werden. Somit ist im ersten Schritt zunächst eine grobe Ermittlung der Lage, Orientierung und/oder Bewegung und im zweiten Schritt eine Präzisierung möglich.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
Dabei zeigen:
1 schematisch eine Szene mit Objekten,
2 schematisch zwei zu einem ersten Zeitpunkt stereoskopisch erfasste Bilder der Szene gemäß 1 und ein Objektmodell, und
3 schematisch die zwei zu dem ersten Zeitpunkt stereoskopisch erfassten Bilder gemäß 2, zwei zu einem zweiten Zeitpunkt stereoskopisch erfassten Bilder der Szene und das Objektmodell.
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
In 1 ist eine Szene S mit Objekten O1 bis O3 dargestellt, wobei es sich bei einem ersten Objekt O1 um ein fahrendes Fahrzeug, bei dem zweiten Objekt O2 um einen sich bewegenden Fußgänger und bei dem dritten Objekt O3 um einen Baum handelt.
Diese Objekte O1 bis O3 befinden sich vor einem nicht näher dargestellten weiteren Fahrzeug, welches eine ebenfalls nicht näher dargestellte Bilderfassungseinheit umfasst, die wiederum zumindest zwei Kameras umfasst, anhand welcher die Szene S stereoskopisch aus verschiedenen Blickwinkeln auf allgemein bekannte Art und Weise erfasst wird. Die Bilderfassungseinheit ist dabei vorzugsweise mit einem Fahrerassistenzsystem gekoppelt, wobei die mittels der Bilderfassungseinheit erfassten Daten und wiederum daraus ermittelte Daten zum Betrieb des Fahrerassistenzsystems verwendet werden.
2 zeigt zwei zu einem ersten Zeitpunkt stereoskopisch erfasste, stark vereinfacht dargestellte Bilder B1 und B2 der Szene S und ein dreidimensionales Objektmodell OM, wobei diese Bilder zur Schätzung der Lage, Orientierung und/oder Bewegung der Objekte O1 bis O3 verwendet werden.
Um den Rechenaufwand für die Schätzung zu begrenzen, wird die Szene S erfindungsgemäß zunächst in einem ersten Schritt auf Basis einer beliebigen Stereo- und/oder optischen Flussberechnung segmentiert.
Bei dem Stereoalgorithmus handelt es sich beispielsweise um ein raum-zeitliches Stereoverfahren, wie es in [Schmidt, J. Wähler, C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany] beschrieben ist, wobei aus den stereoskopisch und zeitgleich erfassten Bildern B1 und B2 zur Ermittlung von Stereoinformationen insbesondere eine dreidimensionale Punktwolke erzeugt wird.
Weiterhin werden die Objekte O1 bis O3 durch eine beliebige Clusteranalyse voneinander getrennt, wobei sowohl sich bewegende Objekte voneinander, stehende Objekte voneinander als auch sich bewegende Objekte von stehenden Objekten getrennt werden. Bei dieser Clusteranalyse werden Punkte der Punktwolke, von denen angenommen wird, dass sie zu demselben Objekt O1 bis O3 gehören, zu so genannten Clustern zusammengefasst. Eine derartige Clusteranalyse ist ebenfalls aus [Schmidt, J. Wähler, C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany] bekannt.
Im Folgenden wird die Ermittlung der Lage, Orientierung und Bewegung zur Vereinfachung auf das Beispiel des Objekts O1 beschränkt, wobei die Ermittlung der Lage, Orientierung und Bewegung der Objekte O2 und O3 in gleicher Art und Weise erfolgt.
Auf die Clusteranalyse folgend findet eine Modellanpassung statt, bei der mindestens das eine Objektmodell OM des Objekts O1 mindestens einem Cluster überlagert und eine optimale Position des Objektmodells OM bezüglich des Clusters ermittelt wird. Hierbei kann insbesondere ein Modellanpassungsverfahren eingesetzt werden, wie es in [Zhang, Z., 1992. Iterative Point Matching for Registration of Free-Form Curves, INRIA Technical Report 1658] beschrieben ist. Das Ergebnis dieses Modellanpassungsverfahrens ist eine grobe Schätzung der Lage und Orientierung des Objekts O1, welche auch als Pose des Objekts O1 bezeichnet wird. Diese Pose wird auf das Objektmodell OM übertragen, so dass das Objektmodell OM die Lage und Orientierung des Objekts O1 widerspiegelt.
Infolge der Modellanpassung können einem Cluster fälschlicherweise zugeordnete Punkte identifiziert und eliminiert werden. Ebenso können fälschlicherweise außerhalb des betrachteten Clusters isoliert oder in einem anderen Cluster liegende Punkte, so genannte Ausreißer, als dem betrachteten Cluster zugehörig identifiziert und die Zuordnung entsprechend korrigiert werden.
Nach dieser Anpassung des Objektmodells OM an die dreidimensionale Punktwolke werden mittels des Flussalgorithmus zusätzlich optische Flussinformationen von zeitlich aufeinander folgenden Bildern B1, B2 und B1', B2', wie sie in 3 näher dargestellt sind, ermittelt, wobei die Flussinformationen zweidimensionale Bewegungsvektoren sind, die parallel zu einer Bildebene verlaufen. Anhand dieser optischen Flussinformationen wird eine initiale Bewegung des Objekts O1 ermittelt.
Somit umfasst das Ergebnis des ersten Schritts eine grobe Ermittlung der Pose des Objektmodells OM, d. h. der Lage und Orientierung des Objekts O1, sowie eine grobe Schätzung der Bewegung des Objekts O1.
Um die Genauigkeit der Ergebnisse zu erhöhen, d. h. die Ergebnisse zu optimieren, werden in einem zweiten Schritt auf einer Oberfläche des dreidimensionalen Objektmodells OM virtuelle dreidimensionale Punkte P1 bis Pn verteilt und auf eines der Bilder B1 oder B2, hier als zweidimensionale Punkte P1₁ bis Pn₁ auf das Bild B1 projiziert. In einer Umgebung um die Punkte P1₁ bis Pn₁ werden jeweils kleine Bildteile ausgeschnitten und anschließend affin transformiert, um eine frontoparallele Ansicht auf zu dem Objektmodell OM korrespondierenden Teil einer Oberfläche des Objekts O1 zu erhalten. Die dabei entstehenden Bildausschnitte A1₁ bis An₁ des ersten Bilds B1 bleiben dabei über den gesamten Optimierungsprozess gleich, so dass die Stabilität der Optimierung erhöht wird.
Anschließend werden Sehstrahlen S1 bis Sn von den Bildpunkten P1₁ bis Pn₁ des ersten Bilds B1 aus gebildet. Bei den Sehstrahlen S1 bis Sn handelt es sich um virtuelle Strahlen, welche von den Bildausschnitten A1₁ bis An₁ ausgesendet werden, an der Oberfläche des Objektmodells OM reflektiert und derart in das zweite Bild B2 projiziert werden, dass an der Oberfläche des Objekts O1 im zweiten Bild zweidimensionale Punkte P1₂ bis Pn₂ erzeugt werden.
In der Umgebung der in dem zweiten Bild B2 durch Reflexion und Projektion erzeugten Punkte P1₂ bis Pn₂ werden ebenfalls Bildausschnitte A1₂ bis An₂ gebildet und anschließend affin transformiert.
Durch einen Vergleich der beiden korrespondierenden Bildausschnitte A1₁, A1₂, A2₁, A2₂ bzw. An₁, An₂ eines jeweils zusammengehörigen Paares von Punkten P1₁, P1₂, P2₁, P2₂ bzw. Pn₁, Pn₂ wird die Lage und Orientierung des Objekts O1 sehr genau ermittelt.
Durch eine große Anzahl von Punkten auf dem Objekt (P1–P3) und damit und einer damit verbunden hohen Anzahl an Bildausschnitten A1₁ bis An₁ im ersten Bild B1 und Bildausschnitten A1₂ bis An₂ im zweiten Bild B2 kann bei dem Vergleich ein sehr genaues Ergebnis erzielt werden, d. h. die Pose des Objekts O1 wird die Lage und Orientierung des Objekts O1, d. h. die Pose des Objektmodells OM sehr genau ermittelt.
Durch einen Vergleich der im ersten Schritt ermittelten Pose des Objektmodells OM mit der im zweiten Schritt ermittelten Pose des Objektmodells OM wird ein Maß für die Korrektheit der Pose des Objektmodells OM ermittelt.
Durch eine Optimierung eines beliebigen Ähnlichkeitsmaßes, wie z. B. eines Kreuzkorrelationskoeffizienten, einer Summe der Quadrate von Differenzen (= SSD: sum of squared differences) oder einer Summe der absoluten Differenzen (= SAD: sum of absolute differences), zwischen den korrespondierenden Bildausschnitten hinsichtlich der Pose des Objektmodells OM wird eine verbesserte Schätzung der Lage und Orientierung des Objekts O1 erzielt. Somit wird eine Art modellbasierte ”inverse” Stereoberechnung durchgeführt und die in dem ersten Schritt ermittelte Lage und Orientierung des Objekts O1 kann gegebenenfalls korrigiert werden.
Zusätzlich kann der gleiche Ansatz auch dazu verwendet werden, eine zeitliche Ableitung der Pose des Objektmodells OM, d. h. die Bewegung des Objekts O1, zu schätzen. Hierzu wird zunächst, wie bereits beschrieben, im ersten Schritt mittels des Flussalgorithmus die initiale Bewegung des Objekts O1 grob ermittelt.
Anschließend werden gemäß 3 die bekannten Bildausschnitte A1₁ bis An₁ des Bildes B1, welches zu dem ersten Zeitpunkt erfasst wurde, mittels der Sehstrahlen S1 bis Sn an dem Objektmodell OM gespiegelt und in gleicher Art und Weise, wie in 2 beschrieben, in das zweite zum ersten Zeitpunkt erfasste Bild B2 sowie in zu einem späteren Zeitpunkt stereoskopisch erfasste Bilder B1' und B2' projiziert.
Um die entstehenden zweidimensionalen Punkte P1₂ bis Pn₂, P1₃ bis Pn₃ und P1₄ bis Pn₄ werden jeweils korrespondierende Bildausschnitte A1₂ bis An₂, A1₃ bis An₃ bzw. A1₄ bis An₄ in den Bildern B2, B1' und B2' gebildet, wobei eine Verschiebung des Objektsmodells OM aufgrund dessen Bewegung zwischen dem ersten und dem zweiten Zeitpunkt berücksichtigt wird. Somit werden zu einem dreidimensionalen Punkt P1 bis Pn auf der Oberfläche des Objektmodells OM jeweils vier zweidimensionale Punkte P1₁ bis Pn₁, P1₂ bis Pn₂, P1₃ bis Pn₃ und P1₄ bis Pn₄ gebildet, so dass eine dreidimensionale Lage, Orientierung und Bewegung des Objekts O1 aus den vier Bildern B1, B2, B1' und B2' ermittelt werden kann.
Um eine Instabilität des Verfahrens bei der Schätzung der Lage, Orientierung und Bewegung des Objekts O1 durch Vergleich aller vier Bilder B1, B2, B1' und B2' zu vermeiden, welche aus einer Optimierung über sehr viele Parameter resultieren kann, wird zusätzlich eine konsekutive Optimierung verwendet. Das heißt, es werden zunächst die Lage und Orientierung des Objekts O1 gemäß 2 in den Bildern B1 und B2 des ersten Zeitpunkts ermittelt und anschließend getrennt die zeitliche Ableitung gemäß 3 ermittelt, um die Bewegung des Objekts O1 zu schätzen.
Weiterhin kann zur Verbesserung der Ergebnisse der zeitlichen Ableitung eine ”Überkreuzbewertung” der Bilder B1, B2, B1' und B2' erfolgen, d. h. es werden die Bildausschnitte A1₁ bis An₁ des zum ersten Zeitpunkt erfassten linken Bildes B1 mit den Bildausschnitten A1₄ bis An₄ des zum zweiten Zeitpunkt erfassten rechten Bildes B2' und die Bildausschnitte A1₂ bis An₂ des zum ersten Zeitpunkt erfassten rechten Bildes B2 mit den Bildausschnitten A1₃ bis An₃ des zum zweiten Zeitpunkt erfassten linken Bildes B1' verglichen.
Bei der Optimierung wird dabei vorzugsweise ein beliebiger nicht-linearer Optimierungsansatz verwendet.
Zusammenfassend ist es mittels des erfindungsgemäßen Verfahrens möglich, die Lage und Orientierung der Objekte O1 bis O3 sowie deren Bewegung sehr genau und vollständig zu ermitteln. Dabei ist lediglich eine grobe Initialisierung der Lage, Orientierung und Bewegung erforderlich, welches eine Verwendung von schnellen Stereo- und Flussalgorithmen ermöglicht.
Weiterhin bietet das Verfahren eine direkte Verknüpfung der dreidimensionalen Punkte P1 bis Pn mit zweidimensionalen Bildinformationen, wodurch die Stabilisierung für die Schätzung der Lage und Orientierung resultiert und beispielsweise ein so genanntes ”zeitliches Zappeln” der Pose des jeweiligen Objekts O1 bis O3 und eine ungenaue Tiefenschätzung vermieden werden.
Zusätzlich ist es insbesondere möglich, aus der ermittelten Lage, Orientierung und Bewegung der Objekte O1 bis O3 eine dichte ”Scene-Flow-Punktewolke” zu generieren, welche für jeden beliebigen Punkte P1 bis Pn auf dem Objektmodell OM eine Aussage über eine dreidimensionale Pose und eine dreidimensionale Bewegung des Objektmodells OM und somit des jeweiligen Objekts O1 bis O3 im Raum enthält.

A1₁ bis An₁: Bildausschnitt
A1₂ bis An₂: Bildausschnitt
A1₃ bis An₃: Bildausschnitt
A1₄ bis An₄: Bildausschnitt
B1, B2: Bild
B1', B2': Bild
OM: Objektmodell
O1 bis O3: Objekt
P1 bis Pn: Punkt
P1₁ bis Pn₁: Punkt
P1₂ bis Pn₂: Punkt
P1₃ bis Pn₃: Punkt
P1₄ bis Pn₄: Punkt
S: Szene
S1 bis Sn: Sehstrahlen

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- DE 102008019604 A1 [0002]

Zitierte Nicht-Patentliteratur

- Schmidt, J. Wähler, C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany [0019]
- Schmidt, J. Wähler, C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany [0020]
- Zhang, Z., 1992. Iterative Point Matching for Registration of Free-Form Curves, INRIA Technical Report 1658 [0022]

Claims

Verfahren zur Schätzung einer Lage, Orientierung und/oder Bewegung zumindest eines Objekts (O1 bis O3), wobei mittels einer Bilderfassungseinheit eine Szene (S) des zumindest einen Objekts (O1 bis O3) stereoskopisch in zumindest einem ersten Bild (B1) und einem zweiten Bild (B2) erfasst wird, welche das Objekt (O1 bis O3) und/oder eine Umgebung des Objekts (O1 bis O3) darstellen, dadurch gekennzeichnet, dass in einem ersten Schritt mittels eines Stereoalgorithmus und/oder Flussalgorithmus eine mit Bewegungsinformation attributierte 3D-Punktewolkenrepräsentation der Szene (S) ermittelt wird, die Szene (S) auf Basis dieser attributierten 3D-Punktewolkenrepräsentation segmentiert wird, wobei ein dreidimensionales Objektmodell (OM) verwendet wird, um die Lage, Orientierung und/oder Bewegung zu ermitteln, wobei anschließend in einem zweiten Schritt mittels des Objektmodells (OM) und anhand von Bildausschnitten (A1₁ bis An₁, A1₂ bis An₂) um zweidimensionale Punkte (P1₁ bis Pn₁, P1₂ bis Pn₂) in dem ersten Bild (B1) und dem zweiten Bild (B2) zumindest die im ersten Schritt ermittelte Lage und/oder Orientierung überprüft und gegebenenfalls korrigiert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in dem ersten Schritt bei der Segmentierung der Szene (S) mittels einer Clusteranalyse mehrere Objekte (O1 Bis O3) voneinander getrennt werden.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass in dem zweiten Schritt die dreidimensionalen Punkte (P1 bis Pn) virtuell auf dem Objektmodell (OM) verteilt werden und in das erste Bild (B1) projiziert werden, wobei in einer Umgebung der entstehenden zweidimensionalen Punkte (P1₁ bis Pn₁) Bildausschnitte (A1₁ bis An₁) im ersten Bild (B1) gebildet und affin transformiert werden.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass von den Bildausschnitten (A1₁ bis An₁) des ersten Bilds (B1) aus Sehstrahlen (S1 bis Sn) gebildet, an einer Oberfläche des Objektmodells (OM) reflektiert und in das zweite Bild (B2) als zweidimensionale Punkte (P1₂ bis Pn₂) projiziert werden, wobei in einer Umgebung der Punkte (P1₂ bis Pn₂) Bildausschnitte (A1₂ bis An₂) im zweiten Bild (B2) gebildet und affin transformiert werden.
Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass durch einen Vergleich der Bildausschnitte (A1₁ bis An₁) des ersten Bilds (B1) und der Bildausschnitte (A1₂ bis An₂) des zweiten Bilds (B2) die Lage und Orientierung des Objekts (O1 bis O3) ermittelt wird.
Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass die Bildausschnitte (A1₁ bis An₁ oder A1₂ bis An₂) eines der zu einem ersten Zeitpunkt erfassten Bilder (B1 oder B2) an einer Oberfläche des Objektmodells (OM) gespiegelt werden, wobei anhand der Spiegelung in dem verbleibenden zu dem ersten Zeitpunkt erfassten Bild (B2 oder B1) und in zu einem späteren zweiten Zeitpunkt erfassten ersten Bild (B1') und zweiten Bild (B2') korrespondierende Bildausschnitte (A1₂ bis An₂ oder A1₁ bis An₁ und A1₃ bis An₃ und A1₄ bis An₄) ermittelt werden.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass durch einen Vergleich der korrespondierenden Bildausschnitte (A1₁ bis An₁, A1₂ bis An₂, A1₃ bis An₃, A1₄ bis An₄) der zum ersten Zeitpunkt erfassten Bilder (B1 und B2) und der zum zweiten Zeitpunkt erfassten Bilder (B1' und B2') die Bewegung des Objekts (O1, O2, O3) ermittelt wird und die im ersten Schritt ermittelte Bewegung überprüft und gegebenenfalls korrigiert wird, wobei bei dem Vergleich eine Verschiebung des Objektsmodells (OM) zwischen dem ersten Zeitpunkt und dem zweiten Zeitpunkt berücksichtigt wird.