-
Die
Erfindung betrifft ein Verfahren zur Schätzung der Lage,
Orientierung und/oder Bewegung zumindest eines Objekts, wobei mittels
einer Bilderfassungseinheit eine Bildszene des zumindest einen Objekts
erfasst wird, welche das Objekt und/oder eine Umgebung des Objekts
darstellt.
-
Aus
der
DE 10 2008
019 604 A1 ist ein Verfahren zur Schätzung der
Raumlage und/oder Orientierung mindestens eines Objektes in einer
erfassten 3D-Punktewolke bekannt, wobei das Objekt anhand von mehreren
dreidimensionalen Punkten eines Raumkoordinatensystems beschrieben
wird. Raumkoordinaten der das Objekt repräsentierenden 3D-Punkte
werden in Polarkoordinaten transformiert, wobei anhand der Polarkoordinaten
ein Fehlermaß bestimmt wird und anhand des Fehlermaßes
die Raumlage und/oder Orientierung des Objektes angepasst wird.
-
Der
Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Schätzung
der Lage, Orientierung und/oder Bewegung zumindest eines Objekts
anzugeben, anhand dessen die Lage, Orientierung und Bewegung des
Objekts sehr genau bei gleichzeitig geringem Aufwand bestimmt werden
können.
-
Die
Aufgabe wird erfindungsgemäß durch ein Verfahren
gelöst, welches die im Anspruch 1 angegebenen Merkmale
aufweist.
-
Vorteilhafte
Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
-
Bei
dem Verfahren zur Schätzung einer Lage, Orientierung und/oder
Bewegung zumindest eines Objekts wird mittels einer Bilderfassungseinheit eine
Szene des zumindest einen Objekts stereoskopisch in zumindest einem
ersten Bild und einem zweiten Bild erfasst, welche das Objekt und/oder
eine Umgebung des Objekts darstellen.
-
Erfindungsgemäß wird
in einem ersten Schritt mittels eines Stereoalgorithmus und/oder Flussalgorithmus
eine mit Bewegungsinformation attributierte 3D-Punktewolkenrepräsentation
der Szene (S) ermittelt. Die Szene (S) wird auf Basis dieser attributierten
3D-Punktewolkenrepräsentation segmentiert, wobei ein dreidimensionales
Objektmodell (OM) verwendet wird, um die Lage, Orientierung und/oder
Bewegung zu ermitteln. Anschließend wird in einem zweiten
Schritt mittels des Objektmodells und anhand von Bildausschnitten
um zweidimensionale Punkte in dem ersten Bild und dem zweiten Bild zumindest
die im ersten Schritt ermittelte Lage und/oder Orientierung überprüft
und gegebenenfalls korrigiert.
-
Aus
der Segmentierung mittels Stereo- und/oder Flussberechnung resultiert
insbesondere der Vorteil, dass ein Verarbeitungs- bzw. Rechenaufwand
verringert wird und Stereo- und Flussinformationen schnell ermittelt
werden können. Zusätzlich ist es durch den zweiten
Schritt in besonders vorteilhafter Weise möglich, die Lage,
Orientierung und gemäß einer besonders bevorzugten
Weiterbildung auch die Bewegung des Objekts sehr genau zu ermitteln. Auch
ist ein Vergleich der Bildausschnitte des ersten und zweiten Bilds
mit weiteren Bildern, welche zu späteren Zeitpunkten erfasst
wurden, aufgrund der Verwendung eines Objektmodells ausführbar,
so dass alle relevanten Informationen genutzt werden und somit die
Ergebnisse bei der Ermittlung der Lage, Orientierung und Bewegung
des Objekts weiter präzisiert werden. Somit ist im ersten
Schritt zunächst eine grobe Ermittlung der Lage, Orientierung und/oder
Bewegung und im zweiten Schritt eine Präzisierung möglich.
-
Ausführungsbeispiele
der Erfindung werden im Folgenden anhand von Zeichnungen näher
erläutert.
-
Dabei
zeigen:
-
1 schematisch
eine Szene mit Objekten,
-
2 schematisch
zwei zu einem ersten Zeitpunkt stereoskopisch erfasste Bilder der
Szene gemäß 1 und ein
Objektmodell, und
-
3 schematisch
die zwei zu dem ersten Zeitpunkt stereoskopisch erfassten Bilder
gemäß 2, zwei zu einem zweiten Zeitpunkt
stereoskopisch erfassten Bilder der Szene und das Objektmodell.
-
Einander
entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen
versehen.
-
In 1 ist
eine Szene S mit Objekten O1 bis O3 dargestellt, wobei es sich bei
einem ersten Objekt O1 um ein fahrendes Fahrzeug, bei dem zweiten
Objekt O2 um einen sich bewegenden Fußgänger und
bei dem dritten Objekt O3 um einen Baum handelt.
-
Diese
Objekte O1 bis O3 befinden sich vor einem nicht näher dargestellten
weiteren Fahrzeug, welches eine ebenfalls nicht näher dargestellte
Bilderfassungseinheit umfasst, die wiederum zumindest zwei Kameras
umfasst, anhand welcher die Szene S stereoskopisch aus verschiedenen
Blickwinkeln auf allgemein bekannte Art und Weise erfasst wird.
Die Bilderfassungseinheit ist dabei vorzugsweise mit einem Fahrerassistenzsystem
gekoppelt, wobei die mittels der Bilderfassungseinheit erfassten
Daten und wiederum daraus ermittelte Daten zum Betrieb des Fahrerassistenzsystems
verwendet werden.
-
2 zeigt
zwei zu einem ersten Zeitpunkt stereoskopisch erfasste, stark vereinfacht
dargestellte Bilder B1 und B2 der Szene S und ein dreidimensionales
Objektmodell OM, wobei diese Bilder zur Schätzung der Lage,
Orientierung und/oder Bewegung der Objekte O1 bis O3 verwendet werden.
-
Um
den Rechenaufwand für die Schätzung zu begrenzen,
wird die Szene S erfindungsgemäß zunächst
in einem ersten Schritt auf Basis einer beliebigen Stereo- und/oder
optischen Flussberechnung segmentiert.
-
Bei
dem Stereoalgorithmus handelt es sich beispielsweise um ein raum-zeitliches
Stereoverfahren, wie es in [Schmidt, J. Wähler,
C., Krüger, L., Gövert, T. Hermes, C. 2007. 3D
Scene Segmentation and Object Tracking in Multiocular Image Sequences.
Proc. Int. Conf. On Computer Vision Systems (ICVS), Bielefeld, Germany]
beschrieben ist, wobei aus den stereoskopisch und zeitgleich erfassten
Bildern B1 und B2 zur Ermittlung von Stereoinformationen insbesondere
eine dreidimensionale Punktwolke erzeugt wird.
-
Weiterhin
werden die Objekte O1 bis O3 durch eine beliebige Clusteranalyse
voneinander getrennt, wobei sowohl sich bewegende Objekte voneinander,
stehende Objekte voneinander als auch sich bewegende Objekte von
stehenden Objekten getrennt werden. Bei dieser Clusteranalyse werden Punkte
der Punktwolke, von denen angenommen wird, dass sie zu demselben
Objekt O1 bis O3 gehören, zu so genannten Clustern zusammengefasst. Eine
derartige Clusteranalyse ist ebenfalls aus [Schmidt, J.
Wähler, C., Krüger, L., Gövert, T. Hermes,
C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular
Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS),
Bielefeld, Germany] bekannt.
-
Im
Folgenden wird die Ermittlung der Lage, Orientierung und Bewegung
zur Vereinfachung auf das Beispiel des Objekts O1 beschränkt,
wobei die Ermittlung der Lage, Orientierung und Bewegung der Objekte
O2 und O3 in gleicher Art und Weise erfolgt.
-
Auf
die Clusteranalyse folgend findet eine Modellanpassung statt, bei
der mindestens das eine Objektmodell OM des Objekts O1 mindestens
einem Cluster überlagert und eine optimale Position des Objektmodells
OM bezüglich des Clusters ermittelt wird. Hierbei kann
insbesondere ein Modellanpassungsverfahren eingesetzt werden, wie
es in [Zhang, Z., 1992. Iterative Point Matching for Registration
of Free-Form Curves, INRIA Technical Report 1658] beschrieben
ist. Das Ergebnis dieses Modellanpassungsverfahrens ist eine grobe
Schätzung der Lage und Orientierung des Objekts O1, welche
auch als Pose des Objekts O1 bezeichnet wird. Diese Pose wird auf
das Objektmodell OM übertragen, so dass das Objektmodell
OM die Lage und Orientierung des Objekts O1 widerspiegelt.
-
Infolge
der Modellanpassung können einem Cluster fälschlicherweise
zugeordnete Punkte identifiziert und eliminiert werden. Ebenso können
fälschlicherweise außerhalb des betrachteten Clusters
isoliert oder in einem anderen Cluster liegende Punkte, so genannte
Ausreißer, als dem betrachteten Cluster zugehörig
identifiziert und die Zuordnung entsprechend korrigiert werden.
-
Nach
dieser Anpassung des Objektmodells OM an die dreidimensionale Punktwolke
werden mittels des Flussalgorithmus zusätzlich optische
Flussinformationen von zeitlich aufeinander folgenden Bildern B1,
B2 und B1', B2', wie sie in 3 näher
dargestellt sind, ermittelt, wobei die Flussinformationen zweidimensionale
Bewegungsvektoren sind, die parallel zu einer Bildebene verlaufen.
Anhand dieser optischen Flussinformationen wird eine initiale Bewegung
des Objekts O1 ermittelt.
-
Somit
umfasst das Ergebnis des ersten Schritts eine grobe Ermittlung der
Pose des Objektmodells OM, d. h. der Lage und Orientierung des Objekts
O1, sowie eine grobe Schätzung der Bewegung des Objekts
O1.
-
Um
die Genauigkeit der Ergebnisse zu erhöhen, d. h. die Ergebnisse
zu optimieren, werden in einem zweiten Schritt auf einer Oberfläche
des dreidimensionalen Objektmodells OM virtuelle dreidimensionale
Punkte P1 bis Pn verteilt und auf eines der Bilder B1 oder B2, hier
als zweidimensionale Punkte P11 bis Pn1 auf das Bild B1 projiziert. In einer Umgebung
um die Punkte P11 bis Pn1 werden
jeweils kleine Bildteile ausgeschnitten und anschließend
affin transformiert, um eine frontoparallele Ansicht auf zu dem
Objektmodell OM korrespondierenden Teil einer Oberfläche
des Objekts O1 zu erhalten. Die dabei entstehenden Bildausschnitte
A11 bis An1 des
ersten Bilds B1 bleiben dabei über den gesamten Optimierungsprozess
gleich, so dass die Stabilität der Optimierung erhöht
wird.
-
Anschließend
werden Sehstrahlen S1 bis Sn von den Bildpunkten P11 bis
Pn1 des ersten Bilds B1 aus gebildet. Bei
den Sehstrahlen S1 bis Sn handelt es sich um virtuelle Strahlen,
welche von den Bildausschnitten A11 bis
An1 ausgesendet werden, an der Oberfläche
des Objektmodells OM reflektiert und derart in das zweite Bild B2
projiziert werden, dass an der Oberfläche des Objekts O1
im zweiten Bild zweidimensionale Punkte P12 bis
Pn2 erzeugt werden.
-
In
der Umgebung der in dem zweiten Bild B2 durch Reflexion und Projektion
erzeugten Punkte P12 bis Pn2 werden
ebenfalls Bildausschnitte A12 bis An2 gebildet und anschließend affin
transformiert.
-
Durch
einen Vergleich der beiden korrespondierenden Bildausschnitte A11, A12, A21, A22 bzw. An1, An2 eines jeweils
zusammengehörigen Paares von Punkten P11,
P12, P21, P22 bzw. Pn1, Pn2 wird die Lage und Orientierung des Objekts
O1 sehr genau ermittelt.
-
Durch
eine große Anzahl von Punkten auf dem Objekt (P1–P3)
und damit und einer damit verbunden hohen Anzahl an Bildausschnitten
A11 bis An1 im ersten
Bild B1 und Bildausschnitten A12 bis An2 im zweiten Bild B2 kann bei dem Vergleich
ein sehr genaues Ergebnis erzielt werden, d. h. die Pose des Objekts
O1 wird die Lage und Orientierung des Objekts O1, d. h. die Pose
des Objektmodells OM sehr genau ermittelt.
-
Durch
einen Vergleich der im ersten Schritt ermittelten Pose des Objektmodells
OM mit der im zweiten Schritt ermittelten Pose des Objektmodells OM
wird ein Maß für die Korrektheit der Pose des
Objektmodells OM ermittelt.
-
Durch
eine Optimierung eines beliebigen Ähnlichkeitsmaßes,
wie z. B. eines Kreuzkorrelationskoeffizienten, einer Summe der
Quadrate von Differenzen (= SSD: sum of squared differences) oder einer
Summe der absoluten Differenzen (= SAD: sum of absolute differences),
zwischen den korrespondierenden Bildausschnitten hinsichtlich der
Pose des Objektmodells OM wird eine verbesserte Schätzung der
Lage und Orientierung des Objekts O1 erzielt. Somit wird eine Art
modellbasierte ”inverse” Stereoberechnung durchgeführt
und die in dem ersten Schritt ermittelte Lage und Orientierung des
Objekts O1 kann gegebenenfalls korrigiert werden.
-
Zusätzlich
kann der gleiche Ansatz auch dazu verwendet werden, eine zeitliche
Ableitung der Pose des Objektmodells OM, d. h. die Bewegung des Objekts
O1, zu schätzen. Hierzu wird zunächst, wie bereits
beschrieben, im ersten Schritt mittels des Flussalgorithmus die
initiale Bewegung des Objekts O1 grob ermittelt.
-
Anschließend
werden gemäß 3 die bekannten
Bildausschnitte A11 bis An1 des
Bildes B1, welches zu dem ersten Zeitpunkt erfasst wurde, mittels
der Sehstrahlen S1 bis Sn an dem Objektmodell OM gespiegelt und
in gleicher Art und Weise, wie in 2 beschrieben,
in das zweite zum ersten Zeitpunkt erfasste Bild B2 sowie in zu
einem späteren Zeitpunkt stereoskopisch erfasste Bilder
B1' und B2' projiziert.
-
Um
die entstehenden zweidimensionalen Punkte P12 bis
Pn2, P13 bis Pn3 und P14 bis Pn4 werden jeweils korrespondierende Bildausschnitte
A12 bis An2, A13 bis An3 bzw. A14 bis An4 in den
Bildern B2, B1' und B2' gebildet, wobei eine Verschiebung des Objektsmodells
OM aufgrund dessen Bewegung zwischen dem ersten und dem zweiten
Zeitpunkt berücksichtigt wird. Somit werden zu einem dreidimensionalen
Punkt P1 bis Pn auf der Oberfläche des Objektmodells OM
jeweils vier zweidimensionale Punkte P11 bis
Pn1, P12 bis Pn2, P13 bis Pn3 und P14 bis Pn4 gebildet, so dass eine dreidimensionale
Lage, Orientierung und Bewegung des Objekts O1 aus den vier Bildern
B1, B2, B1' und B2' ermittelt werden kann.
-
Um
eine Instabilität des Verfahrens bei der Schätzung
der Lage, Orientierung und Bewegung des Objekts O1 durch Vergleich
aller vier Bilder B1, B2, B1' und B2' zu vermeiden, welche aus einer
Optimierung über sehr viele Parameter resultieren kann, wird
zusätzlich eine konsekutive Optimierung verwendet. Das
heißt, es werden zunächst die Lage und Orientierung
des Objekts O1 gemäß 2 in den
Bildern B1 und B2 des ersten Zeitpunkts ermittelt und anschließend
getrennt die zeitliche Ableitung gemäß 3 ermittelt,
um die Bewegung des Objekts O1 zu schätzen.
-
Weiterhin
kann zur Verbesserung der Ergebnisse der zeitlichen Ableitung eine ”Überkreuzbewertung” der
Bilder B1, B2, B1' und B2' erfolgen, d. h. es werden die Bildausschnitte
A11 bis An1 des
zum ersten Zeitpunkt erfassten linken Bildes B1 mit den Bildausschnitten
A14 bis An4 des
zum zweiten Zeitpunkt erfassten rechten Bildes B2' und die Bildausschnitte A12 bis An2 des zum
ersten Zeitpunkt erfassten rechten Bildes B2 mit den Bildausschnitten
A13 bis An3 des
zum zweiten Zeitpunkt erfassten linken Bildes B1' verglichen.
-
Bei
der Optimierung wird dabei vorzugsweise ein beliebiger nicht-linearer
Optimierungsansatz verwendet.
-
Zusammenfassend
ist es mittels des erfindungsgemäßen Verfahrens
möglich, die Lage und Orientierung der Objekte O1 bis O3
sowie deren Bewegung sehr genau und vollständig zu ermitteln.
Dabei ist lediglich eine grobe Initialisierung der Lage, Orientierung
und Bewegung erforderlich, welches eine Verwendung von schnellen
Stereo- und Flussalgorithmen ermöglicht.
-
Weiterhin
bietet das Verfahren eine direkte Verknüpfung der dreidimensionalen
Punkte P1 bis Pn mit zweidimensionalen Bildinformationen, wodurch
die Stabilisierung für die Schätzung der Lage und
Orientierung resultiert und beispielsweise ein so genanntes ”zeitliches
Zappeln” der Pose des jeweiligen Objekts O1 bis O3 und
eine ungenaue Tiefenschätzung vermieden werden.
-
Zusätzlich
ist es insbesondere möglich, aus der ermittelten Lage,
Orientierung und Bewegung der Objekte O1 bis O3 eine dichte ”Scene-Flow-Punktewolke” zu
generieren, welche für jeden beliebigen Punkte P1 bis Pn
auf dem Objektmodell OM eine Aussage über eine dreidimensionale
Pose und eine dreidimensionale Bewegung des Objektmodells OM und
somit des jeweiligen Objekts O1 bis O3 im Raum enthält.
-
- A11 bis An1
- Bildausschnitt
- A12 bis An2
- Bildausschnitt
- A13 bis An3
- Bildausschnitt
- A14 bis An4
- Bildausschnitt
- B1,
B2
- Bild
- B1',
B2'
- Bild
- OM
- Objektmodell
- O1
bis O3
- Objekt
- P1
bis Pn
- Punkt
- P11 bis Pn1
- Punkt
- P12 bis Pn2
- Punkt
- P13 bis Pn3
- Punkt
- P14 bis Pn4
- Punkt
- S
- Szene
- S1
bis Sn
- Sehstrahlen
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - DE 102008019604
A1 [0002]
-
Zitierte Nicht-Patentliteratur
-
- - Schmidt, J.
Wähler, C., Krüger, L., Gövert, T. Hermes,
C. 2007. 3D Scene Segmentation and Object Tracking in Multiocular
Image Sequences. Proc. Int. Conf. On Computer Vision Systems (ICVS),
Bielefeld, Germany [0019]
- - Schmidt, J. Wähler, C., Krüger, L., Gövert,
T. Hermes, C. 2007. 3D Scene Segmentation and Object Tracking in
Multiocular Image Sequences. Proc. Int. Conf. On Computer Vision
Systems (ICVS), Bielefeld, Germany [0020]
- - Zhang, Z., 1992. Iterative Point Matching for Registration
of Free-Form Curves, INRIA Technical Report 1658 [0022]