DE102010055867A1

DE102010055867A1 - Verfahren zur Ermittlung eines optischen Flusses von korrespondierenden Bildpunkten

Info

Publication number: DE102010055867A1
Application number: DE102010055867A
Authority: DE
Inventors: Uwe Dr. Ing. 73066 Franke; Thomas Dipl.-Psych. 70499 Müller
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2010-12-22
Filing date: 2010-12-22
Publication date: 2011-07-28

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung eines optischen Flusses (U) von korrespondierenden Bildpunkten (B1, B2) in zumindest zwei zeitlich nacheinander mittels einer Erfassungsvorrichtung erfassten Bildern (B1, B2). Erfindungsgemäß werden eine Tiefenstruktur (T) einer auf den Bildern (B1, B2) abgebildeten Szene und eine Bewegung (B) der Erfassungsvorrichtung mittels zumindest eines Sensors ermittelt und aus der Tiefenstruktur (T) und der Bewegung (B) wird ein optisches Flussfeld (U_exp) geschätzt und in Abhängigkeit des geschätzten optischen Flussfeldes (U_exp) wird ein tatsächliches optisches Flussfeld (U_t) mittels eines iterativen numerischen Lösungsverfahrens ermittelt, wobei aus dem tatsächlichen optischen Flussfeld (U_t) der optische Fluss (U) ermittelt wird.

Description

Die Erfindung betrifft ein Verfahren zur Ermittlung eines optischen Flusses von korrespondierenden Bildpunkten in zumindest zwei zeitlich nacheinander mittels einer Erfassungsvorrichtung erfassten Bildern.
Die Erfindung betrifft weiterhin eine Verwendung eines Verfahrens zur Ermittlung eines optischen Flusses von korrespondierenden Bildpunkten in zumindest zwei zeitlich nacheinander mittels einer Erfassungsvorrichtung erfassten Bildern.
Aus der DE 103 51 778 A1 sind ein Verfahren und eine Vorrichtung zur Korrespondenzanalyse in Bilddatensätzen bekannt, um innerhalb von zwei Bilddatensätzen miteinander korrespondierende Bildpunkte (Pixel) zu identifizieren. Dabei wird in einem ersten Schritt der Bilddatensatz mit einem Signaturoperator derart transformiert, dass für jedes Pixel ein Signaturstring berechnet und in einer Signaturtabelle gemeinsam mit den Pixelkoordinaten abgelegt wird, wobei in einem nächsten Schritt jedes Pixel des anderen Bilddatensatzes mittels desselben Signaturoperators transformiert wird, worauf die resultierenden Signaturstrings gemeinsam mit den jeweiligen Pixelkoordinaten in einer weiteren Signaturtabelle abgelegt werden. Die Einträge der beiden Signaturtabellen werden dahingehend untersucht, ob Signaturstrings vorliegen, welche in beiden Tabellen aufzufinden sind, worauf in diesen Fällen für die diesen Signaturstrings zugeordneten Koordinaten eine Korrespondenzhypothese generiert und in einer Hypothesenliste zur Weiterverarbeitung gespeichert wird. Das Verfahren und die Vorrichtung werden zur Korrespondenzanalyse bei der Berechnung des optischen Flusses innerhalb einer Sequenz von Kamerabilddaten verwendet.
Aus ”B. K. P. Horn und B. G. Schunk: Determining Optical Flow; In: Artificial Intelligence, Volume 17, Seiten 185 bis 203; 1981” ist ein Verfahren zur Bestimmung eines optischen Flusses von korrespondierenden Bildpunkten aus zwei zeitlich nacheinander erfassten Bildern bekannt. Dabei wird eine dichte Berechnung des optischen Flusses U gemäß U ≡ (u, ν)^T: Ω → R² [1] oder eines daraus abgeleiteten dreidimensionalen Bewegungsfeldes zwischen den Bildern und auf einer Bildebene Ω mit:

u: = horizontale Koordinate des Bildpunktes im Bild,
v: = vertikale Koordinate des Bildpunktes im Bild und
R2: = statistisches Bestimmtheitsmaß

[I₂(x + U(x)) – I₁(x)] [3]

[∇U(x)]² [4]

I1: = erste Bildfunktion,
I2: = zweites Bildfunktion,
x: = Koordinate im ersten oder zweiten Bild,
α2: = Gewichtungsterm und
V: = Gradient

Weiterhin ist ein gegen Ausreißer robustes und Flusskanten erhaltendes abgewandeltes Modell nach ”C. Zach, T. Pock und H. Bischof: A Duality Based Approach for Realtime TV-L 1 Optical Flow; In: DAGM Symposium; 2007” bekannt, mittels welchem der optische Fluss gemäß
mit dem mathematischen Operand λ als Gewichtsfaktor ermittelt wird.
Der Erfindung liegt die Aufgabe zugrunde, ein gegenüber dem Stand der Technik verbessertes Verfahren zur Ermittlung eines optischen Flusses in einer mittels einer Erfassungsvorrichtung erfassten Szene und eine Verwendung des Verfahrens anzugeben.
Hinsichtlich des Verfahrens wird die Aufgabe erfindungsgemäß durch die im Anspruch 1 angegebenen Merkmale und hinsichtlich der Verwendung durch die im Anspruch 8 angegebenen Merkmale gelöst.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
In einem Verfahren zur Ermittlung eines optischen Flusses von korrespondierenden Bildpunkten in zumindest zwei zeitlich nacheinander mittels einer Erfassungsvorrichtung erfassten Bildern werden erfindungsgemäß eine Tiefenstruktur einer auf den Bildern abgebildeten Szene und eine Bewegung der Erfassungsvorrichtung mittels zumindest eines Sensors ermittelt und aus der Tiefenstruktur und der Bewegung wird ein optisches Flussfeld geschätzt und in Abhängigkeit des geschätzten optischen Flussfeldes wird ein tatsächliches optisches Flussfeld mittels eines iterativen numerischen Lösungsverfahrens ermittelt, wobei aus dem tatsächlichen optischen Flussfeld der optische Fluss ermittelt wird.
Das erfindungsgemäße Verfahren ermöglicht in besonders vorteilhafter Weise eine sehr genaue Ermittlung des optischen Flusses. Diese genaue Ermittlung ist besonders vorteilhaft auch bei großen Bildverschiebungen zwischen den zwei zeitlich nacheinander erfassten Bildern und in textur- und/oder strukturlosen Regionen der Bilder realisierbar, so dass große, nicht tolerierbare Fehler vermieden werden. Insbesondere bei einer Verwendung des Verfahrens in einem Fahrzeug können der optische Fluss und/oder aus diesem gebildete optische Flussfelder auch bei hohen Fahrzeuggeschwindigkeiten robust generiert werden, so dass bei einer Verwendung des optischen Flusses zum Betrieb von Fahrerassistenzsystemen eine Erhöhung der Leistungsfähigkeit der Fahrerassistenzsysteme erzielt werden kann. Auch zeichnen sich aus dem optischen Fluss ermittelte Größen, wie beispielsweise ein so genannter Scene-Flow, welcher eine dreidimensionale Erweiterung des optischen Flusses ist, durch eine besondere Exaktheit aus.
Im Gegensatz zu den aus dem Stand der Technik bekannten Verfahren, welche aufgrund einer nicht-konvexen Ausbildung der Bildfunktionen I₁, I₂ mittels in vertretbarer Zeit durchführbaren iterativen Lösungsalgorithmen nur lokal optimale Lösungen des optischen Flussfelds liefern, die sich nur in der Größenordnung der Bilddetails von initialen Lösungen u₀ unterscheiden, ist es anhand des erfindungsgemäßen Verfahrens möglich, bei der üblichen Initialisierung mit einem Flussfeld u₀(x) = 0∀x∊Ω [6] auch große Flusslängen zu ermitteln.
Ferner ist es im Gegensatz zu den aus dem Stand der Technik bekannten Verfahren, bei welchen die Glattheitsterme in den oben genannten Energiefunktionalen zu Fluss-Ergebnissen mit konstanten Werten im Bild führen, im Allgemeinen und insbesondere bei Verkehrsszenen Energiefunktionale zu ermitteln, welche der gesuchten Lösung entsprechen. Beispielsweise ist das relative Bewegungsfeld aus der Sicht eines bewegten Beobachters auf dem Boden, beispielsweise einer Straße, im Bild nicht konstant. Auch ist an einer Grenzlinie zwischen zwei sich unterschiedlich bewegenden Objekten in den Bildern kein Glätten des Fluss- oder Bewegungsfelds erwünscht. Mittels des erfindungsgemäßen Verfahrens können relative Bewegungsfelder aus der Sicht des bewegten Beobachters auf dem Boden im Bild als nicht konstant ermittelt und dargestellt werden und das Glätten an der Grenzlinie wird nicht durchgeführt bzw. ist nicht erforderlich.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand einer Zeichnung näher erläutert.
Dabei zeigt:
1 schematisch einen Verfahrensablauf zur Ermittlung eines optischen Flusses aus zwei zeitlich nacheinander erfassten Bildern.
In der einzigen 1 ist ein Verfahrensablauf zur Ermittlung eines optischen Flusses u korrespondierender Bildpunkte P1, P2 aus zwei zeitlich nacheinander erfassten Bildern B1, B2 dargestellt. Die Bilder B1, B2 werden insbesondere mittels einer nicht näher dargestellten Stereokamera erfasst, wobei aus den Bildern B1, B2 ermittelte Daten vorzugsweise zum Betrieb eines Fahrerassistenzsystems eines Fahrzeugs verwendet werden.
Es wird eine Tiefenstruktur T einer auf den Bildern B1, B2 abgebildeten Szene und eine Bewegung B der Erfassungsvorrichtung, hier der Stereokamera, unter Annahme einer stationären Welt mittels zumindest eines nicht dargestellten Sensors ermittelt. Der Sensor zur Ermittlung der Tiefenstruktur T der Szene ist beispielsweise ein Radarsensor, ein Lidarsensor, eine Stereokamera, ein Time-of-flight-Sensor, insbesondere eine so genannte PMD-Kamera, und/oder ein Laserscanner zur Ermittlung der Tiefenstruktur T mittels des so genannten ”Structured Light”. Der Bewegung der Erfassungsvorrichtung wird mittels zumindest eines Inertialsensors, eines Radarsensors, eines Lidarsensors, einer Monokamera, einer Stereokamera, eines Time-of-flight-Sensors und/oder eines Laserscanners ermittelt. Insbesondere sind auch bildbasierte Verfahren zur Schätzung der Bewegung B geeignet. Unter einem Inertialsensor wird hierbei ein Sensor zur Erfassung translatorischer und rotatorischer Beschleunigungskräfte, beispielsweise ein Gierratensensor oder ein Geschwindigkeitssensor verstanden. Beispielsweise wird die Bewegung B einer an einem Fahrzeug angeordneten Erfassungseinheit mittels eines Gierratensensors und/oder Geschwindigkeitssensors aus der Bewegung des Fahrzeugs ermittelt.
Zeitlich integrierte Fluss- und Bewegungsinformationen zur Unterstützung der eigentlichen Berechnung werden vorzugsweise durch die Anwendung von Kalman-Filtern gewonnen. Diese Gewinnung erfolgt insbesondere gemäß ”U. Franke, C. Rabe, H. Badino und S. Gehrig: 6D-Vision – Fusion of Stereo and Motion for Robust Environment Perception; In: DAGM Symposium, 2005”. Ebenso kann beispielsweise aus Radarsignalen eine Erwartung über ein erwartetes bzw. geschätztes optisches Flussfeld U_exp bewegter Objekte in den Bildern B1, B2 gewonnen werden.
Durch Wissen über die Tiefenstruktur T der auf den Bildern B1, B2 dargestellten Szene und die Bewegung B eines Beobachters, d. h. der Erfassungseinheit, wird unter der Annahme einer statischen Szene das entsprechende erwartete bzw. geschätzte Flussfeld U_exp gemäß ^Uexp ≡ (u_exp, ν_exp)^T: Ω → R² [7] mit:

uexp: = geschätzte horizontale Koordinate des Bildpunktes im Bild,
vexp: = geschätzte vertikale Koordinate des Bildpunktes im Bild,
Ω: = Bildebene und
R2: = statistisches Bestimmtheitsmaß

Zur Ermittlung eines tatsächlichen optischen Flussfeldes U_t wird das geschätzte optische Flussfeld U_exp in ein iteratives numerisches Lösungsverfahren beispielsweise über eine Initialisierung zu Beginn des Verfahrens eingekoppelt.
Besonders bevorzugt erfolgt die Bestimmung des tatsächlichen optischen Flussfeldes U_t über eine Modifizierung des aus ”C. Zach, T. Pock und H. Bischof: A Duality Based Approach for Realtime TV-L 1 Optical Flow; In: DAGM Symposium; 2007” bekannten Energiefunktionals E(U) gemäß
wobei dann das geschätzte optische Flussfeld U_exp durch einen geschätzten horizontalen Flussvektor u_exp und einen geschätzten vertikalen Flussvektor v_exp in die globale Ausgleichsrechnung mit eingeht.
Mit anderen Worten: Aus der Tiefenstruktur T und der Bewegung B wird ein optisches Flussfeld U_exp geschätzt und in Abhängigkeit des geschätzten optischen Flussfeldes U_exp wird ein tatsächliches optisches Flussfeld U_t mittels eines iterativen numerischen Lösungsverfahrens gemäß Gleichung [8] ermittelt.
Der mathematische Operand λ stellt dabei einen Gewichtungsfaktor und der Operand x eine Koordinate im jeweiligen Bild B1, B2 bzw. einer ersten Bildfunktion I₁ oder einer zweiten Bildfunktion I₂ dar.
Ein erster Term gemäß |I₂(x + U(x))– I₁(x)| [9] bildet einen als so genannten ”optical flow constraint” ausgebildeten Datenterm, welcher mit dem Gewichtungsfaktor λ multipliziert wird.
Ein zweiter Term gemäß |∇(u – u_exp)(x)| + |∇(ν – ν_exp)(x)| [10] bildet einen Glättungsterm, wobei der Glättungsterm aus den Gradienten V eines tatsächlichen horizontalen Flussverktors u und des geschätzten horizontalen Flussvektors u_exp und eines tatsächlichen vertikalen Flussvektors v und des geschätzten vertikalen Flussvektors V_exp gebildet ist.
Aus dem tatsächlichen optischen Flussfeld U_t wird der optische Fluss U zwischen den korrespondierenden Bildpunkten P1, P2 der zeitlich nacheinander erfassten Bilder B1, B2 ermittelt.
Aus dem optischen Fluss U ist wiederum ein dreidimensionales Bewegungsfeld F ermittelbar.
Analog kann das geschätzte optische Flussfeld U_exp aus anderen Quellen ermittelt werden. Insbesondere kann ein nicht dargestellter bekannter Fluss fremdbewegter Objekte in das geschätzte optische Flussfeld U_exp eingebracht werden. Auch kann das geschätzte optische Flussfeld U_exp aus alternativen allgemein bekannten Flussverfahren, prädizierten Flüssen aufgrund der Auswertung vorangegangener Bilder B1, B2 und weiterer Sensordaten ermittelt und in die dargestellte Berechnung mit einbezogen werden.
Die ermittelte Tiefenstruktur wird darüber hinaus vorzugsweise verwendet, um festzulegen, an welcher Stelle in den Bildern B1, B2 eine Glättung des tatsächlichen Flussfelds U_t wie stark und in welche Richtung erfolgen soll. Dies ist auch als anisotropes Glätten bekannt. Somit sind Fluss- und Bewegungsfelder bestimmbar, deren Kanten konsistent mit Objektgrenzen sind.
Auch ist die beschriebene Ermittlung des optischen Flusses U anwendbar auf den beispielsweise aus ”A. Wedel, C. Rabe, T. Vaudrey, T. Brox, U. Franke, D. Cremers: Efficient Dense Scene Flow from Sparse or Dense Stereo Data, In: Proc. ECCV, 2008” bekannten so genannten ”scene flow”, welcher eine dreidimensionale Erweiterung des optischen Flusses U auf Stereobildern um eine so genannte Stereodisparitätsänderung darstellt.
Bezugszeichenliste

B: Bewegung
B1: Bild
B2: Bild
F: Bewegungsfeld
P1: Bildpunkt
P2: Bildpunkt
T: Tiefenstruktur
U: optischer Fluss
uexp: geschätzter horizontaler Flussvektor
Uexp: geschätztes optisches Flussfeld
Ut: tatsächliches optisches Flussfeld
vexp: geschätzter vertikaler Flussvektor

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 10351778 A1 [0003]

Zitierte Nicht-Patentliteratur

B. K. P. Horn und B. G. Schunk: Determining Optical Flow; In: Artificial Intelligence, Volume 17, Seiten 185 bis 203; 1981 [0004]
C. Zach, T. Pock und H. Bischof: A Duality Based Approach for Realtime TV-L 1 Optical Flow; In: DAGM Symposium; 2007 [0005]
U. Franke, C. Rabe, H. Badino und S. Gehrig: 6D-Vision – Fusion of Stereo and Motion for Robust Environment Perception; In: DAGM Symposium, 2005 [0018]
C. Zach, T. Pock und H. Bischof: A Duality Based Approach for Realtime TV-L 1 Optical Flow; In: DAGM Symposium; 2007 [0021]
A. Wedel, C. Rabe, T. Vaudrey, T. Brox, U. Franke, D. Cremers: Efficient Dense Scene Flow from Sparse or Dense Stereo Data, In: Proc. ECCV, 2008 [0030]

Claims

Verfahren zur Ermittlung eines optischen Flusses (U) von korrespondierenden Bildpunkten (B1, B2) in zumindest zwei zeitlich nacheinander mittels einer Erfassungsvorrichtung erfassten Bildern (B1, B2), dadurch gekennzeichnet, dass eine Tiefenstruktur (T) einer auf den Bildern (B1, B2) abgebildeten Szene und eine Bewegung (B) der Erfassungsvorrichtung mittels zumindest eines Sensors ermittelt werden und aus der Tiefenstruktur (T) und der Bewegung (B) ein optisches Flussfeld (U_exp) geschätzt wird und in Abhängigkeit des geschätzten optischen Flussfeldes (U_exp) ein tatsächliches optisches Flussfeld (U_t) mittels eines iterativen numerischen Lösungsverfahrens ermittelt wird, wobei aus dem tatsächlichen optischen Flussfeld (U_t) der optische Fluss (U) ermittelt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Bewegung (B) der Erfassungsvorrichtung unter Annahme einer stationären Welt ermittelt wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass als geschätzter optischer Fluss (U_exp) ein geschätzter horizontaler Flussvektor (u_exp) und/oder ein geschätzter vertikaler Flussvektor (v_exp) ermittelt werden, wobei der geschätzte horizontale Flussvektor (u_exp) und/oder der geschätzte vertikale Flussvektor (v_exp) als mathematischer Operand in einem Datenterm und/oder einem Glattheitsterm des iterativen numerischen Lösungsverfahrens verwendet werden.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass der Glattheitsterm anisotrop unter Berücksichtung der Tiefenstruktur (T) formuliert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass als Sensor zur Ermittlung der Tiefenstruktur (T) der Szene ein Radarsensor, ein Lidarsensor, eine Stereokamera, ein Time-of-flight-Sensor und/oder ein Laserscanner verwendet werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass als Sensor zur Ermittlung der Bewegung (B) der Erfassungsvorrichtung ein Inertialsensor, ein Radarsensor, ein Lidarsensor, eine Monokamera, eine Stereokamera, ein Time-of-flight-Sensor und/oder ein Laserscanner verwendet werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass aus dem optischen Fluss (U) ein dreidimensionales Bewegungsfeld (F) ermittelt wird.
Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 in einem Fahrzeug, wobei anhand des ermittelten optischen Flusses (U) und/oder aus dem optischen Fluss (U) ermittelter Größen ein Betrieb zumindest eines Fahrerassistenzsystems gesteuert wird.