DE102016209625A1

DE102016209625A1 - Verfahren zur Auswertung von Bilddaten einer Fahrzeugkamera

Info

Publication number: DE102016209625A1
Application number: DE102016209625.7A
Authority: DE
Inventors: Martin Buczko; Volker Willert; Tim Kaczmarek
Original assignee: Continental Teves AG and Co OHG
Current assignee: Continental Teves AG and Co OHG
Priority date: 2016-06-01
Filing date: 2016-06-01
Publication date: 2017-12-07
Also published as: DE112017000822A5; US20190311485A1; US10762643B2; WO2017206999A1

Abstract

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Bildauswertung von Bilddaten einer Fahrzeugkamera umfassend die folgenden Schritte: a) Aufnahme eines ersten Bildes mittels der Fahrzeugkamera, b) Aufnahme eines darauffolgenden zweiten Bildes mittels der Fahrzeugkamera c) Extraktion von mehreren korrespondierenden Merkmalen im ersten und zweiten Bild, d) Annahme einer Bewegung der Fahrzeugkamera (Bewegungshypothese) zwischen der Aufnahme des ersten und zweiten Bildes e) Bestimmung eines Reprojektionsfehlers eines extrahierten Merkmals, wobei der Reprojektionsfehler den Unterschied zwischen dem aus dem im ersten und zweiten Bild extrahierten Merkmal gemessenen Fluss und dem aus der Bewegungshypothese berechneten Fluss angibt, f) Ermittlung von Ausreißern, wobei ein extrahiertes Merkmal als Ausreißer ermittelt wird, wenn der Reprojektionsfehler dieses Merkmals eine Schwelle erreicht oder überschreitet, g) wobei die Schwelle innerhalb eines Iterationsschrittes nicht konstant ist. Zumindest die Schritte b) bis g) sind hierbei Bestandteil eines Iterationsschrittes. Das erfindungsgemäße Verfahren bietet eine verbesserte Möglichkeit der Ausreißererkennung und -eliminierung zur Schätzung der Bewegung der Fahrzeugkamera.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Auswertung von Bilddaten einer Fahrzeugkamera und kann insbesondere zur Rekonstruktion der Bewegung der Fahrzeugkamera im Rahmen eines kamerabasierten Fahrerassistenzsystems eingesetzt werden.
Visuelle Odometrie erlaubt die Berechnung der Bewegung eines Kamerasystems aus einer Sequenz von Bildern. Im Fall eines Stereosystems kann die Rotation um alle drei Achsen, sowie die Translation entlang der Achsen und somit die Bewegung in allen sechs Freiheitsgraden rekonstruiert werden. Diese Information kann zur Schätzung der aktuellen Fahrzustände für verschiedenste Fahrerassistenzsysteme wie z. B. ABS, ESP, Tempomat oder Wankneigungskontrolle dienen.
Zur Eigenlokalisierung von Fahrzeugen wird heute ein Verbund verschiedener Sensoren verwendet. Diese beinhalten beispielsweise Drehratensensoren, Beschleunigungssensoren, Odometrie und GPS-Systeme.
Um die Genauigkeit der eigenen Positionsbestimmung – aber besonders auch die Verfügbarkeit – in kritischen Szenarien wie Häuserschluchten oder Tunnelszenarien zu erhöhen, sind kamerabasierte Eigenbewegungsschätzungen als alternatives Sensorkonzept von großer Wichtigkeit, um das bisherige Sensorkonzept mit einer zusätzlichen und unabhängigen Sensorquelle zu erweitern.
WO 2013/037840 A1 zeigt ein Verfahren zum Bestimmen von Lagedaten eines Fahrzeuges. Fahrdynamikdaten des Fahrzeuges werden gemessen. Positionsdaten des Fahrzeuges werden mit einem Umfeldsensor gemessen, der die Positionsdaten basierend auf wenigstens einem Abstand zu einem gegenüber dem Fahrzeug angeordneten stillstehenden Objekt erfasst. Schließlich werden Lagedaten des Fahrzeugs basierend auf den Fahrdynamikdaten und den Positionsdaten bestimmt. Als Umfeldsensor kann hierbei eine Fahrzeugkamera verwendet werden.
WO 2010/099789 A1 zeigt ein Verfahren zur automatischen Erkennung eines Fahrmanövers eines Kraftfahrzeugs, insbesondere eines Überholmanövers oder eines Ausweichmanövers. Dabei können in einer Odometrie Daten der Fahrzeugsensorik und einer auf Daten einer Videosensorik basierten Fahrstreifenerkennung fusioniert werden. Die Odometrie erlaubt, Position, Geschwindigkeit und Orientierung des Fahrzeugs auf der Fahrbahn sowie weitere Zustandsgrössen zu schätzen. Diese Schätzgrössen können einer Manövererkennung, anderen Situationsanalyse-Algorithmen oder für Regelungsaufgaben zur Verfügung gestellt werden.
Desweiteren kann die Information aus einer kamerabasierten Eigenbewegungsschätzung als Input für Koppelnavigations-(Dead Reckoning-)Ansätze verwendet werden, um die Trajektorie und Position (Lokalisierung) des eigenen Fahrzeugs zu schätzen. Bei derartigen Ansätzen kann die eigene Lage laufend geschätzt werden unter Berücksichtigung einer Ausgangsposition und dem anschließenden Verlauf der Bewegung und Geschwindigkeit (Translation und Rotation).
Aufgrund der hohen erreichbaren Genauigkeit können die Informationen für jeden Zeitschritt weiterhin kombiniert und zur Trajektorienrekonstruktion bzw. Fahrzeuglokalisierung – beispielsweise als Informationsquelle für Risikobewertungen, Trajektorienplanung, Car2X-Informationsaustausch bis hin zum autonomen Fahren – verwendet werden. Diese Daten können beispielsweise genutzt werden, um ein bestehendes GPS-System zu ergänzen und in kritischen Situationen zu unterstützen. Die Notwendigkeit zeigen beispielsweise Untersuchungen, nach denen in Hong Kong oder Calgary die GPS-Verfügbarkeit lediglich 30% beträgt. Für Baustellenszenarien, welche Häuserschluchten sehr ähneln, wurde sogar ein Wert von nur 10% Verfügbarkeit ermittelt.
Gerade in diesen Szenarien kann die visuelle Odometrie eine erhebliche Unterstützung leisten, da sie im Gegensatz zu GPS-Receivern nicht auf externe Signale angewiesen ist. Unterschieden werden können Systeme zur visuellen Odometrie beispielsweise im Zeitfenster ihrer Berechnung. Neben der Berechnung von Bewegungen zwischen zwei aufeinanderfolgenden Zeitschritten kann zusätzliche Information aus weiter zurückliegenden Zeitschritten verwendet werden. Hierbei kann man zwischen Simultaneous Localization and Mapping (SLAM) und Bundle Adjustment unterscheiden. Während beim SLAM neben der Eigenbewegung auch eine Kartierung durchgeführt wird, hat das Bundle Adjustment die Verbesserung der Eigenbewegungsschätzung durch das Nachoptimieren der triangulierten Raumpunkte zum Ziel.
Eine Herausforderung für kamerabasierte Systeme stellen insbesondere Situationen mit einer unzureichenden Anzahl an Korrespondenzen von statischen Szenenpunkten, sich stark ändernden Lichtverhältnissen und geringer Helligkeit, einer unstrukturierten Umgebung mit homogenen, nicht texturierten Oberflächen oder einer ungeeignet niedrigen Bildrate dar. Szenarien mit höherer Geschwindigkeit, wie beispielsweise auf Autobahnen oder Landstraßen bringen mehrere dieser Probleme mit sich, was sie zu einer der herausforderndsten Situationen macht. Vor allem das Fehlen von, bzw. die deutlich geringere Zahl an geeigneten Merkmalen (Korrespondenzen) im Nahbereich erschwert die Schätzung der Eigenbewegung.
Die Erkennung von Ausreißern ist ein Kernelement jeglicher visueller Odometrie. Verschiedene Verfahren zur Ausreißererkennung sind bekannt. Rein flussbasierte Ansätze beruhen auf der Annahme, dass der optische Fluss Mustern folgt, die durch die Eigenbewegung des Fahrzeugs bedingt sind. Weiterhin existieren modellbasierte Ansätze, die den Fluss aufgrund eines bestimmten Bewegungsmodells explizit beschränken. Viele bekannte Verfahren verwenden Ansätze, die auf sich auf Reprojektionsfehler stützen.
B. Kitt et al. zeigen beispielsweise in der Veröffentlichung Visual odometry based on stereo image sequences with ransac-based outlier rejection scheme, IEEE Intelligent Vehicles Symposium, 2010, die Berechnung eines merkmalsbezogenen Reprojektionsfehlers zur Eliminierung von Ausreißern, der mit einem konstanten Schwellwert verglichen wird.
Bei RANSAC Verfahren üblicherweise bei jeder Iteration eine minimale Anzahl an zufällig ausgewählten Korrespondenzen verwendet wird, um eine Bewegungshypothese zu bilden. Für jedes Merkmal wird anschließend ein Wert berechnet, der beschreibt, ob das Merkmal die Bewegungshypothese unterstützt. Wenn die Bewegungshypothese eine hinreichende Unterstützung durch die Merkmale erreicht, werden die nicht-unterstützenden Merkmale als Ausreißer verworfen. Andernfalls wird erneut eine minimale Anzahl an Korrespondenzen zufällig ausgewählt.
Alternative Verfahren können als „MASOR” Verfahren zusammengefasst werden (MAximum Subset Outlier Removal). Hier wird die maximale Anzahl von Merkmalen genommen, um die Bewegungshypothese zu berechnen. Diese Bewegungshypothese und ein nachfolgender Schritt der Ausreißereliminierung werden in einem iterativen Schema wiederholt. Dann wird ein Unterstützungswert für jedes Merkmal berechnet. Anstatt die Bewegungshypothese zu bewerten, wird nun der Unterstützungswert als Maß für die Qualität eines Merkmals interpretiert, da die Hypothese als gute Schätzung betrachtet wird. Nicht-unterstützende Merkmale werden verworfen und die folgende Iteration startet mit den verbleibenden Merkmalen. Diese Verfahren werden so lange widerholt, bis ein Beendigungskriterium erfüllt ist.
Es ist eine Aufgabe der vorliegenden Erfindung, eine verbesserte Ausreißererkennung für eine Bewegungschätzung mittels einer Fahrzeugkamera anzugeben.
Ein erster Aspekt der Erfindung betrifft die Rekonstruktion der Bewegung in allen sechs Freiheitsgraden (6-DOF-Bewegung von engl. Degrees Of Freedom) von Fahrzeugen mittels einer Fahrzeugkamera als eigenständiges System, oder um das Sensorcluster zu erweitern. Da die Fahrzeugkamera für Fahrerassistenzanwendungen in aller Regel im Fahrzeug fest eingebaut ist, entspricht die Bewegung der Fahrzeugkamera der Bewegung des Fahrzeugs. Eine bevorzugte Ausführung einer Fahrzeugkamera stellt eine Stereokamera dar.
Die grundlegende Methodik der visuellen Odometrie stammt aus der mobilen Robotik. Hier werden im Allgemeinen deutlich niedrigere Translationsgeschwindigkeiten erreicht, als im Automotivebereich. Aufgrund der deutlich höheren Geschwindigkeiten beim Fahrzeug entstehen bei den bisherigen System deutliche Fehler bei Hochgeschwindigkeitsszenarien (Landstraße, Autobahn). Ein zweiter Aspekt der Erfindung betrifft daher ein für Hochgeschwindigkeitsszenarien geeignetes Verfahren zu präsentieren.
Zur Schätzung der Bewegung sind zeitliche und räumliche Bildkorrespondenzen notwendig, welche Fehler enthalten (z. B. bewegte Objekte, Fehler durch Aliasing...). Als Bildkorrespondenz wird die Entsprechung eines Merkmals in einem ersten Bild zu demselben Merkmal in einem zweiten Bild bezeichnet. Ein Merkmal kann insbesondere ein Bildausschnitt (bzw. Patch), eine Kante, eine Ecke oder ein Objekt sein. Erstes und zweites Bild können von derselben Monokamera zu unterschiedlichen Zeiten aufgenommen werden oder von zwei Kameramodulen einer Stereokamera zum selben Zeitpunkt. In der Regel ist bei der Korrespondenz eines Merkmals in zwei Bildern die jeweilige Bildposition (Bildkoordinaten) von Interesse, bei zeitlich nacheinander aufgenommenen Bildern auch die Zeit, die zwischen beiden Aufnahmen vergangen ist. Bildkorrespondenzen können durch einen sogenannten Reprojektionsfehler bewertet werden. Der Reprojektionsfehler gibt den Unterschied an zwischen dem gemessenen Fluss und dem aus der Bewegungshypothese berechneten Fluss an. Wenn der Reprojektionsfehler eines Merkmals einen Grenzwert überschreitet, wird dieses Merkmal als „Ausreißer” aus der finalen Messung entfernt, welche zur Schätzung der Fahrzeugeigenbewegung verwendet wird.
Ein weiterer Aspekt der Erfindung betrifft die Erkenntnis, dass ein konstanter Schwellwert für den Reprojektionsfehler zur Ausreißereliminierung nicht zielführend ist.
Ein weiterer Aspekt der Erfindung liegt in der Erkenntnis, dass der Reprojektionsfehler abhängt von der Bildkoordinate der betrachteten Korrespondenz relativ zum Bildhauptpunkt sowie von der Tiefe des betrachteten Messpunkts. Diese Abhängigkeiten können neben einer Verschlechterung der Schätzung zu einem kompletten Zusammenbruch der Schätzung führen, da der Einfluss durch die Koordinaten/Tiefe zu einem höherem Reprojektionsfehler führt, als bei einer fehlerhaften Korrespondenz mit ”günstiger” Koordinate/Tiefe.
Ein weiterer Aspekt der Erfindung basiert auf einer sorgfältigen Analyse der Ursachen (siehe Abschnitt I.), die nun ermöglicht ein neuartiges Kriterium einzuführen, welches bei reiner Translation die Schätzung deutlich robuster macht und die Genauigkeit erhöht.
Gemäß einem weiteren Aspekt der Erfindung kann dieses Kriterium weiterhin auch in Szenarien mit Rotation verwendet werden, wenn Kenntnis über diese vorliegt. Hierzu wird der rotatorisch induzierte Fluss einfach im gemessenen Fluss kompensiert. In Überland- und Autobahnszenarien ist dies jedoch aufgrund der geringen Rotation in den untersuchten Fällen nicht notwendig.
Somit entsteht ein kamerabasiertes Gesamtkonzept, welches die Eigenlokalisierung von Fahrzeugen mit hoher Genauigkeit durchführt und in einem deutlich weiteren Geschwindigkeitsbereich zu besseren Ergebnissen führt.
Ein erfindungsgemäßes Verfahren zur Bildauswertung von Bilddaten einer Fahrzeugkamera umfasst die folgenden Schritte:

a) Aufnahme eines ersten Bildes mittels der Fahrzeugkamera,
b) Aufnahme eines darauffolgenden zweiten Bildes mittels der Fahrzeugkamera
c) Extraktion von mehreren korrespondierenden Merkmalen im ersten und zweiten Bild,
d) Annahme einer Bewegung der Fahrzeugkamera (Bewegungshypothese) zwischen der Aufnahme des ersten und zweiten Bildes
e) Bestimmung eines Reprojektionsfehlers eines extrahierten Merkmals, wobei der Reprojektionsfehler den Unterschied zwischen dem aus dem im ersten und zweiten Bild extrahierten Merkmal gemessenen Fluss und dem aus der Bewegungshypothese berechneten Fluss angibt,
f) Ermittlung von Ausreißern, wobei ein extrahiertes Merkmal als Ausreißer ermittelt wird, wenn der Reprojektionsfehler dieses Merkmals eine Schwelle erreicht oder überschreitet,
g) wobei die Schwelle innerhalb eines Iterationsschrittes nicht konstant ist.

Zumindest die Schritte b) bis g) sind hierbei Bestandteil eines Iterationsschrittes oder mit anderen Worten umfasst ein Iterationsschritt die Schritte b) bis g).
In Schritt c) ist insbesondere die Extraktion eines (vollständigen) Satzes von korrespondierenden Merkmalen vorgesehen und in Schritt e) wird dann vorzugsweise für jedes extrahierte Merkmal der zugehörige Extraktionsfehler bestimmt. Die Schritte f) und g) sind insbesondere so zu verstehen, dass die Schwelle nicht für alle in einem Iterationsschritt extrahierten Merkmale dieselbe ist.
Im ersten Iterationsschritt kann beispielsweise eine Translation mit einer vorgegebenen Geschwindigkeit als Annahme der Bewegung der Fahrzeugkamera bzw. „initiale Bewegungshypothese” verwendet werden. Alternativ können Daten anderer Sensoren im Fahrzeug eine initiale Bewegungshypothese liefern.
Das erfindungsgemäße Verfahren bietet eine verbesserte Möglichkeit der Ausreißererkennung, die für Schemata wie RANSAC und MASOR bekannt ist. Bei bekannten Verfahren, die den Reprojektionsfehler ermitteln, ist die neue Art der Schwellenbildung schnell anwendbar und erhöht die Robustheit der Ausreißererkennung.
Gemäß einer vorteilhaften Ausgestaltung der Erfindung wird in Schritt f) eine Schwelle für ein extrahiertes Merkmal angewandt, die abhängt von einem Parameter (also einer quantifizierbaren Eigenschaft) des extrahierten Merkmals.
Bevorzugt hängt die Schwelle ab von dem aus dem im ersten und zweiten Bild extrahierten Merkmal gemessenen Fluss (also praktisch der Verschiebung desselben Merkmals im ersten Bild verglichen mit dem zweitem Bild). Vorteilhaft kann z. B. eine Fallunterscheidung getroffen werden, wobei für sehr kleine Flüsse, die unterhalb eines Minimalwerts liegen, zum Sicherstellen der numerischen Robustheit ein konstanter Schwellwert auf den Reprojektionsfehler angewandt wird. Bei größeren dagegen eine andere, insbesondere variierende Schwelle.
Besonders bevorzugt ist die Schwelle proportional zum gemessenen Fluss des extrahierten Merkmals. Das ist dasselbe wie wenn der üblicherweise verwendete Reprojektionsfehler mit dem gemessenen optischen Fluss normiert wird und ein konstanter Schwellwert verwendet wird. Anschaulich erlaubt diese Veränderung Korrespondenzen mit großem optischem Fluss auch einen größeren Fehler, was die Verwendung naher Korrespondenzen stärker forciert als der Reprojektionsfehler.
Mathematisch wird sowohl die Abhängigkeit des Fehlers von der Koordinate relativ zum Bildhauptpunkt eliminiert, als auch die Abhängigkeit der Tiefe im relevanten Bereich nahezu komplett kompensiert. Hierdurch wird der Zusammenbruch auf weit entfernte Korrespondenzen verhindert, welcher die Auflösung der Translationsschätzung deutlich herabsetzt bzw. sogar verhindert.
In vorteilhafter Weise kann eine rotatorische Komponente der Bewegung kompensiert werden, indem die Schwelle proportional zum Fluss nach der Kompensation der rotatorischen Komponente ist.
Vorteilhaft umfasst die Schwelle einen konstanten Faktor und einen variablen Anteil, wobei der konstante Faktor unter Berücksichtigung von physikalischen Eigenschaften der Fahrzeugkamera vorgegeben werden kann.
Gemäß einer bevorzugten Ausführungsform wird in einem weiteren Schritt h) die Bewegung der Fahrzeugkamera unter Berücksichtigung der im aktuellen Iterationsschritt nicht als Ausreißer eliminierten Merkmale rekonstruiert. Es werden mit anderen Worten nur die Inlier zu Bewegungsrekonstruktion verwendet. Rekonstruieren kann hierbei insbesondere bedeuten, dass nun eine neue Bewegungshypothese berechnet oder dass die bisherige Bewegungshypothese verfeinert wird.
Vorzugsweise wird die in Schritt h) rekonstruierte Bewegung der Fahrzeugkamera für den folgenden Iterationsschritt als Bewegungshypothese für Schritt d) übernommen.
Bei einem folgenden Iterationsschritt kann das bisherige zweite Bild als neues erstes Bild verwendet werden. Alternativ kann auch Schritt a) im folgenden Iterationsschritt durchgeführt werden.
Bevorzugt wird die Schwelle bzw. deren konstanter Faktor mit fortschreitender Iteration so lange herabgesetzt, bis eine gewünschte Genauigkeit erzielt ist.
In vorteilhafter Weise kann das Verfahren bei hohen translatorischen Bewegungsgeschwindigkeiten der Fahrzeugkamera bzw. des Fahrzeugs zum Einsatz kommen, wobei hohe Geschwindigkeiten vorzugsweise größer oder gleich 30 km/h, insbesondere größer oder gleich 50 km/h sind.
Bevorzugt wird die rekonstruierte Fahrzeugkamerabewegung zur Eigenlokalisierung hinzugezogen.
Vorteilhaft wird die rekonstruierte Fahrzeugkamerabewegung zur Bestimmung des Schwimmwinkels des Fahrzeugs, in dem die Fahrzeugkamera angeordnet ist, verwendet.
Gemäß einer bevorzugten Ausführungsform wird die rekonstruierte Fahrzeugkamerabewegung zur Bestimmung des Raddurchmessers des Fahrzeugs, in dem die Fahrzeugkamera angeordnet ist, verwendet. Hierbei ergibt sich die zurückgelegte Strecke aus der Rekonstruktion und mittels eines Raddrehzahlwerts (z. B. aus dem Fahrzeugsensorcluster) kann der Raddurchmesser näherungsweise bestimmt werden.
Vorteilhaft kann eine Kalibrierung der Fahrzeugkamera erfolgen durch einen Vergleich der rekonstruierten Fahrzeugkamerabewegung mit der aus anderen Sensoren ermittelten Bewegung des Fahrzeugs.
Bevorzugt ist die Fahrzeugkamera eine Stereokamera. Alternativ kann die Fahrzeugkamera auch eine andere Kamera sein, solange deren Daten die Rekonstruktion eines Tiefenbildes ermöglichen, insbesondere TOF(time of flight, Laufzeit-messende)-Kameras wie z. B. HiRes Flashlidar, aber auch aus Monobilddaten ist eine 3D-Szenenrekonstruktion möglich – zumindest näherungsweise, über die Annahme eines ebenen Untergrunds, siehe z. B. Kitt et al. Monocular Visual Odometry using a Planar Road Model to Solve Scale Ambiguity, in Proc. of the European Conference on Mobile Robots, Örebro, Schweden, September 2011.
Die Erfindung betrifft weiterhin eine Vorrichtung welche zum Durchführen eines erfindungsgemäßen Verfahrens ausgebildet ist, beispielsweise in Form eines Steuergeräts für die Fahrzeugkamera.
Durch die Anwendung eines erfindungsgemäßen Verfahrens konnten wir die Ergebnisse der konkurrierenden kamerabasierten Algorithmen ab etwa 65 km/h in ihrer Qualität überbieten. Selbst die Ergebnisse von Laserscannern unterliegen unserer Methode. Die erreichte Genauigkeitsverbesserung bei sehr geringem zusätzlichem Rechenaufwand führt zu verbesserten Produkten zur Fahrzeuglokalisierung und Schätzung des Fahrzustands.
Im Folgenden werden Ausführungsbeispiele der Erfindung näher erläutert und teilweise anhand von Figuren illustriert. Es zeigen
1 schematisch wie ein Merkmal im realen Raum ξ_i von einer bewegten Fahrzeugkamera abgebildet wird,
2 die Abhängigkeit des Reprojektionsfehlers vom Fehler der Geschwindigkeitsschätzung für unterschiedliche fehlerfreie Merkmalstiefen,
3 einen Vergleich von Reprojektionsfehler und dem Verhältnis von Reprojektionsfehler zu optischem Fluss für Merkmale mit unterschiedlicher Tiefe,
4 einen Vergleich der Messergebnisse eines Ausführungsbeispiels der Erfindung und der zwei besten kamerabasierten Algorithmen im KITTI Benchmark (Stand 11.01.2016), und
5 einen Vergleich der Messergebnisse der drei besten auf Stereokamera und Laser Scanner basierten Systeme im KITTI Benchmark mit einem Ausführungsbeispiel der Erfindung.
Einen Ausreißer (engl. outlier) kann man folgendermaßen bestimmen.
Das Hauptproblem der visuellen Odometrie besteht darin, aus allen extrahierten Merkmalen, die geeigneten Merkmale (= Inlier) von den Ausreißern, also nicht geeigneten Merkmalen (Outlier), zu unterscheiden. Üblicherweise werden hierzu nur Merkmale mit verlässlicher Messung und über die Definition eines Kriteriums, wie gut diese Messungen zu einer Hypothese einer geschätzten Bewegung passen.
Die Verlässlichkeit von Messungen hat zwei Aspekte:
Erstens die Verlässlichkeit der Bestimmung von Merkmalskorrespondenzen für die Disparitätsberechnung. Eindeutigkeit einer Korrespondenz von Merkmalen im rechten und linken Bild.
Zweitens wird die Genauigkeit der Korrespondenzen begrenzt durch die Bildauflösung. Selbst wenn die Korrespondenz eines Merkmals im rechten und im linken Bild eindeutig ist, kann die Posenänderung („pose change”) umso ungenauer bestimmt werden, je kleiner die Entfernung der korrespondierenden Merkmale, also ihre Disparität ist.
Letzten Endes reduziert sich die Auflösung der rekonstruierten Tiefe quadratisch mit der Entfernung.
Somit könnte man Merkmale im Nahbereich mit hochkonfidenten Korrespondenzwerten als geeignete Merkmale wählen.
Die Posenänderung der Kamera zwischen den Zeitpunkten t – 1 und t ergibt sich für aus dem Translationsvektor T und der Rotationsmatrix R (der Kamerabewegung). Da die Kamera für Fahrerassistenzanwendungen in der Regel im Fahrzeug fest eingebaut ist, entspricht die Bewegung der Kamera der Bewegung des Fahrzeugs.
I. Wie kann ein Ausreißer definiert werden?
Ausgangspunkt ist die klassische Schätzfunktion der kleinsten quadratischen Abweichung:
wobei die Normen ε t / i als Reprojektionsfehler bezeichnet werden für ein Merkmal mit dem Index i zur Zeit t innerhalb des Satzes von Merkmalen
Das Koordinatenpaar {x t-1 / i, x t / i} ∈
wird angegeben in homogenen normalisierten Bildkoordinaten x t / i = [x t / i, y t / i, 1]^T für alle 3D-Punkte p_i ∈
mit den Kamerakoordinaten X t / i = [X t / i, Y t / i, Z t / i]^T = λ t / ix t / i. Die Posenänderung der Kamera zwischen den Zeitpunkten t – 1 und t ist gegeben durch den 3D Translationsvektor T = [t_x, t_y, t_z]^T ∈
und die Rotationsmatrix R ∈ SO(3), wobei der Raum der Rotationsmatritzen angegeben wird mit SO(3) ≔ {R ∈ R^3×3|R^TR = I, det(R) = 1}, und π bezeichnet die Standard Planarprojektion [X, Y, Z]^T ↦ [X/Z, Y/Z, 1]^T.
1 veranschaulicht schematisch diese Zusammenhänge. Ein Merkmal ξ_i im realen Raum wird zum Zeitpunkt t – 1 von einer Fahrzeugkamera abgebildet, wobei sich die Bildkoordinate x t-1 / i für dieses Merkmal ergibt. In 1 ist die Fahrzeugkamera eine Stereokamera (dargestellt als zwei benachbarte Parallelogramme, die jeweils ein Kameramodul symbolisieren), die zu einem Aufnahmezeitpunkt jeweils ein Bildpaar bestehend aus einem linken und einem rechten Bild erzeugt. Dies ist eine Möglichkeit, um die Tiefe des Merkmals mittels Triangulation bzw. über die Bestimmung der Disparität zu ermitteln. Die Disparität ergibt sich aus der Verschiebung des korrespondierenden Merkmals x t-1 / i im linken und rechten Bild.
Ein erfindungsgemäßes Verfahren ist jedoch nicht auf die Stereokamera als Fahrzeugkamera beschränkt, da auch andere Kameras die Rekonstruktion eines Tiefenbildes ermöglichen, insbesondere TOF-Kameras wie z. B. HiRes Flashlidar, aber auch aus Monobilddaten ist eine 3D-Szenenrekonstruktion möglich, zumindest näherungsweise.
Die Projektion beispielsweise des Raumpunktes ξ_i relativ zur linken Kamera auf das linke Bild x t-1 / i ist in 1 durch die gestrichelte Linie angedeutet.
Die Kamera ändert anschließend ihre Pose durch Translation und Rotation (Kamerabewegung). Zum Zeitpunkt t bildet die Kamera das Merkmal an der Bildkoordinate x t / i ab. Mittels der Hypothese der Bewegung der Kamera kann nun virtuell die Kamera im Raum bewegt werden und unter Berücksichtigung der Abbildungseigenschaft der Kamera berechnet werden, wo das Merkmal ξ_i im nächsten Bild abgebildet wird (Projektion). Die Abweichung dieser Position von der tatsächlichen Bildkoordinate x t / i (durchgezogene Linie) entspricht dem Reprojektionsfehler ε t / i.
Der klassischen Vorgehensweise bei visueller Odometrie folgend, wird angenommen, dass für jeden Punkt p_i die Tiefe λ ∈
gemessen wird durch einen Stereovision-Algorithmus, die Bildkoordinaten x t-1 / i werden durch einen Merkmalsdetektor extrahiert und die korrespondierenden Bildkoordinaten im nächsten Frame x t / i werden durch einen optischen Fluss Algorithmus gemessen. Um die optimale Schätzung der Posenänderung (R ^, T ^) über eine Minimierung der Vorgabe gemäß Gleichung (1) mittels einem iterativen Gradientenabnahmeverfahren (z. B. Gauss-Newton oder Levenberg-Marquardt Verfahren) zu finden, muss eine initiale Schätzung der Posenänderung vorgegeben werden.
Hierbei trifft man auf das Hauptproblem der visuellen Odometrie:
Aus dem Satz aller extrahierten Merkmale müssen passende Merkmale

– die „Inlier” – gefunden und alle anderen Merkmale des Satzes
– die Ausreißer – verworfen werden. Üblicherweise erfolgt die durch die Auswahl nur der Merkmale mit vertrauenswürdigen Messungen {λ t / i, x t-1 / i, x t / i} und durch die Definition eines Kriteriums wie gut diese Messungen mit einer Hypothese der geschätzten Posenänderung (R ~, T ~) übereinstimmen.

Die Vertrauenswürdigkeit einer Messung hat zwei Aspekte. Erstens dürfen bei Stereovision nur unzweideutige Korrespondenzen berücksichtigt werden, z. B. solche, die nicht vom Aperturproblem betroffen sind. Denn die Tiefe λ t / i = b/d t / i wird bei Stereovision aus der Disparität d t / i rekonstruiert, wobei eine Stereokamera mit einer festen bekannten Basislänge b verwendet wird. Und sowohl die Disparität d t / i als auch die Paare {x t-1 / i, x t / i} basieren auf einer Korrespondenzsuche.
Zweitens ist die Genauigkeit dieser Korrespondenzen durch die Auflösung der Bilder limitiert. Also selbst wenn die Korrespondenzen unzweideutig sind, wird die Schätzung der Posenänderung umso ungenauer, je kleiner die Abstände ||x t / i – x t-1 / i|| und d t / i werden. Das liegt daran, dass die Verhältnisse ||x t / i – x t-1 / i||/Δp und d t / i/Δp zwischen den Abständen ||x t / i – x t-1 / i||, d t / i und der limitierten Bildauflösung ∆p mit kleineren Entfernungen kleiner werden und daher das Signal-zu-Auflösungsverhältnis abnimmt.
Insbesondere für die Genauigkeit der rekonstruierten Tiefe λ t / i = b/d t / i ist dies entscheidend, da die Tiefe ∂λ t / i ∝ ∂d t / i(λ t / i)² quadratisch mit dem Abstand abnimmt.
Bis hierher erscheint es einfach die passenden Merkmale herauszufinden. Man wähle nahe Merkmale mit einem großen optischen Fluss aus, die auf Korrespondenzschätzungen mit hoher Konfidenz basieren. Zusätzlich muss für eine optimale Schätzung (R ^, T ^) jedes Merkmal die Epipolarbedingung erfüllen, somit dürfen die Merkmale nur Projektionen von statischen Punkten in der Szene sein.
Da nicht garantiert werden kann, dass die Messungen alle vertrauenswürdig sind, und da die optimale Posenänderung nicht bekannt ist, muss eine gute Hypothese (R ~, T ~) gefunden werden und ein sinnvolles Kriterium, um so viele geeignete Merkmale wie möglich zu behalten.
Man ist in einem Henne und Ei Problem gefangen. Um es zu lösen, wird der Reprojektionsfehler gemäß Gleichung (2) in zwei Wegen näher untersucht: einerseits soll er als Kriterium zur Ausreißereliminierung verwendet werden und andererseits soll der Reprojektionsfehler die Hypothese der Posenänderung verbessern, wenn die Inlier berücksichtigt werden. Um beide Unteraufgaben in einem alternierenden Schema zu kombinieren, soll nun herausgefunden werden, wie der Reprojektionsfehler für beide Unteraufgaben derart verwendet werden kann, dass so viele Inlier wie möglich behalten werden können, was auch zu einer genaueren Schätzung der Posenänderung führt.
Um ein gutes Kriterium zur Ausreißereliminierung zu finden, untersuchen wir die Abhängigkeit des Reprojektionsfehlers bei Messwerten unter der Annahme von fehlerfreien Messungen {λ ^ t / i, x ^ t-1 / i, x ^ t / i} und einer ungenauen Hypothese (R ~, T ~) der Posenänderung. Um die Hypothese der Posenänderung zu verbessern, nehmen wir fehlerbehaftete Messungen {λ ~ t / i, x ~ t-1 / i, x ~ t / i} an und versuchen die Verbesserung der iterativen Schätzung der Posenänderung (R ^, T ^) zu maximieren, indem wiederum das Wissen über die Abhängigkeit des Reprojektionsfehlers verwendet wird.
Wie aus Shi und Tomasi, Good features to track, in IEEE Conference on Computer Vision and Pattern Recognition, Proceedings, 1994, bekannt ist, treten hohe Fehler in der Translationsschätzung auf bei großen longitudinalen Posenänderungen entlang der optischen Achse. Die Translationsschätzungen werden besonders schlecht bei weit entfernten Merkmalen, siehe Persson et al., Robust stereo visual odometry from monocular techniques, in IEEE Intelligent Vehicles Symposium, 2015. Um einen ersten Eindruck der Konsequenzen dieser Sensitivität in solchen Fahrszenarien zu erhalten, zeigt 2 die Abhängigkeit des Reprojektionsfehlers ε t / i bzw. RE in Pixeln [px] für eine fehlerbehaftete Translationsschätzung t ~_z = t ^_z + Δt_z in z-Richtung mit t ^_z = 100 km/h aufgetragen über den relativen Fehler der Geschwindigkeitsschätzung Δt_z/t ^_z im Intervall von [–10%, 10%] für drei unterschiedliche (fehlerfreie) Merkmalstiefen λ ^ t / i von 10, 50 und 100 Metern. 2 zeigt deutlich, dass der Reprojektionsfehler linear zunimmt mit zunehmendem Translationsfehler.
Aber die Empfindlichkeit des Reprojektionsfehlers (Steigung der Geraden) nimmt mit zunehmender Entfernung (bzw. Tiefe) der Merkmale ab.
Mit einem konstanten Schwellwert zur Eliminierung von Ausreißern würden daher naheliegende Merkmale (mit geringer Tiefe) sehr schnell verworfen. Daraus ergibt sich jedoch insgesamt eine schlechtere Schätzung der Translation, da bei weiter entfernten Merkmalen, die nicht so schnell als Ausreißer verworfen werden, das Signal-zu-Rausch-Verhältnis schlechter wird und diese Merkmale nicht mehr sinnvoll verwertet werden können.
A. Der Reprojektionsfehler in Hochgeschwindigkeitsszenarien
Für fehlerfreie Messungen {λ ^ t / i, x ^ t-1 / i, x ^ t / i} und eine optimale Bewegungsschätzung (R ^, T ^) ist der Reprojektionsfehler (2) gleich Null, da gilt: x ^ t-1 / i = π(R ^λ ^ t / ix ^ t / i + T ^), ∀ i, t (3)
Um eine geeignete Schwelle zur Ausreißereliminierung zu finden, muss ein Bewegungsfehlerbereich (ΔR, ΔT) zusätzlich zur optimalen Bewegungsschätzung (R ^, T ^) definiert werden (R ~, T ~) = (R ^, T ^) + (ΔR, ΔT), um den Reprojektionsfehlerbereich bei fehlerbehafteter Bewegung und fehlerfreien Messungen zu finden. Das ergibt folgende Abhängigkeit des Reprojektionsfehlers Δε t / i = ||x ^ t-1 / i – π(R ~λ ^ t / ix ^ t / i + T ~)||₂, ∀ i, t. (4)
Nun können für Hochgeschwindigkeitsszenarien sehr kleine Rotationen angenommen werden
1. Hochgeschwindigkeitsnäherung

R ≈ I, (5)
demnach ist die Rotationsmatrix ungefähr gleich der Einheitsmatrix und
longitudinale Bewegungen sind sehr viel größer als horizontale Bewegungen, also sind die translatorischen Komponenten ungefähr gleich Null:

2. Hochgeschwindigkeitsnäherung

t_x, t_y ≈ 0. (6)

Durch Anwenden der Näherungen (5) und (6) erhält man eine Näherung der Sensitivität des Reprojektionsfehlers (4) bei hohen Geschwindigkeiten für eine fehlerbehaftete Bewegungshypothese, die lautet
Die Empfindlichkeit des Reprojektionsfehlers skaliert mit dem Absolutwert der Bildkoordinate ||x ^ t / i||₂ und wird von der Merkmalstiefe λ ^ t / i gedämpft. Das bedeutet, dass eine inkorrekte Bewegungshypothese t ~_z = t ^_z + Δt_z mit einem fixen Fehlerbereich Δt_z eine abweichende Sensitivität Δε t / i erzeugt, die von der Position des Merkmals abhängt.
Somit eliminieren Verfahren, die auf der Ausreißereliminierung mittels eines konstanten Schwellwerts für den Reprojektionsfehler basieren, nahe Merkmale, obwohl die Messungen fehlerfrei sind (oder fehlerbehaftet im selben Maße wie weit entfernte Merkmale).
Das führt zum Zusammenbruch der Ausreißereliminierung in Hochgeschwindigkeitsszenarien für Verfahren mit einem konstanten Schwellwert für den Reprojektionsfehler. Da nahe Merkmale mit hohen Absolutwerten ihrer Korrespondenzen während der Ausreißereliminierung verloren werden, wird die Sensitivität des Reprojektionsfehlers gegenüber der Vorwärtstranslation verloren, wie aus 2 ersichtlich ist.
Dies resultiert wiederum in einer verschlechterten Schätzung der Translation, weil das Signal-zu-Auflösungsverhältnis kleiner wird und nicht mehr verwertet werden kann. Abschließend ist festzuhalten, dass eine sinnvolle Schwelle zur Beurteilung der Qualität eines Merkmals kein konstanter Wert sein kann, sondern die Tiefe und die Länge der Bildkoordinaten berücksichtigen muss, um eine bedeutende Aussage über die Qualität eines Merkmals zu machen.
B. Nahezu invariantes Kriterium zur Ausreißereliminierung
Um die Abhängigkeit des Reprojektionsfehlers von der Merkmalsposition zu reduzieren, können wir entweder eine positionsangepasste Schwelle zur Ausreißereliminierung verwenden oder den Reprojektionsfehler normieren mit der Koordinate ||x ^ t / i||₂ skaliert und der Tiefe λ ^ t / i als Dämpfung. Da die Auflösung der gemessenen Tiefenwerte mit der Entfernung abnimmt und die Tiefenmessungen allgemein fehlerbehaftet sind, wollen wir diese nicht einbeziehen, um die Tiefendämpfung des Reprojektionsfehlers zu kompensieren. Stattdessen verwenden wir die Abhängigkeit des Absolutwerts des optischen Flusses von der Tiefe und verwenden die Messungen des optischen Flusses zur Normierung des Reprojektionsfehlers wie folgt:
Der fehlerfreie Absolutwert des opitschen Flusses eines Merkmals, der von einer fehlerfreien geraden Vorwärtsbewegung t ^_z induziert wird, lautet unter den Annahmen (5) und (6)
Durch das Verwenden des Absolutwertes des aktuellen optischen Flusses als Normierung der Sensitivität des Reprojektionsfehlers, erhalten wir
Hierbei ergibt sich die zweite Näherung aus der Annahme, dass die Tiefe viel größer als die longitudinale Bewegung ist λ ^ t / i » t ^_z + Δt_z.
Aus diesem Grund skaliert der normierte Reprojektionsfehler nicht länger mit dem Absolutwert der Bildkoordinaten und hängt fast nicht von der Entfernung bei entfernten Merkmalen ab.
Daher wenden wir folgende Fallunterscheidung (,if' bedeutet falls; ,else' bedeutet anderfalls) an unter Verwendung einer Schwelle ε_thresh auf den normierten Reprojektionsfehler, um jedes Merkmal als Mitglied des aktuellen Merkmalssatzes zu kennzeichnen:
Dieses Kriterium (als Bestandteil eines Ausreißereliminierungsschemas wie nachfolgend erklärt wird) erweist sich als sehr geeignet zur Ausreißereliminierung, insbesondere in Hochgeschwindigkeitsszenarien, weil es nahezu unabhängig ist von den 3D-Positionen der Merkmale.
Eine rotatorische Komponente der Bewegungshypothese kann kompensiert werden, indem der Reprojektionsfehler normiert wird mit dem Fluss nach der Kompensation der rotatorischen Komponente. Beim derart normierten Reprojektionsfehler
wird eine externe Rotationsschätzung R ^^t dazu verwendet, die gemessenen Bildpunkte rechts im Nenner so zu transformieren, dass die Rotation des Fahrzeugs in der Korrespondenz ausgeglichen wird. Dadurch bleibt nur der Fluss durch die Translation übrig. Das heißt, wir transformieren jedes Szenario auf die Situation ”rotationsfrei”, was ja bislang die Annahme für die Anwendbarkeit des Fehlermaßes gemäß Gleichung (12) war.
Das gleiche R ^^t setzen wir für die Berechnung des Reprojektionsfehlers konstant ein (optimieren also nur noch nach T ^^t ).
Damit lässt sich die beschriebene Ausreißererkennung nicht nur für Hochgeschwindigkeitsszenarien (mit der Annahme der Rotationsfreiheit) verwenden. Dies erweitert die Szenarien deutlich, in denen das Verfahren zu Verbesserungen führt.
Die Indizes t und t – 1 stehen hier für den Zeitpunkt der Schätzung, n für das betrachtete Merkmal.
3 zeigt den Vergleich des Rückprojektionsfehlers ε t / i bzw. RE in Pixeln (oben) und des normalisierten Rückprojektionsfehlers ε t / i bzw. NRE (unten) für eine Auswahl unterschiedlicher Merkmale, wobei jedes zehnte Merkmal f t / i einen Fehler der geschätzten Tiefe λ t / i in Metern von 10% aufweist (Mitte), bei einer simulierten Vorwärtsbewegung t_z von 100 km/h. Die Tiefen der Merkmale beginnen bei 3 m für das erste Merkmal f t / 1 und reichen bis 100 m für das 50. Merkmal f t / 50. Der Rückprojektionsfehler ε t / i (3 oben) erlaubt keine zielführende Trennung von Ausreißern und Inliern, da er mit dem Absolutwert der Koordinate von Merkmalen skaliert. Dagegen ermöglicht der normalisierte Rückprojektionsfehler ε t / i (3 unten) eine klare Unterscheidung der Ausreißer, da der normalisierte Rückprojektionsfehler dieser Merkmale etwa um einen Faktor zwei größer ist als der fehlerfreien Merkmale.
C. Hypothesenverbesserung anhand des Satzes von Inliern
Eine Frage bleibt offen: Da der normierte Reprojektionsfehler (11) die Ausreißereliminierung verbessert, ist er auch geeignet, um eine verbesserte Hypothese des least-square Problems in Gleichung (1) zu erhalten? Unter der Annahme von fehlerbehafteten Messungen {λ ~ t / i, x ~ t-1 / i, x ~ t / i} und beim Versuch Gleichung (1) zu minimieren um eine bessere Schätzung der Posenänderung (R ^, T ^) zu erhalten, sollten nun die Merkmale, deren Messungen eine hohe Auflösung aufweisen, mehr zur Schätzung beitragen als Merkmale mit geringer Auflösung. Das kann umgesetzt werden mit einer Erweiterung von (1) auf ein gewichtetes least-squares Problem, das eine Abnahme der Gewichte für entfernte Merkmale und eine Zunahme der Gewichte für große optische Fluss Amplituden verwirklicht. Betrachtet man die Näherung des Reprojektionsfehlers in Gleichung (8) für große longitudinale Geschwindigkeiten, erfolgt diese Gewichtung intrinsisch durch den Reprojektionsfehlers selbst, während der normierte Reprojektionsfehler die Merkmale mehr oder weniger gleich gewichten würde. Somit ist zur Verbesserung der Bewegungshypothese auf der Basis der aktuellen Saztes von Inliern der (nicht-normierte) Reprojektionsfehler bereits bestens geeignet.
II. Stufenweise abwechselndes Schema zur Ausreißereliminierung und Posenverbesserung
Um ein iteratives Optimierungsschema, das sorgfältig abwechselt zwischen einer schrittweisen Ausreißereliminierung und einer Verbesserung der Posenänderung, zu verwirklichen, benötigen wir einen geeigneten Satz mit einer vernünftigen Anzahl an Merkmalen, mit dem wir starten. Ein geeignetes Merkmal hat unzweideutige zeitliche und stereoskopische Korrespondenzmessungen, um so viele verlässliche optische Fluss und Tiefenschätzungen wie möglich zu bekommen.
A. Initialisierung pro Frame
Unser Ausgangsmerkmalssatz für jedes Stereobildpaar wird wie folgt erstellt, wobei nur Standardfunktionen (z. B. der OpenCV Bibliothek) zum Einsatz kommen:
Wir beginnen mit der Merkmalsauswahl nach der Methode von Shi und Tomasi
Für jedes Merkmal wird die Disparität zum Zeitpunkt t – 1 berechnet unter Verwendung von SAD-basiertem Block-matching. Zur Initialisierung des optischen Flusses, triangulieren wir die Position jedes Merkmals im dreidimensionalen Raum zur Zeit t – 1 und reprojezieren die Merkmale auf den aktuellen Frame zur Zeit t mit einer konstanten Drehrate und Geschwindigkeitsmodell basierend auf der zuletzt geschätzten Posenänderung (welches eine Variante eines Bewegungsmodell mit prädiktivem Tracking durch Matchen ist, vorgeschlagen in Persson et al. (s. oben).
Danach wird der optische Fluss für das linke und rechte Bild zwischen den Zeitpunkten t – 1 und t verfeinert mit dem Lucas-Kanade Verfahren nach Bouguet, Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm, 2001, Intel Corp. 5. Der finale Merkmalssatz mit einer Startnummer für die Initialisierung wird erreicht durch eine links-rechts Konsistenzprüfung zur Zeit t für alle übrigen optischen Fluss Schätzungen (welches eine Variante des circular matchings ist, vorgeschlagen in Geiger et al., Stereoscan: Dense 3d reconstruction in real-time, in Intelligent Vehicles Symposium, 2011).
B. Alternierende Iteration basierend auf MAximum Subset of Outlier Removal
Wir iterieren über p abwechselnd zwischen a) einer Posenverbesserung unter Festhalten des aktuellen Satzes an Inliern und b) Ausreißereliminierung unter Festhalten der aktuellen Pose (R ^_p, T ^_p):

a) Posenverbesserung beginnt mit
bei der ersten Iteration p = 0. Die Posenschätzung wird initialisiert mit der Schätzung des letzten Frames R ^ t / 0 = R ^^t-1 und T ^ t / 0 = T ^^t-1. Im Folgenden wird der Index t der Einfachheit halber weggelassen:
b) zur Ausreißereliminierung wenden wir unser kombiniertes Kriterium zur Fallunterscheidung an, welches wir als ROCC bezeichnen (Robust Outlier Criterion for Camera-based Odometry):

Der Schwellwert ε thresh / p gilt also für den normierten Reprojektionsfehler und ist ein Beispiel eines konstanten Faktor der Schwelle, der unter Berücksichtigung von physikalischen Eigenschaften der Fahrzeugkamera vorgegeben werden kann. Die erste Bedingung erfordert einen hinreichend großen optischen Fluss, ansonsten ist eine Normierung des Reprojektionsfehlers nicht nicht möglich (instabil). Ein kleiner optischer Fluss tritt insbesondere bei weit entfernten Merkmalen auf. Hier greift das zweite Kriterium alternativ ein, was dann erfordert, dass der nichtnormierte Reprojektionsfehler unterhalb eines niedrigen konstanten Schwellwerts ε thresh / p liegt. Solange also mindestens ein Kriterium erfüllt ist, gilt das Merkmal als Inlier.
Die Schwellen ε thresh / p und ε thresh / p werden während der Iterationen von grob zu fein herabgesenkt.
Wenn die Anzahl der Merkmalssätze N_p sich nicht mehr ändert, ist eine minimale Anzahl an Merkmalen N_min oder eine maximale Anzahl von Iterationen p_max erreicht. Wir beenden unser robustes Posenschätzungsschema und führen einen letzten Optimierungsdurchlauf mit den übriggebliebenen Merkmalen (Inliern) durch. Dieser Durchlauf wird initialisiert mit der Rotation und Translationsrichtung aus openCVs Standard least median of squares 2D-2D Fünfpunktverfahren.
III. Auswertung und Ergebnisse aus Vergleichsmessungen
Die Auswertung basiert auf dem KITTI Benchmark (http://www.cvlibs.net/datasets/KITTI bzw. Geiger et al. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite, Conference on Computer Vision and Pattern Recognition (CVPR), 2012), welches Stadt-, Überland und Autobahnszenarien bereitstellt. Zu den im Folgenden als Vergleichsmessungen angegebenen Verfahren (SOFT, cv4xv1-sc, V-LOAM, LOAM und DEMO) sind nähere Informationen erhältlich unter http://www.cvlibs.net/datasets/kitti/eval_odometry.php bzw. unter ,Odometry' auf der KITTI Website.
Um die Leistungsfähigkeit eines Ausführungsbeispiels der Erfindung in Hochgeschwindigkeitsszenarien auszuwerten, wird zunächst ein Vergleich mit bekannten Algorithmen der visuellen Odometrie ohne zusätzliche Sensordaten für unterschiedliche Geschwindigkeiten v in km/h durchgeführt: Unser Verfahren war am 11.01.2016 das erstplatzierte rein kamerabasierte Verfahren mit einem Gesamtfehler von 0,98%. Das SOFT-Verfahren („Multi Frame Tracking SOFT” in 4) erzielte das zweitbeste Gesamtergebnis des KITTI Benchmarks mit einem Translationsfehler TE von 1,03%. Die Autoren verwenden ein Merkmals-Tracking auf der Basis mehrerer Bilder.
Mit einem Fehler von 1,09% zeigt der Algorithmus cv4xv1-sc („BA, cv4xv1-sc” in 4) eine geringfügig schlechtere Qualität. Hierbei verwenden die Autoren Bundle Adjustment, um die Bewegungsschätzung zu verbessern.
Im Gegensatz zu diesen beiden Algorithmen, verwenden wir die Historie eines Merkmals nicht, sondern stützen uns nur auf die Frame-to-Frame-Information der Merkmale. Wie in 4 dargestellt führt dies zu einem nahezu konstanten Fehler zusätzlichen Fehler gegenüber den beiden bekannten Methoden. Trotz des Verlusts der Präzision infolge der Nichtnutzung der Historie der Merkmale für unser neues Schema zur Ausreißereliminierung (ROCC) zu einem geringeren Fehler ab Geschwindigkeit von etwa 65 km/h.
Dies zeigt, dass die Anwendung unseres neuen Fehlermaßes selbst einem vergleichsweise unpräzisen System das Übertreffen der herkömmlichen Verfahren ermöglicht. Eine Erweiterung mittels Bundle Adjustment zur weiteren Qualitätssteigerung unseres Verfahrens ist daher möglich.
Um die Leistungsfähigkeit in Hochgeschwindigkeitsszenarien zu unterstreichen, vergleichen wir unsere Ergebnisse mit Verfahren, die zusätzlich Informationen eines hochgenauen Laserscanners berücksichtigen: Mit einem Fehler von 0,88% und 1,14% erzielen die Verfahren LOAM und DEMO eine sehr hohe Rekonstruktionsqualität. Die bestplatzierte Methode V-LOAM erzielt sogar einen Gesamtfehler von 0,75%.
5 zeigt die Ergebnisse eines Vergleichs der Messergebnisse von Laser Scanner Systemen mit einem Ausführungsbeispiel der Erfindung. Zwar ist die Messgenauigkeit des Kamerabasierten Systems der der Laserscanner insgesamt unterlegen. Jedoch liefert die sorgfältige Ausreißer-Eliminierung bei Geschwindigkeiten ab 70 km/h die besten Messergebnisse.
Bei Geschwindigkeiten von 70 km/h und mehr bietet unsere Ausgestaltung somit die besten Ergebnisse aller Kamera- und Laserscannersystemen nach dem Stand der Technik im KITTI-Benchmark.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2013/037840 A1 [0005]
WO 2010/099789 A1 [0006]

Zitierte Nicht-Patentliteratur

B. Kitt et al. zeigen beispielsweise in der Veröffentlichung Visual odometry based on stereo image sequences with ransac-based outlier rejection scheme, IEEE Intelligent Vehicles Symposium, 2010 [0012]
Kitt et al. Monocular Visual Odometry using a Planar Road Model to Solve Scale Ambiguity, in Proc. of the European Conference on Mobile Robots, Örebro, Schweden, September 2011 [0044]
Shi und Tomasi, Good features to track, in IEEE Conference on Computer Vision and Pattern Recognition, Proceedings, 1994 [0074]
Persson et al., Robust stereo visual odometry from monocular techniques, in IEEE Intelligent Vehicles Symposium, 2015 [0074]
Persson et al. [0098]
Lucas-Kanade Verfahren nach Bouguet, Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm, 2001, Intel Corp. 5 [0099]
Geiger et al., Stereoscan: Dense 3d reconstruction in real-time, in Intelligent Vehicles Symposium, 2011) [0099]
http://www.cvlibs.net/datasets/KITTI [0104]
Geiger et al. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite, Conference on Computer Vision and Pattern Recognition (CVPR), 2012 [0104]
http://www.cvlibs.net/datasets/kitti/eval_odometry.php [0104]

Claims

Verfahren zur Bildauswertung von Bilddaten einer Fahrzeugkamera umfassend die folgenden Schritte, wobei zumindest die Schritte b) bis g) Bestandteil eines Iterationsschrittes sind: a) Aufnahme eines ersten Bildes mittels der Fahrzeugkamera, b) Aufnahme eines darauffolgenden zweiten Bildes mittels der Fahrzeugkamera c) Extraktion von mehreren korrespondierenden Merkmalen im ersten und zweiten Bild, d) Annahme einer Bewegung der Fahrzeugkamera (Bewegungshypothese) zwischen der Aufnahme des ersten und zweiten Bildes e) Bestimmung eines Reprojektionsfehlers eines extrahierten Merkmals, wobei der Reprojektionsfehler den Unterschied zwischen dem aus dem im ersten und zweiten Bild extrahierten Merkmal gemessenen Fluss und dem aus der Bewegungshypothese berechneten Fluss angibt, f) Ermittlung von Ausreißern, wobei ein extrahiertes Merkmal als Ausreißer ermittelt wird, wenn der Reprojektionsfehler dieses Merkmals eine Schwelle erreicht oder überschreitet, g) wobei die Schwelle innerhalb eines Iterationsschrittes nicht konstant ist.
Verfahren nach Anspruch 1, wobei die Schwelle abhängt von mindestens einem Parameter der extrahierten Merkmale.
Verfahren nach Anspruch 2, wobei die Schwelle abhängt von dem aus dem im ersten und zweiten Bild extrahierten korrespondierenden Merkmal gemessenen Fluss.
Verfahren nach Anspruch 3, wobei die Schwelle proportional zu dem aus dem im ersten und zweiten Bild extrahierten Merkmal gemessenen Fluss ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Schwelle einen konstanten Faktor und einen variablen Anteil umfasst, wobei der konstante Faktor unter Berücksichtigung von physikalischen Eigenschaften der Fahrzeugkamera vorgegeben werden kann.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in einem weiteren Schritt h) die Bewegung der Fahrzeugkamera unter Berücksichtigung der im aktuellen Iterationsschritt nicht als Ausreißer eliminierten Merkmale rekonstruiert wird.
Verfahren nach Anspruch 6, wobei in einem folgenden Iterationsschritt als Bewegungshypothese für Schritt d) die im letzten Iterationsschritt in Schritt h) rekonstruierte Bewegung der Fahrzeugkamera verwendet wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Schwelle oder der konstante Faktor der Schwelle bei der folgenden Iteration abgesenkt wird.
Verfahren nach einem der Ansprüche 6 bis 9, wobei das Verfahren bei hohen translatorischen Bewegungsgeschwindigkeiten der Fahrzeugkamera zum Einsatz kommt, wobei hohe Geschwindigkeiten vorzugsweise größer oder gleich 30 km/h, insbesondere größer oder gleich 50 km/h sind.
Verfahren nach einem der Ansprüche 6 bis 10, wobei die rekonstruierte Fahrzeugkamerabewegung zur Eigenlokalisierung hinzugezogen wird.
Verfahren nach einem der Ansprüche 6 bis 11, wobei die rekonstruierte Fahrzeugkamerabewegung zur Bestimmung des Schwimmwinkels des Fahrzeugs, in dem die Fahrzeugkamera angeordnet ist, verwendet wird.
Verfahren nach einem der Ansprüche 6 bis 12, wobei die rekonstruierte Fahrzeugkamerabewegung zur Bestimmung des Raddurchmessers des Fahrzeugs, in die Fahrzeugkamera angeordnet ist, verwendet wird.
Verfahren nach einem der Ansprüche 6 bis 13, wobei eine Kalibrierung der Fahrzeugkamera erfolgt durch einen Vergleich der rekonstruierten Fahrzeugkamerabewegung mit der aus anderen Sensoren ermittelten Bewegung des Fahrzeugs.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Fahrzeugkamera eine Stereokamera ist.
Vorrichtung umfassend Mittel zur Bildauswertung von Bilddaten einer Fahrzeugkamera, wobei die Mittel zur Durchführung der folgenden Schritte ausgebildet sind: a) Aufnahme eines ersten Bildes mittels der Fahrzeugkamera, b) Aufnahme eines darauffolgenden zweiten Bildes mittels der Fahrzeugkamera c) Extraktion von mehreren korrespondierenden Merkmalen im ersten und zweiten Bild, d) Annahme einer Bewegung der Fahrzeugkamera (Bewegungshypothese) zwischen der Aufnahme des ersten und zweiten Bildes e) Bestimmung eines Reprojektionsfehlers eines extrahierten Merkmals, wobei der Reprojektionsfehler den Unterschied zwischen dem aus dem im ersten und zweiten Bild extrahierten Merkmal gemessenen Fluss und dem aus der Bewegungshypothese berechneten Fluss angibt, f) Ermittlung von Ausreißern, wobei ein extrahiertes Merkmal als Ausreißer ermittelt wird, wenn der Reprojektionsfehler dieses Merkmals eine Schwelle erreicht oder überschreitet, g) wobei die Schwelle innerhalb eines Iterationsschrittes nicht konstant ist