DE102012000459A1

DE102012000459A1 - Verfahren zur Objektdetektion

Info

Publication number: DE102012000459A1
Application number: DE102012000459A
Authority: DE
Inventors: Markus Enzweiler; Dr.-Ing. Franke Uwe
Original assignee: Daimler AG
Current assignee: Mercedes Benz Group AG
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2012-07-12

Abstract

Die Erfindung betrifft ein Verfahren zur Objektdetektion, bei dem jeweils zwei Bilder einer Umgebung aufgenommen werden und mittels Stereobildverarbeitung ein Disparitätsbild ermittelt wird, wobei im Disparitätsbild ein hindernisfreier Freiraum (F) der Umgebung identifiziert wird und das Disparitätsbild außerhalb des Freiraums (F) segmentiert wird, indem Segmente (S1 bis Sm) gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden. Erfindungsgemäß wird für jedes Segment (S1 bis Sm) eine Klassifikationsfläche (K1 bis Kk) mit definierten Abmessungen erzeugt, wobei ein Mittelpunkt (MP) einer unteren Kante einer Klassifikationsfläche (K1 bis Kk) im Fuis Sm) angeordnet wird. Weiterhin wird das jeweilige Segment (S1 bis Sm) mit der zugehörigen Klassifikationsfläche (K1 bis Kk) in eine zweidimensionale Darstellung der Umgebung transformiert, wobei innerhalb der Klassifikationsflächen (K1 bis Kk) in der zweidimensionalen Darstellung nach Objekten (O1 bis On) gesucht wird und diese klassifiziert werden.

Description

Die Erfindung betrifft ein Verfahren zur Objektdetektion, bei dem jeweils zwei Bilder einer Umgebung aufgenommen werden und mittels Stereobildverarbeitung ein Disparitätsbild ermittelt wird, wobei im Disparitätsbild ein hindernisfreier Freiraum der Umgebung identifiziert wird und das Disparitätsbild außerhalb des Freiraums segmentiert wird, indem Segmente gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden.
Aus dem Stand der Technik ist es allgemein bekannt, aus mittels eines Sensorsystems erfassten Umgebungsbildern Objekte anhand klassifizierender Verfahren zu detektieren, wobei zu diesem Zweck eine große Anzahl an Hypothesen durch die Bildung von Klassifikationsflächen überprüft werden. Diese Klassifikationsflächen, welche auch als ”Regions of Interest” bezeichnet werden, werden dabei für jeden Bildpunkt der Umgebungsbilder separat erzeugt. Eine Verringerung der Menge der Klassifikationsflächen wird mittels einer stereobasierten Vorfilterung erzielt.
Weiterhin ist aus der DE 10 2009 009 047 A1 ein Verfahren zur Objektdetektion bekannt, bei dem jeweils zwei Bilder einer Umgebung aufgenommen und mittels Stereobildverarbeitung ein Disparitätsbild ermittelt wird. Das Disparitätsbild wird auch als Entfernungsbild bezeichnet. Aus den ermittelten Disparitäten wird eine Tiefenkarte der Umgebung bestimmt, in der eine Freiraumbegrenzungslinie identifiziert wird, die einen hindernisfreien Bereich der Umgebung umgrenzt. Außerhalb und entlang der Freiraumbegrenzungslinie wird die Tiefenkarte segmentiert, indem Segmente einer geeigneten Breite aus Pixeln gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden. Eine Höhe jedes Segments wird als Teil eines außerhalb des hindernisfreien Bereichs befindlichen Objekts geschätzt, so dass jedes Segment durch die zweidimensionale Position seines Fußpunkts, gegeben durch Entfernung und Winkel zur Fahrzeuglängsachse, und seine Höhe charakterisiert wird. Das Disparitätsbild und die Tiefenkarte beschreiben und repräsentieren die Umgebung dreidimensional.
Der Erfindung liegt die Aufgabe zugrunde, ein gegenüber dem Stand der Technik verbessertes Verfahren zur Objektdetektion anzugeben.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren gelöst, welches die im Anspruch 1 angegebenen Merkmale aufweist.
Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand der Unteransprüche.
In einem Verfahren zur Objektdetektion werden jeweils zwei Bilder einer Umgebung aufgenommen und mittels Stereobildverarbeitung wird ein Disparitätsbild ermittelt. Im Disparitätsbild wird ein hindernisfreier Freiraum der Umgebung identifiziert und das Disparitätsbild wird außerhalb des Freiraums segmentiert, indem Segmente gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden.
Erfindungsgemäß wird für jedes Segment eine Klassifikationsfläche mit definierten Abmessungen erzeugt, wobei ein Mittelpunkt einer unteren Kante einer Klassifikationsfläche im Fußpunkt des jeweils zugehörigen Segments angeordnet wird. Weiterhin wird erfindungsgemäß das jeweilige Segment mit der zugehörigen Klassifikationsfläche in eine zweidimensionale Darstellung der Umgebung transformiert, wobei innerhalb der Klassifikationsflächen in der zweidimensionalen Darstellung nach Objekten gesucht wird und diese klassifiziert werden.
Aufgrund der erfindungsgemäßen Erzeugung jeweils einer Klassifikationsfläche für jeweils ein Segment wird gegenüber aus dem Stand der Technik bekannten Verfahren, bei welchen jedem Bildpunkt oder einer Vielzahl von Bildpunkten jeweils eine Klassifikationsfläche zugeordnet wird, eine signifikante Verringerung eines Aufwandes zur Detektion und Klassifikation der Objekte erzielt. Dies resultiert aus der verringerten Anzahl an zu untersuchenden Klassifikationsflächen. Auch kann gegenüber üblichen Klassifikatoren, welche immer eine endliche Fehlerwahrscheinlichkeit aufweisen, mittels des erfindungsgemäßen Verfahrens eine verbesserte Leistungsfähigkeit der Detektion und Klassifikation erzielt werden.
Ausführungsbeispiele der Erfindung werden im Folgenden anhand von Zeichnungen näher erläutert.
Dabei zeigen:
1 schematisch eine zweidimensionale Darstellung einer Umgebung eines Fahrzeugs nach dem Stand der Technik mit für eine Vielzahl von Bildpunkten erzeugten Klassifikationsflächen,
2 schematisch eine weitere zweidimensionale Darstellung einer Umgebung eines Fahrzeugs nach dem Stand der Technik mit für eine Vielzahl von Bildpunkten erzeugten Klassifikationsflächen nach einer stereobasierten Vorfilterung,
3 schematisch eine zweidimensionale Darstellung einer Umgebung eines Fahrzeugs mit einem hindernisfreien Freiraum und einer Anzahl von Segmenten zur Modellierung von Objekten in der Umgebung,
4A schematisch ein Segment,
4B schematisch das Segment gemäß 4A und eine zu diesem gehörige Klassifikationsfläche,
4C schematisch eine zweidimensionale Darstellung einer Umgebung eines Fahrzeugs mit dem Segment und der zu diesem gehörigen Klassifikationsfläche gemäß 4B, welche in die zweidimensionale Darstellung transformiert sind,
5 schematisch eine zweidimensionale Darstellung einer Umgebung eines Fahrzeugs mit für eine Anzahl von Segmenten erzeugten Klassifikationsflächen nach dem erfindungsgemäßen Verfahren,
6A schematisch eine weitere zweidimensionale Darstellung einer Umgebung eines Fahrzeugs mit für eine Anzahl von Segmenten erzeugten Klassifikationsflächen nach dem erfindungsgemäßen Verfahren, und
6B schematisch eine zweidimensionale Darstellung der Umgebung gemäß 6A mit nach dem erfindungsgemäßen Verfahren detektierten und klassifizierten Objekten.
Einander entsprechende Teile sind in allen Figuren mit den gleichen Bezugszeichen versehen.
In 1 ist eine zweidimensionale Darstellung einer Umgebung eines nicht gezeigten Fahrzeugs nach dem Stand der Technik dargestellt. Das Fahrzeug bewegt sich auf einer Fahrbahn, wobei am Fahrbahnrand eine Mehrzahl von als Fahrzeuge ausgebildeten Objekten O1 bis On geparkt sind.
Zur Detektion der Objekte O1 bis On in der Umgebung wird für eine Vielzahl von nicht näher dargestellten Bildpunkten, auch als Pixel bezeichnet, jeweils eine Klassifikationsfläche K1 bis Kk erzeugt. Eine derartige Klassifikationsfläche K1 bis Kk wird auch als ”Region of Interest” bezeichnet.
Aufgrund der großen Anzahl von Bildpunkten nach der dargestellten sogenannten ”Sliding Window Technik” für monokulare Bilder ergibt sich beispielsweise eine Anzahl von Klassifikationsflächen K1 bis Kk von 50.000 oder mehr.
Zur Detektion und Klassifizierung der Objekte O1 bis On als Fahrzeuge, Fußgänger, Radfahrer oder andere Objekte wird für jede Klassifikationsfläche K1 bis Kk ein klassifizierendes Verfahren durchgeführt. Als Verfahren kommen dabei die aus ”Enzweiler, M., Gavrila, D. M.: Monocular Pedestrian Detection: Survey and Experiments; In: IEEE Transactions on Pattern Analysis and Machine Intelligente, vol. 31, no. 12, pp. 2179–2195, 2009”, ”Dalal, N., Triggs, B.: Histograms of Oriented Gradients for Human Detection; In: Proc. IEEE Int'I Conf. Computer Vision and Pattern Recognition, pp. 886–893, 2005”, ”Viola, P. u. a: Detecting Pedestrians Using Patterns of Motion and Appearance; In: Int'I J. Computer Vision, vol. 63, no. 2, pp. 153–161, 2005” und ”Wöhler, C., Anlauf, J.: An Adaptable Time-Delay Neural Network Algorithm for Image Sequence Analysis; In: IEEE Trans. Neural Networks, vol. 10, no. 6, pp. 1531–1536, Nov. 1999” bekannten Verfahren zum Einsatz.
Aufgrund der großen Anzahl an Klassifikationsflächen K1 bis Kk und der zwingenden Durchführung der Klassifikationsverfahren für jede Klassifikationsfläche K1 bis Kk ist der Aufwand zur Detektion und Klassifikation der Objekte O1 bis On sehr groß.
2 zeigt eine weitere zweidimensionale Darstellung einer Umgebung eines Fahrzeugs nach dem Stand der Technik mit für eine Vielzahl von Bildpunkten erzeugten Klassifikationsflächen K1 bis Kk. Zur Verringerung der Anzahl der Klassifikationsflächen K1 bis Kk erfolgt eine stereobasierte Vorfilterung, wodurch sich die Anzahl der Klassifikationsflächen K1 bis Kk im dargestellten Beispiel auf ungefähr 5000 verringert. Die stereobasierte Vorfilterung erfolgt insbesondere nach dem aus ”Gavrila, D. M. und Munder, S.: Multi-Cue Pedestrian Detection and Tracking from a Moving Vehicle; In: Int'l J. Computer Vision, vol. 73, no. 1, pp. 41–59, 2007” bekannten Verfahren. Alternativ oder zusätzlich erfolgt eine Vorfilterung basierend auf dem optischen Fluss nach dem aus Enzweiler, M. u. a.: Monocular Pedestrian Recognition Using Motion Parallax; In: Proc. IEEE Intelligent Vehicles Symp., pp. 792–797, 2008” bekannten Verfahren.
3 zeigt eine zweidimensionale Darstellung einer Umgebung eines nicht gezeigten Fahrzeugs mit einem hindernisfreien Freiraum F und einer Anzahl von Segmenten S1 bis Sm zur Modellierung von Objekten O1 bis O3 in der Umgebung.
Die Segmente S1 bis Sm, auch als Stixel bezeichnet, modellieren die Objekte O1 bis 03, welche den definierten hindernisfreien Freiraum F begrenzen. Zur Erstellung der gezeigten Darstellung kommt ein aus der DE 10 2009 009 047 A1 bekanntes Verfahren zur Objektdetektion zum Einsatz.
Insbesondere weisen die Segmente S1 bis Sm bis Kennzeichnung einer Entfernung vom eigenen Fahrzeug unterschiedliche farbliche Kennzeichnungen auf. Dabei kennzeichnen Segmente S1 bis Sm mit roter Farbgebung beispielsweise nahe liegende Objekte O1 bis On und Segmente S1 bis Sm mit grüner Farbgebung weiter entfernte Objekte O1 bis On.
Dabei werden zunächst jeweils zwei Bilder der Umgebung aufgenommen und mittels Stereobildverarbeitung wird ein Disparitätsbild ermittelt. Aus den ermittelten Disparitäten wird eine Tiefenkarte der Umgebung bestimmt.
Es wird eine nicht näher dargestellte Freiraumbegrenzungslinie identifiziert, die den hindernisfreien Freiraum F der Umgebung umgrenzt. Außerhalb und entlang der Freiraumbegrenzungslinie wird die Tiefenkarte segmentiert, indem die Segmente S1 bis Sm mit einer vorgegebenen Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene einer Bilderfassungserfassungseinheit oder mehrerer Bilderfassungseinheiten gebildet werden. Die Bilderfassungseinheiten sind Kameras, können jedoch auch als Photomischdetektor, dreidimensionale Kamera, Lidar und/oder Radar ausgebildet sein.
Eine Approximation der gefundenen Freiraumbegrenzungslinie in die Segmente S1 bis Sm mit beliebig vorgegebener Breite, welche stabartig ausgebildet sind, liefert eine Entfernung der Segmente S1 bis Sm. Bei bekannter Orientierung der Bilderfassungseinheit zur Umgebung, wie im dargestellten Beispiel einer Fahrbahn vor dem Fahrzeug, an dem die Bilderfassungseinheit angeordnet ist, und bekanntem dreidimensionalen Verlauf ergibt sich ein jeweiliger Fußpunkt der Segmente S1 bis Sm im Bild.
Anschließend wird eine Höhe jedes Segments S1 bis Sm geschätzt, so dass jedes Segment S1 bis Sm durch eine zweidimensionale Position eines Fußpunkts und seine Höhe charakterisiert wird.
Die Schätzung der Höhe erfolgt in einer dynamischem Programmierung mittels histogrammbasierter Auswertung aller dreidimensionalen Punkte im Bereich des jeweiligen Segments S1 bis Sm.
Bereiche, die keine Segmente S1 bis Sm aufweisen, sind solche, in denen von der Freiraumanalyse keine Objekte O1 bis On gefunden wurden.
Alternativ oder zusätzlich werden die Segmente S1 bis Sm direkt aus dem Disparitatsbild ermittelt. Dies erfolgt nach dem aus der Anmeldung mit dem amtlichen Aktenzeichen 102011111440.1 bekannten Verfahren.
Es werden zwar ebenfalls zunächst jeweils zwei Bilder der Umgebung U mittels der Bilderfassungseinheiten aufgenommen und mittels Stereobildverarbeitung wird ein Disparitatsbild ermittelt. Beispielsweise kann zur Stereobildverarbeitung das in ”H. Hirschmüller: Accurate and efficient stereo processing by semi-global matching and mutual information. CVPR 2005, San Diego, CA. Volume 2. (June 2005), pp. 807-814” beschriebene Verfahren verwendet werden.
Der hindernisfreie Freiraum F wird direkt im Disparitätsbild identifiziert, indem jeder Bildpunkt des Disparitätsbilds in Abhängigkeit von Disparitätswerten des jeweiligen Bildpunkts entweder einer hindernisfreien Bodenoberfläche oder einem von mehreren Segmenten S1 bis Sm zugewiesen wird. Die zugrunde liegende geometrische Annahme ist, dass in der Regel eine Tiefenstaffelung der Objekte O1 bis On in mehreren Ebenen E1 bis E3 existiert. D. h. es besteht die Möglichkeit, dass in einer Spalte des Disparitätsbilds mehrere Objekte O1 bis On dargestellt sein können. Um diese Tiefenstaffelung darstellen zu können, werden in nicht näher dargestellter Weise je nach Anzahl der Ebenen E1 bis E3 in der jeweiligen Spalte mehrere Segmente S1 bis Sm in der betreffenden Spalte des Disparitätsbilds übereinander angeordnet. Der Freiraum F wird dabei von den die Objekte O1 bis On modellierenden Segmenten S1 bis Sm begrenzt.
Hierbei werden die Segmente S1 bis Sm gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene der Bilderfassungseinheit, mittels welcher die Bilder erfasst werden, gebildet. Die Segmente S1 bis Sm können in nicht näher dargestellter Weise zusätzlich oder alternativ zu der gezeigten vertikalen Anordnung auch horizontal angeordnet sein.
Bei der Anordnung mehrerer Segmente S1 bis Sm in einer Spalte übereinander ist eine besonders genaue Analyse einer Unterkante und Oberkante des jeweiligen Segments S1 bis Sm erforderlich. Das heißt, neben den vertikalen Grenzen der Segmente S1 bis Sm werden auch deren horizontale Grenzen bestimmt.
Die horizontalen und vertikalen Grenzen der Segmente S1 bis Sm werden mittels mathematischer Optimierung eines Energiefunktionals aus den Disparitätswerten der Bildpunkte bestimmt. Dabei wird vorzugsweise ein quadratisches Energiefunktional verwendet. Dies ist jedoch nicht zwingend erforderlich.
Besonders bevorzugt wird zur mathematischen Optimierung eine dynamische Programmierung verwendet, wobei bei der dynamischen Programmierung benachbarte Segmente S1 bis Sm und Reihen von benachbarten Segmenten S1 bis Sm unabhängig voneinander bestimmt werden. Aufgrund der voneinander unabhängigen Bestimmung der Segmente S1 bis Sm handelt es sich um ein eindimensionales Problem, welches mittels der dynamischen Programmierung besonders effizient gelöst werden kann. Die dynamische Programmierung wird beispielsweise gemäß ”David Gallup, Marc Pollefeys and Jan-Michael Frahm: 3d reconstruction using an n-layer heightmap; In: Proc. DAGM, pages 1–10, September 2010” durchgeführt.
Um eine besonders aussagekräftige Repräsentation der Umgebung zu erzeugen, werden den Segmenten S1 bis Sm vielfältige Attribute zugeordnet. Hierzu werden in dem zu optimierenden Funktional Bewegungsinformationen, die Zugehörigkeit zu bestimmten Objektklassen, Grauwertinformationen und Farbinformationen des jeweiligen Bildpunktes berücksichtigt. Weiterhin wird eine Zugehörigkeit der Segmente S1 bis Sm zu einem oder mehreren Objekten O1 bis On bestimmt und die Segmente S1 bis Sm werden mit Informationen über ihre Zugehörigkeit versehen.
Die Bewegungsinformationen, welche eine Bewegung im Raum wiedergeben, werden vorzugsweise durch Integration eines optischen Flusses des jeweiligen Bildpunkts ermittelt und jedem Segment S1 bis Sm als Bewegungsvektor zugeordnet, wobei hierzu mehrere Disparitätsbilder sequentiell ermittelt und verarbeitet werden und der optische Fluss aus Veränderungen in aufeinanderfolgenden Disparitätsbildern ermittelt wird. Somit lässt sich für jedes der Segmente S1 bis Sm eine reale Bewegung schätzen. Entsprechende Verfahren sind z. B. aus Arbeiten zur 6D-Vision, welche in der DE 10 2005 008 131 A1 veröffentlicht sind, bekannt. Diese Bewegungsinformation vereinfacht weiter die Gruppierung zu Objekten O1 bis On, da auf kompatible Bewegungen geprüft werden kann.
Aufgrund der Kenntnis und der Möglichkeit der Verarbeitung von Bewegungsinformationen können auch bewegte Szenen repräsentiert werden und beispielsweise zur Prognose einer zu erwartenden Bewegung der Objekte O1 bis On verwendet werden. Diese Art von Bewegungsverfolgung ist auch als Tracking bekannt. Dabei wird zur Bestimmung der Bewegung der Segmente S1 bis Sm eine Fahrzeug-Eigenbewegung ermittelt und zur Kompensation herangezogen. Die Kompaktheit und Robustheit der Segmente S1 bis Sm resultiert aus der Integration vieler Bildpunkte im Bereich des jeweiligen Segments S1 bis Sm und – bei Verwendung des Trackings – aus der zusätzlichen Integration über die Zeit.
Die Position eines Fußpunkts des jeweiligen Segments S1 bis Sm, die Höhe und die Bewegungsinformation des Segments S1 bis Sm werden vorzugsweise mittels des sogenannten Scene Flow ermittelt. Beim Scene Flow handelt es sich um eine Klasse von Verfahren, die aus mindestens zwei aufeinander folgenden Stereobildpaaren versucht, für möglichst jeden Bildpunkt eine korrekte Bewegung im Raum und seine dreidimensionale Position zu ermitteln.
Die Segmente S1 bis Sm besitzen eindeutige Nachbarschaftsbeziehungen, wodurch sie sich sehr einfach zu Objekten O1 bis On gruppieren lassen. Im einfachsten Fall sind zu jedem Segment S1 bis Sm nur Entfernung und Höhe zu übertragen, bei bekannter Breite des Segments S1 bis Sm ergibt sich ein Winkel, d. h. die Spalten im Bild, aus einem Index.
Auf der Basis der identifizierten Segmente S1 bis Sn können Informationen für ein Fahrerassistenzsystem in einem Fahrzeug generiert werden, an welchem die Bilderfassungseinheiten zur Aufnahme der Bilder angeordnet sind.
Beispielsweise ist eine Anwendung zur Aufmerksamkeitssteuerung oder zur Planung bei automatisiert bewegten Fahrzeugen anhand des ermittelten Freiraums F möglich.
Auch kann eine verbleibende Zeit bis zur Kollision des Fahrzeugs mit einem durch die Segmente S1 bis Sm repräsentierten Objekt O1 bis On geschätzt werden. Weiterhin kann ein Fahrkorridor in den hindernisfreien Freiraum F gelegt werden, der vom Fahrzeug benutzt werden soll, wobei ein seitlicher Abstand mindestens eines der Objekte O1 bis On zum Fahrkorridor ermittelt wird.
Ebenso werden kritische, insbesondere bewegte Objekte O1 bis On zur Unterstützung eines Abbiegeassistenzsystems, einer automatischen Fahrlichtschaltung, eines Fußgängerschutzsystems und eines Notbremssystems identifiziert.
Zudem werden Informationen weiterer Sensoren mit den Informationen zur Unterstützung des Fahrerassistenzsystems, die den Segmenten S1 bis Sm zugeordnet sind, im Rahmen einer Sensorfusion kombiniert. insbesondere kommen hierfür aktive Sensoren, wie zum Beispiel ein Lidar, in Frage.
Zur Detektion und Klassifikation der Objekte O1 bis On wird für jedes Segment S1 bis Sm eine Klassifikationsfläche K1 bis Kk mit definierten Abmessungen erzeugt.
Die 4A bis 4C zeigen den zeitlichen Ablauf. Zunächst werden, wie zuvor beschrieben, alle Segmente S1 bis Sm erzeugt, wobei die Annahme zugrunde liegt, dass jedes Segment S1 bis Sm als mögliche vertikale Mitte des zu detektierenden und zu klassifizierenden Objektes O1 bis On darstellt.
Anschließend wird gemäß 4A aus dem Disparitätsbild ein Segment S1 mit seiner dreidimensionalen Position extrahiert. Die dreidimensionale Position gibt dabei die dreidimensionale Position des Fußpunktes FP des Segments im Disparitätsbild an.
Darauffolgend wird gemäß 4B dem Segment S1 die Klassifikationsfläche K1 zugeordnet, wobei die Klassifikationsfläche K1 derart positioniert wird, dass ein Mittelpunkt MP einer unteren Kante der Klassifikationsfläche K1 im Fußpunkt FP des zugehörigen Segments S1 angeordnet wird.
Anschließend werden das Segment S1 und die zugehörige Klassifikationsfläche K1 in die zweidimensionale Darstellung transformiert.
Die in den 4A bis 4C dargestellten und zuvor beschriebenen Schritte werden für alle weiteren Segmente S2 bis Sm und die dazugehörigen Klassifikationsflächen K2 bis Kk durchgeführt.
Ergebnis dieses Verfahrens sind die in den 5 und 6A dargestellten zweidimensionalen Darstellungen, in welcher jeweils an den Fußpunkten FP der Segmente S1 bis Sm die Klassifikationsflächen K1 bis Kk mit dem Mittelpunkt MP ihrer unteren Kante positioniert werden.
Innerhalb der Klassifikationsflächen K1 bis Kk werden anschließend mittels der bereits in der Beschreibung zu 1 genannten und bekannten Verfahren die Detektion und Klassifikation der Objekte O1 bis On durchgeführt, so dass die Objekte O1 bis On in den dargestellten Ausführungsbeispielen der 5 und 6A als Fahrzeuge klassifiziert werden. Weiterhin sind Fußgänger, Radfahrer oder andere Objekte, insbesondere Bauwerke, Tiere und Verkehrszeichen, klassifizierbar.
Bei der Auswahl und Anordnung der Klassifikationsflächen K1 bis Kk werden eine Entfernung des Segments S1, der Fußpunkt FP des Segments S1 und eine Höhe der Segmente S1 bis Sm berücksichtigt. Insbesondere wird eine Größe der Klassifikationsflächen K1 bis Kk an die gesuchten Objekte O1 bis On angepasst. Dabei wird beispielsweise bei der Suche nach Fahrzeugen in der Umgebung die Größe der Klassifikationsflächen K1 bis Kk größer gewählt als bei der Suche nach Fußgängern.
Weiterhin wird bei der Auswahl und Anordnung der Klassifikationsflächen K1 bis Kk eine Geschwindigkeit des jeweiligen Objekts O1 bis On und eine Eigengeschwindigkeit der Bilderfassungseinheiten zur Aufnahme der Bilder, d. h. eine Eigengeschwindigkeit des Fahrzeuges, an welchem die Bilderfassungseinheiten angeordnet sind, berücksichtigt. Somit ist es in besonders vorteilhafter Weise möglich, aus einer spezifischen Bewegung der Objekte O1 bis On bereits Anhaltspunkte zur Klassifizierung derselben abzuleiten.
Aufgrund dessen, dass die Klassifikationsflächen K1 bis Kk nicht für jeden Bildpunkt, sondern für jedes Segment S1 bis Sm erzeugt werden, wird eine Menge an Eingangsdaten zur Detektion und Klassifikation der Objekte O1 bis On und somit ein Aufwand bei der Verarbeitung der Daten signifikant reduziert. Weiterhin ist aufgrund der Kenntnis der dreidimensionalen Positionen der Segmente S1 bis Sm nach der Detektion und Klassifikation auch die dreidimensionale Position des jeweiligen Objektes O1 bis On im Disparitätsbild bekannt.
In 6B ist die zweidimensionale Darstellung der Umgebung gemäß 6A dargestellt, wobei alle Objekte O1 bis On detektiert und die Objekte O1 bis O3 als Fahrzeuge klassifiziert sind.
Bezugszeichenliste

F

Freiraum

FP

Fußpunkt

K1 bis Kk

Klassifikationsfläche

MP

Mittelpunkt

O1 bis On

Objekt

S1 bis Sm

Segment

U

Umgebung

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102009009047 A1 [0003, 0029]
DE 102005008131 A1 [0045]

Zitierte Nicht-Patentliteratur

Enzweiler, M., Gavrila, D. M.: Monocular Pedestrian Detection: Survey and Experiments; In: IEEE Transactions on Pattern Analysis and Machine Intelligente, vol. 31, no. 12, pp. 2179–2195, 2009 [0025]
Dalal, N., Triggs, B.: Histograms of Oriented Gradients for Human Detection; In: Proc. IEEE Int'I Conf. Computer Vision and Pattern Recognition, pp. 886–893, 2005 [0025]
Viola, P. u. a: Detecting Pedestrians Using Patterns of Motion and Appearance; In: Int'I J. Computer Vision, vol. 63, no. 2, pp. 153–161, 2005 [0025]
Wöhler, C., Anlauf, J.: An Adaptable Time-Delay Neural Network Algorithm for Image Sequence Analysis; In: IEEE Trans. Neural Networks, vol. 10, no. 6, pp. 1531–1536, Nov. 1999 [0025]
Gavrila, D. M. und Munder, S.: Multi-Cue Pedestrian Detection and Tracking from a Moving Vehicle; In: Int'l J. Computer Vision, vol. 73, no. 1, pp. 41–59, 2007 [0027]
Enzweiler, M. u. a.: Monocular Pedestrian Recognition Using Motion Parallax; In: Proc. IEEE Intelligent Vehicles Symp., pp. 792–797, 2008 [0027]
H. Hirschmüller: Accurate and efficient stereo processing by semi-global matching and mutual information. CVPR 2005, San Diego, CA. Volume 2. (June 2005), pp. 807-814 [0038]
David Gallup, Marc Pollefeys and Jan-Michael Frahm: 3d reconstruction using an n-layer heightmap; In: Proc. DAGM, pages 1–10, September 2010 [0043]

Claims

Verfahren zur Objektdetektion, bei dem jeweils zwei Bilder einer Umgebung aufgenommen werden und mittels Stereobildverarbeitung ein Disparitätsbild ermittelt wird, wobei im Disparitätsbild ein hindernisfreier Freiraum (F) der Umgebung identifiziert wird und das Disparitätsbild außerhalb des Freiraums (F) segmentiert wird, indem Segmente (S1 bis Sm) gleicher Breite aus Bildpunkten gleicher oder ähnlicher Entfernung zu einer Bildebene gebildet werden, dadurch gekennzeichnet, dass für jedes Segment (S1 bis Sm) eine Klassifikationsfläche (K1 bis Kk) mit definierten Abmessungen erzeugt wird, wobei ein Mittelpunkt (MP) einer unteren Kante einer Klassifikationsfläche (K1 bis Kk) im Fußpunkt (FP) des jeweils zugehörigen Segments (S1 bis Sm) angeordnet wird und dass das jeweilige Segment (S1 bis Sm) mit der zugehörigen Klassifikationsfläche (K1 bis Kk) in eine zweidimensionale Darstellung der Umgebung transformiert wird, wobei innerhalb der Klassifikationsflächen (K1 bis Kk) in der zweidimensionalen Darstellung nach Objekten (O1 bis On) gesucht wird und diese klassifiziert werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass angenommen wird, dass jedes Segment (S1 bis Sm) eine vertikale Mitte eines gesuchten Objektes (O1 bis On) bildet.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei der Auswahl und Anordnung der Klassifikationsflächen (K1 bis Kk) eine Entfernung des jeweiligen Segments (S1 bis Sm), ein Fußpunkt (FP) des jeweiligen Segments (S1 bis Sm) und/oder eine Höhe des jeweiligen Segments (S1 bis Sm) berücksichtigt werden bzw. wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei der Auswahl und Anordnung der Klassifikationsflächen (K1 bis Kk) eine Geschwindigkeit des jeweiligen Objekts (O1 bis On) und/oder eine Eigengeschwindigkeit von Bilderfassungseinheiten zur Aufnahme der zwei Bilder berücksichtigt werden bzw. wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass anhand eines Segments (S1 bis Sm) oder mehrerer Segmente (S1 bis Sm) ein außerhalb des Freiraums (F) befindliches Objekt (O1 bis On) in der Umgebung modelliert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mehrere Segmente (S1 bis Sm) in jeweils einer Spalte des Disparitätsbilds übereinander angeordnet werden, wenn mehrere Objekte (O1 bis On) in unterschiedlichen Ebenen in einer Spalte des Disparitätsbilds dargestellt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass als Grenzen der Segmente (S1 bis Sm) jeweils seitliche Grenzen, eine untere Grenze und eine obere Grenze bestimmt werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mehrere Disparitätsbilder sequentiell ermittelt und verarbeitet werden, wobei aus Veränderungen in aufeinanderfolgenden Disparitätsbildern Bewegungsinformationen von Bildpunkten durch Integration eines optischen Flusses des jeweiligen Bildpunkts ermittelt und jedem Segment (S1 bis Sm) als Bewegungsvektor zugeordnet werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Zugehörigkeit der Segmente (S1 bis Sm) zu einem oder mehreren Objekten (O1 bis On) bestimmt und die Segmente (S1 bis Sm) mit Informationen über ihre Zugehörigkeit versehen werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass auf der Basis der Segmente (S1 bis Sm) Informationen für ein Fahrerassistenzsystem in einem Fahrzeug generiert werden, an welchem Bilderfassungseinheiten zur Aufnahme der Bilder angeordnet sind.