-
Die
Erfindung betrifft ein Verfahren und eine Vorrichtung zur Darstellung
einer Fahrzeugumgebung, insbesondere einer einem eigenen Fahrzeug voraus
liegenden Fahrzeugumgebung.
-
Im
Stand der Technik sind verschiedene Vorrichtungen zur Darstellung
einer Fahrzeugumgebung, z.B. von vorderen Sichtfeldern aus einem
Fahrzeug auf einem Anzeigefeld einer Anzeige bekannt, welche für eine genaue
Erkennbarkeit von Objekten in dieser voraus liegenden Fahrzeugumgebung
mehrere verschiedenartige Sensoren zur Erfassung unterschiedlicher
Sensordaten für
dieses Fahrzeugumgebung verwenden.
-
Beispielsweise
sind Fahrerassistenzsysteme für
Straßenfahrzeuge
erhältlich,
welche vorausfahrende Fahrzeuge mittels Radar erkennen und nach verfolgen,
um z.B. die Geschwindigkeit und den Abstand des eigenen Fahrzeugs
zum vorausfahrenden Verkehr automatisch zu regeln. Für den Einsatz
im Fahrzeugumfeld sind darüber
hinaus unterschiedlichste Arten von Sensoren, wie z.B. Radar, Laser- und
Kamerasensoren, bereits bekannt. Diese Sensoren sind in ihren Eigenschaften
sehr unterschiedlich und besitzen unterschiedliche Vor- und Nachteile.
-
Beispielsweise
unterscheiden sich derartige Sensoren in ihrem Auflösungsvermögen oder
in der spektralen Empfindlichkeit.
-
Aus
der älteren
Anmeldung
DE 102006013597.
0-5 ist ein multisensorieller Hypothesen-basierter Objektdetektor
und Objektverfolger bekannt, bei welchem Sensorinformationen aus
mehreren unterschiedlichen für
einen Messraum, z.B. ein Suchfenster, erfassten Sensorsignalströmen mit
unterschiedlichen Sensorsignaleigenschaften gemeinsam ausgewertet
werden. Zur Auswertung werden wenigstens zwei der Sensorsignalströme nicht
aneinander angepasst und/oder aufeinander abgebildet, sondern in
jedem der wenigstens zwei Sensorsignalströme Objekthypothesen generiert
und auf der Grundlage dieser Objekthypothesen Merkmale für wenigstens
einen Klassifikator generiert. Die Objekthypothesen werden anschließend mittels
des Klassifikators bewertet und einer oder mehreren Klassen zugeordnet,
wobei wenigstens zwei Klassen definiert sind und einer der beiden
Klassen Objekte zuzuordnen sind. Dabei werden die unterschiedlichen
Sensorsignalströme
von Sensoren weitgehend gleichen Typs aber mit unterschiedlichen
Sensorsignaleigenschaften, wie z.B. unterschiedliche Auflösung oder Empfindlichkeit
von verschiedenen Kamerasensoren, erfasst und gemeinsam verarbeitet.
Beispielsweise werden die Bilder zweier Kameras mit unterschiedlichem
Auflösungsvermögen miteinander
fusioniert. Dieses Verfahren ist hinsichtlich einer differenzierten
Erkennung eines im Messraum identifizierten Objektes begrenzt.
-
Der
Erfindung liegt daher die Aufgabe zu Grunde, ein Verfahren und eine
Vorrichtung zur Darstellung einer Fahrzeugumgebung anzugeben, womit
Objekte und weitere diese Objekte und/oder deren Umgebung repräsentierende
Informationen auf eine einfache und sehr genaue Weise erkannt und gegebenenfalls
verfolgt werden können.
-
Hinsichtlich
des Verfahrens wird diese Aufgabe erfindungsgemäß durch die im Anspruch 1 angegebenen
Merkmale gelöst.
Hinsichtlich der Vorrichtung wird die Aufgabe erfindungsgemäß gelöst durch
die Merkmale des Anspruchs 5.
-
Vorteilhafte
Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.
-
Ausgehend
von der oben genannten älteren Anmeldung
DE 102006013597.0 ,
deren gesamte Offenbarung hiermit durch Verweis miteinbezogen wird, wobei
Sensorinformationen aus wenigstens zwei unterschiedlichen Sensorsignalströmen mit
unterschiedlichen Sensorsignaleigenschaften wenigstens zweier Sensoren
erfasst werden und in jedem der wenigstens zwei Sensorsignalströme Objekthypothesen
generiert werden, die mittels wenigstens einem Klassifikator bewertet
und einer oder mehreren, zugehörige
Objekte umfassenden Klassen zugeordnet werden, wird beim erfindungsgemäßen Verfahren anhand
der generierten Objekthypothesen in dem jeweiligen Sensorsignalstrom
der verschiedenen Sensoren zumindest derjenige Messbereich eines
vorgegebenen Messraumes ermittelt, in welchem dasselbe Objekt, Objektteil
und/oder ein und derselbe Umgebungsteilbereich identifiziert sind
bzw. ist, wobei die Sensorsignalströme der betreffenden Sensoren
nur in dem oder den ermittelten Messbereichen gemeinsam analysiert
und unangepasst miteinander verarbeitet werden.
-
Durch
eine derartige Erweiterung des Verfahrens zur multisensoriellen
Objekterkennung auf eine Fusionierung von Sensorsignalströmen nur
in denjenigen Messbereichen, in welchen beispielsweise ein und dasselbe
Objekt identifiziert wurden, ist eine einfache, schnelle und speicheroptimierte
sowie differenzierte Objekterkennung und Umgebungserkennung sowie
gegebenenfalls Objektverfolgung ermöglicht. Dabei können beliebige
Objekte, insbesondere bewegliche Objekte, wie z.B. Tiere und Personen,
flache Objekte, wie z.B. Kanalisationsdeckel, Bordsteinkante, besonders
schnell und sicher erkannt und berücksichtigt werden.
-
Im
Detail werden die Objekthypothesen unabhängig voneinander einzeln in
jedem Sensorsignalstrom generiert, wobei die Objekthypothesen unterschiedlicher
Sensorsignalströme
sodann über
Zuordnungsvorschriften einander zuordenbar sind. Zunächst werden
in jedem Sensorsignalstrom mittels Suchfenstern in dem vorgegebenen
Messraum, beispielsweise in einem zuvor definierten 3D-Zustandsraum,
welcher durch physikalische Größen aufgespannt
wird, die Objekthypothesen generiert. Aufgrund des definierten 3D-Zustandsraums
sind die in den einzelnen Sensorsignalströmen generierten Objekthypothesen
später
einander zuordenbar. Beispielsweise werden die Objekthypothesen
aus zwei unterschiedlichen Sensorsignalströmen später bei der sich anschließenden Klassifikation
paarweise klassifiziert, wobei eine Objekthypothese aus einem Suchfensterpaar
gebildet wird. Falls mehr als zwei Sensorsignalströme vorhanden
sind, wird dementsprechend aus jedem Sensorsignalstrom jeweils ein Suchfenster
herangezogen und daraus eine Objekthypothese gebildet, welche sodann
zur gemeinsamen Auswertung an den Klassifikator übergeben wird. Bei den physikalischen
Größen zum
Aufspannen des 3D-Zustandsraums kann es sich beispielsweise um eine
oder mehrere Komponente(n) der voraus liegenden Fahrzeugumgebung,
insbesondere deren dreidimensionalen Ausdehnung, der Objektausdehnung,
einen Geschwindigkeits- und/oder Beschleunigungsparameter, um eine
Zeitan gabe usw. handeln. Der Zustandsraum kann dabei auch höher dimensional
ausgestaltet sein.
-
Der
oder die in dem 3D-Zustandsraum ermittelten Messbereiche mit in
diesen erfassten selben Objekten, Objektteilen und/oder Umgebungsteilbereichen
werden anhand der relevanten Sensorsignalströme in mindestens einer räumlichen
Dimension in einen vorderen Teilmessbereich und einen hinteren Teilmessbereich
unterteilt, für
welche jeweils die Sensorsignalströme gemeinsam analysiert und
unangepasst miteinander verarbeitet werden. Vorzugsweise werden
die für
die Teilmessbereiche fusionierten Sensorsignalströme anschließend überlagert
und zu Anzeigedaten modifiziert. Auch können die erfassten Sensorsignalströme gewichtet
werden. Durch eine derartige messbereichsabhängige Differenzierung des Messraumes
können
die ermittelten Sensorinformationen in Bezug auf dem zugrunde liegenden Mess-
oder Erfassungsraum genauer und umfangreicher, insbesondere in Bezug
auf Tiefeninformationen, insbesondere Vordergrund- und Hintergrundinformationen
analysiert und anhand des Klassifikators bewertet werden. Dabei
werden für
die ermittelten Messbereiche, insbesondere deren Teilmessbereiche
anhand der unterschiedlichen Sensorsignaleigenschaften in den Sensorsignalströmen aufgrund unterschiedlicher
Sensorgrößen der
verwendeten Sensoren ermittelt. Beispielsweise verursachen Kamerasensoren
mit einem unterschiedlichen Auflösungsvermögen Unterschiede
in den Größen bei
den Bildaufnahmen. Auch können
aufgrund unterschiedlicher Kameraoptiken unterschiedlich große Bildbereiche
erfasst werden. Weiterhin können
z.B. die physikalischen Eigenschaften der Kamerasensoren völlig unterschiedlich
sein, sodass beispielsweise eine Kamera Umgebungsinformationen im
sichtbaren Wellenlängenspektrum
und eine weitere Kamera Umgebungsinformationen im infraroten Spektrum
erfasst und eine Differenzierung und Trennung von Vorder- und Hintergrundinformationen
im ermittelten Messbereichs ermöglicht
ist, wobei die Bildaufnahmen ein völlig unterschiedliches Auflösungsvermögen aufweisen
können.
Darüber
hinaus können
zusätzlich
zur differenzierten Tiefenauswertung Positions- und/oder Orientierungsabweichungen
oder einzelne Komponenten davon in den Sensorsignalströmen für die ermittelten
Messbereiche analysiert und bewertet werden.
-
Bevorzugt
wird das Verfahren zur Umgebungserfassung und/oder Objektverfolgung
bei einem Fahrzeug verwendet.
-
Ausführungsbeispiele
der Erfindung werden anhand einer Zeichnung näher erläutert. Dabei zeigen:
-
1 schematisch
ein Blockschaltbild mit einer Mehrzahl von Sensoren unterschiedlichen
Typs zur Erfassung von Sensorsignalströmen unterschiedlichen Sensorsignalformats
zur differenzierten und erweiterten Objekterkennung und/oder Objektverfolgung,
und
-
2 Ausführungsbeispiel
für eine
Bilddarstellung mit maskierten Teilmessbereichen von miteinander
korrespondierenden NIR- und FIR-Bildern.
-
1 zeigt
mehrere Sensoren 1.1 bis 1.z zur Erfassung von
zugehörigen
Sensorsignalströmen
in einem vorgebbaren Messraum R zur Detektion eines Objekts O, z.B.
in einer voraus liegenden Fahrzeugumgebung zur Detektion eines voraus
fahrenden Fahrzeugs.
-
Dabei
werden die mittels der Sensoren
1.1 bis
1.z erfassten
Sensorsignalströme
gemäß dem in der
oben genannten älteren Anmeldung
DE 102006013597.0 offenbarten
Verfahren zur multisensoriellen Objekterkennung analysiert und gemeinsam
verarbeiten, insbesondere fusioniert. Hierzu werden die mittels
der Sensoren
1.1 bis
1.z erfassten Sensorsignalströme einer
Steuer- oder Verarbeitungseinheit
2, z.B. einem Fahrassistenzsystem,
zur Analyse und gemeinsamen Verarbeitung zugeführt, wobei in der Verarbeitungseinheit
2 das
Verfahren zur multisensoriellen Objekterkennung und anschließenden Darstellung
der Fahrzeugumgebung implementiert ist.
-
Im
Detail werden Sensorinformationen aus wenigstens zwei unterschiedlichen
Sensorsignalströmen
mit unterschiedlichen Sensorsignaleigenschaften von Sensoren 1.1 bis 1.z unterschiedlichen
Typs und gleichen Sensorsignalformen zur gemeinsamen Auswertung
herangezogen. Die Sensorsignalströme werden dabei zur Auswertung
nicht aneinander angepasst und/oder aufeinander abgebildet. Anhand der
wenigstens zwei erfassten Sensorsignalströme werden zunächst Objekthypothesen
für den
vorgegebenen Messraum R generiert und auf der Grundlage dieser Objekthypothesen
werden sodann Merkmale für
wenigstens einen Klassifikator generiert. Die Objekthypothesen werden
anschließend
mittels dem wenigstens einen Klassifikator bewertet und einer oder
mehreren Klassen zugeordnet. Dabei sind wenigstens zwei Klassen
definiert, wobei einer der beiden Klassen Objekte O zuzuordnen sind.
Die Objekthypothesen können
entweder eindeutig einer Klasse zugeordnet werden, oder sie werden
mehreren Klassen zugeordnet, wobei die jeweilige Zuordnung mit einer
Wahrscheinlichkeit belegt ist. Somit wird eine einfache und zuverlässige Objekterkennung
möglich. Eine
aufwendige Anpassung unterschiedlicher Sensorsignalströme aneinander
bzw. eine Abbildung aufeinander entfällt hierbei.
-
Im
Ausführungsbeispiel
weisen die Sensorsignalströme
unterschiedliche Sensorsignaleigenschaften, die im Wesentlichen
auf unterschiedlichen Positionen und/oder Orientierungen und/oder
Sensorgrößen der
verwendeten Sensoren 1.1 bis 1.z basieren. Positions-
und/oder Orientierungsabweichungen oder durch einzelne Komponenten
verursachte Abweichungen bei den verwendeten Sensorgrößen führen ferner
zu unterschiedlichen Sensorsignaleigenschaften in den einzelnen
Sensorsignalströmen. Zur
Ermittlung einer differenzierten Abstands- oder Tiefenbewertung
der ermittelten Objekte O werden Sensoren 1.1 bis 1.z mit
unterschiedlichen physikalischen Eigenschaften verwendet. Beispielsweise
erfasst eine Kamera Umgebungsinformationen im sichtbaren Wellenlängenspektrum
und eine weitere Kamera Umgebungsinformationen im nahen infraroten
Spektrum und eine im fernen infraroten Spektrum, wobei die Bildaufnahmen
ein völlig
unterschiedliches Auflösungsvermögen aufweisen
können.
Mit anderen Worten: Das beschriebene Verfahren wird erfindungsgemäß erweitert,
indem als Sensoren 1.1 bis 1.z Sensoren unterschiedlichen
Typs, z.B. Kamerasensoren, wie im Nah- oder Ferninfrarotbereich
empfindliche Kameras (kurz NIR- oder FIR-Kamera
genannt) und/oder CCD-Kameras (mit CCD = charge coupled device),
ein oder mehrere Ultraschallsensoren, RF-Sensor (Funkwellen-Sensor), Lichtsensoren,
Temperatursensoren, Radar, Schallsensoren, Drucksensoren, Regensensoren,
mit unterschiedlichen Sensorsignalformen, insbesondere einoder mehrdimensionalen
Signalformen, eingesetzt werden.
-
Dabei
werden die mittels der Sensoren 1.1 bis 1.z unterschiedlichen
Typs erfassten verschiedenen Sensorsignalströme in Analogie zu dem oben beschrieben
Verfahren zur Objekterkennung nur in denjenigen Messbereichen R1
bis Rn des zugrunde liegenden Messraumes R miteinander kombiniert, insbesondere
fusioniert und gemeinsam verarbeitet, in welchen dasselbe Objekt
O oder dasselbe Objektteil oder derselbe Umgebungsteilbereich identifiziert wurde.
Dabei müssen
die Sensoren 1.1 bis 1.z nicht orts- und zeitgleiche
Videobilder liefern, da die Abbildungsvorschriften aus den Fusionsalgorithmen
für jeden
der Messbereiche R1 bis Rn abgeleitet werden. Die ermittelten Messbereichen
R1 bis Rn werden darüber
hinaus insbesondere bei der Verwendung und Kombination von NIR-Kamera oder Radar
und FIR-Kamera in Teilmessbereiche T1 bis Tn unterteilt, welche
unterschiedliche Bildbereiche des betrachteten Messbereiches R1
bis Rn darstellen, beispielsweise ein von der NIR-Kamera aufgenommenes
Vordergrundbild und ein von der FIR-Kamera aufgenommenes Hintergrundbild.
Wie dies beispielhaft in 2 dargestellt ist, wobei im
linken Bild Teilmessbereiche T1 bis T5 der NIR-Kamera und im rechten
Bild ein zu den Teilmessbereichen T1 bis T5 korrespondierender Teilmessbereich
T6 der FIR-Kamera dargestellt sind, in welchen als ein und dasselbe
Objekt O ein Fußgänger in
der voraus liegenden Fahrzeugumgebung identifiziert wurde.
-
Anschließend werden
die für
diese ermittelten Teilmessbereiche T1 bis Tn erfassten Sensorsignalströme fusioniert,
insbesondere überlagert.
Dabei erfolgt die Fusion der Sensorsignalströme für diese Teilmessbereiche T1
bis Tn auf Pixelebene, um den räumlichen
Bezug von Pixeln zu dem ermittelten Objekt O im Raum zu analysieren,
beispielsweise um Tiefeninformationen der Kameras zu extrahieren.
-
Darüber hinaus
können
die ermittelten Teilmessbereiche T1 bis Tn mittels einer festen
vorgegebenen Maskierung oder einer variablen Maskierung überlagert
werden. Die variable Maskierung hängt insbesondere von weiteren
Umgebungsinformationen, welche in Form von so genanntem Metawissen vorliegen,
z.B. die momentane Fahrzeugposition (z.B. GPS-Position), Straßen typ,
Ländergegebenheiten,
Wetter, Temperatur, ab. Auch können
situationsbedingt weitere Informationen berücksichtigt werden, wie beispielsweise
Gefahren, wenn als Objekt O ein Fußgänger auf der voraus liegenden
Fahrbahn identifiziert wird, der entsprechend maskiert wird, wie
in 2 dargestellt. Ferner können situations- und/oder objektabhängige unterschiedliche
Sichtbarkeiten in den einzelnen Sensorsignalströmen analysiert und entsprechend
maskiert werden. Beispielsweise können Objektteile (z.B. Beine
vs. Oberkörper),
Objekteigenschaften (z.B. Bewegungen des Objektes, Erhabenheit von
Oberflächen)
und/oder ein Kontext, d.h. mindestens eine dem Objekt O zugehörige Objektumgebung
(z.B. Straße
S, Straßenrand,
Wald, Stadtgebiet, Hintergrund, Himmel) bei der Überlagerung der Teilmessbereiche
T1 bis Tn entsprechend variabel maskiert werden. Beispielsweise
erfasst ein so genannter Lidar-Sensor (Lidar = light detection and
ranging, Lasersensor) Information über bewegte Beine; ein FIR-Sensor
liefert Informationen über
einen warmen Kopf; ein NIR-Sensor liefert Informationen über Wald.
Ferner können
Umgebungs- oder Zusatzinformationen, die nicht Bestandteil des Objektes
O sind, aber zur Objekterkennung beitragen, in Form von Metadaten,
wie Fahrzeugabstand zum Objekt O, bei der Überlagerung entsprechend maskiert
werden.
-
Die
Umgebungsinformationen sind dabei nicht notwendigerweise auf die
räumliche
oder zeitliche Umgebung des in den Teilmessbereichen T1 bis Tn identifizierten
Objektes O in den unterschiedlichen Sensorsignalströmen beschränkt, sondern
umfassen vielmehr auch Metawissen, das abhängig oder unabhängig der
eingesetzten Sensoren 1.1 bis 1.z sein kann. Beispiele
hierfür
sind:
- – sensorunabhängiges Metawissen:
bei der Fahrzeugerkennung kann die Straße S und das Metawissen, dass
sich Fahrzeuge in der Regel auf der Straße S bewegen, herangezogen
werden, um die Erkennungsaufgabe zu lösen; umgekehrt kann in diesem
Szenario "Wasser" und das Metawissen,
dass Fahrzeuge in der Regel nicht schwimmen können, herangezogen werden,
um Falschalarme zu verhindern.
- – sensorabhängiges Metawissen:
kleine Fahrzeuge im Bild haben eine große Entfernung vom Betrachter,
etc.
-
Bei
der Verarbeitung der Sensorsignalströme der Sensoren 1.1 bis 1.z werden
diese Umgebungsinformationen als Kontext in die Fusionierung der
verschiedenen Sensorsignalströme
für die
Teilmessbereiche T1 bis Tn eingebunden, indem:
- – Kontextinformationen
als wenigstens ein separater Sensor 1.1 bis 1.z beschrieben
und in dem oben beschriebenen und bekannten Fusionierungsverfahren
als weitere Fusionsgröße eingebracht
werden;
- – Kontextinformationen
nicht als Sensorstrom, sondern als Merkmal beschrieben und in dem oben
beschriebenen und bekannten Fusionierungsverfahren als weitere Fusionsgröße eingebracht
werden.
-
Auch
können
die Umgebungsinformationen und/oder die Detektionsergebnisse in
jeder anderen beliebigen und geeigneten Art und Weise kombiniert werden,
um eine differenzierte und verbesserte Objekterkennung zu ermöglichen.
-
In
einer weiteren Ausführungsform
kann die Fusionierung der Sensorsignalströme in den identifizierten Teilmessbereichen
T1 bis Tn derart realisiert werden, dass nur harte Übergänge, weiche Übergänge, unterschiedliche
Farben und/oder un terschiedliche Intensitäten im jeweiligen Bild und/oder
unterschiedlich gewichtete Eigenschaften der zu kombinierenden Sensorsignalströme überlagert
werden.
-
Im
Detail kann die Überlagerung
additiv (= auf Addition der Sensorsignalströme beruhend), multiplikativ
(= auf Multiplikation der Sensorsignalströme beruhend), subtraktiv (=
auf Subtraktion der Sensorsignalströme beruhend) und/oder eine
andere beliebige Funktion oder Kombinationen von Funktionen ausgeführt werden.
-
Die
konkrete Kombination (= Fusionierung) von Merkmalen aus den Sensorsignalströmen für die Teilmessbereiche
T1 bis Tn kann in einer weiteren Ausgestaltung automatisiert auf
Basis von Trainingsdaten ausgeführt
werden. Auch können
einzelne Merkmale oder Eigenschaften der erfassten Sensorsignalströme gewichtet
werden. Beispielsweise können
diese situationsabhängig,
objektabhängig,
entfernungsabhängig,
gefahrenabhängig
und/oder geschwindigkeitsabhängig
gewichtet werden. Das Resultat stellt näherungsweise eine optimale
Wahl und Gewichtung der Merkmale aus den relevanten Sensorsignalströmen dar.
Ein Vorteil ist hierbei der erweiterte Merkmalsraum. Sind bestimmte
Teilmengen der Daten oder Merkmale jeweils nur in einem der Sensorsignalströme und somit
leicht trennbar, dann kann durch die Kombination eine Trennung aller
Daten vereinfacht werden. Beispielsweise ist im NIR-Bild die Fußgängersilhouette
gut zu erkennen, dagegen ist im FIR-Bild ein beleuchtungsunabhängiger Kontrast
zwischen Fußgänger und
Hintergrund abgebildet. In der Praxis hat sich gezeigt, dass mit
der Fusion auf Merkmalsebene die Zahl der notwendigen Merkmale drastisch
gesenkt werden kann.
-
Durch
die Reduzierung des bekannten Verfahrens auf Daten von Sensorsignalströme in denjenigen
Messbereichen R1 bis Rn, in welchen dasselbe Objekt O oder dasselbe
Objektteil oder derselbe Teilumgebungsbereich identifiziert wurde,
ist ein besonders einfaches und schnelles sowie hinsichtlich einer differenzierten
Tiefenbewertung der erfassten Daten genaues Verfahren für beliebige
Sensorkombinationen gegeben. Darüber
hinaus ist durch die Berücksichtigung
von Kontextinformationen eine verbesserte Detektions- und Erkennungsleistung
möglich.
Die Kombination beliebiger Sensoren 1.1 bis 1.z oder
die Kombination beliebiger Sensoren 1.1 bis 1.z mit
Einbindung von Kontextinformationen oder Zusatzinformationen wird
zur Detektion von beliebigen Objekten O, z.B. Tieren, erhabenen
Objekten, flachen Objekten, Kanalisationsdeckel, eingesetzt.
-
- 1.1
bis 1.z
- Sensoren
- 2
- Verarbeitungseinheit
- O
- Objekt
- R
- Messraum
- R1
- bis
Rn Messbereiche
- S
- Straße
- T1
- bis
Tn Teilmessbereiche
- X,
- y, z, t Dimensionen