DE102020112860A1

DE102020112860A1 - Verbesserte Detektion von Objekten

Info

Publication number: DE102020112860A1
Application number: DE102020112860.6A
Authority: DE
Inventors: Fabian Burger; Philippe Lafon; Thomas Boulay; Diego Mendoza Barrenechea; Flora Dellinger; Prashanth Viswanath
Original assignee: Valeo Schalter und Sensoren GmbH
Current assignee: Valeo Schalter und Sensoren GmbH
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2021-11-18
Also published as: EP4150508A1; WO2021228686A1

Abstract

Die Erfindung betrifft ein Verfahren zur Erkennung von Objekten (36) in einem Umgebungsbild (30) unter Verwendung eines neuronalen Netzes, insbesondere eines Konvolutionellen Neuronalen Netzes unter Verwendung von Deep Learning, für ein Fahrunterstützungssystem (12) eines Fahrzeugs (10), umfassend die Schritte Empfangen des Umgebungsbildes (30), Enkodieren des Umgebungsbildes (30) zur Bereitstellung eines zweidimensionalen Rasters (38), das eine erste Auflösung aufweist, mit Bildinformation, Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) mit wenigstens einem ersten Bildbereich (46a) und wenigstens einem zweiten Bildbereich (46b), Durchführen eines Dekodierschrittes in dem wenigstens einen zweiten Bildbereich (46b) zur Bereitstellung eines zweidimensionalen Rasters (38), das eine zweite Auflösung aufweist, die niedriger ist als die erste Auflösung, mit Bildinformation, und Durchführen einer Objekterkennung basierend auf der Bildinformation der Mehrzahl Bildbereiche (46a, 46b, 46c), wobei der wenigstens eine erste Bildbereich (46a) die erste Auflösung und der wenigstens eine zweite Bildbereich (46b) die zweite Auflösung aufweist. Die Erfindung betrifft außerdem ein Fahrunterstützungssystem (12) für ein Fahrzeug (10) mit wenigstens einem kamerabasierten Umgebungssensor (14) zur Bereitstellung eines Umgebungsbildes (30) und einer Steuerungseinheit (16), welche das Umgebungsbild (30) von dem wenigstens einen kamerabasierten Umgebungssensor (14) empfängt, wobei das Fahrunterstützungssystem (12) ausgeführt ist, das obige Verfahren durchzuführen.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Erkennung von Objekten in einem Umgebungsbild unter Verwendung eines neuronalen Netzes, insbesondere eines Konvolutionellen Neuronalen Netzes unter Verwendung von Deep Learning, für ein Fahrunterstützungssystem eines Fahrzeugs. Verfahrensgemäß wird das Umgebungsbild empfangen und enkodiert zur Bereitstellung eines zweidimensionalen Rasters mit Bildinformation. Anschließend wird eine Objekterkennung basierend auf der Bildinformation durchgeführt.
Auch betrifft die vorliegende Erfindung ein Fahrunterstützungssystem für ein Fahrzeug, insbesondere als verbessertes Fahrerassistenzsystem, mit wenigstens einem kamerabasierten Umgebungssensor zur Bereitstellung eines Umgebungsbildes und einer Steuerungseinheit, welche das Umgebungsbild von dem wenigstens einen kamerabasierten Umgebungssensor empfängt, wobei das Fahrunterstützungssystem ausgeführt ist, das obige Verfahren durchzuführen.
Entsprechende Verfahren und Fahrunterstützungssysteme werden bereits in Fahrzeugen verschiedener Hersteller verwendet, um den Fahrzeugführer beim Führen des Fahrzeugs zu unterstützen und dadurch die Fahrsicherheit für alle Verkehrsteilnehmer zu verbessern. Dabei sind insbesondere verbessertes Fahrerassistenzsysteme bekannt, die üblicherweise als ADAS (Advanced Driver Assistance Systems) bezeichnet werden und verschiedenen Funktionen umfassen können.
Diese Fahrunterstützungssysteme basieren auf einer guten Kenntnis der Umgebung des Fahrzeugs, um ihre jeweilige Unterstützungsfunktion bereitstellen zu können. Dabei bekommen kamerabasierte Umgebungssensoren eine zunehmende Bedeutung, um beispielsweise Objekte wie Fahrzeuge oder Fußgänger zu erkennen und korrekt zu klassifizieren.
Im Stand der Technik werden solche Objekterkennungen oftmals mit Systemen basierend auf Deep Learning (Verwendung tiefer neuronaler Netwerke) bereitgestellt.
Dabei ergibt sich bei der Verwendung in Fahrzeugen oftmals, dass eine Abwägung zwischen einer Erkennungsleistung und einer Verarbeitungsgeschwindigkeit durchgeführt werden muss, um die Umgebungsbilder in Echtzeit verarbeiten zu können. Nur dadurch können entsprechende Systeme als eingebettete Systeme in Fahrzeugen bereitgestellt werden, ohne dass die Kosten ausufern und die Fahrunterstützungssysteme und damit auch die Fahrzeuge bezahlbar bleiben. Daher finden auch Gitter-basierte Detektoren wie YOLO (You only look once) oder SSD (Single Shot Multibox Detector) besonders in solchen eingebetteten Systemen Verwendung, da sie ein günstiges Laufzeitverhalten aufweisen. Diese Gitter-basierten Detektoren verwenden einen einfachen, relativ schnell zu berechnenden Regressionsschritt, um einhüllende Rechtecke (Bounding Boxes) von Objekten zu bestimmen.
Ein wichtiger Systemparameter ist dabei eine Gittergröße des Gitters, d.h. eine Größe von Zellen, die durch das Gitter definiert werden. Diese Gittergröße definiert eine gesamte Anzahl von Objekten, die erkannt und klassifiziert werden können. Außerdem ergibt sich dadurch eine räumliche Genauigkeit der Erkennung und Klassifizierung der Objekte.

Dazu ist in 1a) ein Umgebungsbild 100 dargestellt, das mit einem kamerabasierten Umgebungssensor eines Fahrzeugs aufgenommen wurde. Das Umgebungsbild 100 zeigt eine Fahrbahn 102 mit zwei seitlichen Fußwegen 104. Zusätzlich sind mehrere Objekte 106, die hier Fußgänger sind, in dem Umgebungsbild 100 zu erkennen.
1 b) zeigt ein über das Umgebungsbild 100 gelegtes einheitliches Raster mit einer Mehrzahl regelmäßiger Zellen 108. Die Zellen 108 definieren dabei eine Auflösung, für die jeweils eine Enkodierung des Umgebungsbildes 100 erfolgt und Bildinformation bereitgestellt wird. In 1b) ist das Raster fein gewählt, so dass auch entfernte Objekte 106 in dem Umgebungsbild 100 zuverlässig erfasst und klassifiziert werden können. Für nahe Objekte 106 erfordert die Erkennung und Klassifizierung der Objekte 106 jedoch einen vergleichsweise großen Verarbeitungsaufwand.
1c) zeigt ebenfalls ein über das Umgebungsbild 100 gelegtes einheitliches Raster mit einer Mehrzahl regelmäßiger Zellen 108. Die Zellen 108. In 1c) ist das Raster gegenüber der Darstellung in 1b) grob gewählt, so dass Objekte in der Nähe sehr effizient erkannt und klassifiziert werden können. Aufgrund des groben Raster können allerdings entfernte Objekte 106 in dem Umgebungsbild 100 nicht immer zuverlässig erfasst und klassifiziert werden. Dies betrifft insbesondere Objekte im Bereich eines Horizonts des Umgebungsbildes, wo oftmals eine hohe Anzahl von relevanten Objekten in dem Umgebungsbild vorhanden ist, insbesondere beim Fahren mit einer hohen Geschwindigkeit, beispielsweise auf Landstraßen oder Autobahnen.

Auch können aufgrund des feinen Raster der 1b) mehr Objekte erfasst und klassifiziert werden, als bei dem groben Raster der 1c). Das feine Raster der 1b) ermöglicht darüber hinaus eine verbesserte Unterscheidung von Objekten, die sich über mehrere Zellen erstrecken. Dies geht allerdings mit einem erhöhten Verarbeitungsaufwand einher, wobei typischerweise eine erhöhte Anzahl von Regressionsschritten erforderlich ist.
Ausgehend von dem oben genannten Stand der Technik liegt der Erfindung somit die Aufgabe zugrunde, ein Verfahren zur Erkennung von Objekten in einem Umgebungsbild unter Verwendung eines neuronalen Netzes, insbesondere eines Konvolutionellen Neuronalen Netzes unter Verwendung von Deep Learning, für ein Fahrunterstützungssystem eines Fahrzeugs, wie auch ein entsprechendes Fahrunterstützungssystem zur Durchführung des Verfahrens anzugeben, die eine zuverlässige und effiziente Erfassung von Objekten in Umgebungsbildern ermöglichen.
Die Lösung der Aufgabe erfolgt erfindungsgemäß durch die Merkmale der unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben.
Erfindungsgemäß ist somit ein Verfahren zur Erkennung von Objekten in einem Umgebungsbild unter Verwendung eines neuronalen Netzes, insbesondere eines Konvolutionellen Neuronalen Netzes unter Verwendung von Deep Learning, für ein Fahrunterstützungssystem eines Fahrzeugs, angegeben, umfassend die Schritte Empfangen des Umgebungsbildes, Enkodieren des Umgebungsbildes zur Bereitstellung eines zweidimensionalen Rasters, das eine erste Auflösung aufweist, mit Bildinformation, Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche mit wenigstens einem ersten Bildbereich und wenigstens einem zweiten Bildbereich, Durchführen eines Dekodierschrittes in dem wenigstens einen zweiten Bildbereich zur Bereitstellung eines zweidimensionalen Rasters, das eine zweite Auflösung aufweist, die niedriger ist als die erste Auflösung, mit Bildinformation, und Durchführen einer Objekterkennung basierend auf der Bildinformation der Mehrzahl Bildbereiche, wobei der wenigstens eine erste Bildbereich die erste Auflösung und der wenigstens eine zweite Bildbereich die zweite Auflösung aufweist.
Erfindungsgemäß ist außerdem ein Fahrunterstützungssystem für ein Fahrzeug, insbesondere als verbessertes Fahrerassistenzsystem, mit wenigstens einem kamerabasierten Umgebungssensor zur Bereitstellung eines Umgebungsbildes und einer Steuerungseinheit, welche das Umgebungsbild von dem wenigstens einen kamerabasierten Umgebungssensor empfängt, angegeben, wobei das Fahrunterstützungssystem ausgeführt ist, das obige Verfahren durchzuführen.
Grundidee der vorliegenden Erfindung ist es also, die Bildinformation eines Umgebungsbildes mit einem unterschiedlichen Detailgrad bereitzustellen, so dass einerseits eine effiziente Verarbeitung des gesamten Umgebungsbildes erfolgen kann und andererseits keine wichtige Detailinformation verloren geht. Dazu wird das Umgebungsbild zunächst enkodiert, um die Bildinformation mit der ersten Auflösung bereitzustellen. Für den wenigstens einen zweiten Bildbereich wird die Bildinformation der ersten Auflösung in dem Dekodierschritt vorverarbeitet, um den wenigstens einen zweiten Bildbereich mit einer geringeren Auflösung der Bildinformation bereitzustellen. Dadurch kann die Verarbeitung der Bildinformation für den wenigstens einen zweiten Bildbereich beschleunigt durchgeführt werden. Es verbliebt wenigstens ein erster Bildbereich mit der Auflösung der Bildinformation, wie sie nach dem Enkodieren vorliegt, und die ohne Notwendigkeit einer zusätzlichen Bearbeitung dekodiert werden kann, um Objekte zu erkennen und zu klassifizieren. Dadurch wird die Bildinformation mit einer Auflösung abhängig von dem jeweiligen Bildbereich bereitgestellt, so dass sie in einer entsprechend angepassten Netzstruktur des Neuronalen Netzes effizient verarbeitet werden kann. Darüber hinaus kann die Erkennung der Objekte für jeden der Bildbereiche optimal durchgeführt werden, da sich vergleichbare Verhältnisse der Objekte in Bezug auf die Zellen des Rasters ergeben. Dadurch können entfernte Objekte, die in dem Umgebungsbild eine relativ geringe Größe aufweisen, mit einer hohen Zuverlässigkeit erkannt werden. Auch nahe Objekte, die in dem Umgebungsbild eine relativ große Größe aufweisen, können gut erkannt werden. Gleichzeit wird bei der Verwendung von neuronalen Netzen das Training zur Erkennung der Objekte erleichtert, da sich die Objekte in jedem der Bildbereiche ähnlich darstellen und sie daher leicht zu erkennen sind.
Dabei wird vorzugsweise Metawissen über die zu erwartende Information in dem Umgebungsbild ausgenutzt, um die unterschiedlichen Bildbereiche zu definieren und das Umgebungsbild entsprechend aufzuteilen. Das Metawissen betrifft beispielsweise ein Wissen über eine Montage und/oder Ausrichtung des wenigstens einen kamerabasierten Umgebungssensors an dem Fahrzeug. Dadurch können Bildbereiche, in denen die zu erkennenden Objekte typischerweise eine kleine Größe in dem Umgebungsbild aufweisen, und Bildbereiche, in denen die zu erkennenden Objekte typischerweise eine große Größe in dem Umgebungsbild aufweisen, festgelegt und deren Bildinformation entsprechend verarbeitet werden.
Das Raster definiert eine Anordnung von Zellen mit Bildinformation. Das Raster kann beispielsweise eine Zellgröße von 16 x 16 Pixel oder 32 x 32 Pixel für die erste Auflösung definieren, wobei auch hier zwischen einem gewünschten Detailgrad bei der Erkennung und Klassifizierung der Objekte und der Verarbeitungsgeschwindigkeit abzuwägen ist. Das Raster kann beispielsweise eine entsprechende Zellgröße von 32 x 32 Pixel oder 64 x 64 Pixel für die zweite Auflösung definieren. Dadurch kann beispielsweise statt der Bildinformation von vier Zellen des Rasters mit der ersten Auflösung zu lediglich Bildinformation für eine einzelne Zelle bereitgestellt werden zur weiteren Verarbeitung.
Prinzipiell kann das Raster Zellen mit beliebigen Abmessungen definieren, wobei es nicht erforderlich ist, dass die Zellen in jeder Ebenenrichtung die gleiche Anzahl Bildpunkte umfassen. Dies gilt für jede Auflösung unabhängig. So können beispielsweise die Zellen für eine Auflösung eine quadratische Form aufweisen, während die Zellen für eine andere Auflösung eine rechteckige Form aufweisen. Für eine wieder andere Auflösung können die Zellen eine davon abweichende rechteckige Form aufweisen.
Auch ist es nicht erforderlich, dass die Zellen des wenigstens einen zweiten Bildbereichs mit der zweiten Auflösung jeweils eine Mehrzahl Zellen des wenigstens einen Bildbereichs mit der ersten Auflösung zusammenfassen. Prinzipiell können ausgehend von der ersten Auflösung die Zellen für das Raster mit der zweiten Auflösung neu gebildet werden und beispielsweise nicht ganzzahlige Vielfache von Zellen mit der ersten Auflösung umfassen.
Der wenigstens eine zweite Bildbereich betrifft eine Bereich des Umgebungsbildes, der durch die zweite Auflösung definiert ist. Somit kann das Umgebungsbild mehrere unabhängige zweite Bildbereiche aufweisen, die zusammenhängend oder nicht zusammenhängend sein können. Entsprechendes gilt für den wenigstens einen ersten Bildbereich. Das Unterteilen des Umgebungsbildes in die Mehrzahl Bildbereiche kann entsprechend mit einem hohen Freiheitsgrad erfolgen.
Die Erkennung von Objekten in dem Umgebungsbild betrifft ein Erkennen der Objekte mit ihrer Position und einer Klassifizierung des Objekts, beispielsweise als Fußgänger, PKW, LKW, Baum, Haus, Hund oder ähnliches.
Das neuronale Netz ist insbesondere als Konvolutionelles Neuronales Netz unter Verwendung von Deep Learning ausgeführt. Konvolutionelle Neuronale Netze (Convolutional Neural Networks, CNN) sind im Bereich der Objekterkennung verbreitet und weisen eine hohe Zuverlässigkeit auf.
Das Fahrunterstützungssystem ist beispielsweise als verbessertes Fahrerassistenzsystem ausgeführt. Solche verbesserten Fahrerassistenzsysteme sind beispielsweise als ADAS (Advanced Driver Assistance Systems) bekannt und können verschiedenen Funktionen umfassen. Dies Funktionen können beispielhaft einen Toter Winkel-Assistent, einen Spurhalteassistent und/oder ein Kollisionswarn- und Schutzsystem umfassen. Darüber hinaus ist die Erkennung von Objekten auch für andere Fahrunterstützungsfunktionen bis hin zur Realisierung von Funktionen zum autonomen Fahren von Fahrzeugen relevant.
Das Umgebungsbild ist ein von dem kamerabasierten Umgebungssensor bereitgestelltes Bild. Es enthält eine Matrix mit Bildpunkten (Pixel), welche die Umgebung des Fahrzeugs zumindest teilweise wiedergeben. Das Umgebungsbild kann lediglich Helligkeitsinformation für die einzelnen Bildpunkte umfassen, d. h. das Umgebungsbild ist ein Bild nach der Art eines schwarz/weiß-Bildes, oder Helligkeitsinformation für eine Mehrzahl Farben, beispielsweise in dem Format RGB oder andere. Entsprechend kann der kamerabasierte Umgebungssensor als Kamera ausgeführt sein, die für einzelne Bildpunkte lediglich eine Helligkeitswert bereitstellt, oder der kamerabasierte Umgebungssensor ist beispielsweise eine Kamera zur Bereitstellung von Farbinformation, d.h. einem Helligkeitswert für jede Farbe, die von der Kamera wahrnehmbar ist.
Darüber hinaus kann das Umgebungsbild von einem einzelnen kamerabasierten Umgebungssensor alleine oder als Kombination von mehreren Einzelbildern von einer Mehrzahl kamerabasierter Umgebungssensoren gemeinsam bereitgestellt werden. Letzteres betrifft üblicherweise eine Kombination der mehreren Einzelbilder in einer horizontalen Richtung zur Erstellung des Umgebungsbildes nach der Art eines Panoramabildes.
Der kamerabasierte Umgebungssensor kann als optische Kamera ausgeführt sein. Beispielsweise finden in aktuellen Fahrzeugen zur Überwachung der Umgebung Weitwinkelkameras bis hin zu Kameras mit Fischaugenlinsen Verbreitung. Die optische Kamera kann für sichtbares Licht und/oder für Licht in für Menschen nicht sichtbaren Wellenlängen ausgeführt sein, beispielsweise für ultraviolettes Licht oder für infrarotes Licht.
Das Enkodieren des Umgebungsbildes zur Bereitstellung eines zweidimensionalen Rasters mit Bildinformation umfasst ein Bereitstellen von Bildinformation für jede durch das Raster gebildete Zelle. Unterschiedliche Bildinformation kann dazu bereitgestellt werden, wie nachstehend ausgeführt ist. Das Enkodieren des Umgebungsbildes umfasst insbesondere ein Enkodieren des Umgebungsbildes mit einem CNN Enkodierer zur Bereitstellung der Bildinformation für das gesamte Umgebungsbild gemäß dem Raster mit der ersten Auflösung.
Die Auflösung der Bildinformation betrifft einen Detailgrad der Bildinformation. Mehr Bildinformation bedeutet eine höhere Auflösung, weniger Bildinformation eine geringere Auflösung. Entsprechend bedeutet eine höhere Auflösung eine Bereitstellung eines feineren Rasters, d.h. mit kleineren Zellen, wohingegen eine geringere Auflösung eine Bereitstellung eines gröberen Rasters, d.h. mit größeren Zellen, bedeutet.
Das Durchführen des Dekodierschrittes in dem wenigstens einen zweiten Bildbereich zur Bereitstellung eines zweidimensionalen Rasters, das eine zweite Auflösung aufweist, die niedriger ist als die erste Auflösung, mit Bildinformation betrifft eine Verarbeitung der Bildinformation mit der ersten Auflösung im Bereich des wenigstens einen zweiten Bildbereichs, um daraus das zweidimensionale Raster mit der Bildinformation mit der zweiten Auflösung bereitzustellen. Die Bildinformation in dem wenigstens einen ersten Bildbereich wird unverändert für die nachfolgende Objekterkennung übernommen.
Das Durchführen einer Objekterkennung erfolgt basierend auf der Bildinformation der Mehrzahl Bildbereiche. Verschiedene Ansätze sind als solche im Stand der Technik bekannt, um die Objekterkennung durchzuführen, wie nachstehend weiter spezifiziert wird.
In dem Fahrunterstützungssystem wird das Umgebungsbild von dem wenigstens einen kamerabasierten Umgebungssensor bereitgestellt und an die Steuerungseinheit übertragen. Die Steuerungseinheit führt im nach dem Empfang des Umgebungsbildes das Enkodieren des Umgebungsbildes, das Unterteilen des Umgebungsbildes in die Bildbereiche, den Dekodierschritt in dem wenigstens einen zweiten Bildbereich zur Bereitstellung des zweidimensionalen Rasters, das eine zweite Auflösung aufweist, die niedriger ist als die erste Auflösung, mit Bildinformation sowie das Durchführen der Objekterkennung basierend auf der Bildinformation der Mehrzahl Bildbereiche durch. Die Steuerungseinheit wird im Bereich von Fahrzeugen auch als ECU (Electronic Control Unit) bezeichnet. Die Steuerungseinheit ist vorzugsweise als eingebettetes Gerät ausgeführt und in dem Fahrzeug bereitgestellt.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche ein Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche mit wenigstens einem dritten Bildbereich, und das Verfahren umfasst einen zusätzlichen Schritt zum Durchführen eines Dekodierschrittes in dem wenigstens einen dritten Bildbereich zur Bereitstellung eines zweidimensionalen Rasters, das eine dritte Auflösung aufweist, die niedriger als die erste Auflösung und unterschiedlich zu der zweiten Auflösung ist, mit Bildinformation. Prinzipiell kann das Umgebungsbild also in drei Bildbereiche aufgeteilt werden, wobei die gleichen Prinzipien anwendbar sind, wie bei der Aufteilung in nur zwei Bildbereiche. Auf die gleiche Weise ist auch eine Aufteilung in vier oder mehr Bildbereiche mit unterschiedlichen Auflösungen denkbar. Wie zuvor beschrieben können die einzelnen Bildbereiche dabei zusammenhängend oder verteilt und nicht zusammenhängend angeordnet sein.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche ein Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche mit wenigstens einem vierten Bildbereich, und das Verfahren umfasst einen zusätzlichen Schritt zum Verwerfen von Bildinformation in dem wenigstens einen vierten Bildbereich. Dies ermöglicht es, beispielsweise Metawissen über die zu erwartende Information in dem Umgebungsbild auszunutzen, um dadurch die Verarbeitung der Bildinformation zu beschleunigen. Das Metawissen betrifft ein Wissen über die Montage und Ausrichtung des wenigstens einen kamerabasierten Umgebungssensors an dem Fahrzeug, wodurch sich beispielsweise Bereiche in dem Umgebungsbild identifizieren lassen, die verdeckt sind oder mit einem Sichtfeld einer weiteren Kamera überlappen, und deshalb nicht doppelt verarbeitet werden müssen. Weiter können Bereich mit starken Verzerrungen von der weiteren Verarbeitung ausgeklammert werden, wie sie teilweise bei der Verwendung von Weitwinkeloptiken bis hin zu Fischaugenlinsen auftreten können. Das Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche mit dem wenigstens einen vierten Bildbereich erfolgt vorzugsweise als statische Unterteilung, insbesondere wenn der wenigstens eine vierte Bildbereich basierend auf Metawissen über die Montage und Ausrichtung des wenigstens einen kamerabasierten Umgebungssensors an dem Fahrzeug, basiert, also auf statischer Information. Prinzipiell kann aber auch eine dynamische Festlegung des vierten Bildbereichs erfolgen, beispielsweise durch eine Bestimmung des Horizonts oder eines Bereichs mit Himmel in vorherigen Umgebungsbildern.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Verfahren einen zusätzlichen Schritt zum Identifizieren eines Horizonts des Umgebungsbilds, und das Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche mit wenigstens einem vierten Bildbereich erfolgt basierend auf dem Horizont. Für das Fahren auf einer Straße ist wichtig zu wissen, welche Objekte sich auf der Straße befinden. Diese Objekte befinden sich üblicherweise unterhalb oder nur geringfügig oberhalb einer Horizontebene in dem Umgebungsbild. In diesem Fall kann beispielsweise Bildinformation von einem oberen Bildrand des Umgebungsbildes abwärts, aber mit einem Abstand oberhalb des Horizonts, verworfen werden, da dort keine relevanten Objekte auf der Straße zu erwarten sind, d.h. keine Objekte, die für das Führen des Fahrzeugs relevant sind. Für auf einer Straße fahrende Fahrzeug sind Objekte in der Luft üblicherweise von geringer Relevanz. Entsprechend kann beispielsweise eine obere Reihe mit Zellen mit der enkodierten Bildinformation in dem Raster mit der ersten Auflösung oberhalb des Horizonts verworfen werden. Abhängig von der ersten Auflösung können auch mehrere Reihen mit Zellen verworfen werden.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Unterteilen des Umgebungsbildes in eine Mehrzahl Bildbereiche ein Unterteilen des Umgebungsbildes in zwei Bildbereiche entlang wenigstens einer horizontalen Linie, wobei insbesondere der wenigstens eine zweite Bildbereich und/oder der wenigstens eine dritte Bildbereich bezogen auf eine Ausrichtung des Umgebungsbildes unterhalb der wenigstens einen horizontalen Linie angeordnet ist. Das Unterteilen des Umgebungsbildes zur Bildung der unterschiedlichen Bildbereiche entlang der horizontalen Linie oder entlang mehrerer horizontaler Linien basiert auf einer typischen Bildaufteilung des wenigstens einen kamerabasierten Umgebungssensors. Insbesondere beim Fahren außerhalb von Ortschaften befinden sich nähere Objekte in dem Umgebungsbild typischerweise unterhalb einer horizontalen Linie verglichen mit entfernteren Objekten. Entsprechend ist für gleichartige Objekte eine Größe innerhalb des Umgebungsbildes typischerweise abhängig von ihrer vertikalen Position in dem Umgebungsbild. Dem kann durch die Aufteilung des Umgebungsbildes entlang der wenigstens einen horizontalen Linie Rechnung getragen werden. Dabei weisen Bildbereiche unterhalb einer horizontalen Linie vorzugsweise ein Raster mit einer geringeren Auflösung auf als Bildbereiche oberhalb der entsprechenden horizontalen Linie.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Durchführen einer Objekterkennung basierend auf der Bildinformation der Mehrzahl Bildbereiche ein Durchführen einer unabhängigen Objekterkennung in der Mehrzahl Bildbereiche und ein Fusionieren der Objekterkennung der Mehrzahl Bildbereiche zur Objekterkennung in dem Umgebungsbild. Es können also die selben Prinzipien für jeden der Bildbereiche angewendet werden, um Objekte zu erfassen und zu erkennen. Auch kann die Objekterkennung für die verschiedenen Bildbereiche mit dem gleichen Dekodierer durchgeführt werden, da es keine oder nur geringe prinzipielle Unterschiede für die Objekte in Bezug auf die Auflösung des Raster in den verschiedenen Bildbereichen gibt. Durch das Fusionieren der Objekterkennung der Mehrzahl Bildbereiche können auch Objekte in Übergangsbereichen zwischen unterschiedlichen Bildbereichen zuverlässig erkannt werden.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Durchführen einer unabhängigen Objekterkennung in der Mehrzahl Bildbereiche eine unabhängige Objekterkennung unter Verwendung wenigstens einer Regressionsschicht eines tiefen neuronalen Netzes, YOLO und/oder SSD. Dabei kann jeder Bildbereich des jeweiligen Umgebungsbildes auf dieselbe Weise verarbeitet werden, oder auf eine unterschiedliche Weise. Prinzipiell kann auch beispielsweise dasselbe tiefe Neuronale Netz verwendet werden, um die Bildinformation verschiedener Bildbereiche zu verarbeiten, da Objekte unabhängig von ihrer Position dieselben Eigenschaften aufweisen. YOLO steht dabei als Abkürzung für „You only look once“, SSD steht als Abkürzung für „Single Shot multibox Detector“. Sowohl YOLO wie auch SSD sind als solche im Stand der Technik bekannt und werden daher an dieser Stelle nicht im Detail erläutert. YOLO wie auch SSD sind zur Echtzeit-Objekterkennung insbesondere in eingebetteten Systemen gut geeignet.
In vorteilhafter Ausgestaltung der Erfindung umfasst das Fusionieren der Objekterkennung der Mehrzahl Bildbereiche zur Objekterkennung in dem Umgebungsbild ein Bereitstellen eines einheitlichen Auflösungsraums zur Bereitstellung einer Liste mit fusionierten Objekterkennungen. Dadurch können die erkannten Objekte in einer einheitlichen Weise zur weiteren Verarbeitung bereitgestellt werden.
In vorteilhafter Ausgestaltung der Erfindung umfassen das Enkodieren des Umgebungsbildes zur Bereitstellung eines zweidimensionalen Rasters mit Bildinformation und/oder das Durchführen eines Dekodierschrittes in dem wenigstens einen zweiten Bildbereich zur Bereitstellung eines zweidimensionalen Rasters mit Bildinformation für jede durch das Raster definierte Zelle für jedes erkannte Objekt ein Bereitstellen eines Objektvertrauenswertes, einer Position einer Bounding Box, die das Objekt umschließt, ein Bestimmen von Abmessungen der Bounding Box und ein Bestimmen einer Objektklassenwahrscheinlichkeit für jede zu erkennende Objektklasse. Diese Arten der Bildinformation können verwendet werden, um darauf basierend die Objekte in dem Umgebungsbild mit ihrer Position und Objektart zu erkennen für eine weitere Verarbeitung. Dabei spezifiziert der Objektvertrauenswert, wie hoch das Vertrauen in die Existenz eines Objekts ist. Darüber hinaus gibt die Objektklassenwahrscheinlichkeit für jede mögliche Objektklasse die Wahrscheinlichkeit an, dass das erkannte Objekt zu der entsprechenden Objektklasse gehört. Weitere Informationen sind die Position und Abmessungen der Bounding Box, die das Objekt umschließt, wodurch eine einfache Handhabung des erkannten Objekts erfolgen kann. Dabei können Objekte an Grenzen innerhalb jeder Zelle auch an Grenzen davon liegen, und die Objekte selber können sich als erkannte Objekte mehrerer Zellen über diese mehreren Zellen erstrecken.
Die Bildinformation umfasst vorzugsweise Information, die nicht nur die jeweilige Zelle betrifft, sondern auch benachbarte Zellen oder andere, in der Nähe befindliche Zellen. Dadurch können die Objekte mit einer hohen Zuverlässigkeit erkannt werden, insbesondere bei Objekten, die sich über mehr als eine einzelne Zelle erstrecken.
Nachfolgend wird die Erfindung unter Bezugnahme auf die anliegende Zeichnung anhand bevorzugter Ausführungsformen näher erläutert. Die dargestellten Merkmale können sowohl jeweils einzeln als auch in Kombination einen Aspekt der Erfindung darstellen. Merkmale verschiedener Ausführungsbeispiele sind übertragbar von einem Ausführungsbeispiel auf ein anderes.
Es zeigt

1 eine Ansicht eines Umgebungsbildes mit einer Straße mit seitlichen Fußwegen und einer Mehrzahl Personen alleine und mit einem feinen Raster sowie mit einem groben Raster von Bildinformation gemäß dem Stand der Technik,
2 eine Ansicht eines Fahrzeugs mit einem Fahrunterstützungssystem, insbesondere als verbessertes Fahrerassistenzsystem, mit einem kamerabasierten Umgebungssensor zur Bereitstellung eines Umgebungsbildes und einer Steuerungseinheit, welche das Umgebungsbild von dem kamerabasierten Umgebungssensor empfängt, gemäß einer ersten, bevorzugten Ausführungsform,
3 eine Ansicht eines Umgebungsbildes mit einer Straße mit seitlichen Fußwegen und einer Mehrzahl Personen alleine und mit einem Raster umfassend einen Bildbereich mit einem feinen Raster und einen Bildbereich mit einem groben Raster in Übereinstimmung mit der ersten Ausführungsform,
4 eine Systemdarstellung des Fahrunterstützungssystems aus 2 zur Erfassung und Klassifizierung basierend auf einem Raster umfassend einen Bildbereich mit einem feinen Raster und einen Bildbereich mit einem groben Raster in Übereinstimmung mit der Darstellung in 3,
5 eine Ansicht eines Umgebungsbildes mit einer Straße mit seitlichen Fußwegen und einer Person, die sich über mehrere Zellen eines Bildbereichs mit einem feinen Raster und mehrere Zellen eines Bildbereichs mit einem groben Raster erstreckt, in Übereinstimmung mit der ersten Ausführungsform, und
6 ein Ablaufdiagramm eines Verfahrens zur Erkennung von Objekten in einem Umgebungsbild unter Verwendung eines neuronalen Netzes in Übereinstimmung mit der ersten Ausführungsform.

Die 2 zeigt ein Fahrzeug 10 mit einem Fahrunterstützungssystem 12 gemäß einer ersten, bevorzugten Ausführungsform.
Das Fahrunterstützungssystem 12 ist beispielsweise als verbessertes Fahrerassistenzsystem ausgeführt. Solche verbesserten Fahrerassistenzsysteme sind beispielsweise als ADAS (Advanced Driver Assistance Systems) bekannt und können verschiedenen Funktionen umfassen. Dies Funktionen können beispielhaft einen Toter Winkel-Assistent, einen Spurhalteassistent und/oder ein Kollisionswarn- und Schutzsystem umfassen. Alternativ kann das Fahrunterstützungssystem 12 Funktionen bis hin zum autonomen Fahren des Fahrzeugs 10 unterstützen.
Das Fahrunterstützungssystem 12 ist in 2 beispielhaft mit einem kamerabasierten Umgebungssensor 14 dargestellt. Der kamerabasierte Umgebungssensor 14 ist in diesem Ausführungsbeispiel eine optische Kamera. Die optische Kamera 14 hat beispielhaft eine Auflösung von etwa 2 Megapixel.
Das Fahrunterstützungssystem 12 umfasst außerdem eine Steuerungseinheit 16. Die Steuerungseinheit 16 wird im Bereich von Fahrzeugen auch als ECU (Electronic Control Unit) bezeichnet. Die Steuerungseinheit 16 ist als eingebettetes Gerät ausgeführt und in dem Fahrzeug 10 bereitgestellt.
Die optische Kamera 14 ist über einen Datenbus 18 mit der Steuerungseinheit 16 verbunden. Die optische Kamera 14 erfasst eine Umgebung 20 des Fahrzeugs 10 und nimmt Umgebungsbilder 30 auf, die über den Datenbus 18 an die Steuerungseinheit 16 übertragen werden. Die Umgebungsbilder 30 enthalten jeweils eine Matrix mit Bildpunkten (Pixel), welche die Umgebung 20 des Fahrzeugs 10 zumindest teilweise wiedergeben. Das Umgebungsbild 30 umfasst in diesem Ausführungsbeispiel für jedes Pixel Helligkeitsinformation für eine Mehrzahl Farben, beispielsweise in dem Format RGB oder andere, die von der optischen Kamera 14 bereitgestellt wird.
Nachstehend wird unter zusätzlichem Bezug auf die 3 bis 6 ein Verfahren zur Erkennung von Objekten 36 in dem Umgebungsbild 30 unter Verwendung eines neuronalen Netzes beschrieben. Ein beispielhaftes Umgebungsbild 30, das in den Figuren gezeigt ist, zeigt eine Fahrbahn 32 mit seitlichen Fußwegen 34. Als Objekte 36 sind beispielhaft Fußgänger 36 in dem Umgebungsbild 30 dargestellt. Das Neuronale Netz ist in diesem Ausführungsbeispiel ein konvolutionelles Neuronales Netzes unter Verwendung von Deep Learning. Das Verfahren wird mit dem oben beschriebenen Fahrunterstützungssystem 12 durchgeführt.
Das Verfahren beginnt mit Schritt S100, der ein Empfangen des Umgebungsbildes 30 betrifft. Das Umgebungsbild 30 wird von der optischen Kamera 14 aufgenommen und über den Datenbus 18 an die Steuerungseinheit 16 übertragen.
Schritt S110 betrifft ein Enkodieren des Umgebungsbildes 30 zur Bereitstellung eines zweidimensionalen Rasters 38, das eine erste Auflösung aufweist, mit Bildinformation.
Durch das Raster 38 wird eine Mehrzahl Zellen 40 gebildet, wobei für jede der Zellen 40 durch das Enkodieren Bildinformation bereitgestellt wird. Das Raster 38 definiert somit eine Anordnung der Zellen 40 mit Bildinformation, wobei die Zellen 40 in dem beschriebenen Ausführungsbeispiel eine Zellgröße von 16 x 16 Pixel für die erste Auflösung aufweisen. Das Enkodieren des Umgebungsbildes 30 umfasst ein Enkodieren des Umgebungsbildes 30 mit einem CNN Enkodierer 42, der in 4 dargestellt ist, zur Bereitstellung der Bildinformation für das gesamte Umgebungsbild 30 gemäß dem Raster 38 mit der ersten Auflösung. Die Steuerungseinheit 16 führt umfasst den Enkodierer 42 und führt das Enkodieren des Umgebungsbildes 30 durch.
Als Bildinformation werden für jede durch das Raster 38 definierte Zelle 40 für jedes erkannte Objekt 36 ein Objektvertrauenswertes, eine Position einer Bounding Box 44, die das Objekt 36 umschließt, Abmessungen der Bounding Box 44 und eine Objektklassenwahrscheinlichkeit für jede zu erkennende Objektklasse bestimmt. Dabei spezifiziert der Objektvertrauenswert, wie hoch das Vertrauen in die Existenz eines Objekts 36 ist. Darüber hinaus gibt die Objektklassenwahrscheinlichkeit für jede mögliche Objektklasse die Wahrscheinlichkeit an, dass das erkannte Objekt 36 zu der entsprechenden Objektklasse gehört. Weitere Informationen sind die Position und Abmessungen der Bounding Box 44, die das Objekt 36 umschließt. Die Bildinformation umfasst Information, die nicht nur die jeweilige Zelle 40 betrifft, sondern auch benachbarte Zellen 40 oder andere, in der Nähe befindliche Zellen 40.
Schritt S120 betrifft ein Unterteilen des Umgebungsbildes 30 in eine Mehrzahl Bildbereiche 46a, 46b, 46c. Dazu wird das Umgebungsbild zunächst in eine obere Bildhälfte 50 und eine untere Bildhälfte 52 geteilt. Die obere Bildhälfte 50 wird dann in einen ersten Bildbereich 46a und einen vierten Bildbereich 46c geteilt. Der vierte Bildbereich 46c ist am oberen Rand des Umgebungsbildes 30 gebildet. Die untere Bildhälfte 52 bildet einen zweiten Bildbereich 46b. Das Umgebungsbild 30 ist dabei entlang von horizontalen Linien 48 unterteilt.
Ein Horizont des Umgebungsbildes 30 liegt parallel zu den beiden horizontalen Linien 48, wodurch das Unterteilen der Bildbereiche 46a, 46b, 46c und insbesondere das Festlegen des vierten Bildbereichs 46c basierend auf dem Horizont erfolgt.
Das Unterteilen des Umgebungsbildes 30 in die Bildbereiche 46a, 46b, 46c erfolgt als statische Unterteilung.
Schritt S120 kann auch zu einem beliebigen, früheren Zeitpunkt durchgeführt werden als Konfiguration des Fahrunterstützungssystems 12. Die Unterteilung des Umgebungsbildes in die Bildbereiche 46a, 46b, 46c ist also für alle gleichartigen Umgebungsbilder 30 identisch, d.h. für alle Umgebungsbilder 30 der optischen Kamera 14.
Schritt S130 betrifft ein Verwerfen von Bildinformation in dem vierten Bildbereich 46c. Entsprechend wird die Bildinformation am oberen Rand des Umgebungsbildes 30 verworfen, d.h. die Bildinformation von einem oberen Bildrand des Umgebungsbildes 30 abwärts, aber mit einem Abstand oberhalb des Horizonts, wird verworfen, da dort keine relevanten Objekte 36 auf der Straße 32 zu erwarten sind.
Schritt S140 betrifft ein Durchführen eines Dekodierschrittes in dem zweiten Bildbereich 46b zur Bereitstellung eines zweidimensionalen Rasters 38, das eine zweite Auflösung aufweist, die niedriger ist als die erste Auflösung, mit Bildinformation. Dazu wird die Bildinformation einem Dekodierer 54 zugeführt, der in der Steuerungseinheit 16 implementiert ist und den Dekodierschritt durchführt.
Der Dekodierschritt umfasst eine Verarbeitung der Bildinformation mit der ersten Auflösung des Umgebungsbildes 30 im Bereich des zweiten Bildbereichs 46b, um daraus das zweidimensionale Raster 38 mit der Bildinformation mit der zweiten Auflösung, die niedriger ist als die erste Auflösung, bereitzustellen. Dies ist in 4 dadurch angedeutet, dass die untere Bildhälfte 52 am Ende des Dekodierschritts, d.h. nach dem Durchgang durch den Dekodierer 54, eine geringere Größe aufweist als vor dem Durchgang durch den Dekodierer 54. In diesem Ausführungsbeispiel weist das Raster 38 in dem zweiten Bildbereich 46b eine Zellgröße von 32 x 32 Pixel auf. Dadurch kann die Bildinformation von vier Zellen 40 des Rasters 38 mit der ersten Auflösung zu Bildinformation für lediglich eine einzelne Zelle 40 des Rasters 38 mit der zweiten Auflösung bereitgestellt werden zur weiteren Verarbeitung.
Die Bildinformation der Bildbereiche 46a, 46b, 46c wird im Anschluss kombiniert und gemeinsam weiterverarbeitet, wie in 4 dargestellt ist. Es ergibt sich eine Kombination der beiden unterschiedlichen Raster 38 für ein Umgebungsbild 30, wie auch in 3b dargestellt ist.
Schritt S150 betrifft ein Durchführen einer Objekterkennung basierend auf der Bildinformation der Bildbereiche 46a, 46b, 46c. Dazu wird die Bildinformation in dem ersten Bildbereich 46a unverändert übernommen.
Die Erkennung von Objekten 36 in dem Umgebungsbild 30 betrifft ein Erkennen der Objekte 36 mit ihrer Position und einer Klassifizierung des jeweiligen Objekts 36, beispielsweise als Fußgänger, PKW, LKW, Baum, Haus, Hund oder ähnliches.
Das Durchführen einer Objekterkennung erfolgt basierend auf der Bildinformation der Mehrzahl Bildbereiche 46a, 46b, 46c. Dabei wird eine unabhängige Objekterkennung in dem ersten und zweiten Bildbereich 46a, 46b durchgeführt. Anschließend erfolgt ein Fusionieren der Objekterkennung des ersten und zweiten Bildbereichs 46a, 46b zur vollständigen Vervollständigung der Objekterkennung in dem Umgebungsbild 30. Es werden dabei dieselben Prinzipien für den ersten und zweiten Bildbereich 46a, 46b angewendet, um die Objekte 36 zu erfassen und zu erkennen. Dabei kann die Objekterkennung für den ersten und zweiten Bildbereich 46a, 46b prinzipiell mit dem gleichen Dekodierer 54 durchgeführt werden.
Die Objekterkennung wird im Detail unter Verwendung wenigstens einer Regressionsschicht eines tiefen neuronalen Netzes, YOLO und/oder SSD durchgeführt. YOLO steht dabei als Abkürzung für „You only look once“, SSD steht als Abkürzung für „Single Shot multibox Detector“.
Durch das Fusionieren der Objekterkennung des ersten und zweiten Bildbereichs 46a, 46b werden auch Objekte 36 in Übergangsbereichen zwischen dem ersten und zweiten Bildbereich 46a, 46b zuverlässig erkannt, wie in 5 dargestellt ist.
Das Fusionieren der Objekterkennung des ersten und zweiten Bildbereichs 46a, 46b zur Objekterkennung in dem Umgebungsbild 30 umfasst ein Bereitstellen eines einheitlichen Auflösungsraums zur Bereitstellung einer Liste mit fusionierten Objekterkennungen. Dadurch werden die erkannten Objekte 36 in einer einheitlichen Weise zur weiteren Verarbeitung bereitgestellt.
Bezugszeichenliste

10: Fahrzeug
12: Fahrunterstützungssystem
14: Kamera
16: Steuerungseinheit, ECU
18: Datenbus
20: Umgebung
30: Umgebungsbild
32: Fahrbahn
34: Fußweg
36: Objekt, Fußgänger
38: Raster
40: Zelle
42: Enkodierer
44: Bounding Box
46a: erster Bildbereich
46b: zweiter Bildbereich
46c: vierter Bildbereich
48: horizontale Linie
50: obere Bildhälfte
52: untere Bildhälfte
54: Dekodierer
100: Umgebungsbild (Stand der Technik)
102: Fahrbahn (Stand der Technik)
104: Fußweg (Stand der Technik)
106: Objekt (Stand der Technik)
108: Zelle (Stand der Technik)

Claims

Verfahren zur Erkennung von Objekten (36) in einem Umgebungsbild (30) unter Verwendung eines neuronalen Netzes, insbesondere eines Konvolutionellen Neuronalen Netzes unter Verwendung von Deep Learning, für ein Fahrunterstützungssystem (12) eines Fahrzeugs (10), umfassend die Schritte Empfangen des Umgebungsbildes (30), Enkodieren des Umgebungsbildes (30) zur Bereitstellung eines zweidimensionalen Rasters (38), das eine erste Auflösung aufweist, mit Bildinformation, Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) mit wenigstens einem ersten Bildbereich (46a) und wenigstens einem zweiten Bildbereich (46b), Durchführen eines Dekodierschrittes in dem wenigstens einen zweiten Bildbereich (46b) zur Bereitstellung eines zweidimensionalen Rasters (38), das eine zweite Auflösung aufweist, die niedriger ist als die erste Auflösung, mit Bildinformation, und Durchführen einer Objekterkennung basierend auf der Bildinformation der Mehrzahl Bildbereiche (46a, 46b, 46c), wobei der wenigstens eine erste Bildbereich (46a) die erste Auflösung und der wenigstens eine zweite Bildbereich (46b) die zweite Auflösung aufweist.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) ein Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) mit wenigstens einem dritten Bildbereich umfasst, und das Verfahren einen zusätzlichen Schritt umfasst zum Durchführen eines Dekodierschrittes in dem wenigstens einen dritten Bildbereich zur Bereitstellung eines zweidimensionalen Rasters (38), das eine dritte Auflösung aufweist, die niedriger als die erste Auflösung und unterschiedlich zu der zweiten Auflösung ist, mit Bildinformation.
Verfahren nach einem der vorhergehenden Ansprüche 1 oder 2, dadurch gekennzeichnet, dass das Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) ein Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) mit wenigstens einem vierten Bildbereich (46c) umfasst, und das Verfahren einen zusätzlichen Schritt zum Verwerfen von Bildinformation in dem wenigstens einen vierten Bildbereich (46c) umfasst.
Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das Verfahren einen zusätzlichen Schritt zum Identifizieren eines Horizonts des Umgebungsbilds (30) umfasst, und das Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) mit wenigstens einem vierten Bildbereich (46c) basierend auf dem Horizont erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Unterteilen des Umgebungsbildes (30) in eine Mehrzahl Bildbereiche (46a, 46b, 46c) ein Unterteilen des Umgebungsbildes (30) in zwei Bildbereiche entlang wenigstens einer horizontalen Linie (48) umfasst, wobei insbesondere der wenigstens eine zweite Bildbereich (46b) und/oder der wenigstens eine dritte Bildbereich bezogen auf eine Ausrichtung des Umgebungsbildes (30) unterhalb der wenigstens einen horizontalen Linie (48) angeordnet ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Durchführen einer Objekterkennung basierend auf der Bildinformation der Mehrzahl Bildbereiche (46a, 46b, 46c) ein Durchführen einer unabhängigen Objekterkennung in der Mehrzahl Bildbereiche (46a, 46b, 46c) und ein Fusionieren der Objekterkennung der Mehrzahl Bildbereiche (46a, 46b, 46c) zur Objekterkennung in dem Umgebungsbild (30) umfasst.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass das Durchführen einer unabhängigen Objekterkennung in der Mehrzahl Bildbereiche (46a, 46b, 46c) eine unabhängige Objekterkennung unter Verwendung wenigstens einer Regressionsschicht eines tiefen neuronalen Netzes, YOLO und/oder SSD umfasst.
Verfahren nach einem der vorhergehenden Ansprüche 6 oder 7, dadurch gekennzeichnet, dass das Fusionieren der Objekterkennung der Mehrzahl Bildbereiche (46a, 46b, 46c) zur Objekterkennung in dem Umgebungsbild (30) ein Bereitstellen eines einheitlichen Auflösungsraums zur Bereitstellung einer Liste mit fusionierten Objekterkennungen umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Enkodieren des Umgebungsbildes (30) zur Bereitstellung eines zweidimensionalen Rasters (38) mit Bildinformation und/oder das Durchführen eines Dekodierschrittes in dem wenigstens einen zweiten Bildbereich (46b) zur Bereitstellung eines zweidimensionalen Rasters (38) mit Bildinformation für jede durch das Raster (38) definierte Zelle (40) für jedes erkannte Objekt (36) ein Bereitstellen eines Objektvertrauenswertes, einer Position einer Bounding Box (44), die das Objekt (36) umschließt, ein Bestimmen von Abmessungen der Bounding Box (44) und ein Bestimmen einer Objektklassenwahrscheinlichkeit für jede zu erkennende Objektklasse umfassen.
Fahrunterstützungssystem (12) für ein Fahrzeug (10), insbesondere als verbessertes Fahrerassistenzsystem, mit wenigstens einem kamerabasierten Umgebungssensor (14) zur Bereitstellung eines Umgebungsbildes (30) und einer Steuerungseinheit (16), welche das Umgebungsbild (30) von dem wenigstens einen kamerabasierten Umgebungssensor (14) empfängt, wobei das Fahrunterstützungssystem (12) ausgeführt ist, das Verfahren nach einem der vorhergehenden Ansprüche 1 bis 9 durchzuführen.