DE102022207989A1

DE102022207989A1 - Verfahren zum Erfassen eines Umfelds mittels Bildern von zumindest zwei Bildsensoren

Info

Publication number: DE102022207989A1
Application number: DE102022207989.2A
Authority: DE
Inventors: Tamas Kapelner
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2024-02-08
Also published as: US20240046659A1; CN117523346A

Abstract

Es wird ein Verfahren zum Erfassen eines Umfelds mittels Bildern von zumindest zwei Bildsensoren (102, 104, 106, 108), mit den folgenden Schritten beschrieben:Bereitstellen eines ersten Bildes des Umfelds von einem ersten Bildsensor (102, 104, 106, 108);Bereitstellen eines zweiten Bildes des Umfelds von einem zweiten Bildsensor (102, 104, 106, 108); wobei der erste Bildsensor und der zweite Bildsensor eingerichtet sind, das Umfeld mit unterschiedlichen Erfassungsbereichen zu erfassen;Definieren einer virtuellen Fläche (130), die zwischen dem Umfeld und den zumindest zwei Bildsensoren (102, 104, 106, 108) angeordnet ist;Generieren eines virtuellen Gesamtbildes (120) auf der virtuellen Fläche (130), basierend auf einer Projektions-Transformation jeweiliger Bildpunkte des ersten Bildes und einer Projektions-Transformation jeweiliger Bildpunkte des zweiten Bildes von einer jeweiligen Bildebene des jeweiligen Bildsensors (102, 104, 106, 108) auf die virtuelle Fläche (130); undRepräsentieren des Umfelds, basierend auf dem virtuellen Gesamtbild (120) und einem zur Repräsentation des Umfelds trainierten neuronalen Netz (250), um das Umfeld zu erfassen.

Description

Stand der Technik
Für die Steuerung zumindest teilautomatisierter Systeme, wie z.B. selbstfahrender Fahrzeuge oder Roboter, als Beispiele für mobile Plattformen, muss für einen sicheren und effektiven Betrieb eine Interpretation der Umgebung der mobilen Plattform für z. B. Entscheidungsprozesse wie Trajektorienplanung und -steuerung der mobilen Plattformen erfolgen.
Viele Bildverarbeitungsaufgaben für eine Interpretation einer Umgebung, also eine Umgebungswahrnehmung, basieren auf einer Vielzahl von Bildsensoren, wie z.B. Kameras. Typischerweise sind dabei alle Objekte der Umgebung um einen Agenten, wie z.B. ein Fahrzeug, einen mobilen Roboter oder eine mobile Plattform, herum platziert und sollen mittels der Umgebungswahrnehmung detektiert werden. Zu diesem Zweck werden die Bildsensoren in der Regel an dem Agenten so angeordnet, dass sie die Umgebung des Agenten erfassen können. Eine solche Anordnung von Bildsensoren wird typischerweise als Multikameragürtel (EN: multi-camera belt) bezeichnet. Ein sehr relevantes Beispiel ist die Umgebungswahrnehmung für das automatisierte Fahren, bei dem ein autonomes Fahrzeug alle Objekte um sich herum wahrnehmen muss, um sicher zu fahren. Dabei gibt es für eine Erfassung der Objekte in der Umgebung mehrere Möglichkeiten:

- Objekte können von jeder einzelnen Kamera erkannt werden und können dann in eine 3D-Darstellung der Umgebung umgewandelt werden, sowie in einem späteren Schritt kombiniert werden. Dies wird üblicherweise als „Late Fusion“ bezeichnet.
- Kamerabilder können zuerst kombiniert werden, und dann können Objekte in einem späteren Schritt erkannt werden, dies wird typischerweise „early-fusion“ genannt.
- Jede beliebige Fusionsstufe zwischen den beiden vorhergehenden Stufen ist ebenfalls denkbar, z. B. die Kombination von Merkmalen, die aus verschiedenen Kamerabildern extrahiert wurden, und deren Verwendung zum Erfassen der Umgebung verwendet werden.

Offenbarung der Erfindung
Bei der Erfassung der Objekte mittels einer Vielzahl von Kameras ist eine Zuordnung der jeweiligen Kamera zu dem jeweiligen Objekt zu bestimmen, d.h. es muss die Aufgabe gelöst werden, wie man erkennt, ob ein Objekt von mehreren Kameras erfasst wird oder ob ein Objekt von einem Erfassungs-Raumwinkel einer Kamera zu einem Erfassungs-Raumwinkel einer anderen Kamera wechselt. Typischerweise wird eine entsprechende Fusion, basierend auf einer Vogelperspektive (BEVR: Birds-Eye View Repräsentation) auf die Umgebung, durchgeführt, d.h. ein Endergebnis der Fusion wird in einer Ansicht abgebildet, in der die Objekte des Umfelds aus einer Aufsicht auf das Umfeld dargestellt sind. In dieser Darstellung können dreidimensional Informationen erfasst werden und die Darstellung ermöglicht, über eine Position, eine Orientierung und eine Geschwindigkeit von umliegenden Objekte zu entscheiden.
Nachteilig an einer Fusion, die auf der Vogelperspektive basieret, ist eine begrenzte Genauigkeit, wenn die Objekte sehr weit von dem Agenten, bzw. Bildsensor, entfernt sind. Darüber hinaus wird in einem solchen Fall in der Regel auch eine große Menge an Speicherplatz für diese Darstellung benötigt. Das liegt daran, dass bei einem weit entfernten Objekt in der Vogelperspektive der gesamte Raum zwischen dem Objekt und dem Agenten abgebildet werden muss, insbesondere, wenn dort, abgesehen von der jeweiligen Entfernung, keine zusätzlichen Informationen relevant für die Erfassung der Objekte sind.
Erfindungsgemäß werden Verfahren zum Erfassen eines Umfelds, ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Erfassen eines Umfelds, eine Vorrichtung zur Datenverarbeitung, eine mobile Plattform und eine Verwendung einer Vorrichtung zur Datenverarbeitung gemäß den Merkmalen der unabhängigen Ansprüche angegeben, welche zumindest zum Teil die genannten Wirkungen aufweisen. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
In dieser gesamten Beschreibung der Erfindung ist die Abfolge von Verfahrensschritten so dargestellt, dass das Verfahren leicht nachvollziehbar ist. Der Fachmann wird aber erkennen, dass viele der Verfahrensschritte auch in einer anderen Reihenfolge durchlaufen werden können und zu dem gleichen oder einem entsprechenden Ergebnis führen. In diesem Sinne kann die Reihenfolge der Verfahrensschritte entsprechend geändert werden. Einige Merkmale sind mit Zählwörtern versehen um die Lesbarkeit zu verbessern oder die Zuordnung eindeutiger zu machen, dies impliziert aber nicht ein Vorhandensein bestimmter Merkmale.
Gemäß einem Aspekt der Erfindung wird ein Verfahren zum Erfassen eines Umfelds mittels Bildern von zumindest zwei Bildsensoren mit den folgenden Schritten vorgeschlagen.
In einem Schritt wird ein erstes Bild des Umfelds von einem ersten Bildsensor bereitgestellt, und in einem weiteren Schritt wird ein zweites Bild des Umfelds von einem zweiten Bildsensor bereitgestellt, wobei der erste Bildsensor und der zweite Bildsensor eingerichtet sind, das Umfeld mit unterschiedlichen Erfassungsbereichen zu erfassen.
In einem weiteren Schritt wird eine virtuelle Fläche definiert, die zwischen dem Umfeld und den zumindest zwei Bildsensoren angeordnet ist. In einem weiteren Schritt wird ein virtuelles Gesamtbild auf der virtuellen Fläche generiert, welches auf einer Projektions-Transformation jeweiliger Bildpunkte des ersten Bildes und einer Projektions-Transformation jeweiliger Bildpunkte des zweiten Bildes von einer jeweiligen Bildebene des jeweiligen Bildsensors auf die virtuelle Fläche basiert. In einem weiteren Schritt wird das Umfeld, basierend auf dem virtuellen Gesamtbild und einem für eine Repräsentation des Umfelds trainierten neuronales Netz, repräsentiert, um das Umfeld zu erfassen.
Die Projektions-Transformation, d. h. die Transformations-Vorschrift für die Bildpunkte der jeweiligen Bildebene des jeweiligen Bildsensors hängt von Parametern des jeweiligen Bildsensors ab, die den Bildsensor charakterisieren, und von Parametern der virtuellen Fläche ab, die die virtuelle Fläche beschreiben.
Im Prinzip wird dafür für jedes Pixel im Bild:

Ein Sichtstrahl in der dreidimensionalen Welt bestimmt, der den jeweiligen Pixel definiert und ist abhängig von der verwendeten Kamera, also wo im Bild mit welchem Winkel Sichtstrahl eintrifft.
Berechnen, wo der Sichtstrahl die dreidimensionale virtuelle Fläche treffen würde Umrechnen dieser dreidimensionalen Koordinaten auf Koordinaten auf der virtuellen Fläche.

Bei dem Verfahren kann die virtuelle Fläche und/oder das virtuelle Gesamtbild insgesamt oder über eine Sequenz von Schritten des Verfahrens identisch sein.
Das Umfeld kann ein Umfeld des ersten Bildsensors und/oder des zweiten Bildsensors sein. Alternativ oder zusätzlich kann das Umfeld ein Umfeld einer mobilen Plattform und/oder eines Agenten sein, an die zumindest einer der, insbesondere das Verfahren betreffende, Bildsensor mechanisch gekoppelt ist.
Der Bildsensor kann beispielsweise eine Foto-Kamera sein und/oder eine Videokamera sein und/oder ein bildgebendes System sein, das eine zweidimensionale Charakterisierung des Umfelds generiert.
Der Erfassungsbereich oder Erfassungs-Raumwinkel eines Bildsensors kann einen räumlichen Bereich des Umfelds kennzeichnen, der insbesondere durch einen Raumwinkel beschrieben und/oder definiert werden kann, der den räumlichen Bereich des Umfelds kennzeichnet, der durch den jeweiligen Bildsensor erfasst wird.
Die virtuelle Fläche kann eine gekrümmte Fläche, wie insbesondere eine Zylinderfläche sein, die in Bezug auf ihre Form und/oder ihre Anordnung und/oder ihre Erstreckung geeignet ist, dass die Umgebung, insbesondere zumindest eines das Verfahren betreffenden Bildsensors, auf der gekrümmten Fläche abgebildet und/oder charakterisiert werden kann.
Die virtuelle Fläche kann im Wesentlichen zwischen Objekten der Umgebung und den jeweiligen Bildsensoren angeordnet sein. Insbesondere kann die virtuelle Fläche symmetrisch zu einer Vielzahl der betreffenden Bildsensoren angeordnet sein. Beispielsweise kann die virtuelle Fläche symmetrisch zu der mobilen Plattform mit den gekoppelten Bildsensoren und/oder dem Agenten angeordnet sein.
Insbesondere kann die gekrümmte Fläche aufgerichtet auf einer Grundfläche der Umgebung angeordnet sein.
Die virtuelle Fläche kann so geformt und angeordnet sein, dass ein Gesamt-Raumwinkelbereich, der sich räumlich additiv aus den erfassten Raumwinkelbereichen der Bilder der das Verfahren betreffenden Bildsensoren ergibt, auf der virtuellen Fläche dargestellt werden kann.
Die virtuelle Fläche kann so angeordnet und gekrümmt sein, dass die jeweiligen Bildsensoren und/oder eine mobile Plattform und/oder ein Agent zumindest teilweise oder vollständig, insbesondere ringförmig, umschlossen werden. Dabei kann die virtuelle Fläche insbesondere in Bezug auf einen Winkelbereich parallel zu einer Grundfläche der jeweiligen Bildsensoren einen Winkelbereich von 360° umfassen.
Beispielsweise kann die virtuelle Fläche eine Zylinderfläche sein, wobei der Zylinder auf einer Grundfläche der Umgebung aufgerichtet ist. Alternativ kann die virtuelle Fläche eine Kugelfläche sein. Alternativ kann die virtuelle Fläche die Fläche eines Ellipsoids sein.
Das virtuelle Gesamtbild kann als eine strukturierte Gesamtheit von virtuellen Bildpunkten auf der virtuellen Fläche definiert werden. Ein jeweiliger virtueller Bildpunkt kann durch eine Projektions-Transformation eines jeweiligen Bildpunktes des jeweiligen Bildes von der jeweiligen Bildebene des jeweiligen Bildsensors auf die virtuelle Fläche bestimmt, bzw. generiert, werden.
Gemäß einem Aspekt wird vorgeschlagen, dass die jeweiligen Bilder, die in einem jeweiligen Schritt des Verfahrens verwendet werden, durch die Bildsensoren in einem solchen geringen zeitlichen Abstand generiert werden, sodass für eine Erfassung des Umfelds, das Umfeld, das durch die entsprechende Vielzahl von Bildern repräsentiert wird, ausreichend charakterisiert ist. D. h., dass die Vielzahl von Bildern, die in einer jeweiligen Sequenz von Schritten des Verfahrens bereitgestellt werden, entweder zeitgleich generiert wurden oder in einem kurzen Zeitintervall generiert wurden.
Eine Vielzahl von Bildsensoren kann eine kleine Anzahl von Bildsensoren, beispielsweise zwei oder drei Bildsensoren umfassen, die Vielzahl kann auch 100 Bildsensoren umfassen oder eine noch viel höhere Anzahl von Bildsensoren umfassen.
Der Begriff „basierend auf“ ist in Bezug auf das Merkmal, dass das Umfeld auf dem virtuellen Gesamtbild und einem zur Repräsentation des Umfelds trainierten neuronalen Netz basiert, breit zu verstehen. Es ist so zu verstehen, dass das virtuellen Gesamtbild und das zur Repräsentation des Umfelds trainierte neuronale Netz für jedwede Bestimmung oder Berechnung einer Repräsentation des Umfelds herangezogen wird, wobei das nicht ausschließt, dass auch noch andere Eingangsgrößen und/oder weitere Verfahrensschritte für diese Repräsentation des Umfelds herangezogen werden.
Unter einer mobilen Plattform kann ein zumindest teilweise automatisiertes System verstanden werden, welches mobil ist, und/oder ein Fahrerassistenzsystem eines Fahrzeugs. Ein Beispiel kann ein zumindest teilweise automatisiertes Fahrzeug bzw. ein Fahrzeug mit einem Fahrerassistenzsystem sein. Das heißt, in diesem Zusammenhang beinhaltet ein zumindest teilweise automatisiertes System eine mobile Plattform in Bezug auf eine zumindest teilweise automatisierte Funktionalität, aber eine mobile Plattform beinhaltet auch Fahrzeuge und andere mobile Maschinen einschließlich Fahrerassistenzsysteme. Weitere Beispiele für mobile Plattformen können Fahrerassistenzsysteme mit mehreren Sensoren, mobile Multisensor-Roboter wie z.B. Roboterstaubsauger oder Rasenmäher, ein Multisensor-Überwachungssystem, eine Fertigungsmaschine, ein persönlicher Assistent oder ein Zugangskontrollsystem sein. Jedes dieser Systeme kann ein vollständig oder teilweise automatisiertes System sein.
Gemäß einem Aspekt wird vorgeschlagen, dass das neuronale Netzwerk eine Mehrzahl von Netzwerkschichten aufweist und die Netzwerkschichten zumindest eine fully connected Schicht und/oder zumindest eine Faltungsschicht aufweist.
Ein neuronales Netzwerk stellt einen Rahmen für viele verschiedene Algorithmen, beispielsweise zum maschinellen Lernen, zum Zusammenarbeiten und für die Verarbeitung komplexer Dateneingaben, zur Verfügung. Solche neuronalen Netzwerke lernen Aufgaben anhand von Beispielen auszuführen, ohne typischerweise mit aufgabenspezifischen Regeln programmiert worden zu sein.
Ein solches neuronales Netz basiert auf einer Sammlung verbundener Einheiten oder Knoten, die als künstliche Neurone bezeichnet werden. Jede Verbindung kann ein Signal von einem künstlichen Neuron zu einem anderen übertragen. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann weitere damit verbundene künstliche Neuronen aktivieren.
Bei herkömmlichen Implementierungen von neuronalen Netzen ist das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der gewichteten Summe seiner Eingänge, bzw. Eingangssignalen, berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass ein Signal nur dann ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet.
Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht, möglicherweise nach mehrmaligem Durchlaufen der Schichten.
Ergänzend zu den Ausführungen zu neuronalen Netzen besteht der Aufbau eines künstlichen Neuronalen-Faltungs-Netzes (Convolutional Neural Network) aus einer oder mehreren Faltungs-Schichten (convolutional layer), gegebenenfalls gefolgt von einem Pooling Layer. Die Abfolge von Schichten kann mit oder ohne Normalisierungs-Schichten (z.B. Layer-Normalisierung), Zero-Padding-Schichten, Dropout-Schichten und Aktivierungs-Funktionen, wie z.B. Rectified Linear Unit ReLU, sigmoid-Funktion, tanh-Funktion oder softmax-Funktion, verwendet werden.
Diese Einheiten können sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks. Ein solches neuronales Faltungsnetzwerk kann eine Abfolge von Schichten aufweisen, die die Eingangsgitter bzw. Eingangssignale auf eine niedrigere Auflösung herunter abtasten, um die gewünschten Informationen zu erhalten und die redundanten Informationen zu speichern.
Gemäß einem Aspekt wird vorgeschlagen, dass die Projektions-Transformation für das Generieren des virtuellen Gesamtbildes auf den jeweiligen Kameraparametern der zumindest zwei Bildsensoren basiert.
Gemäß einem Aspekt wird vorgeschlagen, dass die Projektions-Transformation

eine Koordinaten-Transformation im dreidimensionalen Raum zwischen der Kameraebene und der virtuellen Fläche ist.

Gemäß einem Aspekt wird vorgeschlagen, dass das Repräsentieren des Umfelds ein Bestimmen von Objekten des Umfelds und/oder eine Bestimmung einer semantischen Segmentierung der Umgebung und/oder eine Bestimmung einer Klassifizierung einer Szene der Umgebung aufweist.
Mit anderen Worten kann das Umfeld mittels des trainierten neuronalen Netzwerks repräsentiert werden, indem beispielsweise Objekte der Umgebung detektiert werden und/oder die jeweiligen Bilder semantisch segmentiert werden.
Gemäß einem Aspekt wird vorgeschlagen, dass das jeweilige Bestimmen zur Repräsentation des Umfelds auf dem virtuellen Gesamtbild basiert, insbesondere um das Umfeld zu erfassen.
Gemäß einem Aspekt wird vorgeschlagen, dass das zur Repräsentation trainierte neuronale Netz trainiert ist, Objekte des Umfelds zu bestimmen und/oder eine semantische Segmentierung der Umgebung zu bestimmen und/oder eine Klassifizierung einer Szene zu bestimmen, insbesondere um das Umfeld zu erfassen.
Mit anderen Worten bildet das Verfahren zum Erfassen des Umfelds die Bilder eines Multikameragürtels, der eine Vielzahl von Bildsensoren aufweist, auf eine einzige virtuelle Fläche, insbesondere zylindrische Fläche ab, wobei insbesondere einem neuronalen Faltungsnetzwerk das virtuelle Gesamtbild der virtuellen Fläche als Eingangssignal bereitgestellt werden kann. Nach der Durchführung der jeweiligen Aufgabe, z. B. der Objekterkennung mittels eines neuronalen Faltungsnetzwerks, können die Objekte in einem dreidimensionalen Raum des Umfelds abgebildet werden. Da die Erkennung der Objekte auf einer gemeinsamen Darstellung basiert, nämlich der Darstellung auf einer virtuellen Fläche, wird das Problem der Zuordnung von Objekten, die von zumindest zwei Kameras erfasst werden, vermieden. Neben der Objekterkennung kann das Verfahren natürlich auch alternativ oder zusätzlich für jede andere Bildverarbeitungsaufgabe verwendet werden, z. B. für eine semantische Segmentierung und/oder eine Klassifizierung einer Szene.
Damit entspricht das beschriebene Verfahren einer Form der Frühfusion, die die Probleme, die mit der Darstellung in der Vogelperspektive verbundenen sind, überwindet, d. h. die Darstellung benötigt keine große Anzahl von Parametern und verliert bei der Erkennung von Objekten nicht an Genauigkeit, wenn die Objekte von einem der Bildsensoren weit entfernt sind.
Da es sich um eine Early-Fusion-Methode handelt, wird auch das Problem der Objektzuordnung und Objektverfolgung zwischen den Bildsensoren zumindest gemildert, das bei Late-Fusion-Techniken typischerweise auftritt. Ein weiterer Vorteil ist, dass neuronale Faltungsnetzwerke, die typischerweise in der Computer-Vision verwendet werden, auf die gemeinsame Darstellung angewandt werden können, so dass keine speziellen Techniken zur Erstellung einer Darstellung in der Vogelperspektive erforderlich sind.
Ein weiterer Vorteil der Erfindung besteht darin, dass die virtuelle Fläche, auf die die Bilder der Bildsensoren, wie insbesondere Kameras, abgebildet werden, bei Veränderung der Bildsensoren beibehalten werden kann, so, dass man dasselbe neuronale Netzwerk auf verschiedene räumliche Konfigurationen einer Vielzahl von Bildsensoren, anwenden kann, solange die Bildsensoren auf dieselbe virtuelle Fläche mittels einer Projektions-Transformation abgebildet werden. Das bedeutet auch, dass diese Methode robust gegen zufällige Änderungen einer Ausrichtung der Bildsensoren, z. B. durch physikalische Effekte, ist.
Mit anderen Worten, kann das Verfahren Bilder einer Vielzahl von Bildsensoren auf eine gemeinsame virtuelle Fläche, insbesondere mit allgemein bekannten mathematischen Verfahren, mittels der Projektions-Transformation projizieren. Bei dieser Projektions-Transformation kann eine Koordinatentransformation im dreidimensionalen Raum zwischen der jeweiligen Bildebene des jeweiligen Bildsensors und der frei wählbaren virtuellen Fläche berechnet werden und die virtuellen Bildpunkte oder virtuellen Pixel des virtuellen Gesamtbildes werden entsprechend dieser Transformation definiert.
Somit werden die jeweiligen Bilder einer Vielzahl von Bildsensoren, insbesondere eines Multikameragürtels, basierend auf den jeweiligen Bildsensor-Parametern der jeweiligen Bildsensoren auf die virtuelle Fläche abgebildet, um das virtuelle Gesamtbild zu generieren. Die genaue Lage und Ausrichtung der virtuellen Fläche, wie insbesondere einer Zylinderebene, auf der die Bilder abgebildet werden, kann beliebig sein und ist im Wesentlichen ein Hyperparameter dieses Verfahrens. Dabei kann es Teil-Bereiche auf der virtuellen Fläche, d. h. insbesondere innerhalb des virtuellen Gesamtbildes, geben, die keine Informationen basierend auf der Projektions-Transformation enthalten. Zusätzlich oder alternativ kann die virtuelle Fläche, bzw. insbesondere das virtuelle Gesamtbild, Teil-Bereiche aufweisen, auf die mehrere Bilder, insbesondere unterschiedlicher Bildsensoren, abgebildet werden. Zur Bestimmung des jeweiligen virtuellen Bildpunktes, bzw. virtuellen Pixels, des virtuellen Gesamtbildes, an dem projektions-transformierte Bildpunkte unterschiedlicher Bildsensoren sich überlagern würden, kann beispielsweise durch eine Interpolation der jeweiligen sich überlagernden projektions-transformierten Bildpunkte bestimmt werden.
Das trainierte neuronale Faltungsnetzwerk kann auf das virtuelle Gesamtbild als Eingangssignal angewendet werden, indem es, entsprechend einem zweidimensionalen virtuellen Gesamtbild, wie ein „entrolltes“ virtuelles Gesamtbild aufgefasst, bzw. insbesondere transformiert wird. Dabei kann an den Rändern des zweidimensionalen virtuellen Gesamtbildes eine periodische Auffüllung vorgenommen werden, so dass die eine Rand-Seite des „entrollten“ zweidimensionalen virtuellen Gesamtbildes, zumindest für Faltungsprozesse innerhalb des trainierten neuronalen Netzwerks, mit Bildinhalten der anderen Rand-Seite aufgefüllt wird und entsprechend umgekehrt die andere Seite des „entrollten“ zweidimensionalen virtuellen Gesamtbildes mit Bildinhalten der einen Seite des zweidimensionalen virtuellen Gesamtbildes aufgefüllt wird.
Bereiche des virtuellen Gesamtbildes, auf die keine projektions-transformierte Bildpunkte abgebildet werden, können mit Nullen aufgefüllt werden. Alternativ oder zusätzlich können Bereiche des virtuellen Gesamtbildes, auf die keine Projektiontransformierten Bildpunkte abgebildet werden, mit partiellen Faltungsprozessen innerhalb des trainierten neuronalen Faltungsnetzwerkes bestimmt werden, um die Pixel dieser Bereiche für die Repräsentation des Umfelds entsprechend zu ignorieren.
Gemäß einem Aspekt wird vorgeschlagen, dass das virtuelle Gesamtbild eine Vielzahl von virtuellen Bildpunkten aufweist, die mittels der jeweiligen Bildpunkte der jeweiligen Bilder, basierend auf der Projektions-Transformation, generiert werden. Alternativ oder zusätzlich können virtuelle Bildpunkte, die von Bildpunkten zumindest zwei Bildern unterschiedlicher Bildsensoren, die nach der Projektions-Transformation auf der virtuellen Fläche überlappen, insbesondere zum Generieren des virtuellen Gesamtbildes, durch Interpolation bestimmt werden.
Gemäß einem Aspekt wird vorgeschlagen, dass das Verfahren mit einer Vielzahl von Bildsensoren, insbesondere mit einer Vielzahl von Bildsensoren eines Multi-Kameragürtels, die das Umfeld jeweils mit unterschiedlichen Erfassungsbereichen erfassen, durchgeführt wird, und wobei insbesondere die Vielzahl von Bildsensoren mechanisch mit einer mobilen Plattform gekoppelt sind.
Gemäß einem Aspekt wird vorgeschlagen, dass die virtuelle Fläche eine gekrümmte Fläche ist, die sich im Wesentlichen zwischen Objekten der Umgebung und den jeweiligen Bildsensoren so erstreckt, dass die Umgebung der Bildsensoren auf der gekrümmten Fläche abgebildet und/oder charakterisiert werden kann. Insbesondere kann die gekrümmte Fläche aufgerichtet auf einer Grundfläche der Umgebung angeordnet sein.
Gemäß einem Aspekt wird vorgeschlagen, dass die virtuelle Fläche zumindest eine Symmetrieachse aufweist. Dabei können die jeweiligen Bildebenen der Vielzahl der Bildsensoren symmetrisch zu der zumindest einen Symmetrieachse der virtuellen Fläche angeordnet sein.
Gemäß einem Aspekt wird vorgeschlagen, dass die virtuelle Fläche Teilflächen aufweist, wobei eine Gesamtheit der Teilflächen für alle jeweiligen Bildsensoren umschließend zu den jeweiligen Bildsensoren angeordnet sind. Alternativ kann die virtuelle Fläche für alle jeweiligen Bildsensoren geschlossen, oder offen, für alle jeweiligen Bildsensoren umschließend angeordnet sein. Beispielsweise kann die virtuelle Fläche entsprechend einer Zylinderfläche angeordnet und gekrümmt sein.
D. h., dass entsprechend einem Aspekt die virtuelle Fläche ringförmig geschlossen, insbesondere in Bezug auf einen Blickwinkel parallel zu einer Bodenfläche der jeweiligen Bildsensoren, um die jeweiligen Bildsensoren angeordnet sein kann.
Gemäß einem Aspekt wird vorgeschlagen, dass die virtuelle Fläche genau eine einzige virtuelle Fläche ist, die alle jeweiligen Bildsensoren zumindest teilweise oder vollständig umschließt.
Gemäß einem Aspekt wird vorgeschlagen, dass die virtuelle Fläche entsprechend einer Zylinderfläche angeordnet und/oder entsprechend einer Zylinderfläche ausgestaltet oder geformt ist. Dabei kann eine Zylinderachse der Zylinderfläche aufgerichtet, insbesondere senkrecht, auf einer Grundfläche der Umgebung angeordnet sein.
Mit anderen Worten heißt das, dass die Projektions-Transformation auf eine Zylinderfläche als virtuelle Fläche jeweilige Bildpunkte des jeweiligen Bildes des jeweiligen Bildsensors mittels einer zylindrischen Projektion von Bildern eines Multikameragürtels von der jeweiligen Bildebene auf die zylindrische Ebene erfolgen kann.
Mittels solchen, sogenannten zylindrischen Faltungen, die auf eine Vielzahl von Bildern angewandt wird, wird hier vorgeschlagen, das Umfeld von Bildsensoren zu erfassen.
Gemäß einem Aspekt wird vorgeschlagen, dass das neuronale Netzwerk ein neuronales Faltungsnetzwerk ist, und/oder das neuronale Netzwerk an jeweiligen Rändern des neuronalen Faltungsnetzwerks periodisch aufgefüllt ist, um eine, insbesondere vollständig, umschließenden virtuelle Fläche abzubilden.
Damit kann erreicht werden, dass eine 360° Rotationsinvarianz des virtuellen Gesamtbildes mit dem neuronalen Netzwerk, und insbesondere des neuronalen Faltungsnetzwerkes abgebildet wird. D. h. an den jeweiligen Rändern des neuronalen Faltungsnetzwerkes kann die 360° Periodizität des virtuellen Gesamtbildes bei der Definition des Faltungsnetzwerkes berücksichtigt werden, und insbesondere kann ein Winkelbereich des virtuellen Gesamtbildes auf der virtuellen Fläche im Randbereich des Faltungsnetzwerkes durch eine Periodizität berücksichtigt werden, insbesondere dadurch, dass die Ränder durch periodisches Auffüllen abgebildet werden.
Gemäß einem Aspekt wird vorgeschlagen, dass weitere Schritte zum Erfassen des Umfelds die Periodizität des virtuellen Gesamtbildes fortsetzen. D.h., dass bei einer virtuellen Fläche mit einer periodischen Struktur, wie beispielsweise einer virtuellen Fläche in Form einer Zylinderfläche, in der zweidimensionalen Darstellung der Zylinderfläche der Bildinhalt des virtuellen Gesamtbildes auf einem außenliegenden Teil auf einer Seite und einem außenliegenden Teil auf einer anderen Seite identisch sind. Insbesondere können Regressionen in zylindrischen Koordinaten dieses Problem für zylindrische virtuelle Flächen implizit behandeln.
Wenn die virtuelle Fläche, die in den dreidimensionalen Raum eingebettet ist, in eine zweidimensionale Darstellung, entsprechend einer zweidimensionalen virtuellen Fläche, transformiert wird, kann diese Transformation für die zweidimensionale Darstellung der virtuellen Fläche jeweilige Ränder der zweidimensionalen Darstellung so bestimmen, dass die Rotationssymmetrie der ringförmig angeordneten virtuellen Fläche charakterisiert wird.
Gemäß einem Aspekt wird vorgeschlagen, dass das neuronale Faltungsnetzwerk zumindest eine Schicht mit partiellen Faltungsoperationen aufweist, um ein Umfeld zu repräsentieren, in dem Teilbereiche der virtuellen Fläche nach erfolgter Projektions-Transformation der jeweiligen Bildpunkte der Bilder der jeweiligen Bildsensoren keine virtuellen Bildpunkte aufweisen.
Mittels partieller Faltungsoperationen kann das neuronale Netzwerk eingerichtet sein, nicht vorhandene Informationen über Teilbereiche des Umfelds basierend auf dem virtuellen Gesamtbild und/oder der virtuellen Fläche zu behandeln.
Typischerweise können partielle Faltungsoperationen eingesetzt werden, wenn Teile eines Bildes fehlen und ergänzt werden müssen. Ein Verfahren der partiellen Faltungsoperation modifiziert Faltungsoperationen in einer solchen Weise, dass einige Eingänge einer jeweiligen Faltungsschicht ignoriert werden, um entsprechende modifizierte neuronalen Netzwerke resistent gegen fehlende Eingangsinformationen zu machen.
Gemäß einem Aspekt wird vorgeschlagen, dass Teilbereiche des virtuellen Gesamtbildes, auf die kein projektions-transformierter Bildpunkt fällt, d. h. insbesondere Lücken im virtuellen Gesamtbild, jeweils mit Nullen aufgefüllt werden, um eine Darstellung des virtuellen Gesamtbildes zu erzeugen, welches für das neuronale Netzwerk als Eingangssignal geeignet ist.
Gemäß einem Aspekt wird ein Verfahren zum Trainieren eines neuronalen Netzwerks zum Erfassen eines Umfelds zumindest eines Bildsensors, basierend auf Bildern des zumindest einen Bildsensors, vorgeschlagen, wobei eine virtuelle Fläche definiert wird, die zwischen dem Umfeld und dem zumindest einen Bildsensor angeordnet ist. Dabei kann das neuronale Netzwerk mit einer Vielzahl von Trainings-Zyklen und mit den folgenden Schritten im jeweiligen Trainings-Zyklus trainiert werden.
In einem Schritt des Trainings-Zyklus kann eine Repräsentation eines Ground-Truth-Umfelds des zumindest einen Bildsensors, bereitgestellt werden. In einem weiteren Schritt des Trainings-Zyklus kann ein Bild des Umfelds des zumindest einen Bildsensors bereitgestellt werden. In einem weiteren Schritt kann ein virtuelles Gesamtbild des Umfelds des zumindest einen Bildsensors auf der virtuellen Fläche, basierend auf einer Projektions-Transformation der jeweiligen Bildpunkte des Bildes des Umfelds des zumindest einen Bildsensors von einer jeweiligen Bildebene des jeweiligen Bildsensors auf der virtuellen Fläche generiert werden. In einem weiteren Schritt des Trainings-Zyklus kann das Umfeld, basierend auf dem virtuellen Gesamtbild des Bildes des Umfelds des zumindest einen Bildsensors, mittels des neuronalen Netzwerks repräsentiert werden. In einem weiteren Schritt kann zumindest eine Abweichung des jeweiligen, mit dem neuronalen Netzwerk repräsentierten Umfeld von dem jeweiligen repräsentierten Ground-Truth-Umfeld bestimmt werden. Dabei kann auch das „Ground-Truth-Umfeld“ auf der virtuallen Fläche gemapped werden.
Z.B. können Ground-Truth Bounding-Boxen von den jeweiligen Bildern, können diese auf die virtuelle Fläche projiziert werden. Dabei kann bei zumindest einem Teil der Trainings-Zyklen das neuronale Netzwerk adaptiert werden, um eine Abweichung des durch das neuronale Netzwerk repräsentierten Umfeld von dem Ground-Truth-Umfeld zu minimieren.
Das Ground-Truth-Umfeld kann durch Fakten beschrieben werden, die beobachtet oder gemessen wurden und objektiv analysiert werden können.
Mit anderen Worten kann das neuronale Netzwerk auch mit Teilen der Darstellung des Ground-Truth Umfelds auf der virtuellen Fläche, die insbesondere eine zylindrische Fläche ist, trainiert werden. Dabei können also auch einzelne Bilder einzelner Bildsensoren verwendet werden. Dann können diese einzelnen Bilder auf die virtuelle Fläche abgebildet werden, wodurch entsprechende nur ein Teilbereich der virtuellen Fläche, bzw. nur ein Teil des virtuellen Gesamtbildes trainiert wird. Dabei kann berücksichtigt werden, dass spezifische Merkmale, insbesondere einer geschlossenen virtuellen Fläche Anpassung erfordern, wie das periodische Auffüllen am Rand der zweidimensionalen virtuellen Fläche, bzw. des zweidimensionalen virtuellen Gesamtbildes. Darüber hinaus muss das neuronale Netzwerk angepasst werden, um bei ausschließlichen Training mit einzelnen Bildern einzelner Bildsensoren fehlende und/oder überlappende projektions-transformierte Pixel korrekt zuzuordnen.
Beim Training neuronaler Netzen unterscheidet man typischerweise zwischen
einer Trainingsphase und einer Testphase, die auch Ausbreitungsphase genannt wird. In der Trainingsphase, die aus einer Vielzahl von Trainingsdurchläufen besteht, lernt das neuronale Netz anhand eines Trainings-Datensets. Dementsprechend werden in der Regel die Gewichte zwischen den einzelnen Neuronen modifiziert. Lernregeln geben dabei die Art und Weise an, wie das neuronale Netz diese Veränderungen vornimmt.
Bei dem supervised learning (überwachtes bzw. beaufsichtigtes Lernen) wird der korrekte Output als „teaching vector“ vorgegeben anhand derer die Parameter des neuronalen Netzes bzw. die Gewichte, wie beispielsweise Gewichte eines Faltungs-Kerns, optimiert werden.
In der Testphase werden hingegen keine Parameter oder Gewichte verändert. Stattdessen wird hier auf Grundlage der bereits modifizierten Gewichte aus der Trainingsphase untersucht, ob das Netz korrekt gelernt hat. Dazu präsentiert man dem Eingang des neuronalen Netzes Daten und prüft, welchen Output das neuronale Netz bestimmt. Dabei kann mit den dem neuronalen Netz schon gezeigten Ausgangsreizen geprüft werden, ob das neuronale Netz das Trainingsmaterial erfasst hat.
Durch Präsentation neuer Reize kann man feststellen, ob das Netz generalisierend Aufgaben löst.
Eine Kostenfunktion (Loss) misst, wie gut ein vorliegendes neuronales Netz eine gegebene Problemstellung löst. Beim Training eines neuronalen Netzes werden die Gewichte schrittweise so geändert, dass die Kostenfunktion minimal wird.
Für ein Anwenden des Backpropagation Algorithmus, der verwendet werden
kann, um die Parameter des neuronalen Umfeld-Netzwerks zu adaptieren, kann die Kostenfunktion (Loss) als eine Summe der quadrierten pixel-weiser Differenz zwischen dem vom jeweiligen neuronalen Umfeld-Netzwerk ausgegebenen Tensor und einem Tensor, welcher das externe Umfeldmodell darstellt, definiert werden.
Gemäß einem Aspekt wird für das Verfahren zum Trainieren des neuronalen Netzwerks vorgeschlagen, dass das Repräsentieren des Umfelds das
Bestimmen von Objekten des Umfelds und/oder eine semantische Segmentierung der Umgebung und/oder eine Klassifizierung einer Szene der Umgebung aufweist, die auf dem virtuellen Gesamtbild basiert, insbesondere um das Umfeld zu erfassen. Alternativ oder zusätzlich ist das zur Repräsentation trainierte neuronale Netz trainiert, Objekten des Umfelds zu bestimmen und/oder eine semantische Segmentierung der Umgebung zu bestimmen und/oder Klassifizierung einer Szene zu bestimmen, insbesondere um das Umfeld zu erfassen.
Gemäß einem Aspekt wird für das Verfahren zum Trainieren des neuronalen Netzwerks vorgeschlagen, dass eine Vielzahl von Bildern einer Vielzahl von Bildsensoren, insbesondere eine Vielzahl von Bildsensoren eines Multi-Kameragürtels, bereitgestellt werden, um das virtuelle Gesamtbild zu generieren. Das Generieren des virtuellen Gesamtbildes eines Umfelds der Vielzahl von Bildsensoren auf der virtuellen Fläche, basierend dann entsprechend auf der Projektions-Transformation jeweiliger Bildpunkte von jeweiligen Bildern der Vielzahl von Bildsensoren von einer jeweiligen Bildebene der jeweiligen Bildsensoren auf die virtuelle Fläche.
Alternativ oder zusätzlich kann die Vielzahl von Bildsensoren mechanisch mit einer Plattform, insbesondere mit einer mobilen Plattform, gekoppelt sein. Dabei kann die Vielzahl der Bildsensoren eingerichtet sein, Bilder zu generieren und bereitzustellen, die das Umfeld für die Erfassung des Umfelds ausreichend genau synchronisiert gleichzeitig generiert wurden.
Gemäß einem Aspekt wird für das Verfahren zum Trainieren des neuronalen Netzwerks vorgeschlagen, dass in dem jeweiligen Trainings-Zyklus ein zweites Bild des Umfelds von einem zweiten Bildsensor bereitgestellt wird mit dem das virtuelle Gesamtbild generiert wird und der erste Bildsensor und der zweite Bildsensor eingerichtet sind, das Umfeld mit unterschiedlichen Erfassungsbereichen zu erfassen.
Das bedeutet, dass das neuronale Netzwerk sowohl mit Bildern einzelner Bildsensoren als auch mit Bildern einer Vielzahl von Bildsensoren trainiert werden kann, das Umfeld zu repräsentieren.
Gemäß einem Aspekt wird für das Verfahren zum Trainieren des neuronalen Netzwerks vorgeschlagen, dass ein virtueller Bildpunkt des virtuellen Gesamtbildes, der aus Bildpunkten zumindest zweier Bilder des Umfelds unterschiedlicher Bildsensoren generiert wird, und die Bildpunkte zumindest zweier Bilder nach der Projektions-Transformation auf der virtuellen Fläche des virtuellen Gesamtbildes überlappen, durch Interpolation der jeweiligen projektions-transformierten Bildpunkte der zumindest zwei Bilder unterschiedlicher Bildsensoren bestimmt werden.
Gemäß einem Aspekt wird für das Verfahren zum Trainieren des neuronalen Netzwerks vorgeschlagen, dass das neuronale Netzwerk ein neuronales Faltungsnetzwerk ist und insbesondere das neuronale Netzwerk mindestens eine Faltungsschicht aufweist und in mindestens einem Trainingsdurchlauf mittels der Faltungsschicht mindestens eine Faltungs-Operation durchgeführt wird.
Gemäß einem Aspekt wird eine Vorrichtung zur Datenverarbeitung, um ein Umfeld zu erfassen, vorgeschlagen, die einen Eingang zum Bereitstellen von zumindest einem ersten Bild des Umfelds eines ersten Bildsensors und einem zweiten Bild des Umfelds eines zweiten Bildsensors aufweist. Die Vorrichtung zur Datenverarbeitung weist zusätzlich eine Recheneinheit und/oder einen System-on-Chip auf, wobei die Recheneinheit und/oder das System-on-Chip basierend auf einem trainierten neuronalen Netz eingerichtet ist, eines der oben beschriebenen Verfahren durchzuführen. Zusätzlich weist die Vorrichtung zur Datenverarbeitung einen Ausgang zur Bereitstellung einer Repräsentation des Umfeldes auf, um das Umfeld zu erfassen.
Gemäß einem Aspekt wird vorgeschlagen, dass mit der Vorrichtung zur Datenverarbeitung aus Bildern oder Videos, die von einem Multikameragürtel aufgenommen wurden, ein Steuersignal zur Steuerung eines physikalischen Systems, wie z. B. einer computergesteuerten Maschine, eines Roboters, eines Fahrzeugs oder eines Haushaltsgeräts, berechnet werden. Dazu können die jeweiligen Bilder der jeweiligen Bildsensoren klassifiziert werden, um Objekte zu identifizieren und/oder die jeweiligen Bilder semantisch zu Segmentieren. Das Segmentieren von Bildern oder das identifizieren von Objekten kann sich insbesondere auf Verkehrsschilder und/oder Fahrbahnoberflächen und/oder Fußgänger und/oder Fahrzeuge und/oder andere Aufgaben der Bildbearbeitung beziehen.
Vorteilhafterweise kann mit der Vorrichtung zur Datenverarbeitung, die auf dem oben beschriebenen Verfahren zum Erfassen eines Umfelds basiert, die Umgebung einfach erfasst werden, auch wenn das Erfassen auf einer Vielzahl von Bildern von Bildsensoren basiert, die insbesondere so angeordnet sind, dass die Umgebung eines Akteurs, wie eines Fahrzeugs oder einer mobilen Plattform oder eines mobilen Roboters erfasst werden soll.
Mit einem einer solchen Vorrichtung zur Datenverarbeitung kann das oben beschriebene Verfahren, zum Erfassen eines Umfelds, leicht in unterschiedliche Systeme integriert werden
Gemäß einem Aspekt wird eine mobile Plattform, und insbesondere ein zumindest teilautomatisiertes Fahrzeug, vorgeschlagen, das eine oben beschriebene Vorrichtung zur Datenverarbeitung aufweist.
Gemäß einem Aspekt wird eine Verwendung einer oben beschriebenen Vorrichtung zur Datenverarbeitung 13 zum Repräsentieren eines Umfelds vorgeschlagen.
Gemäß einem weiteren Aspekt wird ein Computerprogramm vorgeschlagen, das Befehle umfasst, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren zum Erfassen eines Umfelds mittels Bildern von zumindest zwei Bildsensoren auszuführen. Ein solches Computerprogramm ermöglicht den Einsatz des beschriebenen Verfahrens in unterschiedlichen Systemen.
Gemäß einem Aspekt wird ein maschinenlesbares Speichermedium vorgeschlagen, auf dem das oben beschriebene Computerprogramm gespeichert ist. Mittels eines solchen maschinenlesbaren Speichermediums ist das oben beschriebene Computerprogramm transportabel.
Gemäß einem Aspekt wird ein Verfahren vorgeschlagen, bei dem, basierend auf einer oben beschriebenen Repräsentation eines Umfeldes von Bildsensoren, ein Steuersignal zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs generiert wird; und/oder basierend auf der Repräsentation des Umfelds einer mobilen Plattform ein Warnsignal zur Warnung eines Fahrzeuginsassen generiert wird.
Ausführungsbeispiele
Ausführungsbeispiele der Erfindung sind in den 1 und 2 dargestellt und werden im Folgenden näher erläutert. Es zeigt:

1 eine Skizze in einer Aufsicht auf ein Umfeld einer mobilen Plattform mit vier Bildsensoren mit jeweils unterschiedlichem Erfassungsbereich schematisch ein Verfahren zum Erfassen eines Umfelds mit einem virtuellen Gesamtbild;
2 skizziert in einer Aufsicht auf ein Umfeld einer mobilen Plattform mit vier Bildsensoren schematisch weitere Schritte zum Erfassen eines Umfelds mit einem virtuellen Gesamtbild.

Die 1 skizziert schematisch ein Verfahren zum Erfassen eines Umfelds mittels bereitgestellter Bilder von vier Bildsensoren 102, 104, 106, 108 einer mobilen Plattform 100, wobei die vier Bildsensoren 102, 104, 106, 108 eingerichtet sind, das Umfeld der mobilen Plattform 100 mit unterschiedlichen Erfassungsbereichen zu erfassen.
Dabei ist eine zylindrische virtuelle Fläche 130 definiert, die zwischen dem Umfeld und den Bildsensoren 102, 104, 106, 108 symmetrisch um die mobile Plattform 100 angeordnet ist. Basierend auf einer Projektions-Transformation 110 von jeweiligen Bildpunkten der jeweiligen Bilder 102, 104, 106, 108 und einer Projektions-Transformation jeweiliger Bildpunkte von einer jeweiligen Bildebene des jeweiligen Bildsensors 102, 104, 106, 108 auf die virtuelle Fläche 130 wird ein virtuelles Gesamtbild 120 generiert.
Die 2 skizziert schematisch wie die zylindrische virtuelle Fläche 130 mit dem virtuellen Gesamtbild 120 an einer Stelle 210 aufgetrennt und „entrollt“ 220 wird, um eine zweidimensionale virtuelle Fläche 230 zu generieren. Durch Anwendung 240 des zur Repräsentation des Umfelds trainierten neuronalen Netzes 250 auf die zweidimensionale virtuelle Fläche 230 kann das Umfeld repräsentiert werden, um das Umfeld der mobilen Plattform 100 zu erfassen. Darüber hinaus skizziert 2 die Teilbereiche 101 des virtuellen Gesamtbildes 120, auf die keine Bildpunkte der jeweiligen Bilder projektions-transformiert werden, auch auf dem zweidimensionalen virtuellen Gesamtbild 230 abgebildet werden. Diese Teil-Bereiche 101 können mit Nullen aufgefüllt werden, oder über partielle Faltungsoperationen des trainierten neuronalen Netzwerks 250 für eine Repräsentation des Umfelds berücksichtigt werden. Mittels des trainierten neuronalen Netzwerks 250 kann beispielsweise eine Objekterkennung zur Repräsentation des Umfelds durchgeführt werden, um das Umfeld zu repräsentieren.

Claims

Verfahren zum Erfassen eines Umfelds mittels Bildern von zumindest zwei Bildsensoren (102, 104, 106, 108) mit den Schritten: Bereitstellen eines ersten Bildes des Umfelds von einem ersten Bildsensor (102, 104, 106, 108); Bereitstellen eines zweiten Bildes des Umfelds von einem zweiten Bildsensor (102, 104, 106, 108); wobei der erste Bildsensor und der zweite Bildsensor eingerichtet sind, das Umfeld mit unterschiedlichen Erfassungsbereichen zu erfassen; Definieren einer virtuellen Fläche (130), die zwischen dem Umfeld und den zumindest zwei Bildsensoren (102, 104, 106, 108) angeordnet ist; Generieren eines virtuellen Gesamtbildes (120) auf der virtuellen Fläche (130), basierend auf einer Projektions-Transformation jeweiliger Bildpunkte des ersten Bildes und einer Projektions-Transformation jeweiliger Bildpunkte des zweiten Bildes von einer jeweiligen Bildebene des jeweiligen Bildsensors (102, 104, 106, 108) auf die virtuelle Fläche (130); und Repräsentieren des Umfelds, basierend auf dem virtuellen Gesamtbild (120) und einem zur Repräsentation des Umfelds trainierten neuronalen Netz (250), um das Umfeld zu erfassen.
Verfahren gemäß Anspruch 1, wobei das virtuelle Gesamtbild (120) eine Vielzahl von virtuellen Bildpunkten aufweist, die mittels der jeweiligen Bildpunkte der jeweiligen Bilder basierend auf der Projektions-Transformation generiert werden; und/oder wobei virtuelle Bildpunkte, die von Bildpunkten zumindest zwei Bildern unterschiedlicher Bildsensoren (102, 104, 106, 108), die nach der Projektions-Transformation auf der virtuellen Fläche (130) überlappen, insbesondere zum Generieren des virtuellen Gesamtbildes (120), durch Interpolation bestimmt werden.
Verfahren gemäß einem der vorhergehenden Ansprüche, mit einer Vielzahl von Bildsensoren (102, 104, 106, 108), insbesondere mit einer Vielzahl von Bildsensoren eines Multi-Kameragürtels, die das Umfeld jeweils mit unterschiedlichen Erfassungsbereichen erfassen; und wobei insbesondere die Vielzahl von Bildsensoren (102, 104, 106, 108) mechanisch mit einer mobilen Plattform (100) gekoppelt sind.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die virtuelle Fläche (130) Teilflächen aufweist; und eine Gesamtheit der Teilflächen für alle jeweiligen Bildsensoren (102, 104, 106, 108) umschließend angeordnet sind; oder wobei die virtuelle Fläche (130) für alle jeweiligen Bildsensoren (102, 104, 106, 108) geschlossen, oder offen, für alle jeweiligen Bildsensoren (102, 104, 106, 108) umschließend angeordnet ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die virtuelle Fläche (130) genau eine einzige virtuelle Fläche ist, die alle jeweiligen Bildsensoren (102, 104, 106, 108) zumindest teilweise oder vollständig umschließt.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei die virtuelle Fläche (130) entsprechend einer Zylinderfläche angeordnet ist und/oder entsprechend einer Zylinderfläche ausgestaltet ist; und/oder eine Zylinderachse der Zylinderfläche aufgerichtet, insbesondere senkrecht, auf einer Grundfläche der Umgebung angeordnet ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das neuronale Netzwerk (250) ein neuronales Faltungsnetzwerk ist; und/oder das neuronale Netzwerk (250) an jeweiligen Rändern des neuronalen Faltungsnetzwerks periodisch aufgefüllt ist, um eine, insbesondere vollständig, umschließenden virtuelle Fläche (130) abzubilden.
Verfahren gemäß Anspruch 7, wobei das neuronale Faltungsnetzwerk zumindest eine Schicht mit partiellen Faltungsoperationen aufweist, um ein Umfeld zu repräsentieren, in dem Teilbereiche der virtuellen Fläche (130) nach erfolgter Projektions-Transformation der jeweiligen Bildpunkte der Bilder der jeweiligen Bildsensoren (102, 104, 106, 108) keine virtuellen Bildpunkte aufweisen.
Verfahren zum Trainieren eines neuronalen Netzwerks (250) zum Erfassen eines Umfelds zumindest eines Bildsensors (102, 104, 106, 108), basierend auf Bildern des zumindest einen Bildsensors, wobei eine virtuelle Fläche (130) definiert wird, die zwischen dem Umfeld und dem zumindest einen Bildsensor (102, 104, 106, 108) angeordnet ist; und wobei das neuronale Netzwerk (250) mit einer Vielzahl von Trainings-Zyklen und mit den folgenden Schritten im jeweiligen Trainings-Zyklus trainiert wird: Bereitstellen einer Repräsentation eines Ground-Truth-Umfeldes des zumindest einen Bildsensors (102, 104, 106, 108); Bereitstellen eines Bildes des Umfelds des zumindest einen Bildsensors (102, 104, 106, 108); Generieren eines virtuellen Gesamtbilds (120) des Umfelds des zumindest einen Bildsensors (102, 104, 106, 108) auf der virtuellen Fläche (130), basierend auf einer Projektions-Transformation der jeweiligen Bildpunkte des Bildes des Umfelds des zumindest einen Bildsensors (102, 104, 106, 108) von einer jeweiligen Bildebene des jeweiligen Bildsensors (102, 104, 106, 108) auf die virtuelle Fläche (130); Repräsentieren des Umfelds basierend auf dem virtuellen Gesamtbild (120) des Bildes des Umfelds des zumindest einen Bildsensors (102, 104, 106, 108) mittels des neuronalen Netzwerks (250); Bestimmen zumindest einer Abweichung des jeweiligen, mit dem neuronalen Netzwerk (250) repräsentierten Umfeld von dem jeweiligen repräsentierten Ground-Truth-Umfeld; und bei zumindest einem Teil der Trainings-Zyklen: Adaptieren des neuronalen Netzwerks (250), um eine Abweichung des durch das neuronale Netzwerk (250) repräsentierten Umfeld von dem Ground-Truth-Umfeld zu minimieren.
Verfahren gemäß Anspruch 9, wobei eine Vielzahl von Bildern einer Vielzahl von Bildsensoren (102, 104, 106, 108), insbesondere eine Vielzahl von Bildsensoren eines Multi-Kameragürtels, bereitgestellt werden, um das virtuelle Gesamtbild (120) zu generieren; und Generieren des virtuellen Gesamtbildes (120) eines Umfelds der Vielzahl von Bildsensoren (102, 104, 106, 108) auf der virtuellen Fläche (130), basierend auf der Projektions-Transformation jeweiliger Bildpunkte von jeweiligen Bildern der Vielzahl von Bildsensoren (102, 104, 106, 108) von einer jeweiligen Bildebene der jeweiligen Bildsensoren (102, 104, 106, 108) auf die virtuelle Fläche (130).
Verfahren gemäß Anspruch 9 oder 10, wobei in dem jeweiligen Trainings-Zyklus ein zweites Bild des Umfelds von einem zweiten Bildsensor (102, 104, 106, 108) bereitgestellt wird; und wobei der erste Bildsensor (102, 104, 106, 108) und der zweite Bildsensor (102, 104, 106, 108) eingerichtet sind, das Umfeld mit unterschiedlichen Erfassungsbereichen zu erfassen.
Verfahren gemäß Anspruch 9 bis 11, wobei ein virtueller Bildpunkt des virtuellen Gesamtbildes (120), der aus Bildpunkten zumindest zweier Bilder des Umfelds unterschiedlicher Bildsensoren generiert wird, und die nach der Projektions-Transformation auf der virtuellen Fläche (130) des virtuellen Gesamtbildes (120) überlappen, durch Interpolation der jeweiligen projektions-transformierten Bildpunkte der zumindest zwei Bilder unterschiedlicher Bildsensoren (102, 104, 106, 108) bestimmt werden.
Vorrichtung zur Datenverarbeitung, um ein Umfeld zu erfassen mit, einem Eingang zum Bereitstellen von zumindest einem ersten Bild des Umfelds eines ersten Bildsensors (102, 104, 106, 108) und einem zweiten Bild des Umfelds eines zweiten Bildsensors (102, 104, 106, 108); einer Recheneinheit und/oder einem System-on-Chip, wobei die Recheneinheit und/oder das System-on-Chip basierend auf einem trainierten neuronalen Netz (250) eingerichtet ist, ein Verfahren gemäß Anspruch 1 bis 8 durchzuführen; und einem Ausgang zur Bereitstellung einer Repräsentation des Umfeldes, zur Erfassung des Umfelds.
Mobile Plattform (100), insbesondere ein zumindest teilautomatisiertes Fahrzeug, das eine Vorrichtung zur Datenverarbeitung gemäß Anspruch 13 aufweist.
Verwendung der Vorrichtung zur Datenverarbeitung gemäß Anspruch 13 zum Repräsentieren eines Umfelds.