DE102022214331A1

DE102022214331A1 - Verfahren zum Detektieren von Informationen über mindestens ein Objekt und/oder mindestens einen Teil des freien Raums in einer Darstellung der Umgebung eines Systems

Info

Publication number: DE102022214331A1
Application number: DE102022214331.0A
Authority: DE
Inventors: Denis Tananaev; Steffen Abraham; Ze Guo
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-01-18
Filing date: 2022-12-22
Publication date: 2023-07-20
Also published as: CN116469074A; US20230230389A1

Abstract

Die Erfindung betrifft ein Verfahren zum Detektieren von Informationen über mindestens ein Objekt (1, 2) und/oder mindestens einen Teil des freien Raums (3) in einer Darstellung (4) der Umgebung eines Systems, wobei das Verfahren mindestens die folgenden Schritte umfasst:a) Durchführen einer Ground-Truth-Generierung;b) Durchführen einer Hindernis- und Freiraumdetektion;c) Durchführen einer Generalisierung über verschiedene Kameras (5) und/oder verschiedene digitale Bilddarstellungen hinweg.

Description

Die Erfindung betrifft ein Verfahren zum Detektieren von Informationen über mindestens ein Objekt und/oder mindestens einen Teil des freien Raums in einer Darstellung der Umgebung eines Systems, insbesondere basierend auf mindestens einer oder mehrerer digitaler Bilddarstellungen, die von mindestens einer oder mehreren Kameras erhalten werden, und/oder auf Sensordaten, die von mindestens einem aktiven Umgebungssensor des Systems, vorteilhafterweise einem Fahrzeug, erhalten werden. Darüber hinaus werden ein Computerprogramm zur Durchführung des Verfahrens, ein maschinenlesbares Speichermedium mit dem Computerprogramm sowie ein Objekterkennungssystem für ein Fahrzeug angegeben. Die Erfindung kann insbesondere bei der Realisierung des zumindest teilweise automatisierten oder autonomen Fahrens zur Anwendung kommen. Weiterhin kann die Erfindung auch in Robotersystemen zur Anwendung kommen, insbesondere für einen zumindest teilweise automatisierten oder autonomen Betrieb.
Stand der Technik
Bei fortschrittlichen Robotersystemen besteht eine Schlüsseltechnologie des Wahrnehmungssystems darin, zu erkennen, wohin der Roboter gehen kann und wo sich die Hindernisse befinden. Die herkömmliche Methode, bei der klassische Computer-Vision-Techniken verwendet werden, ist komplex und arbeitet nicht durchgängig (nicht end-to-end). Im Gegensatz dazu arbeiten Deep-Learning-Techniken meist im Bildbereich und stützen sich auf aktive 3D-Sensoren (wie LiDAR, Radar usw.), um 3D-Informationen zu erfassen. Solche Multisensorsysteme sind komplex und teuer, und es erfordert einen hohen technischen Aufwand, die Informationen aus verschiedenen Modalitäten zu synchronisieren und zu verschmelzen.
Offenbarung der Erfindung
Hier vorgeschlagen wird gemäß Anspruch 1 ein Verfahren zum Detektieren von Informationen über mindestens ein Objekt und/oder mindestens einen Teil des freien Raums in einer Darstellung der Umgebung eines Systems, wobei das Verfahren mindestens die folgenden Schritte umfasst:

a) Durchführen einer Ground-Truth-Generierung;
b) Durchführen einer Hindernis- und Freiraumdetektion;
c) Durchführen einer Generalisierung über verschiedene Kameras und/oder verschiedene digitale Bilddarstellungen hinweg.

Die Schritte a), b) und c) können zur Durchführung des Verfahrens beispielsweise zumindest einmal und/oder wiederholt in der angegebenen Reihenfolge durchgeführt werden. Weiterhin können die Schritte a), b) und c) zumindest teilweise parallel oder gleichzeitig durchgeführt werden. Der Schritt a) kann beispielweise zur Generierung von Trainingsdaten für einen maschinell lernfähigen Algorithmus und/oder ein maschinell lernfähiges System, wie etwa ein künstliches neuronales Netz durchgeführt werden. Die Schritte b) und/oder c), insbesondere Schritt b) können beispielsweise während der Anwendung des trainierten Algorithmus bzw. maschinell lernfähigen Systems durchgeführt werden. Zwischen den Schritten a) und b) kann beispielsweise ein Training des maschinell lernfähigen Algorithmus und/oder des maschinell lernfähigen Systems, insbesondere des künstlichen neuronalen Netzes durchgeführt werden, insbesondere unter Verwendung der in Schritt a) generierten Informationen.
Das dient Verfahren zum Detektieren von Informationen über mindestens ein Objekt und/oder mindestens einen Teil des freien Raums in einer Darstellung der Umgebung eines Systems, insbesondere basierend auf mindestens einer oder mehrerer digitaler Bilddarstellungen, die von mindestens einer oder mehreren Kameras erhalten werden, und/oder basierend auf Sensordaten, die von mindestens einem aktiven Umgebungssensor des Systems erhalten werden. Bei dem System kann es sich beispielsweise um ein Fahrzeug, wie etwa ein Kraftfahrzeug handeln. Bei dem Fahrzeug kann es sich beispielsweise um ein Automobil handeln. Das Fahrzeug bzw. System kann für einen zumindest teilweise automatisierten oder autonomen (Fahr-)Betrieb eingerichtet sein.
Das Detektieren kann beispielsweise ein maschinelles und/oder sensorisches Detektieren bzw. Erfassen betreffen. Bei dem Objekt kann es sich beispielsweise um andere Verkehrsteilnehmer, wie andere Fahrzeuge, Fußgänger oder dergleichen handeln. Weiterhin kann es sich bei dem Objekt beispielsweise um eine Infrastruktureinrichtung, wie etwa eine Ampelanlage, eine Beschilderung oder dergleichen handeln. Bei dem freien Raum, kann es sich insbesondere um den Raum bzw. Freiraum handeln, in dem das System (frei) operieren und/oder sich hin bewegen kann, ohne mit einem Objekt zu kollidieren. Die Informationen können beispielsweise die (Relativ-)Position bzw. den insbesondere räumlichen oder betragsmäßigen Abstand zu dem Objekt oder Raum und/oder die räumliche Erstreckung bzw. Dimension oder Ausbreitung des Objekts oder Raums betreffen.
In Schritt a) erfolgt ein Durchführen einer Ground-Truth-Generierung. Insbesondere kann in Schritt a) eine automatischen Ground-Truth-Generierung erfolgen. Vorteilhafterweise kann dabei eine automatische 3D-Hindernis-Stixel-Ground-Truth-Generierung durchgeführt werden. Die „Ground-Truth“ kann insbesondere eine Vielzahl von Datensätzen umfassen, welche ein Grundwissen für ein Training eines maschinell lernfähigen Algorithmus und/oder eines maschinell lernfähigen Systems, wie etwa eines künstlichen neuronalen Netzes beschreiben. Das Grundwissen kann insbesondere eine ausreichende Anzahl von Datensätzen betreffen, um einen entsprechenden Algorithmus bzw. ein entsprechendes System für eine Bildauswertung trainieren zu können.
Der Begriff Ground-Truth kann hier alternativ oder zusätzlich beispielsweise eine Bodenwirklichkeit, Grundwahrheit und/oder einen Feldvergleich betreffen. Die Ground-Truth-Generierung ermöglicht in vorteilhafter Weise, dass bei der Analyse von Informationen aus der Darstellung der Umgebung Ground-Truth-Daten, insbesondere Boden-Daten bzw. Daten zur Beschreibung des Bodens (Position und/oder Verlauf) in der Darstellung der Umgebung berücksichtigt werden können. Die Ground-Truth-Daten können insbesondere Zusatzinformationen und/oder Referenzinformation bereitstellen über Gegebenheiten und/oder Dimensionen und/oder Verhältnisse in der Darstellung der Umgebung. Die Ground-Truth-Daten können insbesondere dazu beitragen zu beschreiben, an welcher Stelle ein (potentielles) Objekt auf dem Boden aufsteht bzw. in Kontakt mit dem in der Darstellung erkennbaren Boden kommt. Die Ground-Truth-Daten können beispielsweise dazu beitragen ein (Referenz-)Objekt in der Darstellung konkreter erfassen oder beschreiben zu können. Insbesondere können die Ground-Truth-Daten dazu beitragen, dass Informationen aus der Darstellung präziser klassifiziert und/oder das Ergebnis der Klassifizierung auf Korrektheit geprüft werden kann.
Somit können die Ground-Truth-Daten besonders vorteilhaft zu einem Training eines maschinell lernfähigen Algorithmus und/oder eines maschinell lernfähigen Systems, insbesondere eines künstlichen neuronalen Netzes beitragen. Insbesondere kann der maschinell lernfähige Algorithmus und/oder das maschinell lernfähige System, insbesondere das künstliche neuronale Netz so erlernen, in einer (zweidimensionalen) Bilddarstellung zu erkennen, an welcher Stelle ein (potentielles) Objekt auf dem Boden aufsteht bzw. in Kontakt mit dem in der Darstellung erkennbaren Boden kommt. Weiterhin kann so auch vorteilhaft die Erkennung mindestens eines Objekt oder eines das Objekt beschreibenden Stixels erlernt werden, der auf das bzw. der auf einem entsprechenden Bodenpunkt aufsteht.
Unter einem „Stixel“ kann eine insbesondere rechteckige (3D-)Datenstruktur verstanden werden, welche einen gewissen Bereich einer Szene bzw. der Darstellung beschreibt. Jeder Stixel kann die relative Position zur Kamera bzw. zum Sensor (welche bzw. welcher die Darstellung erfasst hat), die Höhe und/oder die Disparität und damit vorteilhaft die Tiefe zu einem potenziellen Objekt enthalten. Diese Datenstruktur „steht“ dabei in der Regel auf dem Boden. Zum Erhalten von Informationen über die Position und/oder Erstreckung des Bodens in der Darstellung kann hier beispielsweise die Ground-Truth-Generierung beitragen. Weiterhin hat jeder Stixel in der Regel eine feste StixelWeite. Ziel der Verwendung von Stixeln ist üblicherweise die Abstraktion der 3D-Bilddaten durch eine zusätzliche Repräsentationsschicht (Stixels).
Zwischen den Schritten a) und b) kann beispielsweise ein Training eines maschinell lernfähigen Algorithmus und/oder eines maschinell lernfähigen Systems, insbesondere eines künstlichen neuronalen Netzes auf Basis der generierten Ground-Trutz erfolgen. Zur Realisierung des künstlichen neuronalen Netzes kann hier besonders vorteilhaft ein faltendes neuronales Netzwerk (eng.: Convolutional Neural Network; kurz: CNN) verwendet werden.
In Schritt b) erfolgt ein Durchführen einer Hindernis- und Freiraumdetektion. Insbesondere kann in Schritt b) eine Hindernis-Stixel- und Freiraumdetektion erfolgen. Dabei können vorteilhafterweise eine Ende-zu-Ende-Hindernis-Stixel-Detektion in 3D und Freiraumdetektion durchgeführt werden. Besonders bevorzugt kann ein Durchführen einer 3D Hindernis- und Freiraumdetektion von bzw. in 2D Bilddarstellungen erfolgen.
Der Begriff „Ende-zu-Ende“ (engl.: end-to-end) beschreibt insbesondere eine durchgängige Detektion durch dieselbe (Auswerte-)Einrichtung, wie beispielsweise durch denselben Algorithmus und/oder dasselbe künstliche neuronale Netz. Vorteilhafterweise kann somit die Hindernis- und Freiraumdetektion und besonders voreilhaft das gesamte Verfahren innerhalb eines (einzelnen) künstlichen neuronalen Netzes ausgeführt werden.
In Schritt c) erfolgt ein Durchführen einer Generalisierung über verschiedene Kameras und/oder verschiedene digitale Bilddarstellungen hinweg. Dies kann insbesondere eine Verwendung von Daten von verschiedenen Kameras und eine Generalisierung eines Algorithmus auf verschiedenen Kameras umfassen. Das Verfahren kann in vorteilhafter Weise zur Generierung von Trainingsdaten für künstliche Objekterkennungsalgorithmen beitragen oder durchgeführt werden.
Nach einer vorteilhaften Ausgestaltung wird vorgeschlagen, dass die Darstellung der Umgebung des Systems (zumindest auch) auf Sensordaten basiert, die von mindestens einem aktiven Umgebungssensor des Systems erhalten werden und dass der mindestens eine aktive Umgebungssensor einen LIDAR-Sensor und/oder einen RADAR-Sensor umfasst. Vorzugsweise ist der aktive Umgebungssensor ein LIDAR-Sensor ist.
Nach einer weiteren vorteilhaften Ausgestaltung wird vorgeschlagen, dass das Verfahren zum Trainieren eines Systems und/oder eines Deep-Learning-Algorithmus zur Detektion von befahrbaren Räumen und Hindernisinformationen durchgeführt wird. Das Verfahren kann zum Trainieren mindestens eines künstlichen neuronalen Netzes ausgeführt werden. Das Verfahren kann zum (automatisierten) Generierung von Trainingsdaten für mindestens ein künstliches neuronales Netz ausgeführt werden. Das Verfahren kann das System bzw. ein künstliches neuronales Netz bspw. mit Daten trainieren, die auch auf Sensordaten, insbesondere Lidar-Daten basieren, um im Betrieb aus einem einzelnen Bild zumindest Informationen über die Höhe eines Hindernisses sowie den Abstand zu einem Hindernis ermitteln zu können. Das Verfahren kann beispielsweise zum Training eines tiefen neuronalen Faltungsnetzes durchgeführt werden.
Nach einer weiteren vorteilhaften Ausgestaltung wird vorgeschlagen, dass in Schritt a) eine Label-Generierung für den Freiraum durchgeführt wird. Dies kann insbesondere einschließlich der Bestimmung einer Freiraum-Endpunktposition für jede Bildspalte erfolgen. Die Bildspaltenbreite kann mit einer Stixelweite korrespondieren.
Nach einer weiteren vorteilhaften Ausgestaltung wird vorgeschlagen, dass in Schritt a) eine Label-Generierung für mindestens ein Hindernis durchgeführt wird. Dies kann insbesondere einschließlich der Bestimmung einer Hindernisposition in der Bilddarstellung und der Bestimmung des 3D-Abstandes zu dem Objekt erfolgen.
Nach einer weiteren vorteilhaften Ausgestaltung wird vorgeschlagen, dass in Schritt b) Hindernisunterpunkte und/oder Hindernisoberpunkte bestimmt werden und/oder mindestens eine Freiraumgrenze bestimmt wird.
Nach einer weiteren vorteilhaften Ausgestaltung wird vorgeschlagen, dass in Schritt c) eine Brennweitennormalisierung durchgeführt wird.
Nach einem weiteren Aspekt wird ein Computerprogramm zur Durchführung eines hier vorgestellten Verfahrens vorgeschlagen. Dies betrifft mit anderen Worten insbesondere ein Computerprogramm(-produkt), umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, ein hier beschriebenes Verfahren auszuführen.
Nach einem weiteren Aspekt wird ein maschinenlesbares Speichermedium vorgeschlagen, auf dem das hier vorgeschlagene Computerprogramm hinterlegt bzw. gespeichert ist. Regelmäßig handelt es sich bei dem maschinenlesbaren Speichermedium um einen computerlesbaren Datenträger.
Nach einem weiteren Aspekt wird ein Objekterkennungssystem für ein Fahrzeug vorgeschlagen, wobei das System zur Durchführung eines hier beschriebenen Verfahrens konfiguriert ist. Das System kann beispielsweise einen Rechner und/oder ein Steuergerät (Controller) umfassen, der Befehle ausführen kann, um das Verfahren auszuführen. Hierzu kann der Rechner bzw. das Steuergerät beispielsweise das angegebene Computerprogramm ausführen. Beispielsweise kann der Rechner bzw. das Steuergerät auf das angegebene Speichermedium zugreifen, um das Computerprogramm ausführen zu können.
Die im Zusammenhang mit dem Verfahren erörterten Details, Merkmale und vorteilhaften Ausgestaltungen können entsprechend auch bei dem hier vorgestellten Computerprogram und/oder dem Speichermedium und/oder dem System auftreten und umgekehrt. Insoweit wird auf die dortigen Ausführungen zur näheren Charakterisierung der Merkmale vollumfänglich Bezug genommen.
Die hier vorgestellte Lösung sowie deren technisches Umfeld werden nachfolgend anhand der Figuren näher erläutert. Es ist darauf hinzuweisen, dass die Erfindung durch die gezeigten Ausführungsbeispiele nicht beschränkt werden soll. Insbesondere ist es, soweit nicht explizit anders dargestellt, auch möglich, Teilaspekte der in den Figuren erläuterten Sachverhalte zu extrahieren und mit anderen Bestandteilen und/oder Erkenntnissen aus anderen Figuren und/oder der vorliegenden Beschreibung zu kombinieren. Es zeigt schematisch:

1: einen beispielhaften Ablauf eines hier vorgeschlagenen Verfahrens.
2: ein Beispiel für einen Überblick über die Erzeugung der Ground-Truth.
3: eine beispielhafte Ausführungsform des Verfahrens.
4: eine beispielhafte Anwendungsmöglichkeit des Verfahrens.
5: ein beispielhaftes System zur Durchführung eines Objekterkennungsverfahrens.
6: ein Anwendungsbeispiel des Verfahrens.
7: ein Beispiel für eine Brennweitennormalisierung.

1 zeigt schematisch einen beispielhaften Ablauf eines hier vorgeschlagenen Verfahrens. Das Verfahren dient zum Detektieren von Informationen über mindestens ein Objekt 1, 2 und/oder mindestens einen Teil des freien Raums 3 in einer Darstellung 4 der Umgebung eines Systems. Die mit den Blöcken 110, 120 und 130 dargestellte Reihenfolge der Verfahrensschritte a), b) und c) stellt sich in der Regel bei einem regulären Betriebsablauf ein.
In Block 110 erfolgt gemäß Schritt a) ein Durchführen einer Ground-Truth-Generierung. In Block 120 erfolgt gemäß Schritt b) ein Durchführen einer Hindernis- und Freiraumdetektion. In Block 130 erfolgt gemäß Schritt c) ein Durchführen einer Generalisierung über verschiedene Kameras 5 und/oder verschiedene digitale Bilddarstellungen hinweg. Zwischen den Blöcken 110 und 120 kann beispielsweise ein Training eines Deep Learning Algorithmus, wie beispielsweise eines Convolutional Neural Networks auf Basis der generierten Ground-Trutz durchgeführt werden.
In einer vorteilhaften Ausführungsform kann das Verfahren die Fähigkeit des Deep Learning zur präzisen Erkennung von Objekten im Bildbereich, die Regression von 3D-Informationen und/oder die Darstellung prägnanter Merkmale kombinieren, um vorteilhaft autonome Fähigkeiten für eingebettete kamerabasierte Wahrnehmungssysteme zu ermöglichen, insbesondere ohne die Notwendigkeit zusätzlicher teurer 3D-Sensoren.
In einer vorteilhaften Ausführungsform kann das Verfahren einen vorteilhaften Rahmen für die Ausbildung eines durchgängigen Systems zur Erkennung von befahrbarem Raum und von Hindernisinformationen für die Wahrnehmungseinheit insbesondere eines (fortgeschrittenen) Fahrerassistenzsystems und/oder eines zumindest teilautonomen Fahrsystems oder eines sonstigen mobilrobotischen Systems bereitstellen.
Ein Stixel kann eine kompakte Darstellung der Verkehrsumgebung beschreiben. In einer vergleichsweise einfachen Form kann ein Stixel die Startposition eines (ersten) Hindernisses vom Ego-Fahrzeug in 3D darstellen. Das Verfahren kann zu einer vorteilhaften Ende-zu-Ende-Hindernis-Stixel-Vorhersage unter Verwendung von Deep-Learning-Techniken beitragen. Das Verfahren kann 3D-Informationen wie Tiefe und Objekthöhe liefern, was für autonome Systeme, die nur über eine Kamera verfügen, von Vorteil ist.
Die Erkennung von Freiräumen 3 kann durch semantische Segmentierung erfolgen. Die semantische Segmentierung ist jedoch in der Regel eine teure Darstellung, da sie für jedes Pixel eine Klasse vorhersagt. Das Verfahren kann zu einer vorteilhaft kompakten Darstellung des Freiraums beitragen, insbesondere im Hinblick auf die Kombination von Stixel- und Freiraumsuche (die Hand in Hand gehen) in einem End-to-End-Rahmen bzw. einem durchgängigen Ansatz.
Eine vorteilhafte Ausführungsform des Verfahrens kann mindestens einen oder mehrere der folgenden Aspekte umfassen:

- Es kann eine 3D-Ground-Truth bzw. 3D-Bodenwahrheit für Hindernisse aus semantisch beschrifteten Punktwolkendaten und/oder eine Freiraumgrenze aus semantischen Segmentierungsbildern gewonnen werden.
- Ein einheitliches neuronales Netz zur Vorhersage von Hindernisstixeln unter Einbeziehung der 3D-Informationen und/oder der Freiraumgrenze kann insbesondere in einer durchgängigen Weise bereitgestellt werden.
- Die Methode kann dazu beitragen, das Training und die Verwendung eines neuronalen Netzes für Kameras mit unterschiedlichen intrinsischen Parametern zu verallgemeinern.

Eine vorteilhafte Ausführungsform des Verfahrens kann mindestens einen oder mehrere der folgenden Vorteile aufweisen:

- Es kann ein automatisiertes Verfahren zur Gewinnung von 3D-Hindernis-Positions-Ground-Truth aus semantisch beschrifteten Punktwolken bereitgestellt werden.
- Im Gegensatz zu bekannten Methoden, die nur den Stixel als 2D-Information im Bild bereitstellen, kann ein neuronales Netz erhalten werden, das die Hindernisposition in 3D und im freien Raum zusammen direkt aus einem einzigen Bild vorhersagen kann. Die erzeugten 3D-Daten können gesendet und für die Erstellung von Umgebungsmodellen für das automatisierte Fahren verwendet werden. Im Vergleich zu herkömmlichen Methoden kann die Erfindung die Rechenkosten bei der Implementierung von eingebetteter Software reduzieren.
- Ein erfindungsgemäßer Algorithmus kann es in vorteilhafter Weise ermöglichen, die Daten von verschiedenen Kameras mit unterschiedlichen intrinsischen Parametern für das Training eines Netzwerks zu verwenden und zu kombinieren. Dies kann die Wiederverwendung vorhandener Trainingsdaten für neue Projekte ermöglichen und spart vorteilhaft Kosten. Zusätzlich und vorteilhaft ist, dass bereits trainierte Netzwerke ohne erneutes Training auf verschiedene Kameras angewendet werden können. Das kann den Aufwand im Entwicklungsprozess reduzieren.
- Die Erfindung kann vorteilhaft die gleichen autonomen Fähigkeiten für reine Kamerasysteme ermöglichen wie für Systeme, die teure aktive Sensoren (z.B. LiDAR, Radar etc.) enthalten.

Eine vorteilhafte Ausführungsform des Verfahrens kann mindestens einen oder mehrere der folgenden Schritte umfassen:

- automatische Generierung eines 3D-Hindernis-Stixel-Ground-Truth
- durchgängige Hindernis-Stixel-Erkennung in 3D und Freiraum-Erkennung
- Verfahren zur Verwendung von Daten aus verschiedenen Kameras und Verallgemeinerung des Algorithmus auf verschiedene Kameras.

Die Darstellung 4 der Umgebung des Systems kann insbesondere neben Bildaufnahmen von mindestens einer Kamera zumindest auch auf Sensordaten basieren, die von mindestens einem aktiven Umgebungssensor des Systems erhalten werden. Bei den aktiven Umgebungssensor kann es sich hier beispielhaft und vorzugsweise um einen LIDAR-Sensor handeln.
2 zeigt ein Beispiel für einen Überblick über die Erzeugung der Ground-Truth für den Freiraum 3.
Eine vorteilhafte Ausführungsform des Verfahrens kann eine automatische Generierung der Ground-Truth umfassen.
Die Generierung der Ground-Truth kann eine Kennzeichnungs- bzw. Label-Generierung für den freien Raum 3 umfassen. Ein beispielhafter Überblick über eine Label-Generierung für Freiräume ist in 2 dargestellt. Eine Eingabe für die Labelgenerierung für Freiräume kann sein: mindestens ein Bild + mindestens ein semantisches Segmentierungslabel für dieses Bild. Eine Ausgabe der Label-Generierung für Freiräume kann sein: eine Freiräume-Endpunktposition für jede Bildspalte 9. Eine Eingabe für die Erzeugung eines Labels für die Freiraumgrenze 7 für ein Bild kann ein entsprechendes semantisches Segmentierungsbild sein. Die Methode kann vom unteren Rand des Bildes aus für jede Bildspalte 9 den ersten Hindernispunkt 6 suchen, den sie finden kann, und dessen Zeilennummer aufzeichnen.
Dies stellt ein Beispiel dafür dar, dass und ggf. wie in Schritt a) eine Label-Generierung für den Freiraum 3 durchgeführt werden kann.
Darüber hinaus stellt dies ein Beispiel dafür dar, dass und ggf. wie in Schritt b) Hindernisunterpunkte und/oder Hindernisoberpunkte 6 bestimmt werden und/oder mindestens eine Freiraumgrenze 7 bestimmt werden kann bzw. können.
Die Generierung der Ground-Truth kann eine Label-Generierung für Hindernisse 2 umfassen. Ein Input für die Label-Generierung für ein Hindernis 2 kann sein: semantisch gelabelte (Lidar-)Punktwolke + Kamera, Lidar-Posen + extrinsische und intrinsische Kameraparameter + Bilder vom gleichen Zeitstempel. Eine Ausgabe der Label-Generierung für ein Hindernis 2 kann sein: Position des Hindernisses in der Bildebene + semantische Klasse des Hindernisses + zugehörige Tiefe des Hindernisses als 3D-Abstand 8 zum Objekt 1. Ein beispielhafter Überblick über diese Funktionalität ist in 3 dargestellt.
Dies stellt ein Beispiel dafür dar, dass und ggf. wie in Schritt a)eine Label-Generierung für mindestens ein Hindernis 2 durchgeführt werden kann.
3 zeigt eine beispielhafte Ausführungsform des Verfahrens, insbesondere hinsichtlich des Aspekts der Generierung einer dreidimensionalen Ground-Truth, wie etwa in Schritt a).
In 3a ist veranschaulicht, dass eine Lidar-Punktwolke auf ein (Kamera-)Bild reprojiziert werden kann. Innerhalb einer Bildspalte 9 können die zugehörigen Lidar-Punkte in die Bodenpunkte und die Hindernispunkte 6 aufgeteilt werden. Innerhalb der Menge der Hindernispunkte 6 kann der Abstand 8 des der Kamera 5 am nächsten liegenden Punktes als relevante Entfernung des Stixels bezogen auf die Objektsäule verwendet werden.
Vorteilhafterweise kann der Punkt eines hängenden Hindernisses 6 (z.B. erhöhtes Heckteil eines Autos) tatsächlich vom Boden statt vom hängenden Hindernis ausgehen, da der Bereich unterhalb des hängenden Hindernisses in der Regel für das Ego-Auto nicht befahrbar ist, also theoretisch auch zum Hindernis gehören kann. Ein Beispiel hierfür ist in 4 dargestellt. Der betreffende Punkt ist in 4 als Objekt-Grund-Abstand 12 eingetragen.
3b veranschaulicht einen Ablauf einer vorteilhaften Ausführungsform des Verfahrens, insbesondere zur Durchführung von Schritt a).
In Block 310 kann ein Einlesen einer LIDAR-Punktwolke erfolgen, die vorteilhafterweise semantisch gelabelt sein oder werden kann.
In Block 320 kann ein Aufteilen in und/oder Selektieren von Punkten der Bodenebene und Objektpunkten erfolgen.
In Block 330 kann ein Projizieren von 3D-Punkten in ein Kamerabild erfolgen, insbesondere um (LIDAR-)Objektpunkte auszufiltern, die außerhalb des Kamerasichtfelds liegen.
In Block 340 kann ein Finden oder Bestimmen von Hindernisoberpunkten 6 (oberes Ende des Hindernisses 2 bzw. Objekts 1) für jede Bildspalte 9 erfolgen.
In Block 350 kann ein Finden oder Bestimmen von Hindernisunterpunkten 6 (unteres Ende des Hindernisses 2 bzw. Objekts 1) für jede Bildspalte 9 erfolgen.
In Block 360 kann ein Projizieren der Hindernispunkte 6 in 3D sowie ein Finden bzw. Bestimmen des nächsten (Boden-)Abstands 8 (Bodenpunkt mit dem geringsten Abstand) erfolgen.
In Block 370 kann ein Ersetzen der 3D-Hindernis-Punkthöhe mit einer Boden-Punkthöhe erfolgen. Zudem kann eine Rück-Projektion in die Bildebene erfolgen.
4 zeigt eine beispielhafte Anwendungsmöglichkeit des Verfahrens. Dabei wird ein Auto in einer Heckansicht detektiert. Es sind in 4 ein Grund-Koordinatensystem 10, eine Grund-Abstand 11 (bzw. Bodenabstand) sowie ein Objekt-Grund-Abstand 12 eingetragen. Im Zusammenhang mit den vorhergehenden Erläuterungen zeigt 4 ein Beispiel für die Ermittlung des richtigen 3D-Punktes für die Hindernisse 2.
Eine vorteilhafte Ausführungsform des Verfahrens kann eine Ende-zu-Ende-Hindernisstixel- und Freiraumerkennung umfassen. Dies kann auch als eine durchgängige Hindernisstixel- und Freiraumerkennung beschrieben werden.
Eine Eingabe für die Hindernisstixel- und Freiraumerkennung kann ein einzelnes Bild (hier zum Beispiel Rückansicht eines Hecks des Fahrzeugs) sein. Eine Ausgabe der Hindernisstixel- und Freiraumerkennung kann sein: Position des unteren und oberen Hindernispunkts 6 in der Bildebene + Abstandswerte 8 des Hindernispunkts in 3D + semantische Hindernisklasse. Ein beispielhafter Überblick über dieses Modul ist in 5 dargestellt.
5 zeigt ein beispielhaftes System zur Durchführung eines Objekterkennungsverfahrens, mit einem tiefen neuronalen Netzwerk (Deep neural network) 520, welches zur Durchführung des Verfahrens eingerichtet und/oder mittels des hier beschriebenen Verfahrens trainiert ist.
In einer vorteilhaften Ausführungsform des Verfahrens kann ein tiefes neuronales Multitasking-Netzwerk für die durchgängige Vorhersage von Hindernissen und Freiräumen verwendet und/oder gemäß dem Verfahren trainiert werden. insbesondere mit Labels, die von einer automatisierten Label-Generierungspipeline generiert werden, kann ein Modell gemäß einer vorteilhaften Ausführungsform des Verfahrens auf eine überwachte Weise trainiert werden.
Dies stellt ein Beispiel dafür dar, dass und ggf. wie das Verfahren zum Trainieren eines Systems und/oder eines Deep-Learning-Algorithmus zur Detektion von befahrbaren Räumen und Hindernisinformationen durchgeführt werden kann.
Das Verfahren kann das System bzw. ein künstliches neuronales Netz bspw. mit Daten trainieren, die auch auf Sensordaten, insbesondere Lidar-Daten basieren, sodass das trainierte Netz im Betrieb aus einem einzelnen Bild zumindest Informationen über die Höhe eines Hindernisses sowie den Abstand zu einem Hindernis ermitteln kann.
Als möglichen Eingang kann dem Netzwerk 520 ein einzelnes Bild 510 zugeführt werden. Mögliche Ausgänge des Netzwerks 520 können Hindernisunterpunkte und Hindernisoberpunkte (sowie ggf.: Position, Tiefe, Klasse) 530 und eine Freiraumgrenze 540 sein.
Um insbesondere Rechenzeit und Speicherplatz zu sparen, wird die Vorhersage vorteilhafterweise nicht für jede einzelne Bildspalte 9 durchgeführt, sondern kann in einem Intervall (z. B. alle 8 Pixel) erfolgen. So kann beispielsweise bei einem Eingangsbild mit einer Breite von 800 ein Vorhersageintervall (oder eine Stixelbreite) von 8 Pixeln verwendet werden.
Insbesondere mit einem Backbone, der ein tiefes neuronales Faltungsnetz als Merkmalsextraktor sein kann, können vorteilhafterweise 6 verschiedene Aufgabenköpfe von dem Backbone-Merkmal abgezweigt werden:

• Aufgabenkopf zur Vorhersage der Position des Hindernisbodenpunktes
- ◯ Form: 1 × 100
• Aufgabenkopf für die Vorhersage der Position des oberen Hindernispunkts
- ◯ Form: 1 × 100
• Aufgabenkopf für die Vorhersage der Hindernistiefe
- ◯ Form: 1 × 100
• Aufgabenkopf für die Vorhersage der Hindernisklasse
- ◯ Form: C × 100, C ist die Gesamtzahl der Klassen
• Aufgabenkopf für die Vorhersage der Freiraum-Grenze
- ◯ Form: 1 × 100
• Aufgabenkopf für die Vorhersage der Freiraumgrenzen-Klassifizierung (welche Klassen der Freiraum berührt)
- ◯ Form: S × 100, S ist die Gesamtzahl der Freiraumklassen

6 zeigt an Anwendungsbeispiel des beschriebenen Verfahrens. Insbesondere zeigt 6 in diesem Zusammenhang ein Beispiel für die Modellausgabe.
Eine vorteilhafte Ausführungsform des Verfahrens kann eine Generalisierung bzw. Verallgemeinerung auf verschiedene Kameras umfassen.
Ein beispielhafter Überblick über diesen Aspekt des Verfahrens ist in 7 dargestellt.
Wie in 7 beispielhaft dargestellt, ist die Tiefenvorhersage ein vorteilhafter Teil des Verfahrens bzw. Ansatzes, da sie stark von der Kamerabrennweite abhängig ist. Ein neuronales Netzwerk assoziiert im Training Objektgrößen von Objekten im Bild mit 3D-Entfernungen vom Sensor, z.B. Lidar-Daten. Die Verwendung einer anderen Kamera mit einer anderen Brennweite kann dazu führen, dass die Objektgröße im Bild für Objekte in der gleichen Entfernung unterschiedlich ist. Daher kann die Vorhersage eines Modells, das mit Bildern einer Kamera trainiert wurde, auf Bildern einer anderen Kamera (unterschiedliche Brennweite) weniger genau ausfallen.
Gemäß einer vorteilhaften Ausführungsform des Verfahrens kann eine Brennweitennormalisierung verwendet werden. Die Brennweitennormalisierung kann vorteilhafterweise verwendet werden, um das beschriebene Problem zu mildern und/oder das Training mit Bildern von verschiedenen Kameras zu ermöglichen und/oder die Leistung über verschiedene Kameras hinweg zu generalisieren.
Bei einem Pixel im Bild, z. B. einem Hindernispunkt 6, hängt die Tiefenvorhersage normalerweise von der realen Größe dieses Punktes und der Brennweite der Kamera ab (wie in beispielhaft dargestellt). Wenn ein Modell für die Vorhersage der Tiefe trainiert wird, kann es vorteilhafterweise so trainiert werden, dass es implizit die Beziehung zwischen der Größe der realen Welt (y_welt) und der Brennweite (f) herausfindet, was ziemlich schwierig sein kann.
Die Brennweitennormalisierung kann vorteilhaft dazu beitragen, die Abhängigkeit von der Brennweite f zu entkoppeln, indem die Tiefen-Ground-Truth z durch die entsprechende Brennweite auf eine normalisierte Entfernung dn=z / f skaliert wird. Besonders vorteilhaft kann diese normalisierte Entfernung als Lernziel verwendet werden.
In einem Vorhersageschritt kann die tatsächliche 3D-Tiefe z' insbesondere durch Skalierung der Modellausgabe dn' mit dem entsprechenden Brennweitenwert f' der neuen Kamera zurückgewonnen werden: z'=dn'*f.
Auf diese Weise kann die Methode das Erlernen der Tiefe erleichtern und/oder vorteilhaft die Verwendung verschiedener Bilder von verschiedenen Kameras und/oder die Verallgemeinerung der Vorhersage über verschiedene Kameras hinweg ermöglichen.
Die Methode kann vorteilhaft eingesetzt werden, um die Leistung der Tiefenvorhersage und/oder die Konsistenz über mehrere Kameras hinweg zu verbessern.
Ein Beispiel für die Brennweitennormalisierung kann wie folgt aussehen:

• Für jedes Pixel y_Bild = 1, z = y_world · f
• Anstatt z vorherzusagen, kann $y_{W e l t} = \frac{z}{ƒ}$
vorhergesagt werden
• z_vorhergesagt = y_{Welt_vorhergesagt} · f

Dies stellt ein Beispiel dafür dar, dass und ggf. wie in Schritt c) eine Brennweitennormalisierung durchgeführt werden kann.

Claims

Verfahren zum Detektieren von Informationen über mindestens ein Objekt (1, 2) und/oder mindestens einen Teil des freien Raums (3) in einer Darstellung (4) der Umgebung eines Systems, wobei das Verfahren mindestens die folgenden Schritte umfasst: a) Durchführen einer Ground-Truth-Generierung; b) Durchführen einer Hindernis- und Freiraumdetektion; c) Durchführen einer Generalisierung über verschiedene Kameras (5) und/oder verschiedene digitale Bilddarstellungen hinweg.
Verfahren nach Anspruch 1, wobei die Darstellung (4) der Umgebung des Systems auf Sensordaten basiert, die von mindestens einem aktiven Umgebungssensor des Systems erhalten werden.
Verfahren nach Anspruch 1 oder 2, wobei das Verfahren zum Trainieren eines Systems und/oder eines Deep-Learning-Algorithmus zur Detektion von befahrbaren Räumen und Hindernisinformationen durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in Schritt a) eine Label-Generierung für den Freiraum (3) durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in Schritt a) eine Label-Generierung für mindestens ein Hindernis (2) durchgeführt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in Schritt b) Hindernisunterpunkte und/oder Hindernisoberpunkte (6) bestimmt werden und/oder mindestens eine Freiraumgrenze (7) bestimmt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei in Schritt c) eine Brennweitennormalisierung durchgeführt wird.
Computerprogramm, konfiguriert zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.
Objekterkennungssystem für ein Fahrzeug, wobei das System zur Durchführung eines Verfahrens nach einem der Ansprüche 1 bis 7 konfiguriert ist.