-
Die vorliegende Erfindung bezieht sich auf ein System und ein Verfahren zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs. Die vorliegende Erfindung bezieht sich auch auf ein Computerprogrammprodukt.
-
In Kraftfahrzeuganwendungen, wie beispielsweise bei der Hinderniserfassung und - vermeidung bei autonomem Fahren oder adaptiver Frontbeleuchtung, wird die dreidimensionale Umgebung eines Fahrzeugs überwacht. Zum Überwachen der Umgebung ist das Fahrzeug typischerweise mit geeigneten Sensoren in Form von 3D-Scannern ausgestattet, wie beispielsweise mit sogenannten Lidar- (Light Detection and Ranging) Sensoren oder Radarsensoren. Bei der Lichterfassung und der Entfernungsmessung wird der Abstand zu Objekten bestimmt, indem die Umgebung und damit die darin befindlichen Objekte mit gepulstem Laserlicht beleuchtet werden und das reflektierte Laserlicht erfasst wird. Die Rücklaufzeit des Laserlichts ist ein Maß für den Abstand zur Oberfläche eines Objekts in der Umgebung. Eine Intensität der Reflexion kann verarbeitet werden, um weitere Information in Bezug auf eine Oberfläche bereitzustellen, die das Laserlicht reflektiert.
-
Mit einem 3D-Scanner wird ein Satz von Datenpunkten im dreidimensionalen Raum erzeugt, der als Punktwolke bezeichnet wird. Eine Punktwolke ist eine geometrische Datenstruktur. Jeder (Daten-) Punkt der Punktwolke entspricht einem physischen Punkt auf der Außenfläche eines Objekts in der Umgebung eines Fahrzeugs und hat typischerweise die Koordinaten X, Y und Z des physischen Punkts in einem dreidimensionalen kartesischen Koordinatensystem plus optionale zusätzliche Merkmale wie Farbe, Normalität usw. Ein 3D-Scanner gibt typischerweise die gemessene Punktwolke als Datenstruktur oder Datendatei aus. Im Allgemeinen sind Punktwolken nicht auf ein dreidimensionales Koordinatensystem beschränkt, sondern können eine höhere oder eine niedrigere Dimension aufweisen.
-
Um die Umgebung zu verstehen, ist es wichtig, die darin befindlichen Objekte zu erfassen, jeden Punkt eines Objekts semantisch zu segmentieren und die Objekte zu klassifizieren. Objekterfassung, semantische Segmentierung und Klassifizierung sind als drei grundlegende Probleme/Aufgaben für ein Szenenverständnis in Computer Vision bekannt. Die Aufgabe der Objekterfassung besteht darin, alle Objekte vordefinierter Kategorien in einer Punktwolke zu identifizieren und sie mit orientierten Begrenzungsrahmen (sogenannten dreidimensionalen orientierten Begrenzungsrahmen - 3D OBB) zu lokalisieren/zu umschließen. Die Aufgabe der semantischen Segmentierung arbeitet mit einem feineren Maßstab als die Objekterfassung. Das Ziel der semantischen Segmentierung besteht darin, jedes Objekt zu zergliedern und jedem Punkt des Objekts eine Klassenkennzeichnung zuzuordnen. Während zum Beispiel bei der Objekterfassung ein Rahmen um einen erfassten Motorradfahrer und sein Motorrad gelegt wird, wird bei der semantischen Segmentierung den Punkten, die das Motorrad darstellen, eine Klassenkennzeichnung (Motorrad) zugeordnet, während den Punkten, die den Motorradfahrer darstellen, eine andere Klassenkennzeichnung (Motorradfahrer) zugeordnet wird. Die Klassifizierung zielt andererseits darauf ab, Objekte zu identifizieren und jedem Objekt eine Klassenkennzeichnung zuzuordnen, wie beispielsweise Baum oder Auto. In Computer Vision werden Objekterfassung, semantische Segmentierung und Klassifizierung als drei verschiedene Aufgaben behandelt, die normalerweise mit völlig unterschiedlichen Ansätzen gelöst werden.
-
Aufgrund der typischen Struktur einer Fahrzeugumgebung haben durch 3D-Scanner ausgegebene Umgebungspunktwolken normalerweise keine regelmäßige Form. Tiefe neuronale Netzwerke, wie z.B. konvolutionelle neuronale Netzwerke, die üblicherweise zur Analyse visueller Bilder verwendet werden, erfordern typischerweise Eingabedaten mit hochgradig regulären Formaten, wie beispielsweise solche von Bildgittern oder dreidimensionalen Voxeln, um Operationen wie z.B. Weight-Sharing und andere Kernel-Optimierungen auszuführen. Ein tiefes neuronales Netzwerk (DNN) ist ein künstliches neuronales Netzwerk mit mehreren verborgenen Schichten zwischen der Eingabeschicht und der Ausgabeschicht. Ein konvolutionelles neuronales Netzwerk (CNN) ist ein spezifischer Typ eines tiefen künstlichen neuronalen Feedforward-Netzwerks, das eine Variation von mehrschichtigen Perzeptronen verwendet, die derart gestaltet sind, dass eine minimale Vorverarbeitung erforderlich ist. Die verborgenen Schichten eines konvolutionellen neuronalen Netzwerks weisen typischerweise konvolutionelle Schichten, Pooling-Schichten, Fully-Connected-Schichten, Normalisierungsschichten und dergleichen auf. Um eine Punktwolke mittels einer tiefen neuronalen Netzwerkarchitektur zu analysieren, wird der Satz von Punkten einer Punktwolken daher typischerweise in reguläre 3D-Voxelgitter oder Sammlungen von Bildern, die auch als Ansichten bezeichnet werden, umgewandelt, bevor sie der Eingabeschicht des tiefen neuronalen Netzwerks zugeführt werden. Eine solche Umwandlung des Satzes von Punkten der Punktwolke führt jedoch zu unnötig umfangreichen Datensätzen, während darüber hinaus Quantisierungsartefakte eingeführt werden, die natürliche Invarianzen des Satzes von Punkten der Punktwolke überdecken könnten.
-
Eines der entscheidenden Probleme beim Bau von Fahrassistenzsystemen mit all ihren Ebenen ist die Abbildung und Navigation durch die komplexen Umgebungen, z.B. bei der Annäherung an Kurven, Kreuzungen oder Kreisverkehre. Ein typisches Abbildungssystem besteht aus der Wahrnehmung als einer der grundlegenden Funktionen des Systems. Die Wahrnehmungsaufgabe befasst sich mit der Lokalisierung und Erkennung von Objekten, die in der Szene von Interesse sind.
-
Bisherige Objekterkennungssysteme sind nur von einem Sensor zur Klassifizierung und Erkennung von Objekten in der 3D-Welt abhängig, entweder von einer Kamera oder einem einzelnen Lidar. Durch diese Konfiguration, die nur von jeweils einem Sensor abhängig ist, wurde eine Unsicherheit in das System eingebracht, die zu schlechten Ergebnissen führt. Außerdem skaliert dieses Setup nicht für reale Szenarien, in denen dieser einzelne Sensor beschädigt werden könnte. Eine der Lösungen zur Überwindung von Unsicherheiten und Sensorschäden in den Systemen ist die Anwendung des Sensor-Fusionsaufbaus. Die Sensor-Fusion übertrifft die Vorteile der Nutzung und Mischung mehrerer Sensoren.
-
Aktuelle Objekterkennungsmodelle übertreffen frühere Methoden, indem sie die Sensor-fusion in ihren Objekterkennungssystemen einführen. Insbesondere sind sie abhängig von Kamerasensoren und Lidarsensoren, um die Objekterkennung durchzuführen.
-
Aus
US 2014/024050502 A1 ist eine Vorrichtung zur Unterstützung eines Fahrers beim Führen eines Fahrzeugs oder beim autonomen Fahren eines Fahrzeugs bekannt, die mehrere Abstandssensoren und Kamerasensoren, eine Auswerteeinheit und eine Steuereinheit beinhaltet. Die Abstandssensoren erfassen Objekte, die sich direkt vor und hinter dem Fahrzeug befinden. Die Kamerasensoren erfassen einen Bereich, der das Fahrzeug umgibt. Aus den Daten der Abstands- und Kamerasensoren bestimmt die Auswerteeinheit eine dreidimensionale Darstellung der von den Sensoren abgedeckten Bereiche. Unter Berücksichtigung der dreidimensionalen Darstellung erzeugt das Steuergerät eine Empfehlung für den Fahrer oder greift in die Fahrzeuglenkung ein.
-
Das Dokument
US 2016/0291149 A1 offenbart ein Verfahren und System zur Verfolgung von Objekten, die sich hinter einem Trägerfahrzeug kreuzen. Zieldaten von einem Sichtsystem und zwei Radarsensoren werden einem Objekterkennungsfusionssystem zur Verfügung gestellt. Auffällige Punkte auf dem Zielobjekt werden identifiziert und anhand der Daten des Sichtsystems verfolgt. Die markanten Sichtpunkte sind den entsprechenden Radarpunkten zugeordnet, wobei die Radarpunkte Doppler-Radialgeschwindigkeitsdaten liefern. Eine Fusionsberechnung wird an den markanten Sichtpunkten und den Radarpunkten durchgeführt, die eine genaue Schätzung der Geschwindigkeit des Zielobjekts einschließlich seiner lateralen Komponente ergibt, die nur mit Radarpunkten oder herkömmlichen Sichtsystemmethoden schwer zu erhalten ist. Die Position und Geschwindigkeit des Zielobjekts werden verwendet, um Warnungen oder automatische Bremsungen in einem RCTA-System (Rear Cross Traffic Avoidance) auszulösen.
-
Das Dokument
US 7,417,580 B2 beschreibt ein Objekterkennungssystem. Das Objekterkennungssystem beinhaltet eine Radardetektionseinrichtung, eine Bilderfassungseinrichtung und eine Kollationseinrichtung. Die Kollationseinrichtung führt eine Kollation zwischen einem von der Radardetektionseinrichtung erfassten Objekt in einer vorliegenden Kollation und einem Objekt durch, das von der Radardetektionseinrichtung und der Bilderfassungseinrichtung in einer früheren Kollation als erfasst bestimmt wurde, und einem Objekt, das von der Radardetektionseinrichtung und der Bilderfassungseinrichtung in der vorherigen Kollation als erfasst bestimmt wurde, wenn bestimmt wird, dass das identische Objekt von der Radarerfassungseinrichtung und der Bilderfassungseinrichtung in der vorherigen Kollation erfasst wird. Dann bestimmt das Kollationsmittel, ob das Radarerfassungsmittel und das Bilderfassungsmittel das identische Objekt basierend auf den Kollationen erfassen.
-
Es ist ein Gegenstand der vorliegenden Erfindung, ein System und ein Verfahren zum Erkennen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs bereitzustellen, wobei die Unsicherheit bei der Objekterkennung verringert wird und das Problem des Senorverlusts überwunden wird.
-
Dieses Ziel wird durch die unabhängigen Ansprüche erreicht. Vorteilhafte Ausführungsformen sind in den abhängigen Ansprüchen angegeben.
-
Zur Umsetzung dieser und noch weiterer Objekte der Erfindung, die im Laufe der Beschreibung leichter sichtbar werden, ist ein System zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs vorgesehen, wobei das System umfasst: zumindest einen Kamerasensor, der konfiguriert ist, um ein Bild der dreidimensionalen Umgebung des Fahrzeugs zu liefern, zumindest einen Lidarsensor, der konfiguriert ist, um eine Punktwolke bereitzustellen, die die dreidimensionale Umgebung des Fahrzeugs darstellt, zumindest einen Radarsensor, der konfiguriert ist, um eine Punktwolke bereitzustellen, die die dreidimensionale Umgebung des Fahrzeugs darstellt, eine Sensor-Fusionseinheit, wobei die Sensor-Fusionseinheit ein neuronales Netzwerk mit zumindest einer Voxel-Merkmal-Kodierungsschicht umfasst, wobei die Voxel-Merkmal-Kodierungsschicht konfiguriert ist, um einen einzelnen Merkmalsvektor für jeden Voxel zu erzeugen, ein Objekterkennungsnetzwerk, wobei das Objekterkennungsnetzwerk ein 3D-Regionsvorschlagsnetzwerk ist, das zum Empfangen von Merkmalsvektoren als Eingangsdaten zum Erzeugen von 3D-orientierten Begrenzungsrahmen für jedes Objekt konfiguriert ist.
-
Die Grundidee der Erfindung ist es, homogene und heterogene Sensoren miteinander zu verschmelzen, die von der Redundanz der Informationen profitieren, um die Unsicherheit zu verringern und das Problem des Senor-Verlusts zu überwinden.
-
Gemäß einer modifizierten Ausführungsform der Erfindung ist der Kamerasensor Teil eines Surround-View-Systems des Fahrzeugs. Um eine sehr dichte und genaue Karte zu erhalten, wird ein 360-Grad-Sichtfeld um das Auto herum bevorzugt.
-
Nach einer weiteren modifizierten Ausführungsform der Erfindung basiert das neuronale Netzwerk mit mindestens einer Voxel-Merkmals-Kodierschicht auf einem VoxelNet, wobei das VoxelNet insbesondere ein VoxelNet ist, wie beschrieben unter „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018).
-
Vorzugsweise wird das System der Erfindung in einem Fahrzeug implementiert. D.h. nach einem weiteren Aspekt der Erfindung wird ein Fahrzeug bereitgestellt, das ein System nach der Erfindung umfasst. Das Fahrzeug kann insbesondere für autonomes oder teilautonomes Fahren ausgelegt sein.
-
Gemäß einem weiteren Aspekt der Erfindung ist ein Verfahren zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs vorgesehen. Das Verfahren der Erfindung umfasst die Schritte des Bereitstellens eines Systems zum Erkennen eines Objekts in der dreidimensionalen Umgebung eines Trägerfahrzeugs nach einem der vorhergehenden Ansprüche, des Bereitstellens von Daten vom Kamerasensor und des Erzeugens einer 3D-Punktwolke aus den Daten vom Kamerasensor, des Bereitstellens von Daten vom Lidarsensor und des Erzeugens einer 3D-Punktwolke aus den Daten vom Lidarsensor, des Bereitstellens von Daten vom Radarsensor und des Erzeugens einer 3D-Punktwolke aus den Daten vom Radarsensor, des Koregistrierens der erzeugten 3D-Punktwolken vom Kamerasensor, den Lidarsensor und den Radarsensor zusammen zu einer kombinierten 3D-Punktwolke, wobei die kombinierte 3D-Punktwolke ein Volumen darstellt, bestehend aus Voxeln, wobei jedes einzelne Voxel aus einer Anzahl von Punkten und Merkmalen des Kamerasensors, des Lidarsensors und des Radarsensors besteht, Lernen eines einzelnen Merkmalsvektor aus allen Punkten, die in jedem einzelnen Voxel mit zumindest einem neuronalen Netzwerk mit zumindest einer Voxel-Merkmalskodierschicht vorhanden sind, Zuführen des Merkmalsvektor einem 3D-Regionsvorschlagsnetzwerks, Erzeugen einee 3D-orientierten Begrenzungsrahmens für jedes Objekt.
-
Gemäß einer modifizierten Ausführungsform der Erfindung umfasst der Schritt der Bereitstellung von Daten vom Kamerasensor und der Erzeugung einer 3D-Punktwolke den Schritt des Rekonstruierens eines 3D-Bildes aus dem vom Kamerasensor empfangenen 2D-Bild, um die Kamerafunktionen in den 3D-Raum zu projizieren.
-
Vorzugsweise basiert das neuronale Netzwerk mit mindestens einer Voxel-Merkmals-Kodierschicht auf einem VoxelNet, wobei das VoxelNet insbesondere ein VoxelNet ist, wie beschrieben unter: „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018).
-
Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammprodukt bereitgestellt, das Anweisungen umfasst, die, wenn das Programm von einem Computer ausgeführt wird, bewirken, dass der Computer die Schritte des vorstehend beschriebenen Verfahrens ausführt.
-
Diese und andere Aspekte der Erfindung werden anhand der nachfolgend beschriebenen Ausführungsformen ersichtlich und erläutert. Einzelne Merkmale, die in den Ausführungsformen offenbart sind, können allein oder in Kombination einen Aspekt der vorliegenden Erfindung darstellen. Merkmale der verschiedenen Ausführungsformen können von einer Ausführungsform auf eine andere Ausführungsform übertragen werden.
-
In den Zeichnungen:
- 1 zeigt eine schematische Darstellung der Abdeckungsbereiche verschiedener Sensoren eines Fahrzeugs;
- 2 zeigt ein schematisches Diagramm, das ein System zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs gemäß einem Ausführungsbeispiel der Erfindung darstellt;
- 3 zeigt ein schematisches Diagramm, das die Erzeugung der 3D-Punktwolke und die Koregistrierung der 3D-Punktwolken zu einer kombinierten 3D-Punktwolke gemäß einem Ausführungsbeispiel der Erfindung veranschaulicht;
- 4 zeigt ein schematisches Diagramm, das die Sensor-Fusionseinheit gemäß einem Ausführungsbeispiel der Erfindung darstellt;
- 5 zeigt das regionale Angebotsnetzwerk, wie beschrieben und dargestellt unter „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018); und
- 6 zeigt ein Ablaufdiagramm, das ein Verfahren zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs gemäß einem Ausführungsbeispiel der Erfindung veranschaulicht.
-
1 zeigt die Verteilung der Sichtfelder 3, 4, 5 verschiedener Sensoren 11, 13, 15 für ein fahrendes Fahrzeug 1 auf einer Fahrbahn. In unmittelbarer Nähe des fahrenden Fahrzeugs befinden sich weitere Verkehrsteilnehmer 2. Es wird gezeigt, dass der Straßenverlauf und damit die unmittelbare Umgebung des Fahrzeugs beispielsweise gemäß der Sichtfelder 3, 4, 5 der verschiedenen Sensoren in verschiedene Zonen unterteilt ist. Aufgrund der Sichtfelder 3, 4, 5 können für jeden Sensor mindestens zwei verschiedene Fusionsbereiche 6, 7 identifiziert werden. Ein Nahbereich 7, worin eine Radarpunktwolke mit Merkmalen fusioniert ist, die von einem Lidarsensor 13 und Merkmale von einer Kamera kommen, um den Nahbereich stärker hervorzuheben, um statische Objekte zu erfassen, und ein entfernter Bereich können identifiziert werden, worin eine Radarpunktwolke aus Lidarmerkmalen fusioniert ist. Diese wird sich stärker auf die Erkennung dynamischer Objekte konzentrieren. Die Merkmale der einzelnen Sensoren 11, 13, 15 werden in eine 3D-Punktwolke umgewandelt. Das Kamerasystem 10 oder in einer Ausführungsform der Erfindung ein Rundumsicht-Kamerasystem gibt RGB (3 Merkmale) von jedem Pixel/Punkt zurück, ein Lidarsensor 13 gibt x-, y- und z-Koordinaten (3 Merkmale) für jeden Erfassungspunkt zurück und ein Radarsensor 15 liefert ein Leistungsspektrum, x-, y-, z-, Koordinaten und die Geschwindigkeit mit 5 Merkmalen. Daher haben die fusionierten Merkmale im Nahbereich 7 acht Kanäle: einen Rotkanalwert, einen Grünkanalwert, einen Blaukanalwert, die Geschwindigkeit, den X(-Bereich), Y-, Z-Koordinaten und das Leistungsspektrum. Die fusionierten Merkmale im fernen Bereich 6 haben acht Kanäle: die Geschwindigkeit, den X(-Bereich), Y, Z, Koordinaten und das Leistungsspektrum. Die Ground Truth Annotation wird vom Kamerasystem 10 übertragen. Alle diese fusionierten Merkmale werden als Eingang für ein 3D-Objekterkennungsnetzwerk verwendet, wie in dargestellt.
-
Das System beginnt mit dem Parsen der Eingaben der drei Hauptsensoren 11, 13, 15, dem Erzeugen der Punktwolke 16, 21, 23, 24, dem Fusionieren der Sensoreingabe 17 und dem Vorhersagen von Begrenzungsrahmen 19 über die sich bewegenden Objekte und deren Geschwindigkeit 20. Wie in dargestellt, besteht das System aus drei Hauptbausteinen.
-
Der erste Block ist die 3D-Punktwolkenerzeugung16 und ist in näher beschrieben. Der zweite Block ist die Sensor-Fusionseinheit 17. Die Sensor-Fusionseinheit 17 ist in näher beschrieben. Der dritte Block ist ein Objekterkennungsnetzwerk 18. Das Objekterkennungsnetzwerk 18 basiert auf einem Regionsvorschlagsnetzwerk 49. Das Regionsvorschlagsnetzwerk 49 wird näher beschrieben und dargestellt in „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018).
-
3 zeigt ein schematisches Diagramm, das die 3D-Punktwolkengenerierung 21, 23, 24 und die Koregistrierung 25 der 3D-Punktwolken zu einer kombinierten 3D-Punktwolke gemäß einem Ausführungsbeispiel der Erfindung darstellt. Jeder Sensor 11, 13, 15 im System 9 weist unterschiedliche Merkmale auf. Merkmale aller Sensoren 11, 13, 15 werden in den 3D-Raum übersetzt, um eine 3D-Punktwolke zu erhalten. Für Kamerafunktionen wird also in einer Ausführungsform der Erfindung eine 3D-Bildrekonstruktion 22 aus den 2D-Bildern durchgeführt, um Kameramerkmale in den 3D-Raum zu projizieren. Lidar- und Radarmerkmale sind bereits im 3D-Raum vorhanden, so dass alle diese Punktwolken gemeinsam registriert werden können. Die kombinierte Punktwolke wird als Volumen dargestellt, bestehend aus Voxeln 31, wobei jedes Voxel 31 eine Anzahl von Punkten von den Systemsensoren 21, 23, 24 enthält.
-
4 zeigt ein schematisches Diagramm, das die Sensor-Fusionseinheit 17 gemäß einem Ausführungsbeispiel der Erfindung darstellt. In 4 ist die dreidimensionale Umgebung des Trägerfahrzeugs 30 dargestellt. Die Umgebung wird in ein Voxelgitter 32 mit einzelnen Voxeln 31 unterteilt. Um eine Sensorfusion zu erreichen, die spezifisch eine Fusion der Bildpunktwolke 33, der Lidarpunktwolke 34 und der Radarpunktwolke 35 ist, ein neuronales Netzwerkmodell lernt, wie die Sensorfusion durchgeführt werden sollte. Jedes einzelne Voxel 31 besteht aus einer Reihe von Punkten und Merkmalen des Lidarsensors 11, des Radarsensors 13 und des Kamerasensors 15. Das System besteht aus einer Voxel-Merkmals-Kodierungsschicht (Voxel Feature Encoding VFE), um einen Merkmalsvektor 41 von allen Punkten zu lernen, die in jedem einzelnen Voxel 31 vorhanden sind. Die Voxel-Kodierungsschicht lernt die hierarchische Merkmals-Kodierung und Fusion für die Merkmale aller Sensoren 11, 13, 15. Dies kann durch ein neuronales Netzwerk erreicht werden, das aus mehreren VFE-Schichten besteht, die zusammengestapelt sind, um einen einzigen Merkmalsvektor für jeden Voxel zu erzeugen. Die VFE-Schicht wird beschrieben und dargestellt in „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018). Die Architektur des VFE-Layers besteht aus einer punktuell geteilten, vollständig verbundenen Schicht 42, einer elementweisen Maxpooling-Schicht 43 und einem doppelt punktweise verketteten Merkmalsvektor 41 als Ausgabe.
-
5 zeigt das regionale Vorschlagsnetzwerk 49, wie es beschrieben und dargestellt ist in „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018).
-
Das regionale Vorschlagsnetzwerk 49 besteht aus drei Blöcken 50, 51, 52 von vollständig konvolutionelle Schichten. Die erste Schicht jedes Blocks 50, 51, 52 tastet die Merkmalskarte um die Hälfte über eine Konvolution mit einer Schrittweite von 2 abwärts ab, gefolgt von einer Folge von Konvolutionen von Schritt 1 (x q bedeutet q Anwendungen des Filters). Nach jeder Konvolutionsschicht werden Batchnormalisierungen und gleichgerichtete Linearoperationen durchgeführt. Die Ausgabe jedes Blocks 50, 51, 52 wird dann auf eine feste Größe hochgerechnet und konkataniert, um die hochauflösende Merkmalskarte zu erstellen. Schließlich wird diese Merkmalskarte auf die gewünschten Lernziele abgebildet: eine Wahrscheinlichkeitsscorekarte 53 und eine Regressionkarte 54.
-
6 zeigt ein Ablaufdiagramm, das ein Verfahren zum Erfassen eines Objekts in einer dreidimensionalen Umgebung eines Trägerfahrzeugs gemäß einem Ausführungsbeispiel der Erfindung veranschaulicht, wie es vom in 2 dargestellten System 9 durchgeführt wird. In einem ersten Schritt S1 werden Daten von einem Kamerasensor 11, einem Lidarsensor 13 und einem Radarsensor 15 bereitgestellt.
-
Im nachfolgenden Schritt S2 werden aus den Daten der Sensoren 11, 13, 15 3D-Punktwolken 21, 23, 24 erzeugt. Die 3D-Punktwolke vom Kamerasensor 11 wird erzeugt, indem 22 ein 3D-Bild aus dem vom Kamerasensor 11 empfangenen 2D-Bild rekonstruiert wird, um die Kameramerkmale in den 3D-Raum zu projizieren.
-
Im nachfolgenden Schritt S3 werden die erzeugten 3D-Punktwolken des Kamerasensors 11, des Lidarsensors 13 und des Radarsensors 15 gemeinsam 25 zu einer kombinierten 3D-Punktwolke koregistriert, wobei die kombinierte 3D-Punktwolke ein Volumen darstellt, bestehend aus Voxeln 31, wobei jedes einzelne Voxel 31 aus einer Anzahl von Punkten und Merkmalen des Kamerasensors 11, des Lidarsensors 13 und des Radarsensors 15 besteht.
-
Im nachfolgenden Schritt S4 wird ein einzelner Merkmalsvektor 41 von allen Punkten, die in jedem einzelnen Voxel (31) vorhanden sind, mit zumindest einem neuronalen Netzwerk mit mindestens einer Voxelmerkmalskodierungsschicht gelernt. In einer Ausführungsform der Erfindung ist das neuronale Netzwerk mit zumindest einer Voxelmerkmalsskodierungsschicht ein VoxelNet 40.
-
Im letzten Schritt S5 wird ein 3D regionales Vorschlagsnetzwerk 49 mit dem Merkmalsvektor 41 versehen und für jedes Objekt ein 3D-orientierter Begrenzungsrahmen erzeugt und die Geschwindigkeit 20 des Objekts vorhergesagt.
-
Bezugszeichenliste
-
- 1
- Fahrzeug
- 2
- Verkehrsteilnehmer
- 3
- Sichtfeld Surround-View-System
- 4
- Sichtfeld Radarsensor
- 5
- Sichtfeld Lidarsensor
- 6
- Fernbereichsfusion
- 7
- Nahbereichsfusion
- 9
- Objekt-Erkennungssystem
- 10
- Kamerasystem
- 11
- Kamerasensor
- 12
- Lidarsystem
- 13
- Lidarsensor
- 14
- Radarsystem
- 15
- Radarsensor
- 16
- Punktwolkenerzeugung
- 17
- Sensor-Fusionseinheit
- 18
- Objekterkennungsnetzwerk
- 19
- 3D-Objekterkennung
- 20
- Geschwindigkeit
- 21
- Kamerasignal zur Punktwolkeneinheit
- 22
- 3D Rekonstruktionseinheit
- 23
- Lidarsignal zur Punktwolkeneinheit
- 24
- Radarsignal zur Punktwolkeneinheit
- 25
- Koregistrierung
- 30
- dreidimensionale Umgebung des Trägerfahrzeugs
- 31
- Voxel
- 32
- Voxel-Gitter
- 33
- Bildpunktwolke
- 34
- Lidarpunktwolke
- 35
- Radarpunktwolke
- 40
- VoxelNet
- 41
- Merkmalsvektor
- 42
- punktuell geteilte, vollständig verbundene Schicht
- 43
- Elementseitige Maxpooling-Schicht
- 49
- regionales Vorschlagsnetzwerk
- 50
- vollständige konvolutionelle Schicht
- 51
- vollständige konvolutionelle Schicht
- 52
- vollständige konvolutionelle Schicht
- 53
- Wahrscheinlichkeitsscorekarte
- 54
- Regressionskarte
- S1
- Bereitstellung der Daten von Sensoren
- S2
- Generierung von 3D-Punktwolken
- S3
- Koregistrierung der 3D-Punktwolken zu einer kombinierten 3D-Punktwolke
- S4
- Lernen eines einzelnen Merkmalsvektors
- S5
- Generierung von 3D-orientierten Begrenzungsrahmen
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 2014/024050502 A1 [0009]
- US 2016/0291149 A1 [0010]
- US 7417580 B2 [0011]
-
Zitierte Nicht-Patentliteratur
-
- „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection.‟ von Zhou, Yin und Oncel Tuzel. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (2018) [0021, 0024, 0027, 0029, 0030]