-
VERWEIS AUF DIE ZUGEHÖRIGE ANMELDUNGEN
-
Die vorliegende Patentanmeldung beansprucht die Priorität der am 17. Juni 2019 beim koreanischen Patentamt eingereichten Patentanmeldung No.
10-2019-0071690 , deren gesamter Inhalt hierin mit einbezogen ist.
-
HINTERGRUND
-
TECHNISCHES GEBIET
-
Die vorliegende Offenbarung betrifft eine Vorrichtung und ein Verfahren zum Erkennen eines Objektes unter Verwendung einer Tiefenkarte, die von einem einzelnen Bild ermittelt wird.
-
BESCHREIBUNG DES STANDES DER TECHNIK
-
Im Allgemeinen sind tiefgehendes Lernen („deep learning“) oder ein tiefgehendes neuronales Netzwerk („deep neural network“) eine Art des maschinellen Lernens. Ein künstliches neuronales Netzwerk („artificial neural network“, ANN) mit mehreren Schichten kann zwischen einer Eingabe und einer Ausgabe bereitgestellt sein. Solch ein ANN kann in Abhängigkeit seiner Struktur, des zu lösenden Problems, des Zwecks und dergleichen ein faltendes neuronales Netzwerk („convolutional neural network“, CNN), ein rekurrentes neuronales Netzwerk („recurrent neural network“, RNN) oder dergleichen aufweisen.
-
Tiefgehendes Lernen wird verwendet, um verschiedene Problem zu adressieren, wie zum Beispiel eine Klassifizierung, eine Regression, eine Lokalisierung, eine Detektion und eine Segmentierung. Insbesondere können in einem autonomen System semantische Segmentierung und Objekterkennung, die imstande sind, eine Position und eine Art eines dynamischen oder statischen Hindernisses zu ermitteln, verwendet werden.
-
Semantische Segmentierung bezieht sich auf das Durchführen einer Klassifizierungsvorhersage auf einer Bildpunkt-für-Bildpunkt Basis, um ein Objekt in einem Bild zu erkennen, und einem Segmentieren des Objektes für jeden Bildpunkt. Durch das Verwenden einer semantischen Segmentierung kann verifiziert werden, ob ein bestimmtes Objekt in dem Bild vorhanden ist, und eine Position von Bildpunkten, die alle dieselbe Bedeutung/Bedeutungsgehalt (d.h. die demselben Objekt zugeordnet sind) haben, können genau ermittelt werden.
-
Die Objektdetektion bezieht sich auf das Klassifizieren und das Vorhersagen einer Art eines Objektes in einem Bild und das Durchführen einer Regressionsvorhersage eines Begrenzungsrahmens („bounding box regression“), um Positionsinformationen des Objektes zu verfeinern (d.h. genauer zu ermitteln). Durch Verwenden einer Objektdetektion können eine Art eines Objektes in dem Bild und Positionsinformationen des Objektes ermittelt werden.
-
Ein LiDAR („light detection and ranging“) Sensor ist eine Art eines Umgebungssensors, der zum Messen von Positionskoordinaten eines Reflektors und dergleichen in einem Datentyp, wie beispielsweise einer Punktwolke, basierend auf einer Zeit in der ein Laserstrahl, nachdem der Laserstrahl während einer Rotation (des LiDAR-Systems, das den LiDAR-Sensor aufweist) ungerichtet (d.h. in alle Richtungen) abgestrahlt wird, reflektiert wird und zurückkehrt, verwendet wird. Anders ausgedrückt strahlt ein den LiDAR-Sensor aufweisendes LiDAR-System einen Laserstrahl ungerichtet ab, der Laserstrahl wird beispielsweise an mindestens einem Objekt (z.B. einem Hindernis) reflektiert, der reflektierte Laserstrahl wird von dem LiDAR-Sensor detektiert und das LiDAR-System kann basierend auf einer Zeit zwischen dem Abstrahlen des Laserstrahls und dem Detektieren des reflektierten Laserstrahls Positionskoordinaten des mindestens einen Objektes ermitteln.
-
Eine vorhandene/herkömmliche Technologie zur Objekterkennung basierend auf einer hochauflösenden Reflektionskarte, die unter Verwendung eines solchen LiDAR-Sensors (LiDAR-Systems) erhalten wurde, erfordert in einem Fahrzeug zusätzlich einen teuren LiDAR-Sensor.
-
Eine andere vorhandene Technologie zum Erzeugen einer Tiefenkarte (Tiefen-Map) basierend auf Informationen über eine Disparität (einen Unterschied) zwischen zwei Bildern, die unter Verwendung einer Stereokamera erhalten wurden, und zum Erkennen eines Objektes unter Verwendung der erzeugten Tiefenkarte erfordert eine komplexe/aufwändige Kalibrierung (bzw. Kalibrierungsschritt) basierend auf einem internen Parameter und einem externen Parameter der Stereokamera, wenn die Stereokamera installiert (eingebaut/montiert) wird, und erfordert einen hohen Berechnungsaufwand, um Informationen über eine Disparität zwischen von der Stereokamera bereitgestellten Bildern, zu ermitteln, wobei jedes Bild eine hohe Auflösung aufweist.
-
ERLÄUTERUNG DER ERFINDUNG
-
Ein Aspekt der vorliegenden Offenbarung stellt eine Vorrichtung und ein Verfahren zum Erkennen eines Objektes bereit, wobei basierend auf einem dilatierten, faltenden neuronalen Netzwerk (auch: erweitertes faltendes neuronales Netzwerk oder dilatiertes neuronales Faltungsnetzwerk, „dilated convolutional neural network“, DCNN) unter Verwendung eines einzelnen Bildes eine Tiefenkarte erzeugt wird und wobei das Objekt basierend auf der erzeugten Tiefenkarte und dem einzelnen Bild erkannt wird, sodass das Objekt ohne einen LiDAR-Sensor (bzw. ohne ein einen LiDAR-Sensor aufweisendes LiDAR-System) erkannt wird und sodass eine Objekterkennungsrate im Vergleich zu vorhandenen (beispielsweise herkömmlichen) Objekterkennungstechnologien erhöht/verbessert wird.
-
Gemäß einem Aspekt der vorliegenden Offenbarung kann eine Vorrichtung aufweisen: einen Tiefenkarten-Generator, der basierend auf einem dilatierten, faltenden neuronalen Netzwerk („dilated convolutional neural network“, DCNN) eine Tiefenkarte unter Verwendung einer Merkmalskarte (Merkmals-Map) eines Bildes erzeugt, und eine Objekterkennungs-Vorrichtung, die ein Objekt unter Verwendung der von dem Tiefenkarten-Generator erzeugten Tiefenkarte und des Bildes erkennt.
-
Die Vorrichtung kann ferner eine Eingabe-Vorrichtung aufweisen, wobei die Eingabe-Vorrichtung eine Merkmalskarte eines Farbbildes, wie beispielsweise eines RGB-Bildes (eines rot-grün-blau Bildes), an den Tiefenkarten-Generator bereitstellt (beispielsweise in den Tiefenkarten-Generator eingibt) und wobei die Eingabe-Vorrichtung das Farbbild (zum Beispiel das RGB-Bild) an die Objekterkennungs-Vorrichtung bereitstellt (beispielsweise in die Objekterkennungs-Vorrichtung eingibt).
-
Die Eingabe-Vorrichtung kann aufweisen: ein Verkettungsmodul, das eingerichtet ist, eine verkettete Merkmalskarte zu erzeugen durch Verketten der Merkmalskarte des Farbbildes (zum Beispiel des RGB-Bildes) und der Merkmalskarte eines Grauwertbildes des Farbbildes (zum Beispiel eines Grauwertbildes des RBG-Bildes). Die Eingabe-Vorrichtung kann ferner aufweisen: ein erstes Faltungsmodul, das eine 16-Kanal Merkmalskarte unter Verwendung des Farbbildes (zum Beispiel des RBG-Bildes) erzeugt, ein zweites Faltungsmodul, das eine 16-Kanal Merkmalskarte unter Verwendung eines Grauwertbildes des Farbbildes (zum Beispiel eines Grauwertbildes des RBG-Bildes) erzeugt, und ein Verkettungsmodul („concatenation module“), das eine 32-Kanal Merkmalskarte durch Verketten (Verbinden bzw. Verknüpfen) der von dem ersten Faltungsmodul erzeugten 16-Kanal Merkmalskarte und der von dem zweiten Faltungsmodul erzeugten 16-Kanal Merkmalskarte erzeugt. Jedes des ersten Faltungsmoduls und des zweiten Faltungsmoduls kann einen 3×3-Filter verwenden (d.h. ein Filter mit einer Größe von 3×3 Bildpunkten).
-
Die Eingabe-Vorrichtung kann aufweisen: ein erstes Faltungsmodul, das eine 16-Kanal Merkmalskarte unter Verwendung des Farbbildes (zum Beispiel des RBG-Bildes) erzeugt, ein zweites Faltungsmodul, das eine 8-Kanal Merkmalskarte unter Verwendung eines Grauwertbildes (bzw. Graustufenbildes) des Farbbildes (zum Beispiel des RBG-Bildes) erzeugt, ein drittes Faltungsmodul, das eine 8-Kanal Merkmalskarte unter Verwendung eines LiDAR-Bildes (beispielsweise ein von einem LiDAR-Sensor detektiertes Bild bzw. ein unter Verwendung einer von dem LiDAR-Sensor detektierten Punktwolke erzeugtes Bild) erzeugt, und ein Verkettungsmodul („concatenation module“), das eine 32-Kanal Merkmalskarte durch Verketten (Verbinden bzw. Verknüpfen) der von dem ersten Faltungsmodul erzeugten 16-Kanal Merkmalskarte, der von dem zweiten Faltungsmodul erzeugten 8-Kanal Merkmalskarte und der von dem dritten Faltungsmodul erzeugten 8-Kanal Merkmalskarte erzeugt. Jedes des ersten Faltungsmoduls, des zweiten Faltungsmoduls und des dritten Faltungsmoduls kann jeweils einen 3×3-Filter verwenden (d.h. ein Filter mit einer Größe von 3×3 Bildpunkten). Das Erzeugen einer verketteten Merkmalskarte durch Verketten der Merkmalskarte eines Farbbildes, der Merkmalskarte eines Grauwertbildes des Farbbildes und eines LiDAR-Bildes hat den Effekt, dass basierend auf einem spärlichen LiDAR-Bild (d.h., das LiDAR-Bild weist wenige Punktdaten auf) eine dichte Tiefenkarte (d.h., die Tiefenkarte weist viele Daten auf, die den Bildpunkten der Tiefenkarte zugeordnet sind) erzeugt werden kann. Anders ausgedrückt kann das trainierte dilatierte, faltende neuronale Netzwerk unter Verwendung eines spärlichen LiDAR-Bildes eine dichte Tiefenkarte erzeugen.
-
Der Tiefenkarten-Generator kann die Tiefenkarte derart erzeugen, dass die Auflösung der Merkmalskarte (beispielsweise die von dem Verkettungsmodul bereitgestellte Merkmalskarte) graduell/schrittweise verringert und die verringerte Auflösung der Merkmalskarte ausgegeben/zurückgegeben wird.
-
Der Tiefenkarten-Generator kann eine der Auflösung der Merkmalskarte zugeordnete Dilatationsrate anwenden. Die Dilatationsrate eines dilatierten, faltendenden neuronalen Netzwerkes gibt an, auf jedes wievielte Element einer Merkmalskarte der zugeordnete Filter angewendet wird.
-
Der Tiefenkarten-Generator kann die Auflösung der Merkmalskarte halbieren (d.h. die Auflösung kann in einem Schritt um die Hälfte verringert werden, wobei das schrittweise Verringern der Auflösung mehrere Schritte aufweisen kann, wobei jeder Schritt der mehreren Schritte die Auflösung der jeweiligen Merkmalskarte halbieren, d.h. um die Hälfte verringern, kann).
-
Der Tiefenkarten-Generator kann mehrere Verkettungsmodule aufweisen, wobei jedes Verkettungsmodul der mehreren Verkettungsmodule bei dem Verfahren des schrittweisen Verringerns der Auflösung der Merkmalskarten, die dieselbe Anzahl an Kanälen haben, verketten kann und die verringerte Auflösung der jeweiligen Merkmalskarte (d.h. die Ausgabe einer Merkmalskarte mit verringerter Auflösung, beispielsweise nach dem Verketten von Merkmalskarten durch ein Verkettungsmodul der mehreren Verkettungsmodule) ausgeben/zurückgeben kann.
-
Gemäß einem anderen Aspekt der vorliegenden Offenbarung kann ein Verfahren aufweisen: Erzeugen einer Tiefenkarte durch einen Tiefenkarten-Generator basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) unter Verwendung einer Merkmalskarte eines Bildes und Erkennen eines Objektes durch eine Objekterkennungs-Vorrichtung unter Verwendung der erzeugten Tiefenkarte und des Bildes.
-
Das Verfahren kann ferner aufweisen: Eingeben/Bereitstellen einer Merkmalskarte eines Farbbildes (zum Beispiel eines RGB-Bildes (rot-grün-blau Bildes)) durch eine Eingabe-Vorrichtung in/an den Tiefenkarten-Generator, und Eingeben/Bereitstellen des Farbbildes (zum Beispiel des RGB-Bildes) durch die Eingabe-Vorrichtung in/an die Objekterkennungs-Vorrichtung.
-
Das Eingeben/Bereitstellen kann aufweisen: Erzeugen einer 16-Kanal Merkmalskarte durch ein erstes Faltungsmodul unter Verwendung des Farbbildes (zum Beispiel des RGB-Bildes), Erzeugen einer 16-Kanal Merkmalskarte durch ein zweites Faltungsmodul unter Verwendung eines Grauwertbildes des Farbbildes (zum Beispiel des RGB-Bildes), und Erzeugen einer 32-Kanal Merkmalskarte durch ein Verkettungsmodul, indem die von dem ersten Faltungsmodul erzeugte 16-Kanal Merkmalskarte und die von dem zweiten Faltungsmodul erzeugte 16-Kanal Merkmalskarte verkettet (d.h. zusammengefügt bzw. vereint) werden. Jedes des ersten Faltungsmoduls und des zweiten Faltungsmoduls kann jeweils einen 3x3-Filter verwenden (d.h. ein Filter mit einer Größe von 3x3 Bildpunkten).
-
Das Eingeben/Bereitstellen kann aufweisen: Erzeugen einer 16-Kanal Merkmalskarte durch ein erstes Faltungsmodul unter Verwendung des Farbbildes (zum Beispiel des RGB-Bildes), Erzeugen einer 8-Kanal Merkmalskarte durch ein zweites Faltungsmodul unter Verwendung eines Grauwertbildes des RGB-Bildes, Erzeugen einer 8-Kanal Merkmalskarte durch ein drittes Faltungsmodul unter Verwendung eines LiDAR-Bildes (beispielsweise ein von einem LiDAR-Sensor detektiertes Bild bzw. ein unter Verwendung einer von dem LiDAR-Sensor detektierten Punktwolke erzeugtes Bild), und Erzeugen einer 32-Kanal Merkmalskarte durch ein Verkettungsmodul, indem die von dem ersten Faltungsmodul erzeugte 16-Kanal-Merkmalskarte, die von dem zweiten Faltungsmodul erzeugte 8-Kanal-Merkmalskarte und die von dem dritten Faltungsmodul erzeugte 8-Kanal-Merkmalskarte verkettet (d.h. zusammengefügt bzw. vereint) werden. Jedes des ersten Faltungsmoduls, des zweiten Faltungsmoduls und des dritten Faltungsmoduls kann jeweils einen 3×3-Filter (d.h. ein Filter mit einer Größe von 3×3 Bildpunkten) verwenden.
-
Das Erzeugen der Tiefenkarte kann aufweisen: Erzeugen der Tiefenkarte derart, dass die Auflösung der Merkmalskarte (beispielsweise die von dem Verkettungsmodul bereitgestellte Merkmalskarte) graduell/schrittweise verringert wird und die verringerte Auflösung der Merkmalskarte ausgegeben/zurückgegeben wird.
-
Das Erzeugen der Tiefenkarte kann das Anwenden einer der Auflösung der Merkmalskarte zugeordneten Dilatationsrate aufweisen. Anders ausgedrückt kann jede Merkmalskarte der mehreren Merkmalskarten eine jeweilige Auflösung aufweisen und der jeweiligen Auflösung (und damit der jeweiligen Merkmalskarte der mehreren Merkmalskarten) kann eine Dilatationsrate zugeordnet sein.
-
Das Erzeugen der Tiefenkarte kann das Halbieren der Auflösung der Merkmalskarte aufweisen (d.h. das Verringern der Auflösung in einem Schritt um die Hälfte, wobei das schrittweise Verringern der Auflösung mehrere Schritte aufweisen kann, wobei jeder Schritt der mehreren Schritte die Auflösung der jeweiligen Merkmalskarte halbieren kann).
-
Das Erzeugen einer Tiefenkarte kann bei dem Verfahren des schrittweisen Verringerns der Auflösung der Merkmalskarten das Verketten von Merkmalskarten, die dieselbe Anzahl an Kanälen haben, aufweisen und kann das Ausgeben/Zurückgeben der verringerten Auflösung der Merkmalskarte (d.h. die Ausgabe einer Merkmalskarte mit verringerter Auflösung, beispielsweise nach dem Verketten von Merkmalskarten) aufweisen.
-
Figurenliste
-
Die oben beschriebenen und andere Objekte, Merkmale und Vorteile der vorliegenden Offenbarung werden klarer anhand der folgenden ausführlichen Beschreibung mit Bezug auf die beigefügten Zeichnungen.
- 1 ist ein Blockdiagramm, das eine Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 2 ist eine Zeichnung, die ein von einer Eingabe-Vorrichtung einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes eingegebenes rot-grün-blau (RGB) Bild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 3 ist eine Zeichnung, die ein von einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes generiertes Tiefenbild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 4 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 5 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine herkömmliche Objekterkennungs-Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 6 ist eine Zeichnung, die ein Referenz-Erkennungsergebnis darstellt;
- 7A und 7B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellen;
- 8A und 8B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer anderen Ausführungsform der vorliegenden Offenbarung darstellen;
- 9 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 10 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
- 11 ist ein Flussdiagramm, das ein Verfahren zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt; und
- 12 ist ein Blockdiagramm, das ein Datenverarbeitungssystem zum Ausführen eines Verfahrens zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
-
AUSFÜHRLICHE BESCHREIBUNG
-
Unter den hier verwendeten Begriffen wie „Fahrzeug“ bzw. „Fahrzeug-“ oder ähnlichen Begriffen ist zu verstehen, dass diese Motorfahrzeuge im Allgemeinen beinhalten, wie beispielsweise Personenfahrzeuge (zum Beispiel Personenkraftfahrzeuge), wobei die Personenfahrzeuge Geländewagen (SUV), Busse, Lastkraftwagen, verschiedene Nutzfahrzeuge, Wasserfahrzeuge, die eine Vielzahl an Booten und Schiffen aufweisen, Flugzeuge und dergleichen aufweisen können, und wobei die Begriffe Hybridfahrzeuge, Elektrofahrzeuge, Plug-in Hybrid-ElektroFahrzeuge, wasserstoffbetriebene Fahrzeuge und andere mit alternativem Treibstoff/Kraftstoff angetriebene Fahrzeuge (z.B. Treibstoffe/Kraftstoffe, die von anderen Ressourcen als Erdöl gewonnen wurden) beinhalten. Ein wie hierin beschriebenes Hybridfahrzeug ist ein Fahrzeug, das zwei oder mehr Energiequellen hat, zum Beispiel benzinbetriebene und elektrisch betriebene Fahrzeuge.
-
Die hierin verwendete Terminologie dient nur dem Zweck der Beschreibung bestimmter Ausführungsformen und soll die Offenbarung nicht einschränken. Die hierin verwendeten Singular-Formen „ein“, „eine“, „einer“ und „der“/„die“/„das“ sollen ebenfalls die Pluralformen aufweisen, sofern es sich vom Kontext nicht in klarer Weise anders ergibt. Ferner ist unter den in dieser Beschreibung verwendeten Begriffen „aufweisen“ und/oder „aufweisend“ zu verstehen, dass diese das Vorhandensein der angegebenen Merkmale, Ganzzahlen, Schritte, Operationen/Vorgänge/eines Betriebes, Elemente und/oder Komponenten angeben, aber das Vorhandensein oder das Hinzufügen von ein oder mehreren anderen Merkmalen, Ganzzahlen, Schritten, Operationen/Vorgängen/Betrieb, Elementen, Komponenten und/oder Gruppen davon nicht ausschließen. Der hierin verwendete Begriff „und/oder“ weist sämtliche Kombinationen von ein oder mehreren der zugeordneten gelisteten Elemente auf. Sofern nicht anders angegeben, sind in der Beschreibung der Begriff „aufweisen“ und Variationen davon, wie beispielsweise „weist auf“ oder „aufweisend“ so zu verstehen, dass die angegebenen Elemente aufgenommen werden können, aber nicht, dass andere Elemente ausgeschlossen sind. Zusätzlich bedeuten die in der Beschreibung beschriebenen Begriffe „Einheit“ und „Modul“ Einheiten bzw. Vorrichtungen zum Verarbeiten mindestens einer Funktion bzw. Operation und können durch Hardware-Komponenten oder Software-Komponenten und eine Kombination dieser implementiert sein.
-
Ferner kann die Steuerlogik der vorliegenden Offenbarung als nichtflüchtige, computer-lesbare Medien auf einem computer-lesbaren Medium (zum Beispiel ein computer-lesbares Speichermedium) ausgeführt sein, wobei das computer-lesbare Medium ausführbare Programminstruktionen, die von einem Prozessor, einer Steuerung oder dergleichen ausgeführt werden, aufweist. Beispiele für ein computer-lesbares Medium weisen auf, aber sind nicht darauf begrenzt: ROM, RAM, CD-ROM (Compact-Disk ROM), Magnetbänder, Disketten, USB-Speichersticks, Chipkarten und optische Datenspeichervorrichtungen. Das computer-lesbare Medium kann ferner in einem Netzwerk, das mit einem Computersystem gekoppelt ist, verteilt sein, sodass die computer-lesbaren Medien in einer verteilten Art und Weise gespeichert und ausgeführt werden, wie beispielsweise durch einen Telematik-Server oder ein CAN (Controller Area Network).
-
Im Folgenden werden einige Ausführungsformen der vorliegenden Offenbarung mit Bezug auf die beigefügten beispielhaften Zeichnungen ausführlich beschrieben. Bezüglich der Bezugszeichen der Komponenten einer jeden Figur ist zu verstehen, dass gleiche oder äquivalente Komponenten durch gleiche Bezugszeichen angegeben werden, auch wenn die Komponenten in anderen Figuren gezeigt sind. Ferner wird bei der Beschreibung der Ausführungsformen eine ausführliche Beschreibung darin enthaltener bekannter Merkmale oder Funktionen zum Zweck der Klarheit und Knappheit weggelassen.
-
Bei der Beschreibung der Komponenten der Ausführungsformen gemäß der vorliegenden Offenbarung können Begriffe wie zum Beispiel „erste“, „zweite“, „A“, „B“, „(a)“, „(b)“ und dergleichen verwendet werden., wobei diese Begriffe ausschließlich der Unterscheidung einer Komponente von einer anderen dienen und wobei die Begriffe die Art/Eigenschaft/Inhalt, die Sequenz oder die Reihenfolge der angegebenen Komponenten nicht einschränken. Sofern nicht anders angegeben, haben alle hierin verwendeten Begriffe, technische bzw. wissenschaftliche Begriffe einschließend, die gleiche Bedeutung, wie die von einem Fachmann, an den sich die vorliegende Offenbarung richtet, im Allgemeinen verstandene Bedeutung. Solche Begriffe, wie die in einem allgemeinen Wörterbuch/Lexikon definierten Begriffe, sind so zu interpretieren, dass diese Begriffe die gleiche Bedeutung haben wie die kontextbezogene Bedeutung in dem relevanten Gebiet der Technik, und sind nicht so zu interpretieren, dass diese Begriffe eine ideale/optimale/vollkommene bzw. exklusive formale Bedeutung haben, sofern dies in der vorliegenden Anmeldung nicht in klarer Weise anders angegeben ist.
-
Ein einzelnes Bild in einer Ausführungsform der vorliegenden Offenbarung kann ein Bild sein, das unter Verwendung einer allgemeinen Kamera erhalten wurde, anstatt eines Stereobildes (ein rechtes Bild und ein linkes Bild, beispielsweise ein unter Verwendung eines rechten Bildes und eines linken Bildes erzeugtes Stereobild), das unter Verwendung einer Stereokamera erhalten wurde, und kann sich auf ein Bild beziehen, dass keine Tiefeninformationen aufweist. Im Folgenden werden die Ausführungsbeispiele anhand eines RGB-Bildes als Bild beschrieben. Es ist jedoch darauf hinzuweisen, dass ein Bild jede Art von Farbbild sein kann, sofern nicht explizit anders angegeben.
-
1 ist ein Blockdiagramm, das eine Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 2 ist eine Zeichnung, die ein von einer Eingabe-Vorrichtung einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes eingegebenes rot-grün-blau (RGB) Bild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 3 ist eine Zeichnung, die ein von einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes generiertes Tiefenbild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 4 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 5 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine herkömmliche Objekterkennungs-Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 6 ist eine Zeichnung, die ein Referenz-Erkennungsergebnis darstellt.
-
Wie in 1 gezeigt, kann eine Vorrichtung 100 zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung aufweisen: eine Eingabe-Vorrichtung 10, eine Steuervorrichtung 20 und eine Ausgabe-Vorrichtung 30, wobei die Steuervorrichtung 20 einen Tiefenkarten-Generator 21 und eine Objekterkennungs-Vorrichtung 22 aufweist. In diesem Fall können die jeweiligen Komponenten miteinander kombiniert werden, um eine Komponente zu bilden und einige Komponenten können in Abhängigkeit davon, wie die Vorrichtung 100 das Objekt unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung erkennt, weggelassen werden.
-
Die Eingabe-Vorrichtung 10 kann eine Merkmalskarte eines Kamerabildes an den Tiefenkarten-Generator 21 bereitstellen (beispielsweise in den Tiefenkarten-Generator 21 eingeben) und kann ein Kamerabild (ein rot-grün-blau (RGB) Bild) an die Objekterkennungs-Vorrichtung 22 bereitstellen (beispielsweise in die Objekterkennungs-Vorrichtung 22 eingeben). Ein beispielhaftes Kamerabild ist in 2 dargestellt.
-
Der Tiefenkarten-Generator 21 kann eine Tiefenkarte basierend auf einem dilatierten, faltenden neuronalen Netzwerk („dilated convolutional neural network“, DCNN)unter Verwendung der Merkmalskarte des Kamerabildes erzeugen. Das dilatierte, faltende neuronale Netzwerk weist eine dilatierte Faltung auf. Bei der dilatierten Faltung können die Faltungskerne (d.h. der Elemente eines Filters) einer Faltungsschicht einen Abstand aufweisen. Der Abstand der Faltungskerne wird durch die Dilatationsrate angegeben, wobei eine Dilatationsrate gleich einem Wert „1“ angibt, dass die Faltungskerne keinen Abstand aufweisen. Die Bereiche des Filters zwischen den Faltungskernen (d.h. die durch den Abstand gegebenen Bereiche) weisen einen Wert gleich „0“ auf. Die Verwendung einer dilatierten Faltung hat den Effekt, dass ein jeweiliger Filter einen größeren Bereich (zum Beispiel Bildpunkte eines Bildes) berücksichtigt, wobei die Anzahl an Parametern, der Speicheraufwand und der rechentechnische Aufwand gegenüber herkömmlichen Faltungen (d.h. eines faltenden neuronalen Netzwerkes) unverändert ist. Folglich kann die Verwendung einer dilatierten Faltung beispielsweise den rechentechnischen Aufwand (zum Beispiel durch eine Verringerung der Anzahl an Schichten des Netzwerkes) bei der Verarbeitung von Bildern (mit zum Beispiel einer hohen Auflösung) verringern. Die Verwendung einer dilatierten Faltung hat ferner den Effekt, dass das trainierte dilatierte, faltende neuronale Netzwerk Objekte unterschiedlicher Größe in einem Bild (zum Beispiel einem Farbbild, zum Beispiel einem Grauwertbild, zum Beispiel einem LiDAR-Bild) unterscheiden kann.
-
Der Tiefenkarten-Generator 21 kann die Tiefenkarte derart erzeugen, dass die Auflösung der Merkmalskarte schrittweise verringert wird (beispielsweise in jedem Schritt von mehreren Schritten verringert wird) und die verringerte Auflösung der Merkmalskarte zurückgegeben wird (beispielsweise in jedem Schritt der mehreren Schritte ausgegeben wird, wobei die nach jedem Schritt der mehreren Schritte ausgegebene Merkmalskarte mit verringerter Auflösung als eingegebene Merkmalskarte in einem darauffolgenden Schritt der mehreren Schritte verwendet werden kann).
-
Die Objekterkennungs-Vorrichtung 22 kann ein Objekt unter Verwendung der von dem Tiefenkarten-Generator 21 erzeugten Tiefenkarte und dem von der Eingabe-Vorrichtung 10 eingegebenen RGB-Bild erkennen. In diesem Fall ist für die Objekterkennungs-Vorrichtung 22 zulässig, das Objekt in jeder bekannten Art und Weise zu erkennen. Zum Beispiel ist in 4 ein von der Objekterkennungs-Vorrichtung 22 erkanntes beispielhaftes Ergebnis darstellt.
-
Als Referenz ist in 5 ein beispielhaftes Ergebnis, das von einer herkömmlichen Objekterkennungs-Vorrichtung erkannt wurde, gezeigt. Das Erkennungsergebnis gemäß einer Ausführungsform der vorliegenden Offenbarung hat eine Schnittmenge nach Vereinigung („intersection over union“, IOU; IOU gibt beispielsweise die Schnittmenge eines ermittelten/vorhergesagten Begrenzungsrahmens („bounding box“) und eines Ground-Truth-Begrenzungsrahmens an) von 86,06 %, wohingegen das herkömmliche Erkennungsergebnis nur eine IOU von 85,3 % hat. In diesem Fall ist die IOU ein Kriterium zur Evaluierung einer Objekterkennungs-Leistung/Leistungsfähigkeit. Das in 6 gezeigte Erkennungsergebnis gemäß einer Ausführungsform der vorliegenden Offenbarung ist 86,06 % in Bezug auf eine Übereinstimmung der Bildpunkte mit einem Referenz-Erkennungsergebnis (einer semantischen Segmentierungszuweisung, beispielsweise eines Ground-Truth-Begrenzungsrahmens), wohingegen das herkömmliche Erkennungsergebnis nur 85,3 % ist.
-
Die Ausgabe-Vorrichtung 30 kann das von der Objekterkennungs-Vorrichtung 22 erkannte Ergebnis ausgeben.
-
Die Steuervorrichtung 20 kann die allgemeine Steuerung derart durchführen, dass die jeweiligen Komponenten ihre jeweiligen Funktionen normal/in üblicher Weise ausführen. Solch eine Steuervorrichtung 20 kann in Form von Hardware oder Software oder in Form einer Kombination davon implementiert sein. Vorzugsweise kann die Steuervorrichtung 20 zum Beispiel als Mikroprozessor implementiert sein.
-
Solch eine Steuervorrichtung 20 kann ferner eine Speichervorrichtung (einen Speicher, wie beispielsweise einen Arbeitsspeicher) gemäß der allgemein bekannten Technologie aufweisen. Die Speichervorrichtung kann verschiedene Logik, Algorithmen und Programm speichern, die in dem Verfahren zum Erzeugen einer Tiefenkarte unter Verwendung der Merkmalskarte des Kamerabildes basierend auf einem DCNN und zum Erkennen des Objektes unter Verwendung der erzeugten Tiefenkarte und des von der Eingabe-Vorrichtung 10 bereitgestellten/eingegebenen RBG-Bildes erforderlich sind.
-
Die Speichervorrichtung kann mindestens eine Art von Speichermedium, wie beispielsweise einen flashspeicherartigen Speicher, einen festplattenartigen Speicher, einen mikroartigen Speicher, einen kartenartigen Speicher, (zum Beispiel eine SD-Karte („secure digital card“) oder eine XD-Karte („extreme digital card“)), einen Arbeitsspeicher (RAM), einen statischen RAM (SRAM), einen Nurlesespeicher (ROM), einen programmierbaren ROM (PROM), einen elektrisch löschbaren PROM (EEPROM), einen magnetischen RAM (MRAM), einen Magnetplattenspeicher („magnetic disk“) und einen optischen Plattenspeicher („optical disk“) aufweisen.
-
7A und 7B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellen.
-
Wie in 7A und 7B gezeigt, kann eine Eingabe-Vorrichtung 10 einer Vorrichtung 100 zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung ein erstes Faltungsmodul 111, ein zweites Faltungsmodul 121 und ein Verkettungsmodul 131 aufweisen.
-
Das erste Faltungsmodul 111 kann eine Merkmalskarte erzeugen, wobei bezüglich eines RGB-Bildes die Auflösung ohne Änderung (Schrittweite („stride“) =1) beibehalten wird (wobei beispielsweise die Auflösung eines RGB-Bildes beibehalten wird), wobei ein Ausgabekanal gleich „16“ ist, und wobei ein 3×3-Filter verwendet wird.
-
Das zweite Faltungsmodul 121 kann eine Merkmalskarte erzeugen, wobei bezüglich eines Grauwertbildes die Auflösung ohne Änderung (Schrittweite=1) beibehalten wird (wobei beispielsweise die Auflösung eines Grauwertbildes beibehalten wird), wobei ein Ausgabekanal gleich „16“ ist, und wobei ein 3×3-Filter verwendet wird. Das Grauwertbild kann von dem RGB-Bild erzeugt werden.
-
Das Verkettungsmodul 131 kann die von dem ersten Faltungsmodul 111 erzeugte 16-Kanal-Merkmalskarte und die von dem zweiten Faltungsmodul 121 erzeugte 16-Kanal-Merkmalskarte zu einer 32-Kanal-Merkmalskarte verketten (bzw. verknüpfen, vereinigen).
-
Ein Tiefenkarten-Generator 21 kann ein erstes Verarbeitungsmodul 210, ein zweites Verarbeitungsmodul 220, ein drittes Verarbeitungsmodul 230, ein viertes Verarbeitungsmodul 240, ein fünftes Verarbeitungsmodul 250, ein sechstes Faltungsmodul 260, ein siebtes Verarbeitungsmodul 270, ein erstes Verkettungsmodul 280, ein achtes Verarbeitungsmodul 290, ein zweites Verkettungsmodul 300, ein neuntes Verarbeitungsmodul 310, ein drittes Verkettungsmodul 320, ein zehntes Verarbeitungsmodul 330, ein viertes Verkettungsmodul 340, ein elftes Verarbeitungsmodul 350, ein fünftes Verkettungsmodul 360 und ein zwölftes Faltungsmodul 370 aufweisen.
-
Das erste Verarbeitungsmodul 210 kann aufweisen: ein erstes Faltungsmodul 211 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem Verkettungsmodul 131 erzeugten 32-Kanal-Merkmalskarte die Auflösung (z.B. 1216×352) ohne Änderung (Schrittweite = 1) beibehalten wird (d.h. die Auflösung der von dem Verkettungsmodul 131 erzeugten 32-Kanal-Merkmalskarte kann beibehalten werden), wobei ein Ausgabekanal gleich „32“ ist, und wobei ein 3×3-Filter verwendet wird, und ein erstes dilatiertes Faltungsmodul 212 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32, 16, 8, 4, 2, 1] auf die von dem ersten Faltungsmodul 211 erzeugte 32-Kanal-Merkmalskarte. Gemäß verschiedenen Ausführungsformen wird eine jeweilige Dilatationsrate an die Auflösung der zugeordneten Merkmalskarte angepasst (zum Beispiel eine Dilatationsrate von [32, 16, 8, 4, 2, 1] für eine Auflösung der Merkmalskarte von 1216x352).
-
Das zweite Verarbeitungsmodul 220 kann aufweisen: ein zweites Faltungsmodul 221 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem ersten dilatierten Faltungsmodul 212 erzeugten 32-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 608 × 176) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „64“ ist, und wobei ein 3×3-Filter verwendet wird, und ein zweites dilatiertes Faltungsmodul 222 zum Erzeugen einer 64-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16, 8, 4, 2, 1] auf die von dem zweiten Faltungsmodul 221 erzeugte 64-Kanal-Merkmalskarte.
-
Das dritte Verarbeitungsmodul 230 kann aufweisen: ein drittes Faltungsmodul 231 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem zweiten dilatierten Faltungsmodul 222 erzeugten 64-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 304 × 88) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „128“ ist, und wobei ein 3×3-Filter verwendet wird, und ein drittes dilatiertes Faltungsmodul 232 zum Erzeugen einer 128-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8, 4, 2, 1] auf die von dem dritten Faltungsmodul 231 erzeugte 128-Kanal-Merkmalskarte.
-
Das vierte Verarbeitungsmodul 240 kann aufweisen: ein viertes Faltungsmodul 241 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem dritten dilatierten Faltungsmodul 232 erzeugten 128-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 152 × 44) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „256“ ist, und wobei ein 3×3-Filter verwendet wird, und ein viertes dilatiertes Faltungsmodul 242 zum Erzeugen einer 256-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4, 2, 1] auf die von dem vierten Faltungsmodul 241 erzeugte 256-Kanal-Merkmalskarte.
-
Das fünfte Verarbeitungsmodul 250 kann aufweisen: ein fünftes Faltungsmodul 251 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem vierten dilatierten Faltungsmodul 242 erzeugten 256-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 76 × 22) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „512“ ist, und wobei ein 3×3-Filter verwendet wird, und ein fünftes dilatiertes Faltungsmodul 252 zum Erzeugen einer 512-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2, 1] auf die von dem fünften Faltungsmodul 251 erzeugte 512-Kanal-Merkmalskarte.
-
Das sechste Faltungsmodul 260 kann eine Merkmalskarte erzeugen, wobei die Auflösung halbiert (z.B. 38 × 11) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „512“ ist, und wobei ein 3×3-Filter bezüglich der von dem fünften dilatierten Faltungsmodul 252 erzeugten 512-Kanal-Merkmalskarte verwendet wird.
-
Das siebte Verarbeitungsmodul 270 kann aufweisen: ein erstes Vor-Faltungsmodul 271 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem sechsten Faltungsmodul 260 erzeugten 512-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 76 × 22) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „512“ ist, und wobei ein 3×3-Filter verwendet wird, und ein siebtes dilatiertes Faltungsmodul 272 zum Erzeugen einer 512-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2, 1] auf die von dem ersten Vor-Faltungsmodul 271 erzeugte 512-Kanal-Merkmalskarte.
-
Das erste Verkettungsmodul 280 kann die von dem siebten dilatierten Faltungsmodul 272 erzeugte 512-Kanal-Merkmalskarte und die von dem fünften dilatierten Faltungsmodul 252 erzeugte 512-Kanal-Merkmalskarte verketten.
-
Das achte Verarbeitungsmodul 280 kann aufweisen: ein zweites Vor-Faltungsmodul 291 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem ersten Verkettungsmodul 280 erzeugten 512-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 152 × 44) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „256“ ist, und wobei ein 3×3-Filter verwendet wird, und ein achtes dilatiertes Faltungsmodul 292 zum Erzeugen einer 256-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4, 2, 1] auf die von dem zweiten Vor-Faltungsmodul 291 erzeugte 256-Kanal-Merkmalskarte.
-
Das zweite Verkettungsmodul 300 kann die von dem achten dilatierten Faltungsmodul 292 erzeugte 256-Kanal-Merkmalskarte und die von dem vierten dilatierten Faltungsmodul 242 erzeugte 256-Kanal-Merkmalskarte verketten.
-
Das neunte Verarbeitungsmodul 310 kann aufweisen: ein drittes Vor-Faltungsmodul 311 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem zweiten Verkettungsmodul 300 erzeugten 256-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 304 × 88) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „128“ ist, und wobei ein 3×3-Filter verwendet wird, und ein neuntes dilatiertes Faltungsmodul 312 zum Erzeugen einer 128-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8, 4, 2, 1] auf die von dem dritten Vor-Faltungsmodul 311 erzeugte 128-Kanal-Merkmalskarte.
-
Das dritte Verkettungsmodul 320 kann die von dem neunten dilatierten Faltungsmodul 312 erzeugte 128-Kanal-Merkmalskarte und die von dem dritten dilatierten Faltungsmodul 232 erzeugte 128-Kanal-Merkmalskarte verketten.
-
Das zehnte Verarbeitungsmodul 330 kann aufweisen: ein viertes Vor-Faltungsmodul 331 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem dritten Verkettungsmodul 320 erzeugten 128-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 608 × 176) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „64“ ist, und wobei ein 3×3-Filter verwendet wird, und ein zehntes dilatiertes Faltungsmodul 332 zum Erzeugen einer 64-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16, 8, 4, 2, 1] auf die von dem vierten Vor-Faltungsmodul 331 erzeugte 64-Kanal-Merkmalskarte.
-
Das vierte Verkettungsmodul 340 kann die von dem zehnten dilatierten Faltungsmodul 332 erzeugte 64-Kanal-Merkmalskarte und die von dem zweiten dilatierten Faltungsmodul 222 erzeugte 64-Kanal-Merkmalskarte verketten.
-
Das elfte Verarbeitungsmodul 350 kann aufweisen: ein fünftes Vor-Faltungsmodul 351 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem vierten Verkettungsmodul 340 verketteten 64-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 1216 × 352) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „32“ ist, und wobei ein 3×3-Filter verwendet wird, und ein elftes dilatiertes Faltungsmodul 352 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32, 16, 8, 4, 2, 1] auf die von dem fünften Vor-Faltungsmodul 351 erzeugte 32-Kanal-Merkmalskarte.
-
Das fünfte Verkettungsmodul 360 kann die von dem elften dilatierten Faltungsmodul 352 erzeugte 32-Kanal-Merkmalskarte und die von dem ersten dilatierten Faltungsmodul 212 erzeugte 32-Kanal-Merkmalskarte verketten.
-
Das zwölfte Verarbeitungsmodul 370 kann eine Tiefenkarte erzeugen, wobei bezüglich der von dem fünften Verkettungsmodul 360 verketteten 32-Kanal-Merkmalskarte die Auflösung (z.B. 1216 × 352) beibehalten wird (Schrittweite = 1), wobei ein Ausgabekanal gleich „1“ ist, und wobei ein 1×1-Filter verwendet wird.
-
8A und 8B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer anderen Ausführungsform der vorliegenden Offenbarung darstellen.
-
Wie in 8A und 8B gezeigt, kann eine Eingabe-Vorrichtung 10 einer Vorrichtung 100 zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer anderen Ausführungsform der vorliegenden Offenbarung ein erstes Faltungsmodul 111, ein zweites Faltungsmodul 121, ein drittes Faltungsmodul 141 und ein Verkettungsmodul 131 aufweisen.
-
Das erste Faltungsmodul 111 kann eine merkmalskarte erzeugen, wobei bezüglich eines RGB-Bildes die Auflösung ohne Änderung (Schrittweite = 1) beibehalten wird, wobei ein Ausgabekanal gleich „16“ ist, und wobei ein 3x3-Filter verwendet wird.
-
Das zweite Faltungsmodul 121 kann eine Merkmalskarte erzeugen, wobei bezüglich eines Grauwertbildes die Auflösung ohne Änderung (Schrittweite = 1) beibehalten wird, wobei ein Ausgabekanal gleich „8“ ist, und wobei ein 3x3-Filter verwendet wird. In diesem Fall kann das Grauwertbild von dem RGB-Bild erzeugt werden.
-
Das dritte Faltungsmodul 141 kann eine Merkmalskarte erzeugen, wobei bezüglich eines LiDAR-Bildes („light detection and ranging“ Bildes, beispielsweise ein von einem LiDAR-Sensor detektiertes Bild bzw. ein unter Verwendung einer von dem LiDAR-Sensor detektierten Punktwolke erzeugtes Bild) die Auflösung ohne Änderung (Schrittweite = 1) beibehalten wird, wobei ein Ausgabekanal gleich „8“ ist, und wobei ein 3x3-Filter verwendet wird.
-
Das Verkettungsmodul 131 kann die von dem ersten Faltungsmodul 111 erzeugte 16-Kanal-Merkmalskarte, die von dem zweiten Faltungsmodul 121 erzeugte 8-Kanal-Merkmalskarte und die von dem dritten Faltungsmodul 141 erzeugte 8-Kanal-Merkmalskarte verketten, um eine 32-Kanal-Merkmalskarte zu erzeugen.
-
Da die ausführliche Konfiguration eines Tiefenkarten-Generators 21 der in den 7A und 7B gezeigten ausführlichen Konfiguration entspricht, wird auf eine Wiederholung der Beschreibung verzichtet.
-
Die andere Ausführungsform der vorliegenden Offenbarung kann angewandt werden, wenn ein LiDAR-Bild sowie ein Kamerabild erhalten werden.
-
9 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls 212 oder 352 einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
-
Wie in 9 gezeigt, kann das dilatierte Faltungsmodul 212 oder 352 der Vorrichtung zum Erkennen des Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung aufweisen: ein erstes Modul 901 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf eine 32-Kanal-Merkmalskarte, ein zweites Modul 902 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 32-Kanal-Merkmalskarte, ein drittes Modul 903 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 32-Kanal-Merkmalskarte, ein viertes Modul 904 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 32-Kanal-Merkmalskarte, ein fünftes Modul 905 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 32-Kanal-Merkmalskarte, und ein sechstes Modul 906 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32] auf die 32-Kanal-Merkmalskarte.
-
Ferner kann das dilatierte Faltungsmodul 212 oder 352 aufweisen: ein siebtes Modul 911 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf die 16-Kanal-Merkmalskarte, ein achtes Modul 912 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 16-Kanal-Merkmalskarte, ein neuntes Modul 913 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 16-Kanal-Merkmalskarte, ein zehntes Modul 914 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 16-Kanal-Merkmalskarte, ein elftes Modul 915 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 16-Kanal-Merkmalskarte, und ein zwölftes Modul 916 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32] auf die 16-Kanal-Merkmalskarte.
-
Ferner kann das dilatierte Faltungsmodul 212 oder 352 ein Verkettungsmodul 920 aufweisen. Das Verkettungsmodul 920 kann die von dem siebten Modul 911 erzeugte 16-Kanal-Merkmalskarte, die von dem achten Modul 912 erzeugte 16-Kanal-Merkmalskarte, die von dem neunten Modul 913 erzeugte 16-Kanal-Merkmalskarte, die von dem zehnten Modul 914 erzeugte 16-Kanal-Merkmalskarte, die von dem elften Modul 915 erzeugte 16-Kanal-Merkmalskarte und die von dem zwölften Modul 916 erzeugte 16-Kanal-Merkmalskarte verketten (beispielsweise zu einer 96-Kanal-Merkmalskarte) und kann eine 32-Kanal-Merkmalskarte unter Verwendung eines 1x1-Filters bezüglich der verketteten 96-Kanal-Merkmalskarte erzeugen.
-
Ferner kann das dilatierte Faltungsmodul 212 oder 352 eine Zusammenfass-Vorrichtung 930 zum Zusammenfassen (beispielsweise Addieren) der von dem Verkettungsmodul 920 erzeugten 32-Kanal-Merkmalskarte und der ursprünglich eingegebenen 32-Kanal-Merkmalskarte.
-
10 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls 222 oder 332 einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
-
Wie in 10 gezeigt, kann das dilatierte Faltungsmodul 222 oder 332 der Vorrichtung zum Erkennen des Objektes unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung aufweisen: ein erstes Modul 941 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf eine 64-Kanal-Merkmalskarte, ein zweites Modul 942 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 64-Kanal-Merkmalskarte, ein drittes Modul 943 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 64-Kanal-Merkmalskarte, ein viertes Modul 944 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 64-Kanal-Merkmalskarte,und ein fünftes Modul 945 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 64-Kanal-Merkmalskarte.
-
Ferner kann das dilatierte Faltungsmodul 222 oder 332 aufweisen: ein sechstes Modul 951 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf die 32-Kanal-Merkmalskarte, ein siebtes Modul 952 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 32-Kanal-Merkmalskarte, ein achtes Modul 953 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 32-Kanal-Merkmalskarte, ein neuntes Modul 954 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 32-Kanal-Merkmalskarte und ein zehntes Modul 955 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 32-Kanal-Merkmalskarte.
-
Ferner kann das dilatierte Faltungsmodul 222 oder 332 ein Verkettungsmodul 960 aufweisen. Das Verkettungsmodul 960 kann die von dem sechsten Modul 951 erzeugte 32-Kanal-Merkmalskarte, die von dem siebten Modul 952 erzeugte 32-Kanal-Merkmalskarte, die von dem achten Modul 953 erzeugte 32-Kanal-Merkmalskarte, die von dem neunten Modul 954 erzeugte 32-Kanal-Merkmalskarte und die von dem zehnten Modul 95 erzeugte 32-Kanal-Merkmalskarte verketten, und kann bezüglich der verketteten 160-Kanal-Merkmalskarte (d.h. der verketteten Merkmalskarte der von dem sechsten Modul 951 erzeugten 32-Kanal-Merkmalskarte, der von dem siebten Modul 952 erzeugten 32-Kanal-Merkmalskarte, der von dem achten Modul 953 erzeugten 32-Kanal-Merkmalskarte, der von dem neunten Modul 954 erzeugten 32-Kanal-Merkmalskarte und der von dem zehnten Modul 95 erzeugten 32-Kanal-Merkmalskarte) eine 64-Kanal-Merkmalskarte unter Verwendung eines 1×1-Filters erzeugen.
-
Ferner kann das dilatierte Faltungsmodul 222 oder 332 eine Zusammenfass-Vorrichtung 970 zum Zusammenfassen (beispielsweise Addieren) der von dem Verkettungsmodul 960 erzeugten 64-Kanal-Merkmalskarte und der ursprünglich eingegebenen 64-Kanal-Merkmalskarte.
-
Alle Faltungsmodule können in einer solchen Art und Weise (d.h. in einer oben beschriebenen Art und Weise) eingerichtet sein.
-
11 ist ein Flussdiagramm, das ein Verfahren zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
-
Zunächst kann im Vorgang/Operation 1101 ein Tiefenkarten-Generator 21 der 1 eine Tiefenkarte unter Verwendung einer Merkmalskarte eines Bildes basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) erzeugen.
-
Im Vorgang/Operation 1102 kann eine Objekterkennungs-Vorrichtung 22 der 1 ein Objekt unter Verwendung der von dem Tiefenkarten-Generator 21 erzeugten Tiefenkarte und des Bildes erkennen.
-
12 ist ein Blockdiagramm, das ein Datenverarbeitungssystem zum Ausführen eines Verfahrens zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
-
In Bezug auf 12 kann das Verfahren zum Erkennen des Objektes unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung unter Verwendung des Datenverarbeitungssystems implementiert sein. Das Datenverarbeitungssystem 1000 kann aufweisen: mindestens einen Prozessor 1100, einen Arbeitsspeicher 1300, eine Benutzerschnittstelle-Eingabe-Vorrichtung 1400, eine Benutzerschnittstelle-Ausgabe-Vorrichtung 1500, eine Speichervorrichtung 1600, und eine Netzwerk-Schnittstelle 1700, wobei diese miteinander über einen Datenbus („bus“) 1200 verbunden sind.
-
Der Prozessor 1100 kann eine zentrale Verarbeitungseinheit (CPU) oder eine Halbleitervorrichtung sein, wobei die zentrale Verarbeitungseinheit bzw. die Halbleitervorrichtung in der Arbeitsspeicher 1300 und/oder in der Speichervorrichtung 1600 gespeicherte Instruktionen verarbeitet. Der Arbeitsspeicher 1300 und die Speichervorrichtung 1600 können verschiedene Arten von flüchtigen oder nichtflüchtigen Speichermedien aufweisen. Zum Beispiel kann der Arbeitsspeicher 1300 einen ROM (Nurlesespeicher) oder einen RAM (Direktzugriffspeicher) aufweisen. Folglich können die Vorgänge/Operationen des Verfahrens oder die in Verbindung mit den hierin offenbarten Ausführungsformen beschriebenen Algorithmen direkt in einem von dem Prozessor 1100 ausgeführten Hardware-Modul oder Software-Modul oder eine Kombination daraus ausgeführt sein. Das Software-Modul kann sich auf einem Speichermedium (welches beispielsweise der Arbeitsspeicher 1300 und/oder die Speichervorrichtung 1600 ist) befinden, wie beispielsweise einem RAM-Speicher, einem Flash-Speicher, einem ROM-Speicher, einem EPROM-Speicher, einem EEPROM-Speicher, einem Register, einer Festplatte, einer Wechselplatte („removal disk“), einer CD-ROM. Das beispielhafte Speichermedium kann mit dem Prozessor 1100 verbunden/gekoppelt sein und der Prozessor 1100 kann Informationen von dem Speichermedium auslesen und kann Informationen auf dem Speichermedium schreiben. Alternativ kann das Speichermedium mit dem Prozessor 1100 integriert sein. Der Prozessor 1100 und das Speichermedium können sich in einer anwendungsspezifischen integrierten Schaltung (ASIC) befinden. Die ASIC kann sich in einem Benutzerendgerät befinden. In einem anderen Fall können sich der Prozessor 1100 und das Speichermedium in dem Benutzerendgerät als separate Komponenten befinden.
-
Die Vorrichtung und das Verfahren zum Erkennen des Objektes unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung können eine Tiefenkarte unter Verwendung eines einzelnen Bildes basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) erzeugen und können ein Objekt basierend auf der erzeugten Tiefenkarte und dem einzelnen Bild erkennen, wodurch das Objekt ohne einen LiDAR-Sensor erkannt werden kann und wodurch eine Objekterkennungsrate im Vergleich zu einer Technologie zur Objekterkennung unter Verwendung eines einzelnen Bildes erhöht/verbessert wird.
-
Obwohl die vorliegende Offenbarung vorstehend mit Bezug auf die beispielhaften Ausführungsformen und die beigefügten Zeichnungen beschrieben wurde, ist die vorliegende Offenbarung nicht darauf begrenzt, sondern kann von einem Fachmann, an den sich die vorliegende Offenbarung richtet, auf verschiedene Art modifiziert und verändert werden ohne von dem Gedanken und dem Umfang der in den folgenden Ansprüchen beanspruchten vorliegenden Offenbarung abzuweichen.
-
Daher sind die beispielhaften Ausführungsformen der vorliegenden Offenbarung bereitgestellt, um den Gedanken und den Umfang der vorliegenden Offenbarung zu erklären, aber nicht zu begrenzen/einzuschränken, sodass der Gedanke und der Umfang der vorliegenden Offenbarung nicht auf die Ausführungsformen begrenzt/eingeschränkt ist. Der Umfang der vorliegenden Offenbarung soll auf Grundlage der beigefügten Ansprüche verstanden werden und alle technischen Ideen innerhalb des zu den Ansprüchen äquivalenten Umfangs soll in den Umfang der vorliegenden Offenbarung aufgenommen werden.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-