DE102019131100A1 - Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes - Google Patents

Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes Download PDF

Info

Publication number
DE102019131100A1
DE102019131100A1 DE102019131100.4A DE102019131100A DE102019131100A1 DE 102019131100 A1 DE102019131100 A1 DE 102019131100A1 DE 102019131100 A DE102019131100 A DE 102019131100A DE 102019131100 A1 DE102019131100 A1 DE 102019131100A1
Authority
DE
Germany
Prior art keywords
feature map
image
module
map
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019131100.4A
Other languages
English (en)
Inventor
Young Hyun Kim
Yang Shin Kim
Min Woo Park
Jun Mo KIM
Si Haeng Lee
Jang Hyeon Lee
Do Yeon Kim
Hae Chang JUNG
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Korea Advanced Institute of Science and Technology KAIST
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp, Korea Advanced Institute of Science and Technology KAIST filed Critical Hyundai Motor Co
Publication of DE102019131100A1 publication Critical patent/DE102019131100A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

Eine Vorrichtung (100) zum Erkennen eines Objektes unter Verwendung eines Bildes weist auf: einen Tiefenkarten-Generator (21), der eine Tiefenkarte unter Verwendung einer Merkmalskarte des Bildes basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) erzeugt und eine Objekterkennungs-Vorrichtung (22), die das Objekt unter Verwendung der von dem Tiefenkarten-Generator (21) erzeugten Tiefenkarte und dem Bild erkennt.

Description

  • VERWEIS AUF DIE ZUGEHÖRIGE ANMELDUNGEN
  • Die vorliegende Patentanmeldung beansprucht die Priorität der am 17. Juni 2019 beim koreanischen Patentamt eingereichten Patentanmeldung No. 10-2019-0071690 , deren gesamter Inhalt hierin mit einbezogen ist.
  • HINTERGRUND
  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung betrifft eine Vorrichtung und ein Verfahren zum Erkennen eines Objektes unter Verwendung einer Tiefenkarte, die von einem einzelnen Bild ermittelt wird.
  • BESCHREIBUNG DES STANDES DER TECHNIK
  • Im Allgemeinen sind tiefgehendes Lernen („deep learning“) oder ein tiefgehendes neuronales Netzwerk („deep neural network“) eine Art des maschinellen Lernens. Ein künstliches neuronales Netzwerk („artificial neural network“, ANN) mit mehreren Schichten kann zwischen einer Eingabe und einer Ausgabe bereitgestellt sein. Solch ein ANN kann in Abhängigkeit seiner Struktur, des zu lösenden Problems, des Zwecks und dergleichen ein faltendes neuronales Netzwerk („convolutional neural network“, CNN), ein rekurrentes neuronales Netzwerk („recurrent neural network“, RNN) oder dergleichen aufweisen.
  • Tiefgehendes Lernen wird verwendet, um verschiedene Problem zu adressieren, wie zum Beispiel eine Klassifizierung, eine Regression, eine Lokalisierung, eine Detektion und eine Segmentierung. Insbesondere können in einem autonomen System semantische Segmentierung und Objekterkennung, die imstande sind, eine Position und eine Art eines dynamischen oder statischen Hindernisses zu ermitteln, verwendet werden.
  • Semantische Segmentierung bezieht sich auf das Durchführen einer Klassifizierungsvorhersage auf einer Bildpunkt-für-Bildpunkt Basis, um ein Objekt in einem Bild zu erkennen, und einem Segmentieren des Objektes für jeden Bildpunkt. Durch das Verwenden einer semantischen Segmentierung kann verifiziert werden, ob ein bestimmtes Objekt in dem Bild vorhanden ist, und eine Position von Bildpunkten, die alle dieselbe Bedeutung/Bedeutungsgehalt (d.h. die demselben Objekt zugeordnet sind) haben, können genau ermittelt werden.
  • Die Objektdetektion bezieht sich auf das Klassifizieren und das Vorhersagen einer Art eines Objektes in einem Bild und das Durchführen einer Regressionsvorhersage eines Begrenzungsrahmens („bounding box regression“), um Positionsinformationen des Objektes zu verfeinern (d.h. genauer zu ermitteln). Durch Verwenden einer Objektdetektion können eine Art eines Objektes in dem Bild und Positionsinformationen des Objektes ermittelt werden.
  • Ein LiDAR („light detection and ranging“) Sensor ist eine Art eines Umgebungssensors, der zum Messen von Positionskoordinaten eines Reflektors und dergleichen in einem Datentyp, wie beispielsweise einer Punktwolke, basierend auf einer Zeit in der ein Laserstrahl, nachdem der Laserstrahl während einer Rotation (des LiDAR-Systems, das den LiDAR-Sensor aufweist) ungerichtet (d.h. in alle Richtungen) abgestrahlt wird, reflektiert wird und zurückkehrt, verwendet wird. Anders ausgedrückt strahlt ein den LiDAR-Sensor aufweisendes LiDAR-System einen Laserstrahl ungerichtet ab, der Laserstrahl wird beispielsweise an mindestens einem Objekt (z.B. einem Hindernis) reflektiert, der reflektierte Laserstrahl wird von dem LiDAR-Sensor detektiert und das LiDAR-System kann basierend auf einer Zeit zwischen dem Abstrahlen des Laserstrahls und dem Detektieren des reflektierten Laserstrahls Positionskoordinaten des mindestens einen Objektes ermitteln.
  • Eine vorhandene/herkömmliche Technologie zur Objekterkennung basierend auf einer hochauflösenden Reflektionskarte, die unter Verwendung eines solchen LiDAR-Sensors (LiDAR-Systems) erhalten wurde, erfordert in einem Fahrzeug zusätzlich einen teuren LiDAR-Sensor.
  • Eine andere vorhandene Technologie zum Erzeugen einer Tiefenkarte (Tiefen-Map) basierend auf Informationen über eine Disparität (einen Unterschied) zwischen zwei Bildern, die unter Verwendung einer Stereokamera erhalten wurden, und zum Erkennen eines Objektes unter Verwendung der erzeugten Tiefenkarte erfordert eine komplexe/aufwändige Kalibrierung (bzw. Kalibrierungsschritt) basierend auf einem internen Parameter und einem externen Parameter der Stereokamera, wenn die Stereokamera installiert (eingebaut/montiert) wird, und erfordert einen hohen Berechnungsaufwand, um Informationen über eine Disparität zwischen von der Stereokamera bereitgestellten Bildern, zu ermitteln, wobei jedes Bild eine hohe Auflösung aufweist.
  • ERLÄUTERUNG DER ERFINDUNG
  • Ein Aspekt der vorliegenden Offenbarung stellt eine Vorrichtung und ein Verfahren zum Erkennen eines Objektes bereit, wobei basierend auf einem dilatierten, faltenden neuronalen Netzwerk (auch: erweitertes faltendes neuronales Netzwerk oder dilatiertes neuronales Faltungsnetzwerk, „dilated convolutional neural network“, DCNN) unter Verwendung eines einzelnen Bildes eine Tiefenkarte erzeugt wird und wobei das Objekt basierend auf der erzeugten Tiefenkarte und dem einzelnen Bild erkannt wird, sodass das Objekt ohne einen LiDAR-Sensor (bzw. ohne ein einen LiDAR-Sensor aufweisendes LiDAR-System) erkannt wird und sodass eine Objekterkennungsrate im Vergleich zu vorhandenen (beispielsweise herkömmlichen) Objekterkennungstechnologien erhöht/verbessert wird.
  • Gemäß einem Aspekt der vorliegenden Offenbarung kann eine Vorrichtung aufweisen: einen Tiefenkarten-Generator, der basierend auf einem dilatierten, faltenden neuronalen Netzwerk („dilated convolutional neural network“, DCNN) eine Tiefenkarte unter Verwendung einer Merkmalskarte (Merkmals-Map) eines Bildes erzeugt, und eine Objekterkennungs-Vorrichtung, die ein Objekt unter Verwendung der von dem Tiefenkarten-Generator erzeugten Tiefenkarte und des Bildes erkennt.
  • Die Vorrichtung kann ferner eine Eingabe-Vorrichtung aufweisen, wobei die Eingabe-Vorrichtung eine Merkmalskarte eines Farbbildes, wie beispielsweise eines RGB-Bildes (eines rot-grün-blau Bildes), an den Tiefenkarten-Generator bereitstellt (beispielsweise in den Tiefenkarten-Generator eingibt) und wobei die Eingabe-Vorrichtung das Farbbild (zum Beispiel das RGB-Bild) an die Objekterkennungs-Vorrichtung bereitstellt (beispielsweise in die Objekterkennungs-Vorrichtung eingibt).
  • Die Eingabe-Vorrichtung kann aufweisen: ein Verkettungsmodul, das eingerichtet ist, eine verkettete Merkmalskarte zu erzeugen durch Verketten der Merkmalskarte des Farbbildes (zum Beispiel des RGB-Bildes) und der Merkmalskarte eines Grauwertbildes des Farbbildes (zum Beispiel eines Grauwertbildes des RBG-Bildes). Die Eingabe-Vorrichtung kann ferner aufweisen: ein erstes Faltungsmodul, das eine 16-Kanal Merkmalskarte unter Verwendung des Farbbildes (zum Beispiel des RBG-Bildes) erzeugt, ein zweites Faltungsmodul, das eine 16-Kanal Merkmalskarte unter Verwendung eines Grauwertbildes des Farbbildes (zum Beispiel eines Grauwertbildes des RBG-Bildes) erzeugt, und ein Verkettungsmodul („concatenation module“), das eine 32-Kanal Merkmalskarte durch Verketten (Verbinden bzw. Verknüpfen) der von dem ersten Faltungsmodul erzeugten 16-Kanal Merkmalskarte und der von dem zweiten Faltungsmodul erzeugten 16-Kanal Merkmalskarte erzeugt. Jedes des ersten Faltungsmoduls und des zweiten Faltungsmoduls kann einen 3×3-Filter verwenden (d.h. ein Filter mit einer Größe von 3×3 Bildpunkten).
  • Die Eingabe-Vorrichtung kann aufweisen: ein erstes Faltungsmodul, das eine 16-Kanal Merkmalskarte unter Verwendung des Farbbildes (zum Beispiel des RBG-Bildes) erzeugt, ein zweites Faltungsmodul, das eine 8-Kanal Merkmalskarte unter Verwendung eines Grauwertbildes (bzw. Graustufenbildes) des Farbbildes (zum Beispiel des RBG-Bildes) erzeugt, ein drittes Faltungsmodul, das eine 8-Kanal Merkmalskarte unter Verwendung eines LiDAR-Bildes (beispielsweise ein von einem LiDAR-Sensor detektiertes Bild bzw. ein unter Verwendung einer von dem LiDAR-Sensor detektierten Punktwolke erzeugtes Bild) erzeugt, und ein Verkettungsmodul („concatenation module“), das eine 32-Kanal Merkmalskarte durch Verketten (Verbinden bzw. Verknüpfen) der von dem ersten Faltungsmodul erzeugten 16-Kanal Merkmalskarte, der von dem zweiten Faltungsmodul erzeugten 8-Kanal Merkmalskarte und der von dem dritten Faltungsmodul erzeugten 8-Kanal Merkmalskarte erzeugt. Jedes des ersten Faltungsmoduls, des zweiten Faltungsmoduls und des dritten Faltungsmoduls kann jeweils einen 3×3-Filter verwenden (d.h. ein Filter mit einer Größe von 3×3 Bildpunkten). Das Erzeugen einer verketteten Merkmalskarte durch Verketten der Merkmalskarte eines Farbbildes, der Merkmalskarte eines Grauwertbildes des Farbbildes und eines LiDAR-Bildes hat den Effekt, dass basierend auf einem spärlichen LiDAR-Bild (d.h., das LiDAR-Bild weist wenige Punktdaten auf) eine dichte Tiefenkarte (d.h., die Tiefenkarte weist viele Daten auf, die den Bildpunkten der Tiefenkarte zugeordnet sind) erzeugt werden kann. Anders ausgedrückt kann das trainierte dilatierte, faltende neuronale Netzwerk unter Verwendung eines spärlichen LiDAR-Bildes eine dichte Tiefenkarte erzeugen.
  • Der Tiefenkarten-Generator kann die Tiefenkarte derart erzeugen, dass die Auflösung der Merkmalskarte (beispielsweise die von dem Verkettungsmodul bereitgestellte Merkmalskarte) graduell/schrittweise verringert und die verringerte Auflösung der Merkmalskarte ausgegeben/zurückgegeben wird.
  • Der Tiefenkarten-Generator kann eine der Auflösung der Merkmalskarte zugeordnete Dilatationsrate anwenden. Die Dilatationsrate eines dilatierten, faltendenden neuronalen Netzwerkes gibt an, auf jedes wievielte Element einer Merkmalskarte der zugeordnete Filter angewendet wird.
  • Der Tiefenkarten-Generator kann die Auflösung der Merkmalskarte halbieren (d.h. die Auflösung kann in einem Schritt um die Hälfte verringert werden, wobei das schrittweise Verringern der Auflösung mehrere Schritte aufweisen kann, wobei jeder Schritt der mehreren Schritte die Auflösung der jeweiligen Merkmalskarte halbieren, d.h. um die Hälfte verringern, kann).
  • Der Tiefenkarten-Generator kann mehrere Verkettungsmodule aufweisen, wobei jedes Verkettungsmodul der mehreren Verkettungsmodule bei dem Verfahren des schrittweisen Verringerns der Auflösung der Merkmalskarten, die dieselbe Anzahl an Kanälen haben, verketten kann und die verringerte Auflösung der jeweiligen Merkmalskarte (d.h. die Ausgabe einer Merkmalskarte mit verringerter Auflösung, beispielsweise nach dem Verketten von Merkmalskarten durch ein Verkettungsmodul der mehreren Verkettungsmodule) ausgeben/zurückgeben kann.
  • Gemäß einem anderen Aspekt der vorliegenden Offenbarung kann ein Verfahren aufweisen: Erzeugen einer Tiefenkarte durch einen Tiefenkarten-Generator basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) unter Verwendung einer Merkmalskarte eines Bildes und Erkennen eines Objektes durch eine Objekterkennungs-Vorrichtung unter Verwendung der erzeugten Tiefenkarte und des Bildes.
  • Das Verfahren kann ferner aufweisen: Eingeben/Bereitstellen einer Merkmalskarte eines Farbbildes (zum Beispiel eines RGB-Bildes (rot-grün-blau Bildes)) durch eine Eingabe-Vorrichtung in/an den Tiefenkarten-Generator, und Eingeben/Bereitstellen des Farbbildes (zum Beispiel des RGB-Bildes) durch die Eingabe-Vorrichtung in/an die Objekterkennungs-Vorrichtung.
  • Das Eingeben/Bereitstellen kann aufweisen: Erzeugen einer 16-Kanal Merkmalskarte durch ein erstes Faltungsmodul unter Verwendung des Farbbildes (zum Beispiel des RGB-Bildes), Erzeugen einer 16-Kanal Merkmalskarte durch ein zweites Faltungsmodul unter Verwendung eines Grauwertbildes des Farbbildes (zum Beispiel des RGB-Bildes), und Erzeugen einer 32-Kanal Merkmalskarte durch ein Verkettungsmodul, indem die von dem ersten Faltungsmodul erzeugte 16-Kanal Merkmalskarte und die von dem zweiten Faltungsmodul erzeugte 16-Kanal Merkmalskarte verkettet (d.h. zusammengefügt bzw. vereint) werden. Jedes des ersten Faltungsmoduls und des zweiten Faltungsmoduls kann jeweils einen 3x3-Filter verwenden (d.h. ein Filter mit einer Größe von 3x3 Bildpunkten).
  • Das Eingeben/Bereitstellen kann aufweisen: Erzeugen einer 16-Kanal Merkmalskarte durch ein erstes Faltungsmodul unter Verwendung des Farbbildes (zum Beispiel des RGB-Bildes), Erzeugen einer 8-Kanal Merkmalskarte durch ein zweites Faltungsmodul unter Verwendung eines Grauwertbildes des RGB-Bildes, Erzeugen einer 8-Kanal Merkmalskarte durch ein drittes Faltungsmodul unter Verwendung eines LiDAR-Bildes (beispielsweise ein von einem LiDAR-Sensor detektiertes Bild bzw. ein unter Verwendung einer von dem LiDAR-Sensor detektierten Punktwolke erzeugtes Bild), und Erzeugen einer 32-Kanal Merkmalskarte durch ein Verkettungsmodul, indem die von dem ersten Faltungsmodul erzeugte 16-Kanal-Merkmalskarte, die von dem zweiten Faltungsmodul erzeugte 8-Kanal-Merkmalskarte und die von dem dritten Faltungsmodul erzeugte 8-Kanal-Merkmalskarte verkettet (d.h. zusammengefügt bzw. vereint) werden. Jedes des ersten Faltungsmoduls, des zweiten Faltungsmoduls und des dritten Faltungsmoduls kann jeweils einen 3×3-Filter (d.h. ein Filter mit einer Größe von 3×3 Bildpunkten) verwenden.
  • Das Erzeugen der Tiefenkarte kann aufweisen: Erzeugen der Tiefenkarte derart, dass die Auflösung der Merkmalskarte (beispielsweise die von dem Verkettungsmodul bereitgestellte Merkmalskarte) graduell/schrittweise verringert wird und die verringerte Auflösung der Merkmalskarte ausgegeben/zurückgegeben wird.
  • Das Erzeugen der Tiefenkarte kann das Anwenden einer der Auflösung der Merkmalskarte zugeordneten Dilatationsrate aufweisen. Anders ausgedrückt kann jede Merkmalskarte der mehreren Merkmalskarten eine jeweilige Auflösung aufweisen und der jeweiligen Auflösung (und damit der jeweiligen Merkmalskarte der mehreren Merkmalskarten) kann eine Dilatationsrate zugeordnet sein.
  • Das Erzeugen der Tiefenkarte kann das Halbieren der Auflösung der Merkmalskarte aufweisen (d.h. das Verringern der Auflösung in einem Schritt um die Hälfte, wobei das schrittweise Verringern der Auflösung mehrere Schritte aufweisen kann, wobei jeder Schritt der mehreren Schritte die Auflösung der jeweiligen Merkmalskarte halbieren kann).
  • Das Erzeugen einer Tiefenkarte kann bei dem Verfahren des schrittweisen Verringerns der Auflösung der Merkmalskarten das Verketten von Merkmalskarten, die dieselbe Anzahl an Kanälen haben, aufweisen und kann das Ausgeben/Zurückgeben der verringerten Auflösung der Merkmalskarte (d.h. die Ausgabe einer Merkmalskarte mit verringerter Auflösung, beispielsweise nach dem Verketten von Merkmalskarten) aufweisen.
  • Figurenliste
  • Die oben beschriebenen und andere Objekte, Merkmale und Vorteile der vorliegenden Offenbarung werden klarer anhand der folgenden ausführlichen Beschreibung mit Bezug auf die beigefügten Zeichnungen.
    • 1 ist ein Blockdiagramm, das eine Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 2 ist eine Zeichnung, die ein von einer Eingabe-Vorrichtung einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes eingegebenes rot-grün-blau (RGB) Bild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 3 ist eine Zeichnung, die ein von einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes generiertes Tiefenbild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 4 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 5 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine herkömmliche Objekterkennungs-Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 6 ist eine Zeichnung, die ein Referenz-Erkennungsergebnis darstellt;
    • 7A und 7B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellen;
    • 8A und 8B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer anderen Ausführungsform der vorliegenden Offenbarung darstellen;
    • 9 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 10 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt;
    • 11 ist ein Flussdiagramm, das ein Verfahren zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt; und
    • 12 ist ein Blockdiagramm, das ein Datenverarbeitungssystem zum Ausführen eines Verfahrens zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Unter den hier verwendeten Begriffen wie „Fahrzeug“ bzw. „Fahrzeug-“ oder ähnlichen Begriffen ist zu verstehen, dass diese Motorfahrzeuge im Allgemeinen beinhalten, wie beispielsweise Personenfahrzeuge (zum Beispiel Personenkraftfahrzeuge), wobei die Personenfahrzeuge Geländewagen (SUV), Busse, Lastkraftwagen, verschiedene Nutzfahrzeuge, Wasserfahrzeuge, die eine Vielzahl an Booten und Schiffen aufweisen, Flugzeuge und dergleichen aufweisen können, und wobei die Begriffe Hybridfahrzeuge, Elektrofahrzeuge, Plug-in Hybrid-ElektroFahrzeuge, wasserstoffbetriebene Fahrzeuge und andere mit alternativem Treibstoff/Kraftstoff angetriebene Fahrzeuge (z.B. Treibstoffe/Kraftstoffe, die von anderen Ressourcen als Erdöl gewonnen wurden) beinhalten. Ein wie hierin beschriebenes Hybridfahrzeug ist ein Fahrzeug, das zwei oder mehr Energiequellen hat, zum Beispiel benzinbetriebene und elektrisch betriebene Fahrzeuge.
  • Die hierin verwendete Terminologie dient nur dem Zweck der Beschreibung bestimmter Ausführungsformen und soll die Offenbarung nicht einschränken. Die hierin verwendeten Singular-Formen „ein“, „eine“, „einer“ und „der“/„die“/„das“ sollen ebenfalls die Pluralformen aufweisen, sofern es sich vom Kontext nicht in klarer Weise anders ergibt. Ferner ist unter den in dieser Beschreibung verwendeten Begriffen „aufweisen“ und/oder „aufweisend“ zu verstehen, dass diese das Vorhandensein der angegebenen Merkmale, Ganzzahlen, Schritte, Operationen/Vorgänge/eines Betriebes, Elemente und/oder Komponenten angeben, aber das Vorhandensein oder das Hinzufügen von ein oder mehreren anderen Merkmalen, Ganzzahlen, Schritten, Operationen/Vorgängen/Betrieb, Elementen, Komponenten und/oder Gruppen davon nicht ausschließen. Der hierin verwendete Begriff „und/oder“ weist sämtliche Kombinationen von ein oder mehreren der zugeordneten gelisteten Elemente auf. Sofern nicht anders angegeben, sind in der Beschreibung der Begriff „aufweisen“ und Variationen davon, wie beispielsweise „weist auf“ oder „aufweisend“ so zu verstehen, dass die angegebenen Elemente aufgenommen werden können, aber nicht, dass andere Elemente ausgeschlossen sind. Zusätzlich bedeuten die in der Beschreibung beschriebenen Begriffe „Einheit“ und „Modul“ Einheiten bzw. Vorrichtungen zum Verarbeiten mindestens einer Funktion bzw. Operation und können durch Hardware-Komponenten oder Software-Komponenten und eine Kombination dieser implementiert sein.
  • Ferner kann die Steuerlogik der vorliegenden Offenbarung als nichtflüchtige, computer-lesbare Medien auf einem computer-lesbaren Medium (zum Beispiel ein computer-lesbares Speichermedium) ausgeführt sein, wobei das computer-lesbare Medium ausführbare Programminstruktionen, die von einem Prozessor, einer Steuerung oder dergleichen ausgeführt werden, aufweist. Beispiele für ein computer-lesbares Medium weisen auf, aber sind nicht darauf begrenzt: ROM, RAM, CD-ROM (Compact-Disk ROM), Magnetbänder, Disketten, USB-Speichersticks, Chipkarten und optische Datenspeichervorrichtungen. Das computer-lesbare Medium kann ferner in einem Netzwerk, das mit einem Computersystem gekoppelt ist, verteilt sein, sodass die computer-lesbaren Medien in einer verteilten Art und Weise gespeichert und ausgeführt werden, wie beispielsweise durch einen Telematik-Server oder ein CAN (Controller Area Network).
  • Im Folgenden werden einige Ausführungsformen der vorliegenden Offenbarung mit Bezug auf die beigefügten beispielhaften Zeichnungen ausführlich beschrieben. Bezüglich der Bezugszeichen der Komponenten einer jeden Figur ist zu verstehen, dass gleiche oder äquivalente Komponenten durch gleiche Bezugszeichen angegeben werden, auch wenn die Komponenten in anderen Figuren gezeigt sind. Ferner wird bei der Beschreibung der Ausführungsformen eine ausführliche Beschreibung darin enthaltener bekannter Merkmale oder Funktionen zum Zweck der Klarheit und Knappheit weggelassen.
  • Bei der Beschreibung der Komponenten der Ausführungsformen gemäß der vorliegenden Offenbarung können Begriffe wie zum Beispiel „erste“, „zweite“, „A“, „B“, „(a)“, „(b)“ und dergleichen verwendet werden., wobei diese Begriffe ausschließlich der Unterscheidung einer Komponente von einer anderen dienen und wobei die Begriffe die Art/Eigenschaft/Inhalt, die Sequenz oder die Reihenfolge der angegebenen Komponenten nicht einschränken. Sofern nicht anders angegeben, haben alle hierin verwendeten Begriffe, technische bzw. wissenschaftliche Begriffe einschließend, die gleiche Bedeutung, wie die von einem Fachmann, an den sich die vorliegende Offenbarung richtet, im Allgemeinen verstandene Bedeutung. Solche Begriffe, wie die in einem allgemeinen Wörterbuch/Lexikon definierten Begriffe, sind so zu interpretieren, dass diese Begriffe die gleiche Bedeutung haben wie die kontextbezogene Bedeutung in dem relevanten Gebiet der Technik, und sind nicht so zu interpretieren, dass diese Begriffe eine ideale/optimale/vollkommene bzw. exklusive formale Bedeutung haben, sofern dies in der vorliegenden Anmeldung nicht in klarer Weise anders angegeben ist.
  • Ein einzelnes Bild in einer Ausführungsform der vorliegenden Offenbarung kann ein Bild sein, das unter Verwendung einer allgemeinen Kamera erhalten wurde, anstatt eines Stereobildes (ein rechtes Bild und ein linkes Bild, beispielsweise ein unter Verwendung eines rechten Bildes und eines linken Bildes erzeugtes Stereobild), das unter Verwendung einer Stereokamera erhalten wurde, und kann sich auf ein Bild beziehen, dass keine Tiefeninformationen aufweist. Im Folgenden werden die Ausführungsbeispiele anhand eines RGB-Bildes als Bild beschrieben. Es ist jedoch darauf hinzuweisen, dass ein Bild jede Art von Farbbild sein kann, sofern nicht explizit anders angegeben.
  • 1 ist ein Blockdiagramm, das eine Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 2 ist eine Zeichnung, die ein von einer Eingabe-Vorrichtung einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes eingegebenes rot-grün-blau (RGB) Bild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 3 ist eine Zeichnung, die ein von einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes generiertes Tiefenbild gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 4 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 5 ist eine Zeichnung, die das Ergebnis des Erkennens eines Objektes durch eine herkömmliche Objekterkennungs-Vorrichtung gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt. 6 ist eine Zeichnung, die ein Referenz-Erkennungsergebnis darstellt.
  • Wie in 1 gezeigt, kann eine Vorrichtung 100 zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung aufweisen: eine Eingabe-Vorrichtung 10, eine Steuervorrichtung 20 und eine Ausgabe-Vorrichtung 30, wobei die Steuervorrichtung 20 einen Tiefenkarten-Generator 21 und eine Objekterkennungs-Vorrichtung 22 aufweist. In diesem Fall können die jeweiligen Komponenten miteinander kombiniert werden, um eine Komponente zu bilden und einige Komponenten können in Abhängigkeit davon, wie die Vorrichtung 100 das Objekt unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung erkennt, weggelassen werden.
  • Die Eingabe-Vorrichtung 10 kann eine Merkmalskarte eines Kamerabildes an den Tiefenkarten-Generator 21 bereitstellen (beispielsweise in den Tiefenkarten-Generator 21 eingeben) und kann ein Kamerabild (ein rot-grün-blau (RGB) Bild) an die Objekterkennungs-Vorrichtung 22 bereitstellen (beispielsweise in die Objekterkennungs-Vorrichtung 22 eingeben). Ein beispielhaftes Kamerabild ist in 2 dargestellt.
  • Der Tiefenkarten-Generator 21 kann eine Tiefenkarte basierend auf einem dilatierten, faltenden neuronalen Netzwerk („dilated convolutional neural network“, DCNN)unter Verwendung der Merkmalskarte des Kamerabildes erzeugen. Das dilatierte, faltende neuronale Netzwerk weist eine dilatierte Faltung auf. Bei der dilatierten Faltung können die Faltungskerne (d.h. der Elemente eines Filters) einer Faltungsschicht einen Abstand aufweisen. Der Abstand der Faltungskerne wird durch die Dilatationsrate angegeben, wobei eine Dilatationsrate gleich einem Wert „1“ angibt, dass die Faltungskerne keinen Abstand aufweisen. Die Bereiche des Filters zwischen den Faltungskernen (d.h. die durch den Abstand gegebenen Bereiche) weisen einen Wert gleich „0“ auf. Die Verwendung einer dilatierten Faltung hat den Effekt, dass ein jeweiliger Filter einen größeren Bereich (zum Beispiel Bildpunkte eines Bildes) berücksichtigt, wobei die Anzahl an Parametern, der Speicheraufwand und der rechentechnische Aufwand gegenüber herkömmlichen Faltungen (d.h. eines faltenden neuronalen Netzwerkes) unverändert ist. Folglich kann die Verwendung einer dilatierten Faltung beispielsweise den rechentechnischen Aufwand (zum Beispiel durch eine Verringerung der Anzahl an Schichten des Netzwerkes) bei der Verarbeitung von Bildern (mit zum Beispiel einer hohen Auflösung) verringern. Die Verwendung einer dilatierten Faltung hat ferner den Effekt, dass das trainierte dilatierte, faltende neuronale Netzwerk Objekte unterschiedlicher Größe in einem Bild (zum Beispiel einem Farbbild, zum Beispiel einem Grauwertbild, zum Beispiel einem LiDAR-Bild) unterscheiden kann.
  • Der Tiefenkarten-Generator 21 kann die Tiefenkarte derart erzeugen, dass die Auflösung der Merkmalskarte schrittweise verringert wird (beispielsweise in jedem Schritt von mehreren Schritten verringert wird) und die verringerte Auflösung der Merkmalskarte zurückgegeben wird (beispielsweise in jedem Schritt der mehreren Schritte ausgegeben wird, wobei die nach jedem Schritt der mehreren Schritte ausgegebene Merkmalskarte mit verringerter Auflösung als eingegebene Merkmalskarte in einem darauffolgenden Schritt der mehreren Schritte verwendet werden kann).
  • Die Objekterkennungs-Vorrichtung 22 kann ein Objekt unter Verwendung der von dem Tiefenkarten-Generator 21 erzeugten Tiefenkarte und dem von der Eingabe-Vorrichtung 10 eingegebenen RGB-Bild erkennen. In diesem Fall ist für die Objekterkennungs-Vorrichtung 22 zulässig, das Objekt in jeder bekannten Art und Weise zu erkennen. Zum Beispiel ist in 4 ein von der Objekterkennungs-Vorrichtung 22 erkanntes beispielhaftes Ergebnis darstellt.
  • Als Referenz ist in 5 ein beispielhaftes Ergebnis, das von einer herkömmlichen Objekterkennungs-Vorrichtung erkannt wurde, gezeigt. Das Erkennungsergebnis gemäß einer Ausführungsform der vorliegenden Offenbarung hat eine Schnittmenge nach Vereinigung („intersection over union“, IOU; IOU gibt beispielsweise die Schnittmenge eines ermittelten/vorhergesagten Begrenzungsrahmens („bounding box“) und eines Ground-Truth-Begrenzungsrahmens an) von 86,06 %, wohingegen das herkömmliche Erkennungsergebnis nur eine IOU von 85,3 % hat. In diesem Fall ist die IOU ein Kriterium zur Evaluierung einer Objekterkennungs-Leistung/Leistungsfähigkeit. Das in 6 gezeigte Erkennungsergebnis gemäß einer Ausführungsform der vorliegenden Offenbarung ist 86,06 % in Bezug auf eine Übereinstimmung der Bildpunkte mit einem Referenz-Erkennungsergebnis (einer semantischen Segmentierungszuweisung, beispielsweise eines Ground-Truth-Begrenzungsrahmens), wohingegen das herkömmliche Erkennungsergebnis nur 85,3 % ist.
  • Die Ausgabe-Vorrichtung 30 kann das von der Objekterkennungs-Vorrichtung 22 erkannte Ergebnis ausgeben.
  • Die Steuervorrichtung 20 kann die allgemeine Steuerung derart durchführen, dass die jeweiligen Komponenten ihre jeweiligen Funktionen normal/in üblicher Weise ausführen. Solch eine Steuervorrichtung 20 kann in Form von Hardware oder Software oder in Form einer Kombination davon implementiert sein. Vorzugsweise kann die Steuervorrichtung 20 zum Beispiel als Mikroprozessor implementiert sein.
  • Solch eine Steuervorrichtung 20 kann ferner eine Speichervorrichtung (einen Speicher, wie beispielsweise einen Arbeitsspeicher) gemäß der allgemein bekannten Technologie aufweisen. Die Speichervorrichtung kann verschiedene Logik, Algorithmen und Programm speichern, die in dem Verfahren zum Erzeugen einer Tiefenkarte unter Verwendung der Merkmalskarte des Kamerabildes basierend auf einem DCNN und zum Erkennen des Objektes unter Verwendung der erzeugten Tiefenkarte und des von der Eingabe-Vorrichtung 10 bereitgestellten/eingegebenen RBG-Bildes erforderlich sind.
  • Die Speichervorrichtung kann mindestens eine Art von Speichermedium, wie beispielsweise einen flashspeicherartigen Speicher, einen festplattenartigen Speicher, einen mikroartigen Speicher, einen kartenartigen Speicher, (zum Beispiel eine SD-Karte („secure digital card“) oder eine XD-Karte („extreme digital card“)), einen Arbeitsspeicher (RAM), einen statischen RAM (SRAM), einen Nurlesespeicher (ROM), einen programmierbaren ROM (PROM), einen elektrisch löschbaren PROM (EEPROM), einen magnetischen RAM (MRAM), einen Magnetplattenspeicher („magnetic disk“) und einen optischen Plattenspeicher („optical disk“) aufweisen.
  • 7A und 7B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellen.
  • Wie in 7A und 7B gezeigt, kann eine Eingabe-Vorrichtung 10 einer Vorrichtung 100 zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung ein erstes Faltungsmodul 111, ein zweites Faltungsmodul 121 und ein Verkettungsmodul 131 aufweisen.
  • Das erste Faltungsmodul 111 kann eine Merkmalskarte erzeugen, wobei bezüglich eines RGB-Bildes die Auflösung ohne Änderung (Schrittweite („stride“) =1) beibehalten wird (wobei beispielsweise die Auflösung eines RGB-Bildes beibehalten wird), wobei ein Ausgabekanal gleich „16“ ist, und wobei ein 3×3-Filter verwendet wird.
  • Das zweite Faltungsmodul 121 kann eine Merkmalskarte erzeugen, wobei bezüglich eines Grauwertbildes die Auflösung ohne Änderung (Schrittweite=1) beibehalten wird (wobei beispielsweise die Auflösung eines Grauwertbildes beibehalten wird), wobei ein Ausgabekanal gleich „16“ ist, und wobei ein 3×3-Filter verwendet wird. Das Grauwertbild kann von dem RGB-Bild erzeugt werden.
  • Das Verkettungsmodul 131 kann die von dem ersten Faltungsmodul 111 erzeugte 16-Kanal-Merkmalskarte und die von dem zweiten Faltungsmodul 121 erzeugte 16-Kanal-Merkmalskarte zu einer 32-Kanal-Merkmalskarte verketten (bzw. verknüpfen, vereinigen).
  • Ein Tiefenkarten-Generator 21 kann ein erstes Verarbeitungsmodul 210, ein zweites Verarbeitungsmodul 220, ein drittes Verarbeitungsmodul 230, ein viertes Verarbeitungsmodul 240, ein fünftes Verarbeitungsmodul 250, ein sechstes Faltungsmodul 260, ein siebtes Verarbeitungsmodul 270, ein erstes Verkettungsmodul 280, ein achtes Verarbeitungsmodul 290, ein zweites Verkettungsmodul 300, ein neuntes Verarbeitungsmodul 310, ein drittes Verkettungsmodul 320, ein zehntes Verarbeitungsmodul 330, ein viertes Verkettungsmodul 340, ein elftes Verarbeitungsmodul 350, ein fünftes Verkettungsmodul 360 und ein zwölftes Faltungsmodul 370 aufweisen.
  • Das erste Verarbeitungsmodul 210 kann aufweisen: ein erstes Faltungsmodul 211 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem Verkettungsmodul 131 erzeugten 32-Kanal-Merkmalskarte die Auflösung (z.B. 1216×352) ohne Änderung (Schrittweite = 1) beibehalten wird (d.h. die Auflösung der von dem Verkettungsmodul 131 erzeugten 32-Kanal-Merkmalskarte kann beibehalten werden), wobei ein Ausgabekanal gleich „32“ ist, und wobei ein 3×3-Filter verwendet wird, und ein erstes dilatiertes Faltungsmodul 212 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32, 16, 8, 4, 2, 1] auf die von dem ersten Faltungsmodul 211 erzeugte 32-Kanal-Merkmalskarte. Gemäß verschiedenen Ausführungsformen wird eine jeweilige Dilatationsrate an die Auflösung der zugeordneten Merkmalskarte angepasst (zum Beispiel eine Dilatationsrate von [32, 16, 8, 4, 2, 1] für eine Auflösung der Merkmalskarte von 1216x352).
  • Das zweite Verarbeitungsmodul 220 kann aufweisen: ein zweites Faltungsmodul 221 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem ersten dilatierten Faltungsmodul 212 erzeugten 32-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 608 × 176) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „64“ ist, und wobei ein 3×3-Filter verwendet wird, und ein zweites dilatiertes Faltungsmodul 222 zum Erzeugen einer 64-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16, 8, 4, 2, 1] auf die von dem zweiten Faltungsmodul 221 erzeugte 64-Kanal-Merkmalskarte.
  • Das dritte Verarbeitungsmodul 230 kann aufweisen: ein drittes Faltungsmodul 231 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem zweiten dilatierten Faltungsmodul 222 erzeugten 64-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 304 × 88) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „128“ ist, und wobei ein 3×3-Filter verwendet wird, und ein drittes dilatiertes Faltungsmodul 232 zum Erzeugen einer 128-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8, 4, 2, 1] auf die von dem dritten Faltungsmodul 231 erzeugte 128-Kanal-Merkmalskarte.
  • Das vierte Verarbeitungsmodul 240 kann aufweisen: ein viertes Faltungsmodul 241 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem dritten dilatierten Faltungsmodul 232 erzeugten 128-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 152 × 44) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „256“ ist, und wobei ein 3×3-Filter verwendet wird, und ein viertes dilatiertes Faltungsmodul 242 zum Erzeugen einer 256-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4, 2, 1] auf die von dem vierten Faltungsmodul 241 erzeugte 256-Kanal-Merkmalskarte.
  • Das fünfte Verarbeitungsmodul 250 kann aufweisen: ein fünftes Faltungsmodul 251 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem vierten dilatierten Faltungsmodul 242 erzeugten 256-Kanal-Merkmalskarte die Auflösung halbiert (z.B. 76 × 22) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „512“ ist, und wobei ein 3×3-Filter verwendet wird, und ein fünftes dilatiertes Faltungsmodul 252 zum Erzeugen einer 512-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2, 1] auf die von dem fünften Faltungsmodul 251 erzeugte 512-Kanal-Merkmalskarte.
  • Das sechste Faltungsmodul 260 kann eine Merkmalskarte erzeugen, wobei die Auflösung halbiert (z.B. 38 × 11) (Schrittweite = 1/2) wird, wobei ein Ausgabekanal gleich „512“ ist, und wobei ein 3×3-Filter bezüglich der von dem fünften dilatierten Faltungsmodul 252 erzeugten 512-Kanal-Merkmalskarte verwendet wird.
  • Das siebte Verarbeitungsmodul 270 kann aufweisen: ein erstes Vor-Faltungsmodul 271 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem sechsten Faltungsmodul 260 erzeugten 512-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 76 × 22) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „512“ ist, und wobei ein 3×3-Filter verwendet wird, und ein siebtes dilatiertes Faltungsmodul 272 zum Erzeugen einer 512-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2, 1] auf die von dem ersten Vor-Faltungsmodul 271 erzeugte 512-Kanal-Merkmalskarte.
  • Das erste Verkettungsmodul 280 kann die von dem siebten dilatierten Faltungsmodul 272 erzeugte 512-Kanal-Merkmalskarte und die von dem fünften dilatierten Faltungsmodul 252 erzeugte 512-Kanal-Merkmalskarte verketten.
  • Das achte Verarbeitungsmodul 280 kann aufweisen: ein zweites Vor-Faltungsmodul 291 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem ersten Verkettungsmodul 280 erzeugten 512-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 152 × 44) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „256“ ist, und wobei ein 3×3-Filter verwendet wird, und ein achtes dilatiertes Faltungsmodul 292 zum Erzeugen einer 256-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4, 2, 1] auf die von dem zweiten Vor-Faltungsmodul 291 erzeugte 256-Kanal-Merkmalskarte.
  • Das zweite Verkettungsmodul 300 kann die von dem achten dilatierten Faltungsmodul 292 erzeugte 256-Kanal-Merkmalskarte und die von dem vierten dilatierten Faltungsmodul 242 erzeugte 256-Kanal-Merkmalskarte verketten.
  • Das neunte Verarbeitungsmodul 310 kann aufweisen: ein drittes Vor-Faltungsmodul 311 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem zweiten Verkettungsmodul 300 erzeugten 256-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 304 × 88) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „128“ ist, und wobei ein 3×3-Filter verwendet wird, und ein neuntes dilatiertes Faltungsmodul 312 zum Erzeugen einer 128-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8, 4, 2, 1] auf die von dem dritten Vor-Faltungsmodul 311 erzeugte 128-Kanal-Merkmalskarte.
  • Das dritte Verkettungsmodul 320 kann die von dem neunten dilatierten Faltungsmodul 312 erzeugte 128-Kanal-Merkmalskarte und die von dem dritten dilatierten Faltungsmodul 232 erzeugte 128-Kanal-Merkmalskarte verketten.
  • Das zehnte Verarbeitungsmodul 330 kann aufweisen: ein viertes Vor-Faltungsmodul 331 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem dritten Verkettungsmodul 320 erzeugten 128-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 608 × 176) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „64“ ist, und wobei ein 3×3-Filter verwendet wird, und ein zehntes dilatiertes Faltungsmodul 332 zum Erzeugen einer 64-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16, 8, 4, 2, 1] auf die von dem vierten Vor-Faltungsmodul 331 erzeugte 64-Kanal-Merkmalskarte.
  • Das vierte Verkettungsmodul 340 kann die von dem zehnten dilatierten Faltungsmodul 332 erzeugte 64-Kanal-Merkmalskarte und die von dem zweiten dilatierten Faltungsmodul 222 erzeugte 64-Kanal-Merkmalskarte verketten.
  • Das elfte Verarbeitungsmodul 350 kann aufweisen: ein fünftes Vor-Faltungsmodul 351 zum Erzeugen einer Merkmalskarte, wobei bezüglich der von dem vierten Verkettungsmodul 340 verketteten 64-Kanal-Merkmalskarte die Auflösung verdoppelt (z.B. 1216 × 352) (Schrittweite = 2) wird, wobei ein Ausgabekanal gleich „32“ ist, und wobei ein 3×3-Filter verwendet wird, und ein elftes dilatiertes Faltungsmodul 352 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32, 16, 8, 4, 2, 1] auf die von dem fünften Vor-Faltungsmodul 351 erzeugte 32-Kanal-Merkmalskarte.
  • Das fünfte Verkettungsmodul 360 kann die von dem elften dilatierten Faltungsmodul 352 erzeugte 32-Kanal-Merkmalskarte und die von dem ersten dilatierten Faltungsmodul 212 erzeugte 32-Kanal-Merkmalskarte verketten.
  • Das zwölfte Verarbeitungsmodul 370 kann eine Tiefenkarte erzeugen, wobei bezüglich der von dem fünften Verkettungsmodul 360 verketteten 32-Kanal-Merkmalskarte die Auflösung (z.B. 1216 × 352) beibehalten wird (Schrittweite = 1), wobei ein Ausgabekanal gleich „1“ ist, und wobei ein 1×1-Filter verwendet wird.
  • 8A und 8B sind Blockdiagramme, die eine ausführliche Konfiguration einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer anderen Ausführungsform der vorliegenden Offenbarung darstellen.
  • Wie in 8A und 8B gezeigt, kann eine Eingabe-Vorrichtung 10 einer Vorrichtung 100 zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer anderen Ausführungsform der vorliegenden Offenbarung ein erstes Faltungsmodul 111, ein zweites Faltungsmodul 121, ein drittes Faltungsmodul 141 und ein Verkettungsmodul 131 aufweisen.
  • Das erste Faltungsmodul 111 kann eine merkmalskarte erzeugen, wobei bezüglich eines RGB-Bildes die Auflösung ohne Änderung (Schrittweite = 1) beibehalten wird, wobei ein Ausgabekanal gleich „16“ ist, und wobei ein 3x3-Filter verwendet wird.
  • Das zweite Faltungsmodul 121 kann eine Merkmalskarte erzeugen, wobei bezüglich eines Grauwertbildes die Auflösung ohne Änderung (Schrittweite = 1) beibehalten wird, wobei ein Ausgabekanal gleich „8“ ist, und wobei ein 3x3-Filter verwendet wird. In diesem Fall kann das Grauwertbild von dem RGB-Bild erzeugt werden.
  • Das dritte Faltungsmodul 141 kann eine Merkmalskarte erzeugen, wobei bezüglich eines LiDAR-Bildes („light detection and ranging“ Bildes, beispielsweise ein von einem LiDAR-Sensor detektiertes Bild bzw. ein unter Verwendung einer von dem LiDAR-Sensor detektierten Punktwolke erzeugtes Bild) die Auflösung ohne Änderung (Schrittweite = 1) beibehalten wird, wobei ein Ausgabekanal gleich „8“ ist, und wobei ein 3x3-Filter verwendet wird.
  • Das Verkettungsmodul 131 kann die von dem ersten Faltungsmodul 111 erzeugte 16-Kanal-Merkmalskarte, die von dem zweiten Faltungsmodul 121 erzeugte 8-Kanal-Merkmalskarte und die von dem dritten Faltungsmodul 141 erzeugte 8-Kanal-Merkmalskarte verketten, um eine 32-Kanal-Merkmalskarte zu erzeugen.
  • Da die ausführliche Konfiguration eines Tiefenkarten-Generators 21 der in den 7A und 7B gezeigten ausführlichen Konfiguration entspricht, wird auf eine Wiederholung der Beschreibung verzichtet.
  • Die andere Ausführungsform der vorliegenden Offenbarung kann angewandt werden, wenn ein LiDAR-Bild sowie ein Kamerabild erhalten werden.
  • 9 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls 212 oder 352 einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
  • Wie in 9 gezeigt, kann das dilatierte Faltungsmodul 212 oder 352 der Vorrichtung zum Erkennen des Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung aufweisen: ein erstes Modul 901 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf eine 32-Kanal-Merkmalskarte, ein zweites Modul 902 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 32-Kanal-Merkmalskarte, ein drittes Modul 903 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 32-Kanal-Merkmalskarte, ein viertes Modul 904 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 32-Kanal-Merkmalskarte, ein fünftes Modul 905 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 32-Kanal-Merkmalskarte, und ein sechstes Modul 906 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32] auf die 32-Kanal-Merkmalskarte.
  • Ferner kann das dilatierte Faltungsmodul 212 oder 352 aufweisen: ein siebtes Modul 911 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf die 16-Kanal-Merkmalskarte, ein achtes Modul 912 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 16-Kanal-Merkmalskarte, ein neuntes Modul 913 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 16-Kanal-Merkmalskarte, ein zehntes Modul 914 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 16-Kanal-Merkmalskarte, ein elftes Modul 915 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 16-Kanal-Merkmalskarte, und ein zwölftes Modul 916 zum Erzeugen einer 16-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [32] auf die 16-Kanal-Merkmalskarte.
  • Ferner kann das dilatierte Faltungsmodul 212 oder 352 ein Verkettungsmodul 920 aufweisen. Das Verkettungsmodul 920 kann die von dem siebten Modul 911 erzeugte 16-Kanal-Merkmalskarte, die von dem achten Modul 912 erzeugte 16-Kanal-Merkmalskarte, die von dem neunten Modul 913 erzeugte 16-Kanal-Merkmalskarte, die von dem zehnten Modul 914 erzeugte 16-Kanal-Merkmalskarte, die von dem elften Modul 915 erzeugte 16-Kanal-Merkmalskarte und die von dem zwölften Modul 916 erzeugte 16-Kanal-Merkmalskarte verketten (beispielsweise zu einer 96-Kanal-Merkmalskarte) und kann eine 32-Kanal-Merkmalskarte unter Verwendung eines 1x1-Filters bezüglich der verketteten 96-Kanal-Merkmalskarte erzeugen.
  • Ferner kann das dilatierte Faltungsmodul 212 oder 352 eine Zusammenfass-Vorrichtung 930 zum Zusammenfassen (beispielsweise Addieren) der von dem Verkettungsmodul 920 erzeugten 32-Kanal-Merkmalskarte und der ursprünglich eingegebenen 32-Kanal-Merkmalskarte.
  • 10 ist ein Blockdiagramm, das eine ausführliche Konfiguration eines dilatierten Faltungsmoduls 222 oder 332 einer Vorrichtung zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
  • Wie in 10 gezeigt, kann das dilatierte Faltungsmodul 222 oder 332 der Vorrichtung zum Erkennen des Objektes unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung aufweisen: ein erstes Modul 941 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf eine 64-Kanal-Merkmalskarte, ein zweites Modul 942 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 64-Kanal-Merkmalskarte, ein drittes Modul 943 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 64-Kanal-Merkmalskarte, ein viertes Modul 944 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 64-Kanal-Merkmalskarte,und ein fünftes Modul 945 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 64-Kanal-Merkmalskarte.
  • Ferner kann das dilatierte Faltungsmodul 222 oder 332 aufweisen: ein sechstes Modul 951 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [1] auf die 32-Kanal-Merkmalskarte, ein siebtes Modul 952 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [2] auf die 32-Kanal-Merkmalskarte, ein achtes Modul 953 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [4] auf die 32-Kanal-Merkmalskarte, ein neuntes Modul 954 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [8] auf die 32-Kanal-Merkmalskarte und ein zehntes Modul 955 zum Erzeugen einer 32-Kanal-Merkmalskarte durch Anwenden einer Dilatationsrate von [16] auf die 32-Kanal-Merkmalskarte.
  • Ferner kann das dilatierte Faltungsmodul 222 oder 332 ein Verkettungsmodul 960 aufweisen. Das Verkettungsmodul 960 kann die von dem sechsten Modul 951 erzeugte 32-Kanal-Merkmalskarte, die von dem siebten Modul 952 erzeugte 32-Kanal-Merkmalskarte, die von dem achten Modul 953 erzeugte 32-Kanal-Merkmalskarte, die von dem neunten Modul 954 erzeugte 32-Kanal-Merkmalskarte und die von dem zehnten Modul 95 erzeugte 32-Kanal-Merkmalskarte verketten, und kann bezüglich der verketteten 160-Kanal-Merkmalskarte (d.h. der verketteten Merkmalskarte der von dem sechsten Modul 951 erzeugten 32-Kanal-Merkmalskarte, der von dem siebten Modul 952 erzeugten 32-Kanal-Merkmalskarte, der von dem achten Modul 953 erzeugten 32-Kanal-Merkmalskarte, der von dem neunten Modul 954 erzeugten 32-Kanal-Merkmalskarte und der von dem zehnten Modul 95 erzeugten 32-Kanal-Merkmalskarte) eine 64-Kanal-Merkmalskarte unter Verwendung eines 1×1-Filters erzeugen.
  • Ferner kann das dilatierte Faltungsmodul 222 oder 332 eine Zusammenfass-Vorrichtung 970 zum Zusammenfassen (beispielsweise Addieren) der von dem Verkettungsmodul 960 erzeugten 64-Kanal-Merkmalskarte und der ursprünglich eingegebenen 64-Kanal-Merkmalskarte.
  • Alle Faltungsmodule können in einer solchen Art und Weise (d.h. in einer oben beschriebenen Art und Weise) eingerichtet sein.
  • 11 ist ein Flussdiagramm, das ein Verfahren zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
  • Zunächst kann im Vorgang/Operation 1101 ein Tiefenkarten-Generator 21 der 1 eine Tiefenkarte unter Verwendung einer Merkmalskarte eines Bildes basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) erzeugen.
  • Im Vorgang/Operation 1102 kann eine Objekterkennungs-Vorrichtung 22 der 1 ein Objekt unter Verwendung der von dem Tiefenkarten-Generator 21 erzeugten Tiefenkarte und des Bildes erkennen.
  • 12 ist ein Blockdiagramm, das ein Datenverarbeitungssystem zum Ausführen eines Verfahrens zum Erkennen eines Objektes unter Verwendung eines Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
  • In Bezug auf 12 kann das Verfahren zum Erkennen des Objektes unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung unter Verwendung des Datenverarbeitungssystems implementiert sein. Das Datenverarbeitungssystem 1000 kann aufweisen: mindestens einen Prozessor 1100, einen Arbeitsspeicher 1300, eine Benutzerschnittstelle-Eingabe-Vorrichtung 1400, eine Benutzerschnittstelle-Ausgabe-Vorrichtung 1500, eine Speichervorrichtung 1600, und eine Netzwerk-Schnittstelle 1700, wobei diese miteinander über einen Datenbus („bus“) 1200 verbunden sind.
  • Der Prozessor 1100 kann eine zentrale Verarbeitungseinheit (CPU) oder eine Halbleitervorrichtung sein, wobei die zentrale Verarbeitungseinheit bzw. die Halbleitervorrichtung in der Arbeitsspeicher 1300 und/oder in der Speichervorrichtung 1600 gespeicherte Instruktionen verarbeitet. Der Arbeitsspeicher 1300 und die Speichervorrichtung 1600 können verschiedene Arten von flüchtigen oder nichtflüchtigen Speichermedien aufweisen. Zum Beispiel kann der Arbeitsspeicher 1300 einen ROM (Nurlesespeicher) oder einen RAM (Direktzugriffspeicher) aufweisen. Folglich können die Vorgänge/Operationen des Verfahrens oder die in Verbindung mit den hierin offenbarten Ausführungsformen beschriebenen Algorithmen direkt in einem von dem Prozessor 1100 ausgeführten Hardware-Modul oder Software-Modul oder eine Kombination daraus ausgeführt sein. Das Software-Modul kann sich auf einem Speichermedium (welches beispielsweise der Arbeitsspeicher 1300 und/oder die Speichervorrichtung 1600 ist) befinden, wie beispielsweise einem RAM-Speicher, einem Flash-Speicher, einem ROM-Speicher, einem EPROM-Speicher, einem EEPROM-Speicher, einem Register, einer Festplatte, einer Wechselplatte („removal disk“), einer CD-ROM. Das beispielhafte Speichermedium kann mit dem Prozessor 1100 verbunden/gekoppelt sein und der Prozessor 1100 kann Informationen von dem Speichermedium auslesen und kann Informationen auf dem Speichermedium schreiben. Alternativ kann das Speichermedium mit dem Prozessor 1100 integriert sein. Der Prozessor 1100 und das Speichermedium können sich in einer anwendungsspezifischen integrierten Schaltung (ASIC) befinden. Die ASIC kann sich in einem Benutzerendgerät befinden. In einem anderen Fall können sich der Prozessor 1100 und das Speichermedium in dem Benutzerendgerät als separate Komponenten befinden.
  • Die Vorrichtung und das Verfahren zum Erkennen des Objektes unter Verwendung des Bildes gemäß einer Ausführungsform der vorliegenden Offenbarung können eine Tiefenkarte unter Verwendung eines einzelnen Bildes basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) erzeugen und können ein Objekt basierend auf der erzeugten Tiefenkarte und dem einzelnen Bild erkennen, wodurch das Objekt ohne einen LiDAR-Sensor erkannt werden kann und wodurch eine Objekterkennungsrate im Vergleich zu einer Technologie zur Objekterkennung unter Verwendung eines einzelnen Bildes erhöht/verbessert wird.
  • Obwohl die vorliegende Offenbarung vorstehend mit Bezug auf die beispielhaften Ausführungsformen und die beigefügten Zeichnungen beschrieben wurde, ist die vorliegende Offenbarung nicht darauf begrenzt, sondern kann von einem Fachmann, an den sich die vorliegende Offenbarung richtet, auf verschiedene Art modifiziert und verändert werden ohne von dem Gedanken und dem Umfang der in den folgenden Ansprüchen beanspruchten vorliegenden Offenbarung abzuweichen.
  • Daher sind die beispielhaften Ausführungsformen der vorliegenden Offenbarung bereitgestellt, um den Gedanken und den Umfang der vorliegenden Offenbarung zu erklären, aber nicht zu begrenzen/einzuschränken, sodass der Gedanke und der Umfang der vorliegenden Offenbarung nicht auf die Ausführungsformen begrenzt/eingeschränkt ist. Der Umfang der vorliegenden Offenbarung soll auf Grundlage der beigefügten Ansprüche verstanden werden und alle technischen Ideen innerhalb des zu den Ansprüchen äquivalenten Umfangs soll in den Umfang der vorliegenden Offenbarung aufgenommen werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • KR 1020190071690 [0001]

Claims (22)

  1. Vorrichtung (100) zum Erkennen eines Objektes unter Verwendung eines Bildes, die Vorrichtung (100) aufweisend: einen Tiefenkarten-Generator (21), der eingerichtet ist, eine Tiefenkarte basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) unter Verwendung einer Merkmalskarte des Bildes zu erzeugen; und eine Objekterkennungs-Vorrichtung (22), die eingerichtet ist, das Objekt unter Verwendung der von dem Tiefenkarten-Generator (21) erzeugten Tiefenkarte und dem Bild zu erkennen.
  2. Vorrichtung (100) nach Anspruch 1, ferner aufweisend: eine Eingabe-Vorrichtung (10), die eingerichtet ist, um dem Tiefenkarten-Generator (21) eine Merkmalskarte eines Farbbildes bereitzustellen.
  3. Vorrichtung (100) nach Anspruch 2, wobei die Eingabe-Vorrichtung (10) eingerichtet ist, um der Objekterkennungs-Vorrichtung (22) das Farbbild bereitzustellen.
  4. Vorrichtung (100) nach einem der Ansprüche 2 oder 3, wobei die Merkmalskarte eines Farbbildes eine Merkmalskarte eines rot-grün-blau (RGB) Bildes ist.
  5. Vorrichtung (100) nach einem der Ansprüche 2 bis 4, wobei die Eingabe-Vorrichtung (10) ferner eingerichtet ist, um eine Merkmalskarte eines Grauwertbildes des Farbbildes bereitzustellen; und wobei die Eingabe-Vorrichtung (10) ferner aufweist: ein Verkettungsmodul, das eingerichtet ist, um eine verkettete Merkmalskarte durch Verketten der Merkmalskarte des Farbbildes und der Merkmalskarte des Grauwertbildes zu erzeugen.
  6. Vorrichtung (100) nach Anspruch 5, wobei die Eingabe-Vorrichtung (10) ferner aufweist: ein erstes Faltungsmodul, das eingerichtet ist, eine 16-Kanal-Merkmalskarte unter Verwendung des Farbbildes zu erzeugen; ein zweites Faltungsmodul, das eingerichtet ist, eine 16-Kanal-Merkmalskarte unter Verwendung des Grauwertbildes des Farbbildes zu erzeugen: und ein Verkettungsmodul, das eingerichtet ist, eine 32-Kanal-Merkmalskarte zu erzeugen durch Verketten der von dem ersten Faltungsmodul erzeugten 16-Kanal-Merkmalskarte und der von dem zweiten Faltungsmodul erzeugten 16-Kanal-Merkmalskarte.
  7. Vorrichtung (100) nach Anspruch 5, wobei die Eingabe-Vorrichtung (10) ferner eingerichtet ist, um eine Merkmalskarte eines LiDAR (Light Detection and Ranging) Bildes bereitzustellen; und wobei die Eingabe-Vorrichtung (10) ferner aufweist: ein Verkettungsmodul, das eingerichtet ist, um eine verkettete Merkmalskarte zu erzeugen durch Verketten der Merkmalskarte des Farbbildes, der Merkmalskarte des Grauwertbildes und der Merkmalskarte des LiDAR-Bildes.
  8. Vorrichtung (100) nach Anspruch 7, wobei die Eingabe-Vorrichtung (10) ferner aufweist: ein erstes Faltungsmodul, das eingerichtet ist, eine 16-Kanal-Merkmalskarte unter Verwendung des Farbbildes zu erzeugen; ein zweites Faltungsmodul, das eingerichtet ist, eine 8-Kanal-Merkmalskarte unter Verwendung des Grauwertbildes des Farbbildes zu erzeugen; ein drittes Faltungsmodul, das eingerichtet ist, eine 8-Kanal-Merkmalskarte unter Verwendung des LiDAR-Bildes zu erzeugen; und ein Verkettungsmodul, das eingerichtet ist, eine 32-Kanal-Merkmalskarte zu erzeugen durch Verketten der von dem ersten Faltungsmodul erzeugten 16-Kanal-Merkmalskarte, der von dem zweiten Faltungsmodul erzeugten 8-Kanal-Merkmalskarte und der von dem dritten Faltungsmodul erzeugten 8-Kanal-Merkmalskarte.
  9. Vorrichtung (100) nach einem der Ansprüche 1 bis 8, wobei der Tiefenkarten-Generator (21) die Tiefenkarte derart erzeugt, dass die Auflösung der Merkmalskarte schrittweise verringert und die verringerte Auflösung der Merkmalskarte ausgegeben wird.
  10. Vorrichtung (100) nach Anspruch 9, wobei der Tiefenkarten-Generator (21) eine der Auflösung der Merkmalskarte zugeordnete Dilatationsrate anwendet.
  11. Vorrichtung (100) nach einem der Ansprüche 9 oder 10, wobei der Tiefenkarten-Generator (21) mehrere Verkettungsmodule aufweist, wobei jedes Verkettungsmodul der mehreren Verkettungsmodule Merkmalskarten mit der gleichen Anzahl an Kanälen in einem Verfahren des schrittweisen Verringerns der Auflösung einer Merkmalskarte und dem Ausgeben der verringerten Auflösung einer Merkmalskarte verkettet.
  12. Verfahren zum Erkennen eines Objektes unter Verwendung eines Bildes, das Verfahren aufweisend: Erzeugen einer Tiefenkarte durch einen Tiefenkarten-Generator (21) basierend auf einem dilatierten, faltenden neuronalen Netzwerk (DCNN) unter Verwendung einer Merkmalskarte des Bildes; und Erkennen des Objektes durch eine Objekterkennungs-Vorrichtung (22) unter Verwendung der erzeugten Tiefenkarte und des Bildes.
  13. Verfahren nach Anspruch 12, ferner aufweisend: Eingeben einer Merkmalskarte eines Farbbildes durch eine Eingabe-Vorrichtung (10) in einen Tiefenkarten-Generator (21).
  14. Verfahren nach Anspruch 13, ferner aufweisend: Eingeben des Farbbildes durch die Eingabe-Vorrichtung (10) in die Objekterkennungs-Vorrichtung (22).
  15. Verfahren nach einem der Ansprüche 13 oder 14, wobei die Merkmalskarte eines Farbbildes eine Merkmalskarte eines rot-grün-blau (RGB) Bildes ist.
  16. Verfahren nach einem der Ansprüche 13 bis 15, wobei das Eingeben aufweist: Erzeugen einer Merkmalskarte unter Verwendung eines Grauwertbildes des Farbbildes; und Erzeugen einer verketteten Merkmalskarte durch Verketten der Merkmalskarte des Farbbildes und der Merkmalskarte des Grauwertbildes.
  17. Verfahren nach Anspruch 16, wobei das Eingeben aufweist: Erzeugen einer 16-Kanal-Merkmalskarte durch ein erstes Faltungsmodul unter Verwendung des Farbbildes; Erzeugen einer 16-Kanal-Merkmalskarte durch ein zweites Faltungsmodul unter Verwendung eines Grauwertbildes des Farbbildes; und Erzeugen einer 32-Kanal-Merkmalskarte durch ein Verkettungsmodul durch Verketten der von dem ersten Faltungsmodul erzeugten 16-Kanal-Merkmalskarte und der von dem zweiten Faltungsmodul erzeugten 16-Kanal-Merkmalskarte.
  18. Verfahren nach einem der Ansprüche 13 bis 15, wobei das Eingeben aufweist: Erzeugen einer Merkmalskarte unter Verwendung eines LiDAR (Light Detection and Ranging) Bildes; und Erzeugen einer verketteten Merkmalskarte durch Verketten der Merkmalskarte des Farbbildes, der Merkmalskarte des Grauwertbildes und der Merkmalskarte des LiDAR-Bildes.
  19. Verfahren nach Anspruch 18, wobei das Eingeben aufweist: Erzeugen einer 16-Kanal-Merkmalskarte durch ein erstes Faltungsmodul unter Verwendung des Farbbildes; Erzeugen einer 8-Kanal-Merkmalskarte durch ein zweites Faltungsmodul unter Verwendung eines Grauwertbildes des Farbbildes; Erzeugen einer 8-Kanal-Merkmalskarte durch ein drittes Faltungsmodul unter Verwendung des LiDAR-Bildes; und Erzeugen einer 32-Kanal-Merkmalskarte durch ein Verkettungsmodul durch Verketten der von dem ersten Faltungsmodul erzeugten 16-Kanal-Merkmalskarte, der von dem zweiten Faltungsmodul erzeugten 8-Kanal-Merkmalskarte und der von dem dritten Faltungsmodul erzeugten 8-Kanal-Merkmalskarte.
  20. Verfahren nach einem der Ansprüche 12 bis 19, wobei das Erzeugen der Tiefenkarte aufweist: Erzeugen der Tiefenkarte derart, dass die Auflösung der Merkmalskarte schrittweise verringert und die verringerte Auflösung der Merkmalskarte ausgegeben wird.
  21. Verfahren nach Anspruch 20, wobei das Erzeugen der Tiefenkarte aufweist: Anwenden einer der Auflösung der Merkmalskarte zugeordneten Dilatationsrate.
  22. Verfahren nach einem der Ansprüche 20 oder 21, wobei das Erzeugen der Tiefenkarte aufweist: Verketten von Merkmalskarten mit der gleichen Anzahl an Kanälen in dem Verfahren des schrittweisen Verringerns der Auflösung einer Merkmalskarte und dem Ausgeben der verringerten Auflösung einer Merkmalskarte
DE102019131100.4A 2019-06-17 2019-11-18 Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes Pending DE102019131100A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2019-0071690 2019-06-17
KR1020190071690A KR20200143960A (ko) 2019-06-17 2019-06-17 영상을 이용한 객체 인식 장치 및 그 방법

Publications (1)

Publication Number Publication Date
DE102019131100A1 true DE102019131100A1 (de) 2020-12-17

Family

ID=73546934

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019131100.4A Pending DE102019131100A1 (de) 2019-06-17 2019-11-18 Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes

Country Status (3)

Country Link
US (1) US11256965B2 (de)
KR (1) KR20200143960A (de)
DE (1) DE102019131100A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200133920A (ko) * 2019-05-21 2020-12-01 현대자동차주식회사 인공신경망 기반의 투사정보 인식 장치 및 그 방법
KR20200143999A (ko) * 2019-06-17 2020-12-28 현대자동차주식회사 인공신경망 기반의 채널 보상 장치 및 그 방법
CN113011329B (zh) * 2021-03-19 2024-03-12 陕西科技大学 一种基于多尺度特征金字塔网络及密集人群计数方法
KR102658478B1 (ko) * 2021-12-13 2024-04-18 조선대학교산학협력단 앙상블 기반의 신경망을 이용한 행동 인식 방법
KR102607748B1 (ko) * 2022-07-19 2023-11-29 중앙대학교 산학협력단 다중 작업 적응을 적용한 영상 분석 장치 및 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10163003B2 (en) * 2016-12-28 2018-12-25 Adobe Systems Incorporated Recognizing combinations of body shape, pose, and clothing in three-dimensional input images
EP3688666A1 (de) * 2017-11-03 2020-08-05 Siemens Aktiengesellschaft Segmentierung und entrauschung von tiefenbildern für erkennungsanwendungen unter verwendung generativer kontradiktorischer neuronaler netzwerke
DE102017221765A1 (de) * 2017-12-04 2019-06-06 Robert Bosch Gmbh Trainieren und Betreiben eines Maschinen-Lern-Systems
KR102595787B1 (ko) * 2018-02-27 2023-11-24 삼성전자주식회사 전자 장치 및 그 제어 방법
US10679369B2 (en) * 2018-06-12 2020-06-09 Chiral Software, Inc. System and method for object recognition using depth mapping
US10776941B2 (en) * 2018-07-02 2020-09-15 Chiral Software, Inc. Optimized neural network structure
CN110892449A (zh) * 2018-08-22 2020-03-17 深圳市大疆创新科技有限公司 图像处理方法及装置、移动设备
US10990805B2 (en) * 2018-09-12 2021-04-27 Apple Inc. Hybrid mode illumination for facial recognition authentication
US20200082160A1 (en) * 2018-09-12 2020-03-12 Kneron (Taiwan) Co., Ltd. Face recognition module with artificial intelligence models
CN111212756B (zh) * 2018-10-31 2023-10-17 深圳市大疆创新科技有限公司 用于控制载运工具的照明系统的方法和设备
US10984545B2 (en) * 2018-11-16 2021-04-20 Nvidia Corporation Estimating depth for a video stream captured with a monocular rgb camera
US11449079B2 (en) * 2019-01-30 2022-09-20 Adobe Inc. Generalizable robot approach control techniques
US11270505B2 (en) * 2019-05-22 2022-03-08 Streem, Inc Capture of raw augmented reality data and subsequent 3D mesh generation

Also Published As

Publication number Publication date
US11256965B2 (en) 2022-02-22
US20200394476A1 (en) 2020-12-17
KR20200143960A (ko) 2020-12-28

Similar Documents

Publication Publication Date Title
DE102019131100A1 (de) Vorrichtung und verfahren zum erkennen eines objektes unter verwendung eines bildes
DE102020214283A1 (de) Vorrichtung zur erkennung von hindernissen, fahrzeugsystem mit dieser und verfahren dafür
WO2014118178A1 (de) Erstellen eines umfeldmodells für ein fahrzeug
DE102017203276A1 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE112012004847T5 (de) Dynamisches Liniendetektionssystem für Prozessoren mit begrenztem internen Speicher
DE102021207613A1 (de) Verfahren zur Qualitätssicherung eines Systems
DE69710207T2 (de) Verfahren und gerät zur mustererkennung mit verwendung eines in unterkategorieen unterverteilten lexikons
DE102020114964A1 (de) Modellieren einer Oberfläche eines Objekts
DE102022213409A1 (de) Verfahren und vorrichtung zur bildverarbeitung und fahrzeugdieses verfahren und diese vorrichtung umfassend
DE102018114229A1 (de) Verfahren zum Bestimmen eines Bewegungszustands eines Objekts in Abhängigkeit einer erzeugten Bewegungsmaske und eines erzeugten Begrenzungsrahmens, Fahrerassistenzsystem sowie Kraftfahrzeug
DE102022204722A1 (de) Verfahren zum Trainieren eines neuronalen Konvolutionsnetzwerks
DE102020208765A1 (de) Bildklassifikator mit variablen rezeptiven Feldern in Faltungsschichten
EP4097647A1 (de) Verfahren zur qualitätssicherung eines beispielbasierten systems
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
DE102022121109A1 (de) Visuelle Wahrnehmung mit einem Fahrzeug basierend auf einem Kamerabild und einer Ultraschallkarte
DE102022200718B3 (de) Verfahren und Vorrichtung zur Verarbeitung von Objektdaten und Fahrerassistenzsystem
DE102018121317A1 (de) Verfahren und Vorrichtung zur Schätzung einer durch eine Freiraumgeste vermittelten Richtungsinformation zur Bestimmung einer Benutzereingabe an einer Mensch-Maschine-Schnittstelle
DE102022121111A1 (de) Automatische visuelle Wahrnehmung mit einem Fahrzeug unter Verwendung einer Kamera und eines Ultraschallsensorsystems
DE102022121839A1 (de) Texterkennung basierend auf einem verzeichneten Kamerabild
DE102021110056A1 (de) Automatische visuelle Wahrnehmung mit globaler Aufmerksamkeit
DE102023105962A1 (de) Modellierung eines Umrisses eines Objekts
DE102022124384A1 (de) Automatische Umfeldwahrnehmung auf der Basis von multimodalen Sensordaten eines Fahrzeugs
DE102022105267A1 (de) Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind
DE102022212374A1 (de) Computerimplementiertes Verfahren zum Erkennen von Objekten
DE102023105860A1 (de) Verfahren und Datenverarbeitungseinrichtung zur lidarbasierten Umgebungserkennung und Kraftfahrzeug damit

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009620000

Ipc: G06V0030190000