DE202020005928U1 - Neuronales Faltungsnetz basierend auf kanal-spezifischer Faltung zur Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs - Google Patents

Neuronales Faltungsnetz basierend auf kanal-spezifischer Faltung zur Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs Download PDF

Info

Publication number
DE202020005928U1
DE202020005928U1 DE202020005928.5U DE202020005928U DE202020005928U1 DE 202020005928 U1 DE202020005928 U1 DE 202020005928U1 DE 202020005928 U DE202020005928 U DE 202020005928U DE 202020005928 U1 DE202020005928 U1 DE 202020005928U1
Authority
DE
Germany
Prior art keywords
channel
convolution
lidar
data
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE202020005928.5U
Other languages
English (en)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industry Academic Cooperation Foundation of CBNU
Original Assignee
Industry Academic Cooperation Foundation of CBNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industry Academic Cooperation Foundation of CBNU filed Critical Industry Academic Cooperation Foundation of CBNU
Publication of DE202020005928U1 publication Critical patent/DE202020005928U1/de
Expired - Lifetime legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Optical Radar Systems And Details Thereof (AREA)

Abstract

Struktur eines neuronalen Faltungsnetzes, das auf einer kanalspezifischen Faltung basiert, für eine Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs, umfassend:
ein Innenkanal-Faltungsnetz zum Extrahieren von Merkmalen in Kanälen von LiDAR-Daten;
ein Außenkanal-Faltungsnetz zum Extrahieren von Merkmalen zwischen den Kanälen unter Verwendung von Ausgaben für die Kanäle des Innenkanal-Faltungsnetzes und zum Erzeugen einer Merkmalskarte, die die extrahierten Merkmale zwischen den Kanälen darstellt; und
ein Erfassungsnetz, das dazu ausgebildet ist, den Ort und die Klasse eines Objekts unter Verwendung der von dem Außenkanal-Faltungsnetz erzeugten Merkmalskarte zu suchen.

Description

  • QUERVERWEIS AUF VERWANDTE ANMELDUNG
  • Diese Anmeldung basiert auf der und beansprucht die Priorität der koreanischen Patentanmeldung Nr. 2020-0148870 , die am 09. November 2020 eingereicht wurde und deren gesamter Inhalt hier durch Bezugnahme Teil der vorliegenden Anmeldung ist.
  • TECHNISCHES GEBIET
  • Die Erfindung betrifft ein neuronales Faltungsnetz, und insbesondere eine Struktur eines neuronalen Faltungsnetzes, die auf einer kanalspezifischen Faltung für die Hochgeschwindigkeits-Objekterkennung eines 3D-LiDAR basiert.
  • HINTERGRUND DER ERFINDUNG
  • Ein 3D-LiDAR ist ein Sensor, der häufig in autonomen Fahrzeugen eingesetzt wird. Das 3D-LiDAR ist eine Einrichtung, die die Entfernung eines nahegelegenen Objekts auf der Grundlage der Zeit misst, die der von einem Hauptkörper des LiDARs ausgestrahlte Laser benötigt, um reflektiert zu werden und zurückzukehren. Im Gegensatz zu einer Kamera wird das LiDAR weniger durch Licht beeinflusst, so dass das LiDAR nahegelegene Objekte unabhängig von Tag und Nacht erfassen kann.
  • Die LiDAR-Daten sind mit einem Satz von Punkten konfiguriert, und der Satz von Punkten wird als Punktwolke bezeichnet. Jeder Punkt enthält Ortsdaten (x, y, z) und Reflexionsdaten (I).
  • Anhand der ausgegebenen LiDAR-Daten lässt sich feststellen, dass es einen Hintergrund und ein mit mehreren Punkten konfiguriertes Objekt gibt. Eine Reihe von Prozeduren zum Bestimmen des Orts und einer Klasse eines Objekts (hauptsächlich einer Person oder eines Autos) in LiDAR-Daten wird als Objekterkennung bezeichnet.
  • Es gibt mehrere Verfahren zur Objekterkennung mit Hilfe eines 3D-LiDARs, aber in den letzten Jahren ist das beste Verfahren, was die Leistung angeht, die Verwendung eines neuronalen Faltungsnetzes (Convolutional Neural Network; CNN).
  • Wenn Eingabedaten eingehen, extrahiert das CNN durch mehrmalige Faltungsprozeduren Merkmale und erkennt die Objekte anhand der extrahierten Merkmale. Im Stand der Technik wandelt das CNN 3D-LiDAR-Daten in Voxel oder Bilder um und verwendet die Voxel oder Bilder als Eingabedaten. Die Objekterkennungsprozedur des CNN aus dem Stand der Technik ist in 1 dargestellt.
  • 1 zeigt eine Prozedur zur Objekterkennung unter Verwendung des CNN aus dem Stand der Technik.
  • Bezugnehmend auf 1 ist die Objekterkennungsprozedur unter Verwendung des CNN in Stand der Technik ein Verfahren zum Umwandeln von Punktwolkendaten, die im LiDAR erfasst wurden, in ein Voxel oder ein Bild, wobei das CNN mit den umgewandelten Daten als Eingabe ausgeführt wird, wobei Ergebnisdaten ausgegeben werden.
  • Das Objekterkennungsverfahren unter Verwendung eines CNN in Stand der Technik weist verschiedene Probleme auf, die von dem Umwandlungsverfahren abhängen. Ein gemeinsames Problem unter den Problemen ist jedoch, dass die durch das LiDAR erzeugten Rohdaten umgewandelt werden, so dass ein Datenverlust auftritt.
  • Die Nachteile des Voxel-Umwandlungsverfahrens und des Bildumwandlungsverfahrens im Stand der Technik sind wie folgt.
  • Erstens muss für den Fall des Verfahrens zum Umwanden einer Punktwolke in ein Voxel die 3D-Faltung verwendet werden, aber es besteht das Problem, dass der Berechnungsaufwand steigt, was sich auf die Ausführungszeit negativ auswirkt.
  • Da im Fall des Verfahrens zum Umwanden einer Punktwolke in ein Bild 2D-Daten als Eingabedaten verwendet werden, beziehen sich die Ausgabedaten auf die 2D-Daten, so dass sich ein Problem dahingehend ergibt, dass ein zusätzlicher Algorithmus angewendet werden muss, um eine genaue 3D-Haltung zu finden.
  • Um die Verfahren des Stands der Technik zu verbessern, muss das Verfahren zum Umwandeln der Punktwolke in ein Voxel oder ein Bild abgeschafft werden.
  • Beispiele aus dem Stand der Technik sind das koreanische Patent Nr. 10-2168753.
  • ÜBERBLICK ÜBER DIE ERFINDUNG
  • Die Erfindung besteht darin, eine Struktur eines neuronalen Faltungsnetzes bereitzustellen, die auf einer kanalspezifischen Faltung basiert, um eine Prozedur zum Umwandeln von Punktwolkendaten in ein Voxel oder ein Bild in einer Hochgeschwindigkeits-Objekterkennungsprozedur eines 3D-LiDAR wegzulassen.
  • Die Ziele der Erfindung sind nicht auf die oben erwähnten Ziele beschränkt, und andere, nicht erwähnte Ziele werden von Fachleuten aus der folgenden Beschreibung klar verstanden werden.
  • Erfindungsgemäß wird eine Struktur eines neuronalen Faltungsnetzes auf der Grundlage einer kanalspezifischen Faltung für eine Hochgeschwindigkeits-Objekterkennung eines 3D-LiDAR bereitgestellt, umfassend: ein Innenkanal-Faltungsnetz zum Extrahieren von Merkmalen in Kanälen von LiDAR-Daten; ein Außenkanal-Faltungsnetz zum Extrahieren von Merkmalen zwischen den Kanälen unter Verwendung von Ausgaben für die Kanäle des Innenkanal-Faltungsnetzes und zum Erzeugen einer Merkmalskarte, die die extrahierten Merkmale zwischen den Kanälen darstellt; und ein Erfassungsnetz, das einen Ort und eine Klasse eines Objekts unter Verwendung der von dem Außenkanal-Faltungsnetz erzeugten Merkmalskarte sucht.
  • In dem Innenkanal-Faltungsnetz können eine oder mehrere Faltungsschichten zum Durchführen einer Faltung für jeden Kanal und eine Pooling-Schicht zum Durchführen eines Poolings als ein Satz eingestellt werden, eine vorbestimmte Anzahl von Sätzen kann nacheinander bereitgestellt werden, Kanaldaten des LiDAR können für jeden Kanal eingegeben werden, und Merkmalsdaten, die das Merkmal jedes Kanals darstellen, können ausgegeben werden.
  • In dem Außenkanal-Faltungsnetz können eine oder mehrere Faltungsschichten zum Durchführen einer Faltung durch Eingabe einer Eingangsmerkmalskarte, in der die Merkmalsdaten für die Kanäle kombiniert sind, bereitgestellt werden, und eine endgültige Merkmalskarte, die durch Verbindung der Eingangsmerkmalskarte und einer resultierenden Merkmalskarte, die ein Ergebnis der Faltungsschicht ist, erhalten wird, kann ausgegeben werden.
  • Das Erfassungsnetz kann eine oder mehrere Faltungsschichten zum Durchführen einer Faltung mit der resultierenden Merkmalskarte als Eingabe, eine Klassenschicht zur Ausgabe von Klasse und Bewertung (Score) eines Objekts unter Verwendung von Ergebnisdaten, die durch die Faltungsschicht herauskommen, und eine Box-Schicht zur Anzeige einer Position des Objekts, einer Größe einer Box, und eines Winkels des Objekts unter Verwendung der Ergebnisdaten, die durch die Faltungsschicht herauskommen, enthalten.
  • Da die vom LiDAR stammenden Rohdaten erfindungsgemäß direkt bei der Hochgeschwindigkeits-Objekterkennungsprozedur des 3D-LiDAR verwendet werden, kommt es zu keinem Datenverlust.
  • Da gemäß der Erfindung der Kanal dem ursprünglichen LiDAR und nicht ein Verfahren zum Umwandeln von Punktwolkendaten verwendet wird, wird ein Umwandlungsalgorithmus nicht benötigt. Da im Fall des Innenkanal-Faltungsnetzes die Faltung nur auf Daten im selben Kanal angewendet wird, gibt es einen Effekt, dass die Verarbeitungsgeschwindigkeit hoch ist, weil die Dimension der Faltung niedrig ist.
  • Figurenliste
    • 1 zeigt eine Objekterkennungsprozedur unter Verwendung eines CNN aus dem Stand der Technik;
    • 2 zeigt eine Hochgeschwindigkeits-Objekterkennungsprozedur eines 3D-LiDARs gemäß einer Ausführungsform der Erfindung;
    • 3 ist ein Diagramm, das die Struktur eines neuronalen Faltungsnetzes auf der Grundlage einer kanalspezifischen Faltung für eine Hochgeschwindigkeits-Objekterkennung des 3D-LiDAR gemäß der Ausführungsform der Erfindung zeigt;
    • 4 ist ein Diagramm, das ein Verfahren zum Anzeigen von Punktwolkendaten veranschaulicht;
    • 5 ist ein Diagramm, das ein Verfahren zur Objekterkennung eines LiDARs zeigt;
    • 6 zeigt eine Konfiguration eines Innenkanal-Faltungsnetzes in der Struktur eines neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung;
    • 7 zeigt eine Konfiguration eines Außenkanal-Faltungsnetzes in der Struktur eines neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung; und
    • 8 zeigt eine Konfiguration eines Erfassungsnetzes in der Struktur eines neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die Vorteile und Merkmale der hier offengelegten Ausführungsformen und Verfahren zum Erreichen der Vorteile und Merkmale werden durch Bezugnahme auf die nachfolgend beschriebenen Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen verdeutlicht. Die in der Offenbarung vorgeschlagenen Ausführungsformen sind jedoch nicht auf die nachstehend offengelegten Ausführungsformen beschränkt, sondern können in einer Vielzahl von verschiedenen Formen implementiert werden, und nur die Ausführungsformen werden bereitgestellt, um den Umfang der Ausführungsformen für den normalen Fachmann vollständig zu beschreiben.
  • Die in dieser Beschreibung verwendeten Begriffe werden kurz erläutert, und die offengelegten Ausführungsformen werden im Detail beschrieben.
  • Bei den in der Beschreibung verwendeten Begriffen handelt es sich um allgemeine, derzeit weit verbreitete Begriffe, die unter Berücksichtigung der Funktionen der offengelegten Ausführungsformen ausgewählt wurden, die jedoch je nach der Absicht eines Technikers oder eines Präzedenzfalles auf dem entsprechenden Gebiet, dem Aufkommen einer neuen Technologie oder ähnlichem variieren können. Darüber hinaus gibt es in bestimmten Fällen auch Begriffe, die vom Anmelder willkürlich gewählt wurden, und in diesen Fällen wird die Bedeutung im Detail in der ausführlichen Beschreibung der entsprechenden Spezifikation beschrieben. Daher wird der in der Offenbarung verwendete Begriff auf der Grundlage der Bedeutung von Begriffen und Inhalten in der gesamten Spezifikation definiert, und nicht durch einen einfachen Namen des Begriffs.
  • In dieser Spezifikation schließen Singularausdrücke Pluralausdrücke ein, es sei denn, der Kontext gibt eindeutig den singulären Ausdruck an.
  • In der gesamten Spezifikation bedeutet „ein Abschnitt umfasst ein bestimmtes Element“, dass der Abschnitt auch andere Elemente umfassen kann, und nicht, dass die anderen Elemente ausgeschlossen sind, sofern nicht anders angegeben. Außerdem bezieht sich der hier verwendete Begriff „Einheit“ auf eine Hardwarekomponente wie Software, FPGA oder ASIC, und „Einheit“ erfüllt eine bestimmte Funktion. Der Begriff „Einheit“ soll jedoch nicht auf Software oder Hardware beschränkt sein. Die „Einheit“ kann also auch so konfiguriert sein, dass sie sich auf einem adressierbaren Speichermedium befindet, und sie kann so konfiguriert sein, dass sie einen oder mehrere Prozessoren reproduziert. Somit umfasst der Begriff „Einheit“ beispielsweise, wenn er hier verwendet wird, eine Softwarekomponente, objektorientierte Softwarekomponenten, Klassenkomponenten und Taskkomponenten, Prozesse, Funktionen, Attribute, Prozeduren, Unterprogramme, Programmcodeabschnitte, Treiber, Firmware, Mikrocodes, Schaltkreise, Daten, Datenbanken, Datenstrukturen, Tabellen, Arrays und Variablen. Die in den Komponenten und den „Einheiten“ bereitgestellten Funktionen können zu einer geringeren Anzahl von Komponenten und „Einheiten“ zusammengefasst oder in zusätzliche Komponenten und „Einheiten“ unterteilt werden.
  • Darüber hinaus werden in der Beschreibung unter Bezugnahme auf die beiliegenden Zeichnungen dieselben Komponenten unabhängig von den Bezugsziffern mit denselben Bezugsziffern bezeichnet, und die redundante Beschreibung derselben wird weggelassen. Wenn bei der Beschreibung der Erfindung festgestellt wird, dass eine detaillierte Beschreibung einer verwandten bekannten Technologie den Grundgedanken der Erfindung unnötig verschleiern könnte, wird die detaillierte Beschreibung davon weggelassen.
  • 2 zeigt eine Hochgeschwindigkeits-Objekterkennungsprozedur eines 3D-LiDARs gemäß einer Ausführungsform der Erfindung.
  • Bezugnehmend auf 2, werden bei der Hochgeschwindigkeits-Objekterkennungsprozedur des 3D-LiDARs gemäß einer Ausführungsform der Erfindung durch Eingaben der Punktwolkendaten, die in dem LiDAR erfasst werden, und Durchführen eines neuronalen Faltungsnetzes (Convolutional Neural Network, CNN) die Ergebnisdaten ausgegeben.
  • Bei der Hochgeschwindigkeits-Objekterkennungsprozedur des 3D-LiDARs unter Verwendung des erfindungsgemäßen CNN entfällt die Prozedur zum Umwandeln der Punktwolkendaten in das Voxel oder das Bild im Vergleich zu dem Verfahren im verwandten Stand der Technik. Daher schlägt die Erfindung eine Struktur für ein neuronales Netz vor, die auf der folgenden kanalspezifischen Faltung basiert.
  • 3 ist ein Diagramm, das eine Struktur eines neuronalen Faltungsnetzes auf der Grundlage einer kanalspezifischen Faltung für die Hochgeschwindigkeits-Objekterkennung des 3D-LiDARs gemäß der Ausführungsform der Erfindung zeigt.
  • Bezugnehmend auf 3 ist eine auf kanalspezifischer Faltung basierende Struktur eines neuronalen Netzes 100 für die Hochgeschwindigkeits-Objekterkennung eines erfindungsgemäßen 3D-LiDARs mit insgesamt drei Netzen konfiguriert, einschließlich eines Innenkanal-Faltungsnetzes 110 zum Extrahieren von Merkmalen im Kanal von LiDAR-Daten, eines Außenkanal-Faltungsnetzes 120 zum Extrahieren von Merkmalen zwischen den Kanälen des LiDARs, und eines Erfassungsnetzes 130 zum Auffinden/Ermitteln von Ort und Klasse eines Objekts.
  • Das Innenkanal-Faltungsnetz 110 ist ein Netz zum Extrahieren von Merkmalen in den Kanälen.
  • Bevor die Konfiguration des Innenkanal-Faltungsnetzes 110 beschrieben wird, werden die Merkmale der LiDAR-Daten wie folgt beschrieben.
  • 4 ist ein Diagramm, das ein Verfahren zum Anzeigen von Punktwolkendaten veranschaulicht.
  • 4A zeigt die Ausgabedaten der Punktwolke, die die LiDAR-Daten sind, und 4B zeigt Ausrichtungsdaten, die durch Ausrichten der Ausgabedaten erhalten werden. Das heißt, 4A veranschaulicht die LiDAR-Daten, die entsprechend dem Abstand ausgegeben werden, und 4B veranschaulicht Ausrichtungsdaten, bei denen die LiDAR-Daten ausgerichtet sind.
  • Die LiDAR-Daten L sind wie folgt konfiguriert.
  • L p i ,j = { x i , j ,  y i ,j ,  z i ,j ,  I i ,j }
    Figure DE202020005928U1_0001
  • Die in 4B dargestellten Ausrichtungsdaten werden durch die folgende Formel ausgedrückt.
  • L = [ C 1 C 2 C i ] T   C i = [ p i , 1 p i ,2 p i ,j ]
    Figure DE202020005928U1_0002
  • Dabei bezeichnet L die gesamten LiDAR-Daten, i bezeichnet einen Kanal, Ci bezeichnet eine Gruppe von Punkten, die zu dem Kanal i gehören, j bezeichnet einen Index in jedem Kanal und pi,j bezeichnet einen Punkt. pi,j enthält einen Ort (x, y, z) und einen Reflexionswert (I).
  • Da das LiDAR eine niedrige vertikale Auflösung aufweist, aber die horizontale Auflösung hoch ist, weisen Punkte in dem gleichen Kanal eine große Ähnlichkeit auf. Dies wird im Folgenden unter Bezugnahme auf die Zeichnungen beschrieben.
  • 5 ist eine beispielhafte Darstellung eines Verfahrens zur Objekterkennung mit dem LiDAR.
  • Wenn im Beispiel von 5 das LiDAR zwei Objekte erfasst und die von dem LiDAR in 5A gemessenen Daten ausgerichtet sind, wie in 5B dargestellt, werden im Falle der LiDAR-Daten in dem gleichen Kanal (i ist gleich) der Abstand und der Reflexionswert in dem Abschnitt geändert, in dem das Objekt während der Bodenmessung erkannt wird. Da der Boden gemessen wird, wenn der Objektbereich passiert wird, werden die Abstands- und Reflexionswerte erneut geändert. Befinden sich weitere Objekte in einer Zeile, so ist der Abstand gleich, aber es tritt eine Differenz in der Reflexion auf, so dass die entsprechenden Objektinformationen hierdurch erhalten werden können.
  • Im Falle des LiDARs, bei dem ein 360° Scan implementiert werden kann, ähneln sich die Punkte in dem gleichen Kanal sehr. Wenn beispielsweise ein flacher Boden gescannt wird, sind die Abstands- und Reflexionswerte der LiDAR-Daten in dem gleichen Kanal ähnlich. Wie in 5A zu sehen ist, kann jedoch in einigen Fällen, wenn ein Objekt vorhanden ist, der Abstands- oder der Reflexionswert in der Mitte unterschiedlich sein. Da die Daten für jeden Kanal eine tiefe Beziehung zueinander haben, werden die Daten deshalb für jeden Kanal getrennt. Dann wird die Innenkanal-Faltung unter Verwendung der getrennten Kanaldaten durchgeführt.
  • Das Innenkanal-Faltungsnetz kann durch die Verwendung der Kanalmerkmale eines solchen LiDARs veranschaulicht werden, wie in 6 dargestellt.
  • 6 veranschaulicht die Konfiguration des Innenkanal-Faltungsnetzes in der Struktur des neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
  • In 6 ist F i die Merkmalsdaten, die von dem Kanal i ausgegeben werden.
  • In der Ausführungsform von 6 kann bestätigt werden, dass das Innenkanal-Faltungsnetz 110 mit zwölf Faltungsschichten und vier Pooling-Schichten für jeden Kanal konfiguriert ist. Darüber hinaus umfasst das Innenkanal-Faltungsnetz 110 12×i Faltungsschichten und 4×i Pooling-Schichten.
  • Die Größe der Faltungsmaske der Faltungsschicht ist mit 1×3 konfiguriert. Die Faltung wird mit den x, y, z und I-Werten der LiDAR-Daten für jeden LiDAR-Kanal durchgeführt. Drei Faltungen und ein Pooling werden als ein Satz festgelegt, und insgesamt werden vier Sätze durchgeführt.
  • Das Aussenkanal-Faltungsnetz 120 ist ein Netzwerk zum Extrahieren der Merkmale zwischen den Kanälen. Betrachtet man 5B in der vertikalen Richtung, so kann man feststellen, dass der Boden erkannt wird, wenn das Objekt kontinuierlich erfasst wird und dann verschwindet das Objekt. Mit anderen Worten bedeutet dies, dass das Merkmal des Objekts auch dann ausgewählt werden kann, wenn der gleiche Index vorhanden ist (j ist gleich). Das Außenkanal-Faltungsnetz kann durch die Verwendung der Merkmale zwischen den Kanälen dargestellt werden, wie in 7 gezeigt.
  • 7 veranschaulicht die Konfiguration des Außenkanal-Faltungsnetzes in der Struktur des neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
  • In 7 erzeugt das Außenkanal-Faltungsnetz 120 eine Merkmalskarte F'', indem es F i verwendet, das von dem Innenkanal-Faltungsnetz als Eingabe ausgegeben wird.
  • Wie in 7 dargestellt, ist das Außenkanal-Faltungsnetz 120 in der erfindungsgemäßen Ausführungsform mit drei Faltungsschichten konfiguriert. Die Größe der Maske der Faltungsschicht beträgt 3×3. Am Ende des Außenkanal-Faltungsnetzes 120 wird eine neue Merkmalskarte F'' erzeugt, indem das Faltungsergebnis, die Merkmalskarte F', und die Merkmalskarte F, verwendet als Eingang, verbunden werden.
  • Die Eingabedaten des Außenkanal-Faltungsnetzes 120 verwenden ein F, das durch Kombinieren der Ergebnisse (F 1, F 2, ...F i) des Innenkanal-Faltungsnetzes erhalten wird, die Ausgabedaten sind F'', und die Größe der Merkmalskarte ist die gleiche wie F.
  • Das Erfassungsnetz 130 ist ein Netz, das den Ort und die Klasse des Objekts unter Verwendung der Merkmalskarte F'', die von dem Faltungsnetz 120 des Außenkanals erhalten wird, ermittelt.
  • 8 zeigt die Konfiguration des Erfassungsnetzes in der Struktur des neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
  • In 8 ist das Erfassungsnetz 130 mit einer Klassenschicht, die die Klasse und die Bewertung (c, s) (auch als Score bezeichnet) des Objekts ausgibt, und einer Box-Schicht, die die Position, Größe und Drehung (w, h, l, d, θ) des Objekts ermittelt, konfiguriert.
  • In der Ausführungsform von 8 weist das Erfassungsnetz 130 vier Faltungsschichten auf, und die Größe der Maske beträgt 3×3. Und in dem Erfassungsnetz 130 werden die endgültigen Daten, die durch die vier Faltungsschichten herauskommen, als Eingabe für die Klassenschicht und die Box-Schicht verwendet.
  • Die Klassenschicht ist so konfiguriert, dass die Klasse und die Bewertung (c, s) des Objekts ausgegeben werden. Und die Box-Schicht ist so konfiguriert, dass sie den Ort des Objekts, die Größe der Box, und den Winkel (w, h, l, d, θ) des Objekts anzeigt.
  • Bei der Erfindung wird eine Struktur eines neuronalen Faltungsnetzes vorgeschlagen, die auf einer kanalspezifischen Faltung auf der Grundlage des LiDAR-Kanals basiert. Im Stand der Technik wird ein Objekterkennungsverfahren unter Verwendung einer 3D-Faltung oder Umwandlung von Daten verwendet, aber das in der Erfindung vorgeschlagene Verfahren ist ein Netzwerk, das das Objekt durch die Verwendung der Merkmale der LiDAR-Daten erkennt. Das heißt, in dem Verfahren wird das Innenkanal-Faltungsnetz verwendet, um die Merkmale aus den LiDAR-Daten für jeden Kanal für die Objekterkennung zu extrahieren, die Merkmale zwischen den Kanälen werden extrahiert, indem das Außenkanal-Faltungsnetzwerk verwendet wird, und schließlich wird das Objekt durch die Verwendung des Erfassungsnetzes erfasst.
  • In der Objekterkennungsprozedur des 3D-LiDARs in dem verwandten Stand der Technik, ist ein Voxel-Umwandlungs- oder Bild-Umwandlungsverfahren erforderlich, um die LiDAR-Daten umzuwandeln, um als Eingangsdaten für das Netz verwendet zu werden. Aufgrund der Datenumwandlung können jedoch einige der Rohdaten schließlich verloren gehen, und da ein Umwandlungsalgorithmus oder Nachbearbeitungsalgorithmus für die Datenumwandlung hinzugefügt werden muss und die 3D-Faltung nur für Voxel verwendet wird, wird die Ausführungszeit lang.
  • Um dieses Problem zu verbessern, werden bei dem erfindungsgemäßen Verfahren die Rohdaten, die aus dem LiDAR kommen, direkt verwendet, so dass kein Datenverlust auftritt. Da der Kanal im ursprünglichen LiDAR anstelle der Datenumwandlung verwendet wird, ist der Umwandlungsalgorithmus nicht erforderlich. Darüber hinaus ist im Falle des Innenkanal-Faltungsnetzes, da die Faltung nur auf die Daten in dem gleichen Kanal angewendet wird, die Dimension der Faltung niedrig, und die Verarbeitungsgeschwindigkeit ist hoch.
  • Während die Erfindung oben anhand mehrerer bevorzugter Ausführungsformen beschrieben wurde, sind die Ausführungsformen illustrativ und nicht einschränkend. Der Durchschnittsfachmann auf dem Gebiet der Erfindung wird verstehen, dass verschiedene Änderungen und Modifikationen vorgenommen werden können, ohne vom Grundgedanken und Umfang der Erfindung, die in den beiliegenden Ansprüchen offenbart ist, abzuweichen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • KR 20200148870 [0001]

Claims (4)

  1. Struktur eines neuronalen Faltungsnetzes, das auf einer kanalspezifischen Faltung basiert, für eine Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs, umfassend: ein Innenkanal-Faltungsnetz zum Extrahieren von Merkmalen in Kanälen von LiDAR-Daten; ein Außenkanal-Faltungsnetz zum Extrahieren von Merkmalen zwischen den Kanälen unter Verwendung von Ausgaben für die Kanäle des Innenkanal-Faltungsnetzes und zum Erzeugen einer Merkmalskarte, die die extrahierten Merkmale zwischen den Kanälen darstellt; und ein Erfassungsnetz, das dazu ausgebildet ist, den Ort und die Klasse eines Objekts unter Verwendung der von dem Außenkanal-Faltungsnetz erzeugten Merkmalskarte zu suchen.
  2. Struktur eines neuronalen Faltungsnetzes nach Anspruch 1, wobei in dem Innenkanal-Faltungsnetz eine oder mehrere Faltungsschichten zum Durchführen einer Faltung für jeden Kanal und eine Pooling-Schicht zum Durchführen eines Poolings als ein Satz eingestellt sind, eine vorbestimmte Anzahl von Sätzen nacheinander bereitgestellt wird, Kanaldaten des LiDAR für jeden Kanal eingegeben werden, und Merkmalsdaten, die das Merkmal jedes Kanals darstellen, ausgegeben werden.
  3. Struktur eines neuronalen Faltungsnetzes nach Anspruch 2, wobei in dem Außenkanal-Faltungsnetz eine oder mehrere Faltungsschichten zum Durchführen einer Faltung durch Eingeben einer Eingangsmerkmalskarte, in der die Merkmalsdaten für die Kanäle kombiniert sind, bereitgestellt werden, und eine endgültige Merkmalskarte, die durch Verbinden der Eingangsmerkmalskarte und einer resultierenden Merkmalskarte, die ein Ergebnis der Faltungsschicht ist, erhalten wird, ausgegeben wird.
  4. Struktur eines neuronalen Faltungsnetzes nach Anspruch 3, wobei das Erfassungsnetz eine oder mehrere Faltungsschichten zum Durchführen einer Faltung mit der resultierenden Merkmalskarte als Eingabe, eine Klassenschicht zum Ausgeben einer Klasse und einer Bewertung eines Objekts durch Verwenden von Ergebnisdaten, die durch die Faltungsschicht herauskommen, und eine Boxschicht zum Anzeigen eines Orts des Objekts, einer Größe einer Box, und eines Winkels des Objekts durch Verwenden der Ergebnisdaten, die durch die Faltungsschicht herauskommen, enthält.
DE202020005928.5U 2020-11-09 2020-11-25 Neuronales Faltungsnetz basierend auf kanal-spezifischer Faltung zur Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs Expired - Lifetime DE202020005928U1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200148870 2020-11-09
KR1020200148870A KR20220063026A (ko) 2020-11-09 2020-11-09 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조

Publications (1)

Publication Number Publication Date
DE202020005928U1 true DE202020005928U1 (de) 2023-05-26

Family

ID=81307372

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202020005928.5U Expired - Lifetime DE202020005928U1 (de) 2020-11-09 2020-11-25 Neuronales Faltungsnetz basierend auf kanal-spezifischer Faltung zur Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs

Country Status (6)

Country Link
US (1) US20230280467A1 (de)
EP (1) EP4024284A4 (de)
JP (1) JP7364680B2 (de)
KR (1) KR20220063026A (de)
DE (1) DE202020005928U1 (de)
WO (1) WO2022097814A1 (de)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180034853A (ko) * 2016-09-28 2018-04-05 에스케이하이닉스 주식회사 합성곱 신경망의 연산 장치 및 방법
US10733506B1 (en) * 2016-12-14 2020-08-04 Waymo Llc Object detection neural network
US10318827B2 (en) * 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks
US11256983B2 (en) * 2017-07-27 2022-02-22 Waymo Llc Neural networks for vehicle trajectory planning
KR102478335B1 (ko) * 2017-09-29 2022-12-15 에스케이텔레콤 주식회사 채널별 객체 검출 최적화를 위한 영상분석 방법 및 서버장치
US10867210B2 (en) * 2018-12-21 2020-12-15 Waymo Llc Neural networks for coarse- and fine-object classifications
KR20200115704A (ko) * 2019-03-08 2020-10-08 한국전자통신연구원 영상 인식 장치 및 방법
KR102168753B1 (ko) 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Also Published As

Publication number Publication date
US20230280467A1 (en) 2023-09-07
EP4024284A4 (de) 2022-10-26
JP7364680B2 (ja) 2023-10-18
WO2022097814A1 (ko) 2022-05-12
JP2023509104A (ja) 2023-03-07
KR20220063026A (ko) 2022-05-17
EP4024284A1 (de) 2022-07-06

Similar Documents

Publication Publication Date Title
DE69624614T2 (de) Verfahren zur Stereoübereinstimmungs- und Ungleichheitsmessung
DE102006056408B4 (de) Verfahren zum Bestimmen einer Position, Vorrichtung und Computerprogrammprodukt
DE102018116111A1 (de) Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung
DE102019114622B4 (de) Erfassung und planare darstellung dreidimensionaler fahrspuren in einer strassenszene
DE112019002080T5 (de) Systeme und verfahren zur stellungsbestimmung
DE102020202160A1 (de) Verfahren zum Bestimmen einer Symmetrieeigenschaft in Bilddaten, Verfahren zum Steuern einer Funktion und Vorrichtung
DE102019101405A1 (de) Verfahren zum Bewerten einer Positionsinformation einer Landmarke in einer Umgebung eines Kraftfahrzeugs, Bewertungssystem, Fahrerassistenzsystem und Kraftfahrzeug
DE102018124979A1 (de) Fahrerassistenzsystem zur Bestimmung einer Entfernung zwischen zwei Fahrzeugen mit einer Kamera
DE112020006935T5 (de) Verfahren und gerät zur parkplatzerkennung sowie vorrichtung und speichermedium
DE102019132996A1 (de) Schätzen einer dreidimensionalen Position eines Objekts
DE112021002598T5 (de) Bildverarbeitungsvorrichtung
DE102017121052A1 (de) Verarbeitung einer von einer Umgebungserfassungseinrichtung eines Kraftfahrzeugs erzeugten Punktwolke zu einem Poincaré-invarianten symmetrischen Eingabevektor für ein neurales Netzwerk
DE202020005928U1 (de) Neuronales Faltungsnetz basierend auf kanal-spezifischer Faltung zur Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs
DE10063756A1 (de) Verfahren und Vorrichtung zum Kompensieren einer Dejustage einer Bilderzeugungsvorrichtung
DE102014219428A1 (de) Selbstkalibrierung eines Stereokamerasystems im Auto
DE102020105676A1 (de) Verfahren zum betreiben eines parkassistenzsystems
DE102014211709B4 (de) Verfahren zur rechnergestützten dreidimensionalen Rekonstruktion einer Oberfläche eines Objekts aus digitalen Bilddaten
DE102019219247A1 (de) Verfahren zur Umfelderfassung, Datenverarbeitungseinheit
DE102020003465A1 (de) Verfahren zur Detektion von Objekten in monokularen RGB-Bildern
DE102014017904A1 (de) Verfahren und Vorrichtung zur Detektion erhabener Objekte und Verfahren zur Unterstützung eines Fahrers beim Führen eines Fahrzeugs
DE102023103141A1 (de) Verfahren zum Überführen eines Kamerakoordinatensystems einer Kamera in ein Nutzerkoordinatensystem eines Fahrzeugs
DE102022214341A1 (de) Verfahren zur Erkennung von mindestens einer Fahrspurlinie und/oder Straßenmarkierung in mindestens einer digitalen Bilddarstellung
DE102017217156B4 (de) Verfahren und Vorrichtung zur Ansteuerung eines Fahrerassistenzsystems unter Verwendung eines Stereokamerasystems mit einer ersten und einer zweiten Kamera
DE102022212666A1 (de) Computerimplementierte Verfahren zur Anker und zur Keypoint basierten Erkennung von Objektzentren
WO2024120687A1 (de) Verfahren zur verarbeitung von bilddaten für die anwendung eines maschinenlern-modells

Legal Events

Date Code Title Description
R207 Utility model specification
R156 Lapse of ip right after 3 years