DE202020005928U1

DE202020005928U1 - Neuronales Faltungsnetz basierend auf kanal-spezifischer Faltung zur Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs

Info

Publication number: DE202020005928U1
Application number: DE202020005928.5U
Authority: DE
Original assignee: Industry Academic Cooperation Foundation of CBNU
Current assignee: Industry Academic Cooperation Foundation of CBNU
Priority date: 2020-11-09
Filing date: 2020-11-25
Publication date: 2023-05-26
Anticipated expiration: 2030-11-26
Also published as: US20230280467A1; EP4024284A4; JP7364680B2; WO2022097814A1; JP2023509104A; KR20220063026A; EP4024284A1

Abstract

Struktur eines neuronalen Faltungsnetzes, das auf einer kanalspezifischen Faltung basiert, für eine Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs, umfassend:
ein Innenkanal-Faltungsnetz zum Extrahieren von Merkmalen in Kanälen von LiDAR-Daten;
ein Außenkanal-Faltungsnetz zum Extrahieren von Merkmalen zwischen den Kanälen unter Verwendung von Ausgaben für die Kanäle des Innenkanal-Faltungsnetzes und zum Erzeugen einer Merkmalskarte, die die extrahierten Merkmale zwischen den Kanälen darstellt; und
ein Erfassungsnetz, das dazu ausgebildet ist, den Ort und die Klasse eines Objekts unter Verwendung der von dem Außenkanal-Faltungsnetz erzeugten Merkmalskarte zu suchen.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNG
Diese Anmeldung basiert auf der und beansprucht die Priorität der koreanischen Patentanmeldung Nr. 2020-0148870 , die am 09. November 2020 eingereicht wurde und deren gesamter Inhalt hier durch Bezugnahme Teil der vorliegenden Anmeldung ist.
TECHNISCHES GEBIET
Die Erfindung betrifft ein neuronales Faltungsnetz, und insbesondere eine Struktur eines neuronalen Faltungsnetzes, die auf einer kanalspezifischen Faltung für die Hochgeschwindigkeits-Objekterkennung eines 3D-LiDAR basiert.
HINTERGRUND DER ERFINDUNG
Ein 3D-LiDAR ist ein Sensor, der häufig in autonomen Fahrzeugen eingesetzt wird. Das 3D-LiDAR ist eine Einrichtung, die die Entfernung eines nahegelegenen Objekts auf der Grundlage der Zeit misst, die der von einem Hauptkörper des LiDARs ausgestrahlte Laser benötigt, um reflektiert zu werden und zurückzukehren. Im Gegensatz zu einer Kamera wird das LiDAR weniger durch Licht beeinflusst, so dass das LiDAR nahegelegene Objekte unabhängig von Tag und Nacht erfassen kann.
Die LiDAR-Daten sind mit einem Satz von Punkten konfiguriert, und der Satz von Punkten wird als Punktwolke bezeichnet. Jeder Punkt enthält Ortsdaten (x, y, z) und Reflexionsdaten (I).
Anhand der ausgegebenen LiDAR-Daten lässt sich feststellen, dass es einen Hintergrund und ein mit mehreren Punkten konfiguriertes Objekt gibt. Eine Reihe von Prozeduren zum Bestimmen des Orts und einer Klasse eines Objekts (hauptsächlich einer Person oder eines Autos) in LiDAR-Daten wird als Objekterkennung bezeichnet.
Es gibt mehrere Verfahren zur Objekterkennung mit Hilfe eines 3D-LiDARs, aber in den letzten Jahren ist das beste Verfahren, was die Leistung angeht, die Verwendung eines neuronalen Faltungsnetzes (Convolutional Neural Network; CNN).
Wenn Eingabedaten eingehen, extrahiert das CNN durch mehrmalige Faltungsprozeduren Merkmale und erkennt die Objekte anhand der extrahierten Merkmale. Im Stand der Technik wandelt das CNN 3D-LiDAR-Daten in Voxel oder Bilder um und verwendet die Voxel oder Bilder als Eingabedaten. Die Objekterkennungsprozedur des CNN aus dem Stand der Technik ist in 1 dargestellt.
1 zeigt eine Prozedur zur Objekterkennung unter Verwendung des CNN aus dem Stand der Technik.
Bezugnehmend auf 1 ist die Objekterkennungsprozedur unter Verwendung des CNN in Stand der Technik ein Verfahren zum Umwandeln von Punktwolkendaten, die im LiDAR erfasst wurden, in ein Voxel oder ein Bild, wobei das CNN mit den umgewandelten Daten als Eingabe ausgeführt wird, wobei Ergebnisdaten ausgegeben werden.
Das Objekterkennungsverfahren unter Verwendung eines CNN in Stand der Technik weist verschiedene Probleme auf, die von dem Umwandlungsverfahren abhängen. Ein gemeinsames Problem unter den Problemen ist jedoch, dass die durch das LiDAR erzeugten Rohdaten umgewandelt werden, so dass ein Datenverlust auftritt.
Die Nachteile des Voxel-Umwandlungsverfahrens und des Bildumwandlungsverfahrens im Stand der Technik sind wie folgt.
Erstens muss für den Fall des Verfahrens zum Umwanden einer Punktwolke in ein Voxel die 3D-Faltung verwendet werden, aber es besteht das Problem, dass der Berechnungsaufwand steigt, was sich auf die Ausführungszeit negativ auswirkt.
Da im Fall des Verfahrens zum Umwanden einer Punktwolke in ein Bild 2D-Daten als Eingabedaten verwendet werden, beziehen sich die Ausgabedaten auf die 2D-Daten, so dass sich ein Problem dahingehend ergibt, dass ein zusätzlicher Algorithmus angewendet werden muss, um eine genaue 3D-Haltung zu finden.
Um die Verfahren des Stands der Technik zu verbessern, muss das Verfahren zum Umwandeln der Punktwolke in ein Voxel oder ein Bild abgeschafft werden.
Beispiele aus dem Stand der Technik sind das koreanische Patent Nr. 10-2168753.
ÜBERBLICK ÜBER DIE ERFINDUNG
Die Erfindung besteht darin, eine Struktur eines neuronalen Faltungsnetzes bereitzustellen, die auf einer kanalspezifischen Faltung basiert, um eine Prozedur zum Umwandeln von Punktwolkendaten in ein Voxel oder ein Bild in einer Hochgeschwindigkeits-Objekterkennungsprozedur eines 3D-LiDAR wegzulassen.
Die Ziele der Erfindung sind nicht auf die oben erwähnten Ziele beschränkt, und andere, nicht erwähnte Ziele werden von Fachleuten aus der folgenden Beschreibung klar verstanden werden.
Erfindungsgemäß wird eine Struktur eines neuronalen Faltungsnetzes auf der Grundlage einer kanalspezifischen Faltung für eine Hochgeschwindigkeits-Objekterkennung eines 3D-LiDAR bereitgestellt, umfassend: ein Innenkanal-Faltungsnetz zum Extrahieren von Merkmalen in Kanälen von LiDAR-Daten; ein Außenkanal-Faltungsnetz zum Extrahieren von Merkmalen zwischen den Kanälen unter Verwendung von Ausgaben für die Kanäle des Innenkanal-Faltungsnetzes und zum Erzeugen einer Merkmalskarte, die die extrahierten Merkmale zwischen den Kanälen darstellt; und ein Erfassungsnetz, das einen Ort und eine Klasse eines Objekts unter Verwendung der von dem Außenkanal-Faltungsnetz erzeugten Merkmalskarte sucht.
In dem Innenkanal-Faltungsnetz können eine oder mehrere Faltungsschichten zum Durchführen einer Faltung für jeden Kanal und eine Pooling-Schicht zum Durchführen eines Poolings als ein Satz eingestellt werden, eine vorbestimmte Anzahl von Sätzen kann nacheinander bereitgestellt werden, Kanaldaten des LiDAR können für jeden Kanal eingegeben werden, und Merkmalsdaten, die das Merkmal jedes Kanals darstellen, können ausgegeben werden.
In dem Außenkanal-Faltungsnetz können eine oder mehrere Faltungsschichten zum Durchführen einer Faltung durch Eingabe einer Eingangsmerkmalskarte, in der die Merkmalsdaten für die Kanäle kombiniert sind, bereitgestellt werden, und eine endgültige Merkmalskarte, die durch Verbindung der Eingangsmerkmalskarte und einer resultierenden Merkmalskarte, die ein Ergebnis der Faltungsschicht ist, erhalten wird, kann ausgegeben werden.
Das Erfassungsnetz kann eine oder mehrere Faltungsschichten zum Durchführen einer Faltung mit der resultierenden Merkmalskarte als Eingabe, eine Klassenschicht zur Ausgabe von Klasse und Bewertung (Score) eines Objekts unter Verwendung von Ergebnisdaten, die durch die Faltungsschicht herauskommen, und eine Box-Schicht zur Anzeige einer Position des Objekts, einer Größe einer Box, und eines Winkels des Objekts unter Verwendung der Ergebnisdaten, die durch die Faltungsschicht herauskommen, enthalten.
Da die vom LiDAR stammenden Rohdaten erfindungsgemäß direkt bei der Hochgeschwindigkeits-Objekterkennungsprozedur des 3D-LiDAR verwendet werden, kommt es zu keinem Datenverlust.
Da gemäß der Erfindung der Kanal dem ursprünglichen LiDAR und nicht ein Verfahren zum Umwandeln von Punktwolkendaten verwendet wird, wird ein Umwandlungsalgorithmus nicht benötigt. Da im Fall des Innenkanal-Faltungsnetzes die Faltung nur auf Daten im selben Kanal angewendet wird, gibt es einen Effekt, dass die Verarbeitungsgeschwindigkeit hoch ist, weil die Dimension der Faltung niedrig ist.
Figurenliste

1 zeigt eine Objekterkennungsprozedur unter Verwendung eines CNN aus dem Stand der Technik;
2 zeigt eine Hochgeschwindigkeits-Objekterkennungsprozedur eines 3D-LiDARs gemäß einer Ausführungsform der Erfindung;
3 ist ein Diagramm, das die Struktur eines neuronalen Faltungsnetzes auf der Grundlage einer kanalspezifischen Faltung für eine Hochgeschwindigkeits-Objekterkennung des 3D-LiDAR gemäß der Ausführungsform der Erfindung zeigt;
4 ist ein Diagramm, das ein Verfahren zum Anzeigen von Punktwolkendaten veranschaulicht;
5 ist ein Diagramm, das ein Verfahren zur Objekterkennung eines LiDARs zeigt;
6 zeigt eine Konfiguration eines Innenkanal-Faltungsnetzes in der Struktur eines neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung;
7 zeigt eine Konfiguration eines Außenkanal-Faltungsnetzes in der Struktur eines neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung; und
8 zeigt eine Konfiguration eines Erfassungsnetzes in der Struktur eines neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.

AUSFÜHRLICHE BESCHREIBUNG
Die Vorteile und Merkmale der hier offengelegten Ausführungsformen und Verfahren zum Erreichen der Vorteile und Merkmale werden durch Bezugnahme auf die nachfolgend beschriebenen Ausführungsformen unter Bezugnahme auf die beiliegenden Zeichnungen verdeutlicht. Die in der Offenbarung vorgeschlagenen Ausführungsformen sind jedoch nicht auf die nachstehend offengelegten Ausführungsformen beschränkt, sondern können in einer Vielzahl von verschiedenen Formen implementiert werden, und nur die Ausführungsformen werden bereitgestellt, um den Umfang der Ausführungsformen für den normalen Fachmann vollständig zu beschreiben.
Die in dieser Beschreibung verwendeten Begriffe werden kurz erläutert, und die offengelegten Ausführungsformen werden im Detail beschrieben.
Bei den in der Beschreibung verwendeten Begriffen handelt es sich um allgemeine, derzeit weit verbreitete Begriffe, die unter Berücksichtigung der Funktionen der offengelegten Ausführungsformen ausgewählt wurden, die jedoch je nach der Absicht eines Technikers oder eines Präzedenzfalles auf dem entsprechenden Gebiet, dem Aufkommen einer neuen Technologie oder ähnlichem variieren können. Darüber hinaus gibt es in bestimmten Fällen auch Begriffe, die vom Anmelder willkürlich gewählt wurden, und in diesen Fällen wird die Bedeutung im Detail in der ausführlichen Beschreibung der entsprechenden Spezifikation beschrieben. Daher wird der in der Offenbarung verwendete Begriff auf der Grundlage der Bedeutung von Begriffen und Inhalten in der gesamten Spezifikation definiert, und nicht durch einen einfachen Namen des Begriffs.
In dieser Spezifikation schließen Singularausdrücke Pluralausdrücke ein, es sei denn, der Kontext gibt eindeutig den singulären Ausdruck an.
In der gesamten Spezifikation bedeutet „ein Abschnitt umfasst ein bestimmtes Element“, dass der Abschnitt auch andere Elemente umfassen kann, und nicht, dass die anderen Elemente ausgeschlossen sind, sofern nicht anders angegeben. Außerdem bezieht sich der hier verwendete Begriff „Einheit“ auf eine Hardwarekomponente wie Software, FPGA oder ASIC, und „Einheit“ erfüllt eine bestimmte Funktion. Der Begriff „Einheit“ soll jedoch nicht auf Software oder Hardware beschränkt sein. Die „Einheit“ kann also auch so konfiguriert sein, dass sie sich auf einem adressierbaren Speichermedium befindet, und sie kann so konfiguriert sein, dass sie einen oder mehrere Prozessoren reproduziert. Somit umfasst der Begriff „Einheit“ beispielsweise, wenn er hier verwendet wird, eine Softwarekomponente, objektorientierte Softwarekomponenten, Klassenkomponenten und Taskkomponenten, Prozesse, Funktionen, Attribute, Prozeduren, Unterprogramme, Programmcodeabschnitte, Treiber, Firmware, Mikrocodes, Schaltkreise, Daten, Datenbanken, Datenstrukturen, Tabellen, Arrays und Variablen. Die in den Komponenten und den „Einheiten“ bereitgestellten Funktionen können zu einer geringeren Anzahl von Komponenten und „Einheiten“ zusammengefasst oder in zusätzliche Komponenten und „Einheiten“ unterteilt werden.
Darüber hinaus werden in der Beschreibung unter Bezugnahme auf die beiliegenden Zeichnungen dieselben Komponenten unabhängig von den Bezugsziffern mit denselben Bezugsziffern bezeichnet, und die redundante Beschreibung derselben wird weggelassen. Wenn bei der Beschreibung der Erfindung festgestellt wird, dass eine detaillierte Beschreibung einer verwandten bekannten Technologie den Grundgedanken der Erfindung unnötig verschleiern könnte, wird die detaillierte Beschreibung davon weggelassen.
2 zeigt eine Hochgeschwindigkeits-Objekterkennungsprozedur eines 3D-LiDARs gemäß einer Ausführungsform der Erfindung.
Bezugnehmend auf 2, werden bei der Hochgeschwindigkeits-Objekterkennungsprozedur des 3D-LiDARs gemäß einer Ausführungsform der Erfindung durch Eingaben der Punktwolkendaten, die in dem LiDAR erfasst werden, und Durchführen eines neuronalen Faltungsnetzes (Convolutional Neural Network, CNN) die Ergebnisdaten ausgegeben.
Bei der Hochgeschwindigkeits-Objekterkennungsprozedur des 3D-LiDARs unter Verwendung des erfindungsgemäßen CNN entfällt die Prozedur zum Umwandeln der Punktwolkendaten in das Voxel oder das Bild im Vergleich zu dem Verfahren im verwandten Stand der Technik. Daher schlägt die Erfindung eine Struktur für ein neuronales Netz vor, die auf der folgenden kanalspezifischen Faltung basiert.
3 ist ein Diagramm, das eine Struktur eines neuronalen Faltungsnetzes auf der Grundlage einer kanalspezifischen Faltung für die Hochgeschwindigkeits-Objekterkennung des 3D-LiDARs gemäß der Ausführungsform der Erfindung zeigt.
Bezugnehmend auf 3 ist eine auf kanalspezifischer Faltung basierende Struktur eines neuronalen Netzes 100 für die Hochgeschwindigkeits-Objekterkennung eines erfindungsgemäßen 3D-LiDARs mit insgesamt drei Netzen konfiguriert, einschließlich eines Innenkanal-Faltungsnetzes 110 zum Extrahieren von Merkmalen im Kanal von LiDAR-Daten, eines Außenkanal-Faltungsnetzes 120 zum Extrahieren von Merkmalen zwischen den Kanälen des LiDARs, und eines Erfassungsnetzes 130 zum Auffinden/Ermitteln von Ort und Klasse eines Objekts.
Das Innenkanal-Faltungsnetz 110 ist ein Netz zum Extrahieren von Merkmalen in den Kanälen.
Bevor die Konfiguration des Innenkanal-Faltungsnetzes 110 beschrieben wird, werden die Merkmale der LiDAR-Daten wie folgt beschrieben.
4 ist ein Diagramm, das ein Verfahren zum Anzeigen von Punktwolkendaten veranschaulicht.
4A zeigt die Ausgabedaten der Punktwolke, die die LiDAR-Daten sind, und 4B zeigt Ausrichtungsdaten, die durch Ausrichten der Ausgabedaten erhalten werden. Das heißt, 4A veranschaulicht die LiDAR-Daten, die entsprechend dem Abstand ausgegeben werden, und 4B veranschaulicht Ausrichtungsdaten, bei denen die LiDAR-Daten ausgerichtet sind.
Die LiDAR-Daten L sind wie folgt konfiguriert.
$\begin{array}{l} L \\ p_{i,j} = {x_{i, j}, y_{i,j}, z_{i,j}, I_{i,j}} \end{array}$
Die in 4B dargestellten Ausrichtungsdaten werden durch die folgende Formel ausgedrückt.
$\begin{array}{l} L = {[C_{1} C_{2} \dots C_{i}]}^{T} \\ C_{i} = [p_{i},_{1} p_{i,2} \dots p_{i,j}] \end{array}$
Dabei bezeichnet L die gesamten LiDAR-Daten, i bezeichnet einen Kanal, C_i bezeichnet eine Gruppe von Punkten, die zu dem Kanal i gehören, j bezeichnet einen Index in jedem Kanal und p_i,j bezeichnet einen Punkt. p_i,j enthält einen Ort (x, y, z) und einen Reflexionswert (I).
Da das LiDAR eine niedrige vertikale Auflösung aufweist, aber die horizontale Auflösung hoch ist, weisen Punkte in dem gleichen Kanal eine große Ähnlichkeit auf. Dies wird im Folgenden unter Bezugnahme auf die Zeichnungen beschrieben.
5 ist eine beispielhafte Darstellung eines Verfahrens zur Objekterkennung mit dem LiDAR.
Wenn im Beispiel von 5 das LiDAR zwei Objekte erfasst und die von dem LiDAR in 5A gemessenen Daten ausgerichtet sind, wie in 5B dargestellt, werden im Falle der LiDAR-Daten in dem gleichen Kanal (i ist gleich) der Abstand und der Reflexionswert in dem Abschnitt geändert, in dem das Objekt während der Bodenmessung erkannt wird. Da der Boden gemessen wird, wenn der Objektbereich passiert wird, werden die Abstands- und Reflexionswerte erneut geändert. Befinden sich weitere Objekte in einer Zeile, so ist der Abstand gleich, aber es tritt eine Differenz in der Reflexion auf, so dass die entsprechenden Objektinformationen hierdurch erhalten werden können.
Im Falle des LiDARs, bei dem ein 360° Scan implementiert werden kann, ähneln sich die Punkte in dem gleichen Kanal sehr. Wenn beispielsweise ein flacher Boden gescannt wird, sind die Abstands- und Reflexionswerte der LiDAR-Daten in dem gleichen Kanal ähnlich. Wie in 5A zu sehen ist, kann jedoch in einigen Fällen, wenn ein Objekt vorhanden ist, der Abstands- oder der Reflexionswert in der Mitte unterschiedlich sein. Da die Daten für jeden Kanal eine tiefe Beziehung zueinander haben, werden die Daten deshalb für jeden Kanal getrennt. Dann wird die Innenkanal-Faltung unter Verwendung der getrennten Kanaldaten durchgeführt.
Das Innenkanal-Faltungsnetz kann durch die Verwendung der Kanalmerkmale eines solchen LiDARs veranschaulicht werden, wie in 6 dargestellt.
6 veranschaulicht die Konfiguration des Innenkanal-Faltungsnetzes in der Struktur des neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
In 6 ist F _i die Merkmalsdaten, die von dem Kanal i ausgegeben werden.
In der Ausführungsform von 6 kann bestätigt werden, dass das Innenkanal-Faltungsnetz 110 mit zwölf Faltungsschichten und vier Pooling-Schichten für jeden Kanal konfiguriert ist. Darüber hinaus umfasst das Innenkanal-Faltungsnetz 110 12×i Faltungsschichten und 4×i Pooling-Schichten.
Die Größe der Faltungsmaske der Faltungsschicht ist mit 1×3 konfiguriert. Die Faltung wird mit den x, y, z und I-Werten der LiDAR-Daten für jeden LiDAR-Kanal durchgeführt. Drei Faltungen und ein Pooling werden als ein Satz festgelegt, und insgesamt werden vier Sätze durchgeführt.
Das Aussenkanal-Faltungsnetz 120 ist ein Netzwerk zum Extrahieren der Merkmale zwischen den Kanälen. Betrachtet man 5B in der vertikalen Richtung, so kann man feststellen, dass der Boden erkannt wird, wenn das Objekt kontinuierlich erfasst wird und dann verschwindet das Objekt. Mit anderen Worten bedeutet dies, dass das Merkmal des Objekts auch dann ausgewählt werden kann, wenn der gleiche Index vorhanden ist (j ist gleich). Das Außenkanal-Faltungsnetz kann durch die Verwendung der Merkmale zwischen den Kanälen dargestellt werden, wie in 7 gezeigt.
7 veranschaulicht die Konfiguration des Außenkanal-Faltungsnetzes in der Struktur des neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
In 7 erzeugt das Außenkanal-Faltungsnetz 120 eine Merkmalskarte F'', indem es F _i verwendet, das von dem Innenkanal-Faltungsnetz als Eingabe ausgegeben wird.
Wie in 7 dargestellt, ist das Außenkanal-Faltungsnetz 120 in der erfindungsgemäßen Ausführungsform mit drei Faltungsschichten konfiguriert. Die Größe der Maske der Faltungsschicht beträgt 3×3. Am Ende des Außenkanal-Faltungsnetzes 120 wird eine neue Merkmalskarte F'' erzeugt, indem das Faltungsergebnis, die Merkmalskarte F', und die Merkmalskarte F, verwendet als Eingang, verbunden werden.
Die Eingabedaten des Außenkanal-Faltungsnetzes 120 verwenden ein F, das durch Kombinieren der Ergebnisse (F ₁, F ₂, ...F _i) des Innenkanal-Faltungsnetzes erhalten wird, die Ausgabedaten sind F'', und die Größe der Merkmalskarte ist die gleiche wie F.
Das Erfassungsnetz 130 ist ein Netz, das den Ort und die Klasse des Objekts unter Verwendung der Merkmalskarte F'', die von dem Faltungsnetz 120 des Außenkanals erhalten wird, ermittelt.
8 zeigt die Konfiguration des Erfassungsnetzes in der Struktur des neuronalen Faltungsnetzes gemäß der Ausführungsform der Erfindung.
In 8 ist das Erfassungsnetz 130 mit einer Klassenschicht, die die Klasse und die Bewertung (c, s) (auch als Score bezeichnet) des Objekts ausgibt, und einer Box-Schicht, die die Position, Größe und Drehung (w, h, l, d, θ) des Objekts ermittelt, konfiguriert.
In der Ausführungsform von 8 weist das Erfassungsnetz 130 vier Faltungsschichten auf, und die Größe der Maske beträgt 3×3. Und in dem Erfassungsnetz 130 werden die endgültigen Daten, die durch die vier Faltungsschichten herauskommen, als Eingabe für die Klassenschicht und die Box-Schicht verwendet.
Die Klassenschicht ist so konfiguriert, dass die Klasse und die Bewertung (c, s) des Objekts ausgegeben werden. Und die Box-Schicht ist so konfiguriert, dass sie den Ort des Objekts, die Größe der Box, und den Winkel (w, h, l, d, θ) des Objekts anzeigt.
Bei der Erfindung wird eine Struktur eines neuronalen Faltungsnetzes vorgeschlagen, die auf einer kanalspezifischen Faltung auf der Grundlage des LiDAR-Kanals basiert. Im Stand der Technik wird ein Objekterkennungsverfahren unter Verwendung einer 3D-Faltung oder Umwandlung von Daten verwendet, aber das in der Erfindung vorgeschlagene Verfahren ist ein Netzwerk, das das Objekt durch die Verwendung der Merkmale der LiDAR-Daten erkennt. Das heißt, in dem Verfahren wird das Innenkanal-Faltungsnetz verwendet, um die Merkmale aus den LiDAR-Daten für jeden Kanal für die Objekterkennung zu extrahieren, die Merkmale zwischen den Kanälen werden extrahiert, indem das Außenkanal-Faltungsnetzwerk verwendet wird, und schließlich wird das Objekt durch die Verwendung des Erfassungsnetzes erfasst.
In der Objekterkennungsprozedur des 3D-LiDARs in dem verwandten Stand der Technik, ist ein Voxel-Umwandlungs- oder Bild-Umwandlungsverfahren erforderlich, um die LiDAR-Daten umzuwandeln, um als Eingangsdaten für das Netz verwendet zu werden. Aufgrund der Datenumwandlung können jedoch einige der Rohdaten schließlich verloren gehen, und da ein Umwandlungsalgorithmus oder Nachbearbeitungsalgorithmus für die Datenumwandlung hinzugefügt werden muss und die 3D-Faltung nur für Voxel verwendet wird, wird die Ausführungszeit lang.
Um dieses Problem zu verbessern, werden bei dem erfindungsgemäßen Verfahren die Rohdaten, die aus dem LiDAR kommen, direkt verwendet, so dass kein Datenverlust auftritt. Da der Kanal im ursprünglichen LiDAR anstelle der Datenumwandlung verwendet wird, ist der Umwandlungsalgorithmus nicht erforderlich. Darüber hinaus ist im Falle des Innenkanal-Faltungsnetzes, da die Faltung nur auf die Daten in dem gleichen Kanal angewendet wird, die Dimension der Faltung niedrig, und die Verarbeitungsgeschwindigkeit ist hoch.
Während die Erfindung oben anhand mehrerer bevorzugter Ausführungsformen beschrieben wurde, sind die Ausführungsformen illustrativ und nicht einschränkend. Der Durchschnittsfachmann auf dem Gebiet der Erfindung wird verstehen, dass verschiedene Änderungen und Modifikationen vorgenommen werden können, ohne vom Grundgedanken und Umfang der Erfindung, die in den beiliegenden Ansprüchen offenbart ist, abzuweichen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

KR 20200148870 [0001]

Claims

Struktur eines neuronalen Faltungsnetzes, das auf einer kanalspezifischen Faltung basiert, für eine Hochgeschwindigkeits-Objekterkennung eines 3D-LiDARs, umfassend: ein Innenkanal-Faltungsnetz zum Extrahieren von Merkmalen in Kanälen von LiDAR-Daten; ein Außenkanal-Faltungsnetz zum Extrahieren von Merkmalen zwischen den Kanälen unter Verwendung von Ausgaben für die Kanäle des Innenkanal-Faltungsnetzes und zum Erzeugen einer Merkmalskarte, die die extrahierten Merkmale zwischen den Kanälen darstellt; und ein Erfassungsnetz, das dazu ausgebildet ist, den Ort und die Klasse eines Objekts unter Verwendung der von dem Außenkanal-Faltungsnetz erzeugten Merkmalskarte zu suchen.
Struktur eines neuronalen Faltungsnetzes nach Anspruch 1, wobei in dem Innenkanal-Faltungsnetz eine oder mehrere Faltungsschichten zum Durchführen einer Faltung für jeden Kanal und eine Pooling-Schicht zum Durchführen eines Poolings als ein Satz eingestellt sind, eine vorbestimmte Anzahl von Sätzen nacheinander bereitgestellt wird, Kanaldaten des LiDAR für jeden Kanal eingegeben werden, und Merkmalsdaten, die das Merkmal jedes Kanals darstellen, ausgegeben werden.
Struktur eines neuronalen Faltungsnetzes nach Anspruch 2, wobei in dem Außenkanal-Faltungsnetz eine oder mehrere Faltungsschichten zum Durchführen einer Faltung durch Eingeben einer Eingangsmerkmalskarte, in der die Merkmalsdaten für die Kanäle kombiniert sind, bereitgestellt werden, und eine endgültige Merkmalskarte, die durch Verbinden der Eingangsmerkmalskarte und einer resultierenden Merkmalskarte, die ein Ergebnis der Faltungsschicht ist, erhalten wird, ausgegeben wird.
Struktur eines neuronalen Faltungsnetzes nach Anspruch 3, wobei das Erfassungsnetz eine oder mehrere Faltungsschichten zum Durchführen einer Faltung mit der resultierenden Merkmalskarte als Eingabe, eine Klassenschicht zum Ausgeben einer Klasse und einer Bewertung eines Objekts durch Verwenden von Ergebnisdaten, die durch die Faltungsschicht herauskommen, und eine Boxschicht zum Anzeigen eines Orts des Objekts, einer Größe einer Box, und eines Winkels des Objekts durch Verwenden der Ergebnisdaten, die durch die Faltungsschicht herauskommen, enthält.