DE102018116111A1

DE102018116111A1 - Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung

Info

Publication number: DE102018116111A1
Application number: DE102018116111.5A
Authority: DE
Inventors: Dan Levi; Noa Garnett; Ethan Fetaya; Shaul Oron
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2017-07-06
Filing date: 2018-07-03
Publication date: 2019-01-10
Anticipated expiration: 2038-07-04
Also published as: US10474908B2; DE102018116111B4; CN109214264A; US20190012548A1

Abstract

Ein Verfahren in einem Fahrzeug zum Durchführen mehrerer fahrzeugeigener Aufgaben, die gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen sind. Das Verfahren beinhaltet das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk und gleichzeitig unter Verwendung des faltenden neuronalen Netzwerks das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten bestimmt wird. Das neuronale Netzwerk kann Folgendes beinhalten: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, die Freiraumgrenzen in den Bildgebungssensordaten zu ermitteln, eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, die Richtung jedes Objekts abzuschätzen.

Description

TECHNISCHES GEBIET
Die vorliegende Offenbarung betrifft im Allgemeinen Fahrzeugbildverarbeitungssysteme und insbesondere das Verwenden von neuronalen Netzwerken in Fahrzeugbildverarbeitungssystemen.
HINTERGRUND
Bildverarbeitungssysteme können einem Fahrzeug erlauben, Objekte und Hindernisse auf der Straße vor sich zu erfassen. Bildverarbeitungssysteme können neuronale Netzwerke verwenden, um eine Objekterkennung durchzuführen. Die neuronalen Netzwerke können rechenintensiv sein. Die neuronalen Netzwerke können hohe Anforderungen an die rechnerischen Fähigkeiten eines Fahrzeugs stellen.
Dementsprechend ist es wünschenswert eine neuronale Netzwerkarchitektur bereitzustellen, die geringere Anforderungen an die rechnerischen Fähigkeiten des Fahrzeugs stellt. Außerdem werden andere wünschenswerte Merkmale und Eigenschaften der vorliegenden Erfindung aus der nachfolgenden ausführlichen Beschreibung der Erfindung und den hinzugefügten Ansprüchen in Verbindung mit den zugehörigen Zeichnungen und dem Hintergrund der Erfindung sichtbar.
KURZDARSTELLUNG
Ein prozessorimplementiertes Verfahren in einem Fahrzeug zum Durchführen mehrerer fahrzeugeigener Aufgaben, die gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen sind. Das Verfahren beinhaltet das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk und gleichzeitig unter Verwendung des faltenden neuronalen Netzwerks das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten bestimmt wird.
Das neuronale Netzwerk kann Folgendes beinhalten: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um die Freiraumgrenzen in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren, eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten und die Richtung jedes Objekts abzuschätzen.
Das neuronale Netzwerk kann ferner eine Vielzahl von Merkmalsschichten beinhalten, die ausgestaltet sind, den Satz von Merkmalen zu ermitteln, die als Eingaben zur Vielzahl von Schichten der Freiraumabschätzung, zur Vielzahl der Objekterfassungsschichten und zur Vielzahl der Objektstellungserfassungsschichten geteilt werden.
Die Schichten können unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet werden.
Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden.
Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden.
Die Richtung, die von den Objektstellungserfassungsschichten abgeschätzt wird, kann ein quantisierter Wert sein.
Das Verfahren kann ferner das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen, stückchenweise linearen (PL) Verlustfunktion beinhalten.
Das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen PL-Verlustfunktion kann Folgendes beinhalten: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
Das Verfahren kann ferner das Abschätzen eines gegenwärtigen und zukünftigen Weltzustands zur Verwendung durch das Fahrzeug unter Verwendung der abgeschätzten Begrenzungsrahmen, der Freiraumgrenzen und Objektstellungen beinhalten.
Ein prozessimplementiertes Verfahren zum Trainieren eines faltbaren neuronalen Netzwerks ist vorgesehen, um mindestens drei unterschiedliche Bilderfassungsaufgaben zur selben Zeit im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchzuführen. Das faltbare neuronale Netzwerk beinhaltet mindestens ein ersten Satz, einen zweiten Satz und einen dritten Satz von Aufgabenschichten und einen häufig verwendeten Satz von Merkmalsschichten, deren Ausgabe von jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten häufig verwendet wird. Jeder aus dem ersten, zweiten und dritten Satz von Aufgabenschichten muss trainiert werden, um eine unterschiedliche Aufgabe aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen. Das Verfahren beinhaltet das Trainieren des ersten Satzes von Aufgabenschichten und des Satzes von Merkmalsschichten, um Koeffizienten im ersten Satz der Aufgabenschichten und der Merkmalsschichten zu ermitteln, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, das Trainieren des zweiten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren, das Trainieren des dritten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren, und das erneute Trainieren des ersten, zweiten und dritten Satzes von Aufgabenschichten und der Merkmalsschichten, die zusammen die zuletzt ermittelten Koeffizienten für jede dieser Schichten als den Ausgangspunkt für das erneute Trainieren verwenden, um Koeffizienten in jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten und in den Merkmalsschichten, die die Verlustfunktionen jeden Satzes aus dem ersten, zweiten und dritten Satz von Aufgabenschichten minimieren, zu ermitteln.
Der erste Satz von Aufgabenschichten kann der erste Satz von Aufgabenschichten sein, für den die größte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die größte Qualität aufweisen.
Der zweite Satz von Aufgabenschichten kann der Satz von Aufgabenschichten sein, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die zweitgrößte Qualität aufweisen.
Eine Vielzahl von Objekterfassungsschichten kann als der erste Satz von Aufgabenschichten ausgewählt werden, eine Vielzahl von Objektstellungserfassungsschichten kann als der zweite Satz von Aufgabenschichten ausgewählt werden, und eine Vielzahl von Freiraumabschätzungsschichten kann als der dritte Satz von Aufgabenschichten ausgewählt werden.
Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden.
Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden.
Das Trainieren der Objektstellungserfassungsschichten kann das Ermitteln eines zyklischen stückweise linearen (PL) Verlustes beinhalten. Das Ermitteln des zyklischen PL-Verlustes kann Folgendes beinhalten: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
Ein prozessorimplementiertes Verfahren in einem Fahrzeug zum Ermitteln der Stellung eines vom Fahrzeug erfassten Objekts wird bereitgestellt. Das Verfahren beinhaltet das Trainieren unter Verwendung einer zyklischen PL-Verlustfunktion, eines faltenden neuronalen Netzwerkes, das eine Vielzahl von Objektstellungserfassungsschichten beinhaltet, die ausgestaltet sind, einen Satz von Merkmalen auszuwerten, die von Bildgebungssensordaten abgeleitet werden, die von einem Sensor am Fahrzeug erhalten werden, um die Richtung der erfassten Objekte abzuschätzen. Das Training unter Verwendung der zyklischen PL-Verlustfunktion beinhaltet das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad, zu jedem aus einer Vielzahl von Bins, das Zuweisen einer geschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins, mit zugewiesenen Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Das Verfahren beinhaltet ferner das Abschätzen unter Verwendung von Objektstellungserfassungsschichten einer Objektstellung für ein erfasstes Objekt in den Bildgebungssensordaten, die vom Sensor am Fahrzeug erhalten werden.
Das Zuweisen einer abgeschätzten Stellung zu den zwei Bins kann das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, beinhalten, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist.
Figurenliste
Aspekte der vorliegenden Offenbarung werden am besten aus der folgenden ausführlichen Beschreibung verstanden, wenn sie mit den zugehörigen Figuren gelesen wird, wobei gleiche Bezugszeichen gleiche Elemente bezeichnen, und

1 ist ein Blockdiagramm, das ein exemplarisches Fahrzeug gemäß einigen Ausführungsformen abbildet;
2 ist ein Blockdiagramm eines exemplarischen faltenden neuronalen Netzwerks, das mehrere fahrzeugeigene Erfassungsaufgaben unter gleichzeitiger Verwendung von Algorithmen zum tiefem maschinellen Lernen gemäß einigen Ausführungsformen durchführen kann;
3 ist ein Prozessflussdiagramm, das ein exemplarisches prozessorimplementiertes Verfahren zum Durchführen mehrerer fahrzeugeigener Erfassungsaufgaben abbildet, die sich unter Verwendung von Algorithmen zum tiefen maschinellen Lernen gemäß einigen Ausführungsformen gleichzeitig im selben neuronalen Netzwerk befinden;
4 ist ein Prozessflussdiagramm, das ein exemplarisches Verfahren zum Trainieren eines faltbaren neuronalen Netzwerks abbildet, um mindestens drei verschiedene Bilderfassungsaufgaben gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen gemäß einigen Ausführungsformen durchzuführen;
5 ist ein Blockdiagramm, das eine exemplarische Architektur zum Trainieren einer Vielzahl von Stellungsabschätzungsschichten gemäß einigen Ausführungsformen abbildet; und
6 bildet ein exemplarisches Bild ab, das mit Symbolen kommentiert ist, die von mehreren fahrzeugeigenen Erfassungsaufgaben abgeleitet werden, die gleichzeitig in einem neuronalen Netzwerk gemäß einigen Ausführungsformen durchgeführt werden.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende Offenbarung stellt viele verschiedene Ausführungsformen oder Beispiele für das Implementieren verschiedener Merkmale des bereitgestellten Gegenstands bereit. Die folgende ausführliche Beschreibung ist lediglich exemplarischer Natur und soll die Erfindung oder die Anwendung und die Verwendungen der Erfindung nicht einschränken. Darüber hinaus besteht keinerlei Verpflichtung zur Einschränkung auf eine der im vorstehenden Hintergrund oder in der folgenden ausführlichen Beschreibung dargestellten Theorien.
Der hierin beschriebene Gegenstand offenbart Vorrichtung, Systeme, Techniken und Artikel zum gleichzeitigen Durchführen mehrerer Bildgebungserfassungsaufgaben in einem Fahrzeug unter Verwendung eines neuronalen Netzwerks. Die beschriebenen Techniken stellen eine Netzwerkarchitektur bereit, worin eine Vielzahl von Merkmalsschichten von mehreren Sätzen von gleichzeitig ausführenden Aufgabenschichten geteilt werden. Eine Technik zum Trainieren des neuronalen Netzwerks wird ebenfalls bereitgestellt.
1 ist ein Blockdiagramm, das ein exemplarisches Fahrzeug 100 abbildet. Das exemplarische Fahrzeug 100 kann ein Kraftfahrzeug, einen Lastkraftwagen, einen Bus, ein Motorrad oder Sonstiges umfassen. Das exemplarische Fahrzeug 100 beinhaltet einen exemplarischen Bildgebungssensor 102 und ein exemplarisches Bildgebungssystem 104. Der exemplarische Bildgebungssensor 102 erfasst beobachtbare Bedingungen in der Nähe des Fahrzeugs 100 und kann eine Kamera, ein Lidar, ein Radar oder Sonstiges umfassen. Der exemplarische Bildgebungssensor 102 erzeugt Bildgebungssensordaten, die durch das exemplarische Bildgebungssystem 104 verwendet werden. In diesem Beispiel ist der exemplarische Bildgebungssensor 102 eine Kamera, die visuelle Bilder einer sich außerhalb des Fahrzeugs 100 befindlichen Szene in Form von Bildgebungsdaten erzeugt.
Das exemplarische Bildgebungssystem 104 erhält die Bildgebungsdaten und verarbeitet die Bildgebungsdaten, um mehrere fahrzeugeigene Erfassungsaufgaben durchzuführen. Das exemplarische Bildgebungssystem 104 umfasst einen oder mehrere Prozessoren innerhalb des Fahrzeugs, die durch die in computerlesbaren Medien kodierten Programmieranweisungen ausgestaltet sind. Das exemplarische Bildgebungssystem 104 kann zur selben Zeit mehrere fahrzeugeigene Erfassungsaufgaben in einem neuronalen Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchführen, die in computerlesbaren Medien kodiert und durch den einen oder die mehreren Prozessoren ausgeführt werden. Exemplarische bordeigene Erfassungsaufgaben, die durch das exemplarische Bildgebungssystem 104 durchgeführt werden, können Objekterfassung, Freiraumerfassung und Objektstellungserfassung beinhalten. Andere Systeme in dem Fahrzeug 100 können Ausgaben von bordeigenen Erfassungsaufgaben verwenden, die durch das exemplarische Bildgebungssystem 104 durchgeführt werden, um gegenwärtige und zukünftige Weltzustände 100 abzuschätzen, zum Beispiel in einem autonomen Fahrmodus oder einem semiautonomen Fahrmodus.
Jede bordeigene Erfassungsaufgabe kann unterschiedliche Rechenmethoden verwenden. Jede Aufgabe kann Algorithmen zum tiefen maschinellen Lernen verwenden und mit Rechenressourcen konkurrieren. Tiefes Lernen (auch als tiefes strukturiertes Lernen, hierarchisches Lernen oder tiefes maschinelles Lernen bekannt) ist eine Klasse von Algorithmen zum maschinellen Lernen, die eine Kaskade von mehreren Schichten von nichtlinearen Verarbeitungseinheiten zur Extraktion und Transformation von Merkmalen verwendet. Jede aufeinanderfolgende Schicht verwendet die Ausgabe von den vorhergehenden Schichten als Eingabe.
2 ist ein Blockdiagramm eines exemplarischen faltenden neuronalen Netzwerks 200, das mehrere fahrzeugeigene Erfassungsaufgaben unter gleichzeitigem Verwenden von Algorithmen zum tiefen maschinellen Lernen durchführen kann. Das exemplarische neuronale Netzwerk 200 beinhaltet eine Vielzahl von faltenden Merkmalsschichten 202, die von einem Bildgebungssensor (nicht dargestellt) ein Eingabebild 204, zum Beispiel in Form eines RGB-Signals, empfangen. Die Merkmalsschichten 202 sind ausgestaltet, einen Satz von Merkmalen zu ermitteln, die als Eingaben zu einer Vielzahl von oberen faltenden Bildgebungsaufgabenschichten geteilt werden. Die exemplarischen Merkmalsschichten 202 können unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet werden.
Die oberen Bildgebungsaufgabenschichten umfassen in diesem Beispiel eine Vielzahl von faltenden Schichten der Freiraumabschätzung 206, eine Vielzahl von faltenden Objekterfassungsschichten 208 und eine Vielzahl von faltenden Objektstellungserfassungsschichten 210. Die Vielzahl von Schichten der Freiraumabschätzung 206 ist ausgestaltet, den Satz von Merkmalen auszuwerten, und die Grenzen des Freiraums im Eingabebild 204 relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren. In diesem Beispiel werden Grenzen mit Stixel markiert. Die Vielzahl der Objekterfassungsschichten 208 ist ausgestaltet, den Satz von Merkmalen auszuwerten, um Objekte im Bild 204 zu erfassen, und um Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben. Die Vielzahl der Objektstellungserfassungsschichten 210 ist ausgestaltet, den Satz von Merkmalen auszuwerten, um die Richtung jedes erfassten Objekts abzuschätzen. Das Erfassen der Richtung des Objekts, d. h. die Stellung des Objekts kann Fahrzeugsystemen erlauben, die Bewegung jedes erfassten Objekts vorherzusagen.
Das exemplarische faltende neuronale Netzwerk 200 ist über die Schichten der Freiraumabschätzung 206, die Vielzahl der faltenden Objekterfassungsschichten 208 und die Vielzahl der faltenden Objektstellungserfassungsschichten 210 ausgestaltet, Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen und Objektstellungen für erfasste Objekte von dem Satz der Merkmale, die durch die gemeinsam geteilten Merkmalsschichten 202 bestimmt werden, zur selben Zeit abzuschätzen. Die Architektur des exemplarischen neuronalen Netzwerkes 200 kann im Vergleich zu einer Architektur, die die Freiraumabschätzungaufgabe, die Objekterfassungsaufgabe und die Objektstellungsaufgabe separat in unterschiedlichen neuronalen Netzwerken durchführt, zu einer effizienteren Nutzung der rechnerischen Ressourcen führen. Das exemplarische neuronale Netzwerk 200 kann die Merkmalsschichten unter Verwendung einer Einrichtungsnetzarchitektur, die Objekterfassungsschichten unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur, und die Schichten der Freiraumabschätzung unter Verwendung einer StixelNet-Architektur implementieren. Ein Beispiel der SSD-Architektur wird in „SSD: Single Shot MultiBox Detector“ von Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, und Alexander C. Berg bereitgestellt.
Die StixelNet-Architektur arbeitet auf Säulenabschnitten (z. B. Stixeln) eines Bildes. Die StixelNet-Architektur kann fünf Schichten beinhalten, in denen die ersten zwei Schichten faltend sind und die letzten drei vollständig verbunden sind. Die StixelNet-Architektur kann auch das Ermitteln eines stückweise linearen Wahrscheinlichkeitsverlustes umfassen. Ein Beispiel der Verwendung von Stixel und der StixelNet-Architektur ist in der US-Patent-Anmeldungsnr. 15/085082 an Dan Levi mit dem Titel „Dynamic stixel estimation using a single moving camera“, die hierin durch Bezugnahme miteinbezogen ist; US-Patent-Anmeldungsnr. 15/092853 an Dan Levi und Noa Garnett mit dem Titel „Stixel estimation and road scene segmentation using deep learning“, die hierin durch Bezugnahme miteinbezogen ist; und „StixelNet: A Deep Convolutional Network for Obstacle Detection and Road Segmentation“ von Dan Levi, Noa Garnett, Ethan Fetaya, die hierin durch Bezugnahme miteinbezogen ist.
Die Stellungsbestimmungsschichten werden mit dem Ziel des Minimierens einer zyklischen, stückweisen, linearen Verlustfunktion bereitgestellt. Der Fehler zwischen einer Stellungsvorhersage und der Bodenwahrheitsstellung wird als eine Winkeldifferenz gemessen. Zum Beispiel kann die Stellungsvorhersage vorhersagen, dass ein erfasstes Objekt bei einem 15-Grad Winkel gerichtet ist, während die Wahrheitsstellung besagt, dass das erfasste Objekt bei einem 18-Grad Winkel gerichtet ist. In diesem Fall beträgt die Winkeldifferenz 3 Grad.
3 ist ein Prozessflussdiagramm, das ein exemplarisches prozessorimplementiertes Verfahren 300 zum Durchführen mehrerer fahrzeugeigener Erfassungsaufgaben abbildet, die sich unter Verwendung von Algorithmen zum tiefen maschinellen Lernen gleichzeitig im selben neuronalen Netzwerk befinden. Das exemplarische Verfahren 300 beinhaltet das Erhalten eines Eingabebilds (Vorgang 302) von einem Bildsensor. Der Bildsensor kann eine am Fahrzeug angebrachte Kamera sein, die ein RGB-Bild als Eingabebild bereitstellt.
Ein Satz von Merkmalen von dem Eingabebild wird abgeschätzt (Vorgang 304). Der Satz von Merkmalen kann von einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk abgeschätzt werden. Die Vielzahl von Merkmalsschichten kann unter Verwendung einer Einrichtungsnetzarchitektur implementiert werden.
Von dem Satz von Merkmalen wird eine Vielzahl von Bildgebungserfassungsaufgaben gleichzeitig durchgeführt. In diesem Beispiel beinhalten die gleichzeitig durchgeführten Bilderfassungsaufgaben das Abschätzen von Begrenzungsrahmen für erfasste Optionen (Vorgang 306), das Abschätzen von Freiraumgrenzen (Vorgang 308) und das Abschätzen der Stellung von erfassten Objekten (Vorgang 310). Die Begrenzungsrahmen für erfasste Objekte können durch eine Vielzahl von Objekterfassungsschichten in dem faltenden neuronalen Netzwerk, das unter Verwendung einer SSD-Architektur ausgestaltet werden kann, abgeschätzt werden. Die Freiraumgrenzen in dem faltenden neuronalen Netzwerk können durch eine Vielzahl von Erfassungsschichten für Freiraumgrenzen, die unter Verwendung einer StixelNet-Architektur ausgestaltet sein können, abgeschätzt werden.
Die Objektstellung kann in dem faltenden neuronalen Netzwerk durch eine Vielzahl von Objektstellungserfassungsschichten abgeschätzt werden. Die Objektstellungserfassungsschichten können mit dem Ziel des Minimierens einer zyklischen, stückweise linearen Verlustfunktion ausgestaltet werden. Die Richtung, die von den Objektstellungserfassungsschichten abgeschätzt wird, kann ein quantisierter Wert sein. In einem Beispiel kann die Richtung eine von acht unterschiedlichen quantisierten Werten sein. Die Objektstellungserfassungsschichten können unter Verwendung einer zyklischen, stückweise linearen (PL) Verlustfunktion trainiert werden, die einen zyklischen PL-Verlust bestimmt. Das Ermitteln des zyklischen PL-Verlusts kann Folgendes beinhalten: das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad zu jeder aus einer Vielzahl von Bins, das Zuweisen einer abgeschätzten Stellung zu einem Bin, wenn der abgeschätzte Stellungswert dem Wert gleicht, der dem einen Bin zugewiesen wird, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
4 ist ein Prozessflussdiagramm, das ein exemplarisches Verfahren 400 zum Trainieren eines faltbaren neuronalen Netzwerks abbildet, um mindestens drei verschiedene Bilderfassungsaufgaben gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchzuführen. In diesem Beispiel beinhaltet das faltende neuronale Netzwerk mindestens einen ersten Satz, einen zweiten Satz, und einen dritten Satz von Aufgabenschichten und eine häufig verwendete Vielzahl von Merkmalsschichten, deren Ausgabe häufig von jedem aus dem ersten, dem zweiten, und dem dritten Satz von Aufgabenschichten verwendet wird. In diesem Beispiel muss jeder aus dem ersten, dem zweiten, und den dritten Satz von Aufgabenschichten trainiert werden, um eine unterschiedliche Aufgabe aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen.
Das exemplarische Verfahren 400 beinhaltet das Trainieren des ersten Satzes von Aufgabenschichten und der Merkmalsschichten (Vorgang 402), um Koeffizienten im ersten Satz von Aufgabenschichten und die Vielzahl von Merkmalsschichten, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, zu ermitteln. Der erste Satz von Aufgabenschichten und die Vielzahl von Merkmalsschichten werden vollständig trainiert, als ob sie die einzigen Schichten im neuronalen Netzwerk wären.
Das exemplarische Verfahren 400 beinhaltet als Nächstes das Trainieren des zweiten Satzes von Aufgabenschichten, während die Koeffizienten in den an ihre letzten ermittelten Werte (Vorgang 404) fixierten Merkmalsschichten gehalten werden, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren.
Als Nächstes beinhaltet das exemplarische Verfahren 400 das Trainieren des dritten Satzes von Aufgabenschichten, während die Koeffizienten in den an ihre letzten ermittelten Werte (Vorgang 406) fixierten Merkmalsschichten gehalten werden, um die Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren.
Schließlich werden der erste, der zweite, und der dritte Satz von Aufgabenschichten und die Merkmalsschichten, unter Verwendung der letzten ermittelten Koeffizienten für jede dieser Schichten als der Ausgangspunkt für das Trainieren zusammen trainiert (Vorgang 408), um Koeffizienten in jedem aus dem ersten, dem zweiten, und dem dritten Satz von Aufgabenschichten und in den Merkmalsschichten zu ermitteln, die die Verlustfunktion für jeden aus dem ersten, dem zweiten, und im dritten Satz von Aufgabenschichten minimieren.
In dem exemplarischen Verfahren 400 kann der Satz von Aufgabenschichten, für den die größte Menge von Trainingsdaten zur Verfügung steht, als der erste Satz von Aufgabenschichten ausgewählt werden. Der Satz von Aufgabenschichten, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht, kann als der zweite Satz von Aufgabenschichten ausgewählt werden.
In dem veranschaulichten Beispiel wird eine Vielzahl von Objekterfassungsschichten als der erste Satz von Aufgabenschichten ausgewählt. Die Vielzahl von Objekterfassungsschichten wird ausgewählt, um trainiert zu werden, um Objekte in einem Bild zu erfassen und Begrenzungsrahmen, die die erfassten Objekte umgeben, abzuschätzen.
In dem veranschaulichten Beispiel wird eine Vielzahl von Objektstellungserfassungsschichten als der zweite Satz von Aufgabenschichten ausgewählt. Die Vielzahl von Objektstellungserfassungsschichten wird ausgewählt, um trainiert zu werden, um die Objektstellung der erfassten Objekte zu ermitteln.
In dem veranschaulichten Beispiel wird auch eine Vielzahl von Schichten der Freiraumabschätzung als der dritte Satz von Aufgabenschichten ausgewählt. Die Vielzahl der Schichten der Freiraumabschätzung wird ausgewählt, um trainiert zu werden, um den Satz von Merkmalen auszuwerten, um die Begrenzungen des Freiraums in einem Eingabebild zu ermitteln und um Freiraumbegrenzungen zu markieren.
5 ist ein Blockdiagramm, das eine exemplarische Architektur 500 zum Trainieren einer Vielzahl von Stellungsabschätzungsschichten abbildet. Die Stellungsabschätzungsschichten werden mit Merkmalsdaten von einem Bild präsentiert und betätigt, um eine vorhergesagte Stellung 502 für ein Objekt in dem Bild abzuschätzen. Die vorhergesagte Stellung 502 wird mit den wahren Stellungsinformationen 504 verglichen, um einen Fehler in einer zyklischen, stückweise linearen Verlustfunktion 506 abzuschätzen. Die stückweise, lineare Verlustfunktion 506 ist daran gewöhnt, die Objektstellungserfassungsschichten 508 zu trainieren. Die Objektstellungserfassungsschichten 508 werden mit Merkmalsdaten von einem anderen Bild präsentiert und betätigt, um eine vorhergesagte Stellung 502 für ein Objekt in dem neuen Bild abzuschätzen. Die vorhergesagte Stellung 502 wird erneut mit den wahren Stellungsinformationen 504 verglichen, um einen Fehler in einer zyklischen, stückweise linearen Verlustfunktion 506 abzuschätzen, und im Gegenzug ist die stückweise lineare Verlustfunktion 506 daran gewöhnt, die Objektstellungserfassungsschichten 508 zu trainieren. Dieses Trainingsverfahren kann solange wiederholt werden, bis die Fehlerabschätzung von der zyklischen, stückweise linearen Verlustfunktion 506 auf ein annehmbares Niveau konvergiert.
Die exemplarische, zyklische, stückweise lineare Verlustfunktion 506 ist sich mit einer stückweise linearen Verlustfunktion dahingehend ähnlich, dass beide davon, Messungen in einem oder zwei Bins klassifizieren. Die exemplarische, zyklische, stückweise lineare Verlustfunktion 506, die daran gewöhnt ist, die exemplarischen Stellungserfassungsschichten 508 zu trainieren, beinhaltet das Zuordnen von Stellungsabschätzungen in Bins. Da eine Stellung des Objekts als eine Richtung relativ zu einem Punkt auf einem Fahrzeug abgeschätzt wird, kann die Stellung einen Wert zwischen null und 360 Grad aufweisen. In dem Beispiel, in dem die zyklische, stückweise lineare Verlustfunktion 506 daran gewöhnt ist, exemplarische Stellungserfassungsschichten 508 zu trainieren, wird eine Vielzahl von Bins bereitgestellt und jedem Bin wird ein bestimmter Wert zwischen null und 360 Grad zugewiesen.
Das Abschätzen eines Fehlers unter Verwendung der exemplarischen zyklischen, stückweise linearen Verlustfunktion 506 kann das Zuweisen einer abgeschätzten Stellung in einem oder zwei der Bins beinhalten. Wenn die Stellungsabschätzung einen Wert aufweist, der dem Wert eines Bin gleicht, wird die Stellungsabschätzung dem einen Bin zugeordnet, der denselben Wert aufweist. Wenn die Stellungsabschätzung einen Wert aufweist, der sich zwischen zwei Bin-Werten befindet, wird die Stellungsabschätzung den zwei Bins mit den Werten zugewiesen, die demjenigen der Stellungsabschätzung am Nächsten liegt. Ein Gewichtungsfaktor kann angewendet werden, wenn die Zuweisung auf die zwei Bins angewandt wird. Der angewendete Gewichtungsfaktor kann invers proportional zum Abstand des abgeschätzten Stellungswerts von dem Bin-Mittelwert sein.
Ein Fehler kann durch Subtrahieren der abgeschätzten Stellung eines Objekts von der wahren Stellung berechnet werden. Als ein Beispiel kann die wahre Stellung eines Objekts 17 Grad betragen, die Abschätzung kann 13 Grad betragen und der Fehler kann als 4 Grad zum Ausdruck gebracht werden. Wenn die Stellung sich nahe null Grad /360-Grad Cross-Over-Punkt befindet, kann die Fehlerberechnung etwas komplizierter werden. Als ein Beispiel, wenn die wahre Stellung 358 Grad beträgt und die abgeschätzte Stellung vier Grad beträgt, dann kann der Fehler nur sechs Grad und nicht 354 Grad betragen. Um dies zu berücksichtigen kann die exemplarische zyklische, stückweise lineare Verlustfunktion 506 erlauben, dass die abgeschätzte Stellung sowohl in dem Bin mit einem Wert der 360 Grad am Nächsten liegt, als auch im Bin mit dem Wert, der null Grad am Nächsten liegt, platziert wird.
Demnach kann das Verwenden der exemplarischen, zyklischen, Weise linearen Verlustfunktion 506, um die exemplarischen Stellungserfassungsschichten 508 zu trainieren, Folgendes beinhalten: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad zu jeder aus einer Vielzahl von Bins, das Zuweisen einer abgeschätzten Stellung zu einem Bin, wenn der abgeschätzte Stellungswert dem Wert gleicht, der dem einen Bin zugewiesen wurde, das Zuweisen einer abgeschätzten Stellung zu zwei Bins, wenn der abgeschätzte Stellungswert zwischen zwei Werten fällt, die den zwei Bins zugewiesen wurden, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Ein Gewichtungsfaktor kann angewendet werden, wenn die Zuweisung auf die zwei Bins angewendet wird. Der angewendete Gewichtungsfaktor kann invers proportional zum Abstand des abgeschätzten Stellungswerts von dem Bin-Mittelwert sein.
In 6 ist ein exemplarisches Bild 600 abgebildet, das mit Symbolen kommentiert ist, die von den mehreren fahrzeugeigenen Erfassungsaufgaben abgeleitet wurden, die gleichzeitig in einem neuronalen Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchgeführt werden. Das exemplarische Bild 600 wurde mit dem Folgenden kommentiert: durch Objekterfassungsschichten abgeschätzte Begrenzungsrahmen 602, die die erfassten Objekte in dem Bild 600 umgeben, durch Schichten der Freiraumabschätzung abgeschätzte Stixel 604, die die Begrenzungen des Freiraums in dem Bild 600 definieren, und durch Objektstellungserfassungsschichten abgeschätzte Pfeile 606, die die Stellung Richtung der erfassten Objekte in dem Bild 600 identifizieren.
Hierin werden Techniken zum gleichzeitigen Durchführen mehrerer Bildgebungserfassungsaufgaben in einem Fahrzeug unter Verwendung eines neuronalen Netzwerks beschrieben. Die beschriebenen Techniken stellen eine Netzwerkarchitektur bereit, worin eine Vielzahl von Merkmalsschichten von mehreren Sätzen von gleichzeitig ausführenden Aufgabenschichten geteilt werden. Eine Technik zum Trainieren des neuronalen Netzwerks wird ebenfalls bereitgestellt.
In einer Ausführungsform ist ein prozessorimplementiertes Verfahren zum Durchführen mehrerer fahrzeugeigener Aufgaben, die sich gleichzeitig im selben Netzwerk befinden, unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen. Das Verfahren umfasst das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk und gleichzeitig unter Verwendung des faltenden neuronalen Netzwerks das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten bestimmt wird.
Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Das neuronale Netzwerk kann Folgendes umfassen: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um die Freiraumgrenzen in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren, eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten und die Richtung jedes Objekts abzuschätzen. Das neuronale Netzwerk kann ferner eine Vielzahl von Merkmalsschichten umfassen, die ausgestaltet sind, den Satz von Merkmalen zu ermitteln, die als Eingaben zur Vielzahl von Schichten der Freiraumabschätzung, zur Vielzahl der Objekterfassungsschichten und zur Vielzahl der Objektstellungserfassungsschichten geteilt werden. Die Schichten können unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet werden. Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden. Die StixelNet-Architektur kann fünf Schichten umfassen, in denen die ersten zwei Schichten faltend sind und die letzten drei vollständig verbunden sind. Das Trainieren der StixelNet-Architektur kann das Ermitteln eines stückweise linearen Wahrscheinlichkeitsverlustes umfassen. Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden. Die Richtung, die von den Objektstellungserfassungsschichten abgeschätzt wird, kann ein quantisierter Wert sein. Die Richtung kann einer von acht unterschiedlichen quantisierten Werten sein. Das Verfahren kann ferner das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen, stückchenweise linearen (PL) Verlustfunktion umfassen. Das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen PL-Verlustfunktion kann Folgendes umfassen: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Die Anzahl der Bins kann gleich acht sein. Das Verfahren kann ferner das Abschätzen eines gegenwärtigen und zukünftigen Weltzustands zur Verwendung durch das Fahrzeug unter Verwendung der abgeschätzten Begrenzungsrahmen, der Freiraumgrenzen und Objektstellungen umfassen.
In einer Ausführungsform ist ein prozessimplementiertes Verfahren zum Trainieren eines faltbaren neuronalen Netzwerks vorgesehen, um mindestens drei unterschiedliche Bilderfassungsaufgaben zur selben Zeit im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchzuführen. Das faltbare neuronale Netzwerk umfasst mindestens ein ersten Satz, einen zweiten Satz und einen dritten Satz von Aufgabenschichten und einen häufig verwendeten Satz von Merkmalsschichten, deren Ausgabe von jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten häufig verwendet wird. Jeder aus dem ersten, zweiten und dritten Satz von Aufgabenschichten muss trainiert werden, um eine unterschiedliche Aufgabe aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen. Das Verfahren umfasst das Trainieren des ersten Satzes von Aufgabenschichten und des Satzes von Merkmalsschichten, um Koeffizienten im ersten Satz der Aufgabenschichten und der Merkmalsschichten zu ermitteln, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, das Trainieren des zweiten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren, das Trainieren des dritten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren, und das erneute Trainieren des ersten, zweiten und dritten Satzes von Aufgabenschichten und der Merkmalsschichten, die zusammen die zuletzt ermittelten Koeffizienten für jede dieser Schichten als den Ausgangspunkt für das erneute Trainieren verwenden, um Koeffizienten in jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten und in den Merkmalsschichten, die die Verlustfunktionen jeden Satzes aus dem ersten, zweiten und dritten Satz von Aufgabenschichten minimieren, zu ermitteln.
Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Der erste Satz von Aufgabenschichten kann der erste Satz von Aufgabenschichten sein, für den die größte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die größte Qualität aufweisen. Der zweite Satz von Aufgabenschichten kann der Satz von Aufgabenschichten sein, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die zweitgrößte Qualität aufweisen. Eine Vielzahl von Objekterfassungsschichten kann als der erste Satz von Aufgabenschichten ausgewählt werden, eine Vielzahl von Objektstellungserfassungsschichten kann als der zweite Satz von Aufgabenschichten ausgewählt werden, und eine Vielzahl von Freiraumabschätzungsschichten kann als der dritte Satz von Aufgabenschichten ausgewählt werden. Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden. Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden. Das Trainieren der Objektstellungserfassungsschichten kann das Ermitteln eines zyklischen stückweise linearen (PL) Verlustes umfassen. Das Ermitteln des zyklischen PL-Verlustes kann Folgendes umfassen: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
In einer anderen Ausführungsform ist gleichzeitig ein prozessorimplementiertes Erfassungssystem in einem Fahrzeug zum gleichzeitigen Durchführen einer Freiraumabschätzung, einer Objekterfassung und einer Objektstellungserfassung auf Bildgebungssensordaten vorgesehen. Das Erfassungssystem umfasst einen oder mehrere Prozessoren und nichtflüchtige, computerlesbare Medien, die mit Programmieranweisungen kodiert sind, die konfigurierbar sind, um einen oder mehrere Prozessoren zum Durchführen eines Verfahrens zu veranlassen. Das Verfahren umfasst Folgendes: das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk, und das gleichzeitige Abschätzen unter Verwendung des faltbaren neuronalen Netzwerks der Begrenzungsrahmen für erfasste Objekte unter Verwendung einer Vielzahl von Objekterfassungsschichten im faltbaren neuronalen Netzwerk, das ausgestaltet ist, den Satz von Merkmalen auszuwerten, um Objekte in dem Bild zu erfassen und um Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, Freiraumbegrenzungen unter Verwendung einer Vielzahl von Schichten der Freiraumabschätzung in dem faltbaren neuronalen Netzwerk, das ausgestaltet ist, den Satz von Merkmalen auszuwerten, um die Begrenzungen des Freiraums in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Begrenzungen zu markieren und die Objektstellungen für erfasste Objekte unter Verwendung einer Vielzahl von Objektstellungserfassungsschichten in dem faltbaren neuronalen Netzwerk, das ausgestaltet ist, den Satz von Merkmalen auszuwerten, um die Richtung jedes Objekts abzuschätzen.
Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Das Verfahren kann ferner das Abschätzen eines gegenwärtigen und zukünftigen Weltzustands zur Verwendung durch das Fahrzeug unter Verwendung der abgeschätzten Begrenzungsrahmen, der Freiraumgrenzen und Objektstellungen umfassen.
In einer anderen Ausführungsform ist ein prozessorimplementiertes Verfahren in einem Fahrzeug zum Ermitteln der Stellung eines vom Fahrzeug erfassten Objekts vorgesehen. Das Verfahren umfasst das Trainieren unter Verwendung einer zyklischen PL-Verlustfunktion, eines faltenden neuronalen Netzwerkes, das eine Vielzahl von Objektstellungserfassungsschichten beinhaltet, die ausgestaltet sind, einen Satz von Merkmalen auszuwerten, die von Bildgebungssensordaten abgeleitet werden, die von einem Sensor am Fahrzeug erhalten werden, um die Richtung der erfassten Objekte abzuschätzen. Das Training unter Verwendung der zyklischen PL-Verlustfünktion umfasst das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad, zu jedem aus einer Vielzahl von Bins, das Zuweisen einer geschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins, mit zugewiesenen Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Das Verfahren umfasst ferner das Abschätzen unter Verwendung von Objektstellungserfassungsschichten einer Objektstellung für ein erfasstes Objekt in den Bildgebungssensordaten, die vom Sensor am Fahrzeug erhalten werden.
Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Das Zuweisen einer abgeschätzten Stellung zu den zwei Bins kann das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, umfassen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist.
Das Vorangehende umreißt Merkmale verschiedener Ausführungsformen, sodass der Fachmann auf dem Gebiet die Aspekte der vorliegenden Offenbarung besser verstehen kann. Der Fachmann auf dem Gebiet sollte erkennen, dass er die vorliegende Offenbarung ohne weiteres als Grundlage für das Entwerfen oder Modifizieren anderer Verfahren und Strukturen für das Ausführen der gleichen Zwecke und/oder für das Erreichen der gleichen Vorteile der hierin vorgestellten Ausführungsformen verwenden kann. Der Fachmann auf dem Gebiet sollte auch erkennen, dass solche äquivalenten Konstruktionen nicht von dem Geist und Umfang der vorliegenden Offenbarung abweichen, und dass sie hierin verschiedene Änderungen, Ersetzungen und Abänderungen vornehmen können, ohne von dem Geist und Umfang der vorliegenden Offenbarung abzuweichen.

Claims

Prozessorimplementiertes Verfahren in einem Fahrzeug zum Durchführen mehrerer fahrzeugeigener Aufgaben, die gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen sind, das Verfahren umfassend: das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug; das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk; und und gleichzeitig, unter Verwendung des faltenden neuronalen Netzwerks, das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten ermittelt wird.
Verfahren nach Anspruch 1, worin das neuronale Netzwerk Folgendes umfasst: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um die Freiraumgrenzen in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren; eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben; und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten und die Richtung jedes Objekts abzuschätzen.
Verfahren nach Anspruch 2, worin: das neuronale Netzwerk ferner eine Vielzahl von Merkmalsschichten umfasst, die ausgestaltet sind, den Satz von Merkmalen zu ermitteln, die als Eingaben zur Vielzahl von Schichten der Freiraumabschätzung, zur Vielzahl der Objekterfassungsschichten und zur Vielzahl der Objektstellungserfassungsschichten geteilt werden; und die Schichten unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet sind.
Verfahren nach Anspruch 2, worin die Schichten der Freiraumabschätzung unter Verwendung einer StixelNet-Architektur ausgestaltet sind.
Verfahren nach Anspruch 2, worin die Objekterfassungsschichten unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet sind.
Verfahren nach Anspruch 2, ferner umfassend das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen stückweise linearen (PL) Verlustfunktion und worin das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen PL-Verlustfunktion Folgendes umfasst: Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins; Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist; und Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
Prozessorimplementiertes Verfahren zum Trainieren eines faltenden neuronalen Netzwerks, um mindestens drei verschiedene Bilderfassungsaufgaben gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefem maschinellen Lernen durchzuführen, wobei das faltende neuronale Netzwerk mindestens einen ersten Satz, einen zweiten Satz und einen dritten Satz von Aufgabenschichten und einen häufig verwendeten Satz von Merkmalsschichten umfasst, deren Ausgabe durch jeden aus dem ersten, zweiten und dritten Satz von Aufgabenschichten häufig verwendet wird, wobei jeder aus dem ersten, zweiten, und dritten Satz von Aufgabenschichten die trainiert werden soll, um eine unterschiedliche aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen, das Verfahren umfassend: das Trainieren des ersten Satzes von Aufgabenschichten und des Satzes von Merkmalsschichten, um Koeffizienten im ersten Satz von Aufgabenschichten und die Merkmalsschichten, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, zu ermitteln; das Trainieren des zweiten Satzes von Aufgabenschichten, während die Koeffizienten in den an ihre letzten ermittelten Werte fixierten Merkmalsschichten gehalten werden, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren; das Trainieren des dritten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren; und das erneute Trainieren des ersten, zweiten und dritten Satzes von Aufgabenschichten und der Merkmalsschichten, die zusammen die zuletzt ermittelten Koeffizienten für jede dieser Schichten als den Ausgangspunkt für das erneute Trainieren verwenden, um Koeffizienten in jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten und in den Merkmalsschichten, die die Verlustfunktionen jeden Satzes aus dem ersten, zweiten und dritten Satz von Aufgabenschichten minimieren, zu ermitteln.
Verfahren nach Anspruch 7, worin der erste Satz von Aufgabenschichten der Satz von Aufgabenschichten ist, für den die größte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den die Trainingsdaten, die die größte Qualität aufweisen, zur Verfügung steht; und worin der zweite Satz von Aufgabenschichten der Satz von Aufgabenschichten ist, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den die Trainingsdaten die zweitgrößte Qualität aufweisen, die zur Verfügung steht.
Prozessorimplementiertes Verfahren in einem Fahrzeug zum Ermitteln der Stellung eines vom Fahrzeug erfassten Objekts, das Verfahren umfassend: das Trainieren unter Verwendung einer zyklischen PL-Verlustfunktion, eines faltenden neuronalen Netzwerkes, das eine Vielzahl von Objektstellungserfassungsschichten beinhaltet, die ausgestaltet sind, einen Satz von Merkmalen auszuwerten, die von Bildgebungssensordaten abgeleitet werden, die von einem Sensor am Fahrzeug erhalten werden, um die Richtung der erfassten Objekte abzuschätzen; das Trainieren mit der zyklischen PL-Verlustfunktion umfassend: das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad zu jeder aus einer Vielzahl von Bins; das Zuweisen einer geschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins, mit zugewiesenen Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen; und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde; und das Abschätzen unter Verwendung von Objektstellungserfassungsschichten einer Objektstellung für ein erfasstes Objekt in den Bildgebungssensordaten, die vom Sensor am Fahrzeug erhalten werden.
Verfahren nach Anspruch 9, worin das Zuweisen einer abgeschätzten Stellung zu den zwei Bins Folgendes umfasst: das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, wobei der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist.