DE102018116111A1 - Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung - Google Patents

Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung Download PDF

Info

Publication number
DE102018116111A1
DE102018116111A1 DE102018116111.5A DE102018116111A DE102018116111A1 DE 102018116111 A1 DE102018116111 A1 DE 102018116111A1 DE 102018116111 A DE102018116111 A DE 102018116111A DE 102018116111 A1 DE102018116111 A1 DE 102018116111A1
Authority
DE
Germany
Prior art keywords
layers
task
value
estimated position
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102018116111.5A
Other languages
English (en)
Other versions
DE102018116111B4 (de
Inventor
Dan Levi
Noa Garnett
Ethan Fetaya
Shaul Oron
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102018116111A1 publication Critical patent/DE102018116111A1/de
Application granted granted Critical
Publication of DE102018116111B4 publication Critical patent/DE102018116111B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

Ein Verfahren in einem Fahrzeug zum Durchführen mehrerer fahrzeugeigener Aufgaben, die gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen sind. Das Verfahren beinhaltet das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk und gleichzeitig unter Verwendung des faltenden neuronalen Netzwerks das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten bestimmt wird. Das neuronale Netzwerk kann Folgendes beinhalten: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, die Freiraumgrenzen in den Bildgebungssensordaten zu ermitteln, eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, die Richtung jedes Objekts abzuschätzen.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Offenbarung betrifft im Allgemeinen Fahrzeugbildverarbeitungssysteme und insbesondere das Verwenden von neuronalen Netzwerken in Fahrzeugbildverarbeitungssystemen.
  • HINTERGRUND
  • Bildverarbeitungssysteme können einem Fahrzeug erlauben, Objekte und Hindernisse auf der Straße vor sich zu erfassen. Bildverarbeitungssysteme können neuronale Netzwerke verwenden, um eine Objekterkennung durchzuführen. Die neuronalen Netzwerke können rechenintensiv sein. Die neuronalen Netzwerke können hohe Anforderungen an die rechnerischen Fähigkeiten eines Fahrzeugs stellen.
  • Dementsprechend ist es wünschenswert eine neuronale Netzwerkarchitektur bereitzustellen, die geringere Anforderungen an die rechnerischen Fähigkeiten des Fahrzeugs stellt. Außerdem werden andere wünschenswerte Merkmale und Eigenschaften der vorliegenden Erfindung aus der nachfolgenden ausführlichen Beschreibung der Erfindung und den hinzugefügten Ansprüchen in Verbindung mit den zugehörigen Zeichnungen und dem Hintergrund der Erfindung sichtbar.
  • KURZDARSTELLUNG
  • Ein prozessorimplementiertes Verfahren in einem Fahrzeug zum Durchführen mehrerer fahrzeugeigener Aufgaben, die gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen sind. Das Verfahren beinhaltet das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk und gleichzeitig unter Verwendung des faltenden neuronalen Netzwerks das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten bestimmt wird.
  • Das neuronale Netzwerk kann Folgendes beinhalten: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um die Freiraumgrenzen in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren, eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten und die Richtung jedes Objekts abzuschätzen.
  • Das neuronale Netzwerk kann ferner eine Vielzahl von Merkmalsschichten beinhalten, die ausgestaltet sind, den Satz von Merkmalen zu ermitteln, die als Eingaben zur Vielzahl von Schichten der Freiraumabschätzung, zur Vielzahl der Objekterfassungsschichten und zur Vielzahl der Objektstellungserfassungsschichten geteilt werden.
  • Die Schichten können unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet werden.
  • Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden.
  • Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden.
  • Die Richtung, die von den Objektstellungserfassungsschichten abgeschätzt wird, kann ein quantisierter Wert sein.
  • Das Verfahren kann ferner das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen, stückchenweise linearen (PL) Verlustfunktion beinhalten.
  • Das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen PL-Verlustfunktion kann Folgendes beinhalten: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
  • Das Verfahren kann ferner das Abschätzen eines gegenwärtigen und zukünftigen Weltzustands zur Verwendung durch das Fahrzeug unter Verwendung der abgeschätzten Begrenzungsrahmen, der Freiraumgrenzen und Objektstellungen beinhalten.
  • Ein prozessimplementiertes Verfahren zum Trainieren eines faltbaren neuronalen Netzwerks ist vorgesehen, um mindestens drei unterschiedliche Bilderfassungsaufgaben zur selben Zeit im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchzuführen. Das faltbare neuronale Netzwerk beinhaltet mindestens ein ersten Satz, einen zweiten Satz und einen dritten Satz von Aufgabenschichten und einen häufig verwendeten Satz von Merkmalsschichten, deren Ausgabe von jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten häufig verwendet wird. Jeder aus dem ersten, zweiten und dritten Satz von Aufgabenschichten muss trainiert werden, um eine unterschiedliche Aufgabe aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen. Das Verfahren beinhaltet das Trainieren des ersten Satzes von Aufgabenschichten und des Satzes von Merkmalsschichten, um Koeffizienten im ersten Satz der Aufgabenschichten und der Merkmalsschichten zu ermitteln, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, das Trainieren des zweiten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren, das Trainieren des dritten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren, und das erneute Trainieren des ersten, zweiten und dritten Satzes von Aufgabenschichten und der Merkmalsschichten, die zusammen die zuletzt ermittelten Koeffizienten für jede dieser Schichten als den Ausgangspunkt für das erneute Trainieren verwenden, um Koeffizienten in jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten und in den Merkmalsschichten, die die Verlustfunktionen jeden Satzes aus dem ersten, zweiten und dritten Satz von Aufgabenschichten minimieren, zu ermitteln.
  • Der erste Satz von Aufgabenschichten kann der erste Satz von Aufgabenschichten sein, für den die größte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die größte Qualität aufweisen.
  • Der zweite Satz von Aufgabenschichten kann der Satz von Aufgabenschichten sein, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die zweitgrößte Qualität aufweisen.
  • Eine Vielzahl von Objekterfassungsschichten kann als der erste Satz von Aufgabenschichten ausgewählt werden, eine Vielzahl von Objektstellungserfassungsschichten kann als der zweite Satz von Aufgabenschichten ausgewählt werden, und eine Vielzahl von Freiraumabschätzungsschichten kann als der dritte Satz von Aufgabenschichten ausgewählt werden.
  • Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden.
  • Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden.
  • Das Trainieren der Objektstellungserfassungsschichten kann das Ermitteln eines zyklischen stückweise linearen (PL) Verlustes beinhalten. Das Ermitteln des zyklischen PL-Verlustes kann Folgendes beinhalten: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
  • Ein prozessorimplementiertes Verfahren in einem Fahrzeug zum Ermitteln der Stellung eines vom Fahrzeug erfassten Objekts wird bereitgestellt. Das Verfahren beinhaltet das Trainieren unter Verwendung einer zyklischen PL-Verlustfunktion, eines faltenden neuronalen Netzwerkes, das eine Vielzahl von Objektstellungserfassungsschichten beinhaltet, die ausgestaltet sind, einen Satz von Merkmalen auszuwerten, die von Bildgebungssensordaten abgeleitet werden, die von einem Sensor am Fahrzeug erhalten werden, um die Richtung der erfassten Objekte abzuschätzen. Das Training unter Verwendung der zyklischen PL-Verlustfunktion beinhaltet das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad, zu jedem aus einer Vielzahl von Bins, das Zuweisen einer geschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins, mit zugewiesenen Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Das Verfahren beinhaltet ferner das Abschätzen unter Verwendung von Objektstellungserfassungsschichten einer Objektstellung für ein erfasstes Objekt in den Bildgebungssensordaten, die vom Sensor am Fahrzeug erhalten werden.
  • Das Zuweisen einer abgeschätzten Stellung zu den zwei Bins kann das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, beinhalten, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist.
  • Figurenliste
  • Aspekte der vorliegenden Offenbarung werden am besten aus der folgenden ausführlichen Beschreibung verstanden, wenn sie mit den zugehörigen Figuren gelesen wird, wobei gleiche Bezugszeichen gleiche Elemente bezeichnen, und
    • 1 ist ein Blockdiagramm, das ein exemplarisches Fahrzeug gemäß einigen Ausführungsformen abbildet;
    • 2 ist ein Blockdiagramm eines exemplarischen faltenden neuronalen Netzwerks, das mehrere fahrzeugeigene Erfassungsaufgaben unter gleichzeitiger Verwendung von Algorithmen zum tiefem maschinellen Lernen gemäß einigen Ausführungsformen durchführen kann;
    • 3 ist ein Prozessflussdiagramm, das ein exemplarisches prozessorimplementiertes Verfahren zum Durchführen mehrerer fahrzeugeigener Erfassungsaufgaben abbildet, die sich unter Verwendung von Algorithmen zum tiefen maschinellen Lernen gemäß einigen Ausführungsformen gleichzeitig im selben neuronalen Netzwerk befinden;
    • 4 ist ein Prozessflussdiagramm, das ein exemplarisches Verfahren zum Trainieren eines faltbaren neuronalen Netzwerks abbildet, um mindestens drei verschiedene Bilderfassungsaufgaben gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen gemäß einigen Ausführungsformen durchzuführen;
    • 5 ist ein Blockdiagramm, das eine exemplarische Architektur zum Trainieren einer Vielzahl von Stellungsabschätzungsschichten gemäß einigen Ausführungsformen abbildet; und
    • 6 bildet ein exemplarisches Bild ab, das mit Symbolen kommentiert ist, die von mehreren fahrzeugeigenen Erfassungsaufgaben abgeleitet werden, die gleichzeitig in einem neuronalen Netzwerk gemäß einigen Ausführungsformen durchgeführt werden.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die folgende Offenbarung stellt viele verschiedene Ausführungsformen oder Beispiele für das Implementieren verschiedener Merkmale des bereitgestellten Gegenstands bereit. Die folgende ausführliche Beschreibung ist lediglich exemplarischer Natur und soll die Erfindung oder die Anwendung und die Verwendungen der Erfindung nicht einschränken. Darüber hinaus besteht keinerlei Verpflichtung zur Einschränkung auf eine der im vorstehenden Hintergrund oder in der folgenden ausführlichen Beschreibung dargestellten Theorien.
  • Der hierin beschriebene Gegenstand offenbart Vorrichtung, Systeme, Techniken und Artikel zum gleichzeitigen Durchführen mehrerer Bildgebungserfassungsaufgaben in einem Fahrzeug unter Verwendung eines neuronalen Netzwerks. Die beschriebenen Techniken stellen eine Netzwerkarchitektur bereit, worin eine Vielzahl von Merkmalsschichten von mehreren Sätzen von gleichzeitig ausführenden Aufgabenschichten geteilt werden. Eine Technik zum Trainieren des neuronalen Netzwerks wird ebenfalls bereitgestellt.
  • 1 ist ein Blockdiagramm, das ein exemplarisches Fahrzeug 100 abbildet. Das exemplarische Fahrzeug 100 kann ein Kraftfahrzeug, einen Lastkraftwagen, einen Bus, ein Motorrad oder Sonstiges umfassen. Das exemplarische Fahrzeug 100 beinhaltet einen exemplarischen Bildgebungssensor 102 und ein exemplarisches Bildgebungssystem 104. Der exemplarische Bildgebungssensor 102 erfasst beobachtbare Bedingungen in der Nähe des Fahrzeugs 100 und kann eine Kamera, ein Lidar, ein Radar oder Sonstiges umfassen. Der exemplarische Bildgebungssensor 102 erzeugt Bildgebungssensordaten, die durch das exemplarische Bildgebungssystem 104 verwendet werden. In diesem Beispiel ist der exemplarische Bildgebungssensor 102 eine Kamera, die visuelle Bilder einer sich außerhalb des Fahrzeugs 100 befindlichen Szene in Form von Bildgebungsdaten erzeugt.
  • Das exemplarische Bildgebungssystem 104 erhält die Bildgebungsdaten und verarbeitet die Bildgebungsdaten, um mehrere fahrzeugeigene Erfassungsaufgaben durchzuführen. Das exemplarische Bildgebungssystem 104 umfasst einen oder mehrere Prozessoren innerhalb des Fahrzeugs, die durch die in computerlesbaren Medien kodierten Programmieranweisungen ausgestaltet sind. Das exemplarische Bildgebungssystem 104 kann zur selben Zeit mehrere fahrzeugeigene Erfassungsaufgaben in einem neuronalen Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchführen, die in computerlesbaren Medien kodiert und durch den einen oder die mehreren Prozessoren ausgeführt werden. Exemplarische bordeigene Erfassungsaufgaben, die durch das exemplarische Bildgebungssystem 104 durchgeführt werden, können Objekterfassung, Freiraumerfassung und Objektstellungserfassung beinhalten. Andere Systeme in dem Fahrzeug 100 können Ausgaben von bordeigenen Erfassungsaufgaben verwenden, die durch das exemplarische Bildgebungssystem 104 durchgeführt werden, um gegenwärtige und zukünftige Weltzustände 100 abzuschätzen, zum Beispiel in einem autonomen Fahrmodus oder einem semiautonomen Fahrmodus.
  • Jede bordeigene Erfassungsaufgabe kann unterschiedliche Rechenmethoden verwenden. Jede Aufgabe kann Algorithmen zum tiefen maschinellen Lernen verwenden und mit Rechenressourcen konkurrieren. Tiefes Lernen (auch als tiefes strukturiertes Lernen, hierarchisches Lernen oder tiefes maschinelles Lernen bekannt) ist eine Klasse von Algorithmen zum maschinellen Lernen, die eine Kaskade von mehreren Schichten von nichtlinearen Verarbeitungseinheiten zur Extraktion und Transformation von Merkmalen verwendet. Jede aufeinanderfolgende Schicht verwendet die Ausgabe von den vorhergehenden Schichten als Eingabe.
  • 2 ist ein Blockdiagramm eines exemplarischen faltenden neuronalen Netzwerks 200, das mehrere fahrzeugeigene Erfassungsaufgaben unter gleichzeitigem Verwenden von Algorithmen zum tiefen maschinellen Lernen durchführen kann. Das exemplarische neuronale Netzwerk 200 beinhaltet eine Vielzahl von faltenden Merkmalsschichten 202, die von einem Bildgebungssensor (nicht dargestellt) ein Eingabebild 204, zum Beispiel in Form eines RGB-Signals, empfangen. Die Merkmalsschichten 202 sind ausgestaltet, einen Satz von Merkmalen zu ermitteln, die als Eingaben zu einer Vielzahl von oberen faltenden Bildgebungsaufgabenschichten geteilt werden. Die exemplarischen Merkmalsschichten 202 können unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet werden.
  • Die oberen Bildgebungsaufgabenschichten umfassen in diesem Beispiel eine Vielzahl von faltenden Schichten der Freiraumabschätzung 206, eine Vielzahl von faltenden Objekterfassungsschichten 208 und eine Vielzahl von faltenden Objektstellungserfassungsschichten 210. Die Vielzahl von Schichten der Freiraumabschätzung 206 ist ausgestaltet, den Satz von Merkmalen auszuwerten, und die Grenzen des Freiraums im Eingabebild 204 relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren. In diesem Beispiel werden Grenzen mit Stixel markiert. Die Vielzahl der Objekterfassungsschichten 208 ist ausgestaltet, den Satz von Merkmalen auszuwerten, um Objekte im Bild 204 zu erfassen, und um Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben. Die Vielzahl der Objektstellungserfassungsschichten 210 ist ausgestaltet, den Satz von Merkmalen auszuwerten, um die Richtung jedes erfassten Objekts abzuschätzen. Das Erfassen der Richtung des Objekts, d. h. die Stellung des Objekts kann Fahrzeugsystemen erlauben, die Bewegung jedes erfassten Objekts vorherzusagen.
  • Das exemplarische faltende neuronale Netzwerk 200 ist über die Schichten der Freiraumabschätzung 206, die Vielzahl der faltenden Objekterfassungsschichten 208 und die Vielzahl der faltenden Objektstellungserfassungsschichten 210 ausgestaltet, Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen und Objektstellungen für erfasste Objekte von dem Satz der Merkmale, die durch die gemeinsam geteilten Merkmalsschichten 202 bestimmt werden, zur selben Zeit abzuschätzen. Die Architektur des exemplarischen neuronalen Netzwerkes 200 kann im Vergleich zu einer Architektur, die die Freiraumabschätzungaufgabe, die Objekterfassungsaufgabe und die Objektstellungsaufgabe separat in unterschiedlichen neuronalen Netzwerken durchführt, zu einer effizienteren Nutzung der rechnerischen Ressourcen führen. Das exemplarische neuronale Netzwerk 200 kann die Merkmalsschichten unter Verwendung einer Einrichtungsnetzarchitektur, die Objekterfassungsschichten unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur, und die Schichten der Freiraumabschätzung unter Verwendung einer StixelNet-Architektur implementieren. Ein Beispiel der SSD-Architektur wird in „SSD: Single Shot MultiBox Detector“ von Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, und Alexander C. Berg bereitgestellt.
  • Die StixelNet-Architektur arbeitet auf Säulenabschnitten (z. B. Stixeln) eines Bildes. Die StixelNet-Architektur kann fünf Schichten beinhalten, in denen die ersten zwei Schichten faltend sind und die letzten drei vollständig verbunden sind. Die StixelNet-Architektur kann auch das Ermitteln eines stückweise linearen Wahrscheinlichkeitsverlustes umfassen. Ein Beispiel der Verwendung von Stixel und der StixelNet-Architektur ist in der US-Patent-Anmeldungsnr. 15/085082 an Dan Levi mit dem Titel „Dynamic stixel estimation using a single moving camera“, die hierin durch Bezugnahme miteinbezogen ist; US-Patent-Anmeldungsnr. 15/092853 an Dan Levi und Noa Garnett mit dem Titel „Stixel estimation and road scene segmentation using deep learning“, die hierin durch Bezugnahme miteinbezogen ist; und „StixelNet: A Deep Convolutional Network for Obstacle Detection and Road Segmentation“ von Dan Levi, Noa Garnett, Ethan Fetaya, die hierin durch Bezugnahme miteinbezogen ist.
  • Die Stellungsbestimmungsschichten werden mit dem Ziel des Minimierens einer zyklischen, stückweisen, linearen Verlustfunktion bereitgestellt. Der Fehler zwischen einer Stellungsvorhersage und der Bodenwahrheitsstellung wird als eine Winkeldifferenz gemessen. Zum Beispiel kann die Stellungsvorhersage vorhersagen, dass ein erfasstes Objekt bei einem 15-Grad Winkel gerichtet ist, während die Wahrheitsstellung besagt, dass das erfasste Objekt bei einem 18-Grad Winkel gerichtet ist. In diesem Fall beträgt die Winkeldifferenz 3 Grad.
  • 3 ist ein Prozessflussdiagramm, das ein exemplarisches prozessorimplementiertes Verfahren 300 zum Durchführen mehrerer fahrzeugeigener Erfassungsaufgaben abbildet, die sich unter Verwendung von Algorithmen zum tiefen maschinellen Lernen gleichzeitig im selben neuronalen Netzwerk befinden. Das exemplarische Verfahren 300 beinhaltet das Erhalten eines Eingabebilds (Vorgang 302) von einem Bildsensor. Der Bildsensor kann eine am Fahrzeug angebrachte Kamera sein, die ein RGB-Bild als Eingabebild bereitstellt.
  • Ein Satz von Merkmalen von dem Eingabebild wird abgeschätzt (Vorgang 304). Der Satz von Merkmalen kann von einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk abgeschätzt werden. Die Vielzahl von Merkmalsschichten kann unter Verwendung einer Einrichtungsnetzarchitektur implementiert werden.
  • Von dem Satz von Merkmalen wird eine Vielzahl von Bildgebungserfassungsaufgaben gleichzeitig durchgeführt. In diesem Beispiel beinhalten die gleichzeitig durchgeführten Bilderfassungsaufgaben das Abschätzen von Begrenzungsrahmen für erfasste Optionen (Vorgang 306), das Abschätzen von Freiraumgrenzen (Vorgang 308) und das Abschätzen der Stellung von erfassten Objekten (Vorgang 310). Die Begrenzungsrahmen für erfasste Objekte können durch eine Vielzahl von Objekterfassungsschichten in dem faltenden neuronalen Netzwerk, das unter Verwendung einer SSD-Architektur ausgestaltet werden kann, abgeschätzt werden. Die Freiraumgrenzen in dem faltenden neuronalen Netzwerk können durch eine Vielzahl von Erfassungsschichten für Freiraumgrenzen, die unter Verwendung einer StixelNet-Architektur ausgestaltet sein können, abgeschätzt werden.
  • Die Objektstellung kann in dem faltenden neuronalen Netzwerk durch eine Vielzahl von Objektstellungserfassungsschichten abgeschätzt werden. Die Objektstellungserfassungsschichten können mit dem Ziel des Minimierens einer zyklischen, stückweise linearen Verlustfunktion ausgestaltet werden. Die Richtung, die von den Objektstellungserfassungsschichten abgeschätzt wird, kann ein quantisierter Wert sein. In einem Beispiel kann die Richtung eine von acht unterschiedlichen quantisierten Werten sein. Die Objektstellungserfassungsschichten können unter Verwendung einer zyklischen, stückweise linearen (PL) Verlustfunktion trainiert werden, die einen zyklischen PL-Verlust bestimmt. Das Ermitteln des zyklischen PL-Verlusts kann Folgendes beinhalten: das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad zu jeder aus einer Vielzahl von Bins, das Zuweisen einer abgeschätzten Stellung zu einem Bin, wenn der abgeschätzte Stellungswert dem Wert gleicht, der dem einen Bin zugewiesen wird, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
  • 4 ist ein Prozessflussdiagramm, das ein exemplarisches Verfahren 400 zum Trainieren eines faltbaren neuronalen Netzwerks abbildet, um mindestens drei verschiedene Bilderfassungsaufgaben gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchzuführen. In diesem Beispiel beinhaltet das faltende neuronale Netzwerk mindestens einen ersten Satz, einen zweiten Satz, und einen dritten Satz von Aufgabenschichten und eine häufig verwendete Vielzahl von Merkmalsschichten, deren Ausgabe häufig von jedem aus dem ersten, dem zweiten, und dem dritten Satz von Aufgabenschichten verwendet wird. In diesem Beispiel muss jeder aus dem ersten, dem zweiten, und den dritten Satz von Aufgabenschichten trainiert werden, um eine unterschiedliche Aufgabe aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen.
  • Das exemplarische Verfahren 400 beinhaltet das Trainieren des ersten Satzes von Aufgabenschichten und der Merkmalsschichten (Vorgang 402), um Koeffizienten im ersten Satz von Aufgabenschichten und die Vielzahl von Merkmalsschichten, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, zu ermitteln. Der erste Satz von Aufgabenschichten und die Vielzahl von Merkmalsschichten werden vollständig trainiert, als ob sie die einzigen Schichten im neuronalen Netzwerk wären.
  • Das exemplarische Verfahren 400 beinhaltet als Nächstes das Trainieren des zweiten Satzes von Aufgabenschichten, während die Koeffizienten in den an ihre letzten ermittelten Werte (Vorgang 404) fixierten Merkmalsschichten gehalten werden, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren.
  • Als Nächstes beinhaltet das exemplarische Verfahren 400 das Trainieren des dritten Satzes von Aufgabenschichten, während die Koeffizienten in den an ihre letzten ermittelten Werte (Vorgang 406) fixierten Merkmalsschichten gehalten werden, um die Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren.
  • Schließlich werden der erste, der zweite, und der dritte Satz von Aufgabenschichten und die Merkmalsschichten, unter Verwendung der letzten ermittelten Koeffizienten für jede dieser Schichten als der Ausgangspunkt für das Trainieren zusammen trainiert (Vorgang 408), um Koeffizienten in jedem aus dem ersten, dem zweiten, und dem dritten Satz von Aufgabenschichten und in den Merkmalsschichten zu ermitteln, die die Verlustfunktion für jeden aus dem ersten, dem zweiten, und im dritten Satz von Aufgabenschichten minimieren.
  • In dem exemplarischen Verfahren 400 kann der Satz von Aufgabenschichten, für den die größte Menge von Trainingsdaten zur Verfügung steht, als der erste Satz von Aufgabenschichten ausgewählt werden. Der Satz von Aufgabenschichten, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht, kann als der zweite Satz von Aufgabenschichten ausgewählt werden.
  • In dem veranschaulichten Beispiel wird eine Vielzahl von Objekterfassungsschichten als der erste Satz von Aufgabenschichten ausgewählt. Die Vielzahl von Objekterfassungsschichten wird ausgewählt, um trainiert zu werden, um Objekte in einem Bild zu erfassen und Begrenzungsrahmen, die die erfassten Objekte umgeben, abzuschätzen.
  • In dem veranschaulichten Beispiel wird eine Vielzahl von Objektstellungserfassungsschichten als der zweite Satz von Aufgabenschichten ausgewählt. Die Vielzahl von Objektstellungserfassungsschichten wird ausgewählt, um trainiert zu werden, um die Objektstellung der erfassten Objekte zu ermitteln.
  • In dem veranschaulichten Beispiel wird auch eine Vielzahl von Schichten der Freiraumabschätzung als der dritte Satz von Aufgabenschichten ausgewählt. Die Vielzahl der Schichten der Freiraumabschätzung wird ausgewählt, um trainiert zu werden, um den Satz von Merkmalen auszuwerten, um die Begrenzungen des Freiraums in einem Eingabebild zu ermitteln und um Freiraumbegrenzungen zu markieren.
  • 5 ist ein Blockdiagramm, das eine exemplarische Architektur 500 zum Trainieren einer Vielzahl von Stellungsabschätzungsschichten abbildet. Die Stellungsabschätzungsschichten werden mit Merkmalsdaten von einem Bild präsentiert und betätigt, um eine vorhergesagte Stellung 502 für ein Objekt in dem Bild abzuschätzen. Die vorhergesagte Stellung 502 wird mit den wahren Stellungsinformationen 504 verglichen, um einen Fehler in einer zyklischen, stückweise linearen Verlustfunktion 506 abzuschätzen. Die stückweise, lineare Verlustfunktion 506 ist daran gewöhnt, die Objektstellungserfassungsschichten 508 zu trainieren. Die Objektstellungserfassungsschichten 508 werden mit Merkmalsdaten von einem anderen Bild präsentiert und betätigt, um eine vorhergesagte Stellung 502 für ein Objekt in dem neuen Bild abzuschätzen. Die vorhergesagte Stellung 502 wird erneut mit den wahren Stellungsinformationen 504 verglichen, um einen Fehler in einer zyklischen, stückweise linearen Verlustfunktion 506 abzuschätzen, und im Gegenzug ist die stückweise lineare Verlustfunktion 506 daran gewöhnt, die Objektstellungserfassungsschichten 508 zu trainieren. Dieses Trainingsverfahren kann solange wiederholt werden, bis die Fehlerabschätzung von der zyklischen, stückweise linearen Verlustfunktion 506 auf ein annehmbares Niveau konvergiert.
  • Die exemplarische, zyklische, stückweise lineare Verlustfunktion 506 ist sich mit einer stückweise linearen Verlustfunktion dahingehend ähnlich, dass beide davon, Messungen in einem oder zwei Bins klassifizieren. Die exemplarische, zyklische, stückweise lineare Verlustfunktion 506, die daran gewöhnt ist, die exemplarischen Stellungserfassungsschichten 508 zu trainieren, beinhaltet das Zuordnen von Stellungsabschätzungen in Bins. Da eine Stellung des Objekts als eine Richtung relativ zu einem Punkt auf einem Fahrzeug abgeschätzt wird, kann die Stellung einen Wert zwischen null und 360 Grad aufweisen. In dem Beispiel, in dem die zyklische, stückweise lineare Verlustfunktion 506 daran gewöhnt ist, exemplarische Stellungserfassungsschichten 508 zu trainieren, wird eine Vielzahl von Bins bereitgestellt und jedem Bin wird ein bestimmter Wert zwischen null und 360 Grad zugewiesen.
  • Das Abschätzen eines Fehlers unter Verwendung der exemplarischen zyklischen, stückweise linearen Verlustfunktion 506 kann das Zuweisen einer abgeschätzten Stellung in einem oder zwei der Bins beinhalten. Wenn die Stellungsabschätzung einen Wert aufweist, der dem Wert eines Bin gleicht, wird die Stellungsabschätzung dem einen Bin zugeordnet, der denselben Wert aufweist. Wenn die Stellungsabschätzung einen Wert aufweist, der sich zwischen zwei Bin-Werten befindet, wird die Stellungsabschätzung den zwei Bins mit den Werten zugewiesen, die demjenigen der Stellungsabschätzung am Nächsten liegt. Ein Gewichtungsfaktor kann angewendet werden, wenn die Zuweisung auf die zwei Bins angewandt wird. Der angewendete Gewichtungsfaktor kann invers proportional zum Abstand des abgeschätzten Stellungswerts von dem Bin-Mittelwert sein.
  • Ein Fehler kann durch Subtrahieren der abgeschätzten Stellung eines Objekts von der wahren Stellung berechnet werden. Als ein Beispiel kann die wahre Stellung eines Objekts 17 Grad betragen, die Abschätzung kann 13 Grad betragen und der Fehler kann als 4 Grad zum Ausdruck gebracht werden. Wenn die Stellung sich nahe null Grad /360-Grad Cross-Over-Punkt befindet, kann die Fehlerberechnung etwas komplizierter werden. Als ein Beispiel, wenn die wahre Stellung 358 Grad beträgt und die abgeschätzte Stellung vier Grad beträgt, dann kann der Fehler nur sechs Grad und nicht 354 Grad betragen. Um dies zu berücksichtigen kann die exemplarische zyklische, stückweise lineare Verlustfunktion 506 erlauben, dass die abgeschätzte Stellung sowohl in dem Bin mit einem Wert der 360 Grad am Nächsten liegt, als auch im Bin mit dem Wert, der null Grad am Nächsten liegt, platziert wird.
  • Demnach kann das Verwenden der exemplarischen, zyklischen, Weise linearen Verlustfunktion 506, um die exemplarischen Stellungserfassungsschichten 508 zu trainieren, Folgendes beinhalten: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad zu jeder aus einer Vielzahl von Bins, das Zuweisen einer abgeschätzten Stellung zu einem Bin, wenn der abgeschätzte Stellungswert dem Wert gleicht, der dem einen Bin zugewiesen wurde, das Zuweisen einer abgeschätzten Stellung zu zwei Bins, wenn der abgeschätzte Stellungswert zwischen zwei Werten fällt, die den zwei Bins zugewiesen wurden, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Ein Gewichtungsfaktor kann angewendet werden, wenn die Zuweisung auf die zwei Bins angewendet wird. Der angewendete Gewichtungsfaktor kann invers proportional zum Abstand des abgeschätzten Stellungswerts von dem Bin-Mittelwert sein.
  • In 6 ist ein exemplarisches Bild 600 abgebildet, das mit Symbolen kommentiert ist, die von den mehreren fahrzeugeigenen Erfassungsaufgaben abgeleitet wurden, die gleichzeitig in einem neuronalen Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchgeführt werden. Das exemplarische Bild 600 wurde mit dem Folgenden kommentiert: durch Objekterfassungsschichten abgeschätzte Begrenzungsrahmen 602, die die erfassten Objekte in dem Bild 600 umgeben, durch Schichten der Freiraumabschätzung abgeschätzte Stixel 604, die die Begrenzungen des Freiraums in dem Bild 600 definieren, und durch Objektstellungserfassungsschichten abgeschätzte Pfeile 606, die die Stellung Richtung der erfassten Objekte in dem Bild 600 identifizieren.
  • Hierin werden Techniken zum gleichzeitigen Durchführen mehrerer Bildgebungserfassungsaufgaben in einem Fahrzeug unter Verwendung eines neuronalen Netzwerks beschrieben. Die beschriebenen Techniken stellen eine Netzwerkarchitektur bereit, worin eine Vielzahl von Merkmalsschichten von mehreren Sätzen von gleichzeitig ausführenden Aufgabenschichten geteilt werden. Eine Technik zum Trainieren des neuronalen Netzwerks wird ebenfalls bereitgestellt.
  • In einer Ausführungsform ist ein prozessorimplementiertes Verfahren zum Durchführen mehrerer fahrzeugeigener Aufgaben, die sich gleichzeitig im selben Netzwerk befinden, unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen. Das Verfahren umfasst das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk und gleichzeitig unter Verwendung des faltenden neuronalen Netzwerks das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten bestimmt wird.
  • Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Das neuronale Netzwerk kann Folgendes umfassen: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um die Freiraumgrenzen in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren, eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten und die Richtung jedes Objekts abzuschätzen. Das neuronale Netzwerk kann ferner eine Vielzahl von Merkmalsschichten umfassen, die ausgestaltet sind, den Satz von Merkmalen zu ermitteln, die als Eingaben zur Vielzahl von Schichten der Freiraumabschätzung, zur Vielzahl der Objekterfassungsschichten und zur Vielzahl der Objektstellungserfassungsschichten geteilt werden. Die Schichten können unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet werden. Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden. Die StixelNet-Architektur kann fünf Schichten umfassen, in denen die ersten zwei Schichten faltend sind und die letzten drei vollständig verbunden sind. Das Trainieren der StixelNet-Architektur kann das Ermitteln eines stückweise linearen Wahrscheinlichkeitsverlustes umfassen. Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden. Die Richtung, die von den Objektstellungserfassungsschichten abgeschätzt wird, kann ein quantisierter Wert sein. Die Richtung kann einer von acht unterschiedlichen quantisierten Werten sein. Das Verfahren kann ferner das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen, stückchenweise linearen (PL) Verlustfunktion umfassen. Das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen PL-Verlustfunktion kann Folgendes umfassen: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Die Anzahl der Bins kann gleich acht sein. Das Verfahren kann ferner das Abschätzen eines gegenwärtigen und zukünftigen Weltzustands zur Verwendung durch das Fahrzeug unter Verwendung der abgeschätzten Begrenzungsrahmen, der Freiraumgrenzen und Objektstellungen umfassen.
  • In einer Ausführungsform ist ein prozessimplementiertes Verfahren zum Trainieren eines faltbaren neuronalen Netzwerks vorgesehen, um mindestens drei unterschiedliche Bilderfassungsaufgaben zur selben Zeit im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen durchzuführen. Das faltbare neuronale Netzwerk umfasst mindestens ein ersten Satz, einen zweiten Satz und einen dritten Satz von Aufgabenschichten und einen häufig verwendeten Satz von Merkmalsschichten, deren Ausgabe von jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten häufig verwendet wird. Jeder aus dem ersten, zweiten und dritten Satz von Aufgabenschichten muss trainiert werden, um eine unterschiedliche Aufgabe aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen. Das Verfahren umfasst das Trainieren des ersten Satzes von Aufgabenschichten und des Satzes von Merkmalsschichten, um Koeffizienten im ersten Satz der Aufgabenschichten und der Merkmalsschichten zu ermitteln, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, das Trainieren des zweiten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren, das Trainieren des dritten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren, und das erneute Trainieren des ersten, zweiten und dritten Satzes von Aufgabenschichten und der Merkmalsschichten, die zusammen die zuletzt ermittelten Koeffizienten für jede dieser Schichten als den Ausgangspunkt für das erneute Trainieren verwenden, um Koeffizienten in jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten und in den Merkmalsschichten, die die Verlustfunktionen jeden Satzes aus dem ersten, zweiten und dritten Satz von Aufgabenschichten minimieren, zu ermitteln.
  • Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Der erste Satz von Aufgabenschichten kann der erste Satz von Aufgabenschichten sein, für den die größte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die größte Qualität aufweisen. Der zweite Satz von Aufgabenschichten kann der Satz von Aufgabenschichten sein, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den Trainingsdaten zur Verfügung stehen, die die zweitgrößte Qualität aufweisen. Eine Vielzahl von Objekterfassungsschichten kann als der erste Satz von Aufgabenschichten ausgewählt werden, eine Vielzahl von Objektstellungserfassungsschichten kann als der zweite Satz von Aufgabenschichten ausgewählt werden, und eine Vielzahl von Freiraumabschätzungsschichten kann als der dritte Satz von Aufgabenschichten ausgewählt werden. Die Schichten der Freiraumabschätzung können unter Verwendung einer StixelNet-Architektur ausgestaltet werden. Die Objekterfassungsschichten können unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet werden. Das Trainieren der Objektstellungserfassungsschichten kann das Ermitteln eines zyklischen stückweise linearen (PL) Verlustes umfassen. Das Ermitteln des zyklischen PL-Verlustes kann Folgendes umfassen: das Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins, das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
  • In einer anderen Ausführungsform ist gleichzeitig ein prozessorimplementiertes Erfassungssystem in einem Fahrzeug zum gleichzeitigen Durchführen einer Freiraumabschätzung, einer Objekterfassung und einer Objektstellungserfassung auf Bildgebungssensordaten vorgesehen. Das Erfassungssystem umfasst einen oder mehrere Prozessoren und nichtflüchtige, computerlesbare Medien, die mit Programmieranweisungen kodiert sind, die konfigurierbar sind, um einen oder mehrere Prozessoren zum Durchführen eines Verfahrens zu veranlassen. Das Verfahren umfasst Folgendes: das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug, das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk, und das gleichzeitige Abschätzen unter Verwendung des faltbaren neuronalen Netzwerks der Begrenzungsrahmen für erfasste Objekte unter Verwendung einer Vielzahl von Objekterfassungsschichten im faltbaren neuronalen Netzwerk, das ausgestaltet ist, den Satz von Merkmalen auszuwerten, um Objekte in dem Bild zu erfassen und um Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben, Freiraumbegrenzungen unter Verwendung einer Vielzahl von Schichten der Freiraumabschätzung in dem faltbaren neuronalen Netzwerk, das ausgestaltet ist, den Satz von Merkmalen auszuwerten, um die Begrenzungen des Freiraums in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Begrenzungen zu markieren und die Objektstellungen für erfasste Objekte unter Verwendung einer Vielzahl von Objektstellungserfassungsschichten in dem faltbaren neuronalen Netzwerk, das ausgestaltet ist, den Satz von Merkmalen auszuwerten, um die Richtung jedes Objekts abzuschätzen.
  • Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Das Verfahren kann ferner das Abschätzen eines gegenwärtigen und zukünftigen Weltzustands zur Verwendung durch das Fahrzeug unter Verwendung der abgeschätzten Begrenzungsrahmen, der Freiraumgrenzen und Objektstellungen umfassen.
  • In einer anderen Ausführungsform ist ein prozessorimplementiertes Verfahren in einem Fahrzeug zum Ermitteln der Stellung eines vom Fahrzeug erfassten Objekts vorgesehen. Das Verfahren umfasst das Trainieren unter Verwendung einer zyklischen PL-Verlustfunktion, eines faltenden neuronalen Netzwerkes, das eine Vielzahl von Objektstellungserfassungsschichten beinhaltet, die ausgestaltet sind, einen Satz von Merkmalen auszuwerten, die von Bildgebungssensordaten abgeleitet werden, die von einem Sensor am Fahrzeug erhalten werden, um die Richtung der erfassten Objekte abzuschätzen. Das Training unter Verwendung der zyklischen PL-Verlustfünktion umfasst das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad, zu jedem aus einer Vielzahl von Bins, das Zuweisen einer geschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins, mit zugewiesenen Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde. Das Verfahren umfasst ferner das Abschätzen unter Verwendung von Objektstellungserfassungsschichten einer Objektstellung für ein erfasstes Objekt in den Bildgebungssensordaten, die vom Sensor am Fahrzeug erhalten werden.
  • Diese Aspekte und andere Ausführungsformen können eines oder mehrere der folgenden Merkmale beinhalten. Das Zuweisen einer abgeschätzten Stellung zu den zwei Bins kann das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, umfassen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist.
  • Das Vorangehende umreißt Merkmale verschiedener Ausführungsformen, sodass der Fachmann auf dem Gebiet die Aspekte der vorliegenden Offenbarung besser verstehen kann. Der Fachmann auf dem Gebiet sollte erkennen, dass er die vorliegende Offenbarung ohne weiteres als Grundlage für das Entwerfen oder Modifizieren anderer Verfahren und Strukturen für das Ausführen der gleichen Zwecke und/oder für das Erreichen der gleichen Vorteile der hierin vorgestellten Ausführungsformen verwenden kann. Der Fachmann auf dem Gebiet sollte auch erkennen, dass solche äquivalenten Konstruktionen nicht von dem Geist und Umfang der vorliegenden Offenbarung abweichen, und dass sie hierin verschiedene Änderungen, Ersetzungen und Abänderungen vornehmen können, ohne von dem Geist und Umfang der vorliegenden Offenbarung abzuweichen.

Claims (10)

  1. Prozessorimplementiertes Verfahren in einem Fahrzeug zum Durchführen mehrerer fahrzeugeigener Aufgaben, die gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefen maschinellen Lernen vorgesehen sind, das Verfahren umfassend: das Erhalten von Bildgebungssensordaten von einem Sensor am Fahrzeug; das Ermitteln eines Satzes von Merkmalen von den Bildgebungssensordaten unter Verwendung einer Vielzahl von Merkmalsschichten in einem faltenden neuronalen Netzwerk; und und gleichzeitig, unter Verwendung des faltenden neuronalen Netzwerks, das Abschätzen von Begrenzungsrahmen für erfasste Objekte, Freiraumgrenzen, und Objektstellungen für erfasste Objekte von dem Satz von Merkmalen, der durch die Vielzahl von Merkmalsschichten ermittelt wird.
  2. Verfahren nach Anspruch 1, worin das neuronale Netzwerk Folgendes umfasst: eine Vielzahl von Schichten der Freiraumabschätzung, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um die Freiraumgrenzen in den Bildgebungssensordaten relativ zum Fahrzeug zu ermitteln und die Grenzen zu markieren; eine Vielzahl von Objekterfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten, um Objekte im Bild zu erfassen und die Begrenzungsrahmen abzuschätzen, die die erfassten Objekte umgeben; und eine Vielzahl von Objektstellungserfassungsschichten, die ausgestaltet sind, den Satz von Merkmalen auszuwerten und die Richtung jedes Objekts abzuschätzen.
  3. Verfahren nach Anspruch 2, worin: das neuronale Netzwerk ferner eine Vielzahl von Merkmalsschichten umfasst, die ausgestaltet sind, den Satz von Merkmalen zu ermitteln, die als Eingaben zur Vielzahl von Schichten der Freiraumabschätzung, zur Vielzahl der Objekterfassungsschichten und zur Vielzahl der Objektstellungserfassungsschichten geteilt werden; und die Schichten unter Verwendung einer Einrichtungsnetzarchitektur ausgestaltet sind.
  4. Verfahren nach Anspruch 2, worin die Schichten der Freiraumabschätzung unter Verwendung einer StixelNet-Architektur ausgestaltet sind.
  5. Verfahren nach Anspruch 2, worin die Objekterfassungsschichten unter Verwendung einer Single-Shot-Multibox-Detektor (SSD)-Architektur ausgestaltet sind.
  6. Verfahren nach Anspruch 2, ferner umfassend das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen stückweise linearen (PL) Verlustfunktion und worin das Trainieren der Objektstellungserfassungsschichten unter Verwendung einer zyklischen PL-Verlustfunktion Folgendes umfasst: Zuweisen eines unterschiedlichen Werts zwischen null und 360 Grad jedem aus einer Vielzahl von Bins; Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert näher liegen, worin der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist; und Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde.
  7. Prozessorimplementiertes Verfahren zum Trainieren eines faltenden neuronalen Netzwerks, um mindestens drei verschiedene Bilderfassungsaufgaben gleichzeitig im selben Netzwerk unter Verwendung von Algorithmen zum tiefem maschinellen Lernen durchzuführen, wobei das faltende neuronale Netzwerk mindestens einen ersten Satz, einen zweiten Satz und einen dritten Satz von Aufgabenschichten und einen häufig verwendeten Satz von Merkmalsschichten umfasst, deren Ausgabe durch jeden aus dem ersten, zweiten und dritten Satz von Aufgabenschichten häufig verwendet wird, wobei jeder aus dem ersten, zweiten, und dritten Satz von Aufgabenschichten die trainiert werden soll, um eine unterschiedliche aus den drei unterschiedlichen Bilderfassungsaufgaben durchzuführen, das Verfahren umfassend: das Trainieren des ersten Satzes von Aufgabenschichten und des Satzes von Merkmalsschichten, um Koeffizienten im ersten Satz von Aufgabenschichten und die Merkmalsschichten, die die Verlustfunktion des ersten Satzes von Aufgabenschichten minimieren, zu ermitteln; das Trainieren des zweiten Satzes von Aufgabenschichten, während die Koeffizienten in den an ihre letzten ermittelten Werte fixierten Merkmalsschichten gehalten werden, um die Koeffizienten im zweiten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des zweiten Satzes von Aufgabenschichten minimieren; das Trainieren des dritten Satzes von Aufgabenschichten während des Haltens der Koeffizienten in den Merkmalsschichten, die an ihre letzten ermittelten Werte fixiert sind, um Koeffizienten im dritten Satz von Aufgabenschichten zu ermitteln, die die Verlustfunktion des dritten Satzes von Aufgabenschichten minimieren; und das erneute Trainieren des ersten, zweiten und dritten Satzes von Aufgabenschichten und der Merkmalsschichten, die zusammen die zuletzt ermittelten Koeffizienten für jede dieser Schichten als den Ausgangspunkt für das erneute Trainieren verwenden, um Koeffizienten in jedem aus dem ersten, zweiten und dritten Satz von Aufgabenschichten und in den Merkmalsschichten, die die Verlustfunktionen jeden Satzes aus dem ersten, zweiten und dritten Satz von Aufgabenschichten minimieren, zu ermitteln.
  8. Verfahren nach Anspruch 7, worin der erste Satz von Aufgabenschichten der Satz von Aufgabenschichten ist, für den die größte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den die Trainingsdaten, die die größte Qualität aufweisen, zur Verfügung steht; und worin der zweite Satz von Aufgabenschichten der Satz von Aufgabenschichten ist, für den die zweitgrößte Menge von Trainingsdaten zur Verfügung steht oder der Satz von Aufgabenschichten, für den die Trainingsdaten die zweitgrößte Qualität aufweisen, die zur Verfügung steht.
  9. Prozessorimplementiertes Verfahren in einem Fahrzeug zum Ermitteln der Stellung eines vom Fahrzeug erfassten Objekts, das Verfahren umfassend: das Trainieren unter Verwendung einer zyklischen PL-Verlustfunktion, eines faltenden neuronalen Netzwerkes, das eine Vielzahl von Objektstellungserfassungsschichten beinhaltet, die ausgestaltet sind, einen Satz von Merkmalen auszuwerten, die von Bildgebungssensordaten abgeleitet werden, die von einem Sensor am Fahrzeug erhalten werden, um die Richtung der erfassten Objekte abzuschätzen; das Trainieren mit der zyklischen PL-Verlustfunktion umfassend: das Zuweisen eines unterschiedlichen Mittelwerts zwischen null und 360 Grad zu jeder aus einer Vielzahl von Bins; das Zuweisen einer geschätzten Stellung zu den zwei Bins aus der Vielzahl von Bins, mit zugewiesenen Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen; und das Zuweisen einer abgeschätzten Stellung zu sowohl dem Bin mit dem höchsten Wert als auch dem Bin mit dem kleinsten Wert, wenn der abgeschätzte Stellungswert höher als der Wert ist, der dem Bin mit dem höchsten Wert zugwiesen wurde, oder wenn der abgeschätzte Stellungswert kleiner als der Wert ist, der dem Bin mit dem kleinsten Wert zugewiesen wurde; und das Abschätzen unter Verwendung von Objektstellungserfassungsschichten einer Objektstellung für ein erfasstes Objekt in den Bildgebungssensordaten, die vom Sensor am Fahrzeug erhalten werden.
  10. Verfahren nach Anspruch 9, worin das Zuweisen einer abgeschätzten Stellung zu den zwei Bins Folgendes umfasst: das Zuweisen mit einem Gewichtungsfaktor einer abgeschätzten Stellung zu den zwei Bins der Vielzahl von Bins mit zugeordneten Mittelwerten, die dem abgeschätzten Stellungswert am Nächsten liegen, wobei der Gewichtungsfaktor invers proportional zum Abstand des abgeschätzten Stellungswerts vom Bin-Mittelwert ist.
DE102018116111.5A 2017-07-06 2018-07-03 Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung Active DE102018116111B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/642,816 2017-07-06
US15/642,816 US10474908B2 (en) 2017-07-06 2017-07-06 Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation

Publications (2)

Publication Number Publication Date
DE102018116111A1 true DE102018116111A1 (de) 2019-01-10
DE102018116111B4 DE102018116111B4 (de) 2022-09-01

Family

ID=64666482

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018116111.5A Active DE102018116111B4 (de) 2017-07-06 2018-07-03 Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung

Country Status (3)

Country Link
US (1) US10474908B2 (de)
CN (1) CN109214264A (de)
DE (1) DE102018116111B4 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019115327A1 (de) * 2019-06-06 2020-12-10 Valeo Schalter Und Sensoren Gmbh Linienmarkierungsidentifizierung unter Verwendung von LiDAR
US20210192772A1 (en) * 2019-12-24 2021-06-24 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
DE102017120729A1 (de) * 2017-09-08 2019-03-14 Connaught Electronics Ltd. Freiraumdetektion in einem Fahrerassistenzsystem eines Kraftfahrzeugs mit einem neuralen Netzwerk
US10937189B2 (en) * 2018-01-18 2021-03-02 Samsung Electronics Co., Ltd. Pose estimation method, method of displaying virtual object using estimated pose, and apparatuses performing the same
US10345822B1 (en) 2018-01-26 2019-07-09 Ford Global Technologies, Llc Cognitive mapping for vehicles
US11282389B2 (en) * 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
US20200082561A1 (en) * 2018-09-10 2020-03-12 Mapbox, Inc. Mapping objects detected in images to geographic positions
JP7203563B2 (ja) * 2018-10-29 2023-01-13 日立Astemo株式会社 移動体挙動予測装置
US10937173B2 (en) 2018-11-15 2021-03-02 Qualcomm Incorporated Predicting subject body poses and subject movement intent using probabilistic generative models
CN109816725B (zh) * 2019-01-17 2023-03-14 合肥哈工慧拣智能科技有限公司 一种基于深度学习的单目相机物体位姿估计方法及装置
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10402692B1 (en) * 2019-01-22 2019-09-03 StradVision, Inc. Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
US10635938B1 (en) * 2019-01-30 2020-04-28 StradVision, Inc. Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10713815B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for supporting administrators to processes of object detectors to provide logical driving
US10423840B1 (en) * 2019-01-31 2019-09-24 StradVision, Inc. Post-processing method and device for detecting lanes to plan the drive path of autonomous vehicle by using segmentation score map and clustering map
US10373004B1 (en) * 2019-01-31 2019-08-06 StradVision, Inc. Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image
EP3716137A1 (de) * 2019-03-27 2020-09-30 Visteon Global Technologies, Inc. Systeme und verfahren zur schätzung der position eines zielfahrzeugs
CN110414337B (zh) * 2019-06-21 2023-12-05 上海汽车工业(集团)总公司 目标姿态检测系统及其检测方法
CN112307833A (zh) * 2019-07-31 2021-02-02 浙江商汤科技开发有限公司 识别智能行驶设备的行驶状态的方法及装置、设备
CN110913137A (zh) * 2019-11-27 2020-03-24 深圳市瓴鹰智能科技有限公司 手势控制与人物追踪自拍杆系统及控制方法
WO2021150016A1 (en) 2020-01-20 2021-07-29 Samsung Electronics Co., Ltd. Methods and systems for performing tasks on media using attribute specific joint learning
US11390286B2 (en) * 2020-03-04 2022-07-19 GM Global Technology Operations LLC System and process for end to end prediction of lane detection uncertainty
DE102020209985A1 (de) 2020-08-06 2022-02-10 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Ermitteln einer Umfeldinformation
US12008787B2 (en) 2021-07-20 2024-06-11 Ford Global Technologies, Llc Object pose estimation
CN114266824A (zh) * 2021-12-10 2022-04-01 北京理工大学 一种基于深度学习的非合作目标相对位姿测量方法、系统

Family Cites Families (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7418346B2 (en) * 1997-10-22 2008-08-26 Intelligent Technologies International, Inc. Collision avoidance methods and systems
US6768944B2 (en) * 2002-04-09 2004-07-27 Intelligent Technologies International, Inc. Method and system for controlling a vehicle
US5987378A (en) * 1996-10-24 1999-11-16 Trimble Navigation Limited Vehicle tracker mileage-time monitor and calibrator
US7499574B1 (en) * 2002-11-07 2009-03-03 Honda Motor Co., Ltd. Video-based face recognition using probabilistic appearance manifolds
US7113185B2 (en) * 2002-11-14 2006-09-26 Microsoft Corporation System and method for automatically learning flexible sprites in video layers
US20040234167A1 (en) * 2003-05-20 2004-11-25 Frank Pipitone Technique for estimating the pose of surface shapes using tripod operators
KR100946935B1 (ko) * 2003-06-02 2010-03-09 삼성전자주식회사 이동체의 위치검출장치
US7236615B2 (en) * 2004-04-21 2007-06-26 Nec Laboratories America, Inc. Synergistic face detection and pose estimation with energy-based models
US20050267658A1 (en) * 2004-05-13 2005-12-01 Yong Yuan Intelligent and efficient system and/or method for automatic notification and/or enforcement of legal traffic speed limits and spots
JP4481889B2 (ja) * 2005-06-28 2010-06-16 キヤノン株式会社 データ記録装置及びその方法、プログラム、記録媒体
US8274715B2 (en) * 2005-07-28 2012-09-25 Omnivision Technologies, Inc. Processing color and panchromatic pixels
JP4797794B2 (ja) * 2006-05-24 2011-10-19 日産自動車株式会社 歩行者検出装置および歩行者検出方法
JP4709723B2 (ja) * 2006-10-27 2011-06-22 株式会社東芝 姿勢推定装置及びその方法
WO2008073962A2 (en) * 2006-12-12 2008-06-19 Rutgers, The State University Of New Jersey System and method for detecting and tracking features in images
WO2009094661A1 (en) * 2008-01-24 2009-07-30 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for swapping faces in images
DE102009009047A1 (de) * 2009-02-16 2010-08-19 Daimler Ag Verfahren zur Objektdetektion
US20160217335A1 (en) 2009-02-27 2016-07-28 GM Global Technology Operations LLC Stixel estimation and road scene segmentation using deep learning
US8912978B2 (en) * 2009-04-02 2014-12-16 GM Global Technology Operations LLC Dynamic vehicle system information on full windshield head-up display
US8301374B2 (en) * 2009-08-25 2012-10-30 Southwest Research Institute Position estimation for ground vehicle navigation based on landmark identification/yaw rate and perception of landmarks
US9562778B2 (en) * 2011-06-03 2017-02-07 Robert Bosch Gmbh Combined radar and GPS localization system
DE102011111440A1 (de) * 2011-08-30 2012-06-28 Daimler Ag Verfahren zur Umgebungsrepräsentation
US8442321B1 (en) * 2011-09-14 2013-05-14 Google Inc. Object recognition in images
CN103324938A (zh) * 2012-03-21 2013-09-25 日电(中国)有限公司 训练姿态分类器及物体分类器、物体检测的方法及装置
US8948454B2 (en) * 2013-01-02 2015-02-03 International Business Machines Corporation Boosting object detection performance in videos
US9243916B2 (en) * 2013-02-21 2016-01-26 Regents Of The University Of Minnesota Observability-constrained vision-aided inertial navigation
US9185402B2 (en) * 2013-04-23 2015-11-10 Xerox Corporation Traffic camera calibration update utilizing scene analysis
US9280827B2 (en) * 2013-07-03 2016-03-08 Mitsubishi Electric Research Laboratories, Inc. Method for determining object poses using weighted features
US9373057B1 (en) * 2013-11-01 2016-06-21 Google Inc. Training a neural network to detect objects in images
US9305219B2 (en) * 2014-01-23 2016-04-05 Mitsubishi Electric Research Laboratories, Inc. Method for estimating free space using a camera system
DE102014212478A1 (de) * 2014-06-27 2015-12-31 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Erstellung eines Umfeldmodells eines Fahrzeugs
US9568611B2 (en) * 2014-08-20 2017-02-14 Nec Corporation Detecting objects obstructing a driver's view of a road
US9460355B2 (en) * 2014-10-14 2016-10-04 Here Global B.V. Lateral sign placement determination
US9665802B2 (en) * 2014-11-13 2017-05-30 Nec Corporation Object-centric fine-grained image classification
JP2018510373A (ja) * 2015-02-10 2018-04-12 モービルアイ ビジョン テクノロジーズ リミテッド 自律車両ナビゲーションのための疎な地図
US9811756B2 (en) * 2015-02-23 2017-11-07 Mitsubishi Electric Research Laboratories, Inc. Method for labeling images of street scenes
US9922271B2 (en) * 2015-03-20 2018-03-20 Netra, Inc. Object detection and classification
US9928430B2 (en) 2015-04-10 2018-03-27 GM Global Technology Operations LLC Dynamic stixel estimation using a single moving camera
US9286524B1 (en) * 2015-04-15 2016-03-15 Toyota Motor Engineering & Manufacturing North America, Inc. Multi-task deep convolutional neural networks for efficient and robust traffic lane detection
US20160321522A1 (en) * 2015-04-30 2016-11-03 Canon Kabushiki Kaisha Devices, systems, and methods for pairwise multi-task feature learning
US9582895B2 (en) * 2015-05-22 2017-02-28 International Business Machines Corporation Real-time object analysis with occlusion handling
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
US10389746B2 (en) * 2015-09-28 2019-08-20 Microsoft Technology Licensing, Llc Multi-tenant environment using pre-readied trust boundary components
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
EP3179407B1 (de) * 2015-12-07 2022-07-13 Dassault Systèmes Erkennung eines aus einem 2d-bild modellierten 3d-objekts
US10318008B2 (en) * 2015-12-15 2019-06-11 Purdue Research Foundation Method and system for hand pose detection
US10140522B2 (en) * 2015-12-16 2018-11-27 Intel Corporation Fully convolutional pyramid networks for pedestrian detection
US10489691B2 (en) * 2016-01-15 2019-11-26 Ford Global Technologies, Llc Fixation generation for machine learning
CN105740906B (zh) * 2016-01-29 2019-04-02 中国科学院重庆绿色智能技术研究院 一种基于深度学习的车辆多属性联合分析方法
US10019652B2 (en) * 2016-02-23 2018-07-10 Xerox Corporation Generating a virtual world to assess real-world video analysis performance
US10572777B2 (en) * 2016-03-11 2020-02-25 Nec Corporation Deep deformation network for object landmark localization
KR101833359B1 (ko) * 2016-03-22 2018-02-28 고려대학교 산학협력단 차량의 외부 영상 빅데이터를 이용한 교통 정보 수집 방법 및 장치
GB2549554A (en) * 2016-04-21 2017-10-25 Ramot At Tel-Aviv Univ Ltd Method and system for detecting an object in an image
CN105975915B (zh) * 2016-04-28 2019-05-21 大连理工大学 一种基于多任务卷积神经网络的前方车辆参数识别方法
US10126141B2 (en) * 2016-05-02 2018-11-13 Google Llc Systems and methods for using real-time imagery in navigation
US10593065B2 (en) * 2016-07-27 2020-03-17 Htc Corporation Method and device for camera pose estimation
US10482379B2 (en) * 2016-07-29 2019-11-19 Google Llc Systems and methods to perform machine learning with feedback consistency
KR20190062390A (ko) * 2016-10-11 2019-06-05 모빌아이 비젼 테크놀로지스 엘티디. 검출된 배리어에 기반한 차량의 항법
US10235771B2 (en) * 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US20180136332A1 (en) * 2016-11-15 2018-05-17 Wheego Electric Cars, Inc. Method and system to annotate objects and determine distances to objects in an image
KR20180060784A (ko) * 2016-11-29 2018-06-07 삼성전자주식회사 비정상 객체 판단 방법 및 장치
CN106599869B (zh) * 2016-12-22 2019-12-03 安徽大学 一种基于多任务卷积神经网络的车辆属性识别方法
US20180239969A1 (en) * 2017-02-23 2018-08-23 Ford Global Technologies, Llc Free Space Detection Using Monocular Camera and Deep Learning
US10373369B2 (en) * 2017-03-16 2019-08-06 Qualcomm Technologies, Inc. Three-dimensional pose estimation of symmetrical objects
US10282999B2 (en) * 2017-03-17 2019-05-07 GM Global Technology Operations LLC Road construction detection systems and methods
US10242282B2 (en) * 2017-03-20 2019-03-26 Conduent Business Services, Llc Video redaction method and system
US20180276986A1 (en) * 2017-03-22 2018-09-27 Toyota Research Institute, Inc. Vehicle-to-human communication in an autonomous vehicle operation
US10360732B2 (en) * 2017-03-23 2019-07-23 Intel Corporation Method and system of determining object positions for image processing using wireless network angle of transmission
US10296828B2 (en) * 2017-04-05 2019-05-21 Here Global B.V. Learning a similarity measure for vision-based localization on a high definition (HD) map
US10621725B2 (en) * 2017-04-12 2020-04-14 Here Global B.V. Small object detection from a large image
US10460180B2 (en) * 2017-04-20 2019-10-29 GM Global Technology Operations LLC Systems and methods for visual classification with region proposals
US10740627B2 (en) * 2017-05-10 2020-08-11 Fotonation Limited Multi-camera vision system and method of monitoring
US10310087B2 (en) * 2017-05-31 2019-06-04 Uber Technologies, Inc. Range-view LIDAR-based object detection
US20180349746A1 (en) * 2017-05-31 2018-12-06 Uber Technologies, Inc. Top-View Lidar-Based Object Detection
US10559140B2 (en) * 2017-06-16 2020-02-11 Uatc, Llc Systems and methods to obtain feedback in response to autonomous vehicle failure events

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019115327A1 (de) * 2019-06-06 2020-12-10 Valeo Schalter Und Sensoren Gmbh Linienmarkierungsidentifizierung unter Verwendung von LiDAR
US20210192772A1 (en) * 2019-12-24 2021-06-24 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium
US11842509B2 (en) * 2019-12-24 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium

Also Published As

Publication number Publication date
US10474908B2 (en) 2019-11-12
DE102018116111B4 (de) 2022-09-01
CN109214264A (zh) 2019-01-15
US20190012548A1 (en) 2019-01-10

Similar Documents

Publication Publication Date Title
DE102018116111B4 (de) Ein einheitliches tiefes faltendes neuronales Netzwerk für die Abschätzung von Freiraum, die Abschätzung der Objekterkennung und die der Objektstellung
DE102014209137B4 (de) Verfahren und Vorrichtung zur Kalibrierung eines Kamerasystems eines Kraftfahrzeugs
DE102006012914B4 (de) System und Verfahren zur Bestimmung des Abstands zu einem vorausfahrenden Fahrzeug
DE102017220307B4 (de) Vorrichtung und Verfahren zum Erkennen von Verkehrszeichen
DE102017203276B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102011117585A1 (de) Systeme und Verfahren zum Verfolgen von Objekten
DE10029866A1 (de) Objekterkennungssystem
DE112018000107T5 (de) Fahrzeugkamerakalibrierungsvorrichtung und -Verfahren
WO2005048195A2 (de) Verfahren zur korrespondenzanalyse in bilddatensätzen
DE102011111440A1 (de) Verfahren zur Umgebungsrepräsentation
WO2013178407A1 (de) Verfahren und vorrichtung zur verarbeitung stereoskopischer daten
DE102013205854A1 (de) Temporäre Koherenz bei Detektion eines freien Pfads
DE102015207903A1 (de) Vorrichtung und Verfahren zum Erfassen eines Verkehrszeichens vom Balkentyp in einem Verkehrszeichen-Erkennungssystem
DE112012004847T5 (de) Dynamisches Liniendetektionssystem für Prozessoren mit begrenztem internen Speicher
WO2014009406A1 (de) VERFAHREN UND VORRICHTUNG ZUM BERECHNEN EINER VERÄNDERUNG EINES ABBILDUNGSMAßSTABS EINES OBJEKTS
DE102019129029A1 (de) System und verfahren zur objektdetektion
DE102017221381A1 (de) Verfahren, Vorrichtung und Computerprogramm zum Ermitteln eines Abstandes zu einem Objekt
DE112021002598T5 (de) Bildverarbeitungsvorrichtung
EP0710927A2 (de) Verfahren zur objektorientierten Erkennung bewegter Objekte
DE102020208080A1 (de) Erkennung von Objekten in Bildern unter Äquivarianz oder Invarianz gegenüber der Objektgröße
DE102020200875A1 (de) Verfahren zum Bereitstellen von Sensordaten durch eine Sensorik eines Fahrzeugs
DE102014206246A1 (de) Verfahren und Vorrichtung zum Anpassen einer dreidimensionalen Projektionsfläche zum Projizieren einer Mehrzahl benachbarter Kamerabilder
DE102017214614A1 (de) Verfahren und Vorrichtung zur Plausibilisierung einer Flussvektor-Hypothese
DE102010044112A1 (de) Fluchtpunktbestimmungsvorrichtung und Fluchtpunktbestimmungsprogramm
DE102017217156B4 (de) Verfahren und Vorrichtung zur Ansteuerung eines Fahrerassistenzsystems unter Verwendung eines Stereokamerasystems mit einer ersten und einer zweiten Kamera

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MANITZ FINSTERWALD PATENT- UND RECHTSANWALTSPA, DE

Representative=s name: MANITZ FINSTERWALD PATENTANWAELTE PARTMBB, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final