DE102019101938A1 - Erstellung kognitiver Karten für Fahrzeuge - Google Patents

Erstellung kognitiver Karten für Fahrzeuge Download PDF

Info

Publication number
DE102019101938A1
DE102019101938A1 DE102019101938.9A DE102019101938A DE102019101938A1 DE 102019101938 A1 DE102019101938 A1 DE 102019101938A1 DE 102019101938 A DE102019101938 A DE 102019101938A DE 102019101938 A1 DE102019101938 A1 DE 102019101938A1
Authority
DE
Germany
Prior art keywords
vehicle
cognitive
map
image
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019101938.9A
Other languages
English (en)
Inventor
Mostafa Parchami
Vahid Taimouri
Gintaras Vincent Puskorius
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102019101938A1 publication Critical patent/DE102019101938A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • B60W30/09Taking automatic action to avoid collision, e.g. braking and steering
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0248Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means in combination with a laser
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • G05D1/0251Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting 3D information from a plurality of images taken from different locations, e.g. stereo vision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Electromagnetism (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Transportation (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Optics & Photonics (AREA)
  • Mechanical Engineering (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

Die Offenbarung stellt eine Erstellung kognitiver Karten für Fahrzeuge bereit. Ein System, umfassend einen Prozessor und einen Speicher, wobei der Speicher Anweisungen enthält, die von dem Prozessor auszuführen sind, um die Bilder der Fahrzeugumgebung zu erfassen, eine kognitive Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes zu bestimmen und das Fahrzeug auf Grundlage der kognitiven Karte zu betreiben.

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch von einem Insassen gesteuerten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzen, Sensoren und Steuerungen ausgestattet sein, um Informationen bezüglich der Umgebung des Fahrzeugs zu erfassen und das Fahrzeug auf Grundlage der Informationen zu betreiben. Der sichere und komfortable Betrieb des Fahrzeugs kann davon abhängig sein, vorhergesagte Fahrzeugbahnen auf Grundlage genauer und rechtzeitiger Informationen bezüglich der Umgebung des Fahrzeugs zu bestimmen. Beispielsweise kann der sichere und komfortable Betrieb des Fahrzeugs vom Erfassen genauer und rechtzeitiger Informationen bezüglich Objekten in einer Umgebung des Fahrzeugs abhängig sein, während das Fahrzeug auf einer Fahrbahn betrieben wird. Es stellt ein Problem dar, genaue und rechtzeitige Informationen bezüglich Objekten nahe einem Fahrzeug oder um dieses herum bereitzustellen, um den Betrieb des Fahrzeugs zu unterstützen.
  • Figurenliste
    • 1 ist ein Blockdiagramm eines beispielhaften Fahrzeugs.
    • 2 ist eine Darstellung eines beispielhaften Bildes einer Verkehrsszene.
    • 3 ist eine Darstellung einer beispielhaften kognitiven Karte.
    • 4 ist eine Darstellung eines beispielhaften neuronalen Faltungsnetzes.
    • 5 ist ein Ablaufdiagramm eines beispielhaften Verfahrens zum Betreiben eines Fahrzeugs auf Grundlage einer kognitiven Karte.
    • 6 ist ein Ablaufdiagramm eines beispielhaften Verfahrens zum Trainieren eines neuronalen Faltungsnetzes darauf, eine kognitive Karte auszugeben.
  • TECHNISCHES GEBIET
  • Die Erfindung betrifft eine kognitive Karte, die von einer Rechenvorrichtung zum Betreiben eines Fahrzeugs, einschließlich Betätigen von Fahrzeugkomponenten wie etwa Antriebsstrang, Lenkung und Bremsung, verwendet wird, um das Fahrzeug von einem aktuellen Standort an einen Zielort auf sichere und komfortable Weise zu führen.
  • KURZDARSTELLUNG DER ERFINDUNG
  • Ein Verfahren, das Erfassen eines Bildes einer Fahrzeugumgebung, Bestimmen einer kognitiven Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes und Betreiben des Fahrzeugs auf Grundlage der kognitiven Karte beinhaltet.
  • Die Fahrzeugumgebung kann eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger, beinhalten.
  • Das Verfahren kann Bestimmen der kognitiven Karte beinhalten, die Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug beinhaltet.
  • Bei dem Bild kann es sich um ein monokulares Videoeinzelbild handeln.
  • Das Verfahren kann Bestimmen der kognitiven Karte der Fahrzeugumgebung auf Grundlage einer Verarbeitung des Bildes mit einem neuronalen Faltungsnetz beinhalten.
  • Das Verfahren kann Trainieren des neuronalen Faltungsnetzes auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte beinhalten.
  • Ground-Truth-Daten können auf Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativer Entfernung beruhen.
  • Das Trainieren des neuronalen Faltungsnetzes kann auf Vorhersagebildern beruhen, die in dem neuronalen Faltungsnetz enthalten sind.
  • Die Vorhersagebilder können auf Ground-Truth-Daten beruhen.
  • Ein System, das einen Prozessor und einen Speicher beinhaltet, wobei der Speicher Anweisungen enthält, die von dem Prozessor auszuführen sind, um ein Bild einer Fahrzeugumgebung zu erfassen, eine kognitive Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes zu bestimmen und das Fahrzeug auf Grundlage der kognitiven Karte zu betreiben.
  • Die Fahrzeugumgebung kann eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger, beinhalten.
  • Das System kann Bestimmen der kognitiven Karte beinhalten, die Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug beinhaltet.
  • Bei dem Bild kann es sich um ein monokulares Videoeinzelbild handeln.
  • Das System kann die kognitive Karte der Fahrzeugumgebung auf Grundlage einer Verarbeitung der Bilder mit einem neuronalen Faltungsnetz bestimmen.
  • Das System kann Trainieren des neuronalen Faltungsnetzes auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte beinhalten.
  • Ground-Truth-Daten können Objekterkennung, pixelbasierte Segmentierung, die 3D-Lage von Objekten und relative Entfernung beinhalten.
  • Das Trainieren des neuronalen Faltungsnetzes kann auf Vorhersagebildern beruhen, die in dem neuronalen Faltungsnetz enthalten sind.
  • Die Vorhersagebilder können auf Ground-Truth-Daten beruhen.
  • Ein System, das einen Videosensor, der dazu betreibbar ist, ein Bild einer Fahrzeugumgebung zu erfassen, Fahrzeugkomponenten, die dazu betreibbar sind, ein Fahrzeug zu betreiben, einen Prozessor und einen Speicher beinhaltet, wobei der Speicher Anweisungen enthält, die von dem Prozessor auszuführen sind, um das Bild der Fahrzeugumgebung zu erfassen, eine kognitive Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes zu bestimmen und das Fahrzeug auf Grundlage der kognitiven Karte zu betreiben.
  • Die Fahrzeugumgebung kann eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger, beinhalten.
  • DETAILLIERTE BESCHREIBUNG
  • Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch von einem Insassen gesteuerten Modus betrieben zu werden. Mit einem halb- oder vollautonomen Modus ist ein Betriebsmodus gemeint, bei dem ein Fahrzeug durch eine Rechenvorrichtung als Teil eines Fahrzeuginformationssystems gesteuert werden kann, das Sensoren und Steuerungen aufweist. Das Fahrzeug kann besetzt oder unbesetzt sein, jedoch kann das Fahrzeug in beiden Fällen ohne die Unterstützung eines Insassen gesteuert werden. Im Rahmen dieser Offenbarung ist ein autonomer Modus als ein Modus definiert, bei dem Antrieb (z. B. über einen Antriebsstrang, der eine Brennkraftmaschine und/oder einen Elektromotor beinhaltet), Bremsung und Lenkung eines Fahrzeugs jeweils durch einen oder mehrere Fahrzeugcomputer gesteuert werden; in einem halbautonomen Modus steuert der bzw. steuern die Fahrzeugcomputer eines oder zwei von Antrieb, Bremsung und Lenkung des Fahrzeugs. Bei einem nichtautonomen Fahrzeug wird nichts davon durch einen Computer gesteuert.
  • Eine Schätzung eines Standorts eines Fahrzeugs, z. B. gemäß Geokoordinaten, in Bezug auf eine Karte kann von einer Rechenvorrichtung verwendet werden, um beispielsweise ein Fahrzeug auf einer Fahrbahn von einem aktuellen Standort bis zu einem bestimmten Ziel zu betreiben. Bei der Karte kann es sich um eine kognitive Karte handeln. Eine kognitive Karte ist im Kontext dieser Offenbarung eine 2D-Darstellung der physischen Umgebung um ein Fahrzeug in Draufsicht. In Beispielen, bei denen sich ein Fahrzeug in Bewegung befindet, z. B. auf einer Fahrbahn betrieben wird, kann die kognitive Karte eine 2D-Darstellung der Fahrbahn vor einer aktuellen Fahrzeugposition und in einer Richtung der aktuellen Fahrstrecke des Fahrzeugs in Draufsicht beinhalten. Die Richtung der aktuellen Fahrstrecke des Fahrzeugs beruht auf der aktuellen Fahrzeugbahn, die Geschwindigkeit, Richtung, Querbeschleunigung und Längsbeschleunigung beinhaltet. Die kognitive Karte kann z. B. eine Fahrbahn und Objekte wie etwa Fahrstreifen, Rückhaltesysteme, Seitenstreifen und Fahrstreifenmarkierungen, Fahrzeuge und Fußgänger beinhalten.
  • Auf dem Gebiet der Psychologie ist eine kognitive Karte eine mentale Repräsentation der physischen Umgebung. Beispielsweise verwenden Menschen und Tiere kognitive Karten, um sich in ihrer Umgebung zurechtzufinden. In der vorliegenden Offenbarung wird eine kognitive Karte von einer Rechenvorrichtung zum Betreiben eines Fahrzeugs, einschließlich Betätigen von Fahrzeugkomponenten wie etwa Antriebsstrang, Lenkung und Bremsung, verwendet, um das Fahrzeug von einem aktuellen Standort an einen Zielort auf sichere und komfortable Weise zu führen. Die kognitive Karte kann von der Rechenvorrichtung verwendet werden, um z. B. vorhergesagte Fahrzeugbahnen auf Grundlage von bestimmten Positionen von Fahrstreifen und bestimmten Positionen und Bahnen anderer Fahrzeuge in der kognitiven Karte zu bestimmen. Eine kognitive Karte kann eine semantische Segmentierung von Objekten abbilden, die in Draufsicht zu sehen sind, und eine Entfernung von jedem Punkt zu einem Fahrzeug 110 genau veranschaulichen.
  • Hier wird ein Verfahren offenbart, das Erfassen eines Bildes einer Fahrzeugumgebung, Bestimmen einer kognitiven Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes und Betreiben des Fahrzeugs auf Grundlage der kognitiven Karte beinhaltet. Die Fahrzeugumgebung kann eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger, beinhalten. Die kognitive Karte kann Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug beinhalten. Bei dem Bild kann es sich um ein monokulares Videoeinzelbild handeln. Die kognitive Karte der Fahrzeugumgebung kann auf einer Verarbeitung des Bildes mit einem neuronalen Faltungsnetz beruhen. Das neuronale Faltungsnetz kann auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte trainiert werden. Die Ground-Truth-Daten können auf Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativer Entfernung beruhen.
  • Das Trainieren des neuronalen Faltungsnetzes kann auf Vorhersagebildern beruhen, die in dem neuronalen Faltungsnetz enthalten sind. Die Vorhersagebilder können auf Ground-Truth-Daten beruhen. Das neuronale Netz lernt, wie eingegebene RGB-Bilder zur Schätzung von kognitiven Karten umgewandelt werden. Die geschätzten kognitiven Karten können mit Zwischenschätzungen von kognitiven Karten kombiniert und mit den Vorhersagebildern verglichen werden, um Ähnlichkeit zu bestimmen. Die Ähnlichkeit zwischen den geschätzten kombinierten kognitiven Karten kann durch Berechnen einer Kostenfunktion bestimmt werden. Die Kostenfunktion kann auf einer gewichteten Kreuzentropiefunktion auf Grundlage eines Vergleichs der geschätzten kognitiven Karten und der kognitiven Zwischenkarten mit den Vorhersagebildern beruhen. Die Vorhersagebilder können auf LIDAR-Daten beruhen.
  • Ferner wird ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder sämtlicher der vorstehenden Verfahrensschritte gespeichert sind. Ferner wird ein Computer offenbart, der zum Ausführen einiger oder sämtlicher der obengenannten Verfahrensschritte programmiert ist, einschließlich einer Computervorrichtung, die dazu programmiert ist, ein Bild einer Fahrzeugumgebung zu erfassen, eine kognitive Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes zu bestimmen und das Fahrzeug auf Grundlage der kognitiven Karte zu betreiben. Die Fahrzeugumgebung kann eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger, beinhalten. Die kognitive Karte kann Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug beinhalten. Bei dem Bild kann es sich um ein monokulares Videoeinzelbild handeln. Die kognitive Karte der Fahrzeugumgebung kann auf einer Verarbeitung des Bildes mit einem neuronalen Faltungsnetz beruhen. Das neuronale Faltungsnetz kann auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte trainiert werden. Die Ground-Truth-Daten können auf Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativer Entfernung beruhen.
  • Der Computer kann ferner dazu programmiert sein, das neuronale Faltungsnetz auf Grundlage von Vorhersagebildern zu trainieren, die in dem neuronalen Faltungsnetz enthalten sind. Die Vorhersagebilder können auf Ground-Truth-Daten beruhen. Die Vorhersagebilder können geschätzte Ergebnisse in geschätzte kognitive Karten umwandeln. Die geschätzten kognitiven Karten können mit kognitiven Zwischenkarten kombiniert werden, um Ähnlichkeit zu bestimmen. Die Ähnlichkeit zwischen den geschätzten kognitiven Karten und den Vorhersagebildern kann durch Berechnen einer Kostenfunktion bestimmt werden. Die Kostenfunktion kann auf einer gewichteten Kreuzentropiefunktion auf Grundlage eines Vergleichs der geschätzten kognitiven Karten in Kombination mit den kognitiven Zwischenkarten und Vorhersagebildern beruhen. Die Vorhersagebilder können auf LIDAR-Daten beruhen.
  • 1 ist eine Darstellung eines Fahrzeuginformationssystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ bedeutet in dieser Offenbarung alleinstehend „vollautonom“) und einem von einem Insassen gesteuerten (auch als nichtautonom bezeichneten) Modus betreibbar ist. Das Fahrzeug 110 beinhaltet zudem eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Steuern des Fahrzeug 110 während des autonomen Betriebs. Die Rechenvorrichtungen 115 können Informationen hinsichtlich des Betriebs des Fahrzeugs von Sensoren 116 empfangen.
  • Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie diese bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Arten von computerlesbaren Medien und speichert Anweisungen, die durch den Prozessor ausführbar sind, um verschiedene Vorgänge durchzuführen, zu denen die hier offenbarten gehören. Beispielsweise kann die Rechenvorrichtung 115 Programmierung zum Betreiben eines oder mehrerer von Fahrzeugbremsen, Antrieb (z. B. Beschleunigungsregelung im Fahrzeug 110 durch Steuern eines oder mehrerer von einer Brennkraftmaschine, einem Elektromotor, einem Hybridmotor usw.), Lenkung, Klimaregelung, Innen- und/oder Außenbeleuchtung usw. sowie zum Bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrzeugführer derartige Vorgänge steuern soll, beinhalten.
  • Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung, z. B. Steuerungen oder dergleichen, die in dem Fahrzeug 110 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten, z. B. einer Antriebsstrangsteuerung 112, einer Bremssteuerung 113, einer Lenksteuerung 114 usw., enthalten sind, beinhalten oder kommunikativ daran gekoppelt sein, z. B. über einen Fahrzeugkommunikationsbus, der weiter unten beschrieben ist. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikation über ein Fahrzeugkommunikationsnetz ausgelegt, das z. B. einen Bus in dem Fahrzeug 110, wie etwa ein Controller Area Network (CAN) oder dergleichen, beinhaltet; das Netz des Fahrzeugs 110 kann zusätzlich oder alternativ drahtgebundene oder drahtlose Kommunikationsmechanismen beinhalten, wie sie bekannt sind, z. B. Ethernet oder andere Kommunikationsprotokolle.
  • Über das Fahrzeugnetz kann die Rechenvorrichtung 115 Nachrichten an verschiedene Vorrichtungen in dem Fahrzeug senden und/oder Nachrichten von den verschiedenen Vorrichtungen, z. B. Steuerungen, Aktoren, Sensoren usw., einschließlich der Sensoren 116, empfangen. Alternativ oder zusätzlich kann in Fällen, bei denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetz zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 wiedergegeben sind. Ferner können, wie nachstehend erwähnt, verschiedene Steuerungen oder Erfassungselemente, wie etwa die Sensoren 116, Daten an die Rechenvorrichtung 115 über das Fahrzeugkommunikationsnetz bereitstellen.
  • Darüber hinaus kann die Rechenvorrichtung 115 zur Kommunikation über eine Fahrzeug-Infrastruktur(F-I)-Schnittstelle 111 mit einem Remote-Servercomputer 120, z.B. einem Cloud-Server, über ein Netz 130 ausgelegt sein, wie nachfolgend beschrieben. Eine Fahrzeug-Infrastruktur(F-I)-Schnittstelle 111 beinhaltet Hardware, Firmware und Software, die es der Rechenvorrichtung 115 ermöglichen, mit einem Remote-Servercomputer 120 über ein Netz 130, wie z. B. drahtlose Internet- (WLAN-) oder Mobilfunknetze, zu kommunizieren. Die F-I-Schnittstelle 111 kann demnach Prozessoren, Speicher, Sendeempfänger usw. beinhalten, die dazu konfiguriert sind, verschiedene drahtgebundene und/oder drahtlose Netztechniken, z. B. Mobilfunk, BLUETOOTH® und drahtgebundene und/oder drahtlose Paketnetze, zu nutzen. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen über die F-I-Schnittstelle 111 unter Verwendung von Fahrzeug-Fahrzeug(F-F)-Netzen z. B. gemäß Dedicated Short Range Communications (DSRC) konfiguriert sein, die ad hoc zwischen Fahrzeugen 110 in der Nähe gebildet werden oder über infrastrukturbasierte Netze, einschließlich des Internets über Mobilfunknetze oder WLAN, gebildet werden. Die Rechenvorrichtung 115 beinhaltet außerdem nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, d. h. in einem Speicher speichern, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetz und eine Fahrzeug-Infrastruktur(F-I)-Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in nichtflüchtigem Speicher speichert.
  • Wie bereits erwähnt, ist in Anweisungen, die in dem Speicher gespeichert und durch den Prozessor der Rechenvorrichtung 115 ausführbar sind, im Allgemeinen Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsung, Lenkung, Antrieb usw., ohne Eingreifen eines menschlichen Fahrzeugführers enthalten. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. den Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Beispielsweise kann die Rechenvorrichtung 115 Programmierung zum Regulieren des Betriebsverhaltens des Fahrzeugs 110 (d.h. physischer Manifestationen des Betriebs des Fahrzeugs 110), wie z. B. Geschwindigkeit, Beschleunigung, Bremsung, Lenkung usw., sowie des taktischen Verhaltens (d. h. Steuerung des Betriebsverhaltens typischerweise auf eine Weise, mit der eine sichere und effiziente Zurücklegung einer Strecke erreicht werden soll), wie z. B. einer Entfernung zwischen Fahrzeugen und/oder einer Zeitdauer zwischen Fahrzeugen, Fahrstreifenwechsel, eines Mindestabstands zwischen Fahrzeugen, eines minimalen Linksabbiegewegs, einer Zeit bis zur Ankunft an einem bestimmten Standort und eine minimale Zeit bis zur Ankunft an einer Kreuzung (ohne Ampel) zum Überqueren der Kreuzung, beinhalten.
  • Im hier verwendeten Sinne beinhaltet der Ausdruck Steuerungen Rechenvorrichtungen, die typischerweise zum Steuern eines bestimmten Fahrzeugteilsystems programmiert sind. Zu Beispielen gehören eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Eine Steuerung kann ein Steuergerät (Electronic Control Unit - ECU) sein, wie es bekannt ist, das möglicherweise zusätzliche Programmierung, wie hier beschrieben, beinhaltet. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Beispielsweise kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
  • Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können herkömmliche Steuergeräte (ECU) oder dergleichen beinhalten, zu denen als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 gehören. Jede der Steuerungen 112, 113, 114 kann entsprechende Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können dazu programmiert und mit einem Kommunikationsbus des Fahrzeugs 110, wie z. B. einem Controller-Area-Network(CAN)-Bus oder Local-Interconnect-Network(LIN)-Bus, verbunden sein, Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
  • Zu den Sensoren 116 können vielfältige Vorrichtungen gehören, die bekanntlich Daten über den Fahrzeugkommunikationsbus bereitstellen. Beispielsweise kann ein Radar, das an einem vorderen Stoßfänger (nicht dargestellt) des Fahrzeugs 110 befestigt ist, einen Abstand des Fahrzeugs 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder kann ein Sensor des globalen Positionsbestimmungssystems (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Die durch das Radar und/oder die anderen Sensoren 116 bereitgestellte(n) Entfernung(en) und/oder die durch den GPS-Sensor bereitgestellten geografischen Koordinaten können durch die Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder halbautonom zu betreiben.
  • Das Fahrzeug 110 ist im Allgemeinen ein autonomes Landfahrzeug 110, das drei oder mehr Räder aufweist, z. B. ein Personenkraftwagen, ein Kleinlastkraftwagen usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114.
  • Die Sensoren 116 können dazu programmiert sein, Daten bezüglich des Fahrzeugs 110 und der Umgebung, in der das Fahrzeug 110 betrieben wird, zu sammeln. Beispielsweise können zu den Sensoren 116 u.a. Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hall-Effekt-Sensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren wie etwa Schalter usw. gehören. Die Sensoren 116 können dazu verwendet werden, die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird; z. B. können die Sensoren 116 Phänomene wie etwa Wetterbedingungen (Niederschlag, äußere Umgebungstemperatur usw.), die Neigung einer Straße, die Position einer Straße (z. B. anhand von Straßenrändern, Fahrstreifenmarkierungen usw.) oder Positionen von Zielobjekten, wie z. B. benachbarten Fahrzeugen 110, erfassen. Die Sensoren 116 können ferner dazu verwendet werden, Daten zu sammeln, zu denen dynamische Daten des Fahrzeugs 110 in Bezug auf Vorgänge des Fahrzeugs 110, wie etwa eine Geschwindigkeit, eine Gierrate, ein Lenkwinkel, eine Motordrehzahl, ein Bremsdruck, ein Öldruck, der auf die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angewandte Leistungspegel, eine Konnektivität zwischen Komponenten und eine genaue und rechtzeitige Leistung von Komponenten des Fahrzeugs 110, gehören.
  • 2 veranschaulicht ein Bild 200 einer Verkehrsszene, die eine Fahrbahn 202 und andere Fahrzeuge 204, 206, 208, 210 beinhaltet. Bei dem Bild 200 kann es sich um ein monokulares Videoeinzelbild handeln, das von der Rechenvorrichtung 115 z. B. über einen Videosensor 116 erfasst wird, der einem Fahrzeug 110 enthalten ist. Ein monokulares Videoeinzelbild kann drei Farbebenen mit einer Bittiefe von jeweils acht Bits bei insgesamt 24 Bits, die roten, grünen und blauen (RGB) Farbanteilen entsprechen, beinhalten. Das Bild 200 kann eine Fahrbahn 202, eine Fahrstreifenmarkierung 212, Rückhaltesysteme 224, 226, 228 und Seitenstreifen oder an die Fahrbahn angrenzendes Terrain 230, 232 beinhalten. Die Rechenvorrichtung 115 kann das Bild 200 verwenden, um eine kognitive Karte zu erzeugen, welche die Fahrbahn 202 und Objekte, einschließlich anderer Fahrzeuge 204, 206, 208, 210, der Fahrstreifenmarkierung 212, der Rückhaltesysteme 224, 226, 228 und Seitenstreifen oder des an die Fahrbahn angrenzenden Terrains 230, 232, beinhaltet und auf Grundlage der die Fahrbahn 202 und Objekte beinhaltenden kognitiven Karte vorhergesagte Bahnen zum Betreiben des Fahrzeugs 110 bestimmen.
  • 3 ist eine kognitive Karte 300 einer Verkehrsszene, die eine Fahrbahn 302 (weiß) und Objekte, einschließlich anderer Fahrzeuge 304, 306, 308, 310 (Gitter) beinhaltet, die weiß bzw. als Gitter dargestellt sind, um verschiedene Farben anzudeuten. Ebenso sind die Fahrstreifenmarkierung 312 (schwarz), die Rückhaltesysteme 314, 316, 318 (diagonal nach oben) und die Seitenstreifen oder das angrenzende Terrain 320, 322 (Kreuzschraffur) jeweils so dargestellt, dass verschiedene Farben angedeutet sind, wobei jede unterschiedliche Farbe für eine Objektklasse oder einen Objekttyp steht und jeweils einen gesonderten Kanal oder eine gesonderte Ebene in der kognitiven Karte 300 belegt. Beispielsweise kann eine kognitive Karte 20 oder mehr Kanäle beinhalten, die jeweils Objekte einschließen, die zu einer einzigen Klasse, wie z. B. „Fahrbahn“, „Fahrzeug“, „Fußgänger“, „Radfahrer“ usw., gehören. Die Bahn des Fahrzeugs 110 in Bezug auf die kognitive Karte 300 ist mit einem Pfeil 324 angegeben. Die kognitive Karte 300 kann durch Eingeben eines Bildes 200 in ein neuronales Faltungsnetz (Convolutional Neural Network - CNN) erstellt werden, das konfiguriert und trainiert wird, wie nachfolgend in Bezug auf 4 beschrieben, und das in Reaktion auf die Eingabe eine kognitive Karte 300 ausgibt.
  • Die Rechenvorrichtung 115 kann das Fahrzeug 110 auf Grundlage der kognitiven Karte 300 betreiben. Das Betreiben des Fahrzeugs 110 kann Betätigen von Fahrzeugkomponenten wie etwa Antriebsstrang, Lenkung und Bremsung über die Steuerungen 112, 113, 114 beinhalten, um die Position und Bahn des Fahrzeugs auf Grundlage von vorhergesagten Positionen und Bahnen zu bestimmen. Die vorhergesagten Positionen und Bahnen können auf Grundlage der kognitiven Karte 300 bestimmt werden. Beispielsweise kann die Rechenvorrichtung 115 das Fahrzeug 110 derart betreiben, dass es vorhergesagten Bahnen folgt, durch welche das Fahrzeug 110 in der Mitte eines Fahrstreifens positioniert wird, wobei der Fahrstreifen auf Grundlage der Fahrstreifenmarkierung 312 und des Rückhaltesystems 314 bestimmt wird, während ein vorgegebener Abstand zwischen dem Fahrzeug 110 und dem anderen Fahrzeug 310 beibehalten wird. Die Rechenvorrichtung 115 kann Fahrzeugbahnen vorhersagen, die verwendet werden können, um z. B. Antriebsstrangs-, Lenkungs- und Bremskomponenten auf Grundlage von Abständen zu und Positionen von Objekten auf der kognitiven Karte 300 im Verhältnis zu der Position des Fahrzeugs 110 zu betätigen.
  • Vorhergesagte Bahnen von Objekten, einschließlich der anderen Fahrzeuge 304, 306, 308, 310, können durch Vergleichen der Position der Objekte in aufeinanderfolgenden kognitiven Karten 300 bestimmt werden, die in aufeinanderfolgenden Zeitintervallen aus Bildern 200 erstellt werden, die in aufeinanderfolgenden Zeitintervallen erfasst werden. Bahnen der anderen Fahrzeuge 304, 306, 308, 310 können durch Bestimmen der Positionen der anderen Fahrzeuge 304, 306, 308, 310 in aufeinanderfolgenden kognitiven Karten 300 bestimmt werden, die in aufeinanderfolgenden Zeitintervallen erstellt werden, wobei eine Kurve an die Positionspunkte angepasst wird und Vektoren berechnet werden, die gleich der ersten und zweiten Ableitung jeder Kurve in der 2D-Ebene der kognitiven Karte 300 sind. Der Betrag der ersten Ableitung ist die Geschwindigkeit und der Winkel ist die Richtung. Die zweiten Ableitungen sind Richtungsableitungen, die parallel zu der Richtung der ersten Ableitung (Längsbeschleunigung) und senkrecht zu der Richtung der ersten Ableitung (Querbeschleunigung) sind.
  • 4 ist eine Darstellung eines beispielhaften CNN 400, das zum Eingeben eines Bildes 200 und Ausgeben einer kognitiven Karte 300 konfiguriert ist. Bei dem Bild 200 kann es sich um ein monokulares RGB-Videobild handeln, das von einem Videosensor 116 erfasst wird, der in einem Fahrzeug 110 enthalten ist, und eine Szene beinhaltet, welche die physische Umgebung in der Nähe des Fahrzeugs 110 abbildet. Die kognitive Karte 300 ist eine 2D-Darstellung der physischen Umgebung in der Nähe des Fahrzeugs 110, die 20 oder mehr Kanäle enthält, die jeweils eine einzige Klasse von in der Szene vorhandenen Objekten beinhalten, die nach Typ, Entfernung und 3D-Lage im Verhältnis zu dem Fahrzeug 110 identifiziert werden, wobei die 3D-Lage als die Orientierung eines Objekts im 3D-Raum im Verhältnis zu einem als Winkel ρ, φ und θ ausgedrückten Referenzrahmen definiert ist. Informationen bezüglich des Objekttyps, der Entfernung und der 3D-Lage, die in der kognitiven Karte 300 als Draufsicht enthalten sind, können es der Rechenvorrichtung 115 ermöglichen, Bahnen zum sicheren Betreiben des Fahrzeugs 110 durch Fahren auf der Fahrbahn und Vermeiden von Zusammenstößen zu bestimmen.
  • Das CNN 400 ist ein Programm in einem Speicher, das auf einem in der Rechenvorrichtung 115 enthaltenen Prozessor ausgeführt wird und einen Satz von zehn Faltungsschichten C1-C10 (3D-Kästchen) beinhaltet, der zum Eingeben 402 eines Bildes 200 in die Faltungsschicht C1 konfiguriert ist. Die Faltungsschicht C1 erzeugt ein Zwischenergebnis 406, das durch den Pfeil zwischen der Faltungsschicht C1 und der Faltungsschicht C2 wiedergegeben ist. Jede Faltungsschicht C2-C10 empfängt ein Zwischenergebnis 406 und gibt ein Zwischenergebnis 406 aus, das durch die Pfeile zwischen benachbarten Faltungsschichten C1-C10 wiedergegeben ist, was eine Vorwärtspropagierung der Zwischenergebnisse 406 wiedergibt. Die Faltungsschichten C1-C10 geben jeweils ein Zwischenergebnis 406 mit einer räumlichen Ausgabeauflösung, die gleich der räumlichen Eingabeauflösung ist, oder mit einer räumlichen Ausgabeauflösung, die gegenüber der räumlichen Eingabeauflösung verringert ist, aus. Die Bittiefe nimmt je Auflösungselement bei Zwischenergebnissen mit zunehmender räumlicher Auflösung zu, wie in der untenstehenden Tabelle 1 beschrieben. Dies wird für die Faltungsschichten C2-C9 wiederholt, die Zwischenergebnisse 406 erzeugen, die durch die dunklen Pfeile zwischen den Faltungsschichten C2-C9 mit nacheinander geringeren Auflösungen wiedergegeben sind. Die Faltungsschichten C1-C9 können die Auflösung durch Zusammenfassen verringern, wobei eine benachbarte Pixelgruppe, die z. B. eine 2-x-2-Nachbarschaft sein kann, zu einem einzigen Pixel gemäß einer vorgegebenen Gleichung kombiniert wird. Durch das Kombinieren einer Gruppe von Pixeln durch Auswählen eines Höchstwerts darunter, was als „Max-Pooling“ bezeichnet wird, lässt sich die Auflösung verringern, während Informationen in den Zwischenergebnissen 406 beibehalten werden. Nach den Faltungsschichten C1-C10 gibt die Faltungsschicht C10 das Zwischenergebnis 406 an eine erste Entfaltungsschicht D1 aus, die das Zwischenergebnis 406 entfalten und auf eine höhere Abtastrate umsetzen kann, um eine kognitive Zwischenkarte 408 zu erzeugen, die durch die Pfeile zwischen jeder der Entfaltungsschichten D1-D10 wiedergegeben ist. Bei der Entfaltung handelt es sich um eine Faltung, die mit einem Kernel durchgeführt wird, der zumindest teilweise eine Umkehr eines anderen Kernels ist, der zuvor zum Falten einer Funktion verwendet wurde, und welcher die Effekte der vorhergehenden Faltung teilweise umkehren kann. Beispielsweise können die Entfaltungsschichten D1-D10 die räumliche Auflösung der kognitiven Zwischenkarte 408 erhöhen, während sie die Bittiefe gemäß der untenstehenden Tabelle 1 verringern.
  • Die Faltungsschicht C10 gibt zudem geschätzte Merkmalskarten 412 an ein Vorhersagebild p6 aus, das beim Trainieren des CNN 400 geschätzte Merkmalskarten 412 von der Faltungsschicht C10 mit auf Ground-Truth beruhenden Informationen bezüglich Objekten kombiniert, welche die geschätzten Merkmalskarten 412 in eine geschätzte kognitive Karte 414 umwandeln. Die geschätzte kognitive Karte 414 wird mit den Zwischenmerkmalskarten 408 kombiniert, die von der Entfaltungsschicht D1 beim Trainieren des CNN 400 ausgegeben werden. Dies ist durch die „+“-Vorzeichen in dem Pfeil der kognitiven Zwischenkarte 408 zwischen den Entfaltungsschichten D1-D2 dargestellt. Das Vergleichen der kognitiven Zwischenkarte 408 auf Grundlage des eingegebenen Bildes I mit auf Ground-Truth beruhenden Informationen, einschließlich Objekterkennung, pixelbasierter Segmentierung, 3D-Lage von Objekten und relativer Entfernungen, wird zum Trainieren des neuronalen Faltungsnetzes verwendet.
  • Das „+“-Vorzeichen in der kognitiven Zwischenkarte 408 zwischen den Entfaltungsschichten D1-D2 gibt ferner ein Kombinieren der Zwischenmerkmalskarte 408 und der vorhergesagten kognitiven Karte 414 mit Sprungverbindungsergebnissen 410 von der Faltungsschicht C7, die über Sprungverbindungen erhalten werden, an. Die Sprungverbindungsergebnisse 410 sind Zwischenergebnisse 406, die über Sprungverbindungen als Eingabe in eine Entfaltungsschicht D2, D4, D6, D8, D10 zur Abtastratenerhöhung vorwärtspropagiert werden. Die Sprungverbindungsergebnisse 410 können mit den Zwischenmerkmalskarten 408 kombiniert werden, um die Auflösung der Zwischenmerkmalskarte 408 durch Abtastratenerhöhung zu erhöhen, um auf nachfolgende Entfaltungsschichten D3, D5, D7, D9 überzugehen. Dies ist durch die „+“-Vorzeichen bei den Zwischenergebnissen 408 zwischen den Entfaltungsschichten D1-D2, D3-D4, D5-D6, D7-D8 und D9-D10 dargestellt. Sprungverbindungen können die Sprungverbindungsergebnisse 410 mit der gleichen Auflösung wie die Entfaltungsschichten D2, D4, D6, D8, D10, welche die Informationen empfangen, vorwärtspropagieren.
  • Die Entfaltungsschichten D1-D10 beinhalten Vorhersagebilder p2-p6. Die Vorhersagebilder p2-p6 werden zum Trainieren des CNN 400 verwendet, um kognitive Karten 300 aus dem eingegebenen Bild 200 zu erzeugen. Die Vorhersagebilder p2-p6 werden auf Grundlage von Ground-Truth-Bildern bestimmt, die von dem CNN 400 unabhängig entwickelt werden. Ground-Truth bezieht sich auf Informationen bezüglich der physischen Umgebung in der Nähe des Fahrzeugs 110. Demnach können Ground-Truth-Daten im vorliegenden Zusammenhang Entfernungs- und Lageinformationen beinhalten, die unter Verwendung der Sensoren 116, einschließlich Multikamera-Videosensoren 116, LIDAR-Sensoren 116 und Radarsensoren 116, Standortdaten von GPS-Sensoren 116, INS-Sensoren 116 und Odometriesensoren 116, bestimmt werden. Zu Ground-Truth-Daten können im vorliegenden Zusammenhang zudem Kartendaten, die in einem Speicher der Rechenvorrichtung 115 gespeichert sind und/oder von einem Servercomputer 120 stammen, in Kombination mit Informationen bezüglich der Objektklassifikation, die mittels CNN-basierter Objektklassifizierungsprogramme bestimmt werden, gehören. Derartige CNN-basierte Objektklassifizierungsprogramme empfangen typischerweise als Eingabe die Bilder 200 und geben dann die Bilder 200 als in Bereich segmentiert aus, die Objekte wie etwa Fahrbahnen, Fahrstreifenmarkierungen, Rückhaltesysteme, Fahrstreifen, Seitenstreifen oder angrenzendes Terrain, andere Fahrzeuge, einschließlich Typ und Modell, und andere Objekte, einschließlich Fußgänger, Tiere, Fahrräder usw., beinhalten. Die Vorhersagebilder p2-p6 kombinieren Entfernungsinformationen mit Segmentierungsinformationen, um geschätzte Ergebnisse 412 von der Faltungsschicht C10 und den Entfaltungsschichten D2, D4, D6 und D8 in geschätzte kognitive Karten 414 durch Orthogonalprojektion der geschätzten Ergebnisse 412 auf eine 2D-Grundebene auf Grundlage der Entfernungsinformationen zu segmentierten Objekten und Einfärben der geschätzten kognitiven Karte 414 auf Grundlage von Informationen bezüglich Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativer Entfernungen, die in den Vorhersagebildern p2-p6 enthalten sind, umzuwandeln.
  • Die Vorhersagebilder p2-p6 werden zum Trainieren des CNN 400 verwendet, um eine kognitive Karte 300 in Reaktion auf die Eingabe eines Bildes 200 auszugeben, indem die geschätzten kognitiven Karten 414, die mit den von den Entfaltungsschichten D1, D3, D5, D7, D9 ausgegebenen kognitiven Zwischenkarten 408 zu kombinieren sind, ausgegeben werden.
  • Diese Kombination ist durch die „+“-Vorzeichen in den kognitiven Zwischenkarten 408 zwischen den Entfaltungsschichten D1-D2, D3-D4, D5-D6, D7-D8 und D9-D10 gekennzeichnet. Die Vorhersagebilder p2-p6 können auf Ground-Truth, einschließlich auf ein eingegebenes Bild 200 angewandter semantischer Segmentierung, beruhen. Es können mehrere monokulare Bilder 200, die an verschiedenen Positionen erfasst werden, unter Verwendung von optischen Flusstechniken verarbeitet werden, um z. B. Entfernungen von durch semantische Segmentierung erkannten Objekten zu bestimmen. Daten von einem Sensor 116 können mit Informationen aus semantischer Segmentierung kombiniert werden, um Entfernungen zu Objekten zu bestimmen. Sobald Entfernungen zu Objekten bestimmt wurden und eine 3D-Form geschätzt wurde, kann eine Draufsicht mittels Homografie erzeugt werden, wobei Abbildungen von Objekten, die in einem eingegebenen Bild 200 erkannt werden, orthogonal auf eine Ebene, die parallel zu einer Grundebene oder Fahrbahn ist, auf Grundlage ihrer geschätzten 3D-Form und 3D-Lage projiziert werden. Nachdem sie auf die Ebene projiziert wurden, die eine geschätzte kognitive Karte 414 darstellt, können Objekte ihre Klasse oder ihren Typ beibehalten, wie farblich angegeben.
  • Es werden mehrere Vorhersagebilder p2-p6 zum Trainieren des CNN 400 mit dem Ziel verwendet, dass jedes Vorhersagebild p2-p6 mit der kognitiven Zwischenkarte 408 in der entsprechenden Auflösung kombiniert wird. Das Kombinieren der geschätzten kognitiven Karten 414 mit den kognitiven Zwischenkarten 408 kann beinhalten, dass eine Ausgabe der Entfaltungsschichten D1, D3, D5, D7, D9 auf Grundlage der Ähnlichkeit zwischen den kognitiven Zwischenkarten 408 und den geschätzten kognitiven Karten 414 positiv bewertet (belohnt) wird. Durch ein derartiges positives Belohnen der Entfaltungsschichten D1, D3, D5, D7, D9 kann das CNN 400 darauf trainiert werden, eine kognitive Karte 300 aus der Entfaltungsschicht D10 auszugeben 404. Sobald die Entfaltungsschichten D1, D3, D5, D7, D9 darauf trainiert wurden, kognitive Zwischenkarten 408 auszugeben, ist eine Eingabe der Vorhersagebilder p2-p6 nicht mehr erforderlich, um ein kognitive Karte 300 auf Grundlage eines eingegebenen Bildes 200 auszugeben 404. Das trainierte CNN 400 gibt 404 eine kognitive Karte 300 auf Grundlage einer Erkennung von visuellen Ähnlichkeiten zwischen einem eingegebenen Bild 200 und eingegebenen Bildern 200, die als Teil eines Trainingssatzes verarbeitet werden, aus.
  • Ähnlichkeit zwischen der kognitiven Zwischenkarte 408 und der geschätzten kognitiven Karte 414 kann auf Grundlage einer Kostenfunktion bestimmt werden, welche die Ähnlichkeit der kognitiven Zwischenkarte 408 zu der geschätzten kognitiven Karte 414 mithilfe der folgenden Gleichung misst: K o s t e n ( I , M ) = W K r e u z E n t r o p i e ( M , M R e c ) + N a c h b a r s c h a f t s k o s t e n ( M , M R e c )
    Figure DE102019101938A1_0001
    wobei W für eine Gewichtung jedes Objekts steht, die auf Grundlage der Anzahl von verfügbaren Trainingspixeln für jede Klasse von Objekten berechnet wird, / für das eingegebene Bild 200 steht, M für die geschätzte kognitive Karte 414 steht und M Ree für die kognitive Zwischenkarte 408 steht. Die Kreuzentropie-Verlustfunktion wird berechnet als: H ( M , M _ R e c ) = Σ i ( M _ R e c i log ( M i ) + ( 1 M _ R e c i ) log ( 1 M i ) )
    Figure DE102019101938A1_0002
    wobei i für das i-te Pixel in dem Bild steht. Der Kostenterm Nachbarschaftsähnlichkeit kann unter Berücksichtigung der Übereinstimmung zwischen einem Pixel und seinen Nachbarpixeln in den Vorhersagen p2-p6 und 300 der kognitiven Karte bestimmt werden. Die Berechnung einer Nachbarschaftskostenfunktion lässt sich durch Anwenden eines Gauß-Filters auf die Kreuzentropie eines 3-x-3-Pixelblocks für die geschätzte kognitive Karte und Ground-Truth vereinfachen. Durch ein derartiges Anwenden einer Nachbarschaftskostenfunktion lässt sich die Konvergenzgeschwindigkeit des Trainings verbessern und können bessere Vorhersagen erhalten werden.
  • Tabelle 1 ist eine Tabelle zu den Faltungsschichten 402 C1-C10, den Entfaltungsschichten 404 D1-D10, der kognitiven Karte 300 (p1) und den Vorhersagebildern p2-p6, wobei deren jeweilige Größen als Bruchteile der Höhe und Breite des eingegebenen RGB-Bildes 200 I zusammen mit einer Bittiefe angegeben sind, wobei das eingegebene RGB-Bild die Größe WxHx3 aufweist und jede der RGB-Farbebenen eine Bittiefe von acht Bits bei z. B. W = 1920, H = 1080 und einer Bittiefe von 24 aufweist. Tabelle 1. Größen und Bittiefe für die Faltungsschichten C1-C10, die Entfaltungsschichten D1-D10, die kognitive Karte 300 (p1) und die Vorhersagebilder p2-p6.
    C1-C10 D1-D10 p1-p6
    1 B/2 × H/2 × 64 B/32 × H/32 × 512 B × H × 24
    2 B/4 × H/4 × 128 B/32 × H/32 × 512 B/4 × H/4 × 24
    3 B/8 × H/8 × 256 B/16 × H/16 × 256 B/8 × H/8 × 24
    4 B/8 × H/8 × 256 B/16 × H/16 × 256 B/16 × H/16 × 24
    5 B/16 × H/16 × 512 B/8 × H/8 × 128 B/32 × H/32 × 24
    6 B/16 × H/16 × 512 B/8 × H/8 × 128 B/64 × H/64 × 24
    7 B/32 × H/32 × 512 B/4 × H/4 × 64
    8 B/32 × H/32 × 512 B/4 × H/4 × 64
    9 B/64 × H/64 × 1024 B/2 × H/2 × 32
    10 B/64 × H/64 × 1024 B/2 × H/2 × 32
  • Sobald es unter Verwendung von auf Ground-Truth beruhenden Vorhersagebildern p2-p6 trainiert wurde, kann ein CNN 400 eingegebene Bilder 200 verarbeiten, um kognitive Karten 300 ohne Eingabe von Vorhersagebilder p2-p6 zu erzeugen. Die Faltungsschichten C1-C10 können die Zwischenergebnisse 406, die an die Entfaltungsschichten D1-D10 übergeben werden, falten und deren Abtastrate reduzieren, um die kognitiven Zwischenkarten 408 mit einer Eingabe von den Faltungsschichten C1, C2, C4, C6, C7 über die Sprungverbindungsergebnisse 410 zu entfalten und deren Abtastrate zu erhöhen. Die kognitiven Karten 300, die von dem CNN 400 erzeugt werden, können von der Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 zu betreiben, indem es der Rechenvorrichtung ermöglicht wird, Fahrzeugbahnen auf Grundlage der kognitiven Karte 300 vorherzusagen.
  • In anderen Beispielen können mehrere CNN 400 trainiert werden, um kognitive Karten 300 auf Grundlage von Ground-Truth, einschließlich Eingaben mehrerer monokularer Bilder, LIDAR und Radar und der durch Hinzufügen einer Fusionsschicht zu den CNN 400 kombinierten Ergebnisse, zu bestimmen. Zeitinformationen können in das CNN 400 durch Hinzufügen sich wiederholender Faltungsschichten zum Verarbeiten von Zeitinformationen einbezogen werden. Von dem CNN 400 ausgegebene kognitive Karten 300 können mit anderen Informationen kombiniert werden, die der Rechenvorrichtung 115 von den Sensoren 116 zur Verfügung stehen, einschließlich GPS-, INS- und odometrischer Positionsinformationen, LIDAR-, Radar- und Multikamerainformationen bezüglich Entfernungen und Karteninformationen, die in der Rechenvorrichtung 115 gespeichert sind oder von einem Servercomputer 120 heruntergeladen werden, um z. B. die Genauigkeit der kognitiven Karte 300 p1 und Entfernungen zu Objekten darin zu verbessern.
  • In anderen Beispielen kann in Fällen, in denen andere Informationen, die der Rechenvorrichtung 115 zur Verfügung stehen, einschließlich GPS-, INS- und odometrischer Positionsinformationen, LIDAR-, Radar- und Multikamerainformationen bezüglich Entfernungen und Karteninformationen, die in der Rechenvorrichtung 115 gespeichert sind oder von einem Servercomputer 120 heruntergeladen werden, Informationen bereitstellen, die nicht mit der kognitiven Karte 300 p1 übereinstimmen, ein aufgezeichnetes Bild 200 zusammen mit aufgezeichneten Ground-Truth-Informationen verwendet werden kann, um das CNN 400 durch Bereitstellen von zusätzlichem Training zu aktualisieren. Das erneut trainierte CNN 400 kann im Speicher der Rechenvorrichtung 115 zur späteren Verwendung gespeichert werden. Ein trainiertes CNN 400 kann aus dem Speicher wieder abgerufen und von der Rechenvorrichtung 115 ausgeführt werden, um kognitive Karten 300 aus dem eingegebenen Bild 200 in Echtzeit zu erzeugen, wie z.B. zum Betrieb eines Fahrzeugs 110 auf einer Fahrbahn bei Verkehr erforderlich ist.
  • 5 ist eine Darstellung eines Ablaufdiagramms, das in Bezug auf die 1-4 beschrieben ist, für ein Verfahren 500 zum Betreiben eines Fahrzeugs auf Grundlage einer kognitiven Karte. Das Verfahren 500 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem z.B. Informationen von den Sensoren 116 als Eingabe herangezogen und Befehle ausgeführt und Steuersignale über die Steuerungen 112, 113, 114 gesendet werden. Das Verfahren 500 beinhaltet mehrere Schritte, die in der offenbarten Reihenfolge vorgenommen werden. Das Verfahren 500 beinhaltet zudem Umsetzungen, die weniger Schritte beinhalten, oder kann die Schritte in anderen Reihenfolgen beinhalten.
  • Das Verfahren 500 beginnt bei Schritt 502, bei dem eine in einem Fahrzeug 110 enthaltene Rechenvorrichtung 115 ein Bild 200 erfasst, wie oben in Bezug auf 2 beschrieben. Bei dem Bild 200 kann es sich um ein RGB-Farbvideobild handeln, das von einem in dem Fahrzeug 110 enthaltenen Videosensor 116 erfasst wird. Das Bild 200 kann die physische Umgebung in der Nähe des Fahrzeugs 110, einschließlich einer Fahrbahn 202 und Objekte wie etwa der anderen Fahrzeuge 204, 206, 208, 210, abbilden.
  • Bei Schritt 504 gibt die Rechenvorrichtung 115 ein Bild 200 in ein trainiertes CNN 400 ein, wie oben in Bezug auf 4 erörtert. In Reaktion auf das Eingeben des Bildes 200 erzeugt das trainierte CNN 400 eine kognitive Karte 300, die eine Fahrbahn 302 und Objekte, einschließlich der anderen Fahrzeuge 304, 306, 308, 310, beinhaltet. Das Training des CNN 400 wird in Bezug auf 6 erörtert.
  • Bei Schritt 506 betreibt die Rechenvorrichtung 115 ein Fahrzeug 110 auf Grundlage der kognitiven Karte 300. Die Rechenvorrichtung 115 kann das Fahrzeug 110 auf Grundlage der kognitiven Karte 300 durch Bestimmen vorhergesagter Fahrzeugbahnen auf Grundlage von Fahrstreifen und Objekten, einschließlich anderer Fahrzeuge, betreiben. Die Rechenvorrichtung 115 kann die kognitiven Karten 300 mit Kartendaten von Multikamerasensoren 116, LIDAR-Sensoren 116 und Radarsensoren 116, Standortdaten von GPS, INS und Odometrie und Kartendaten von einem Servercomputer 120 kombinieren, um z. B. die Genauigkeit der kognitiven Karte 300 zu verbessern. Somit kann die Rechenvorrichtung 115 auf Grundlage der kognitiven Karte 300 Anweisungen an eine oder mehrere von der Antriebsstrangsteuerung 112, der Bremssteuerung 113 und der Lenksteuerung 114 bereitstellen. Beispielsweise kann die Rechenvorrichtung dazu programmiert sein, bestimmte Maßnahmen bezüglich Einstellungen zu ergreifen oder die Geschwindigkeit, Beschleunigung und/oder Lenkung auf Grundlage von Objekten, wie z. B. den anderen Fahrzeugen 304-310, beizubehalten; die kognitive Karte 300 kann vorteilhafterweise genauere Daten für derartige Maßnahmen bereitstellen, als zuvor verfügbar waren. Die Sicherheit und/oder Effizienz des Fahrzeugs 110 können damit durch die kognitive Karte 300 verbessert werden. Im Anschluss an diesen Schritt endet das Verfahren 500.
  • 6 ist eine Darstellung eines Ablaufdiagramms, das in Bezug auf die 1-4 beschrieben ist, für ein Verfahren 600 zum Trainieren eines CNN 400 auf Grundlage von Ground-Truth. Das Verfahren 600 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem z. B. Informationen von den Sensoren 116 als Eingabe herangezogen und Befehle ausgeführt und Steuersignale über die Steuerungen 112, 113, 114 gesendet werden. Das Verfahren 600 beinhaltet mehrere Schritte, die in der offenbarten Reihenfolge vorgenommen werden. Das Verfahren 600 beinhaltet zudem Umsetzungen, die weniger Schritte beinhalten, oder kann die Schritte in anderen Reihenfolgen beinhalten.
  • Das Verfahren 600 beginnt bei Schritt 602, bei dem eine in einem Fahrzeug 110 enthaltene Rechenvorrichtung 115 ein oder mehrere Bilder 200 erfasst und aufzeichnet, wie oben in Bezug auf 2 beschrieben. Bei den Bildern 200 kann es sich um RGB-Farbvideobilder handeln, die von einem in dem Fahrzeug 110 enthaltenen Videosensor 116 erfasst werden. Das Bild 200 kann die physische Umgebung in der Nähe des Fahrzeugs 110, einschließlich einer Fahrbahn 202 und Objekte wie etwa der anderen Fahrzeuge 204, 206, 208, 210, abbilden.
  • Bei Schritt 604 zeichnet die Rechenvorrichtung 115 Ground-Truth-Daten auf Grundlage von Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativen Entfernungen auf, die allesamt auf Grundlage der aufgezeichneten Bilder 200, Entfernungsdaten, Positionsdaten und Kartendaten, wie oben in Bezug auf 4 erörtert, entsprechend der bei Schritt 602 aufgezeichneten Bilder 200 bestimmt werden.
  • Bei Schritt 606 gibt die Rechenvorrichtung die Bilder 200 in das CNN 400 ein, während sie Vorhersagebilder p2-p6 erstellt, um das CNN 400 gemäß Kostenfunktionen in den obenstehenden Gleichungen 1 und 2 zu trainieren. Die Vorhersagebilder p2-p6 werden erstellt, um die aufgezeichneten Ground-Truth-Daten auf Grundlage von Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativen Entfernungen einzubeziehen. Die Vorhersagebilder p2-p6 können mittels homografischer Projektion der Ground-Truth-Daten erstellt und verwendet werden, um geschätzte Ergebnisse 412 in geschätzte kognitive Karten 414 in Draufsicht umzuwandeln, die verwendet werden können, um das CNN 400 darauf zu trainieren, eine kognitive Karte 300 in Reaktion auf die Eingabe eines Bildes 200 auszugeben, wie oben in Bezug auf 4 erörtert. Durch Vergleichen der von den Entfaltungsschichten D1, D3, D5, D7 und D9 ausgegebenen kognitiven Zwischenkarten 806 mit den geschätzten kognitiven Ergebnissen 414 und Rückpropagieren der Ergebnisse einer Kostenfunktion, wie in Bezug auf die Gleichungen 1 und 2 beschrieben, kann das CNN 400 darauf trainiert werden, eine kognitive Karte 300 in Reaktion auf ein eingegebenes Bild 200 auszugeben.
  • Bei Schritt 608 wird das trainierte CNN 400 ausgegeben, um in dem in der Rechenvorrichtung 115 enthaltenen Speicher gespeichert zu werden. Die Rechenvorrichtung 115 kann das trainierte CNN 400 erneut aus dem Speicher abrufen, ein erfasstes Bild 200 in das trainierte CNN 400 eingeben und als Ausgabe eine kognitive Karte 300 erhalten, die zu verwenden ist, um ein Fahrzeug 110 zu betreiben, ohne Ground-Truth-Daten eingeben zu müssen. Im Anschluss an diesen Schritt endet das Verfahren 600.
  • Rechenvorrichtungen, wie etwa die hier erörterten, beinhalten im Allgemeinen jeweils Befehle, die durch eine oder mehrere Rechenvorrichtungen, wie etwa den vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Verfahren ausführbar sind. Beispielsweise können die vorstehend erörterten Verfahrensblöcke als computerausführbare Befehle verwirklicht sein.
  • Computerausführbare Befehle können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung vielfältiger Programmiersprachen und/oder -techniken, einschließlich unter anderem entweder allein oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw., erstellt worden sind. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Befehle z. B. von einem Speicher, einem computerlesbaren Medium usw. und führt diese Befehle aus, wodurch er ein oder mehrere Verfahren, einschließlich eines oder mehrerer der hier beschriebenen Verfahren, durchführt. Derartige Befehle und andere Daten können in Dateien gespeichert und unter Verwendung einer Vielfalt an computerlesbaren Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung von Daten, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert ist.
  • Ein computerlesbares Medium schließt ein jedes Medium ein, das an der Bereitstellung von Daten (z. B. Befehlen) beteiligt ist, die von einem Computer gelesen werden können. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtiger Medien, flüchtiger Medien usw. Zu nichtflüchtigen Medien gehören z. B. optische Platten oder Magnetplatten und sonstige dauerhafte Speicher. Zu flüchtigen Medien gehört ein dynamischer Direktzugriffsspeicher (DRAM), der typischerweise einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören zum Beispiel eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das durch einen Computer ausgelesen werden kann.
  • Allen in den Patentansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel, wie etwa „ein“, „eine“, „der“, „die“, „das“ usw., dahingehend auszulegen, dass eines oder mehrere der aufgeführten Elemente genannt wird bzw. werden, es sei denn, ein Patentanspruch enthält ausdrücklich eine gegenteilige Einschränkung.
  • Der Ausdruck „beispielhaft“ wird hier in dem Sinne verwendet, dass er ein Beispiel angibt, z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
  • Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, eine Messung, ein Wert, eine Bestimmung, eine Berechnung usw. von einer/einem genau beschriebenen Geometrie, Entfernung, Messung, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Bearbeitungszeit, Kommunikationszeit usw. abweichen kann.
  • In den Zeichnungen kennzeichnen die gleichen Bezugszeichen die gleichen Elemente. Ferner könnten einige oder sämtliche dieser Elemente geändert werden. Hinsichtlich der hier beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass die Schritte derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der hier beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass bestimmte Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder bestimmte hierin beschriebene Schritte weggelassen werden könnten. Mit anderen Worten dienen die Beschreibungen von Prozessen in dieser Schrift der Veranschaulichung bestimmter Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
  • Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Erfassen eines Bildes einer Fahrzeugumgebung, Bestimmen einer kognitiven Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes und Betreiben des Fahrzeugs auf Grundlage der kognitiven Karte.
  • Gemäß einer Ausführungsform beinhaltet die Fahrzeugumgebung eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Bestimmen der kognitiven Karte, die Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug beinhaltet.
  • Gemäß einer Ausführungsform handelt es sich bei dem Bild um ein monokulares Videoeinzelbild.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Bestimmen der kognitiven Karte der Fahrzeugumgebung auf Grundlage einer Verarbeitung des Bildes mit einem neuronalen Faltungsnetz.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Trainieren des neuronalen Faltungsnetzes auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte.
  • Gemäß einer Ausführungsform beruhen Ground-Truth-Daten auf Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativer Entfernung.
  • Gemäß einer Ausführungsform beruht das Trainieren des neuronalen Faltungsnetzes auf Vorhersagebildern, die in dem neuronalen Faltungsnetz enthalten sind.
  • Gemäß einer Ausführungsform beruhen die Vorhersagebilder auf Ground-Truth-Daten.
  • Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, umfassend einen Prozessor und einen Speicher, wobei der Speicher Anweisungen enthält, die von dem Prozessor auszuführen sind, um ein Bild einer Fahrzeugumgebung zu erfassen, eine kognitive Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes zu bestimmen und das Fahrzeug auf Grundlage der kognitiven Karte zu betreiben.
  • Gemäß einer Ausführungsform beinhaltet die Fahrzeugumgebung eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger.
  • Gemäß einer Ausführungsform beinhaltet die kognitive Karte Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug.
  • Gemäß einer Ausführungsform handelt es sich bei dem Bild um ein monokulares Videoeinzelbild.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Bestimmen der kognitiven Karte der Fahrzeugumgebung auf Grundlage einer Verarbeitung der Bilder mit einem neuronalen Faltungsnetz.
  • Gemäß einer Ausführungsform ist die Erfindung ferner gekennzeichnet durch Trainieren des neuronalen Faltungsnetzes auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte.
  • Gemäß einer Ausführungsform beinhalten Ground-Truth-Daten Objekterkennung, pixelbasierte Segmentierung, die 3D-Lage von Objekten und relative Entfernung.
  • Gemäß einer Ausführungsform beruht das Trainieren des neuronalen Faltungsnetzes auf Vorhersagebildern, die in dem neuronalen Faltungsnetz enthalten sind.
  • Gemäß einer Ausführungsform beruhen die Vorhersagebilder auf Ground-Truth-Daten.
  • Gemäß der vorliegenden Erfindung wird ein System bereitgestellt, das einen Videosensor, der dazu betreibbar ist, ein Bild einer Fahrzeugumgebung zu erfassen, Fahrzeugkomponenten, die dazu betreibbar sind, ein Fahrzeug zu betreiben, einen Prozessor und einen Speicher aufweist, wobei der Speicher Anweisungen enthält, die von dem Prozessor auszuführen sind, um das Bild der Fahrzeugumgebung zu erfassen, eine kognitive Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes zu bestimmen und das Fahrzeug auf Grundlage der kognitiven Karte zu betreiben.
  • Gemäß einer Ausführungsform beinhaltet die Fahrzeugumgebung eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger.

Claims (15)

  1. Verfahren, umfassend: Erfassen eines Bildes einer Fahrzeugumgebung; Bestimmen einer kognitiven Karte, die eine Draufsicht der Fahrzeugumgebung beinhaltet, auf Grundlage des Bildes; und Betreiben des Fahrzeugs auf Grundlage der kognitiven Karte.
  2. Verfahren nach Anspruch 1, wobei die Fahrzeugumgebung eine Fahrbahn und Objekte, einschließlich anderer Fahrzeuge und Fußgänger, beinhaltet.
  3. Verfahren nach Anspruch 2, ferner umfassend Bestimmen der kognitiven Karte, die Positionen der Objekte, einschließlich mindestens eines von anderen Fahrzeugen und Fußgängern, im Verhältnis zu dem Fahrzeug beinhaltet.
  4. Verfahren nach Anspruch 1, wobei es sich bei dem Bild um ein monokulares Videoeinzelbild handelt.
  5. Verfahren nach Anspruch 1, ferner umfassend Bestimmen der kognitiven Karte der Fahrzeugumgebung auf Grundlage einer Verarbeitung des Bildes mit einem neuronalen Faltungsnetz.
  6. Verfahren nach Anspruch 5, ferner umfassend Trainieren des neuronalen Faltungsnetzes auf Grundlage von Ground-Truth-Daten vor dem Bestimmen der kognitiven Karte.
  7. Verfahren nach Anspruch 6, wobei die Ground-Truth-Daten auf Objekterkennung, pixelbasierter Segmentierung, der 3D-Lage von Objekten und relativer Entfernung beruhen.
  8. Verfahren nach Anspruch 7, wobei das Trainieren des neuronalen Faltungsnetzes auf Vorhersagebildern beruht, die in dem neuronalen Faltungsnetz enthalten sind.
  9. Verfahren nach Anspruch 8, wobei die Vorhersagebilder auf Ground-Truth-Daten beruhen.
  10. Verfahren nach Anspruch 9, wobei die Vorhersagebilder geschätzte Ergebnisse in geschätzte kognitive Karten umwandeln.
  11. Verfahren nach Anspruch 10, wobei die geschätzten kognitiven Karten mit kognitiven Zwischenkarten kombiniert werden, um Ähnlichkeit zu bestimmen.
  12. Verfahren nach Anspruch 11, wobei die Ähnlichkeit zwischen den geschätzten kognitiven Karten und der kognitiven Zwischenkarte durch Berechnen einer Kostenfunktion bestimmt wird.
  13. Verfahren nach Anspruch 12, wobei die Kostenfunktion auf einer gewichteten Kreuzentropiefunktion auf Grundlage eines Vergleichs der geschätzten kognitiven Karten und der kognitiven Zwischenkarten beruht.
  14. Verfahren nach Anspruch 13, wobei die Vorhersagebilder auf LIDAR-Daten beruhen.
  15. System, umfassend einen Computer, der programmiert ist, um die Verfahren nach einem der Ansprüche 1-14 durchzuführen.
DE102019101938.9A 2018-01-26 2019-01-25 Erstellung kognitiver Karten für Fahrzeuge Pending DE102019101938A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/881,228 2018-01-26
US15/881,228 US10345822B1 (en) 2018-01-26 2018-01-26 Cognitive mapping for vehicles

Publications (1)

Publication Number Publication Date
DE102019101938A1 true DE102019101938A1 (de) 2019-08-01

Family

ID=67106346

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019101938.9A Pending DE102019101938A1 (de) 2018-01-26 2019-01-25 Erstellung kognitiver Karten für Fahrzeuge

Country Status (3)

Country Link
US (1) US10345822B1 (de)
CN (1) CN110084091A (de)
DE (1) DE102019101938A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022056279A1 (en) * 2020-09-11 2022-03-17 Waymo Llc Estimating ground truth object keypoint labels for sensor readings
DE102021209786A1 (de) 2021-09-06 2023-03-09 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Positionieren einer Kartendarstellung eines Umfelds eines Fahrzeugs in einer semantischen Straßenkarte

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733506B1 (en) * 2016-12-14 2020-08-04 Waymo Llc Object detection neural network
JP6796798B2 (ja) * 2017-01-23 2020-12-09 パナソニックIpマネジメント株式会社 イベント予測システム、イベント予測方法、プログラム、及び移動体
GB2601644B (en) * 2017-04-28 2023-02-08 FLIR Belgium BVBA Video and image chart fusion systems and methods
CN107589552B (zh) 2017-10-17 2023-08-04 歌尔光学科技有限公司 光学模组组装设备
US11068724B2 (en) * 2018-10-11 2021-07-20 Baidu Usa Llc Deep learning continuous lane lines detection system for autonomous vehicles
EP3904835A4 (de) * 2018-12-24 2022-10-05 LG Electronics Inc. Routenbereitstellungsvorrichtung und routenbereitstellungsverfahren dafür
US10635938B1 (en) * 2019-01-30 2020-04-28 StradVision, Inc. Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same
US10762393B2 (en) * 2019-01-31 2020-09-01 StradVision, Inc. Learning method and learning device for learning automatic labeling device capable of auto-labeling image of base vehicle using images of nearby vehicles, and testing method and testing device using the same
US11150664B2 (en) * 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11341614B1 (en) * 2019-09-24 2022-05-24 Ambarella International Lp Emirror adaptable stitching
US11726492B2 (en) * 2019-10-02 2023-08-15 Zoox, Inc. Collision avoidance perception system
US11994866B2 (en) 2019-10-02 2024-05-28 Zoox, Inc. Collision avoidance perception system
CN112711249B (zh) * 2019-10-24 2023-01-03 科沃斯商用机器人有限公司 机器人定位方法、装置、智能机器人和存储介质
US11180080B2 (en) * 2019-12-13 2021-11-23 Continental Automotive Systems, Inc. Door opening aid systems and methods
CN111275249A (zh) * 2020-01-15 2020-06-12 吉利汽车研究院(宁波)有限公司 基于dqn神经网络和高精度定位的驾驶行为优化方法
US11511576B2 (en) * 2020-01-24 2022-11-29 Ford Global Technologies, Llc Remote trailer maneuver assist system
KR20210124603A (ko) * 2020-04-06 2021-10-15 현대자동차주식회사 차량의 자율 주행 제어 장치, 그를 포함한 시스템 및 그 방법
CN111959495B (zh) * 2020-06-29 2021-11-12 阿波罗智能技术(北京)有限公司 车辆的控制方法、装置及车辆
CN113312438B (zh) * 2021-03-09 2023-09-15 中南大学 融合航线提取与趋势判断的海上目标位置预测方法
US11541910B1 (en) * 2022-01-07 2023-01-03 Plusai, Inc. Methods and apparatus for navigation of an autonomous vehicle based on a location of the autonomous vehicle relative to shouldered objects
US11840257B2 (en) * 2022-03-25 2023-12-12 Embark Trucks Inc. Lane change determination for vehicle on shoulder

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3164860A4 (de) * 2014-07-03 2018-01-17 GM Global Technology Operations LLC Kognitive radarverfahren und systeme für fahrzeuge
US10099615B2 (en) * 2014-09-29 2018-10-16 Ambarella, Inc. All-round view monitoring system for a motor vehicle
US10133947B2 (en) * 2015-01-16 2018-11-20 Qualcomm Incorporated Object detection using location data and scale space representations of image data
CN105260699B (zh) 2015-09-10 2018-06-26 百度在线网络技术(北京)有限公司 一种车道线数据的处理方法及装置
CN105488534B (zh) 2015-12-04 2018-12-07 中国科学院深圳先进技术研究院 交通场景深度解析方法、装置及系统
US10181195B2 (en) * 2015-12-28 2019-01-15 Facebook, Inc. Systems and methods for determining optical flow
EP3206184A1 (de) * 2016-02-11 2017-08-16 NXP USA, Inc. Vorrichtung, verfahren und system zur einstellung von vordefinierten kalibrierungsdaten zur erzeugung einer perspektivischen ansicht
CN106125730B (zh) 2016-07-10 2019-04-30 北京工业大学 一种基于鼠脑海马空间细胞的机器人导航地图构建方法
CN106372577A (zh) 2016-08-23 2017-02-01 北京航空航天大学 一种基于深度学习的交通标志自动识别与标注方法
CN106558058B (zh) 2016-11-29 2020-10-09 北京图森未来科技有限公司 分割模型训练方法、道路分割方法、车辆控制方法及装置
US10067509B1 (en) * 2017-03-10 2018-09-04 TuSimple System and method for occluding contour detection
CN107169421B (zh) 2017-04-20 2020-04-28 华南理工大学 一种基于深度卷积神经网络的汽车驾驶场景目标检测方法
US10474908B2 (en) 2017-07-06 2019-11-12 GM Global Technology Operations LLC Unified deep convolutional neural net for free-space estimation, object detection and object pose estimation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022056279A1 (en) * 2020-09-11 2022-03-17 Waymo Llc Estimating ground truth object keypoint labels for sensor readings
DE102021209786A1 (de) 2021-09-06 2023-03-09 Robert Bosch Gesellschaft mit beschränkter Haftung Verfahren zum Positionieren einer Kartendarstellung eines Umfelds eines Fahrzeugs in einer semantischen Straßenkarte

Also Published As

Publication number Publication date
CN110084091A (zh) 2019-08-02
US10345822B1 (en) 2019-07-09
US20190235520A1 (en) 2019-08-01

Similar Documents

Publication Publication Date Title
DE102019101938A1 (de) Erstellung kognitiver Karten für Fahrzeuge
DE102019131384A1 (de) Strassenbelagcharakterisierung unter verwendung von posenbeobachtungen von benachbarten fahrzeugen
DE102020110458A1 (de) Fahrzeugpfadvorhersage
DE102017120112A1 (de) Tiefenkartenschätzung mit stereobildern
DE102019133536A1 (de) Verfahren und Vorrichtung zum Ermöglichen der sequentiellen Bodenansichts-Bildprojektionssynthese und der komplizierten Szenenrekonstruktion an Kartenanomalie-Hotspots
DE102019127058A1 (de) Fahrzeugwegplanung
DE102019121140A1 (de) Sensorfusion
DE102020113848A1 (de) Ekzentrizitätsbildfusion
DE102019122826A1 (de) Adaptives fahrzeuglernen
DE102019119162A1 (de) Posenschätzung
DE102017125493A1 (de) Verkehrszeichenerkennung
DE102019121521A1 (de) Videostabilisierung
DE102019126542A1 (de) Lokalisierung einer stationären kamera
DE102015203016A1 (de) Verfahren und Vorrichtung zur optischen Selbstlokalisation eines Kraftfahrzeugs in einem Umfeld
DE102019122536A1 (de) Exzentrizitätskarten
DE102019122822A1 (de) Vordergrunderfassung
DE102020115499A1 (de) Fahrzeug-exzentrizitätsabbildung
DE102020107149A1 (de) Fahrzeugkapsel-netzwerke
DE102019106845A1 (de) Verschleierungsentfernung für Fahrzeugsensoren
DE102020116964A1 (de) Visuelle odometrie für fahrzeug
DE102020102823A1 (de) Fahrzeugkapselnetzwerke
DE112021006111T5 (de) Systeme und Verfahren zur monokularisierten Objekterkennung
DE102021124913A1 (de) Metrik-backpropagation für die beurteilung der leistung von untersystemen
DE102020126155A1 (de) Trainieren eines neuronalen netzwerks eines fahrzeugs
DE102020107339A1 (de) Objektverfolgung für fahrzeuge

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONSMANN - BONSMANN - FRANK PATENTANWAELTE, DE