DE102022134446A1

DE102022134446A1 - Bewegungsvorhersage in einem autonomen fahrzeug unter verwendung fusionierter synthetischer und kamerabilder

Info

Publication number: DE102022134446A1
Application number: DE102022134446.0A
Authority: DE
Inventors: Eric McKenzie Wolff; Oscar Beijbom; Alex Lang; Sourabh Vora; Bassam Helou; Elena Corina Grigore; Cheng Jiang
Original assignee: Motional AD LLC
Current assignee: Motional AD LLC
Priority date: 2022-05-31
Filing date: 2022-12-21
Publication date: 2023-11-30
Also published as: US20230382427A1; GB202219821D0; KR20230167292A; GB2619375A

Abstract

Angegeben sind Verfahren für Bewegungsvorhersage in einem autonomen Fahrzeug unter Verwendung fusionierter synthetischer und Kamerabilder. Das Verfahren kann Erhalten von Datenpaaren umfassen, von denen jedes Daten widerspiegelt, die einem synthetischen Bild entsprechen, das eine Vogelperspektive eines Bereichs um ein Fahrzeug darstellt und ein Objekt identifiziert, sowie Daten, die einem Kamerabild entsprechen, das das Objekt abbildet. Ein maschinelles Lernmodell kann auf Grundlage der Datenpaare trainiert werden, um ein trainiertes Modell zu erhalten, das Bewegungen des Objekts innerhalb des Datenpaars auf Grundlage des synthetischen Bildes und des Kamerabildes in dem Datenpaar vorhersagt. Zudem sind Systeme und Computerprogrammprodukte angegeben.

Description

KURZBESCHREIBUNG DER FIGUREN

1 ist eine beispielhafte Umgebung, in der ein Fahrzeug, das eine oder mehrere Komponenten eines autonomen Systems beinhaltet, implementiert werden kann;
2 ist ein Diagramm eines oder mehrerer Systeme eines Fahrzeugs, das ein autonomes System beinhaltet;
3 ist ein Diagramm von Komponenten einer oder mehrerer Vorrichtungen und/oder eines oder mehrerer Systeme aus 1 und 2;
4A ist eine Darstellung bestimmter Komponenten eines autonomen Systems;
4B ist ein Diagramm einer Implementierung eines neuronalen Netzes;
4C und 4D sind Diagramme, die einen beispielhaften Betrieb eines neuronalen Faltungsnetzes veranschaulichen;
5 bis 9 sind Diagramme von Beispielimplementierungen maschineller Lernmodelle zum Fusionieren synthetischer Bilder von einem Wahrnehmungssystem mit Daten von zusätzlichen Sensormodalitäten, wie z.B. Bildern von Kameras;
10 zeigt eine Beispielroutine zum Trainieren eines maschinellen Lernmodells, um eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten zu fusionieren; und
11 zeigt eine Routine zum Verwenden eines trainierten maschinellen Lernmodells zur Vorhersage von Objektbewegung oder zur Planung von Aktionen eines Fahrzeugs.

AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung werden zu Erklärungszwecken zahlreiche spezifische Details aufgeführt, um ein umfassendes Verständnis der vorliegenden Offenbarung zu ermöglichen. Es versteht sich jedoch, dass die durch die vorliegende Offenbarung beschriebenen Ausführungsformen ohne diese spezifischen Einzelheiten umgesetzt werden können. In einigen Fällen sind wohlbekannte Strukturen und Vorrichtungen in Blockdiagrammform veranschaulicht, um zu verhindern, die Aspekte der vorliegenden Offenbarung unnötig unklar zu machen.
Spezifische Anordnungen oder Ordnungen schematischer Elemente, wie etwa jenen, die Systeme, Vorrichtungen, Module, Anweisungsblöcke, Datenelemente und/oder dergleichen repräsentieren, sind zur Vereinfachung der Beschreibung in den Zeichnungen veranschaulicht. Ein Fachmann versteht jedoch, dass die konkrete Ordnung oder Anordnung der schematischen Elemente in den Zeichnungen nicht implizieren soll, dass eine bestimmte Reihenfolge oder Abfolge der Verarbeitung oder eine Trennung von Prozessen erforderlich ist, sofern dies nicht ausdrücklich beschrieben ist. Ferner soll die Aufnahme eines schematischen Elements in eine Zeichnung nicht bedeuten, dass dieses Element in allen Ausführungsformen erforderlich ist oder dass die durch dieses Element dargestellten Merkmale in einigen Ausführungsformen nicht in andere Elemente aufgenommen oder mit anderen Elementen kombiniert werden können, sofern dies nicht ausdrücklich beschrieben ist.
Ferner soll in den Zeichnungen, in denen Verbindungselemente wie etwa durchgezogene oder gestrichelte Linien oder Pfeile verwendet werden, um eine Verbindung, Beziehung oder Zuordnung zwischen oder unter zwei oder mehr anderen schematischen Elementen zu veranschaulichen, das Nichtvorhandensein jeglicher solcher Verbindungselemente nicht andeuten, dass keine Verbindung, Beziehung oder Zuordnung bestehen kann. Mit anderen Worten werden einige Verbindungen, Zusammenhänge oder Verknüpfungen zwischen Elementen in den Zeichnungen nicht dargestellt, um die Offenbarung nicht zu verschleiern. Zusätzlich kann zur Vereinfachung der Veranschaulichung ein einzelnes Verbindungselement verwendet werden, um mehrere Verbindungen, Beziehungen oder Zuordnungen zwischen Elementen zu repräsentieren. Wenn beispielsweise ein Verbindungselement Kommunikation von Signalen, Daten oder Anweisungen (z.B. „SoftwareAnweisungen“) darstellt, sollte ein Fachmann verstehen, dass ein solches Element einen oder mehrere Signalwege (z.B. einen Bus) repräsentieren kann, je nachdem, was erforderlich ist, um die Kommunikation zu bewirken.
Auch wenn die Ausdrücke „erste/r/s“, „zweite/r/s“, „dritte/r/s“ und/oder dergleichen zur Beschreibung verschiedener Elemente verwendet werden, ist nicht beabsichtigt, dass diese Elemente durch diese Ausdrücke eingeschränkt werden. Die Ausdrücke „erste/r/s“, „zweite/r/s“, „dritte/r/s“ und/oder dergleichen werden nur verwendet, um ein Element von einem anderen zu unterscheiden. Beispielsweise könnte ein erster Kontakt als ein zweiter Kontakt bezeichnet werden und gleichermaßen könnte ein zweiter Kontakt als ein erster Kontakt bezeichnet werden, ohne vom Schutzumfang der beschriebenen Ausführungsformen abzuweichen. Sowohl beim ersten Kontakt als auch beim zweiten Kontakt handelt es sich um Kontakte, jedoch nicht um denselben Kontakt.
Die in der Beschreibung der verschiedenen beschriebenen Ausführungsformen vorliegend verwendete Terminologie ist nur zum Zweck der Beschreibung spezieller Ausführungsformen enthalten und soll nicht beschränkend sein. Bei der Beschreibung der verschiedenen beschriebenen Ausführungsformen und der beigefügten Ansprüche sollen die Singularformen „ein“, „eine“ sowie „der“, „die“, „das“ auch die Pluralformen einschließen und können austauschbar mit „ein/e oder mehrere“ oder „mindestens ein/e“ verwendet werden, sofern der Kontext nicht eindeutig etwas anderes vorgibt. Zudem versteht es sich, dass sich der Ausdruck „und/oder“ wie vorliegend verwendet auf sämtliche mögliche Kombinationen aus einem oder mehreren der zugehörigen aufgeführten Elemente bezieht und diese umfasst. Es versteht sich ferner, dass die Ausdrücke „beinhaltet“, „einschließlich“, „umfasst“ und/oder „umfassend“, soweit in dieser Beschreibung verwendet, das Vorhandensein genannter Merkmale, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten spezifizieren, aber nicht das Vorhandensein oder den Zusatz eines/einer oder mehrerer anderer Merkmale, Ganzzahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen davon ausschließen.
Vorliegend beziehen sich die Ausdrücke „Kommunikation“ und „kommunizieren“ auf den Empfang und/oder die Übertragung und/oder die Weitergabe und/oder die Bereitstellung und/oder dergleichen von Informationen (oder Informationen, die z.B. durch Daten, Signale, Nachrichten, Anweisungen, Befehle und/oder dergleichen dargestellt werden). Wenn eine Einheit (z.B. eine Vorrichtung, ein System, eine Komponente einer Vorrichtung oder eines Systems, Kombinationen davon und/oder dergleichen) mit einer anderen Einheit in Kommunikation steht, bedeutet dies, dass die eine Einheit in der Lage ist, direkt oder indirekt Informationen von der anderen Einheit zu empfangen und/oder Informationen an die andere Einheit zu senden (z.B. zu übertragen). Dies kann sich auf eine direkte oder indirekte Verbindung beziehen, die drahtgebunden und/oder drahtlos ist. Zusätzlich können zwei Einheiten in Kommunikation miteinander stehen, selbst wenn die übertragenen Informationen zwischen der ersten und zweiten Einheit modifiziert, verarbeitet, weitergeleitet und/oder geroutet werden. So kann beispielsweise eine erste Einheit auch dann mit einer zweiten Einheit in Kommunikation stehen, wenn die erste Einheit passiv Informationen empfängt und nicht aktiv Informationen an die zweite Einheit überträgt. Als weiteres Beispiel kann eine erste Einheit mit einer zweiten Einheit in Kommunikation stehen, wenn mindestens eine Zwischeneinheit (z.B. eine dritte Einheit, die sich zwischen der ersten und der zweiten Einheit befindet) von der ersten Einheit empfangene Informationen verarbeitet und die verarbeiteten Informationen an die zweite Einheit weiterleitet. In einigen Ausführungsformen kann sich eine Nachricht auf ein Netzpaket (z.B. ein Datenpaket und/oder dergleichen) beziehen, das Daten enthält.
Vorliegend soll der Ausdruck „falls“ wahlweise so ausgelegt werden, dass er in Abhängigkeit vom Zusammenhang „wenn“ „bei“, „in Reaktion auf Bestimmen“, „in Reaktion auf Erkennen“ und/oder dergleichen bedeutet. Gleichermaßen wird der Ausdruck „falls bestimmt wird“ oder „falls [eine angegebene Bedingung oder ein angegebenes Ereignis] detektiert wird“ optional als „bei Bestimmen“, „in Reaktion auf Bestimmen“, „bei Detektieren [der angegebenen Bedingung oder des angegebenen Ereignisses]“, „in Reaktion auf Detektieren [der angegebenen Bedingung oder des angegebenen Ereignisses]“ und/oder dergleichen bedeutend, in Abhängigkeit vom Kontext, ausgelegt. Vorliegend sollen zudem die Ausdrücke „hat/weist auf“, „haben/aufweisen“, „aufweisend“ oder dergleichen offene Ausdrücke sein. Ferner soll die Formulierung „auf Grundlage von“ bedeuten „zumindest teilweise auf Grundlage von“, sofern nicht explizit etwas anderes angegeben ist.
Nun wird ausführlicher Bezug auf Ausführungsformen genommen, von denen Beispiele in den begleitenden Zeichnungen veranschaulicht sind. In der nachfolgenden ausführlichen Beschreibung werden zahlreiche konkrete Einzelheiten dargelegt, um ein vollständiges Verständnis der verschiedenen beschriebenen Ausführungsformen zu gewährleisten. Ein Durchschnittsfachmann auf dem Gebiet wird jedoch verstehen, das die verschiedenen beschriebenen Ausführungsformen auch ohne diese spezifischen Einzelheiten umgesetzt werden können. In anderen Fällen sind wohlbekannte Verfahren, Prozeduren, Komponenten, Schaltungen und Netzwerke nicht ausführlich beschrieben, damit Aspekte der Ausführungsformen nicht unnötig unklar gemacht werden.
Allgemeiner Überblick
Gemäß einigen Aspekten und/oder Ausführungsformen beinhalten und/oder implementieren vorliegend beschriebene Systeme, Verfahren und Computerprogrammprodukte eine Fusion von Kamerabildern mit der Ausgabe eines Wahrnehmungssystems eines autonomen Fahrzeugs für Zwecke wie Planung oder Bewegungsvorhersage. Autonome Fahrzeuge verfügen häufig über eine Vielzahl von Sensormodalitäten wie Kameras, Lidar, Radar oder dergleichen, mit denen versucht wird, ihre Umgebung zu erfassen. Diese Wahrnehmungen werden dann als Eingabe für andere System, wie z.B. Planungssysteme verwendet, um den Betrieb des Fahrzeugs zu steuern. Eine genaue Wahrnehmung der Umgebung eines Fahrzeugs kann daher von entscheidender Bedeutung sein, um einen sicheren und effektiven Fahrzeugbetrieb zu gewährleisten. Das Kombinieren der verschiedenen verfügbaren Sensormodalitäten zu einem genauen und nützlichen Wahrnehmungsverständnis stellt jedoch häufig eine Herausforderung dar. In der Praxis kommt es häufig vor, dass eine Modalität einer anderen oder sogar einer Kombination anderer vorzuziehen ist. Ein Mechanismus, um ein kontextbezogenes Verständnis einer Umgebung zu schaffen, besteht beispielsweise darin, ein synthetisches Bild eines Bereichs um ein Fahrzeug aus der Vogelperspektive (bird's eye view, BEV) zu erstellen, das beispielsweise das Fahrzeug und Objekte in der Umgebung des Fahrzeugs aus einer Perspektive direkt über dem Fahrzeug modelliert. Bei der Erstellung eines solchen synthetischen BEV-Bildes kommt es häufig vor, dass die Verwendung einer einzelnen Modalität, wie z.B. Lidar, genauere Ergebnisse liefert als der Versuch, mehrere Modalitäten zu kombinieren. Dies kann beispielsweise auf eine erhöhte Genauigkeit der einen Modalität oder auf Schwierigkeiten bei der Projektion von Daten aus anderen Modalitäten in die entsprechende Ansicht zurückzuführen sein. Diese Modalität erfasst jedoch möglicherweise wichtigen Kontext nicht, den die meisten Menschen intuitiv als wichtig für einen korrekten Betrieb des Fahrzeugs erkennen. Zum Beispiel kann Lidar allein wichtige Signale wie das Vorhandensein (oder Fehlen) von Bremslichtern oder Blinkern an einem anderen Fahrzeug nicht erfassen, die auf eine wahrscheinliche Bewegung des anderen Fahrzeugs hinweisen können und somit wichtige Daten für die Planung von Aktionen eines autonomen Fahrzeugs darstellen. Daher müssen sich autonome Fahrzeuge oft entscheiden zwischen einer geringeren Genauigkeit, die durch die Einbeziehung mehrerer Sensormodalitäten bei der Wahrnehmung ihrer Umgebung bedingt ist, und dem Verlust von Kontext aufgrund begrenzter Modalitäten.
Ausführungsformen der vorliegenden Offenbarung bieten eine Lösung für diese Probleme, indem sie eine Fusion einer Ausgabe zusätzlicher Sensormodalitäten mit der Ausgabe eines Wahrnehmungssystems auf eine Weise ermöglichen, die eine Erfassung von Kontext aus diesen zusätzlichen Sensormodalitäten ohne Beeinträchtigung der Genauigkeit des Wahrnehmungssystems ermöglicht. Insbesondere kann, wie vorliegend offenbart, ein maschinelles Lernmodell so trainiert werden, dass es die Ausgabe eines Wahrnehmungssystems, wie z.B. ein BEV-Bild, sowie Daten von zusätzlichen Sensormodalitäten wie z.B. Kamerabildern als Eingabe verwendet. Das maschinelle Lernmodell kann zum Beispiel ein oder mehrere neuronale Faltungsnetze enthalten, die als Eingaben ein synthetisches BEV-Bild und ein Rohkamerabild erhalten. Das maschinelle Lernmodell kann dann Informationen ausgeben, die für Bewegungsvorhersage oder -planung verwendet werden. Wenn das BEV-Bild beispielsweise ein Objekt in der Umgebung eines Fahrzeugs (z.B. ein anderes Fahrzeug) darstellt und das Rohkamerabild das Objekt zeigt, kann die Ausgabe des maschinellen Lernmodells die vorhergesagte Bewegung des Objekts darstellen. Wenn es sich beispielsweise bei dem Objekt um ein anderes Fahrzeug handelt und das Kamerabild zeigt, dass die Bremslichter des anderen Fahrzeugs leuchten, kann das Modell beispielsweise eine Vorhersage treffen, dass das Fahrzeug wahrscheinlich anhält. Auf diese Weise können die im BEV-Bild erfassten Daten durch die Daten der zusätzlichen Sensormodalität ergänzt werden. Da die Daten der zusätzlichen Sensormodalität mit einer Ausgabe eines Wahrnehmungssystems, wie einem BEV-Bild, nach der Erzeugung kombiniert werden, stören die Daten der zusätzlichen Sensormodalität das Wahrnehmungssystem nicht, wie es der Fall wäre, wenn sie zur Erzeugung der ursprünglichen Ausgabe des Wahrnehmungssystems eingeführt würden. Dementsprechend ermöglichen es diese Ausführungsformen, einen Kontext der zusätzlichen Sensormodalitäten auf eine Weise zu erfassen, die die Herausforderungen einer naiven Einbeziehung von Daten der zusätzlichen Sensormodalitäten in ein Wahrnehmungssystem überwindet.
Zusätzlich zur Bewegungsvorhersage für Objekte können Ausführungsformen der vorliegenden Offenbarung zudem eine Aktionsplanung für ein autonomes Fahrzeug vorsehen. So kann es beispielsweise wünschenswert sein, dass ein Fahrzeug so weit wie möglich so arbeitet, wie es ein erfahrener menschlicher Fahrer tun würde. Ein menschlicher Fahrer wiederum kann Kontext nutzen, der in einigen, aber nicht allen Sensormodalitäten erfasst wird, wie z.B. Bremslichter, Blinker usw. Daher können Ausführungsformen der vorliegenden Offenbarung ein maschinelles Lernmodell beinhalten, das eine Kombination aus einer Ausgabe des Wahrnehmungssystems (z.B. eines synthetischen BEV-Bildes) und Daten zusätzlicher Sensormodalitäten verwendet, um geplante Aktionen des Fahrzeugs zusätzlich oder alternativ zu einer Bewegungsvorhersage für wahrgenommene Objekte bereitzustellen.
Wie ein Fachmann im Lichte der vorliegenden Offenbarung erkennen wird, verbessern die vorliegend offenbarten Ausführungsformen die Fähigkeit von Rechensystemen wie z.B. Rechenvorrichtungen, die in selbstfahrenden Fahrzeugen enthalten sind oder deren Betrieb unterstützen, zur Durchführung von Objektbewegungsvorhersage oder Fahrzeugplanung. Darüber hinaus befassen sich die vorliegenden Ausführungsformen mit technischen Problemen, die Rechensystemen innewohnen, insbesondere mit der Schwierigkeit, Daten mehrerer Sensormodalitäten genau und in einer Weise zu kombinieren, die die verschiedenen Kontextinformationen erfasst, die in diesen Modalitäten verfügbar sind. Diese technischen Probleme werden durch die verschiedenen vorliegend beschriebenen technischen Lösungen angegangen, einschließlich der Verwendung eines maschinellen Lernmodells, das darauf trainiert ist, die Ausgabe eines Wahrnehmungssystems, z.B. eines synthetischen BEV-Bildes, mit Daten zusätzlicher Sensormodalitäten, z.B. Kamerabildern, zu kombinieren, um Objektbewegungsvorhersagen oder geplante Aktionen zu erhalten. Daher repräsentiert die vorliegende Offenbarung eine Verbesserung für Computervisionssysteme und Rechensysteme im Allgemeinen.
Die vorgenannten Aspekte und viele der dazugehörigen Vorteile dieser Offenbarung werden klarer, wenn diese unter Bezugnahme auf die folgende Beschreibung, in Verbindung mit den beigefügten Zeichnungen besser verstanden werden.
In 1 ist eine beispielhafte Umgebung 100 dargestellt, in der sowohl Fahrzeuge mit autonomen Systemen als auch Fahrzeuge ohne solche Systeme betrieben werden. Wie veranschaulicht wird, beinhaltet die Umgebung 100 Fahrzeuge 102a-102n, Objekte 104a-104n, Routen 106a-106n, einen Bereich 108, eine Fahrzeug-zu-Infrastruktur- (V2I-) Vorrichtung 110, ein Netzwerk 112, ein entfernt angeordnetes AV- (autonomes Fahrzeug) System 114, ein Fuhrparkverwaltungssystem 116 und ein V21-System 118. Die Fahrzeuge 102a-102n, die Fahrzeug-zu-Infrastruktur- (V2I-) Vorrichtung 110, das Netzwerk 112, das AV-System 114, das Fuhrparkverwaltungssystem 116 und das V21-System 118 sind über drahtgebundene Verbindungen, drahtlose Verbindungen oder eine Kombination von drahtgebundenen oder drahtlosen Verbindungen miteinander verbunden (z.B. stellen diese eine Verbindung zur Kommunikation her und/oder dergleichen). In einigen Ausführungsformen sind die Objekte 104a-104n über drahtgebundene Verbindungen, drahtlose Verbindungen oder eine Kombination von drahtgebundenen oder drahtlosen Verbindungen mit den Fahrzeugen 102a-102n und/oder der Fahrzeug-zu-Infrastruktur- (V21-) Vorrichtung 110 und/oder dem Netzwerk 112 und/oder dem AV-System 114 und/oder dem Fuhrparkverwaltungssystem 116 und/oder dem V2I-System 118 verbunden.
Die Fahrzeuge 102a-102n (einzeln als Fahrzeug 102 und kollektiv als Fahrzeuge 102 bezeichnet) beinhalten mindestens eine Vorrichtung, die zum Transportieren von Gütern und/oder Menschen ausgelegt ist. In einigen Ausführungsformen sind die Fahrzeuge 102 so ausgelegt, dass sie über das Netzwerk 112 mit der V21-Vorrichtung 110, dem entfernt angeordneten AV-System 114, dem Fuhrparkverwaltungssystem 116 und/oder dem V21-System 118 kommunizieren können. In einigen Ausführungsformen beinhalten die Fahrzeuge 102 Autos, Busse, Lastkraftwagen, Züge und/oder dergleichen. In einigen Ausführungsformen sind die Fahrzeuge 102 gleich oder ähnlich wie die vorliegend beschriebenen Fahrzeuge 200 (siehe 2). In einigen Ausführungsformen ist ein Fahrzeug 200 eines Satzes von Fahrzeugen 200 einem autonomen Fuhrparkverwalter zugeordnet. In einigen Ausführungsformen fahren die Fahrzeuge 102 entlang jeweiliger Routen 106a-106n (einzeln als Route 106 und gemeinsam als Routen 106 bezeichnet), wie vorliegend beschrieben. In einigen Ausführungsformen beinhalten ein oder mehrere Fahrzeuge 102 ein autonomes System (z.B. ein autonomes System, das das gleiche oder ähnlich ist wie das autonome System 202).
Die Objekte 104a-104n (einzeln als Objekt 104 und kollektiv als Objekte 104 bezeichnet) beinhalten beispielsweise mindestens ein Fahrzeug, mindestens einen Fußgänger, mindestens einen Fahrradfahrer, mindestens eine Struktur (z.B. ein Gebäude, ein Schild, einen Hydranten usw.) und/oder dergleichen. Jedes Objekt 104 ist stationär (z.B. für eine bestimmte Zeit an einem festen Ort) oder mobil (z.B. mit einem Geschwindigkeitsvektor und mindestens einer Trajektorie). In einigen Ausführungsformen sind die Objekte 104 mit entsprechenden Standorten in dem Bereich 108 assoziiert.
Die Routen 106a-106n (einzeln als Route 106 und gemeinsam als Routen 106 bezeichnet) sind jeweils mit einer Abfolge von Aktionen (auch als Trajektorie bezeichnet) assoziiert (z.B. geben sie diese vor), die Zustände miteinander verbinden, entlang derer ein AV navigieren kann. Jede Route 106 beginnt mit einem Anfangszustand (z.B. einem Zustand, der einem ersten raumzeitlichen Standort, einem Geschwindigkeitsvektor und/oder dergleichen entspricht) und einem Endzielzustand (z.B. einem Zustand, der einem zweiten raumzeitlichen Standort entspricht, der sich vom ersten raumzeitlichen Standort unterscheidet) oder einer Zielregion (z.B. einem Teilraum akzeptabler Zustände (z.B. Endzustände)). In einigen Ausführungsformen beinhaltet der erste Zustand einen Standort, an dem ein Individuum oder Individuen durch das AV abzuholen ist/sind, und der zweite Zustand oder die zweite Region beinhaltet einen Standort oder Standorte, an dem/denen das Individuum oder die Individuen, das/die durch das AV abgeholt wurde/n, abzusetzen ist/sind. In einigen Ausführungsformen beinhalten die Routen 106 eine Vielzahl von akzeptablen Zustandsabfolgen (z.B. eine Vielzahl von raumzeitlichen Standortabfolgen), wobei die Vielzahl von Zustandsabfolgen mit einer Vielzahl von Trajektorien assoziiert ist (z.B. diese definiert). In einem Beispiel beinhalten die Routen 106 nur übergeordnete Aktionen oder ungenaue Zustandsorte, wie z.B. eine Reihe verbundener Straßen, die Abbiegerichtungen an Straßenkreuzungen vorgeben. Zusätzlich oder alternativ können die Routen 106 genauere Aktionen oder Zustände beinhalten, wie etwa zum Beispiel spezifische Zielspuren oder genaue Standorte innerhalb der Spurbereiche und eine angezielte Geschwindigkeit an diesen Positionen. In einem Beispiel beinhalten die Routen 106 eine Vielzahl präziser Zustandsabfolgen entlang der mindestens einen Abfolge übergeordneter Aktionen mit einem begrenzten Vorausschauhorizont, um Zwischenziele zu erreichen, wobei die Kombination aufeinanderfolgender Iterationen von Zustandsabfolgen mit begrenztem Horizont kumulativ einer Vielzahl von Trajektorien entspricht, die zusammen die übergeordnete Route bilden, um im endgültigen Zielzustand oder der Zielregion anzukommen.
Der Bereich 108 beinhaltet einen physischen Bereich (z.B. eine geografische Region), in dem die Fahrzeuge 102 navigieren können. In einem Beispiel beinhaltet der Bereich 108 mindestens einen Staat (z.B. ein Land, eine Provinz, einen einzelnen Staat einer Vielzahl von Staaten, die zu einem Land gehören, usw.), mindestens einen Teil eines Staates, mindestens eine Stadt, mindestens einen Teil einer Stadt usw. In einigen Ausführungsformen beinhaltet der Bereich 108 mindestens eine benannte Durchgangsstraße (im Folgenden als „Straße“ bezeichnet), wie z.B. eine Autobahn, eine Fernstraße, eine Parkstraße, eine Stadtstraße usw. Zusätzlich oder alternativ beinhaltet der Bereich 108 in einigen Beispielen mindestens einen unbenannten Verkehrsweg wie eine Einfahrt, einen Abschnitt eines Parkplatzes, einen Abschnitt eines freien und/oder unbebauten Grundstücks, einen Feldweg usw. In einigen Ausführungsformen beinhaltet eine Straße mindestens eine Fahrspur (z.B. einen Teil der Straße, der durch Fahrzeuge 102 befahren werden kann). In einem Beispiel beinhaltet eine Straße mindestens eine Fahrspur, die mit mindestens einer Fahrspurmarkierung assoziiert ist (z.B. auf Grundlage dieser Markierung identifiziert wird).
Die Fahrzeug-zu-Infrastruktur- (V2I-) Vorrichtung 110 (manchmal auch als Fahrzeug-zu-Infrastruktur- (V2X-) Vorrichtung bezeichnet) beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie mit Fahrzeugen 102 und/oder dem V2I-Infrastruktursystem 118 in Kommunikation steht. In einigen Ausführungsformen ist die V21-Einrichtung 110 so ausgelegt, dass sie über das Netzwerk 112 mit den Fahrzeugen 102, dem entfernt angeordneten AV-System 114, dem Fuhrparkverwaltungssystem 116 und/oder dem V21-System 118 in Kommunikation steht. In einigen Ausführungsformen beinhaltet die V21-Vorrichtung 110 eine Hochfrequenzkennungs- (Radio Frequency Identification, RFID-) Vorrichtung, Verkehrsschilder, Kameras (z.B. zweidimensionale (2D-) und/oder dreidimensionale (3D-) Kameras), Fahrspurmarkierungen, Straßenlaternen, Parkuhren usw. In einigen Ausführungsformen ist die V21-Vorrichtung 110 dazu ausgelegt, direkt mit den Fahrzeugen 102 zu kommunizieren. Zusätzlich oder alternativ ist die V21-Vorrichtung 110 in einigen Ausführungsformen dazu ausgelegt, über das V21-System 118 mit den Fahrzeugen 102, dem entfernt angeordneten AV-System 114 und/oder dem Fuhrparkverwaltungssystem 116 zu kommunizieren. In einigen Ausführungsformen ist die V21-Vorrichtung 110 so ausgelegt, dass sie über das Netzwerk 112 mit dem V2I-System 118 kommuniziert.
Das Netzwerk 112 beinhaltet ein oder mehrere drahtgebundene und/oder drahtlose Netzwerke. In einem Beispiel beinhaltet das Netzwerk 112 ein Mobilfunknetz (z.B. ein LTE- (Long Term Evolution) Netz, ein 3G- (dritte Generation) Netz, ein 4G-(vierte Generation) Netz, ein 5G- (fünfte Generation) Netz, ein CDMA- (code division multiple access, Codemultiplex-Vielfachzugriff-) Netz usw.), ein öffentliches Mobilfunknetz (PLMN, public land mobile network), ein lokales Netzwerk (local area network, LAN), ein Weitverkehrsnetz (wide area network, WAN), ein Stadtnetz (metropolitan area network, MAN), ein Telefonnetz (z.B. das öffentliche Telefonnetz (PSTN, public switched telephone network), ein privates Netzwerk, ein Ad-hoc-Netz, ein Intranet, das Internet, ein glasfaserbasiertes Netzwerk, ein Cloud-Computing-Netzwerk usw., eine Kombination einiger oder aller dieser Netzwerke und/oder dergleichen.
Das entfernt angeordnete AV-System 114 beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie über das Netzwerk 112 mit den Fahrzeugen 102, der V21-Vorrichtung 110, dem Netzwerk 112, dem Fuhrparkverwaltungssystem 116 und/oder dem V21-System 118 in Kommunikation steht. In einem Beispiel beinhaltet das entfernt angeordnete AV-System 114 einen Server, eine Gruppe von Servern und/oder andere gleichartige Vorrichtungen. In einigen Ausführungsformen ist das entfernt angeordnete AV-System 114 zusammen mit dem Fuhrparkverwaltungssystem 116 angeordnet. In einigen Ausführungsformen ist das entfernt angeordnete AV-System 114 an der Installation einiger oder aller Komponenten eines Fahrzeugs beteiligt, einschließlich eines autonomen Systems, eines AV-Computers, von einem AV-Computer implementierter Software und/oder dergleichen. In einigen Ausführungsformen wartet (z.B. aktualisiert und/oder ersetzt) das entfernt angeordnete AV-System 114 solche Komponenten und/oder Software während der Lebensdauer des Fahrzeugs.
Das Fuhrparkverwaltungssystem 116 beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie sich in Kommunikation mit den Fahrzeugen 102, der V2I-Vorrichtung 110, dem entfernt angeordneten AV-System 114 und/oder dem V2I-Infrastruktursystem 118 befindet. In einem Beispiel beinhaltet das Fuhrparkverwaltungssystem 116 einen Server, eine Gruppe von Servern und/oder andere ähnliche Vorrichtungen. In einigen Ausführungsformen ist das Fuhrparkverwaltungssystem 116 mit einem Fahrgemeinschaftsunternehmen assoziiert (z.B. einer Organisation, die den Betrieb mehrerer Fahrzeuge steuert (z.B. Fahrzeuge, die autonome Systeme beinhalten, und/oder Fahrzeuge, die keine autonomen Systeme beinhalten), und/oder dergleichen).
In einigen Ausführungsformen beinhaltet das V21-System 118 mindestens eine Vorrichtung, die so ausgelegt ist, dass sie sich über das Netzwerk 112 mit den Fahrzeugen 102, der V21-Vorrichtung 110, dem entfernt angeordneten AV-System 114 und/oder dem Fuhrparkverwaltungssystem 116 in Kommunikation befindet. In einigen Beispielen ist das V21-System 118 dazu ausgelegt, über eine andere Verbindung als das Netzwerk 112 mit der V21-Vorrichtung 110 in Kommunikation zu stehen. In einigen Ausführungsformen beinhaltet das V21-System 118 einen Server, eine Gruppe von Servern und/oder andere gleichartige Vorrichtungen. In einigen Ausführungsformen ist das V21-System 118 mit einer Stadtverwaltung oder einer privaten Institution (z.B. einer privaten Institution, die die V21-Vorrichtung 110 verwaltet und/oder dergleichen) assoziiert.
Die Anzahl und die Anordnung der in 1 veranschaulichten Elemente sind als ein Beispiel bereitgestellt. Es können zusätzliche Elemente, weniger Elemente, andere Elemente und/oder anders angeordnete Elemente als die in 1 dargestellten vorhanden sein. Zusätzlich oder alternativ kann mindestens ein Element der Umgebung 100 eine oder mehrere Funktionen durchführen, die als durch mindestens ein anderes Element von 1 durchgeführt beschrieben werden. Zusätzlich oder alternativ kann mindestens ein Satz von Elementen der Umgebung 100 eine oder mehrere Funktionen durchführen, die als durch mindestens einen anderen Satz von Elementen der Umgebung 100 durchgeführt beschrieben werden.
Gemäß 2 beinhaltet das Fahrzeug 200 (das dem Fahrzeug 102 aus 1 gleichen oder ähneln kann) das autonome System 202, das Antriebsstrangsteuersystem 204, das Lenkungssteuersystem 206 und das Bremssystem 208 oder ist mit diesen assoziiert. In einigen Ausführungsformen ist das Fahrzeug 200 gleich oder ähnlich wie das Fahrzeug 102 (siehe 1). In einigen Ausführungsformen ist das autonome System 202 so ausgelegt, dass es dem Fahrzeug 200 die Fähigkeit zum autonomen Fahren verleiht (z.B. mindestens eine fahrautomatisierungs- oder manöverbasierte Funktion, ein Merkmal, eine Vorrichtung und/oder dergleichen implementiert, die es ermöglichen, dass das Fahrzeug 200 teilweise oder vollständig ohne menschliches Eingreifen betrieben werden kann, einschließlich, ohne Einschränkung, vollständig autonomer Fahrzeuge (z.B. Fahrzeuge, die auf menschliches Eingreifen verzichten, wie ADS-betriebene Fahrzeuge der Stufe 5), hochautonome Fahrzeuge (z.B. Fahrzeuge, die in bestimmten Situationen auf menschliches Eingreifen verzichten, wie ADS-betriebene Fahrzeuge der Stufe 4), bedingt autonome Fahrzeuge (z.B. Fahrzeuge, die in begrenzten Situationen auf menschliches Eingreifen verzichten, wie ADS-betriebene Fahrzeuge der Stufe 3) und/oder dergleichen. In einer Ausführungsform beinhaltet das autonome System 202 operative oder taktische Funktionen, die erforderlich sind, um das Fahrzeug 200 im Straßenverkehr zu betreiben und eine dynamische Fahraufgabe (dynamic driving task, DDT) teilweise oder ganz und dauerhaft auszuführen. In einer anderen Ausführungsform beinhaltet das autonome System 202 ein Fahrassistenzsystem (Advanced Driver Assistance System, ADAS), das Funktionen zur Unterstützung des Fahrers enthält. Das autonome System 202 unterstützt verschiedene Stufen der Fahrautomatisierung, die von keiner Fahrautomatisierung (z.B. Stufe 0) bis zur vollständigen Fahrautomatisierung (z.B. Stufe 5) reichen. Eine ausführliche Beschreibung von vollständig autonomen Fahrzeugen und hochgradig autonomen Fahrzeugen findet sich in der Norm J3016 der SAE International: Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated Driving Systems (Taxonomie und Definitionen für Begriffe im Zusammenhang mit automatisierten Straßen-Kraftfahrzeug-Fahrsystemen), die hier in ihrer Gesamtheit durch Bezugnahme aufgenommen ist. In einigen Ausführungsformen ist das Fahrzeug 200 mit einem autonomen Fuhrparkverwalter und/oder einem Fahrgemeinschaftsunternehmen assoziiert.
Das autonome System 202 enthält eine Sensoreinheit mit einer oder mehreren Vorrichtungen wie Kameras 202a, LiDAR-Sensoren 202b, Radarsensoren 202c und Mikrofonen 202d. In einigen Ausführungsformen kann das autonome System 202 mehr oder weniger Vorrichtungen und/oder andere Vorrichtungen beinhalten (z.B. Ultraschallsensoren, Trägheitssensoren, GPS-Empfänger (siehe unten), Odometriesensoren, die Daten im Zusammenhang mit einer Anzeige einer zurückgelegten Strecke des Fahrzeugs 200 erzeugen, und/oder dergleichen). In einigen Ausführungsformen verwendet das autonome System 202 die eine oder die mehreren Vorrichtungen, die im autonomen System 202 enthalten sind, um Daten im Zusammenhang mit der Umgebung 100 wie vorliegend beschrieben zu erzeugen. Die durch die eine oder die mehreren Vorrichtungen des autonomen Systems 202 erzeugten Daten können durch ein oder mehrere vorliegend beschriebene Systeme verwendet werden, um die Umgebung (z.B. die Umgebung 100) zu beobachten, in der sich das Fahrzeug 200 befindet. In einigen Ausführungsformen beinhaltet das autonome System 202 eine Kommunikationseinrichtung 202e, einen AV-Computer 202f, ein Drive-by-Wire- (DBW-) System 202h und eine Sicherheitssteuereinheit 202g.
Die Kameras 202a beinhalten mindestens eine Vorrichtung, die so ausgelegt ist, dass sie über einen Bus (z.B. einen Bus, der dem Bus 302 in 3 gleicht oder ähnelt) mit der Kommunikationsvorrichtung 202e, dem AV-Computer 202f und/oder der Sicherheitssteuereinheit 202g in Kommunikation steht. Die Kameras 202a beinhalten mindestens eine Kamera (z.B. eine Digitalkamera mit einem Lichtsensor wie beispielsweise einer ladungsgekoppelten Vorrichtung (charge-coupled device, CCD), eine Wärmebildkamera, eine Infrarot- (IR-) Kamera, eine Ereigniskamera und/oder dergleichen), um Bilder mit physischen Objekten (z.B. Autos, Busse, Bordsteine, Menschen und/oder dergleichen) aufzunehmen. In einigen Ausführungsformen erzeugt die Kamera 202a Kameradaten als Ausgabe. In einigen Beispielen erzeugt die Kamera 202a Kameradaten, die Bilddaten beinhalten, die mit einem Bild assoziiert sind. In diesem Beispiel können die Bilddaten mindestens einen dem Bild entsprechenden Parameter (z.B. Bildeigenschaften wie Belichtung, Helligkeit usw., einen Bildzeitstempel und/oder dergleichen) angeben. In einem solchen Beispiel kann das Bild in einem Format vorliegen (z.B. RAW, JPEG, PNG und/oder dergleichen). In einigen Ausführungsformen beinhaltet die Kamera 202a eine Vielzahl unabhängiger Kameras, die an einem Fahrzeug konfiguriert (z.B. positioniert) sind, um Bilder zum Zweck der Stereopsis (räumliches Sehen) aufzunehmen. In einigen Beispielen beinhaltet die Kamera 202a eine Vielzahl von Kameras, die Bilddaten erzeugen und die Bilddaten an den AV-Computer 202f und/oder ein Fuhrparkverwaltungssystem (z.B. ein Fuhrparkverwaltungssystem, das dem Fuhrparkverwaltungssystem 116 aus 1 gleicht oder ähnlich ist) übertragen. In einem solchen Beispiel bestimmt der AV-Computer 202f eine Tiefe eines oder mehrerer Objekte in einem Sichtfeld von mindestens zwei Kameras der Vielzahl von Kameras auf Grundlage der Bilddaten von den mindestens zwei Kameras. In einigen Ausführungsformen sind die Kameras 202a so ausgelegt, dass sie Bilder von Objekten innerhalb einer Entfernung von den Kameras 202a aufnehmen (z.B. bis zu 100 Meter, bis zu einem Kilometer und/oder dergleichen). Dementsprechend beinhalten die Kameras 202a Merkmale wie etwa Sensoren und Objektive, die zum Wahrnehmen von Objekten optimiert sind, die sich in einem oder mehreren Abständen zu den Kameras 202a befinden.
In einer Ausführungsform beinhaltet die Kamera 202a mindestens eine Kamera, die dazu ausgelegt ist, ein oder mehrere Bilder aufzunehmen, die mit einer oder mehreren Ampeln, einem oder mehreren Straßenschildern und/oder anderen physischen Objekten assoziiert sind, die visuelle Navigationsinformationen bereitstellen. In einigen Ausführungsformen erzeugt die Kamera 202a Ampeldaten im Zusammenhang mit einem oder mehreren Bildern. In einigen Beispielen erzeugt die Kamera 202a TLD- (traffic light detection, TLD - Ampelerkennungs-) Daten, die mit einem oder mehreren Bildern assoziiert sind, die ein Format (z.B. RAW, JPEG, PNG und/oder dergleichen) beinhalten. In einigen Ausführungsformen unterscheidet sich die Kamera 202a, die TLD-Daten erzeugt, von anderen vorliegend beschriebenen Systemen, die Kameras enthalten, dadurch, dass die Kamera 202a eine oder mehrere Kameras mit einem weiten Sichtfeld beinhalten kann (z.B. ein Weitwinkelobjektiv, ein Fischaugenobjektiv, ein Objektiv mit einem Betrachtungswinkel von etwa 120 Grad oder mehr und/oder dergleichen), um Bilder über möglichst viele physische Objekte zu erzeugen.
Die LiDAR- (light detection and ranging, Lichtabstandsmessung) Sensoren 202b beinhalten mindestens eine Vorrichtung, die so ausgelegt ist, dass sie über einen Bus (z.B. einen Bus, der dem Bus 302 in 3 gleicht oder ähnelt) mit der Kommunikationsvorrichtung 202e, dem AV-Computer 202f und/oder der Sicherheitssteuereinheit 202g in Kommunikation steht. Die LiDAR-Sensoren 202b beinhalten ein System, das dazu ausgelegt ist, Licht von einem Lichtemitter (z.B. einem Lasersender) zu übertragen. Durch die LiDAR-Sensoren 202b emittiertes Licht beinhaltet Licht (z.B. Infrarotlicht und/oder dergleichen), das sich außerhalb des sichtbaren Spektrums befindet. In einigen Ausführungsformen trifft von den LiDAR-Sensoren 202b emittiertes Licht während des Betriebs auf ein physisches Objekt (z.B. ein Fahrzeug) und wird zu den LiDAR-Sensoren 202b zurückreflektiert. In einigen Ausführungsformen dringt das durch die LiDAR-Sensoren 202b emittierte Licht nicht in die physischen Objekte ein, auf die das Licht trifft. Die LiDAR-Sensoren 202b beinhalten zudem mindestens einen Lichtdetektor, der das Licht detektiert, das vom Lichtemitter emittiert wurde, nachdem das Licht auf ein physisches Objekt traf. In einigen Ausführungsformen erzeugt mindestens ein Datenverarbeitungssystem, das mit den LiDAR-Sensoren 202b assoziiert ist, ein Bild (z.B. eine Punktwolke, eine kombinierte Punktwolke und/oder dergleichen), das die in einem Sichtfeld der LiDAR-Sensoren 202b enthaltenen Objekte darstellt. In einigen Beispielen erzeugt das mindestens eine mit dem LiDAR-Sensor 202b assoziierte Datenverarbeitungssystem ein Bild, das die Grenzen eines physischen Objekts, die Oberflächen (z.B. die Topologie der Oberflächen) des physischen Objekts und/oder dergleichen darstellt. In einem solchen Beispiel wird das Bild verwendet, um die Grenzen von physischen Objekten im Sichtfeld der LiDAR-Sensoren 202b zu bestimmen.
Die Radar- (radio detection and ranging, Funkabstandsmessung) Sensoren 202c beinhalten mindestens eine Vorrichtung, die so ausgelegt ist, dass sie über einen Bus (z.B. einen Bus, der dem Bus 302 in 3 gleicht oder ähnelt) mit der Kommunikationsvorrichtung 202e, dem AV-Computer 202f und/oder der Sicherheitssteuereinheit 202g in Kommunikation steht. Die Radarsensoren 202c beinhalten ein System, das so ausgelegt ist, dass es Funkwellen (entweder gepulst oder kontinuierlich) überträgt. Die durch die Radarsensoren 202c übertragenen Funkwellen beinhalten Funkwellen, die innerhalb eines vorbestimmten Spektrums liegen. In einigen Ausführungsformen treffen während des Betriebs Funkwellen, die durch die Radarsensoren 202c übertragen werden, auf ein physisches Objekt und werden zu den Radarsensoren 202c zurückreflektiert. In einigen Ausführungsformen werden die von den Radarsensoren 202c gesendeten Funkwellen von einigen Objekten nicht reflektiert. In einigen Ausführungsformen erzeugt mindestens ein mit den Radarsensoren 202c assoziiertes Datenverarbeitungssystem Signale, die die in einem Sichtfeld der Radarsensoren 202c enthaltenen Objekte darstellen. Beispielsweise erzeugt das mindestens eine mit dem Radarsensor 202c assoziierte Datenverarbeitungssystem ein Bild, das die Grenzen eines physischen Objekts, die Oberflächen (z.B. die Topologie der Oberflächen) des physischen Objekts und/oder dergleichen darstellt. In einigen Beispielen wird das Bild verwendet, um die Grenzen von physischen Objekten im Sichtfeld der Radarsensoren 202c zu bestimmen.
Die Mikrofone 202d beinhalten mindestens eine Vorrichtung, die so ausgelegt ist, dass sie über einen Bus (z.B. einen Bus, der dem Bus 302 in 3 gleicht oder ähnelt) mit der Kommunikationsvorrichtung 202e, dem AV-Computer 202f und/oder der Sicherheitssteuereinheit 202g in Kommunikation steht. Die Mikrofone 202d beinhalten ein oder mehrere Mikrofone (z.B. Array-Mikrofone, externe Mikrofone und/oder dergleichen), die Audiosignale erfassen und Daten erzeugen, die mit den Audiosignalen assoziiert sind (z.B. diese repräsentieren). In einigen Beispielen beinhalten die Mikrofone 202d Wandlervorrichtungen und/oder ähnliche Vorrichtungen. In einigen Ausführungsformen können ein oder mehrere vorliegend beschriebene Systeme die von den Mikrofonen 202d erzeugten Daten empfangen und eine Position eines Objekts relativ zum Fahrzeug 200 (z.B. eine Entfernung und/oder dergleichen) auf Grundlage der mit den Daten assoziierten Audiosignale bestimmen.
Die Kommunikationsvorrichtung 202e beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie mit den Kameras 202a, den LiDAR-Sensoren 202b, den Radarsensoren 202c, den Mikrofonen 202d, dem AV-Computer 202f, der Sicherheitssteuereinheit 202g und/oder dem DBW-System 202h in Kommunikation steht. Beispielsweise kann die Kommunikationsvorrichtung 202e eine Vorrichtung beinhalten, die der Kommunikationsschnittstelle 314 aus 3 gleicht oder ähnlich ist. In einigen Ausführungsformen beinhaltet die Kommunikationsvorrichtung 202e eine Fahrzeug-zu-Fahrzeug- (V2V-) Kommunikationsvorrichtung (z.B. eine Vorrichtung, die eine drahtlose Kommunikation von Daten zwischen Fahrzeugen ermöglicht).
Der AV-Computer 202f beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie mit den Kameras 202a, den LiDAR-Sensoren 202b, den Radarsensoren 202c, den Mikrofonen 202d, der Kommunikationsvorrichtung 202e, der Sicherheitssteuereinheit 202g und/oder dem DBW-System 202h in Kommunikation steht. In einigen Beispielen beinhaltet der AV-Computer 202f eine Vorrichtung wie etwa eine Client-Vorrichtung, eine mobile Vorrichtung (z.B. ein Mobiltelefon, ein Tablet und/oder dergleichen), einen Server (z.B. eine Rechenvorrichtung, die eine oder mehrere Zentralverarbeitungseinheiten, Grafikverarbeitungseinheiten und/oder dergleichen beinhaltet) und/oder dergleichen. In einigen Ausführungsformen gleicht oder ähnelt der AV-Computer 202f dem vorliegend beschriebenen AV-Computer 400. Zusätzlich oder alternativ ist in einigen Ausführungsformen der AV-Computer 202f so ausgelegt, dass er mit einem AV-System (z.B. einem AV-System, das dem entfernt angeordneten AV-System 114 aus 1 gleicht oder ähnelt), einem Fuhrparkverwaltungssystem (z.B. einem Fuhrparkverwaltungssystem, das dem Fuhrparkverwaltungssystem 116 aus 1 gleicht oder ähnelt), einer V21-Einrichtung (z.B. einer V21-Einrichtung, die der V2I-Einrichtung 110 aus 1 gleicht oder ähnelt), und/oder einem V21-System (z.B. einem V21-System, das dem V21-System 118 aus 1 gleicht oder ähnelt) in Kommunikation steht.
Die Sicherheitssteuereinheit 202g beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie mit den Kameras 202a, den LiDAR-Sensoren 202b, den Radarsensoren 202c, den Mikrofonen 202d, der Kommunikationsvorrichtung 202e, dem AV-Computer 202f und/oder dem DBW-System 202h in Kommunikation steht. In einigen Beispielen beinhaltet die Sicherheitssteuereinheit 202g eine oder mehrere Steuereinheiten (elektrische Steuereinheiten, elektromechanische Steuereinheiten und/oder dergleichen), die so ausgelegt sind, dass sie Steuersignale erzeugen und/oder übertragen, um eine oder mehrere Vorrichtungen des Fahrzeugs 200 (z.B. das Antriebsstrangsteuersystem 204, das Lenkungssteuersystem 206, das Bremssystem 208 und/oder dergleichen) zu betreiben. In einigen Ausführungsformen ist die Sicherheitssteuereinheit 202g dazu ausgelegt, Steuersignale zu erzeugen, die gegenüber Steuersignalen Vorrang haben (z.B. überschreiben), die durch den AV-Computer 202f erzeugt und/oder übertragen werden.
Das DBW-System 202h beinhaltet mindestens eine Vorrichtung, die so ausgelegt ist, dass sie mit der Kommunikationsvorrichtung 202e und/oder dem AV-Computer 202f in Kommunikation steht. In einigen Beispielen beinhaltet das DBW-System 202h eine oder mehrere Steuereinheiten (z.B. elektrische Steuereinheiten, elektromechanische Steuereinheiten und/oder dergleichen), die so ausgelegt sind, dass sie Steuersignale erzeugen und/oder übertragen, um eine oder mehrere Vorrichtungen des Fahrzeugs 200 (z.B. das Antriebsstrangsteuersystem 204, das Lenkungssteuersystem 206, das Bremssystem 208 und/oder dergleichen) zu betreiben. Zusätzlich oder alternativ sind die eine oder die mehreren Steuereinheiten des DBW-Systems 202h so ausgelegt, dass sie Steuersignale erzeugen und/oder übertragen, um mindestens eine andere Vorrichtung (z.B. einen Blinker, Scheinwerfer, Türschlösser, Scheibenwischer und/oder dergleichen) des Fahrzeugs 200 zu betreiben.
Das Antriebsstrangsteuersystem 204 beinhaltet mindestens eine Vorrichtung, die dazu ausgelegt ist, sich in Kommunikation mit dem DBW-System 202h zu befinden. In einigen Beispielen beinhaltet das Antriebsstrangsteuersystem 204 mindestens eine Steuereinheit, einen Aktuator und/oder dergleichen. In einigen Ausführungsformen empfängt das Antriebsstrangsteuersystem 204 Steuersignale vom DBW-System 202h und das Antriebsstrangsteuersystem 204 bewirkt, dass das Fahrzeug 200 eine Fahrzeugbewegung in Längsrichtung vollzieht, beispielsweise anfängt, sich vorwärtszubewegen, aufhört, sich vorwärtszubewegen, anfängt, sich rückwärtszubewegen, aufhört, sich rückwärtszubewegen, in eine Richtung beschleunigt, in eine Richtung abbremst, oder eine seitliche Fahrzeugbewegung vollzieht, beispielsweise nach links abbiegt, nach rechts abbiegt und/oder dergleichen. In einem Beispiel veranlasst das Antriebsstrangsteuersystem 204, dass die einem Motor des Fahrzeugs zugeführte Energie (z.B. Kraftstoff, Elektrizität und/oder dergleichen) steigt, gleich bleibt oder sinkt, wodurch bewirkt wird, dass sich mindestens ein Rad des Fahrzeugs 200 dreht oder nicht dreht.
Das Lenkungssteuersystem 206 beinhaltet mindestens eine Vorrichtung, die dazu ausgelegt ist, ein oder mehrere Räder des Fahrzeugs 200 zu drehen. In einigen Beispielen beinhaltet das Lenkungssteuersystem 206 mindestens eine Steuereinheit, einen Aktuator und/oder dergleichen. In einigen Ausführungsformen veranlasst das Lenkungssteuersystem 206 die beiden vorderen Räder und/oder die beiden hinteren Räder des Fahrzeugs 200, sich nach links oder rechts zu drehen, um zu bewirken, dass das Fahrzeug 200 nach links oder rechts abbiegt. Mit anderen Worten veranlasst das Lenkungssteuersystem 206 die für die Regulierung der y-Achsen-Komponente der Fahrzeugbewegung erforderlichen Aktivitäten.
Das Bremssystem 208 umfasst mindestens eine Vorrichtung, die dazu ausgelegt ist, eine oder mehrere Bremsen zu betätigen, um das Fahrzeug 200 zu veranlassen, seine Geschwindigkeit zu verringern und/oder stehen zu bleiben. In einigen Beispielen beinhaltet das Bremssystem 208 mindestens eine Steuereinheit und/oder einen Aktuator, die/der so ausgelegt ist, dass er einen oder mehrere Bremssättel, die mit einem oder mehreren Rädern des Fahrzeugs 200 assoziiert sind, veranlasst, sich an einem entsprechenden Rotor des Fahrzeugs 200 zu schließen. Zusätzlich oder alternativ beinhaltet das Bremssystem 208 in einigen Beispielen ein automatisches Notbrems- (automatic emergency braking, AEB) System, ein regeneratives Bremssystem und/oder dergleichen.
In einigen Ausführungsformen beinhaltet das Fahrzeug 200 mindestens einen (nicht explizit dargestellten) Plattformsensor, der Eigenschaften eines Zustands oder einer Bedingung des Fahrzeugs 200 misst oder ableitet. In einigen Beispielen beinhaltet das Fahrzeug 200 Plattformsensoren wie einen GPS- (Global Positioning System) Empfänger, eine Trägheitsmesseinheit (inertial measurement unit, IMU), einen Raddrehzahlsensor, einen Radbremsdrucksensor, einen Raddrehmomentsensor, einen Motordrehmomentsensor, einen Lenkwinkelsensor und/oder dergleichen. Auch wenn das Bremssystem 208 in 2 auf der hinteren Seite des Fahrzeugs 200 dargestellt ist, kann sich das Bremssystem 208 überall im Fahrzeug 200 befinden.
3 veranschaulicht eine schematische Darstellung einer Vorrichtung 300. Wie dargestellt, beinhaltet die Vorrichtung 300 einen Prozessor 304, einen Speicher 306, eine Speicherkomponente 308, eine Eingabeschnittstelle 310, eine Ausgabeschnittstelle 312, eine Kommunikationsschnittstelle 314 und einen Bus 302. In einigen Ausführungsformen entspricht die Vorrichtung 300 mindestens einer Vorrichtung der Fahrzeuge 102, des entfernt angeordneten AV-Systems 114, des Fuhrparkverwaltungssystems 116, des Fahrzeug-zu-Infrastruktur-Systems 118 und/oder des Netzwerks 112. In einigen Ausführungsformen beinhalten eine oder mehrere Vorrichtungen der Fahrzeuge 102, des entfernt angeordneten AV-Systems 114, des Fuhrparkverwaltungssystems 116, des Fahrzeug-zu-Infrastruktur-Systems 118 und/oder des Netzwerks 112 und/oder eine oder mehrere Vorrichtungen des Netzwerks 112 (z.B. eine oder mehrere Vorrichtungen eines Systems des Netzwerks 112) mindestens eine Vorrichtung 300 und/oder mindestens eine Komponente der Vorrichtung 300. Wie in 3 gezeigt, beinhaltet die Vorrichtung 300 den Bus 302, den Prozessor 304, den Speicher 306, die Speicherkomponente 308, die Eingabeschnittstelle 310, die Ausgabeschnittstelle 312 und die Kommunikationsschnittstelle 314.
Der Bus 302 beinhaltet eine Komponente, die eine Kommunikation zwischen den Komponenten der Vorrichtung 300 ermöglicht. In einigen Fällen beinhaltet der Prozessor 304 einen Prozessor (z.B. eine Zentraleinheit (CPU), eine Grafikverarbeitungseinheit (GPU), eine beschleunigte Verarbeitungseinheit (APU) und/oder dergleichen), ein Mikrofon, einen digitalen Signalprozessor (DSP) und/oder eine beliebige Verarbeitungskomponente (z.B. ein frei programmierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC) und/oder dergleichen), die programmiert werden kann, um mindestens eine Funktion auszuführen. Der Speicher 306 beinhaltet Direktzugriffsspeicher (RAM), Nur-LeseSpeicher (ROM) und/oder eine andere Art von dynamischer und/oder statischer Speichervorrichtung (z.B. Flash-Speicher, magnetischer Speicher, optischer Speicher und/oder dergleichen), die Daten und/oder Anweisungen zur Verwendung durch den Prozessor 304 speichert.
Die Speicherkomponente 308 speichert Daten und/oder Software bezüglich des Betriebs und der Verwendung der Vorrichtung 300. In einigen Beispielen beinhaltet die Speicherkomponente 308 eine Festplatte (z.B. eine Magnetplatte, eine optische Platte, eine magneto-optische Platte, eine Solid-State-Platte und/oder dergleichen), eine Compact Disc (CD), eine Digital Versatile Disc (DVD), eine Diskette, eine Kassette, ein Magnetband, eine CD-ROM, RAM, PROM, EPROM, FLASH-EPROM, NV-RAM und/oder eine andere Art von computerlesbarem Medium zusammen mit einem entsprechenden Laufwerk.
Die Eingabeschnittstelle 310 beinhaltet eine Komponente, die es der Vorrichtung 300 ermöglicht, Informationen zu empfangen, z.B. über Benutzereingaben (z.B. eine Touchscreen-Anzeige, eine Tastatur, ein Tastenfeld, eine Maus, eine Taste, einen Schalter, ein Mikrofon, eine Kamera und/oder dergleichen). Zusätzlich oder alternativ beinhaltet die Eingabeschnittstelle 310 in einigen Ausführungsformen einen Sensor, der Informationen erfasst (z.B. einen GPS-(Global Positioning System) Empfänger, einen Beschleunigungsmesser, ein Gyroskop, einen Aktuator und/oder dergleichen). Die Ausgabeschnittstelle 312 beinhaltet eine Komponente, die Ausgabeinformationen von der Vorrichtung 300 bereitstellt (z.B. eine Anzeige, einen Lautsprecher, eine oder mehrere Leuchtdioden (LEDs) und/oder dergleichen).
In einigen Ausführungsformen beinhaltet die Kommunikationsschnittstelle 314 eine Sendeempfänger-ähnliche Komponente (z.B. einen Sendeempfänger, einen separaten Empfänger und Sender und/oder dergleichen), die es der Vorrichtung 300 ermöglicht, mit anderen Vorrichtungen über eine drahtgebundene Verbindung, eine drahtlose Verbindung oder eine Kombination aus drahtgebundenen und drahtlosen Verbindungen zu kommunizieren. In einigen Beispielen ermöglicht die Kommunikationsschnittstelle 314 der Vorrichtung 300, Informationen von einer anderen Vorrichtung zu empfangen und/oder einer anderen Vorrichtung Informationen bereitzustellen. In einigen Beispielen beinhaltet die Kommunikationsschnittstelle 314 eine Ethernet-Schnittstelle, eine optische Schnittstelle, eine Koaxialschnittstelle, eine Infrarotschnittstelle, eine Hochfrequenz- (radio frequency, RF-) Schnittstelle, eine USB- (Universal Serial Bus) Schnittstelle, eine Wi-Fi®-Schnittstelle, eine Zellularnetzwerkschnittstelle und/oder dergleichen.
In einigen Ausführungsformen führt die Vorrichtung 300 einen oder mehrere der vorliegend beschriebenen Prozesse durch. Die Vorrichtung 300 führt diese Prozesse basierend darauf durch, dass der Prozessor 304 Softwareanweisungen ausführt, die durch ein computerlesbares Medium gespeichert werden, wie etwa den Speicher 305 und/oder die Speicherkomponente 308. Ein computerlesbares Medium (z.B. ein nichtflüchtiges computerlesbares Medium) ist vorliegend als nichtflüchtige Speichervorrichtung definiert. Eine nichtflüchtige Speichervorrichtung beinhaltet Speicherplatz, der sich in einer einzigen physischen Speichervorrichtung befindet, oder Speicherplatz, der über mehrere physische Speichervorrichtungen verteilt ist.
In einigen Ausführungsformen werden Softwareanweisungen von einem anderen computerlesbaren Medium oder von einer anderen Vorrichtung über die Kommunikationsschnittstelle 314 in den Speicher 306 und/oder die Speicherkomponente 308 eingelesen. Bei ihrer Ausführung bewirken die im Speicher 306 und/oder in der Speicherkomponente 308 gespeicherten Softwareanweisungen, dass der Prozessor 304 einen oder mehrere vorliegend beschriebene Prozesse durchführt. Zusätzlich oder alternativ werden festverdrahtete Schaltungsanordnungen anstelle von oder in Kombination mit Softwareanweisungen verwendet, um einen oder mehrere vorliegend beschriebene Prozesse durchzuführen. Somit sind vorliegend beschriebene Ausführungsformen nicht auf eine bestimmte Kombination von Hardware-Schaltungsanordnung und Software beschränkt, sofern nicht ausdrücklich anders angegeben.
Der Speicher 306 und/oder die Speicherkomponente 308 beinhalten einen Datenspeicher oder mindestens eine Datenstruktur (z.B. eine Datenbank und/oder dergleichen). Die Vorrichtung 300 ist in der Lage, Informationen aus dem Datenspeicher oder der mindestens einen Datenstruktur im Speicher 306 oder der Speicherkomponente 308 zu empfangen, darin zu speichern, Informationen an diese zu übermitteln oder in diesen gespeicherte Informationen zu suchen. In einigen Beispielen beinhalten die Informationen Netzwerkdaten, Eingabedaten, Ausgabedaten oder eine beliebige Kombination aus diesen.
In einigen Ausführungsformen ist die Vorrichtung 300 so ausgelegt, dass sie Softwareanweisungen ausführt, die entweder im Speicher 306 und/oder im Speicher einer anderen Vorrichtung (z.B. einer anderen Vorrichtung, die der Vorrichtung 300 gleicht oder ähnelt) gespeichert sind. Vorliegend bezieht sich die Bezeichnung „Modul“ auf mindestens eine im Speicher 306 und/oder im Speicher einer anderen Vorrichtung gespeicherte Anweisung, die bei Ausführung durch den Prozessor 304 und/oder durch einen Prozessor einer anderen Vorrichtung (z.B. einer anderen Vorrichtung, die der Vorrichtung 300 gleicht oder ähnelt) die Vorrichtung 300 (z.B. mindestens eine Komponente der Vorrichtung 300) veranlasst, einen oder mehrere vorliegend beschriebene Prozesse durchzuführen. In einigen Ausführungsformen wird ein Modul in Software, Firmware, Hardware und/oder dergleichen implementiert.
Die Anzahl und Anordnung der in 3 dargestellten Komponenten ist lediglich beispielhaft. In einigen Ausführungsformen kann die Vorrichtung 300 zusätzliche Komponenten, weniger Komponenten, andere Komponenten oder anders angeordnete Komponenten als die in 3 veranschaulichten beinhalten. Zusätzlich oder alternativ kann ein Satz von Komponenten (z.B. eine oder mehrere Komponenten) der Vorrichtung 300 eine oder mehrere Funktionen durchführen, die als durch eine andere Komponente oder einen anderen Satz von Komponenten der Vorrichtung 300 durchgeführt beschrieben werden.
4A veranschaulicht ein beispielhaftes Blockschaubild eines AV-Computers 400 (mitunter auch als „AV-Stapel“ (AV stack) bezeichnet). Wie veranschaulicht ist, beinhaltet der AV-Computer 400 ein Wahrnehmungssystem 402 (manchmal als Wahrnehmungsmodul bezeichnet), ein Planungssystem 404 (manchmal als Planungsmodul bezeichnet), ein Lokalisierungssystem 406 (manchmal als Lokalisierungsmodul bezeichnet), ein Steuersystem 408 (manchmal als Steuermodul bezeichnet) und eine Datenbank 410. In einigen Ausführungsformen sind das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406, das Steuersystem 408 und die Datenbank 410 in einem autonomen Navigationssystem eines Fahrzeugs (z.B. dem AV-Computer 202f des Fahrzeugs 200) enthalten und/oder implementiert. Zusätzlich oder alternativ sind in einigen Ausführungsformen das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406, das Steuersystem 408 und die Datenbank 410 in einem oder mehreren unabhängigen Systemen (z.B. einem oder mehreren Systemen, die gleich oder ähnlich sind wie der AV-Computer 400 und/oder dergleichen) enthalten. In einigen Beispielen sind das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406, das Steuersystem 408 und die Datenbank 410 in einem oder mehreren eigenständigen Systemen enthalten, die sich in einem Fahrzeug und/oder in mindestens einem entfernt angeordneten System wie vorliegend beschrieben befinden. In einigen Ausführungsformen sind beliebige und/oder alle Systeme, die im AV-Computer 400 enthalten sind, in Software (z.B. in Softwareanweisungen, die im Speicher gespeichert sind), Computerhardware (z.B. durch Mikroprozessoren, Mikrocontroller, anwendungsspezifische integrierte Schaltungen (ASICs), frei programmierbare Gate-Arrays (FPGAs) und/oder dergleichen) oder Kombinationen aus Computersoftware und Computerhardware implementiert. Es versteht sich zudem, dass in einigen Ausführungsformen der AV-Computer 400 so ausgelegt ist, dass er mit einem entfernt angeordneten System kommuniziert (z.B. einem AV-System, das dem entfernt angeordneten AV-System 114 gleicht oder ähnelt, einem Fuhrparkverwaltungssystem 116, das dem Fuhrparkverwaltungssystem 116 gleicht oder ähnelt, einem V21-System, das dem V2I-System 118 gleicht oder ähnelt, und/oder dergleichen).
In einigen Ausführungsformen empfängt das Wahrnehmungssystem 402 Daten im Zusammenhang mit mindestens einem physischen Objekt (z.B. Daten, die vom Wahrnehmungssystem 402 zur Erkennung des mindestens einen physischen Objekts verwendet werden) in einer Umgebung und klassifiziert das mindestens eine physische Objekt. In einigen Beispielen empfängt das Wahrnehmungssystem 402 Bilddaten, die von mindestens einer Kamera (z.B. den Kameras 202a) aufgenommen wurden, wobei das Bild mit einem oder mehreren physischen Objekten in einem Sichtfeld der mindestens einen Kamera assoziiert ist (z.B. diese darstellt). In einem solchen Beispiel klassifiziert das Wahrnehmungssystem 402 mindestens ein physisches Objekt auf Grundlage einer oder mehrerer Gruppierungen physischer Objekte (z.B. Fahrräder, Fahrzeuge, Verkehrsschilder, Fußgänger und/oder dergleichen). In einigen Ausführungsformen überträgt das Wahrnehmungssystem 402 Daten, die mit der Klassifizierung der physischen Objekte assoziiert sind, an das Planungssystem 404 auf Grundlage des Klassifizierens der physischen Objekte durch das Wahrnehmungssystem 402.
In einigen Ausführungsformen empfängt das Planungssystem 404 Daten, die mit einem Zielort assoziiert sind, und erzeugt Daten, die mit mindestens einer Route (z.B. den Routen 106) assoziiert sind, entlang derer ein Fahrzeug (z.B. die Fahrzeuge 102) zu einem Zielort fahren kann. In einigen Ausführungsformen empfängt das Planungssystem 404 periodisch oder kontinuierlich Daten vom Wahrnehmungssystem 402 (z.B. Daten, die mit der vorstehend beschriebenen Klassifizierung physischer Objekte zusammenhängen), und das Planungssystem 404 aktualisiert die mindestens eine Trajektorie oder erzeugt mindestens eine andere Trajektorie auf Grundlage der vom Wahrnehmungssystem 402 erzeugten Daten. Mit anderen Worten kann das Planungssystem 404 taktische funktionsbezogene Aufgaben ausführen, die für den Betrieb des Fahrzeugs 102 im Straßenverkehr erforderlich sind. Zu taktischen Maßnahmen gehört das Manövrieren des Fahrzeugs im Verkehr während einer Fahrt, darunter, ohne jedoch hierauf eingeschränkt zu sein, das Entscheiden, ob und wann ein anderes Fahrzeug überholt oder die Fahrspur gewechselt werden soll, oder das Auswählen einer geeigneten Geschwindigkeit, Beschleunigung, Verlangsamung usw. In einigen Ausführungsformen empfängt das Planungssystem 404 Daten in Verbindung mit einer aktualisierten Position eines Fahrzeugs (z.B. der Fahrzeuge 102) vom Lokalisierungssystem 406, und das Planungssystem 404 aktualisiert die mindestens eine Trajektorie oder erzeugt mindestens eine andere Trajektorie auf Grundlage der vom Lokalisierungssystem 406 erzeugten Daten.
In einigen Ausführungsformen empfängt das Lokalisierungssystem 406 Daten, die mit einem Standort eines Fahrzeugs (z.B. der Fahrzeuge 102) in einem Bereich assoziiert sind (z.B. diesen darstellen). In einigen Beispielen empfängt das Lokalisierungssystem 406 LiDAR-Daten im Zusammenhang mit mindestens einer Punktwolke, die von mindestens einem LiDAR-Sensor (z.B. den LiDAR-Sensoren 202b) erzeugt wurden. In bestimmten Beispielen empfängt das Lokalisierungssystem 406 Daten im Zusammenhang mit mindestens einer Punktwolke von mehreren LiDAR-Sensoren, und das Lokalisierungssystem 406 erzeugt eine kombinierte Punktwolke auf Grundlage jeder der Punktwolken. In diesen Beispielen vergleicht das Lokalisierungsmodul 406 die mindestens eine Punktwolke oder die kombinierte Punktwolke mit einer in der Datenbank 410 gespeicherten zweidimensionalen (2D-) und/oder einer dreidimensionalen (3D-) Karte des Bereichs. Das Lokalisierungssystem 406 bestimmt dann die Position des Fahrzeugs in dem Bereich basierend darauf, dass das System 406 die mindestens eine Punktwolke oder die kombinierte Punktwolke mit der Karte vergleicht. In einigen Ausführungsformen beinhaltet die Karte eine kombinierte Punktwolke des Bereichs, die vor der Navigation des Fahrzeugs erzeugt wird. In einigen Ausführungsformen beinhalten Karten, ohne jedoch hierauf eingeschränkt zu sein, hochpräzise Karten der geometrischen Eigenschaften der Fahrbahn, Karten, die Verbindungseigenschaften des Straßennetzes beschreiben, Karten, die physische Eigenschaften der Fahrbahn beschreiben (z.B. Verkehrsgeschwindigkeit, Verkehrsaufkommen, Anzahl der Fahrspuren für den Auto- und Radverkehr, Fahrspurbreite, Fahrspurrichtungen oder Fahrspurmarkierungstypen und -orte oder Kombinationen davon), sowie Karten, die die räumliche Lage von Straßenmerkmalen wie Fußgängerüberwegen, Verkehrsschildern oder anderen Verkehrssignalen verschiedener Arten beschreiben. In einigen Ausführungsformen wird die Karte in Echtzeit auf Grundlage der vom Wahrnehmungssystem empfangenen Daten erzeugt.
In einem anderen Beispiel empfängt das Lokalisierungssystem 406 GNSS-(Global Navigation Satellite System, globales Navigationssatellitensystem) Daten, die von einem GPS- (Global Positioning System, globales Positionsbestimmungssystem) Empfänger erzeugt werden. In einigen Beispielen empfängt das Lokalisierungssystem 406 GNSS-Daten im Zusammenhang mit dem Standort des Fahrzeugs in dem Bereich, und das Lokalisierungssystem 406 bestimmt einen Breitengrad und Längengrad des Fahrzeugs in dem Bereich. In einem solchen Beispiel bestimmt das Lokalisierungssystem 406 die Position des Fahrzeugs in dem Bereich basierend auf dem Breitengrad und dem Längengrad des Fahrzeugs. In einigen Ausführungsformen erzeugt das Lokalisierungssystem 406 Daten im Zusammenhang mit der Position des Fahrzeugs. In einigen Beispielen erzeugt das Lokalisierungssystem 406 Daten im Zusammenhang mit der Position des Fahrzeugs auf Grundlage des Bestimmens der Position des Fahrzeugs durch das Lokalisierungssystem 406. In einem solchen Beispiel beinhalten die Daten, die mit der Position des Fahrzeugs assoziiert sind, Daten, die mit einer oder mehreren semantischen Eigenschaften entsprechend der Position des Fahrzeugs assoziiert sind.
In einigen Ausführungsformen empfängt das Steuersystem 408 Daten im Zusammenhang mit mindestens einer Trajektorie vom Planungssystem 404, und das Steuersystem 408 steuert den Betrieb des Fahrzeugs. In einigen Beispielen empfängt das Steuersystem 408 Daten, die mit mindestens einer Trajektorie assoziiert sind, vom Planungssystem 404, und das Steuersystem 408 steuert den Betrieb des Fahrzeugs durch Erzeugen und Übertragen von Steuersignalen, um zu bewirken, dass ein Antriebsstrangsteuersystem (z.B. DBW-System 202h, Antriebsstrangsteuersystem 204 und/oder dergleichen), ein Lenksteuersystem (z.B. das Lenksteuersystem 206) und/oder ein Bremssystem (z.B. das Bremssystem 208) arbeiten. Das Steuersystem 408 ist beispielsweise so ausgelegt, dass es betriebliche Funktionen wie eine seitliche Fahrzeugbewegungssteuerung oder eine Fahrzeuglängsbewegungssteuerung ausführt. Die seitliche Fahrzeugbewegungssteuerung bewirkt Aktivitäten, die für die Regulierung der y-Achsen-Komponente der Fahrzeugbewegung notwendig sind. Die Fahrzeuglängsbewegungssteuerung bewirkt Aktivitäten, die für die Regulierung der x-Achsen-Komponente der Fahrzeugbewegung erforderlich sind. In einem Beispiel, in dem eine Trajektorie eine Linkskurve beinhaltet, überträgt das Steuersystem 408 ein Steuersignal, um das Lenkungssteuersystem 206 zu veranlassen, einen Lenkwinkel des Fahrzeugs 200 einzustellen, wodurch bewirkt wird, dass das Fahrzeug 200 nach links abbiegt. Zusätzlich oder alternativ erzeugt und überträgt das Steuersystem 408 Steuersignale, um andere Einrichtungen (z.B. Scheinwerfer, Blinker, Türschlösser, Scheibenwischer und/oder dergleichen) des Fahrzeugs 200 zu veranlassen, ihren Zustand zu ändern.
In einigen Ausführungsformen implementieren das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406 und/oder das Steuersystem 408 mindestens ein maschinelles Lernmodell (z.B. mindestens ein mehrschichtiges Perzeptron (multilayer perceptron, MLP), mindestens ein neuronales Faltungsnetz (convolutional neural network, CNN), mindestens ein rekurrentes neuronales Netz (RNN), mindestens einen Autoencoder, mindestens einen Transformator und/oder dergleichen). In einigen Beispielen implementieren das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406 und/oder das Steuersystem 408 mindestens ein maschinelles Lernmodell allein oder in Kombination mit einem oder mehreren der vorstehend genannten Systeme. In einigen Beispielen implementieren das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406 und/oder das Steuersystem 408 mindestens ein maschinelles Lernmodell als Teil einer Pipeline (z.B. einer Pipeline zum Identifizieren eines oder mehrerer Objekte, die sich in einer Umgebung befinden, und/oder dergleichen). Ein Beispiel einer Implementierung eines maschinellen Lernmodells ist nachstehend mit Bezug auf 4B-4D enthalten.
In der Datenbank 410 werden Daten gespeichert, die an das Wahrnehmungssystem 402, das Planungssystem 404, das Lokalisierungssystem 406 und/oder das Steuersystem 408 übertragen, von diesen empfangen und/oder aktualisiert werden. In einigen Beispielen beinhaltet die Datenbank 410 eine Speicherkomponente (z.B. eine Speicherkomponente, die der Speicherkomponente 308 aus 3 gleicht oder ähnelt), die Daten und/oder Software im Zusammenhang mit dem Betrieb speichert und mindestens ein System des AV-Computers 400 verwendet. In einigen Ausführungsformen speichert die Datenbank 410 Daten im Zusammenhang mit 2D- und/oder 3D-Karten mindestens eines Bereichs. In einigen Beispielen speichert die Datenbank 410 Daten im Zusammenhang mit 2D- und/oder 3D-Karten eines Teils einer Stadt, mehrerer Teile mehrerer Städte, mehrerer Städte, eines Bezirks, eines Bundesstaates, eines Staates (z.B. eines Landes) und/oder dergleichen. In einem solchen Beispiel kann ein Fahrzeug (z.B. ein Fahrzeug, das den Fahrzeugen 102 und/oder dem Fahrzeug 200 gleicht oder ähnelt) entlang einer oder mehrerer befahrbarer Regionen (z.B. einspurige Straßen, mehrspurige Straßen, Autobahnen, Nebenstraßen, Geländepfade und/oder dergleichen) fahren und mindestens einen LiDAR-Sensor (z.B. einen LiDAR-Sensor, der den LiDAR-Sensoren 202b gleicht oder ähnelt) veranlassen, Daten im Zusammenhang mit einem Bild zu erzeugen, das die in einem Sichtfeld des mindestens einen LiDAR-Sensors enthaltenen Objekte darstellt.
In einigen Ausführungsformen kann die Datenbank 410 auf einer Vielzahl von Vorrichtungen implementiert werden. In einigen Beispielen ist die Datenbank 410 in einem Fahrzeug (z.B. einem Fahrzeug, das den Fahrzeugen 102 und/oder dem Fahrzeug 200 gleicht oder ähnelt), einem AV-System (z.B. einem AV-System, das dem entfernt angeordneten AV-System 114 gleicht oder ähnelt), einem Fuhrparkverwaltungssystem (z.B. einem Fuhrparkverwaltungssystem, das dem Fuhrparkverwaltungssystem 116 aus 1 gleicht oder ähnelt), einem V21-System (z.B. einem V21-System, das dem V21-System 118 aus 1 gleicht oder ähnelt) und/oder dergleichen enthalten.
Gemäß 4B ist ein Diagramm einer Implementierung eines maschinellen Lernmodells veranschaulicht. Genauer ausgedrückt, ist ein Diagramm einer Implementierung eines neuronalen Faltungsnetzes (CNN) 420 dargestellt. Für Veranschaulichungszwecke wird die folgende Beschreibung des CNN 420 mit Bezug auf eine Implementierung des CNN 420 durch das Wahrnehmungssystem 402 erfolgen. Es versteht sich jedoch, dass in einigen Beispielen das CNN 420 (z.B. eine oder mehrere Komponenten des CNN 420) durch andere Systeme verschieden von oder zusätzlich zu dem Wahrnehmungssystem 402 implementiert wird, wie etwa das Planungssystem 404, das Lokalisierungssystem 406 und/oder das Steuersystem 408. Wenngleich das CNN 420 bestimmte Merkmale beinhaltet, wie vorliegend beschrieben, sind diese Merkmale für Veranschaulichungszwecke bereitgestellt und sollen die vorliegende Offenbarung nicht beschränken.
Das CNN 420 beinhaltet eine Vielzahl von Faltungsschichten einschließlich einer ersten Faltungsschicht 422, einer zweiten Faltungsschicht 424 und einer Faltungsschicht 426. In einigen Ausführungsformen beinhaltet das CNN 420 eine Subsampling-Schicht 428 (manchmal als eine Pooling-Schicht bezeichnet). In einigen Ausführungsformen haben die Subsampling-Schicht 428 und/oder andere Subsampling-Schichten eine Dimension (d.h. eine Menge an Knoten), die kleiner ist als eine Dimension eines vorgelagerten (Upstream-) Systems. Da die Subsampling-Schicht 428 eine Dimension aufweist, die kleiner ist als eine Dimension einer Upstream-Schicht, konsolidiert das CNN 420 die Datenmenge, die mit der initialen Eingabe und/oder der Ausgabe einer Upstream-Schicht assoziiert ist, um dadurch die Menge an Berechnungen zu verringern, die notwendig sind, damit das CNN 420 Downstream-Faltungsoperationen durchführt. Zusätzlich oder alternativ konsolidiert das CNN 420, da die Subsampling-Schicht 428 mit mindestens einer Subsampling-Funktion assoziiert ist (z.B. ausgelegt ist, diese durchzuführen) (wie nachstehend mit Bezug auf 4C und 4D beschrieben), die Menge an Daten, die mit der initialen Eingabe assoziiert ist.
Das Wahrnehmungssystem 402 führt Faltungsoperationen basierend darauf durch, dass das Wahrnehmungssystem 402 jeweilige Eingaben und/oder Ausgaben bereitstellt, die mit sowohl der ersten Faltungsschicht 422, der zweiten Faltungsschicht 424 als auch der Faltungsschicht 426 assoziiert sind, um jeweilige Ausgaben zu erzeugen. In manchen Beispielen implementiert das Wahrnehmungssystem 402 das CNN 420 basierend darauf, dass das Wahrnehmungssystem 402 Daten als Eingabe in die erste Faltungsschicht 422, die zweite Faltungsschicht 424 und die Faltungsschicht 426 bereitstellt. In einem solchen Beispiel liefert das Wahrnehmungssystem 402 die Daten als Eingabe in die erste Faltungsschicht 422, die zweite Faltungsschicht 424 und die Faltungsschicht 426 basierend darauf, dass das Wahrnehmungssystem 402 Daten von einem oder mehreren verschiedenen Systemen empfängt (z.B. einem oder mehreren Systemen eines Fahrzeugs, das gleich oder ähnlich ist wie das Fahrzeug 102, einem entfernt angeordneten AV-System, das gleich oder ähnlich ist wie das entfernt angeordnete AV-System 114, einem Fuhrparkverwaltungssystem, das gleich oder ähnlich ist wie das Fuhrparkverwaltungssystem 116, einem V21-System, das gleich oder ähnlich ist wie das V21-System 118, und/oder dergleichen). Eine ausführliche Beschreibung von Faltungsoperationen ist nachstehend mit Bezug auf 4C enthalten.
In einigen Ausführungsformen liefert das Wahrnehmungssystem 402 Daten, die mit einer Eingabe (als eine initiale Eingabe bezeichnet) in die erste Faltungsschicht 422 assoziiert sind, und das Wahrnehmungssystem 402 erzeugt Daten, die mit einer Ausgabe assoziiert sind, unter Verwendung der ersten Faltungsschicht 422. In einigen Ausführungsformen liefert das Wahrnehmungssystem 402 eine durch eine Faltungsschicht erzeugte Ausgabe als Eingabe für eine andere Faltungsschicht. Beispielsweise liefert das Wahrnehmungssystem 402 die Ausgabe der ersten Faltungsschicht 422 als Eingabe in die Subsampling-Schicht 428, die zweite Faltungsschicht 424 und/oder die Faltungsschicht 426. In einem solchen Beispiel wird die erste Faltungsschicht 422 als eine Upstream-Schicht bezeichnet und die Subsampling-Schicht 428, die zweite Faltungsschicht 424 und/oder die Faltungsschicht 426 werden als Downstream-Schichten bezeichnet. Gleichermaßen liefert das Wahrnehmungssystem 402 in einigen Ausführungsformen die Ausgabe der Subsampling-Schicht 428 an die zweite Faltungsschicht 424 und/oder die Faltungsschicht 426, und in diesem Beispiel würde die Subsampling-Schicht 428 als eine Upstream-Schicht bezeichnet werden und die zweite Faltungsschicht 424 und/oder die Faltungsschicht 426 würden als Downstream-Schichten bezeichnet werden.
In einigen Ausführungsformen verarbeitet das Wahrnehmungssystem 402 die Daten, die mit der dem CNN 420 bereitgestellten Eingabe assoziiert sind, bevor das Wahrnehmungssystem 402 die Eingabe an das CNN 420 liefert. Beispielsweise verarbeitet das Wahrnehmungssystem 402 die Daten, die mit der dem CNN 420 bereitgestellten Eingabe assoziiert sind, basierend darauf, dass das Wahrnehmungssystem 402 Sensordaten (z.B. Bilddaten, LiDAR-Daten, Radardaten und/oder dergleichen) normalisiert.
In einigen Ausführungsformen erzeugt das CNN 420 eine Ausgabe basierend darauf, dass das Wahrnehmungssystem 402 Faltungsoperationen durchführt, die mit jeder Faltungsschicht assoziiert sind. In einigen Beispielen erzeugt das CNN 420 eine Ausgabe basierend darauf, dass das Wahrnehmungssystem 402 Faltungsoperationen durchführt, die mit jeder Faltungsschicht und einer initialen Eingabe assoziiert sind. In einigen Ausführungsformen erzeugt das Wahrnehmungssystem 402 die Ausgabe und liefert die Ausgabe als eine vollständig verknüpfte Schicht 430. In einigen Beispielen liefert das Wahrnehmungssystem 402 die Ausgabe der Faltungsschicht 426 als die vollständig verbundene Schicht 430, wobei die vollständig verbundene Schicht 430 Daten beinhaltet, die mit einer Vielzahl von Merkmalswerten assoziiert sind, bezeichnet als F1, F2 ... FN. In diesem Beispiel beinhaltet die Ausgabe der Faltungsschicht 426 Daten, die mit einer Vielzahl von Ausgabemerkmalswerten assoziiert sind, die eine Vorhersage repräsentieren.
In einigen Ausführungsformen identifiziert das Wahrnehmungssystem 402 eine Vorhersage aus einer Vielzahl von Vorhersagen basierend darauf, dass das Wahrnehmungssystem 402 einen Merkmalswert identifiziert, der mit der höchsten Wahrscheinlichkeit assoziiert ist, dass es sich um die korrekte Vorhersage aus der Vielzahl von Vorhersagen handelt. Wenn beispielsweise die vollständig verknüpfte Schicht 430 Merkmalswerte F1, F2, ... FN beinhaltet und F1 der größte Merkmalswert ist, identifiziert das Wahrnehmungssystem 402 die mit F1 assoziierte Vorhersage als die korrekte Vorhersage aus der Vielzahl von Vorhersagen. In einigen Ausführungsformen trainiert das Wahrnehmungssystem 402 das CNN 420, um die Vorhersage zu erzeugen. In einigen Beispielen trainiert das Wahrnehmungssystem 402 das CNN 420 darauf, die Vorhersage zu erzeugen, basierend darauf, dass das Wahrnehmungssystem 402 dem CNN 420 Trainingsdaten im Zusammenhang mit der Vorhersage bereitstellt.
Gemäß 4C und 4D ist ein Diagramm eines beispielhaften Betriebs eines CNN 440 durch das Wahrnehmungssystem 402 veranschaulicht. In einigen Ausführungsformen ist das CNN 440 (z.B. eine oder mehrere Komponenten des CNN 440) das gleiche oder ähnlich wie das CNN 420 (z.B. eine oder mehrere Komponenten des CNN 420) (siehe 4B).
In Schritt 450 liefert das Wahrnehmungssystem 402 Daten, die mit einem Bild assoziiert sind, als Eingabe in ein CNN 440 (Schritt 450). Beispielsweise liefert, wie veranschaulicht, das Wahrnehmungssystem 402 die Daten, die mit dem Bild assoziiert sind, an das CNN 440, wobei das Bild ein Graustufenbild ist, das als Werte repräsentiert ist, die in einem zweidimensionalen (2D-) Array gespeichert sind. In einigen Ausführungsformen können die Daten, die mit dem Bild assoziiert sind, Daten beinhalten, die mit einem Farbbild assoziiert sind, wobei das Farbbild als Werte repräsentiert ist, die in einem dreidimensionalen (3D-) Array gespeichert sind. Zusätzlich oder alternativ können die Daten, die mit dem Bild assoziiert sind, Daten beinhalten, die mit einem Infrarotbild, einem Radar-Bild und/oder dergleichen assoziiert sind.
In Schritt 455 führt das CNN 440 eine erste Faltungsfunktion durch. Beispielsweise führt das CNN 440 die erste Faltungsfunktion basierend darauf durch, dass das CNN 440 die Werte, die das Bild repräsentieren, als Eingabe in ein oder mehrere Neuronen (nicht ausdrücklich veranschaulicht), die in der ersten Faltungsschicht 442 enthalten sind, bereitstellt. In diesem Beispiel können die Werte, die das Bild repräsentieren, Werten entsprechen, die eine Region des Bildes repräsentieren (manchmal als ein rezeptives Feld bezeichnet). In einigen Ausführungsformen ist jedes Neuron mit einem Filter (nicht ausdrücklich veranschaulicht) assoziiert. Ein Filter (manchmal als ein Kernel bezeichnet) ist als ein Array von Werten repräsentierbar, das in der Größe den Werten entspricht, die als Eingabe in das Neuron bereitgestellt werden. In einem Beispiel kann ein Filter dazu ausgelegt sein, Kanten (z.B. horizontale Linien, vertikale Linien, gerade Linien und/oder dergleichen) zu identifizieren. In folgenden Faltungsschichten können die mit Neuronen assoziierten Filter dazu ausgelegt sein, sukzessive komplexere Muster (z.B. Bögen, Objekte und/oder dergleichen) zu identifizieren.
In einigen Ausführungsformen führt das CNN 440 die erste Faltungsfunktion basierend darauf durch, dass das CNN 440 die Werte, die jedem des einen oder der mehreren in der ersten Faltungsschicht 442 enthaltenen Neuronen als Eingabe bereitgestellt werden, mit den Werten des Filters, das jedem des einen oder der mehreren Neuronen entspricht, multipliziert. Beispielsweise kann das CNN 440 die Werte, die jedem des einen oder der mehreren in der ersten Faltungsschicht 442 enthaltenen Neuronen als Eingabe bereitgestellt werden, mit den Werten des Filters, das jedem des einen oder der mehreren Neuronen entspricht, multiplizieren, um einen einzelnen Wert oder ein Array von Werten als eine Ausgabe zu erzeugen. In einigen Ausführungsformen wird die kollektive Ausgabe der Neuronen der ersten Faltungsschicht 442 als eine gefaltete Ausgabe bezeichnet. In einigen Ausführungsformen, in denen jedes Neuron das gleiche Filter aufweist, wird die gefaltete Ausgabe als eine Merkmalskarte (feature map) bezeichnet.
In einigen Ausführungsformen liefert das CNN 440 die Ausgaben jedes Neurons der ersten Faltungsschicht 442 an Neuronen einer Downstream-Schicht. Für Verdeutlichungszwecke kann eine Upstream-Schicht eine Schicht sein, die Daten an eine andere Schicht (als eine Downstream-Schicht bezeichnet) überträgt. Beispielsweise kann das CNN 440 die Ausgaben jedes Neurons der ersten Faltungsschicht 442 an entsprechende Neuronen einer Subsampling-Schicht liefern. In einem Beispiel liefert das CNN 440 die Ausgaben jedes Neurons der ersten Faltungsschicht 442 an entsprechende Neuronen der ersten Subsampling-Schicht 444. In einigen Ausführungsformen fügt das CNN 440 einen Bias-Wert zu den Aggregaten aller Werte hinzu, die jedem Neuron der Downstream-Schicht geliefert werden. Beispielsweise fügt das CNN 440 einen Bias-Wert zu den Aggregaten aller Werte hinzu, die jedem Neuron der ersten Subsampling-Schicht 444 geliefert werden. In einem solchen Beispiel bestimmt das CNN 440 einen finalen Wert, der jedem Neuron der ersten Subsampling-Schicht 444 bereitzustellen ist, basierend auf den Aggregaten aller Werte, die jedem Neuron geliefert werden, und einer Aktivierungsfunktion, die mit jedem Neuron der ersten Subsampling-Schicht 444 assoziiert ist.
In Schritt 460 führt das CNN 440 eine erste Subsampling-Funktion durch. Beispielsweise kann das CNN 440 eine erste Subsampling-Funktion basierend darauf durchführen, dass das CNN 440 die Werte, die durch die erste Faltungsschicht 442 ausgegeben werden, an entsprechende Neuronen der ersten Subsampling-Schicht 444 liefert. In einigen Ausführungsformen führt das CNN 440 die erste Subsampling-Funktion basierend auf einer Aggregationsfunktion durch. In einem Beispiel führt das CNN 440 die erste Subsampling-Funktion basierend darauf durch, dass das CNN 440 die maximale Eingabe unter den Werten bestimmt, die einem gegebenen Neuron geliefert werden (als Max-Pooling-Funktion bezeichnet). In einem anderen Beispiel führt das CNN 440 die erste Subsampling-Funktion basierend darauf durch, dass das CNN 440 die durchschnittliche Eingabe unter den Werten bestimmt, die einem gegebenen Neuron geliefert werden (als Average-Pooling-Funktion bezeichnet). In einigen Ausführungsformen erzeugt das CNN 440 eine Ausgabe basierend darauf, dass das CNN 440 die Werte jedem Neuron der ersten Subsampling-Schicht 444 liefert, wobei die Ausgabe manchmal als gefaltete Subsampling-Ausgabe bezeichnet wird.
In Schritt 465 führt das CNN 440 eine zweite Faltungsfunktion durch. In einigen Ausführungsformen führt das CNN 440 die zweite Faltungsfunktion auf eine ähnliche Weise durch, wie das CNN 440 die vorstehend beschriebene erste Faltungsfunktion durchführte. In einigen Ausführungsformen führt das CNN 440 die zweite Faltungsfunktion basierend darauf durch, dass das CNN 440 die Werte, die durch die erste Subsampling-Schicht 444 ausgegeben werden, als Eingabe in ein oder mehrere Neuronen (nicht ausdrücklich veranschaulicht), die in der zweiten Faltungsschicht 446 enthalten sind, bereitstellt. In einigen Ausführungsformen ist jedes Neuron der zweiten Faltungsschicht 446 mit einem Filter assoziiert, wie vorstehend beschrieben. Das eine oder die mehreren mit der zweiten Faltungsschicht 446 assoziierten Filter können dazu ausgelegt sein, komplexere Muster als das Filter zu identifizieren, das mit der ersten Faltungsschicht 442 assoziiert ist, wie vorstehend beschrieben.
In einigen Ausführungsformen führt das CNN 440 die zweite Faltungsfunktion basierend darauf durch, dass das CNN 440 die Werte, die jedem des einen oder der mehreren in der zweiten Faltungsschicht 446 enthaltenen Neuronen als Eingabe bereitgestellt werden, mit den Werten des Filters, das jedem des einen oder der mehreren Neuronen entspricht, multipliziert. Beispielsweise kann das CNN 440 die Werte, die jedem des einen oder der mehreren in der zweiten Faltungsschicht 446 enthaltenen Neuronen als Eingabe bereitgestellt werden, mit den Werten des Filters, das jedem des einen oder der mehreren Neuronen entspricht, multiplizieren, um einen einzelnen Wert oder ein Array von Werten als eine Ausgabe zu erzeugen.
In einigen Ausführungsformen liefert das CNN 440 die Ausgaben jedes Neurons der zweiten Faltungsschicht 446 an Neuronen einer Downstream-Schicht. Beispielsweise kann das CNN 440 die Ausgaben jedes Neurons der ersten Faltungsschicht 442 an entsprechende Neuronen einer Subsampling-Schicht liefern. In einem Beispiel liefert das CNN 440 die Ausgaben jedes Neurons der ersten Faltungsschicht 442 an entsprechende Neuronen der zweiten Subsampling-Schicht 448. In einigen Ausführungsformen fügt das CNN 440 einen Bias-Wert zu den Aggregaten aller Werte hinzu, die jedem Neuron der Downstream-Schicht geliefert werden. Beispielsweise fügt das CNN 440 einen Bias-Wert zu den Aggregaten aller Werte hinzu, die jedem Neuron der zweiten Subsampling-Schicht 448 geliefert werden. In einem solchen Beispiel bestimmt das CNN 440 einen finalen Wert, der jedem Neuron der zweiten Subsampling-Schicht 448 bereitzustellen ist, basierend auf den Aggregaten aller Werte, die jedem Neuron geliefert werden, und einer Aktivierungsfunktion, die mit jedem Neuron der zweiten Subsampling-Schicht 448 assoziiert ist.
In Schritt 470 führt das CNN 440 eine zweite Subsampling-Funktion durch. Beispielsweise kann das CNN 440 eine zweite Subsampling-Funktion basierend darauf durchführen, dass das CNN 440 die Werte, die durch die zweite Faltungsschicht 446 ausgegeben werden, an entsprechende Neuronen der zweiten Subsampling-Schicht 448 liefert. In einigen Ausführungsformen führt das CNN 440 die zweite Subsampling-Funktion basierend darauf durch, dass das CNN 440 eine Aggregationsfunktion verwendet. In einem Beispiel führt das CNN 440 die erste Subsampling-Funktion basierend darauf durch, dass das CNN 440 die maximale Eingabe oder eine durchschnittliche Eingabe unter den Werten, die einem gegebenen Neuron bereitgestellt werden, bestimmt, wie vorstehend beschrieben. In einigen Ausführungsformen erzeugt das CNN 440 eine Ausgabe basierend darauf, dass das CNN 440 die Werte jedem Neuron der zweiten Subsampling-Schicht 448 liefert.
In Schritt 475 liefert das CNN 440 die Ausgabe jedes Neurons der zweiten Subsampling-Schicht 448 an vollständig verknüpfte Schichten 449. Beispielsweise liefert das CNN 440 die Ausgabe jedes Neurons der zweiten Subsampling-Schicht 448 an vollständig verknüpfte Schichten 449, um zu bewirken, dass die vollständig verknüpften Schichten 449 eine Ausgabe erzeugen. In einigen Ausführungsformen sind die vollständig verknüpften Schichten 449 dazu ausgelegt, eine Ausgabe zu erzeugen, die mit einer Vorhersage assoziiert ist (manchmal als eine Klassifikation bezeichnet). Die Vorhersage kann eine Indikation beinhalten, dass ein Objekt, das in dem als Eingabe in das CNN 440 bereitgestellten Bild enthalten ist, ein Objekt, einen Satz von Objekten und/oder dergleichen beinhaltet. In einigen Ausführungsformen führt das Wahrnehmungssystem 402 eine oder mehrere Operationen durch und/oder liefert die mit der Vorhersage assoziierten Daten an ein anderes vorliegend beschriebenes System.
5 bis 9 veranschaulichen Diagramme beispielhafter Implementierungen maschineller Lernmodelle zum Fusionieren synthetischer Bilder eines Wahrnehmungssystems, wie beispielsweise des Wahrnehmungssystems 402, mit Daten zusätzlicher Sensormodalitäten, wie beispielsweise Bildern der Kameras 202a, für Zwecke wie Objektbewegungsvorhersage oder Fahrzeugplanung. Konkret zeigt 5 eine erste Ausführungsform eines maschinellen Lernmodells, das eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten fusioniert, wobei gelernte Merkmale aus den Daten der zusätzlichen Sensormodalitäten und aus der Ausgabe des Wahrnehmungssystems verkettet und von einem neuronalen Netz für Vorhersage oder Planung verarbeitet werden. 6 und 7 zeigen eine zweite Ausführungsform eines maschinellen Lernmodells, das eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten fusioniert, wobei ein kombiniertes Bild, das die Ausgabe eines Wahrnehmungssystems mit aufgemalten Kommentierungen zu dieser Ausgabe kombiniert, die aus Daten von zusätzlichen Sensormodalitäten gelernt wurden, von einem neuronalen Netz für Vorhersage oder Planung verarbeitet wird. 8 und 9 zeigen eine dritte Ausführungsform eines maschinellen Lernmodells, das eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten fusioniert, wobei Merkmale aufgemalter Kommentierungen der Ausgabe eines Wahrnehmungssystems aus Daten von zusätzlichen Sensormodalitäten zusammen mit dem Trainieren des Modells für Vorhersage oder Planung gelernt werden. Jede Ausführungsform wird nacheinander beschrieben.
Wie in 5 gezeigt, nimmt das maschinelle Lernmodell 500 als Eingabe sowohl die Ausgabe eines Wahrnehmungssystems (wie das Wahrnehmungssystem 402) als auch Daten von einer zusätzlichen Sensormodalität. In 5 handelt es sich bei der Ausgabe des Wahrnehmungssystems um ein synthetisches BEV-Bild 502. Das Bild kann zum Beispiel eine Umgebung um ein Fahrzeug, Objekte in dieser Umgebung (z.B. als Formen im Bild) und berechnete oder erkannte Trajektorien dieser Objekte darstellen. Die Formen und Trajektorien können beispielsweise farbcodiert sein, um Attribute der Formen oder Trajektorien anzuzeigen, wie beispielsweise eine erwartete Objektklasse (z.B. Fußgänger, Fahrrad, Auto, Lkw usw.), Geschwindigkeit, Lage, Beschleunigung oder dergleichen, eine Gewissheit bezüglich der zugeordneten Attribute usw. Dementsprechend kann das BEV-Bild 502 ein durch das Wahrnehmungssystem erzeugtes Verständnis der Umgebung darstellen. In 5 handelt es sich bei den Daten der zusätzlichen Sensormodalität um ein Rohbild 504 von einer Kamera. Wenn das Modell 500 beispielsweise zur Vorhersage einer Bewegung eines im BEV-Bild 502 angezeigten Objekts verwendet wird, kann das Rohbild 504 die Ansicht des Fahrzeugs in Richtung des Objekts darstellen und somit das Objekt abbilden. Während in 5 nur ein Rohbild 504 gezeigt wird, kann das Modell 500 in einigen Ausführungsformen mehrere Bilder akzeptieren. Wird das Modell 500 beispielsweise zur Aktionsplanung für ein Fahrzeug verwendet, kann das Modell 500 Kamerabilder aus verschiedenen Blickwinkeln (z.B. Front, Heck, Seiten usw.) des Fahrzeugs akzeptieren. Auch wenn in 5 ein Kamerabild als Beispiel für eine zusätzliche Sensormodalität verwendet wird, können darüber hinaus zusätzlich oder alternativ auch Daten von anderen Sensormodalitäten verwendet werden. Das Rohbild 504 kann zum Beispiel durch Daten eines Radarsensors 202c, eines Mikrofons 202d oder anderer Sensormodalitäten ersetzt werden.
In 5 werden das synthetische Bild 502 und das Rohbild 504 durch entsprechende neuronale Faltungsnetze geleitet, die mit CNNs und CNNc bezeichnet werden. Die jeweiligen CNNs können ähnlich wie die in 4B-4D beschriebenen Netzwerke funktionieren. Beispielsweise kann jedes CNN so arbeiten, dass es als Eingabe ein jeweiliges Bild nimmt und als Ausgabe gelernte Merkmale dieses Bildes liefert, die zur Ausgabe des maschinellen Lernmodells 500 beitragen (z.B. die Vorhersage einer Bewegung eines Objekts oder eine geplante Aktion eines Fahrzeugs). Dementsprechend gibt das CNNs einen Satz synthetischer Bildmerkmale 506 und das CNNc einen Satz von Rohbildmerkmalen 508 aus.
Die jeweiligen Merkmale 506 und 508 werden dann mit einer Zustandseingabe 510 verkettet. Die jeweilige Zustandseingabe 510 kann beispielsweise gemäß der gewünschten Ausgabe des Modells 500 variieren. Wird das Modell 500 beispielsweise zur Vorhersage einer Bewegung eines Objekts in einer Umgebung eines Fahrzeugs verwendet, kann die Zustandseingabe 510 einen bekannten oder geschätzten Zustand des Objekts wiedergeben. Wenn das Modell 500 zur Planung von Aktionen des Fahrzeugs verwendet wird, kann die Zustandseingabe 510 einen Zustand des Fahrzeugs oder einen Zustand eines oder mehrerer Objekte in der Umgebung des Fahrzeugs oder eine Kombination davon wiedergeben. Beispiele für Zustandsinformationen, wie Geschwindigkeit, Beschleunigung und Gierrate, sind in 5 dargestellt. Andere, nicht einschränkende Beispiele für Zustandsinformationen sind Neigung, Drehung, Lage (z.B. als Kombination von Neigung, Drehung und Gieren) und Geschwindigkeitsvektor (z.B. einschließlich eines Richtungsvektors). In Bezug auf den Zustand eines Fahrzeugs können Zustandsinformationen zusätzliche Daten wie Lenkradwinkel, Bremsleistung, Motorleistung, Traktionsdaten und dergleichen beinhalten.
Die verketteten Daten werden dann in einen Generator eingespeist, der einen Trajektoriesatz 512 erzeugt, der einen Satz möglicher Trajektorien auf Grundlage der verketteten Daten darstellen kann. Wird das Modell 500 beispielsweise zur Vorhersage einer Bewegung eines Objekts in einer Umgebung eines Fahrzeugs verwendet, kann der Satz 512 mögliche Trajektorien des Objekts wiedergeben. Wenn das Modell 500 zur Planung von Aktionen eines Fahrzeugs verwendet wird, kann der Satz 512 mögliche Trajektorien des Fahrzeugs enthalten. Der Trajektoriesatz 512 kann beispielsweise auf Grundlage der Zustandsinformationen 510 erzeugt werden, beispielsweise durch Anwenden eines Satzes möglicher Modifikationen (z.B. Verlangsamen, Beschleunigen und Abbiegen) auf die Zustandsinformationen 510, um mögliche Trajektorien zu erzeugen. Der Trajektoriesatz 512 kann somit mögliche Ausgaben des Modells 500 darstellen. In einigen Ausführungsformen kann der Trajektoriesatz durch andere Ausgaben ersetzt werden, z.B. durch mögliche Aktionen des Fahrzeugs unabhängig von der Trajektorie (z.B. Bremsen, Wenden, Beschleunigen usw.).
Um zwischen den möglichen Ausgaben zu unterscheiden, werden die verketteten Daten ferner durch eine dichte Schicht geleitet, um einen Satz von Moduswahrscheinlichkeiten 514 zu erzeugen, die Wahrscheinlichkeiten für jede mögliche Ausgabe in dem Satz 512 darstellen. Die dichte Schicht kann zum Beispiel so arbeiten, dass sie jede mögliche Ausgabe in dem Satz 512 gemäß den verketteten Daten bewertet und eine Wahrscheinlichkeit zuweist, dass die mögliche Ausgabe korrekt ist. Dementsprechend kann das Modell 500 eine Ausgabe des Satzes 512 (z.B. die mögliche Ausgabe mit der höchsten Wahrscheinlichkeit) als eine Ausgabe des Modells 500 auswählen.
Während in 5 gezeigt ist, dass der Trajektoriesatz 512 über einen Generator erzeugt wird, wird der Trajektoriesatz 512 in einigen Ausführungsformen alternativ über die dichte Schicht (z.B. zusammen mit den Moduswahrscheinlichkeiten 514) erzeugt.
Das Training des Modells 500 kann auf Grundlage gesammelter Daten erfolgen, die korrekte Ausgaben des Modells 500 widerspiegeln. Bei einer Anwendung auf Bewegungsvorhersage für ein Objekt kann zum Beispiel ein Trainingsdatensatz erzeugt werden, der ein synthetisches Bild, das das Objekt identifiziert, ein Kamerabild, das das Objekt darstellt, und eine beobachtete Bewegung des Objekts nach der Erzeugung des synthetischen Bildes und der Aufnahme des Kamerabildes enthält. Die beobachtete Bewegung kann beispielsweise auf Grundlage späterer Sensordaten (z.B. späterer Lidar-Daten, die eine Bewegung des Objekts anzeigen) beobachtet werden. Das Modell 500 kann dann so trainiert werden, dass das Modell 500 eine Ausgabe erzeugt, die mit der beobachteten Bewegung übereinstimmt. Bei einer Anwendung auf Planung für ein Fahrzeug kann der Trainingsdatensatz ein synthetisches Bild einer Umgebung des Fahrzeugs, ein oder mehrere Kamerabilder, die diese Umgebung abbilden, und eine beobachtete Aktion eines geschulten menschlichen Bedieners enthalten. Das Modell 500 kann dann so trainiert werden, dass das Modell 500 eine Ausgabe erzeugt, die mit der beobachteten Aktion des menschlichen Bedieners übereinstimmt.
Danach kann das trainierte Modell 500 während des Betriebs eines Fahrzeugs angewendet werden. Diese Anwendung des trainierten Modells 500, manchmal auch als „Inferenz“ bezeichnet, nutzt das trainierte Modell 500, um unbekannte Ausgaben zu erzeugen, beispielsweise die vorhergesagte Bewegung eines Objekts (wenn die Bewegung noch nicht bekannt ist) oder die geplante Aktion eines Fahrzeugs (wenn die Aktion noch nicht bekannt ist). Beispielsweise kann das trainierte Modell 500 während eines Nicht-Trainingsbetriebs eines Fahrzeugs verwendet werden, um Bewegung von Objekten in der Umgebung des Fahrzeugs vorherzusagen, indem ein synthetisches Bild 502, das von einem Wahrnehmungssystem des Fahrzeugs (z.B. dem Wahrnehmungssystem 402) erzeugt wurde, ein oder mehrere Kamera-Rohbilder 504 des Objekts und Zustandsinformationen 510 des Objekts eingegeben werden, wodurch als Ausgabe eine Bewegung des Objekts erzeugt wird, die als mit der tatsächlichen Bewegung des Objekts übereinstimmend vorhergesagt wird. In ähnlicher Weise kann das trainierte Modell 500 verwendet werden, um eine Aktion des Fahrzeugs zu planen, indem ein synthetisches Bild 502, das von einem Wahrnehmungssystem des Fahrzeugs (z.B. dem Wahrnehmungssystem 402) erzeugt wurde, ein oder mehrere Kamera-Rohbilder 504 der Umgebung des Fahrzeugs und Zustandsinformationen 510 des Fahrzeugs und/oder von Objekten in der Umgebung eingegeben werden, wodurch als Ausgabe eine Aktion für das Fahrzeug erzeugt wird, die als mit einer Aktion eines geschulten menschlichen Fahrers übereinstimmend vorhergesagt wird.
Wie bereits erwähnt, kann das Modell 500 durch Kombinieren eines synthetischen Bildes 502 mit Daten zusätzlicher Sensormodalitäten, wie z.B. einem Rohbild 504 einer Kamera, zusätzliche Kontextinformationen in den Daten der zusätzlichen Sensormodalitäten berücksichtigen, die möglicherweise nur schwer oder gar nicht direkt in das synthetische Bild 502 integriert werden können, ohne die Genauigkeit des synthetischen Bildes 502 zu beeinträchtigen. Beispielsweise kann das synthetische Bild 502 zwar eine vorhergesagte Trajektorie eines Objekts enthalten, doch möglicherweise ist das Bild 502 nicht auf Grundlage der Daten der zusätzlichen Sensormodalitäten erzeugt worden, so dass Kontextinformationen wie das Vorhandensein von Signallichtern, Positionen von Extremitäten usw. fehlen können, die ansonsten von einem Menschen zur Vorhersage von Bewegungen und/oder zur Planung von Aktionen verwendet würden. Eine Einbeziehung dieser Daten zusätzlicher Sensormodalitäten kann somit eine Bewegungsvorhersage oder - planung erheblich verbessern. In einigen Ausführungsformen kann das Modell 500 daher als Teil eines Planungssystems 404 implementiert werden. In anderen Ausführungsformen kann das Modell 500 in ein Wahrnehmungssystem 402 integriert werden. Beispielsweise kann das System 402 die vom Modell 500 ausgegebene vorhergesagte Bewegung eines Objekts verwenden, um das synthetische Bild 502 zu aktualisieren.
Während die Anwendung des Modells 500 zur Bewegungsvorhersage vorstehend in Bezug auf ein einzelnes Objekt erörtert wurde, können die vorliegend offenbarten Modelle zusätzlich oder alternativ auch zur Vorhersage von Bewegungen mehrerer Objekte gleichzeitig angewendet werden. Eine solche Konfiguration kann es den Modellen ermöglichen, zusammenhängende kontextbezogene Informationen über mehrere Objekte zu erfassen. Eine solche Konfiguration kann es dem Modell beispielsweise ermöglichen, genauer vorherzusagen, wie Signale in Bezug auf ein Objekt eine Bewegung eines anderen Objekts verändern (z.B. wie das Vorhandensein von Bremslichtern oder Blinkern an einem Fahrzeug eine Bewegung eines anderen Fahrzeugs wahrscheinlich verändert).
Wie vorstehend erwähnt, zeigen 6 bis 9 zusätzliche Ausführungsformen eines maschinellen Lernmodells, das eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten fusioniert. Die zusätzlichen Ausführungsformen enthalten einige Elemente, die der Ausführungsform von 5 ähnlich oder gleich sind, so dass diese Elemente in Bezug auf 6 bis 9 nicht erneut beschrieben werden. Bezugszeichen aus 5 werden in 6 bis 9 wiederholt, um Elemente zu kennzeichnen, die der Ausführungsform von 5 ähnlich oder gleich sind.
Unter Bezugnahme auf 6 und 7 wird eine weitere Ausführungsform eines maschinellen Lernmodells beschrieben, das eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten fusioniert. Insbesondere handelt es sich bei dem Modell in 6 und 7 um ein aggregiertes Modell, das ein erstes Modell 600 in 6 zur Erzeugung von aufgemalten Kommentierungen für ein synthetisches Bild auf Grundlage von Daten einer oder mehrerer zusätzlicher Sensormodalitäten und ein zweites Modell 700 in 7 zur Durchführung von Bewegungsvorhersage und/oder -planung auf Grundlage der Ausgabe des ersten Modells 600 beinhaltet.
Im Gegensatz zum Modell 500 aus 5 kann das aggregierte Modell aus 6 und 7 eine intermediäre Darstellung von Daten zusätzlicher Sensormodalitäten als auf ein synthetisches Bild „aufgemalte“ Kommentierungen vorsehen. In diesem Zusammenhang bezieht sich „Aufmalen“ auf das Hinzufügen von Metadaten zu einem synthetischen Bild, die Attribute von Objekten innerhalb dieses Bildes angeben. Die Metadaten können beispielsweise angeben, dass ein Fahrzeug einen Blinker oder ein Bremslicht eingeschaltet hat, dass ein Fußgänger eine bestimmte Körperhaltung einnimmt oder in eine bestimmte Richtung blickt usw. Anstatt ein rohes Kamerabild für die Verarbeitung bereitzustellen, können diese aufgemalten Kommentierungen mit dem synthetischen Bild zur Verarbeitung durch ein Netzwerk kombiniert werden, um eine Ausgabe zu erzeugen. Wenn beispielsweise ein synthetisches BEV-Bild als ein Satz von Kanälen dargestellt wird, können die Kommentierungen als zusätzliche Kanäle für jedes mögliche Merkmal dargestellt werden (z.B. Bremslichter, Signallichter, Fußgängerhaltung, Blickrichtung von Fußgängern usw.).
Um aufgemalte Kommentierungen zu erzeugen, werden ein synthetisches Bild 502 und ein Rohbild einer Kamera 504 durch jeweilige neuronale Netze CNNs und CNNc geleitet, wie in 5 dargestellt. In einer Ausführungsform können die jeweiligen neuronalen Netze mit denen aus 5 identisch sein. In einer anderen Ausführungsform können Attribute der Netze je nach Funktion der Netze unterschiedlich sein, um aufgemalte Kommentierungen zu erzeugen. Beispielsweise können sich Hyperparameter der Netze unterscheiden, wenn sie zur Erstellung von aufgemalten Kommentierungen verwendet werden.
Wie in 5 erzeugen die jeweiligen Netzwerke einen Satz von Merkmalen: Konkret wird das synthetische Bild 502 in einen Satz von synthetischen Bildmerkmalen 506 umgewandelt und das Kamera-Rohbild 504 wird in einen Satz von Rohbildmerkmalen 508 umgewandelt. Die Merkmale 506 und 508 können dann verkettet werden. Im Gegensatz zu 5 werden die verketteten Daten dann jedoch durch einen Decodierer geleitet, der ein kombiniertes Bild 602 erzeugt, das das synthetische Bild 502 mit einem Satz aufgemalter Kommentierungen kombiniert, die auf Grundlage der verketteten Daten gelernt wurden. (Auch wenn dies in 6 nicht explizit gezeigt ist, kann auch das synthetische Bild 502 in den Decodierer eingespeist werden, ähnlich wie bei einer U-Netz-Architektur).
Das Modell 600 aus 6 kann auf Grundlage eines Satzes manuell erzeugter aufgemalter Kommentierungen trainiert werden. Beispielsweise kann ein Mensch einen Satz synthetischer Bilder 502 auf Grundlage entsprechender Rohbilder 504 mit Kommentierungen versehen, um manuell erstellte kombinierte Bilder 602 zu erhalten. Anschließend kann das Modell 600 so trainiert werden, dass es aus dem Satz synthetischer Bilder 502 und entsprechenden Rohbildern 504 kombinierte Bilder 602 erstellt, die den manuell erstellten kombinierten Bildern 602 entsprechen. Während der Inferenz kann das Modell 600 somit auf Grundlage neuer synthetischer und Rohbildmerkmale 506 und 508 neue kombinierte Bilder 602 erzeugen. Während in 6 ein einziges Modell dargestellt ist, können in einigen Ausführungsformen mehrere Instanzen des Modells 600 erstellt werden. Beispielsweise kann jede Instanz eine bestimmte Art von Kommentierungen erzeugen (z.B. Blinker, Bremslichter, Fußgängerkörperhaltung usw.), und die Kommentierungen jedes Modells können zu einem kombinierten Bild 602 mit mehreren Arten von Kommentierungen kombiniert werden.
Die von dem Modell 600 erzeugten kombinierten Bilder 602, die ein synthetisches Bild 502 und Rohbilder einer Kamera 504 fusionieren, können dann als Eingabe für ein zweites maschinelles Lernmodell 700 verwendet werden. Wie in 7 gezeigt, können die kombinierten Bilder 602 konkret durch ein neuronales Faltungsnetz geleitet werden, um einen Satz von Bildmerkmalen 704 zu erzeugen. Die Bildmerkmale 704 können dann mit den Zustandsinformationen 510 verkettet und in einen Generator und dichte Schichten eingespeist werden, um einen Trajektoriesatz 512 und Moduswahrscheinlichkeiten 514 zu erhalten, ähnlich wie bei der Erzeugung des Trajektoriesatzes 512 und der Moduswahrscheinlichkeiten 514 in 5. Wie vorstehend in Bezug auf 5 erwähnt, können der Satz 512 und die Wahrscheinlichkeiten 514 in Kombination eine Ausgabe des Modells 700 angeben, die beispielsweise eine vorhergesagte Bewegung eines Objekts, eine geplante Aktion eines Fahrzeugs oder eine Kombination davon darstellen kann. Das Modell 700 kann in ähnlicher Weise wie das Modell 500 aus 5 trainiert werden, wobei es so modifiziert ist, dass es die Eingabe des kombinierten Bildes 602 anstelle des synthetischen und des Rohbildes 502 und 504 berücksichtigt. Während der Inferenz können die Modelle 600 und 700 zusammen als ein aggregiertes maschinelles Lernmodell für Zwecke der Planung oder Bewegungsvorhersage implementiert werden. So können beispielsweise neue (z.B. zuvor nicht in einem Trainingsdatensatz enthaltene) synthetische Bilder 502 und Rohbilder 504 in das Modell 600 eingespeist werden, um kombinierte Bilder 602 zu erzeugen, die wiederum in das Modell 700 eingespeist werden können, um eine vorhergesagte Bewegung oder geplante Aktion zu erzeugen.
Dementsprechend können die Modelle 600 und 700 eine Ausgabe liefern, die dem Modell 500 aus 5 ähnelt, was einem Fahrzeug ermöglicht, kontextbezogene Informationen zusätzlicher Sensormodalitäten zu nutzen, die andernfalls bei der Erzeugung eines synthetischen Bildes 502 verloren gehen könnten. Während jedoch in 5 eine Ausgabe aus einer Verkettung eines synthetischen Bildes mit Rohbilddaten erzeugt wurde, sehen 6 und 7 eine separate Erstellung aufgemalter Kommentierungen vor, die es dem aggregierten Modell ermöglichen können, bestimmte Signale spezifischer zu erfassen, was z.B. durch Trainieren des Modells 600 gesteuert wird. Das Modell 600 kann beispielsweise speziell auf die Erkennung bestimmter Signale wie Bremslichter, Blinker usw. trainiert werden, die während des allgemeineren Trainings des Modells 500 möglicherweise nicht erkannt werden.
Unter Bezugnahme auf 8 und 9 wird eine weitere Ausführungsform eines maschinellen Lernmodells beschrieben, das eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten fusioniert. Insbesondere zeigt 8 eine Vorverarbeitungspipeline 800 und wie Informationen aus einem synthetischen BEV-Bild 502 verwendet werden können, um Daten einer zusätzlichen Sensormodalität, wie z.B. eines Kamerabildes 504, vor der Verwendung in einem maschinellen Lernmodell vorzuverarbeiten. 9 zeigt, wie eine solche Vorverarbeitung in ein Modell 900 integriert werden kann, um Kommentierungen in Verbindung mit einer gewünschten Ausgabe, wie z.B. Bewegungsvorhersage oder - planung, zu lernen.
Mit Bezug auf 8 ermöglicht die gezeigte Vorverarbeitungspipeline 800 die Vorverarbeitung von Daten einer zusätzlichen Sensormodalität, wie z.B. eines Kamerabildes 504, um die Menge an Informationen zu reduzieren, die in Verbindung mit den Daten verarbeitet werden müssen, was sowohl die Geschwindigkeit des Trainings eines Modells (z.B. durch Reduzierung zu verarbeitender Daten) als auch die Genauigkeit dieses Modells (z.B. durch Konzentration auf relevante Daten innerhalb eines größeren Datensatzes) erhöhen kann. Während sich die vorstehende Beschreibung auf ein Roh-Kamerabild bezog, auf dem ein Objekt abgebildet ist, kann es sein, dass ein Großteil oder alle Informationen zu diesem Objekt in einem bestimmten Teil des Bildes enthalten sind. Beispielsweise kann ein Kamerabild, das ein anderes Fahrzeug erfasst, auch eine Vielzahl von anderen Objekten als das andere Fahrzeug erfassen. Der Teil des Bildes, der diese anderen Objekte erfasst, ist möglicherweise für die vom Fahrzeug gelieferten Signale nicht relevant und kann ein maschinelles Lernmodell sogar daran hindern, solche Signale bezüglich des Fahrzeugs zu lernen. Beispielsweise kann der Teil des Bildes, der andere Objekte darstellt, ein maschinelles Lernmodell daran hindern, zu erkennen, ob bei einem bestimmten Fahrzeug die Bremslichter leuchten, ein Blinker eingeschaltet ist usw.
Dementsprechend kann in einigen Ausführungsformen ein synthetisches Bild 502 oder Daten von einem Wahrnehmungssystem, wie z.B. dem Wahrnehmungssystem 402, verwendet werden, um ein Roh-Kamerabild 504 zuzuschneiden, um zugeschnittene Bilder 802 zu erzeugen, wobei die zugeschnittenen Bilder anstelle des Bildes 504 für maschinelle Lernanwendungen verwendet werden können. Das synthetische Bild 502 oder andere Daten eines Wahrnehmungssystems können beispielsweise Standorte von Objekten identifizieren, die in den Roh-Kamerabildern 504 dargestellt sind. Diese Standorte können somit auf das Roh-Kamerabild 504 projiziert werden, um das Objekt innerhalb des Roh-Kamerabildes 504 zu lokalisieren, und es wird ein zugeschnittenes Bild erzeugt, das das Objekt aus dem Roh-Kamerabild isoliert. Beim Trainieren eines Modells zur Durchführung von Bewegungsvorhersage in Bezug auf ein Objekt kann ein zugeschnittenes Bild des Objekts als Eingabe für das Modell verwendet werden, anstatt eines vollständigen Kamerabildes, das das Objekt ansonsten abbildet. Ebenso kann beim Trainieren eines Modells zur Durchführung von Aktionsplanung eines autonomen Fahrzeugs ein Satz zugeschnittener Bilder für jedes Objekt in der Nähe des Fahrzeugs anstatt vollständiger Bilder von jeder relevanten Kamera verwendet werden.
Um zugeschnittene Bilder 802 zu erzeugen, können die im synthetischen Bild 502 enthaltenen Informationen auf das Kamerabild 504 projiziert werden. Wenn beispielsweise ein synthetisches Bild 502 anzeigt, dass sich ein bestimmtes Objekt relativ zu einem Fahrzeug an einer bestimmten Position befindet, kann diese Position auf das Kamerabild 504 als der erwartete Standort des bestimmten Objekts projiziert werden. Das Bild 504 kann dann so zugeschnitten werden, dass es diese Position enthält (z.B. einschließlich eines Puffers um die Position), was zu einem zugeschnittenen Bild 802 führt. Dementsprechend kann das zugeschnittene Bild 802 einen Teil des Roh-Kamerabildes 504 darstellen, der das betreffende Objekt enthält.
Danach können die zugeschnittenen Bilder 802 anstelle der Rohbilder 504 in den vorliegend offenbarten maschinellen Lernmodellen verwendet werden. Beispielsweise können die zugeschnittenen Bilder durch ein neuronales Faltungsnetz geleitet werden, das in 8 als CNN_R bezeichnet wird, um einen Satz gelernter Merkmale 806 für die zugeschnittenen Bilder 802 zu erzeugen, die dann verwendet werden können, um aufgemalte Kommentierungen 810 zu dem BEV-Bild 502 zu erzeugen.
Ein Beispiel für eine Modellarchitektur für maschinelles Lernen, die das Zuschneiden aus 8 verwendet, ist in 9 gezeigt, die ein Modell 900 zum Lernen von Kommentierungen in Verbindung mit einer gewünschten Ausgabe wie z.B. Bewegungsvorhersage oder -planung zeigt. Wie in 9 gezeigt, nimmt das Modell 900 als Eingabe zugeschnittene Bilder 802, die wie in 8 beschrieben erstellt werden können. Die zugeschnittenen Bilder 802 können durch ein CNN, in 9 mit CNN_R bezeichnet, geleitet werden, um gelernte Merkmale 806 für die zugeschnittenen Bilder 802 zu erzeugen. Diese gelernten Merkmale 806 können dann durch verschiedene dichte Netze geleitet werden, um Signalwahrscheinlichkeiten 902 bzw. reduzierte Merkmale 904 zu erhalten. In 9 stellen die Signalwahrscheinlichkeiten 902 beispielhaft Wahrscheinlichkeiten verschiedener gelernter Signale dar, die in den zugeschnittenen Bildern 802 vorhanden sind. Wie nachstehend erläutert, können die Wahrscheinlichkeiten 902 dieser gelernten Signale zusammen mit Trajektoriemoduswahrscheinlichkeiten 514 verwendet werden, um das Modell 900 zu trainieren.
Die reduzierten Merkmale 904 können dann zum Aufmalen von Merkmalen auf ein synthetisches Bild 502 verwendet werden, um ein kombiniertes Bild 602 zu erhalten. Das Aufmalen von Merkmalen kann in ähnlicher Weise erfolgen, wie vorstehend in Bezug auf 6 beschrieben, beispielsweise indem die reduzierten Merkmale 904 und das synthetische Bild 502 durch einen Decodierer geleitet werden, um das kombinierte Bild 602 zu erzeugen. Während das kombinierte Bild 602 in 9 auf Grundlage des synthetischen Bildes 502 und der reduzierten Merkmale 904 erzeugt wird, kann das kombinierte Bild 602 in einigen Fällen auf Grundlage des synthetischen Bildes 502 und der gelernten Merkmale 806 erzeugt werden, wodurch das dichte Netzwerk zwischen den gelernten Merkmalen 806 und den reduzierten Merkmalen 904 entfällt.
Danach kann das kombinierte Bild 602 zusammen mit den Zustandsinformationen 510 verwendet werden, um einen Trajektoriesatz und Trajektoriemoduswahrscheinlichkeiten 514 zu erzeugen, ähnlich wie vorstehend in Bezug auf 7 beschrieben.
In 9 können relevante Merkmale zugeschnittener Bilder 802 während des Trainings des Modells 900 gelernt werden, indem eine Verlustfunktion für das Netzwerk erstellt wird, die Signalwahrscheinlichkeiten 902, die aus den zugeschnittenen Bildern 802 gelernt wurden, mit Moduswahrscheinlichkeiten 514 kombiniert. Zum Beispiel kann der Verlust des Modells 900 gleich dem Verlust der Moduswahrscheinlichkeiten 514 plus der Summe der Verluste für jedes Signal innerhalb der Signalwahrscheinlichkeiten 902 sein (wobei z.B. jeder Verlust als Kreuzentropieverlust berechnet wird). In einigen Fällen kann die Summe der Verluste für jedes Signal mit einem abstimmbaren Hyperparameter gewichtet werden. In einer anderen Ausführungsform kann die Verlustfunktion auf Moduswahrscheinlichkeiten 514 unabhängig von Signalwahrscheinlichkeiten 514 basieren.
Dementsprechend kann das Modell 900 so trainiert werden, dass es Merkmale in Daten zusätzlicher Sensormodalitäten lernt und Bewegungsvorhersage oder Fahrzeugplanung auf Grundlage dieser gelernten Merkmale durchführt. Somit kann die Ausgabe des Modells 900 dem Modell 700 von 7 ähneln, ohne dass eine manuelle Kommentierung der synthetischen Bilder 502 erforderlich ist. Dies kann es dem Modell 900 ermöglichen, Signale zu erfassen, die andernfalls bei einer manuellen Kommentierung nicht erfasst würden, wodurch eine Gesamtgenauigkeit des Modells 900 erhöht wird.
10 und 11 veranschaulichen Flussdiagramme von Prozessen zum Fusionieren einer Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten für Zwecke wie Bewegungsvorhersage und -planung. Konkret zeigt 10 eine Routine 1000 zum Trainieren eines maschinellen Lernmodells, um eine Ausgabe eines Wahrnehmungssystems mit Daten zusätzlicher Sensormodalitäten zu fusionieren, während 11 eine Routine 1100 zum Verwenden eines trainierten maschinellen Lernmodells zur Vorhersage von Objektbewegung oder zur Planung von Aktionen eines Fahrzeugs zeigt. Die Routinen 1000 und 1100 können beispielsweise durch eine Vorrichtung 300 implementiert werden. Die Routinen 1000 und 1100 können beispielsweise von einer Vorrichtung 300 in einem autonomen Fahrzeug 200 implementiert werden. In einigen Fällen kann die Routine 1000 von einer Vorrichtung 300 außerhalb des autonomen Fahrzeugs 200 implementiert werden, beispielsweise von dem Fuhrparkverwaltungssystem 116, und ein mit der Routine 1000 erstelltes trainiertes Modell kann dann auf eine Vorrichtung 300 eines autonomen Fahrzeugs 200 geladen werden, um während des Betriebs des Fahrzeugs 200 verwendet zu werden.
Die Routine 1000 beginnt in Block 1002, wo die Vorrichtung 300 synthetische Bilder erhält, die Objekte in einer Umgebung eines Fahrzeugs identifizieren. Bei den Bildern kann es sich beispielsweise um BEV-Bilder eines Bereichs handeln, die auf Grundlage von Sensordaten eines Fahrzeugs in dem Bereich erzeugt wurden. Zu den identifizierten Objekten kann jedes vom Fahrzeug erfasste Objekt gehören, z.B. andere Kraftfahrzeuge oder nicht motorisierte Fahrzeuge wie Fahrräder oder Fußgänger. Die Bilder können z.B. auf Grundlage eines Wahrnehmungssystems des Fahrzeugs, beispielsweise des Wahrnehmungssystems 402, erzeugt werden. In einer Ausführungsform erzeugt das Wahrnehmungssystem 402 die synthetischen Bilder auf Grundlage von Lidar-Daten, die anzeigen, dass sich Objekte in dem Bereich befinden.
In Block 1004 erhält die Vorrichtung 300 zudem Kamerabilder, die die Objekte in den synthetischen Bildern zeigen. Die Bilder können zum Beispiel von einer Kamera stammen, die vom Fahrzeug aus in Richtung des Objekts gerichtet ist. In einer Ausführungsform sind die synthetischen und die Kamerabilder in Datenpaaren angeordnet, wobei jedes Paar erste Daten, die dem synthetischen Bild entsprechen, und zweite Daten enthält, die dem Kamerabild entsprechen, das zusammen mit den Sensordaten aufgenommen wurde, die zur Erzeugung des synthetischen Bildes verwendet wurden. Die Datenpaare können beispielsweise während des Betriebs eines oder mehrerer Testfahrzeuge unter der Leitung eines geschulten Bedieners gesammelt werden. Während in 10 Kamerabilder als Beispiel für Daten einer zusätzlichen Sensormodalität beschrieben werden, können zusätzlich oder alternativ auch andere zusätzliche Sensormodalitäten verwendet werden.
Anschließend trainiert in Block 1006 die Vorrichtung 300 ein maschinelles Lernmodell auf Grundlage einer Fusion der synthetischen Bilder und der Kamerabilder für Planungs- oder Vorhersagezwecke. Das trainierte Modell kann den vorstehend unter Bezugnahme auf 5 bis 9 beschriebenen Modellen entsprechen. Das Modell kann beispielsweise ein erstes neuronales Faltungsnetz zur Verarbeitung der ersten Daten des gegebenen Datenpaares, ein zweites neuronales Faltungsnetz zur Verarbeitung der zweiten Daten des gegebenen Datenpaares und eine dichte Schicht zur Erzeugung der vorhergesagten Bewegung des dem gegebenen Datenpaar entsprechenden Objekts beinhalten, wie z.B. mit Bezug auf 5 erläutert. Wie vorstehend beschrieben, kann das Modell zusätzliche Informationen als Eingabe verwenden, wie z.B. Zustandsinformationen eines oder mehrerer Objekte, die in einem synthetischen Bild identifiziert wurden (z.B. zusammen mit den zur Erzeugung des synthetischen Bildes verwendeten Daten erfasst wurden). Das Modell kann zum Beispiel Zustandsinformationen wie Geschwindigkeit, Beschleunigung oder Haltung des Objekts als Eingabe verwenden. Als weiteres Beispiel kann das Modell ein neuronales Faltungsnetz enthalten, das als Eingabe erste Daten erhält, die dem synthetischen Bild des gegebenen Datenpaares entsprechen und die gemäß den zweiten Daten, die dem Kamerabild des gegebenen Datenpaares entsprechen, mit Kommentierungen versehen sind. Kommentierungen können beliebige Metadaten zu Objekten enthalten, wie z.B. leuchtende Bremslichter, ein leuchtender Blinker, eine Radposition, eine Extremitätenposition, eine Gelenkposition usw. Die Kommentierung kann beispielsweise auf Grundlage einer Anwendung eines zweiten maschinellen Lernmodells, beispielsweise des Modells 600 aus 6, erfolgen. Alternativ kann die Kommentierung auf Grundlage einer Anwendung eines anderen neuronalen Faltungsnetzes erfolgen, das die Kommentierungen erzeugt, wobei das andere neuronale Netz gleichzeitig mit dem ersten neuronalen Faltungsnetz trainiert wird (z.B. wie in 9 beschrieben). Wie vorstehend beschrieben, kann das maschinelle Lernmodell in einigen Fällen Kameradaten als Rohbilder akzeptieren. Zusätzlich oder alternativ kann das Modell zugeschnittene Kameradaten akzeptieren, beispielsweise durch Projizieren des im synthetischen Bild angezeigten Objekts in die Kamera-Rohdaten und Zuschneiden der Kamera-Rohdaten um das Objekt, um zugeschnittene Kameradaten zu erzeugen.
Wie vorstehend erwähnt, kann das maschinelle Lernmodell für Zwecke wie Objektbewegungsvorhersage oder Planung von Fahrzeugaktionen trainiert werden. Wird das Modell beispielsweise auf Grundlage beobachteter Bewegung von Objekten trainiert, die innerhalb von Datenpaaren erfasst wurden, kann das Modell an ein Zielfahrzeug übermittelt werden, um es zur Vorhersage von Bewegungen weiterer vom Fahrzeug erfasster Objekte zu verwenden. Wird das Modell auf Grundlage beobachteter Aktionen eines geschulten menschlichen Bedieners trainiert, kann das Modell an ein Zielfahrzeug übermittelt werden, um es zur Planung autonomer Aktionen des Zielfahrzeugs zu verwenden. In einigen Fällen kann die Routine 1000 mehrfach implementiert werden, um mehrere maschinelle Lernmodelle zu erzeugen, wie beispielsweise ein erstes Modell für Objektbewegungsvorhersage und ein zweites Modell für Aktionsplanung.
Wie vorstehend erwähnt, zeigt 11 eine Routine 1100 zum Verwenden eines trainierten maschinellen Lernmodells zur Vorhersage von Objektbewegungen oder zur Planung von Aktionen eines Fahrzeugs, wobei die Routine 1100 beispielsweise im Fahrzeug 200 implementiert werden kann.
Die Routine 1100 beginnt in Block 1102, wo das Fahrzeug 200 ein trainiertes maschinelles Lernmodell erhält, wie z.B. ein Modell, das über die Routine 1000 aus 10 erstellt wurde. Wie in 10 beschrieben, kann das Modell für einen bestimmten Zweck trainiert werden, z.B. für Objektbewegungserkennung oder Aktionsplanung.
Danach erhält in den Blöcken 1104 und 1106 das Fahrzeug 200 Eingabedaten für das trainierte Modell. Konkret erhält das Fahrzeug 200 in Block 1104 ein synthetisches Bild eines Bereichs des Fahrzeugs, wobei das Bild ein Objekt im Bereich des Fahrzeugs identifiziert (z.B. ein anderes Fahrzeug, einen Fußgänger usw.). Zusätzlich erhält das Fahrzeug 200 in Block 1106 ein Kamerabild, auf dem das Objekt abgebildet ist und das beispielsweise von einer Kamera des Fahrzeugs 200 aufgenommen werden kann, die in Richtung des Objekts gerichtet ist. Die synthetischen Bilder und die Kamerabilder können auf die gleiche oder eine ähnliche Weise wie die Datenpaare erfasst werden, die zum Trainieren des maschinellen Lernmodells verwendet werden. Das Fahrzeug 200 kann zum Beispiel die gleiche oder eine ähnliche Konfiguration wie die Fahrzeuge aufweisen, die die für das Training des Modells verwendeten Daten erfasst haben.
In einigen Ausführungsformen kann das trainierte Modell zusätzliche Informationen als Eingabe verwenden, wie etwa Zustandsinformationen eines Objekts oder Zustandsinformationen des Fahrzeugs. Dementsprechend können solche Zustandsinformationen auch am Fahrzeug in ähnlicher Weise erhalten werden, wie dies beim Training des Modells der Fall war.
Danach wird in Block 1108 das trainierte maschinelle Lernmodell auf die synthetischen Bilder und die Kamerabilder (und möglicherweise zusätzliche Eingaben wie beispielsweise Zustandsinformationen) angewendet. Die Bilder können beispielsweise durch ein oder mehrere trainierte neuronale Faltungsnetze und/oder dichte Schichten geleitet werden, um einen Satz von Trajektoriemoduswahrscheinlichkeiten zu erzeugen, der eine vorhergesagte Bewegung eines Objekts oder eine geplante Trajektorie des Fahrzeugs angibt. Dementsprechend kann das Modell die vorhergesagte Bewegung oder geplante Route in Block 1110 ausgeben. Die Ausgabe kann dann zur Steuerung des weiteren Betriebs des Fahrzeugs verwendet werden. So kann beispielsweise die vorhergesagte Bewegung eines Objekts oder die geplante Route als Eingabe für ein Planungssystem (z.B. das Planungssystem 404) verwendet werden, um weitere Bewegungen des Fahrzeugs zu steuern. Da die Daten zusätzlicher Sensormodalitäten Kontextinformationen erfassen können, die sonst nicht in einem synthetischen Bild enthalten sind, wie z.B. das Vorhandensein von Lichtern, Geräuschen, Haltungen usw., und da solche Daten in dem trainierten Modell der Routine 1100 erfasst werden, können, wie vorstehend erläutert, die vorhergesagten Bewegungen oder geplanten Routen eine höhere Genauigkeit aufweisen als alternative Vorhersagen oder geplante Routen. Beispielsweise kann die Routine 1100 ein Fahrzeug 200 in die Lage versetzen, genauere Vorhersagen über ein Abbremsen eines anderen Fahrzeugs aufgrund des Vorhandenseins von Bremslichtern, über einen Spurwechsel eines anderen Fahrzeugs aufgrund des Vorhandenseins von Blinkern, über die Bewegung eines Fußgängers auf einen Zebrastreifen aufgrund der Haltung oder der Blickrichtung usw. zu treffen. In ähnlicher Weise kann die Routine 1100 ein Fahrzeug 200 in die Lage versetzen, Aktionen eines geschulten menschlichen Bedieners genauer zu imitieren, da ein solcher Bediener Signale wie die vorstehend genannten gegebenenfalls berücksichtigen würde. Somit kann die Routine 1100 für sicherer und präziser arbeitende autonome Fahrzeuge sorgen.
In der vorstehenden Beschreibung wurden Aspekte und Ausführungsformen der vorliegenden Offenbarung unter Bezugnahme auf zahlreiche konkrete Einzelheiten beschrieben, die von Implementierung zu Implementierung variieren können. Dementsprechend sind die Beschreibung und die Zeichnungen als veranschaulichend anstatt beschränkend aufzufassen. Der alleinige und exklusive Indikator des Schutzumfangs der Erfindung, und was durch die Anmelder als der Schutzumfang der Erfindung beabsichtigt wird, ist der wörtliche und äquivalente Schutzumfang des Satzes von Ansprüchen, der sich aus dieser Anmeldung ergibt, in der spezifischen Form, in der solche Ansprüche sich ergeben, einschließlich jeglicher anschließender Korrektur. Alle vorliegend ausdrücklich festgelegten Definitionen von Bezeichnungen, die in solchen Ansprüchen enthalten sind, gelten für die Bedeutung der in den Ansprüchen verwendeten Bezeichnungen. Wenn in der vorstehenden Beschreibung oder in den nachstehenden Ansprüchen der Ausdruck „ferner umfassend“ verwendet wird, kann das, was auf diesen Satz folgt, ein zusätzlicher Schritt oder eine zusätzliche Entität oder ein Unterschritt/eine Unterentität eines zuvor erwähnten Schritts oder einer zuvor erwähnten Entität sein.

Claims

Computersystem, umfassend: eine oder mehrere computerlesbare Speichervorrichtungen, die so ausgelegt sind, dass sie computerausführbare Anweisungen speichern; und einen oder mehrere Computerprozessoren, die dazu ausgelegt sind, die computerausführbaren Anweisungen auszuführen, wobei eine Ausführung der computerausführbaren Anweisungen das Computersystem zu Folgendem veranlasst: Erhalten eines Satzes von Datenpaaren, wobei jedes Datenpaar umfasst: erste Daten, die einem synthetischen Bild entsprechen, das eine Vogelperspektive eines Bereichs darstellt, die auf Grundlage von Sensordaten eines Fahrzeugs in dem Bereich erzeugt wurde, wobei das synthetische Bild ein Objekt in dem Bereich identifiziert; und zweite Daten, die einem Kamerabild entsprechen, das einen Blickwinkel des Fahrzeugs in dem Bereich darstellt, wobei das Kamerabild das Objekt abbildet; Trainieren eines maschinellen Lernmodells auf Grundlage des Satzes von Datenpaaren, um ein trainiertes Modell zu erhalten, wobei das maschinelle Lernmodell mindestens ein neuronales Faltungsnetz enthält, um den Satz von Datenpaaren zu verarbeiten, und wobei das maschinelle Lernmodell als Eingabe ein gegebenes Datenpaar des Satzes von Datenpaaren akzeptiert und als Ausgabe eine vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts liefert; und Übertragen des trainierten Modells an ein Zielfahrzeug, wobei das Zielfahrzeug so ausgelegt ist, dass es das trainierte Modell auf Sensordaten des Zielfahrzeugs anwendet, um eine Bewegung eines in den Sensordaten identifizierten Zielobjekts vorherzusagen.
Computersystem nach Anspruch 1, wobei das mindestens eine neuronale Faltungsnetz ein erstes neuronales Faltungsnetz zur Verarbeitung der ersten Daten des gegebenen Datenpaares, ein zweites neuronales Faltungsnetz zur Verarbeitung der zweiten Daten des gegebenen Datenpaares und eine dichte Schicht zur Erzeugung der vorhergesagten Bewegung des dem gegebenen Datenpaar entsprechenden Objekts beinhaltet.
Computersystem nach Anspruch 2, wobei das erste neuronale Faltungsnetz synthetische Bildmerkmale erzeugt, wobei das zweite neuronale Faltungsnetz Kamerabildmerkmale erzeugt, und wobei die dichte Schicht als Eingabe eine Verkettung der synthetischen Bildmerkmale und der Kamerabildmerkmale nimmt und die vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts ausgibt.
Computersystem nach Anspruch 3, wobei die dichte Schicht ferner als Eingabe Zustandsinformationen bezüglich des dem gegebenen Datenpaar entsprechenden Objekts nimmt und die vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts ausgibt.
Computersystem nach Anspruch 4, wobei die Zustandsinformationen eine Geschwindigkeit des dem gegebenen Datenpaar entsprechenden Objekts und/oder eine Beschleunigung des dem gegebenen Datenpaar entsprechenden Objekts und/oder eine Haltung des dem gegebenen Datenpaar entsprechenden Objekts umfasst.
Computersystem nach Anspruch 1, wobei es sich bei dem mindestens einen neuronalen Faltungsnetz um ein erstes neuronales Faltungsnetz handelt, das als Eingabe erste Daten nimmt, die dem synthetischen Bild des gegebenen Datenpaares entsprechen und die gemäß den zweiten Daten, die dem Kamerabild des gegebenen Datenpaares entsprechen, mit Kommentierungen versehen sind.
Computersystem nach Anspruch 6, wobei das mindestens eine neuronale Faltungsnetz eine Ausgabe erzeugt, die einer dichten Schicht zugeführt wird, um die vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts bereitzustellen.
Computersystem nach Anspruch 6, wobei die ersten Daten mit Kommentierungen versehen sind, um an dem Objekt des gegebenen Datenpaares leuchtende Bremslichter und/oder einen leuchtenden Blinker und/oder eine Radposition und/oder eine Extremitätenposition und/oder eine Gelenkposition anzuzeigen.
Computersystem nach Anspruch 6, wobei die ersten Daten durch Anwendung eines zweiten maschinellen Lernmodells auf die ersten Daten des gegebenen Datenpaares und die zweiten Daten des gegebenen Datenpaares kommentiert werden.
Computersystem nach Anspruch 6, wobei das maschinelle Lernmodell ein zweites neuronales Faltungsnetz enthält, um Kommentierungen zu den ersten Daten des gegebenen Datenpaares zu erzeugen.
Computersystem nach Anspruch 10, wobei das erste neuronale Faltungsnetz während des Trainings des maschinellen Lernmodells gleichzeitig mit dem zweiten neuronalen Faltungsnetz trainiert wird.
Computersystem nach Anspruch 11, wobei das zweite neuronale Faltungsnetz an eine dichte Schicht ausgibt, die Signalwahrscheinlichkeiten liefert, und wobei das erste neuronale Faltungsnetz mit einer Verlustfunktion trainiert wird, die als Eingabe die Signalwahrscheinlichkeiten nimmt und die vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts ausgibt.
Computersystem nach Anspruch 10, wobei das zweite Faltungsnetz als Eingabe einen zugeschnittenen Teil der zweiten Daten des gegebenen Datenpaares akzeptiert, wobei der zugeschnittene Teil gemäß einer Position des dem gegebenen Datenpaar entsprechenden Objekts innerhalb der zweiten Daten des gegebenen Datenpaares ausgewählt wird, wobei die Position innerhalb der zweiten Daten des gegebenen Datenpaares durch eine Position des dem gegebenen Datenpaar entsprechenden Objekts innerhalb der ersten Daten des gegebenen Datenpaares angezeigt wird.
Computersystem nach Anspruch 1, wobei eine Ausführung der computerausführbaren Anweisungen das Computersystem ferner zu Folgendem veranlasst: Trainieren eines zweiten maschinellen Lernmodells auf Grundlage des Satzes von Datenpaaren, um ein zweites trainiertes Modell zu erhalten, wobei das zweite maschinelle Lernmodell mindestens ein neuronales Faltungsnetz enthält, um den Satz von Datenpaaren zu verarbeiten, und wobei das zweite maschinelle Lernmodell als Eingabe ein gegebenes Datenpaar des Satzes von Datenpaaren akzeptiert und als Ausgabe eine geplante Bewegung des dem gegebenen Datenpaar entsprechenden Fahrzeugs liefert; und Übertragen des zweiten trainierten Modells an ein Zielfahrzeug, wobei das Zielfahrzeug so ausgelegt ist, dass es das zweite trainierte Modell auf Sensordaten des Zielfahrzeugs anwendet, um eine Bewegung des Zielfahrzeugs zu planen.
Computersystem nach Anspruch 1, wobei es sich bei dem Objekt in jedem Datenpaar des Satzes von Datenpaaren um einen Fußgänger und/oder ein Kraftfahrzeug und/oder ein Fahrrad handelt.
Computersystem nach Anspruch 1, wobei die Sensordaten des Fahrzeugs, die zur Erzeugung des synthetischen Bildes verwendet werden, mit einer Punktwolke assoziierte Lidar-Daten und/oder mit einem Radarbild assoziierte Radardaten umfassen.
Computerimplementiertes Verfahren, umfassend: Erhalten eines Satzes von Datenpaaren, wobei jedes Datenpaar umfasst: erste Daten, die einem synthetischen Bild entsprechen, das eine Vogelperspektive eines Bereichs darstellt, die auf Grundlage von Sensordaten eines Fahrzeugs in dem Bereich erzeugt wurde, wobei das synthetische Bild ein Objekt in dem Bereich identifiziert; und zweite Daten, die einem Kamerabild entsprechen, das einen Blickwinkel des Fahrzeugs in dem Bereich darstellt, wobei das Kamerabild das Objekt abbildet; Trainieren eines maschinellen Lernmodells auf Grundlage des Satzes von Datenpaaren, um ein trainiertes Modell zu erhalten, wobei das maschinelle Lernmodell mindestens ein neuronales Faltungsnetz enthält, um den Satz von Datenpaaren zu verarbeiten, und wobei das maschinelle Lernmodell als Eingabe ein gegebenes Datenpaar des Satzes von Datenpaaren akzeptiert und als Ausgabe eine vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts liefert; und Übertragen des trainierten Modells an ein Zielfahrzeug, wobei das Zielfahrzeug so ausgelegt ist, dass es das trainierte Modell auf Sensordaten des Zielfahrzeugs anwendet, um eine Bewegung eines in den Sensordaten identifizierten Zielobjekts vorherzusagen.
Computerimplementiertes Verfahren nach Anspruch 17, ferner umfassend: Trainieren eines zweiten maschinellen Lernmodells auf Grundlage des Satzes von Datenpaaren, um ein zweites trainiertes Modell zu erhalten, wobei das zweite maschinelle Lernmodell mindestens ein neuronales Faltungsnetz enthält, um den Satz von Datenpaaren zu verarbeiten, und wobei das zweite maschinelle Lernmodell als Eingabe ein gegebenes Datenpaar des Satzes von Datenpaaren akzeptiert und als Ausgabe eine geplante Bewegung des dem gegebenen Datenpaar entsprechenden Fahrzeugs liefert; und Übertragen des zweiten trainierten Modells an ein Zielfahrzeug, wobei das Zielfahrzeug so ausgelegt ist, dass es das zweite trainierte Modell auf Sensordaten des Zielfahrzeugs anwendet, um eine Bewegung des Zielfahrzeugs zu planen.
Nichtflüchtiges computerlesbares Medium oder mehrere nichtflüchtige computerlesbare Medien, die computerausführbare Anweisungen umfassen, die bei Ausführung durch ein Rechensystem, das einen Prozessor umfasst, das Rechensystem zu Folgendem veranlassen: Erhalten eines Satzes von Datenpaaren, wobei jedes Datenpaar umfasst: erste Daten, die einem synthetischen Bild entsprechen, das eine Vogelperspektive eines Bereichs darstellt, die auf Grundlage von Sensordaten eines Fahrzeugs in dem Bereich erzeugt wurde, wobei das synthetische Bild ein Objekt in dem Bereich identifiziert; und zweite Daten, die einem Kamerabild entsprechen, das einen Blickwinkel des Fahrzeugs in dem Bereich darstellt, wobei das Kamerabild das Objekt abbildet; Trainieren eines maschinellen Lernmodells auf Grundlage des Satzes von Datenpaaren, um ein trainiertes Modell zu erhalten, wobei das maschinelle Lernmodell mindestens ein neuronales Faltungsnetz enthält, um den Satz von Datenpaaren zu verarbeiten, und wobei das maschinelle Lernmodell als Eingabe ein gegebenes Datenpaar des Satzes von Datenpaaren akzeptiert und als Ausgabe eine vorhergesagte Bewegung des dem gegebenen Datenpaar entsprechenden Objekts liefert; und Übertragen des trainierten Modells an ein Zielfahrzeug, wobei das Zielfahrzeug so ausgelegt ist, dass es das trainierte Modell auf Sensordaten des Zielfahrzeugs anwendet, um eine Bewegung eines in den Sensordaten identifizierten Zielobjekts vorherzusagen.
Ein oder mehrere nichtflüchtige computerlesbare Medien nach Anspruch 19, wobei die computerausführbaren Anweisungen ferner das Rechensystem zu Folgendem veranlassen: Trainieren eines zweiten maschinellen Lernmodells auf Grundlage des Satzes von Datenpaaren, um ein zweites trainiertes Modell zu erhalten, wobei das zweite maschinelle Lernmodell mindestens ein neuronales Faltungsnetz enthält, um den Satz von Datenpaaren zu verarbeiten, und wobei das zweite maschinelle Lernmodell als Eingabe ein gegebenes Datenpaar des Satzes von Datenpaaren akzeptiert und als Ausgabe eine geplante Bewegung des dem gegebenen Datenpaar entsprechenden Fahrzeugs liefert; und Übertragen des zweiten trainierten Modells an ein Zielfahrzeug, wobei das Zielfahrzeug so ausgelegt ist, dass es das zweite trainierte Modell auf Sensordaten des Zielfahrzeugs anwendet, um eine Bewegung des Zielfahrzeugs zu planen.