DE102021131820A1

DE102021131820A1 - Zusammenführen von lidar-informationen und kamerainformationen

Info

Publication number: DE102021131820A1
Application number: DE102021131820.3A
Authority: DE
Inventors: Jong Ho Lee
Original assignee: Motional AD LLC
Current assignee: Motional AD LLC
Priority date: 2020-12-10
Filing date: 2021-12-02
Publication date: 2022-06-15
Also published as: KR102476931B1; GB2601837A; KR20220083533A; US12060078B2; GB202100131D0; US20220185324A1; CN114627451A; KR20220167263A

Abstract

Unter anderem sind Techniken zum Zusammenführen von LiDAR-Informationen und Kamerainformationen zur autonomen Annotation beschrieben. Die Techniken beinhalten ein Fahrzeug, das Folgendes beinhaltet: mindestens eine LiDAR-Vorrichtung, die dazu ausgelegt ist, elektromagnetische Strahlung zu detektieren; mindestens eine Kamera, die dazu ausgelegt ist, Kamerainformationen von Objekten in der Nähe des Fahrzeugs zu erzeugen; mindestens ein computerlesbares Medium, das computerausführbare Anweisungen speichert; mindestens einen Prozessor, der kommunikativ mit der mindestens einen LiDAR-Vorrichtung und der mindestens einen Kamera gekoppelt ist, und eine Steuerschaltung, die kommunikativ mit dem mindestens einen Prozessor gekoppelt ist, wobei die Steuerschaltung dazu ausgelegt ist, das Fahrzeug basierend auf einem Standort des Objekts zu betreiben.

Description

GEBIET DER ERFINDUNG
Diese Beschreibung betrifft das Zusammenführen von LiDAR-Informationen und Kamerainformationen.
HINTERGRUND
Segmentierung und Annotation können an einem Prozess zum Identifizieren von Gebieten einer Umgebung, die durch mit der Umgebung assoziierten Informationen repräsentiert wird, involviert sein, wobei die Gebiete der Umgebung mit bestimmten Merkmalen oder Objekten assoziiert sind. Wenn beispielsweise ein Bild einer Umgebung zur späteren Verwendung durch ein Fahrzeug segmentiert und annotiert wird, kann ein Bild analysiert werden, um gewisse Merkmale wie etwa Ampeln, Stoppschilder, Fahrzeuge und Fußgänger zu identifizieren. Das Bild kann basierend auf den identifizierten Merkmalen annotiert oder gelabelt werden. Ein menschlicher Eingriff kann jedoch am Prozess zum Identifizieren gewisser Gebiete der Umgebung involviert sein, insbesondere, wenn die Umgebung komplex ist, was erhebliche Zeit und Kosten zu dem Annotationsaufwand hinzufügen kann.
Figurenliste

1 zeigt ein Beispiel für ein autonomes Fahrzeug mit autonomer Fähigkeit.
2 zeigt eine beispielhafte „Cloud“-Rechenumgebung.
3 zeigt ein Computersystem.
4 zeigt eine beispielhafte Architektur für ein autonomes Fahrzeug.
5 zeigt ein Beispiel für Eingaben und Ausgaben, die durch ein Wahrnehmungsmodul verwendet werden können.
6 zeigt ein Beispiel für ein LiDAR-System.
7 zeigt das LiDAR-System im Betrieb.
8 zeigt den Betrieb des LiDAR-Systems mit zusätzlichen Einzelheiten.
9 zeigt ein Blockdiagramm der Beziehungen zwischen Eingaben und Ausgaben eines Planungsmoduls.
10 zeigt einen gerichteten Graphen, der bei der Pfadplanung verwendet wird.
11 zeigt ein Blockdiagramm der Eingaben und Ausgaben eines Steuermoduls.
12 zeigt ein Blockdiagramm der Eingaben, Ausgaben und Komponenten einer Steuerung.
13A und 13B zeigen ein Fahrzeug mit einem LiDAR-Sensor und LiDAR-Informationen, die unter Verwendung des LiDAR-Sensors erzeugt werden.
14A und 14B zeigen das Fahrzeug mit einer Kamera und die Kamerainformationen, die unter Verwendung der Kamera erzeugt werden.
15A-15D zeigen eine Timing-Sequenz zwischen dem Erfassen von LiDAR-Informationen und dem Erfassen von Kamerainformationen von der Kamera.
16A veranschaulicht einen Zusammenführungsprozess zwischen LiDAR-Informationen und Kamerainformationen.
16B zeigt ein Kompositbild unter Verwendung der LiDAR-Informationen und der Kamerainformationen.
16C zeigt LiDAR-Punkte der LiDAR-Informationen, die mit einer Ampel assoziiert sind.
16D zeigt LiDAR-Informationen, die mit den LiDAR-Punkten assoziiert sind.
17A-17F zeigen ein 360-Grad-Kompositbild unter Verwendung der LiDAR-Informationen und der Kamerainformationen.
18 zeigt ein Blockdiagramm des Zusammenführungsprozesses.
19A und 19B zeigen eine annotierte Karte von Ampeln.
20 ist ein Flussdiagramm für den Zusammenführungsprozess.

AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung werden für Erläuterungszwecke zahlreiche spezifische Einzelheiten dargelegt, um ein umfassendes Verständnis der vorliegenden Erfindung bereitzustellen. Es versteht sich jedoch, dass die vorliegende Erfindung ohne diese spezifischen Einzelheiten umgesetzt werden kann. In anderen Fällen sind wohlbekannte Strukturen und Vorrichtungen in Blockdiagrammform gezeigt, um zu verhindern, die vorliegende Erfindung unnötig unklar zu machen.
In den Zeichnungen sind spezifische Anordnungen oder Ordnungen schematischer Elemente, wie etwa jenen, die Vorrichtungen, Module, Anweisungsblöcke und Datenelemente repräsentieren, zur Vereinfachung der Beschreibung gezeigt. Fachleute auf dem Gebiet sollten jedoch verstehen, dass die spezifische Ordnung oder Anordnung der schematischen Elemente in den Zeichnungen nicht andeuten soll, dass eine spezielle Verarbeitungsreihenfolge oder -abfolge oder Trennung von Prozessen erforderlich ist. Ferner soll der Einschluss eines schematischen Elements in einer Zeichnung nicht andeuten, dass ein solches Element in allen Ausführungsformen erforderlich ist oder dass die durch ein solches Element repräsentierten Merkmale möglicherweise bei manchen Ausführungsformen nicht in anderen Elementen enthalten sind oder mit diesen kombiniert werden.
Ferner soll in den Zeichnungen, in denen Verbindungselemente wie etwa durchgezogene oder gestrichelte Linien oder Pfeile verwendet werden, um eine Verbindung, Beziehung oder Zuordnung zwischen oder unter zwei oder mehr anderen schematischen Elementen zu veranschaulichen, das Nichtvorhandensein jeglicher solcher Verbindungselemente nicht andeuten, dass keine Verbindung, Beziehung oder Zuordnung bestehen kann. Mit anderen Worten sind manche Verbindungen, Beziehungen oder Zuordnungen zwischen Elementen in den Zeichnungen nicht gezeigt, um die Offenbarung nicht unklar zu machen. Zusätzlich wird zur Vereinfachung der Veranschaulichung ein einzelnes Verbindungselement verwendet, um mehrere Verbindungen, Beziehungen oder Zuordnungen zwischen Elementen zu repräsentieren. Wenn ein Verbindungselement eine Kommunikation von Signalen, Daten oder Anweisungen repräsentiert, sollten Fachleute auf dem Gebiet beispielsweise verstehen, dass ein solches Element einen oder mehrere Signalpfade (z. B. einen Bus) repräsentiert, wie erforderlich, um die Kommunikation zu bewirken.
Nun wird ausführlicher Bezug auf Ausführungsformen genommen, von denen Beispiele in den begleitenden Zeichnungen veranschaulicht sind. In der folgenden ausführlichen Beschreibung werden zahlreiche spezifische Einzelheiten dargelegt, um ein umfassendes Verständnis der verschiedenen beschriebenen Ausführungsformen bereitzustellen. Ein Durchschnittsfachmann auf dem Gebiet wird jedoch verstehen, dass die verschiedenen beschriebenen Ausführungsformen ohne diese spezifischen Einzelheiten umgesetzt werden können. In anderen Fällen sind wohlbekannte Verfahren, Prozeduren, Komponenten, Schaltungen und Netzwerke nicht ausführlich beschrieben, damit Aspekte der Ausführungsformen nicht unnötig unklar gemacht werden.
Nachfolgend sind mehrere Merkmale beschrieben, die jeweils unabhängig voneinander oder mit einer beliebigen Kombination anderer Merkmale verwendet werden können. Ein jegliches individuelles Merkmal spricht jedoch möglicherweise keine der oben besprochenen Probleme an oder könnte nur eines der oben besprochenen Probleme ansprechen. Einige der oben besprochenen Probleme können möglicherweise nicht vollständig durch irgendwelche der hierin beschriebenen Merkmale angesprochen werden. Obwohl Überschriften bereitgestellt sind, können Informationen bezüglich einer speziellen Überschrift, die jedoch nicht in dem Abschnitt mit dieser Überschrift gefunden werden, auch anderweitig in dieser Beschreibung gefunden werden. Ausführungsformen sind hierin gemäß der folgenden Gliederung beschrieben:

1. Allgemeiner Überblick
2. Systemüberblick
3. Architektur eines autonomen Fahrzeugs
4. Eingaben in ein autonomes Fahrzeug
5. Planung eines autonomen Fahrzeugs
6. Steuerung eines autonomen Fahrzeugs
7. Zusammenführen von LiDAR-Informationen und Kamerainformationen

Allgemeiner Überblick
Ein Annotationssystem kann verwendet werden, um LiDAR-Informationen auf Kamerainformationen, die von einer Kamera aufgenommen werden (z. B. ein Bild von einer Kamera an einem Fahrzeug), abzubilden, um sowohl den Abstand von der Kamera zu einem Objekt als auch geometrische Merkmale des Objekts zu bestimmen. Diese Informationen können später verwendet werden (z. B. durch mindestens ein System des Fahrzeugs), um die Identität von Objekten (und insbesondere festen Objekten) mit hoher Konfidenz zusammen mit dem physischen Standort und der Orientierung des Objekts zu bestimmen.
Beispielsweise können die Informationen später verwendet werden, um zu bestimmen, dass ein Objekt wie etwa eine Ampel 2,5 Meter vom Fahrzeug entfernt und in Richtung des ihr entgegenkommenden Verkehrs orientiert ist. Das Fahrzeug kann dann die Ampel zeitlich verfolgen, während das Fahrzeug unterhalb der Ampel entlang fährt, wodurch Echtzeitinformationen der Ampel bereitgestellt werden. Durch das Speichern von Informationen der Ampel in einer Weltkarte, auf die andere Fahrzeuge zugreifen können, kann jedes Fahrzeug ferner den Standort und die Orientierung von Objekten empfangen sowie bestätigen und/oder aktualisieren, falls Änderungen erforderlich sind (z. B. falls sich der Standort oder die Orientierung der Objekte geändert haben). Wenn beispielsweise die Weltkarte angibt, dass sich das Fahrzeug einer Ampel nähert, kann die Kamera auf ein Gebiet vor dem Fahrzeug fokussieren, in dem die Ampel erwartet wird, und kann sich darauf vorbereiten, das Verkehrssignal der Ampel zu bestimmen.
Durch das autonome Detektieren des Standorts und der Orientierung der Ampel unter Verwendung einer Kombination aus LiDAR-Informationen und Kamerainformationen verringert sich die Abhängigkeit von einer menschlichen Annotation. Ferner führt der kombinierte Ansatz zu einer viel höheren Genauigkeit als das unabhängige Verwenden von entweder LiDAR-Informationen oder Kamerainformationen. Der kombinierte Ansatz nutzt auch bestehende Kameras und LiDAR-Sensoren am Fahrzeug aus, ohne neue Ausrüstung zu erfordern. Ferner kann das System durch das Berücksichtigen der Fahrgeschwindigkeit des Fahrzeugs Sichtfelddifferenzen zwischen dem LiDAR- und Kamerasystem kompensieren.
Systemüberblick
1 zeigt ein Beispiel für ein autonomes Fahrzeug 100 mit autonomer Fähigkeit.
Wie hierin verwendet, bezieht sich der Begriff „autonome Fähigkeit“ auf eine Funktion, ein Merkmal oder ein Hilfsmittel, die/das einem Fahrzeug ermöglicht, teilweise oder vollständig ohne menschliche Echtzeit-Eingriffe betrieben zu werden, einschließlich ohne Beschränkung vollautonome Fahrzeuge, hochautonome Fahrzeuge und bedingt autonome Fahrzeuge.
Wie hierin verwendet, ist ein autonomes Fahrzeug (AV: Autonomous Vehicle) ein Fahrzeug, das autonome Fähigkeit besitzt.
Wie hierin verwendet, beinhaltet „Fahrzeug“ Mittel für den Transport von Gütern oder Menschen. Beispielsweise Autos, Busse, Züge, Flugzeuge, Drohnen, Lastwagen, Boote, Schiffe, Unterwasserfahrzeuge, Luftschiffe usw. Ein fahrerloses Auto ist ein Beispiel für ein Fahrzeug.
Wie hierin verwendet, bezieht sich „Trajektorie“ auf einen Pfad oder eine Route zum Navigieren eines AV von einem ersten raumzeitlichen Ort zu einem zweiten raumzeitlichen Ort. In einer Ausführungsform wird der erste raumzeitliche Ort als Anfangs- oder Startort bezeichnet und wird der zweite raumzeitliche Ort als Bestimmungsort, Endort, Ziel, Zielposition oder Zielort bezeichnet. In manchen Beispielen besteht eine Trajektorie aus einem oder mehreren Segmenten (z. B. Straßenabschnitten), und jedes Segment besteht aus einem oder mehreren Blöcken (z. B. Teilen einer Fahrspur oder Kreuzung). In einer Ausführungsform entsprechen die raumzeitlichen Orte realen Orten. Beispielsweise sind die raumzeitlichen Orte Abhol- oder Absetzorte zum Abholen oder Absetzen von Personen oder Gütern.
Wie hierin verwendet, beinhaltet „Sensor(en)“ eine oder mehrere Hardwarekomponenten, die Informationen über die Umgebung im Umfeld des Sensors detektieren. Einige der Hardwarekomponenten können Erfassungskomponenten (z. B. Bildsensoren, biometrische Sensoren), Sende- und/oder Empfangskomponenten (z. B. Laser- oder Hochfrequenzwellensender und -empfänger), elektronische Komponenten wie etwa Analog-Digital-Umsetzer, eine Datenspeicherungsvorrichtung (wie etwa RAM und/oder eine nichtflüchtige Speicherung), Software- oder Firmwarekomponenten und Datenverarbeitungskomponenten wie etwa eine ASIC (anwendungsspezifische integrierte Schaltung), einen Mikroprozessor und/oder einen Mikrocontroller beinhalten.
Wie hierin verwendet, ist eine „Szenenbeschreibung“ eine Datenstruktur (z. B. Liste) oder ein Datenstrom, die/der ein oder mehrere klassifizierte oder gelabelte Objekte beinhaltet, die durch einen oder mehrere Sensoren am AV detektiert oder durch eine Quelle extern zu dem AV bereitgestellt werden.
Wie hierin verwendet, ist eine „Straße“ ein physisches Gebiet, auf dem sich ein Fahrzeug fortbewegen kann, und kann einer benannten Durchgangsstraße (z. B. Stadtstraße, Autobahn usw.) entsprechen oder kann einer unbenannten Durchgangsstraße (z. B. eine Zufahrt eines Hauses oder Bürogebäudes, ein Abschnitt eines Parkplatzes, ein Abschnitt eines unbebauten Grundstücks, ein Feldweg in einem ländlichen Gebiet usw.) entsprechen. Da manche Fahrzeuge (z. B. Allradantrieb-Pickups, Geländewagen usw.) in der Lage sind, sich in einer Vielfalt physischer Gebiete fortzubewegen, die nicht spezifisch für die Fahrt eines Fahrzeugs angepasst sind, kann eine „Straße“ ein physisches Gebiet sein, das nicht formell durch eine Gemeinde oder andere Regierungsstelle oder Verwaltungsbehörde als eine Durchgangsstraße definiert ist.
Wie hierin verwendet, ist eine „Fahrspur“ ein Teil einer Straße, auf dem sich ein Fahrzeug fortbewegen kann. Eine Fahrspur wird manchmal basierend auf Fahrspurmarkierungen identifiziert. Beispielsweise kann eine Fahrspur dem Großteil oder der Gesamtheit des Raums zwischen Fahrspurmarkierungen entsprechen oder kann nur einem Teil (z. B. weniger als 50 %) des Raums zwischen Fahrspurmarkierungen entsprechen. Beispielsweise könnte eine Landstraße, die weit beabstandete Fahrspurmarkierungen aufweist, zwei oder mehr Fahrzeuge zwischen den Markierungen unterbringen, sodass ein Fahrzeug das andere überholen kann, ohne die Fahrspurmarkierungen zu überqueren, und könnte somit als eine Fahrspur schmaler als der Raum zwischen den Fahrspurmarkierungen aufweisend oder zwei Fahrspuren zwischen den Fahrspurmarkierungen aufweisend interpretiert werden. Eine Fahrspur könnte auch bei Nichtvorhandensein von Fahrspurmarkierungen interpretiert werden. Beispielsweise kann eine Fahrspur basierend auf physischen Merkmalen einer Umgebung definiert werden, z. B. Gestein und Bäume entlang einer Durchgangsstraße in einem ländlichen Gebiet oder z. B. natürliche zu vermeidende Hindernisse in einem unbebauten Gebiet. Eine Fahrspur könnte auch unabhängig von Fahrspurmarkierungen oder physischen Merkmalen interpretiert werden. Beispielsweise könnte eine Fahrspur basierend auf einem beliebigen Pfad interpretiert werden, der frei von Hindernissen ist in einem Gebiet, dem ansonsten Merkmale fehlen, die als Fahrspurgrenzen interpretiert werden würden. In einem beispielhaften Szenario könnte ein AV eine Fahrspur durch einen hindernisfreien Teil eines Feldes oder eine leere Parzelle interpretieren. In einem anderen beispielhaften Szenario könnte ein AV eine Fahrspur durch eine breite (z. B. breit genug für zwei oder mehr Fahrspuren) Landstraße interpretieren, die keine Fahrspuren aufweist. In diesem Szenario könnte das AV Informationen über die Fahrspur zu anderen AVs kommunizieren, sodass die anderen AVs dieselben Fahrspurinformationen verwenden können, um Pfadplanung untereinander zu koordinieren.
Der Begriff „Over-the-Air(OTA)-Client“ beinhaltet ein jegliches AV oder eine jegliche elektronische Vorrichtung (z. B. Computer, Steuerung, IoT-Vorrichtung, elektronische Steuereinheit (ECU)), die in einem AV eingebettet ist, mit diesem gekoppelt ist oder in Kommunikation mit diesem steht.
Der Begriff „Over-the-Air(OTA)-Aktualisierung“ bedeutet eine jegliche Aktualisierung, Änderung, Löschung oder Hinzufügung an/bei/zu Software, Firmware, Daten oder Konfigurationseinstellungen oder eine beliebige Kombination davon, die zu einem OTA-Client unter Verwendung proprietärer und/oder standardisierter Drahtloskommunikationstechnologie geliefert wird, einschließlich unter anderem: zellularer Mobilkommunikationen (z. B. 2G, 3G, 4G, 5G), Funk-Drahtlosbereichsnetzen (z. B. WiFi) und/oder Satelliten-Internet.
Der Begriff „Edge-Knoten“ bedeutet eine oder mehrere Edge-Vorrichtungen (Edge - Rand), die mit einem Netzwerk gekoppelt sind und ein Portal zur Kommunikation mit AVs bereitstellen und mit anderen Edge-Knoten und einer Cloud-basierten Rechenplattform zur Planung und Lieferung von OTA-Aktualisierungen an OTA-Clients kommunizieren können.
Der Begriff „Edge-Vorrichtung“ bedeutet eine Vorrichtung, die einen Edge-Knoten implementiert und einen physischen Drahtloszugangspunkt (Drahtlos-AP) in Unternehmens- oder Dienstanbieter(z. B. VERIZON, AT&T)-Kernnetzwerke bereitstellt. Beispiele für Edge-Vorrichtungen beinhalten unter anderem: Computer, Steuerungen, Sender, Router, Routing-Switches, integrierte Zugangsvorrichtungen (IADs: Integrated Access Devices), Multiplexer, Zugangsvorrichtungen für städtische Netzwerke (MAN: Metropolitan Area Network) und Weitbereichsnetzwerke (WAN: Wide Area Network).
„Ein oder mehr“ beinhaltet, dass eine Funktion durch ein Element durchgeführt wird, dass eine Funktion durch mehr als ein Element durchgeführt wird, z. B. auf verteilte Weise, dass mehrere Funktionen durch ein Element durchgeführt werden, dass mehrere Funktionen durch mehrere Elemente durchgeführt werden, oder eine beliebige Kombination des Obenstehenden.
Es versteht sich auch, dass, obwohl die Begriffe erster, zweiter usw. in manchen Fällen hierin verwendet werden, um verschiedene Elemente zu beschreiben, diese Elemente nicht durch diese Begriffe beschränkt werden sollten. Diese Begriffe werden nur zur Unterscheidung eines Elements von einem anderen verwendet. Beispielsweise könnte ein erster Kontakt als ein zweiter Kontakt bezeichnet werden, und gleichermaßen könnte ein zweiter Kontakt als ein erster Kontakt bezeichnet werden, ohne vom Schutzumfang der verschiedenen beschriebenen Ausführungsformen abzuweichen. Sowohl der erste Kontakt als auch der zweite Kontakt sind Kontakte, sie sind aber nicht derselbe Kontakt.
Die in der Beschreibung der verschiedenen beschriebenen Ausführungsformen hierin verwendete Terminologie liegt nur zum Zweck der Beschreibung spezieller Ausführungsformen vor und soll nicht beschränkend sein. Wie in der Beschreibung der verschiedenen beschriebenen Ausführungsformen und den angehängten Ansprüchen verwendet, sollen die Singularformen „ein“, „eine“ und „der/die/das“ auch die Pluralformen beinhalten, insofern der Kontext nicht deutlich anderes angibt. Es versteht sich auch, dass sich der Begriff „und/oder“, wie hierin verwendet, auf jegliche und alle möglichen Kombinationen eines oder mehrerer der assoziierten aufgelisteten Punkte bezieht und einschließt. Es versteht sich ferner, dass die Begriffe „beinhaltet“, „einschließlich“, „umfasst“ und/oder „umfassend“, wenn in dieser Beschreibung verwendet, das Vorhandensein genannter Merkmale, Ganzzahlen, Schritte, Operationen, Elemente und/oder Komponenten spezifiziert, aber nicht das Vorhandensein oder den Zusatz eines/einer oder mehrerer anderer Merkmale, Ganzzahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen davon ausschließt.
Wie hierin verwendet, wird der Begriff „falls“ optional als „wenn“ oder „bei“ oder „als Reaktion auf das Bestimmen“ oder „als Reaktion auf das Detektieren“ bedeutend, in Abhängigkeit vom Kontext, ausgelegt. Gleichermaßen wird der Ausdruck „falls bestimmt wird“ oder „falls [eine angegebene Bedingung oder ein angegebenes Ereignis] detektiert wird“ optional als „beim Bestimmen“ oder „als Reaktion auf das Bestimmen“ oder „beim Detektieren [der angegebenen Bedingung oder des angegebenen Ereignisses]“ oder „als Reaktion auf das Detektieren [der angegebenen Bedingung oder des angegebenen Ereignisses]“ bedeutend, in Abhängigkeit vom Kontext, ausgelegt.
Wie hierin verwendet, bezieht sich ein AV-System auf das AV zusammen mit dem Array von Hardware, Software, gespeicherten Daten und in Echtzeit erzeugten Daten, die den Betrieb des AV unterstützen. In einer Ausführungsform ist das AV-System innerhalb des AV integriert. In einer Ausführungsform ist das AV-System über mehrere Orte verteilt. Beispielsweise wird ein Teil der Software des AV-Systems in einer Cloud-Rechenumgebung ähnlich der unten mit Bezug auf 3 beschriebenen Cloud-Rechenumgebung 300 implementiert.
Allgemein beschreibt dieses Dokument Technologien, die bei beliebigen Fahrzeugen anwendbar sind, die eine oder mehrere autonome Fähigkeiten aufweisen, einschließlich vollautonomer Fahrzeuge, hochautonomer Fahrzeuge und bedingt autonomer Fahrzeuge, wie etwa sogenannte Stufe-5--, Stufe-4- bzw. Stufe-3-Fahrzeuge (siehe den Standard J3016 von der SAE International: Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated Driving Systems (Klassifizierung und Definitionen für Begriffe bezüglich automatisierter Fahrsysteme für Straßenkraftfahrzeuge), der unter Bezugnahme in seiner Gesamtheit aufgenommen wird, für Einzelheiten zu der Klassifizierung von Autonomiestufen bei Fahrzeugen). Die in diesem Dokument beschriebenen Technologien sind auch bei teilautonomen Fahrzeugen und fahrergestützten Fahrzeugen anwendbar, wie etwa sogenannten Stufe-2- und Stufe-1-Fahrzeugen (siehe den Standard J3016 von der SAE International: Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated Driving Systems). In einer Ausführungsform können ein oder mehrere der Stufe-1-, Stufe-2-, Stufe-3-, Stufe-4- und Stufe-5-Fahrzeugsysteme gewisse Fahrzeugoperationen (z. B. Lenkung, Bremsung und Verwendung von Karten) unter gewissen Betriebsbedingungen basierend auf der Verarbeitung von Sensoreingaben automatisieren. Die in diesem Dokument beschriebenen Technologien können für Fahrzeuge in allen Stufen von Vorteil sein, von vollautonomen Fahrzeugen bis hin zu menschlich betriebenen Fahrzeugen.
Autonome Fahrzeuge können Vorteile gegenüber Fahrzeugen aufweisen, die einen menschlichen Fahrer erfordern. Ein Vorteil liegt in der Sicherheit. Beispielsweise traten im Jahr 2016 in den Vereinigten Staaten 6 Millionen Kraftfahrzeugunfälle, 2,4 Millionen Verletzungen, 40.000 Todesopfer und 13 Millionen Fahrzeugzusammenstöße auf, mit geschätzten gesellschaftlichen Kosten von mehr als $910 Milliarden. Verkehrstodesopfer in den USA pro 100 Millionen gefahrener Meilen wurden zwischen 1965 und 2015 von etwa sechs auf etwa eins reduziert, teilweise aufgrund zusätzlicher in Fahrzeugen eingesetzter Sicherheitsmaßnahmen. Beispielsweise wird angenommen, dass eine zusätzliche halbe Sekunde Warnung vor einem unmittelbar bevorstehenden Zusammenstoß 60 % von Auffahrunfällen mitigieren. Passive Sicherheitsmerkmale (z. B. Sicherheitsgurte, Airbags) haben jedoch wahrscheinlich ihre Grenze für die Verbesserung dieser Anzahl erreicht. Somit sind aktive Sicherheitsmaßnahmen, wie etwa die automatisierte Steuerung eines Fahrzeugs, der wahrscheinlichste nächste Schritt für die Verbesserung dieser Statistiken. Da angenommen wird, dass menschliche Fahrer für ein kritisches Ereignis vor dem Zusammenstoß in 95 % der Zusammenstöße verantwortlich sind, werden automatisierte Fahrsysteme wahrscheinlich bessere Sicherheitsergebnisse erreichen, z. B. durch zuverlässiges Erkennen und Vermeiden kritischer Situationen besser als Menschen; bessere Entscheidungsfindung, Einhalten von Verkehrsregeln und Vorhersagen zukünftiger Ereignisse besser als Menschen; und zuverlässiges Steuern eines Fahrzeugs besser als ein Mensch.
Mit Bezug auf 1 betreibt ein AV-System 120 das AV 100 entlang einer Trajektorie 198 durch eine Umgebung 190 zu einem Bestimmungsort 199 (manchmal als ein Endort bezeichnet), während es Objekte (z. B. natürliche Objekte 191, Fahrzeuge 193, Fußgänger 192, Fahrradfahrer und andere Hindernisse) vermeidet und Straßenregeln (z. B. Betriebsregeln oder Fahrpräferenzen) einhält.
In einer Ausführungsform beinhaltet das AV-System 120 Vorrichtungen 101, die dahingehend instrumentiert sind, Betriebsbefehle von den Computerprozessoren 146 zu empfangen und darauf zu reagieren. Der Begriff „Betriebsbefehl“ wird verwendet, um eine ausführbare Anweisung (oder Satz von Anweisungen) zu bedeuten, die bewirken, dass ein Fahrzeug eine Handlung (z. B. ein Fahrmanöver) durchführt. Betriebsbefehle können unter anderem Anweisungen beinhalten, damit ein Fahrzeug beginnt, vorwärts zu fahren, aufhört, vorwärts zu fahren, beginnt, rückwärts zu fahren, aufhört, rückwärts zu fahren, beschleunigt, abbremst, nach links abbiegt und nach rechts abbiegt. In einer Ausführungsform sind die Rechenprozessoren 146 dem unten mit Bezug auf 3 beschriebenen Prozessor 304 ähnlich. Beispiele für die Vorrichtungen 101 beinhalten Lenksteuerung 102, Bremsen 103, Gänge, Gaspedal oder andere Beschleunigungssteuermechanismen, Scheibenwischer, Türverriegelungen, Fenstersteuerungen und Blinker.
In einer Ausführungsform beinhaltet das AV-System 120 Sensoren 121 zum Messen oder Ableiten von Eigenschaften des Status oder Zustands des AV 100, wie etwa die Position, die Linear- und Winkelgeschwindigkeit und -beschleunigung und den Steuerkurs (z. B. eine Orientierung des vorderen Endes des AV 100) des AV. Beispiele für die Sensoren 121 sind GPS, inertiale Messeinheiten (IMU), die sowohl lineare Beschleunigungen als auch Winkelraten des Fahrzeugs messen, Radgeschwindigkeitssensoren zum Messen oder Schätzen von Radschlupfverhältnissen, Radbremsdruck- oder Bremsmomentsensoren, Motormoment- oder Radmomentsensoren und Lenkwinkel- und Winkelratensensoren.
In einer Ausführungsform beinhalten die Sensoren 121 auch Sensoren zum Erfassen oder Messen von Eigenschaften der Umgebung des AV. Beispielsweise Monokular- oder Stereo-Videokameras 122 im sichtbaren Lichtspektrum, im Infrarotspektrum oder im thermischen Spektrum (oder beides), LiDAR 123, RADAR, Ultraschallsensoren, TOF-Tiefensensoren (TOF: time-of-flight - Laufzeit), Geschwindigkeitssensoren, Temperatursensoren, Feuchtigkeitssensoren und Niederschlagssensor.
In einer Ausführungsform beinhaltet das AV-System 120 eine Datenspeicherungseinheit 142 und einen Speicher 144 zum Speichern von Maschinenanweisungen, die mit den Computerprozessoren 146 assoziiert sind, oder von Daten, die durch die Sensoren 121 gesammelt werden. In einer Ausführungsform beinhaltet das AV-System 120 ein Bildzusammenführungssystem, das unten in Beziehung mit den 13A und 14A beschrieben ist. In einer Ausführungsform ähnelt die Datenspeicherungseinheit 142 dem ROM 308 oder der Speicherungsvorrichtung 310, die unten in Beziehung mit 3 beschrieben sind. In einer Ausführungsform ähnelt der Speicher 144 dem unten beschriebenen Hauptspeicher 306. In einer Ausführungsform speichern die Datenspeicherungseinheit 142 und der Speicher 144 historische, Echtzeit- und/oder prädiktive Informationen über die Umgebung 190. In einer Ausführungsform beinhalten die gespeicherten Informationen Karten, Fahrleistung, Verkehrsüberlastungsaktualisierungen oder Wetterbedingungen. In einer Ausführungsform werden Daten bezüglich der Umgebung 190 mittels eines Kommunikationskanals von einer entfernt lokalisierten Datenbank 134 zu dem AV 100 übertragen.
In einer Ausführungsform beinhaltet das AV-System 120 Kommunikationsvorrichtungen 140 zum Kommunizieren gemessener oder abgeleiteter Eigenschaften der Status und Zustände anderer Fahrzeuge, wie etwa Positionen, Linear- und Winkelgeschwindigkeiten, Linear- und Winkelbeschleunigungen und Linear- und Winkelsteuerkurse, zu dem AV 100. Diese Vorrichtungen beinhalten Fahrzeug-zu-Fahrzeug(V2V)- und Fahrzeug-zu-Infrastruktur(V2I)-Kommunikationsvorrichtungen und Vorrichtungen für Drahtloskommunikationen über Punkt-zu-Punkt- oder Ad-hoc-Netzwerke oder beides. In einer Ausführungsform kommunizieren die Kommunikationsvorrichtungen 140 über das elektromagnetische Spektrum (einschließlich Funk- und optischer Kommunikationen) oder anderen Medien (z. B. Luft und akustische Medien). Eine Kombination aus Fahrzeug-zu-Fahrzeug(V2V)- und Fahrzeug-zu-Infrastruktur(V2I)-Kommunikation (und in manchen Ausführungsformen eine oder mehrere andere Arten von Kommunikation) wird manchmal als Fahrzeug-zu-Allem(V2X)-Kommunikation bezeichnet. Eine V2X-Kommunikation entspricht typischerweise einem oder mehreren Kommunikationsstandards zur Kommunikation mit, zwischen oder unter autonomen Fahrzeugen.
In einer Ausführungsform beinhalten die Kommunikationsvorrichtungen 140 Kommunikationsschnittstellen. Beispielsweise drahtgebundene, drahtlose, WiMAX-, WiFi-, Bluetooth-, Satelliten-, zellulare, optische, Nahfeld-, Infrarot- oder Funkschnittstellen. Die Kommunikationsschnittstellen übertragen Daten von einer entfernt lokalisierten Datenbank 134 zu dem AV-System 120. In einer Ausführungsform ist die entfernt lokalisierte Datenbank 134 in einer Cloud-Rechenumgebung 200, wie in 2 beschrieben, eingebettet. Die Kommunikationsschnittstellen 140 übertragen Daten, die von den Sensoren 121 gesammelt werden, oder andere Daten bezüglich des Betriebs des AV 100 zu der entfernt lokalisierten Datenbank 134. In einer Ausführungsform übertragen die Kommunikationsschnittstellen 140 Informationen, die sich auf Teleoperationen beziehen, zu dem AV 100. In manchen Ausführungsformen kommuniziert das AV 100 mit anderen entfernten (z. B. „Cloud“-) Servern 136.
In einer Ausführungsform speichert und überträgt die entfernt lokalisierte Datenbank 134 auch digitale Daten (z. B. speichert Daten wie etwa Landstraßen- und Straßenorte). Solche Daten werden im Speicher 144 am AV 100 gespeichert oder mittels eines Kommunikationskanals von der entfernt lokalisierten Datenbank 134 zu dem AV 100 übertragen.
In einer Ausführungsform speichert und überträgt die entfernt lokalisierte Datenbank 134 historische Informationen über Fahreigenschaften (z. B. Geschwindigkeits- und Beschleunigungsprofile) von Fahrzeugen, die zuvor zu ähnlichen Tageszeiten entlang der Trajektorie 198 gefahren sind. In einer Implementierung können solche Daten im Speicher 144 am AV 100 gespeichert oder mittels eines Kommunikationskanals von der entfernt lokalisierten Datenbank 134 zu dem AV 100 übertragen werden.
Die Rechenvorrichtungen 146, die sich am AV 100 befinden, erzeugen algorithmisch Steuerhandlungen basierend auf sowohl Echtzeit-Sensordaten als auch vorherigen Informationen, was es dem AV-System 120 ermöglicht, seine autonomen Fahrfähigkeiten auszuführen.
In einer Ausführungsform beinhaltet das AV-System 120 Computerperipheriegeräte 132, die mit den Rechenvorrichtungen 146 gekoppelt sind, zum Bereitstellen von Informationen und Warnungen an einen und Empfangen einer Eingabe von einem Benutzer (z. B. einem Insassen oder einem Fernbenutzer) des AV 100. In einer Ausführungsform ähneln die Peripheriegeräte 132 der Anzeige 312, der Eingabevorrichtung 314 und der Cursorsteuerung 316, die unten mit Bezug auf 3 besprochen sind. Die Kopplung ist drahtlos oder drahtgebunden. Zwei oder mehr beliebige der Schnittstellenvorrichtungen können in eine einzige Vorrichtung integriert sein.
In einer Ausführungsform empfängt und erzwingt das AV-System 120 eine Datenschutzstufe eines Passagiers, die z. B. durch den Passagier spezifiziert wird oder in einem mit dem Passagier assoziierten Profil gespeichert ist. Die Datenschutzstufe des Passagiers bestimmt, wie bestimmte mit dem Passagier assoziierte Informationen (z. B. Passagierkomfortdaten, biometrische Daten usw.) verwendet werden dürfen, im Passagierprofil gespeichert sind und/oder auf dem Cloud-Server 136 gespeichert und mit dem Passagierprofil assoziiert sind. In einer Ausführungsform spezifiziert die Datenschutzstufe spezielle Informationen, die mit einem Passagier assoziiert sind und nach dem Abschluss der Fahrt gelöscht werden. In einer Ausführungsform spezifiziert die Datenschutzstufe bestimmte mit einem Passagier assoziierte Informationen und identifiziert eine oder mehrere Entitäten, die für den Zugriff auf die Informationen autorisiert sind. Beispiele für spezifizierte Entitäten, die für den Zugriff auf die Informationen autorisiert sind, können andere AVs, Drittpartei-AV-Systeme oder eine beliebige Entität, die potenziell auf die Informationen zugreifen könnte, beinhalten.
Eine Datenschutzstufe eines Passagiers kann mit einer oder mehreren Granularitätsstufen spezifiziert werden. In einer Ausführungsform identifiziert eine Datenschutzstufe spezifische zu speichernde oder zu teilende Informationen. In einer Ausführungsform gilt die Datenschutzstufe für alle mit dem Passagier assoziierten Informationen, sodass der Passagier spezifizieren kann, dass keine seiner persönlichen Informationen gespeichert oder geteilt werden. Die Spezifikation der Entitäten, denen der Zugriff auf bestimmte Informationen gestattet ist, kann auch mit verschiedenen Granularitätsstufen spezifiziert werden. Verschiedene Sätze von Entitäten, denen der Zugriff auf bestimmte Informationen gestattet ist, können beispielsweise andere AVs, die Cloud-Server 136, spezifische Drittpartei-AV-Systeme usw. beinhalten.
In einer Ausführungsform bestimmt das AV-System 120 oder der Cloud-Server 136, ob das AV 100 oder eine andere Entität auf gewisse mit einem Passagier assoziierte Informationen zugreifen können. Beispielsweise muss ein Drittpartei-AV-System, das versucht, auf eine Passagiereingabe bezüglich eines bestimmten raumzeitlichen Orts zuzugreifen, eine Autorisierung z. B. von dem AV-System 120 oder dem Cloud-Server 136 erhalten, um auf die mit dem Passagier assoziierten Informationen zuzugreifen. Beispielsweise verwendet das AV-System 120 die spezifizierte Datenschutzstufe des Passagiers, um zu bestimmen, ob die Passagiereingabe bezüglich des raumzeitlichen Orts dem Drittpartei-AV-System, dem AV 100 oder einem anderen AV unterbreitet werden kann. Dies ermöglicht es der Datenschutzstufe des Passagiers zu spezifizieren, welchen anderen Entitäten es gestattet ist, Daten über die Handlungen des Passagiers oder andere mit dem Passagier assoziierte Daten zu empfangen.
2 veranschaulicht eine beispielhafte „Cloud“-Rechenumgebung. Cloud-Computing ist ein Modell zur Dienstbereitstellung zum Ermöglichen eines zweckdienlichen On-Demand-Netzwerkzugangs zu einem gemeinsam genutzten Pool von konfigurierbaren Rechenressourcen (z. B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Speicher, Speicherung, Anwendungen, virtuelle Maschinen und Dienste). In typischen Cloud-Rechensystemen sind die Maschinen, die zum Bereitstellen der durch die Cloud gelieferten Dienste verwendet werden, in einem oder mehreren großen Cloud-Datenzentren untergebracht. Jetzt mit Bezug auf 2 beinhaltet die Cloud-Rechenumgebung 200 Cloud-Datenzentren 204a, 204b und 204c, die über die Cloud 202 miteinander verbunden sind. Die Datenzentren 204a, 204b und 204c stellen Computersystemen 206a, 206b, 206c, 206d, 206e und 206f, die mit der Cloud 202 verbunden sind, Cloud-Rechendienste bereit.
Die Cloud-Rechenumgebung 200 beinhaltet ein oder mehrere Cloud-Datenzentren. Allgemein bezieht sich ein Cloud-Datenzentrum, beispielsweise das in 2 gezeigte Cloud-Datenzentrum 204a, auf die physische Anordnung von Servern, aus denen eine Cloud, beispielsweise die in 2 gezeigte Cloud 202, oder ein spezieller Teil einer Cloud besteht. Beispielsweise sind Server physisch im Cloud-Datenzentrum in Räumen, Gruppen, Reihen und Racks angeordnet. Ein Cloud-Datenzentrum weist eine oder mehrere Zonen auf, die einen oder mehrere Räume von Servern beinhalten. Jeder Raum weist eine oder mehrere Reihen von Servern auf und jede Reihe beinhaltet ein oder mehrere Racks. Jedes Rack beinhaltet einen oder mehrere individuelle Serverknoten. In manchen Implementierungen sind Server in Zonen, Räumen und/oder Reihen basierend auf physischen Infrastrukturanforderungen der Datenzentrumseinrichtung, die Leistungs-, Energie-, thermische, Wärme- und/oder andere Anforderungen beinhalten, in Gruppen angeordnet. In einer Ausführungsform sind die Serverknoten dem in 3 beschriebenen Computersystem ähnlich. Das Datenzentrum 204a weist viele Rechensysteme auf, die über viele Racks verteilt sind.
Die Cloud 202 beinhaltet die Cloud-Datenzentren 204a, 204b und 204c zusammen mit dem Netzwerk und Networking-Ressourcen (zum Beispiel Networking-Ausrüstung, Knoten, Router, Switches und Networking-Kabel), die die Cloud-Datenzentren 204a, 204b und 204c miteinander verbinden und dabei helfen, den Rechensystemen 206a-f zu ermöglichen, auf Cloud-Rechendienste zuzugreifen. In einer Ausführungsform repräsentiert das Netzwerk eine beliebige Kombination eines oder mehrerer Lokalnetzwerke, Weitbereichsnetzwerke oder Internetzwerke, die unter Verwendung drahtgebundener oder drahtloser Links gekoppelt sind, die unter Verwendung terrestrischer oder satellitengestützter Verbindungen eingesetzt werden. Über das Netzwerk ausgetauschte Daten werden unter Verwendung einer beliebigen Anzahl von Netzwerkschichtprotokollen transferiert, wie etwa Internetprotokoll (IP), MPLS (Multiprotocol Label Switching), ATM (Asynchronous Transfer Mode), Frame Relay usw. Ferner werden in Ausführungsformen, bei denen das Netzwerk eine Kombination mehrerer Teilnetzwerke repräsentiert, unterschiedliche Netzwerkschichtprotokolle an jedem der zugrundeliegenden Teilnetzwerke verwendet. In manchen Ausführungsformen repräsentiert das Netzwerk ein oder mehrere miteinander verbundene Internetzwerke, wie etwa das öffentliche Internet.
Die Rechensysteme 206a-f oder Cloud-Rechendienstverbraucher sind über Netzwerklinks und Netzwerkadapter mit der Cloud 202 verbunden. In einer Ausführungsform werden die Rechensysteme 206a-f als verschiedene Rechenvorrichtungen implementiert, beispielsweise Server, Desktops, Laptops, Tablet, Smartphones, Internet-der-Dinge(IoT)-Vorrichtungen, autonome Fahrzeuge (einschließlich Autos, Drohnen, Shuttles, Zügen, Bussen usw.) und Verbraucherelektronik. In einer Ausführungsform werden die Rechensysteme 206a-f in oder als ein Teil von anderen Systemen implementiert.
3 veranschaulicht ein Computersystem 300. In einer Implementierung ist das Computersystem 300 eine Spezialrechenvorrichtung. Die Spezialrechenvorrichtung ist festverdrahtet, um die Techniken durchzuführen, oder beinhaltet digitale elektronische Vorrichtungen wie etwa eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs) oder ein oder mehrere feldprogrammierbare Gate-Arrays (FPGAs), die persistent dazu programmiert sind, die Techniken durchzuführen, oder kann einen oder mehrere Allzweck-Hardwareprozessoren beinhalten, die dazu programmiert sind, die Techniken entsprechend Programmanweisungen in Firmware, Speicher, anderer Speicherung oder einer Kombination durchzuführen. Solche Spezialrechenvorrichtungen können auch maßgeschneiderte festverdrahtete Logik, ASICs oder FPGAs mit maßgeschneiderter Programmierung kombinieren, um die Techniken zu vollziehen. In verschiedenen Ausführungsformen sind die Spezialrechenvorrichtungen Desktop-Computersysteme, portable Computersysteme, handgehaltene Vorrichtungen, Netzwerkvorrichtungen oder eine beliebige andere Vorrichtung, die festverdrahtete Logik und/oder Programmlogik zum Implementieren der Techniken integriert.
In einer Ausführungsform beinhaltet das Computersystem 300 einen Bus 302 oder einen anderen Kommunikationsmechanismus zum Kommunizieren von Informationen und einen Hardwareprozessor 304, der mit einem Bus 302 gekoppelt ist, zum Verarbeiten von Informationen. Der Hardwareprozessor 304 ist beispielsweise ein Allzweck-Mikroprozessor. Das Computersystem 300 beinhaltet auch einen Hauptspeicher 306, wie etwa einen Direktzugriffsspeicher (RAM) oder eine andere dynamische Speicherungsvorrichtung, die mit dem Bus 302 gekoppelt ist, zum Speichern von Informationen und durch den Prozessor 304 auszuführenden Anweisungen. In einer Implementierung wird der Hauptspeicher 306 zum Speichern temporärer Variablen oder anderer Zwischeninformationen während der Ausführung von durch den Prozessor 304 auszuführenden Anweisungen verwendet. Solche Anweisungen, wenn sie in nicht vorübergehenden Speicherungsmedien gespeichert sind, auf die der Prozessor 304 zugreifen kann, verwandeln das Computersystem 300 in eine Spezialmaschine, die dafür angepasst ist, die in den Anweisungen spezifizierten Operationen durchzuführen.
In einer Ausführungsform beinhaltet das Computersystem 300 ferner einen Nurlesespeicher (ROM) 308 oder eine andere statische Speicherungsvorrichtung, die mit dem Bus 302 gekoppelt ist, zum Speichern statischer Informationen und Anweisungen für den Prozessor 304. Eine Speicherungsvorrichtung 310, wie etwa eine Magnetplatte, eine optische Platte, ein Solid-State-Laufwerk oder dreidimensionaler Crosspoint-Speicher, ist bereitgestellt und mit dem Bus 302 gekoppelt, um Informationen und Anweisungen zu speichern.
In einer Ausführungsform ist das Computersystem 300 über den Bus 302 mit einer Anzeige 312 gekoppelt, wie etwa einer Kathodenstrahlröhre (CRT), einem Flüssigkristalldisplay (LCD), einer Plasma-Anzeige, einer Leuchtdioden(LED)-Anzeige oder einer organischen Leuchtdioden(OLED)-Anzeige zum Anzeigen von Informationen für einen Computerbenutzer. Eine Eingabevorrichtung 314, die alphanumerische und andere Tasten beinhaltet, ist mit dem Bus 302 gekoppelt, zum Kommunizieren von Informationen und Befehlsauswahlen zu dem Prozessor 304. Eine andere Art von Benutzereingabevorrichtung ist eine Cursorsteuerung 316 wie etwa eine Maus, ein Trackball, eine berührungsgestützte Anzeige oder Cursorrichtungstasten zum Kommunizieren von Richtungsinformationen und Befehlsauswahlen zu dem Prozessor 304 und zum Steuern der Cursorbewegung auf der Anzeige 312. Diese Eingabevorrichtung weist typischerweise zwei Freiheitsgrade in zwei Achsen auf, einer ersten Achse (z. B. x-Achse) und einer zweiten Achse (z. B. y-Achse), die der Vorrichtung ermöglicht, Positionen in einer Ebene zu spezifizieren.
Gemäß einer Ausführungsform werden die Techniken hierin durch das Computersystem 300 als Reaktion darauf durchgeführt, dass der Prozessor 304 eine oder mehrere Sequenzen einer oder mehrerer im Hauptspeicher 306 enthaltener Anweisungen ausführt. Solche Anweisungen werden in den Hauptspeicher 306 von einem anderen Speicherungsmedium wie etwa der Speicherungsvorrichtung 310 eingelesen. Die Ausführung der Sequenzen von im Hauptspeicher 306 enthaltenen Anweisungen bewirkt, dass der Prozessor 304 die hierin beschriebenen Prozessschritte durchführt. In alternativen Ausführungsformen wird eine festverdrahtete Schaltungsanordnung anstelle von oder in Kombination mit Softwareanweisungen verwendet.
Der Begriff „Speicherungsmedien“, wie hierin verwendet, bezieht sich auf beliebige nicht vorübergehende Medien, die Daten und/oder Anweisungen speichern, die bewirken, dass eine Maschine auf eine spezifische Weise arbeitet. Solche Speicherungsmedien beinhalten nichtflüchtige Medien und/oder flüchtige Medien. Nichtflüchtige Medien beinhalten zum Beispiel optische Platten, Magnetplatten, Solid-State-Laufwerke oder dreidimensionalen Crosspoint-Speicher, wie etwa die Speicherungsvorrichtung 310. Flüchtige Medien beinhalten dynamischen Speicher, wie etwa den Hauptspeicher 306. Übliche Formen von Speicherungsmedien beinhalten beispielsweise eine Diskette, eine flexible Disk, eine Festplatte, ein Solid-State-Laufwerk, ein Magnetband oder ein beliebiges anderes magnetische Datenspeicherungsmedium, eine CD-ROM, ein beliebiges anderes optisches Datenspeicherungsmedium, ein beliebiges physisches Medium mit Lochmustern, einen RAM, einen PROM und einen EPROM, einen FLASH-EPROM, einen NV-RAM oder einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette.
Speicherungsmedien sind von Übertragungsmedien verschieden, können aber in Verbindung mit diesen verwendet werden. Übertragungsmedien nehmen am Transfer von Informationen zwischen Speicherungsmedien teil. Beispielsweise beinhalten Übertragungsmedien Koaxialkabel, Kupferdraht und Faseroptik, einschließlich der Drähte, die den Bus 302 umfassen. Übertragungsmedien können auch die Form von Akustik- oder Lichtwellen annehmen, wie etwa jene, die während Funkwellen- und Infrarot-Datenkommunikationen erzeugt werden.
In einer Ausführungsform sind verschiedene Formen von Medien beim Führen einer oder mehrerer Sequenzen einer oder mehrerer Anweisungen zu dem Prozessor 304 zur Ausführung beteiligt. Beispielsweise werden die Anweisungen anfänglich auf einer Magnetplatte oder einem Solid-State-Laufwerk eines Ferncomputers geführt. Der Ferncomputer lädt die Anweisungen in seinen dynamischen Speicher und sendet die Anweisungen über eine Telefonleitung unter Verwendung eines Modems. Ein Modem lokal zu dem Computersystem 300 empfängt die Daten auf der Telefonleitung und verwendet einen Infrarotsender, um die Daten in ein Infrarotsignal umzuwandeln. Ein Infrarotdetektor empfängt die in dem Infrarotsignal geführten Daten und eine geeignete Schaltungsanordnung platziert die Daten auf den Bus 302. Der Bus 302 führt die Daten zu dem Hauptspeicher 306, aus dem der Prozessor 304 die Anweisungen abruft und ausführt. Die durch den Hauptspeicher 306 empfangenen Anweisungen können optional in der Speicherungsvorrichtung 310 entweder bevor oder nach der Ausführung durch den Prozessor 304 gespeichert werden.
Das Computersystem 300 beinhaltet außerdem eine Kommunikationsschnittstelle 318, die mit dem Bus 302 gekoppelt ist. Die Kommunikationsschnittstelle 318 liefert eine Zweiwege-Datenkommunikation, die mit einem Netzwerklink 320 koppelt, der mit einem lokalen Netzwerk 322 verbunden ist. Beispielsweise ist die Kommunikationsschnittstelle 318 eine ISDN-Karte (ISDN: Integrated Services Digital Network - dienstintegrierendes Digitalnetz), ein Kabelmodem, ein Satellitenmodem oder ein Modem zum Bereitstellen einer Datenkommunikationsverbindung mit einer entsprechenden Art von Telefonleitung. Als ein anderes Beispiel ist die Kommunikationsschnittstelle 318 eine LAN-Karte (LAN: Local Area Network - Lokalnetz) zum Bereitstellen einer Datenkommunikationsverbindung mit einem kompatiblen LAN. In manchen Implementierungen werden auch drahtlose Links implementiert. In einer beliebigen solchen Implementierung sendet und empfängt die Kommunikationsschnittstelle 318 elektrische, elektromagnetische oder optische Signale, die digitale Datenströme führen, die verschiedene Arten von Informationen repräsentieren.
Der Netzwerklink 320 stellt typischerweise eine Datenkommunikation über ein oder mehrere Netzwerke zu anderen Datenvorrichtungen bereit. Beispielsweise stellt der Netzwerklink 320 eine Verbindung über das lokale Netzwerk 322 zu einem Hostcomputer 324 oder zu einem Cloud-Datenzentrum oder ein Gerät bereit, das durch einen Internetdienstanbieter (ISP: Internet Service Provider) 326 betrieben wird. Der ISP 326 stellt im Gegenzug Datenkommunikationsdienste durch das weltweite Paketdatenkommunikationsnetzwerk, jetzt gewöhnlich als das „Internet“ 328 bezeichnet, bereit. Sowohl das lokale Netzwerk 322 als auch das Internet 328 verwenden elektrische, elektromagnetische oder optische Signale, die digitale Datenströme führen. Die Signale durch die verschiedenen Netzwerke und die Signale auf dem Netzwerklink 320 und durch die Kommunikationsschnittstelle 318, die die digitalen Daten zu und von dem Computersystem 300 führen, sind beispielhafte Formen von Übertragungsmedien. In einer Ausführungsform enthält das Netzwerk 320 die Cloud 202 oder einen Teil der oben beschriebenen Cloud 202.
Das Computersystem 300 sendet Nachrichten und empfängt Daten, einschließlich Programmcode, durch das eine oder die mehreren Netzwerke, den Netzwerklink 320 und die Kommunikationsschnittstelle 318. In einer Ausführungsform empfängt das Computersystem 300 Code zur Verarbeitung. Der empfangene Code wird durch den Prozessor 304 wie empfangen ausgeführt und/oder in der Speicherungsvorrichtung 310 oder einer anderen nichtflüchtigen Speicherung zur späteren Ausführung gespeichert.
Architektur eines autonomen Fahrzeugs
4 zeigt eine beispielhafte Architektur 400 für ein autonomes Fahrzeug (z. B. das in 1 gezeigte AV 100). Die Architektur 400 beinhaltet ein Wahrnehmungsmodul 402 (manchmal als eine Wahrnehmungsschaltung bezeichnet), ein Planungsmodul 404 (manchmal als eine Planungsschaltung bezeichnet), ein Steuermodul 406 (manchmal als eine Steuerschaltung bezeichnet), ein Lokalisierungsmodul 408 (manchmal als eine Lokalisierungsschaltung bezeichnet) und ein Datenbankmodul 410 (manchmal als eine Datenbankschaltung bezeichnet). Jedes Modul spielt beim Betrieb des AV 100 eine Rolle. Zusammen können die Module 402, 404, 406, 408 und 410 Teil des in 1 gezeigten AV-Systems 120 sein. In manchen Ausführungsformen ist ein beliebiges der Module 402, 404, 406, 408 und 410 eine Kombination aus Computersoftware (z. B. ausführbarer Code, der auf einem computerlesbaren Medium gespeichert ist) und Computerhardware (z. B. ein(e) oder mehrere Mikroprozessoren, Mikrocontroller, anwendungsspezifische integrierte Schaltungen [ASICs]), Hardwarespeichervorrichtungen, anderen Arten von integrierten Schaltungen, anderen Arten von Computerhardware oder einer Kombination beliebiger oder aller dieser Dinge. Jedes der Module 402, 404, 406, 408 und 410 wird manchmal als eine Verarbeitungsschaltung (z. B. Computerhardware, Computersoftware oder eine Kombination der beiden) bezeichnet. Eine Kombination beliebiger oder aller der Module 402, 404, 406, 408 und 410 ist auch ein Beispiel für eine Verarbeitungsschaltung.
Im Gebrauch empfängt das Planungsmodul 404 Daten, die einen Bestimmungsort 412 repräsentieren, und bestimmt Daten, die eine Trajektorie 414 (manchmal als eine Route bezeichnet) repräsentieren, die von dem AV 100 gefahren werden kann, um den Bestimmungsort 412 zu erreichen (z. B. dort anzukommen). Damit das Planungsmodul 404 die Daten bestimmt, die die Trajektorie 414 repräsentieren, empfängt das Planungsmodul 404 Daten von dem Wahrnehmungsmodul 402, dem Lokalisierungsmodul 408 und dem Datenbankmodul 410.
Das Wahrnehmungsmodul 402 identifiziert naheliegende physische Objekte unter Verwendung eines oder mehrerer Sensoren 121, z. B. wie auch in 1 gezeigt. Das Wahrnehmungsmodul 402 beinhaltet die zuvor beschriebenen Segmentierungs- und Annotationsprozesse. Die Objekte werden klassifiziert (z. B. in Arten wie etwa Fußgänger, Fahrrad, Kraftfahrzeug, Verkehrszeichen usw. gruppiert) und dem Planungsmodul 404 wird eine Szenenbeschreibung einschließlich der klassifizierten Objekte 416 bereitgestellt.
Das Planungsmodul 404 empfängt auch Daten, die die AV-Position 418 repräsentieren, vom Lokalisierungsmodul 408. Das Lokalisierungsmodul 408 bestimmt die AV-Position unter Verwendung von Daten von den Sensoren 121 und Daten vom Datenbankmodul 410 (z. B. geografische Daten), um eine Position zu berechnen. Beispielsweise verwendet das Lokalisierungsmodul 408 Daten von einem GNSS-Sensor (GNSS: Global Navigation Satellite System - globales Satellitennavigationssystem) und geografische Daten, um einen Längengrad und Breitengrad des AV zu berechnen. In einer Ausführungsform beinhalten durch das Lokalisierungsmodul 408 verwendete Daten Hochpräzisionskarten der geometrischen Eigenschaften der Straße, Karten, die Konnektivitätseigenschaften des Straßennetzes beschreiben, Karten, die physische Eigenschaften der Straße beschreiben (wie etwa Verkehrsgeschwindigkeit, Verkehrsvolumen, die Anzahl von Fahrzeug- und Fahrradfahrer-Verkehrsspuren, Fahrspurbreite, Fahrspurverkehrsrichtungen oder Fahrspurmarkierungsarten und -orte oder Kombinationen von diesen), und Karten, die die räumlichen Orte von Straßenmerkmalen wie etwa Fußgängerüberwege, Verkehrszeichen oder andere Verkehrssignale verschiedener Arten beschreiben. In einer Ausführungsform werden die Hochpräzisionskarten erstellt, indem Daten durch automatische oder manuelle Annotation zu Karten mit niedriger Präzision hinzugefügt werden.
Das Steuermodul 406 empfängt die Daten, die die Trajektorie 414 repräsentieren, und die Daten, die die AV-Position 418 repräsentieren, und betreibt die Steuerfunktionen 420a-c (z. B. Lenkung, Gasgeben, Bremsung, Zündung) des AV auf eine Weise, die bewirken wird, dass das AV 100 auf der Trajektorie 414 zu dem Bestimmungsort 412 fährt. Falls beispielsweise die Trajektorie 414 eine Linksabbiegung beinhaltet, wird das Steuermodul 406 die Steuerfunktionen 420a-c auf eine solche Weise betreiben, dass der Lenkwinkel der Lenkfunktion bewirken wird, dass das AV 100 nach links abbiegt, und die Bremsung bewirken wird, dass das AV 100 pausiert und auf passierende Fußgänger oder Fahrzeuge wartet, bevor die Abbiegung vorgenommen wird.
Eingaben in ein autonomes Fahrzeug
5 zeigt ein Beispiel von Eingaben 502a-d (z. B. in 1 gezeigte Sensoren 121) und Ausgaben 504a-d (z. B. Sensordaten), die durch das Wahrnehmungsmodul 402 (4) verwendet werden. Eine Eingabe 502a beinhaltet Daten, die von einem LiDAR-System (LiDAR: Light Detection and Ranging - Lichtdetektion und -entfernungsmessung) empfangen werden (z. B. das in 1 gezeigte LiDAR 123). LiDAR ist eine Technologie, die elektromagnetische Strahlung (z. B. Licht oder Bursts von Licht wie etwa Infrarotlicht) verwendet, um Daten über physische Objekte in seiner Sichtlinie zu erhalten. Ein LiDAR-System erzeugt LiDAR-Ausgaben als die Ausgabe 504a. Beispielsweise sind LiDAR-Daten eine Sammlung von 3D- oder 2D-Punkten (auch als eine Punktcluster bekannt), die zum Erstellen einer Repräsentation der Umgebung 190 verwendet werden.
In manchen Ausführungsformen beinhaltet das LiDAR-System mindestens einen Laserentfernungsmesser, der durch einen rotierenden Spiegel reflektiert wird. Der rotierende Spiegel ist dazu ausgelegt, entlang eines Azimuts des LiDAR-Systems zu rotieren, das typischerweise am AV befestigt ist. Auf diese Weise wird der rotierende Spiegel rotiert, wodurch die Sammlung von Punkten entlang des Azimuts erzeugt wird, was manchmal als ein LiDAR-Scan der Umgebung 190 bezeichnet wird. In manchen Ausführungsformen kann der rotierende Spiegel geneigt werden, um einen LiDAR-Scan zu erzeugen, der ein 360°-Sichtfeld der Umgebung 190 um das LiDAR-System herum repräsentiert. Auf diese Weise repräsentiert der LiDAR-Scan eine Eins-zu-Eins-Abbildung eines mit einem Punkt in der Umgebung 190 assoziierten Abstands auf Polarkoordinaten des LiDAR-Systems (z. B. einen Azimutwinkel und einen Neigungswinkel). In manchen Ausführungsformen werden mehrere LiDAR-Scans durch das Wahrnehmungsmodul 402 durchgeführt, um einen Gesamtdurchschnitt der Abstände zu erzeugen, die mit den Punktclustern in der Umgebung 190 assoziiert sind. In manchen Ausführungsformen werden zum Beispiel fünf LiDAR-Scans nacheinander durchgeführt und die mit den Punktclustern assoziierten Abstände werden gemittelt. In manchen Ausführungsformen werden fünf LiDAR-Scans nacheinander durchgeführt und die mit den Punktclustern assoziierten Abstände werden mit den LiDAR-Daten verkettet, um die Umgebung 190 unter Verwendung von mehr Punktclustern zu repräsentieren (d. h. die LiDAR-Datenrepräsentation der Umgebung 190 ist mit mehr als einem LiDAR-Scan „voller“ oder „dichter“ als mit nur einem LiDAR-Scan). Obwohl hier fünf LiDAR-Scans als ein Beispiel verwendet werden, können mehr oder weniger als fünf Scans nacheinander durchgeführt werden. In manchen Ausführungsformen werden LiDAR-Scans kontinuierlich durch das Wahrnehmungsmodul 402 durchgeführt und analysiert.
Eine andere Eingabe 502b ist ein RADAR-System. RADAR ist eine Technologie, die Funkwellen verwendet, um Daten über naheliegende physische Objekte zu erhalten. RADARs können Daten über Objekte erhalten, die sich nicht innerhalb der Sichtlinie eines LiDAR-Systems befinden. Ein RADAR-System 502b erzeugt RADAR-Ausgaben als die Ausgabe 504b. Beispielsweise sind RADAR-Daten ein oder mehrerer elektromagnetische Hochfrequenzsignale, die zum Erstellen einer Repräsentation der Umgebung 190 verwendet werden.
Eine andere Eingabe 502c ist ein Kamerasystem. Ein Kamerasystem verwendet eine oder mehrere Kameras (z. B. Digitalkameras, die einen Lichtsensor wie etwa eine CCD [Charge-Coupled Device] verwenden), um Informationen über naheliegende physische Objekte zu erhalten. Ein Kamerasystem erzeugt Kameraausgaben als die Ausgabe 504c. Kameradaten nehmen häufig die Form von Bilddaten an (z. B. Daten in einem Bilddatenformat wie etwa RAW, JPEG, PNG usw.). In manchen Beispielen weist das Kamerasystem mehrere unabhängige Kameras auf, z. B. für den Zweck von Stereopsis (Stereosehen), was es dem Kamerasystem ermöglicht, Tiefe wahrzunehmen. Obwohl die durch das Kamerasystem wahrgenommenen Objekte hier als „naheliegend“ beschrieben werden, ist dies relativ zu dem AV. Im Gebrauch kann das Kamerasystem dazu ausgelegt sein, ferne Objekte, z. B. bis zu einem Kilometer oder mehr vor dem AV, zu „sehen“. Dementsprechend kann das Kamerasystem Merkmale wie etwa Sensoren und Objektive aufweisen, die zur Wahrnehmung von weit entfernten Objekten optimiert sind.
Eine andere Eingabe 502d ist ein Ampeldetektionssystem (TLD-System; TLD: Traffic Light Detection). Ein TLD-System verwendet eine oder mehrere Kameras, um Informationen über Ampeln, Straßenzeichen und andere physische Objekte, die visuelle Navigationsinformationen bereitstellen, zu erhalten. Ein TLD-System erzeugt TLD-Ausgaben als die Ausgabe 504d. TLD-Daten nehmen häufig die Form von Bilddaten an (z. B. Daten in einem Bilddatenformat wie etwa RAW, JPEG, PNG usw.). Ein TLD-System unterscheidet sich von einem System, dass eine Kamera einbezieht, darin, dass ein TLD-System eine Kamera mit einem weiten Sichtfeld (z. B. unter Verwendung eines Weitwinkelobjektivs oder Fischaugenobjektivs) verwendet, um Informationen über so viele physische Objekte, die visuelle Navigationsinformationen bereitstellen, wie möglich zu erhalten, sodass das AV 100 Zugriff auf alle relevanten Navigationsinformationen hat, die durch diese Objekte bereitgestellt werden. Beispielsweise kann der Sichtwinkel des TLD-Systems etwa 120 Grad oder mehr betragen.
In manchen Ausführungsformen werden die Ausgaben 504a-d unter Verwendung einer Sensorfusionstechnik kombiniert. Somit werden entweder die individuellen Ausgaben 504a-d anderen Systemen des AV 100 bereitgestellt (z. B. einem Planungsmodul 404 wie in 4 gezeigt bereitgestellt) oder die kombinierte Ausgabe kann anderen Systemen bereitgestellt werden, entweder in der Form einer einzelnen kombinierten Ausgabe oder mehrerer kombinierter Ausgaben des gleichen Typs (z. B. unter Verwendung der gleichen Kombinationstechnik oder Kombinieren der gleichen Ausgaben oder beides) oder unterschiedlicher Typen (z. B. unter Verwendung unterschiedlicher jeweiliger Kombinationstechniken oder Kombinieren unterschiedlicher jeweiliger Ausgaben oder beides). In manchen Ausführungsformen wird eine Frühfusionstechnik verwendet. Eine Frühfusionstechnik ist dadurch gekennzeichnet, dass sie Ausgaben kombiniert, bevor ein oder mehrere Datenverarbeitungsschritte an der kombinierten Ausgabe angewendet werden. In manchen Ausführungsformen wird eine Spätfusionstechnik verwendet. Eine Spätfusionstechnik ist dadurch gekennzeichnet, dass sie Ausgaben kombiniert, nachdem ein oder mehrere Datenverarbeitungsschritte an den individuellen Ausgaben angewendet werden.
6 zeigt ein Beispiel für ein LiDAR-System 602 (z. B. die in 5 gezeigte Eingabe 502a). Das LiDAR-System 602 emittiert Licht 604a-c von einem Lichtemitter 606 (z. B. einem Lasersender). Durch ein LiDAR-System emittiertes Licht liegt typischerweise nicht im sichtbaren Spektrum; beispielsweise wird häufig Infrarotlicht verwendet. Ein Teil des emittierten Lichts 604b trifft auf ein physisches Objekt 608 (z. B. ein Fahrzeug) und wird zurück zu dem LiDAR-System 602 reflektiert. (Von einem LiDAR-System emittiertes Licht dringt typischerweise nicht in physische Objekte, z. B. physische Objekte im festen Zustand, ein.) Das LiDAR-System 602 weist auch einen oder mehrere Lichtdetektoren 610 auf, die das reflektierte Licht detektieren. In einer Ausführungsform erzeugen ein oder mehrere mit dem LiDAR-System assoziierte Datenverarbeitungssysteme ein Bild 612, das das Sichtfeld 614 des LiDAR-Systems repräsentiert. Das Bild 612 beinhaltet Informationen, die die Grenzen 616 eines physischen Objekts 608 repräsentieren. Auf diese Weise wird das Bild 612 zum Bestimmen der Grenzen 616 eines oder mehrerer physischer Objekte in der Nähe eines AV verwendet.
7 zeigt das LiDAR-System 602 im Betrieb. In dem in dieser Figur gezeigten Szenario empfängt das AV 100 sowohl die Kamerasystemausgabe 504c in der Form eines Bildes 702 als auch die LiDAR-Systemausgabe 504a in der Form von LiDAR-Datenpunkten 704. Im Gebrauch vergleichen die Datenverarbeitungssysteme des AV 100 das Bild 702 mit den Datenpunkten 704. Insbesondere wird ein im Bild 702 identifiziertes physisches Objekt 706 auch unter den Datenpunkten 704 identifiziert. Auf diese Weise nimmt das AV 100 die Grenzen des physischen Objekts basierend auf der Kontur und der Dichte der Datenpunkte 704 wahr.
8 zeigt den Betrieb des LiDAR-Systems 602 mit zusätzlichen Einzelheiten. Wie oben beschrieben, detektiert das AV 100 die Grenze eines physischen Objekts basierend auf Charakteristiken der durch das LiDAR-System 602 detektierten Datenpunkte. Wie in 8 gezeigt, wird ein flaches Objekt, wie etwa der Boden 802, Licht 804a-d, das von einem LiDAR-System 602 emittiert wird, auf konsistente Weise reflektieren. Anders ausgedrückt wird, da das LiDAR-System 602 Licht unter Verwendung eines konsistenten Abstands emittiert, der Boden 802 Licht zurück zu dem LiDAR-System 602 mit dem gleichen konsistenten Abstand reflektieren. Während das AV 100 über den Boden 802 fährt, wird das LiDAR-System 602 damit fortfahren, vom nächsten gültigen Bodenpunkt 806 reflektiertes Licht zu detektieren, falls nichts die Straße blockiert. Falls jedoch ein Objekt 808 die Straße blockiert, wird durch das LiDAR-System 602 emittiertes Licht 804e-f von Punkten 810a-b auf eine Weise reflektiert, die mit der erwarteten konsistenten Weise inkonsistent ist. Aus diesen Informationen kann das AV 100 bestimmen, dass das Objekt 808 vorhanden ist.
Pfadplanung
9 zeigt ein Blockdiagramm 900 der Beziehungen zwischen Eingaben und Ausgaben eines Planungsmoduls 404 (z. B. wie in 4 gezeigt). Im Allgemeinen ist die Ausgabe eines Planungsmoduls 404 eine Route 902 von einem Startpunkt 904 (z. B. einen Ursprungsort oder Anfangsort) zu einem Endpunkt 906 (z. B. Bestimmungsort oder Endort). Die Route 902 wird typischerweise durch ein oder mehrere Segmente definiert. Beispielsweise ist ein Segment eine zu fahrende Distanz über zumindest einen Teil einer Straße, Landstraße, Autobahn, Einfahrt oder anderen physischen Bereich, der für eine Kraftfahrzeugfahrt geeignet ist. In manchen Beispielen, z. B. falls das AV 100 ein geländegängiges Fahrzeug ist, wie etwa ein Auto mit Vierradantrieb (4WD) oder Allradantrieb (AWD), ein Geländewagen, ein Pick-Up-Truck oder dergleichen, beinhaltet die Route 902 „Gelände“-Segmente wie etwa unbefestigte Wege oder offene Felder.
Zusätzlich zu der Route 902 gibt ein Planungsmodul auch Planungsdaten 908 auf Spurebene aus. Die Planungsdaten 908 auf Spurebene werden verwendet, um Segmente der Route 902 basierend auf Bedingungen des Segments zu einer bestimmten Zeit zu durchfahren. Falls die Route 902 beispielsweise eine mehrspurige Autobahn beinhaltet, beinhalten die Planungsdaten 908 auf Spurebene Trajektorieplanungsdaten 910, die das AV 100 verwenden kann, um eine Spur unter den mehreren Spuren zu wählen, z. B. basierend darauf, ob sich einer Ausfahrt genähert wird, ob eine oder mehrere der Spuren andere Fahrzeuge aufweisen, oder anderen Faktoren, die über den Verlauf einiger weniger Minuten oder weniger variieren. In manchen Implementierungen beinhalten die Planungsdaten 908 auf Spurebene gleichermaßen Geschwindigkeitsbeschränkungen 912, die für ein Segment der Route 902 spezifisch sind. Falls beispielsweise das Segment Fußgänger oder unerwarteten Verkehr beinhaltet, können die Geschwindigkeitsbeschränkungen 912 das AV 100 auf eine Fahrgeschwindigkeit langsamer als eine erwartete Geschwindigkeit beschränken, z. B. eine Geschwindigkeit basierend auf Geschwindigkeitsbegrenzungsdaten für das Segment.
In einer Ausführungsform beinhalten die Eingaben in das Planungsmodul 404 Datenbankdaten 914 (z. B. von dem in 4 gezeigten Datenbankmodul 410), aktuelle Standortdaten 916 (z. B. die in 4 gezeigte AV-Position 418), Bestimmungsortdaten 918 (z. B. für den in 4 gezeigten Bestimmungsort 412) und Objektdaten 920 (z. B. die klassifizierten Objekte 416, wie durch das Wahrnehmungsmodul 402 wahrgenommen, wie in 4 gezeigt). In manchen Ausführungsformen beinhalten die Datenbankdaten 914 bei der Planung verwendete Regeln. Regeln werden unter Verwendung einer formellen Sprache spezifiziert, z. B. unter Verwendung boolescher Logik. In einer beliebigen durch das AV 100 angetroffenen gegebenen Situation werden zumindest manche der Regeln auf die Situation zutreffen. Eine Regel trifft auf eine gegebene Situation zu, falls die Regel Bedingungen aufweist, die basierend auf Informationen erfüllt sind, die dem AV 100 zur Verfügung stehen, z. B. Informationen über die umliegende Umgebung. Regeln können Priorität haben. Zum Beispiel kann eine Regel, die besagt „falls die Straße eine Schnellstraße ist, zu der Spur am weitesten links bewegen“, eine geringere Priorität aufweisen als „falls die Ausfahrt innerhalb einer Meile ist, zu der Spur am weitesten rechts bewegen“.
10 zeigt einen gerichteten Graphen 1000, der bei der Pfadplanung verwendet wird, z. B. durch das Planungsmodul 404 (4). Im Allgemeinen wird ein gerichteter Graph 1000, wie der in 10 gezeigte, zum Bestimmen eines Pfades zwischen einem beliebigen Startpunkt 1002 und einem Endpunkt 1004 verwendet. In der realen Welt kann die den Startpunkt 1002 und den Endpunkt 1004 trennende Distanz relativ groß sein (z. B. in zwei unterschiedlichen Großstadtgebieten) oder kann relativ klein sein (z. B. zwei Kreuzungen, die an einen Häuserblock angrenzen, oder zwei Fahrspuren einer mehrspurigen Straße).
In einer Ausführungsform weist der gerichtete Graph 1000 Knoten 1006a-d auf, die unterschiedliche Standorte zwischen dem Startpunkt 1002 und dem Endpunkt 1004 repräsentieren, die durch ein AV 100 belegt werden könnten. In manchen Beispielen, z. B. wenn der Startpunkt 1002 und der Endpunkt 1004 unterschiedliche Großstadtgebiete repräsentieren, repräsentieren die Knoten 1006a-d Segmente von Straßen. In manchen Beispielen, z. B. wenn der Startpunkt 1002 und der Endpunkt 1004 unterschiedliche Orte auf derselben Straße repräsentieren, repräsentieren die Knoten 1006a-d unterschiedliche Positionen auf dieser Straße. Auf diese Weise beinhaltet der gerichteten Graph 1000 Informationen bei unterschiedlichen Granularitätsstufen. In einer Ausführungsform ist ein gerichteter Graph mit hoher Granularität auch ein Teilgraph eines anderen gerichteten Graphen mit einem größeren Maßstab. Beispielsweise weist ein gerichteter Graph, in dem der Startpunkt 1002 und der Endpunkt 1004 weit voneinander entfernt sind (z. B. mehrere Meilen getrennt), den Großteil seiner Informationen mit niedriger Granularität auf und basiert auf gespeicherten Daten, beinhaltet aber auch einige hochgranulare Informationen für den Abschnitt des Graphen, der physische Orte im Sichtfeld des AV 100 repräsentiert.
Die Knoten 1006a-d unterscheiden sich von Objekten 1008a-d, die einen Knoten nicht überlappen können. In einer Ausführungsform, wenn die Granularität niedrig ist, repräsentieren die Objekte 1008a-d Gebiete, die nicht durch ein Kraftfahrzeug durchfahren werden können, z. B. Bereiche, die keine Straßen oder Landstraßen aufweisen. Wenn die Granularität hoch ist, repräsentieren die Objekte 1008a-d physische Objekte im Sichtfeld des AV 100, z. B. andere Kraftfahrzeuge, Fußgänger oder andere Entitäten, mit denen das AV 100 keinen physischen Raum teilen kann. In einer Ausführungsform sind manche oder alle der Objekte 1008a-b statische Objekte (z. B. ein Objekt, das seine Position nicht ändert, wie etwa eine Straßenlampe oder Strommast) oder dynamische Objekte (z. B. ein Objekt, das in der Lage ist, seine Position zu ändern, wie etwa ein Fußgänger oder ein anderes Auto).
Die Knoten 1006a-d sind durch Kanten 1010a-c verbunden. Falls zwei Knoten 1006a-b durch eine Kante 1010a verbunden sind, ist es für ein AV 100 möglich, zwischen einem Knoten 1006a und dem anderen Knoten 1006b zu fahren, ohne z. B. zu einem Zwischenknoten fahren zu müssen, bevor es an dem anderen Knoten 1006b ankommt. (Wenn Bezug auf ein AV 100 genommen wird, das zwischen Knoten fährt, bedeutet dies, dass das AV 100 zwischen den beiden physischen Positionen fährt, die durch die jeweiligen Knoten repräsentiert werden.) Die Kanten 1010a-c sind häufig in dem Sinne bidirektional, dass ein AV 100 von einem ersten Knoten zu einem zweiten Knoten oder vom zweiten Knoten zum ersten Knoten fährt. In einer Ausführungsform sind die Kanten 1010a-c in dem Sinne unidirektional, dass ein AV 100 von einem ersten Knoten zu einem zweiten Knoten fahren kann, das AV 100 jedoch nicht vom zweiten Knoten zum ersten Knoten fahren kann. Die Kanten 1010a-c sind unidirektional, wenn sie beispielsweise Einbahnstraßen, individuelle Fahrspuren einer Straße, Landstraße oder Autobahn oder andere Merkmale, auf denen aufgrund rechtlicher oder physischer Beschränkungen nur in einer Richtung gefahren 1010a-c sind, repräsentieren.
In einer Ausführungsform verwendet das Planungsmodul 404 den gerichteten Graphen 1000, um einen Pfad 1012 zu identifizieren, der aus Knoten und Kanten zwischen dem Startpunkt 1002 und dem Endpunkt 1004 besteht.
Eine Kante 1010a-c weist assoziierte Kosten 1014a-b auf. Die Kosten 1014a-b sind ein Wert, der die Ressourcen repräsentiert, die verbraucht werden, falls das AV 100 diese Kante wählt. Eine typische Ressource ist Zeit. Falls beispielsweise eine Kante 1010a eine physische Distanz repräsentiert, die zweimal so hoch ist wie eine andere Kante 1010b, dann können die assoziierten Kosten 1014a der ersten Kante 1010a zweimal so hoch sein wie die assoziierten Kosten 1014b der zweiten Kante 1010b. Andere Faktoren, die Zeit beeinflussen, beinhalten erwarteter Verkehr, Anzahl von Kreuzungen, Geschwindigkeitsbegrenzung usw. Eine andere typische Ressource ist Kraftstoffeffizienz. Zwei Kanten 1010a-b können die gleiche physische Distanz repräsentieren, aber eine Kante 1010a kann mehr Kraftstoff erfordern als eine andere Kante 1010b, z. B. aufgrund von Straßenbedingungen, erwartetem Wetter usw.
Wenn das Planungsmodul 404 einen Pfad 1012 zwischen dem Startpunkt 1002 und dem Endpunkt 1004 identifiziert, wählt das Planungsmodul 404 typischerweise einen Pfad, der für Kosten optimiert ist, z. B. den Pfad, der die geringsten Gesamtkosten aufweist, wenn die individuellen Kosten der Kanten addiert werden.
Steuerung eines autonomen Fahrzeugs
11 zeigt ein Blockdiagramm 1100 der Eingaben und Ausgaben eines Steuermoduls 406 (z. B. wie in 4 gezeigt). Ein Steuermodul arbeitet gemäß einer Steuerung 1102, die beispielsweise einen oder mehrere Prozessoren (z. B. einen oder mehrere Computerprozessoren wie etwa Mikroprozessoren oder Mikrocontroller oder beide) ähnlich dem Prozessor 304, Kurzzeit- und/oder Langzeit-Datenspeicherung (z. B. Speicher-Direktzugriffsspeicher oder Flash-Speicher oder beide) ähnlich dem Hauptspeicher 306, ROM 308 und eine Speicherungsvorrichtung 310 und in Speicher gespeicherte Anweisungen, die Operationen der Steuerung 1102 ausführen, wenn die Anweisungen ausgeführt werden (z. B. durch den einen oder die mehreren Prozessoren), beinhaltet.
In einer Ausführungsform empfängt die Steuerung 1102 Daten, die eine gewünschte Ausgabe 1104 repräsentieren. Die gewünschte Ausgabe 1104 beinhaltet typischerweise eine vektorielle Geschwindigkeit, z. B. eine Geschwindigkeit und einen Steuerkurs. Die gewünschte Ausgabe 1104 kann zum Beispiel auf Daten basieren, die von einem Planungsmodul 404 (z. B. wie in 4 gezeigt) empfangen werden. Gemäß der gewünschten Ausgabe 1104 erzeugt die Steuerung 1102 Daten, die als eine Gaspedaleingabe 1106 und eine Lenkeingabe 1108 verwendbar sind. Die Gaspedaleingabe 1106 repräsentiert die Stärke, mit der das Gaspedal (z. B. Beschleunigungssteuerung) eines AV 100 zu betätigen ist, z. B. durch Betätigen des Lenkpedals oder Betätigen einer anderen Gaspedalsteuerung, um die gewünschte Ausgabe 1104 zu erreichen. In manchen Beispielen beinhaltet die Gaspedaleingabe 1106 auch Daten, die zum Betätigen der Bremse (z. B. Abbremsungssteuerung) des AV 100 verwendbar sind. Die Lenkeingabe 1108 repräsentiert einen Lenkwinkel, z. B. den Winkel, bei dem die Lenksteuerung (z. B. Lenkrad, Lenkwinkelaktor oder andere Funktionalität zum Steuern des Lenkwinkels) des AV positioniert werden sollte, um die gewünschte Ausgabe 1104 zu erreichen.
In einer Ausführungsform empfängt die Steuerung 1102 eine Rückmeldung, die beim Anpassen der Eingaben, die dem Gaspedal und der Lenkung bereitgestellt werden, verwendet wird. Falls das AV 100 beispielsweise auf eine Beeinträchtigung 1110 trifft, wie etwa einen Hügel, wird die gemessene Geschwindigkeit 1112 des AV 100 unter die gewünschte Ausgabegeschwindigkeit reduziert. In einer Ausführungsform wird eine jegliche gemessene Ausgabe 1114 der Steuerung 1102 bereitgestellt, sodass die notwendigen Anpassungen durchgeführt werden, z. B. basierend auf dem Unterschied 1113 zwischen der gemessenen Geschwindigkeit und der gewünschten Ausgabe. Die gemessene Ausgabe 1114 beinhaltet eine gemessene Position 1116, eine gemessene vektorielle Geschwindigkeit 1118 (einschließlich Geschwindigkeit und Steuerkurs), eine gemessene Beschleunigung 1120 und andere Ausgaben, die durch Sensoren des AV 100 messbar sind.
In einer Ausführungsform werden Informationen über die Beeinträchtigung 1110 im Voraus detektiert, z. B. durch einen Sensor wie etwa eine Kamera oder einen LiDAR-Sensor, und einem prädiktiven Rückmeldungsmodul 1122 bereitgestellt. Das prädiktive Rückmeldungsmodul 1122 stellt dann der Steuerung 1102 Informationen bereit, die die Steuerung 1102 für ein entsprechendes Anpassen verwenden kann. Falls die Sensoren des AV 100 beispielsweise einen Hügel detektieren („sehen“), können diese Informationen durch die Steuerung 1102 verwendet werden, um eine Vorbereitung zu treffen, das Gaspedal zu der zweckmäßigen Zeit zu betätigen, um eine signifikante Verlangsamung zu vermeiden.
12 zeigt ein Blockdiagramm 1200 der Eingaben, Ausgaben und Komponenten der Steuerung 1102. Die Steuerung 1102 weist einen Geschwindigkeitsprofilersteller 1202 auf, der den Betrieb einer Gaspedal-/Bremssteuerung 1204 beeinflusst. Beispielsweise weist der Geschwindigkeitsprofilersteller 1202 die Gaspedal-/Bremssteuerung 1204 an, Beschleunigung oder Abbremsung unter Verwendung des Gaspedals/der Bremse 1206 in Abhängigkeit von z. B. einer Rückmeldung, die durch die Steuerung 1102 empfangen und durch den Geschwindigkeitsprofilersteller 1202 verarbeitet wird, zu betätigen.
Die Steuerung 1102 weist auch eine Lateralverfolgungssteuerung 1208 auf, die den Betrieb einer Lenksteuerung 1210 beeinflusst. Beispielsweise weist die Lateralverfolgungssteuerung 1208 die Lenksteuerung 1210 an, die Position des Lenkwinkelaktors 1212 in Abhängigkeit von z. B. einer Rückmeldung, die durch die Steuerung 1102 empfangen und durch die Lateralverfolgungssteuerung 1208 verarbeitet wird, anzupassen.
Die Steuerung 1102 empfängt mehrere Eingaben, die verwendet werden, um zu bestimmen, wie das Gaspedal/die Bremse 1206 und der Lenkwinkelaktor 1212 zu steuern sind. Ein Planungsmodul 404 stellt Informationen bereit, die durch die Steuerung 1102 verwendet werden, um zum Beispiel einen Steuerkurs zu wählen, wenn das AV 100 den Betrieb beginnt, und um zu bestimmen, welches Straßensegment zu durchfahren ist, wenn das AV 100 eine Kreuzung erreicht. Ein Lokalisierungsmodul 408 stellt der Steuerung 1102 Informationen bereit, die den aktuellen Standort des AV 100 beschreiben, sodass die Steuerung 1102 beispielsweise bestimmen kann, ob sich das AV 100 an einem erwarteten Standort befindet, basierend auf der Art und Weise, mit der das Gaspedal/die Bremse 1206 und der Lenkwinkelaktor 1212 gesteuert werden. In einer Ausführungsform empfängt die Steuerung 1102 Informationen von anderen Eingaben 1214, z. B. Informationen, die von Datenbanken, Computernetzwerken usw. empfangen werden.
Zusammenführen von LiDAR-Informationen und Kamerainformationen
Wie in 13A gezeigt, beinhaltet ein Fahrzeug 1302 ein LiDAR-System 1304. In manchen Ausführungsformen ist das LiDAR-System 1304 des Fahrzeugs 1302 das gleiche oder ähnlich wie das LiDAR-System 602 des AV 100. In manchen Ausführungsformen werden eine oder mehrere der Funktionen, die bezüglich des Betriebs des Fahrzeugs 1302 beschrieben sind, durch mindestens einen Prozessor eines Bildzusammenführungssystems 1350 des Fahrzeugs 1302 (z. B. teilweise, vollständig usw.) durchgeführt. In manchen Ausführungsformen ist der mindestens eine Prozessor der gleiche oder ähnlich wie die Rechenvorrichtungen 146 des AV 100. Zusätzlich oder alternativ werden eine oder mehrere der Funktionen, die bezüglich des Betriebs des Fahrzeugs 1302 beschrieben sind, durch einen Prozessor eines Fernservers (z. B. vollständig, teilweise usw.) durchgeführt. In manchen Ausführungsformen ist der Fernserver der gleiche oder ähnlich wie der Cloud-Server 136. In manchen Ausführungsformen ist der Fernserver der gleiche oder ähnlich wie die Cloud-Rechenumgebung 200.
Das mindestens eine LiDAR-System 1304 emittiert elektromagnetische Strahlung in Form von Licht innerhalb eines Sichtfeldes 1306 des LiDAR-Systems 1304. Das Licht wird dann von einem Objekt 1300 (z. B. einer Ampel) reflektiert und durch das LiDAR-System 1304 empfangen. Auf diese Weise detektiert das LiDAR-System 1304 elektromagnetische Strahlung, die von Objekten 1300 in der Nähe (z. B. 1 Meter, 2 Meter oder ein anderer Abstand) des Fahrzeugs 1302 reflektiert wird, und erzeugt LiDAR-Informationen basierend auf der detektierten elektromagnetischen Strahlung. Das LiDAR-System 1304 steht in Kommunikation mit dem Bildzusammenführungssystem 1350 des Fahrzeugs 1302 und LiDAR-Informationen werden zu dem Bildzusammenführungssystem 1350 zur Verarbeitung übertragen (z. B. wird ein Signal durch den mindestens einen Prozessor des Bildzusammenführungssystems 1350 vom LiDAR-System 1304 empfangen, das die LiDAR-Informationen repräsentiert). Auf diese Weise analysiert das Bildzusammenführungssystem 1350 die empfangenen LiDAR-Informationen, um Objekte 1300 in der Nähe des Fahrzeugs 1302 zu detektieren. In manchen Fällen erzeugt das LiDAR-System 1304 LiDAR-Informationen, die mit einer Punktwolke assoziiert sind, basierend darauf, dass das LiDAR-System 1304 reflektiertes Licht empfängt. In manchen Fällen überträgt das LiDAR-System 1304 die LiDAR-Informationen, die mit der Punktwolke assoziiert sind, zu dem Bildzusammenführungssystem 1350 des Fahrzeugs 1302. Das Bildzusammenführungssystem 1350 erzeugt ein LiDAR-Bild (z. B. wie in 13B gezeigt) basierend auf den empfangenen LiDAR-Informationen.
13B ist ein Beispiel für ein LiDAR-Bild 1320, das (i) den Steuerkurs (z. B. Nicken und Gieren des LiDAR-Systems 1304) jedes LiDAR-Punktes der LiDAR-Informationen relativ zu dem Fahrzeug 1302 in einem 2D-dimensionalen Koordinatenrahmen und (ii) den Abstand jedes LiDAR-Punktes vom Fahrzeug 1302 als eine relative Intensität jedes LiDAR-Punktes repräsentiert. Die relative Intensität wird unter Verwendung einer Schattierungsskala repräsentiert. Beispielsweise wird ein Objekt am nächsten zu dem LiDAR-System 1304 (und dem Fahrzeug 1302) unter Verwendung einer ersten Schattierung 1308 dargestellt, ein Objekt am weitesten entfernt wird unter Verwendung einer zweiten Schattierung 1310 dargestellt und Objekte zwischen diesen beiden Abständen werden unter Verwendung einer interpolierten Schattierung dargestellt. Teile des LiDAR-Bildes 1312 ohne Schattierung 1312 empfingen keine wesentlichen Lichtreflexionen.
In manchen Ausführungsformen bestimmt das LiDAR-System 1304, dass eine Reflexion eines LiDAR-Punktes wesentlich ist, wenn ein Signalverhältnis von empfangenem Licht relativ zu übertragenem Licht größer oder gleich einem Schwellenwert ist. Zusätzlich oder alternativ bestimmt das LiDAR-System 1304 in manchen Ausführungsformen, dass eine Reflexion eines LiDAR-Punktes nicht wesentlich ist, wenn das Signalverhältnis kleiner oder gleich dem Schwellenwert ist. In manchen Beispielen, wenn das LiDAR-System 1304 Licht mit Einheitsleistung überträgt und Licht mit weniger als einem Millionstel der Einheitsleistung des übertragenen Lichts empfängt, wird die empfangene Reflexion als unwesentlich angesehen (z. B. weniger als -60 dB unter Verwendung der Formel 10log₁₀(empfangenes Signal/übertragenes Signal)). Die Teile des LiDAR-Bildes 1320, die nicht mit den LiDAR-Informationen 1312 assoziiert sind, befinden sich unter dem Schwellenwert.
In manchen Ausführungsformen ist der Schwellenwert variabel, um einem sich ändernden Rauschboden oder dem LiDAR-System 1304 entgegenzukommen (z. B. elektronisches Rauschen, Analog-Digital-Wandlung, HF-Störung usw.). Das Signal-RauschVerhältnis (SNR) basiert auf dem Rauschboden. In manchen Beispielen ist elektronischen Rauschen so groß (z. B. von einem Erdungsproblem), dass das LiDAR-System 1304 empfangene Signale (und daher empfangene LiDAR-Informationen) von dem elektronischen Rauschen nicht unterscheiden kann. Infolgedessen wird die Schwelle in diesem Fall basierend auf dem elektronischen Rauschen über das elektronische Rauschen erhöht.
In manchen Ausführungsformen ist der Schwellenwert variabel, um einer sich ändernden Umgebung des LiDAR-Systems 1304 entgegenzukommen (z. B. während sich das Fahrzeug 1302 durch die Umgebung bewegt). In manchen Beispielen beinhaltet die Umgebung 1302 Strukturen, die Licht nicht gut reflektieren (z. B. nicht reflektierende Strukturen, überhaupt keine Strukturen usw.), und infolgedessen werden keine wesentlichen Signale durch das LiDAR-System 1304 empfangen. In diesem Fall wird die Schwelle so erhöht, dass die Strukturen durch das LiDAR-System 1304 besser aufgelöst werden.
13B zeigt zwei Gebiete 1314, 1316, die Ampeln repräsentieren, die an horizontalen Masten an einer Kreuzung befestigt sind. Die Ampeln werden unter Verwendung mehrerer LiDAR-Punkte der LiDAR-Informationen aufgelöst. In diesem Szenario wird eine Sammlung eines oder mehrerer LiDAR-Punkte als ein LiDAR-Punktcluster repräsentiert. In manchen Ausführungsformen wird ein LiDAR-Punktcluster durch das Bildzusammenführungssystem 1350 basierend auf einem Steuerkurs (z. B. Nicken und Gieren) relativ zu dem Fahrzeug 1302 jedes jeweiligen LiDAR-Punktes und einem Abstand vom Fahrzeug 1302 zu jedem jeweiligen LiDAR-Punkt bestimmt. In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350, dass vier LiDAR-Punktcluster von Objekten (z. B. die beiden Ampeln im Gebiet 1314 und die beiden Ampeln im Gebiet 1316) in den LiDAR-Informationen vorhanden sind.
Das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 bestimmt den Steuerkurs und den Abstand vom Fahrzeug 1302 zu jedem der LiDAR-Punktcluster der LiDAR-Informationen. In manchen Beispielen wird eine Orientierung basierend auf den Steuerkurs- und Abstandsinformationen bestimmt. In manchen Beispielen repräsentiert die Orientierung eine Richtung, in die das Objekt zeigt. Beispielsweise sind Verkehrssignale (z. B. rote, gelbe, grüne Lichter usw.) einer Ampel in die Richtung gerichtet, in die die Ampel zeigt (z. B. in Richtung ihr entgegenkommender Fahrzeuge). Als ein anderes Beispiel beinhaltet ein Stoppschild eine Oberfläche mit einem Signal oder einer Nachricht, das/die in eine Richtung normal zu der Oberfläche (z. B. in Richtung ihr entgegenkommender Fahrzeuge) gesehen werden soll. In diesem Szenario repräsentiert die Orientierung eine Richtung normal zu der Ebene der Oberfläche mit dem Signal oder der Nachricht. In manchen Beispielen wird ein Durchschnittswert des Steuerkurses, des Abstands und der Orientierung jedes jeweiligen LiDAR-Punktes durch das Bildzusammenführungssystem 1350 verwendet, um den Steuerkurs, den Abstand und die Orientierung des LiDAR-Punktclusters zu bestimmen. In manchen Beispielen beinhaltet dieser Durchschnittswert des Steuerkurses und der Orientierung einen Abstand vom LiDAR-System 1304 zu einem oder mehreren Teilen einer Oberfläche eines Objekts.
Auf diese Weise gibt der Ort (z. B. Steuerkurs und Abstand) von LiDAR-Punkten an, dass ein oder mehrere mehrerer Objekte (z. B. eine Person, ein Mülleimer, ein Schild usw.) an einem bestimmten Ort in der Umgebung des Fahrzeugs 1302 vorhanden sind. Beispielsweise in dem Fall einer Ampel 1300, wie in 13A gezeigt, verarbeitet das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 die empfangenen LiDAR-Informationen, um mehrere Abstände zwischen dem Fahrzeug 1302 und einer Oberfläche oder jeweiligen Oberflächen der Ampeln zu bestimmen.
14A zeigt mindestens ein Kamerasystem 1322, das am Fahrzeug 1302 befestigt ist. In manchen Ausführungsformen ist das Kamerasystem 1322 das gleiche oder ähnlich wie das Kamerasystem 122 des AV 100. Das Kamerasystem 1322 steht in Kommunikation mit dem Bildzusammenführungssystem 1350 des Fahrzeugs 1302 und überträgt Informationen als Kamerainformationen zu dem mindestens einen Prozessor zur Verarbeitung (z. B. wird ein Signal durch den mindestens einen Prozessor des Bildzusammenführungssystems 1350 vom Kamerasystem 1322 empfangen, das die Kamerainformationen repräsentiert). Auf diese Weise analysiert das Bildzusammenführungssystem 1350 die empfangenen Kamerainformationen, um Objekte 1300 in der Nähe des Fahrzeugs 1302 im Sichtfeld 1324 zu detektieren (z. B. in dem gezeigten Beispiel nimmt das Kamerasystem 1322 ein Bild desselben Objekts 1300, das in 13A gezeigt ist, auf). Das Bildzusammenführungssystem 1350 erzeugt ein Kamerabild (z. B. wie in 14B gezeigt) basierend auf den empfangenen Kamerainformationen.
14B zeigt ein typisches Ausgabebild 1330 des Kamerasystems 1322, nachdem ein Segmentierungsprozess eine oder mehrere Ampeln in dem Bild identifiziert hat. Die Ampeln sind mit den Gebieten 1326, 1328 im Bild 1330 assoziiert (z. B. werden durch diese repräsentiert). Beispielsweise analysiert das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 das Bild 1330 (z. B. unter Verwendung von Kantendetektion, Farbänderungen, Wettbewerbsgradienten), um geometrische Merkmale (z. B. Oberflächen, Kanten, Vertices usw.) zu bestimmen und anschließend zu bestimmen, welche Objekte 1300 Ampeln sind, basierend auf der Kenntnis dieser geometrischen Merkmale (z. B. über einen Annotationsprozess des Wahrnehmungsmoduls).
Ein wichtiger Aspekt dieser Spezifikation betrifft das Zusammenführen, durch das Bildzusammenführungssystem 1350, der LiDAR-Informationen vom LiDAR-System 1304 und der Kamerainformationen vom Kamerasystem 1322. Dies ermöglicht dem Bildzusammenführungssystem 1350, die Orientierung, den Steuerkurs und/oder die Position von Objekten von besonderem Interesse für das Fahrzeug 1302 mit erhöhter Genauigkeit zu bestimmen, im Vergleich zum Bestimmen der gleichen Parameter unter Verwendung entweder der LiDAR-Informationen oder der Kamerainformationen alleine. Auf diese Weise assoziiert das Bildzusammenführungssystem 1350 geometrische Merkmale, die in den Bildinformationen repräsentiert sind (z. B. 14B), mit den LiDAR-Punkten und/oder LiDAR-Punktclustern aus den LiDAR-Informationen (z. B. 13B).
In einer Ausführungsform identifiziert das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 das detektierte Objekt 1300 basierend auf den LiDAR-Informationen und den Kamerainformationen. In manchen Beispielen assoziiert die Identifikation das detektierte Objekt 1300 mit einer Ampel.
In einer Ausführungsform werden die LiDAR-Informationen, die Kamerainformationen und/oder das zusammengeführte Bild durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 verwendet, um Klassifizierungsinformationen des Objekts zu bestimmen. Die Klassifizierungsinformationen repräsentieren einen Interessegrad des Objekts in den LiDAR-Informationen und den Kamerainformationen, wie zuvor beschrieben. In manchen Beispielen bestimmt der Annotations- und Segmentierungsprozess die Klassifizierungsinformationen und überträgt die Klassifizierungsinformationen zu dem Bildzusammenführungssystem 1350 zur Verarbeitung.
In manchen Beispielen gibt die Klassifizierung das Objekt an, das sich in der Umgebung bewegt (z. B. Fahrzeuge, schwankende Bäume, Fußgänger usw.) oder in der Umgehung stationär ist (z. B. Ampeln, Verkehrsschilder [Stoppschilder, Vorfahrtsschilder, Geschwindigkeitsbegrenzungsschilder], Fußgängerüberwege usw.). In einer Ausführungsform werden sich bewegende Objekte durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 basierend auf erfassten Kamerainformationen und erfassten LiDAR-Informationen über einen Zeitraum detektiert (z. B. Kamerainformationen und LiDAR-Informationen werden mehrere Male erfasst, um eine Positionsänderung des Objekts im Laufe der Zeit zu bestimmen). In diesem Szenario bestimmt das Bildzusammenführungssystem 1350 in manchen Beispielen, dass sich ein Objekt in 2 Sekunden 0,1 m in Richtung des Fahrzeugs 1302 bewegte. In manchen Beispielen werden sich bewegende Objekte basierend auf dem Verfolgen einer Identifikation des Annotations- und Klassifizierungsprozesses detektiert (z. B. bestimmt der Annotationsprozess, dass ein Objekt ein Fahrzeug ist, unter Verwendung der Merkmale des Objekts wie etwa Kennzeichen, Kanten des Objekts, Scheinwerfer usw.).
In einer Ausführungsform gruppiert der Klassifizierungsprozess das Objekt in eine oder mehrere Kategorien (z. B. Kategorie 1 sind Ampeln, Kategorie 2 sind Verkehrsschilder und Kategorie 3 sind alles andere). Falls das Fahrzeug 1302 beispielsweise mehrere vorausliegende Objekte in Kategorie 1 bemerkt, löst es einen Prozess zum Bestimmen der Farbe und Position des von der Ampel emittierten Lichts aus, um zu bestimmen, ob die Ampel dem Fahrzeug 1302 signalisiert, weiterzufahren, die Vorfahrt zu beachten oder anzuhalten. In einer Ausführungsform sind Richtungsindikatoren der Ampel (z. B. ein grüner Linkspfeil) durch das Analysieren der Merkmale des durch die Ampel emittierten Lichts detektierbar. In dem Szenario, bei dem das detektierte Objekt eine Ampel ist, bestimmt das Bildzusammenführungssystem 1350 in manchen Beispielen, dass keine Änderung an der Fahrzeugtrajektorie erforderlich ist (z. B. noch nicht abgebremst werden muss), falls die Ampel gelb ist und 500 m vom Fahrzeug 1302 entfernt ist. Andererseits weist das Bildzusammenführungssystem 1350 in manchen Beispielen das Fahrzeug an, eine Aktualisierung der Trajektorie durchzuführen, um dem Fahrzeug 1302 zu ermöglichen, sofort anzuhalten, falls eine Ampel rot ist und 20 m vom Fahrzeug 1302 entfernt ist.
In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs eine verfügbare Reaktionszeit basierend auf dem Abstand vom Fahrzeug 1302 zu dem Objekt (z. B. wie durch das Bildzusammenführungssystem 1350 unter Verwendung der LiDAR-Informationen bestimmt) und einer aktuellen vektoriellen Geschwindigkeit des Fahrzeugs 1302. Auf diese Weise repräsentiert die verfügbare Reaktionszeit, wie viel Zeit verfügbar ist, um auf das detektierte Objekt zu reagieren. In manchen Beispielen wird die Trajektorie des Fahrzeugs 1302 basierend auf der verfügbaren Reaktionszeit aktualisiert (z. B. falls es nicht genügend Zeit gibt, um in der nach links abbiegenden Spur anzuhalten, dann die Spur zu wechseln und geradeaus über die Kreuzung weiterzufahren).
In einer Ausführungsform, falls das Fahrzeug 1302 mehrere vorausliegende Objekte in Kategorie 2 bemerkt, bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 (oder bewirkt die Bestimmung), was das Verkehrsschild besagt oder bedeutet. In diesem Szenario interpretiert das Bildzusammenführungssystem 1350 die Wörter und/oder die Ausdrücke vom Schild. In manchen Beispielen ist das Verkehrsschild ein Fußgängerüberwegschild und wird durch Extrahieren von Merkmalen des Schildes (z. B. der Form des Schildes) und Durchführen einer Bildverarbeitung über den Annotationsprozess detektiert (z. B. werden die empfangenen Kamerainformationen, LiDAR-Informationen und/oder zusammengeführten Informationen mit bekannten Bildern von Überwegsindikatoren verglichen).
In einer Ausführungsform erstellt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine Alarmbereitschaftsstufe basierend auf der Klassifizierung von Objekten. In manchen Beispielen basiert die Alarmbereitschaftsstufe auf empfangenen Annotationsinformationen. In manchen Beispielen versetzt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 das Fahrzeug 1302 in eine hohe Alarmbereitschaft (z. B. höher als normal) für Fußgänger im Bereich. In manchen Beispielen steuert das Bildzusammenführungssystem 1350 das Fahrzeug 1302 dahingehend, als Reaktion auf die hohe Alarmbereitschaft abzubremsen. In manchen Beispielen überträgt das Bildzusammenführungssystem 1350 diese Steuersignale zu einer separaten Fahrzeugsteuerung zum Steuern des Fahrzeugs 1302.
In einer Ausführungsform erstellt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine Vorfahrtsstufe, die repräsentiert, ob das Fahrzeug 1302 Vorfahrt hat oder nicht. In manchen Beispielen, falls das Bildzusammenführungssystem 1350 bestimmt, dass ein bevorstehendes Verkehrsschild ein Vorfahrtsschild ist, erstellt das Bildzusammenführungssystem 1350 die Vorfahrtsstufe und steuert das Fahrzeug 1302 dahingehend, einem anderen Fahrzeug Vorfahrt zu gewähren. In manchen Beispielen überträgt das Bildzusammenführungssystem 1350 das Steuersignal zu einer separaten Fahrzeugsteuerung zum Steuern des Fahrzeugs 1302.
In manchen Beispielen sind mit den Verkehrsschildern Anweisungen assoziiert (z. B. bewirkt ein Schulzonenschild, dass das Fahrzeug 1302 langsamer wird, ein Stoppschild bewirkt, dass das Fahrzeug 1302 anhält, usw.) und die Anweisungen werden durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 empfangen, interpretiert und zum Steuern des Betriebs des Fahrzeugs 1302 verwendet. In manchen Beispielen werden die Anweisungen von Verkehrsschildern durch das Bildzusammenführungssystem 1350 mittels einer Nachschlagetabelle oder Datenbank durchgeführt. In manchen Beispielen werden die Anweisungen durch das Bildzusammenführungssystem 1350 aus einer Karte abgerufen.
In einer Ausführungsform ist eine temporäre Differenzierung in den Klassifizierungsinformationen enthalten. Die temporäre Differenzierung gibt ein temporäres Objekt an. In manchen Beispielen verwendet das Bildzusammenführungssystem 1350 die temporäre Differenzierung, um das Fahrzeug mit Vorsicht zu steuern. Beispielsweise im Fall einer Baustellenzone wird das Fahrzeug langsamer. In manchen Beispielen basiert die temporäre Differenzierung auf der Objektklassifizierung (z. B. nur eine temporäre Differenzierung anwenden, falls das Objekt unter Verwendung von Kategorie 1 und/oder Kategorie 2 klassifiziert wird).
In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302, dass ein Verkehrsschild in Kategorie 2 temporär ist, basierend auf der Bewegung des Verkehrsschildes (z. B. wie etwa, wenn ein Arbeiter das Schild schwenkt oder das Schild umdreht, das Schild an einem sich bewegenden Baustellenfahrzeug angebracht ist usw.). In manchen Beispielen folgert das Bildzusammenführungssystem 1350, dass das Verkehrsschild sich nicht bewegen sollte (z. B. durch Bestimmen, dass das Verkehrsschild starr mit dem Boden verbunden ist, basierend auf einem Vorhandensein einer starren Verbindung (eines Mastes) zwischen dem Verkehrsschild und dem Boden), und eine Bestimmung einer Bewegung führt zu einer temporären Differenzierung. In manchen Beispielen folgert das Bildzusammenführungssystem 1350, dass das Verkehrsschild sich nicht bewegen sollte, basierend auf dem Empfangen einer Indikation, dass das Verkehrsschild eine permanente Struktur ist, von dem Server, der Datenbank, der Karte oder von dem Verkehrsschild selbst (z. B. über ein Broadcasting-Drahtlossignal vom Verkehrsschild).
In manchen Ausführungsformen berücksichtigt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine Timing-Differenz zwischen der Erfassung der Kamerainformationen durch das Kamerasystem 1322 und der LiDAR-Informationen durch das LiDAR-System 1322. In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 den Zusammenführungsprozess der LiDAR-Informationen und der Kamerainformationen basierend auf der Timing-Differenz. Aspekte bezüglich der Timing-Differenz werden nachstehend mit Bezug auf die 15A-15D weiter erläutert.
Die 15A-15D zeigen eine Timing-Sequenz von Schritten, die zwischen dem Erfassen der LiDAR-Informationen vom LiDAR-System 1304 und dem Erfassen der Kamerainformationen von der Kamera 1322 auftreten.
15A zeigt die Ampel 1300 in einem Sichtfeld 1402 des LiDAR-Systems 1304 des Fahrzeugs 1302. In manchen Beispielen repräsentiert das Sichtfeld 1402 einen Überblick, welche Objekte durch das LiDAR-System 1304 detektierbar sind. In einer Ausführungsform ist das LiDAR-System 1304 nach unten geneigt, um Objekte auf dem Boden der Umgebung gegenüber Objekten in der Luft (z. B. über dem Boden) hervorzuheben. Das LiDAR-System 1304 erfasst LiDAR-Informationen der Ampel 1300 und die LiDAR-Informationen werden zu dem Bildzusammenführungssystem 1350 des Fahrzeugs 1302 übertragen.
15B zeigt ein Sichtfeld 1404 des Kamerasystems 1322 des Fahrzeugs 1302. Das Sichtfeld 1402 unterscheidet sich typischerweise vom Sichtfeld 1404, da das LiDAR-System 1304 und das Kamerasystem 1322 typischerweise unterschiedliche optische Konfigurationen aufweisen. Zu einem bestimmten Zeitpunkt weist der Prozessor des Fahrzeugs 1302 das LiDAR-System 1304 und das Kamerasystem 1322 an, Informationen über die Umgebung des Fahrzeugs 1302 zu erfassen. Wie in den 15A und 15B gezeigt, falls das LiDAR-System 1304 und das Kamerasystem 1322 Informationen zur selben Zeit erfassen, könnte ein Szenario existieren, bei dem das Sichtfeld 1402 des LiDAR-Systems 1304 die Ampel 1300 beinhaltet, aber das Sichtfeld 1404 des Kamerasystems 1322 die Ampel 1300 nicht beinhaltet. In diesem Zusammenhang kennzeichnet das Sichtfeld 1404 Gebiete, in denen die detektierbaren Objekte im Fokus liegen und mit einer Schwellenanzahl von Pixeln (z. B. mindestens 100 Pixel) auflösbar sind.
15C zeigt eine Situation, bei der sich das Fahrzeug 1302 näher an die Ampel 1300 bewegt hat, als in den 15A und 15B gezeigt ist. In diesem Szenario ist das LiDAR-System 1304 nicht in der Lage, die Ampel 1300 vollständig aufzulösen, da zumindest ein Teil der Ampel 1300 außerhalb des Sichtfeldes 1402 des LiDAR-Systems 1304 liegt.
15D zeigt ein Komposit, bei dem das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 das LiDAR-System 1304 anweist, LiDAR-Informationen zuerst (z. B. vor dem Kamerasystem 1322) zu erfassen. Dies ist in Zustand A von 15D repräsentiert. Dann weist das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 das Kamerasystem 1322 an, Kamerainformationen zu erfassen, nachdem eine Zeit verstrichen ist. Dies ist in Zustand B von 15D gezeigt. Auf diese Weise ist die Erfassung von LiDAR-Informationen vom LiDAR-System 1304 und Kamerainformationen von der Kamera 1322 zeitlich versetzt, um die Sichtfelddifferenzen zwischen dem LiDAR-System 1304 und dem Kamerasystem 1322 zu berücksichtigen. In dem in 15D gezeigten Szenario werden LiDAR-Informationen vom LiDAR-System 1304 bei Zustand A erfasst und etwa 2 Sekunden später werden Kamerainformationen vom Kamerasystem 1322 bei Zustand B erfasst.
In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 aus den LiDAR-Informationen, dass eine Ampel 10 Meter entfernt ist, aber Kamerainformationen, die vom Kamerasystem 1322 empfangen werden, reichen nicht aus, um die Ampel aufzulösen. In diesem Szenario repräsentieren vielleicht nur einige wenige Pixel der Kamerainformationen die Ampel. In manchen Beispielen repräsentieren weniger als 10 % von Pixeln der Kamerainformationen Merkmale der Ampel und werden als für das Auflösen der Ampel unzureichend angesehen.
In einer Ausführungsform beinhalten die LiDAR-Informationen Informationen von mehr als einem Scan (z. B. 2 bis 20 LiDAR-Scans wie etwa 10 LiDAR-Scans). In einer Ausführungsform basiert die Zeitverzögerung zwischen der Erfassung der LiDAR-Informationen und der Kamerainformationen auf der Fahrtzeit des Fahrzeugs 1302. In manchen Beispielen wird die Fahrtzeit durch das Bildzusammenführungssystem 1350 basierend auf einer Standortdifferenz zwischen einem Standort des Fahrzeugs 1302 bei der Erfassung der LiDAR-Informationen und einem Standort des Fahrzeugs 1302 bei der Erfassung der Kamerainformationen geschätzt. In manchen Beispielen wird die Fahrtzeit durch das Bildzusammenführungssystem 1350 basierend auf einer vektoriellen Geschwindigkeit des Fahrzeugs 1302 geschätzt.
In manchen Ausführungsformen bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine Genauigkeit basierend auf der Anzahl von Pixeln, die Merkmale der Ampel 1300 repräsentieren. In manchen Szenarien bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 die Genauigkeit basierend auf der Anzahl von Pixeln, die Merkmale der Ampel 1300 repräsentieren, die einen Schwellenwert überschreiten (z. B. 100 Pixel sind mit guter Genauigkeit assoziiert, 10 Pixel sind mit schlechter Genauigkeit assoziiert). In diesen Beispielen basiert die Genauigkeit auf einer Anzahl von Pixeln, die mit dem Objekt 1300 assoziiert sind (z. B. zum Auflösen des Objekts verwendet werden).
In manchen Beispielen basiert die Genauigkeit auf dem Abstand zwischen dem Fahrzeug 1302 und der Ampel 1300 (z. B. bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine Genauigkeit basierend auf einem physischen Abstand zu der Ampel 1300). In manchen Beispielen, während sich das Fahrzeug 1302 näher an die Ampel 1300 bewegt (z. B. nachdem 2 Sekunden verstrichen sind), werden die Kamerainformationen erneut erfasst und mehr (z. B. mehrere Hundert) Pixel werden mit der Ampel 1300 im Vergleich zu den Bildinformationen von 2 Sekunden früher assoziiert.
In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 eine Konfidenz basierend auf der Genauigkeit und/oder Informationen von einem externen Server, einer Datenbank oder einer Karte. Beispielsweise in manchen Fällen, wenn das Bildzusammenführungssystem 1350 eine Indikation von dem Server, der Datenbank oder der Karte empfängt, dass sich einer Ampel genähert wird, bestimmt das Bildzusammenführungssystem 1350, ob die Genauigkeit des detektierten Objekts über einem Schwellenwert liegt (z. B. basierend auf einer Anzahl von Pixeln usw.). In dem Fall, dass die Genauigkeit des detektierten Objekts über dem Schwellenwert liegt, wird eine hohe Konfidenz mit dem detektierten Objekt assoziiert. Andererseits in dem Fall, dass die Genauigkeit des detektierten Objekts unter dem Schwellenwert liegt, wird eine niedrige Konfidenz mit dem detektierten Objekt assoziiert. In diesen Fällen repräsentiert die Konfidenz, wie sicher sich das Fahrzeug 1302 ist, dass das vorausliegende Objekt 1300 tatsächlich eine Ampel ist. In manchen Beispielen basiert die Trajektorie des Fahrzeugs 1302 und/oder die Pfadplanung des Fahrzeugs 1302 auf der Konfidenz. In manchen Beispielen ignoriert das Fahrzeug 1302 detektierte Objekte, wenn die Konfidenz niedrig ist (z. B. unter 5 %). In manchen Beispielen verwendet das Fahrzeug 1302 zusätzliche Ressourcen (Passagierinformationen, externe Karteninformationen usw.), um das Vorhandensein des Objekts zu bestätigen, wenn die Konfidenz niedrig ist.
In manchen Ausführungsformen steuert das Bildzusammenführungssystem 1350 des Fahrzeugs ein Zoom-Merkmal (z. B. optischen Zoom oder digitalen Zoom) des Kamerasystems 1322 dahingehend, an das Objekt 1300 heranzuzoomen. In manchen Fällen basiert das Steuern des Zoom-Merkmals auf der Genauigkeit und/oder der Konfidenz. Wenn beispielsweise die Genauigkeit (oder Konfidenz, oder sowohl Genauigkeit als auch Konfidenz) unter einer Schwelle liegt, bestimmt das Bildzusammenführungssystem 1350, dass ein zweites Mal geschaut werden sollte, und steuert das Zoom-Merkmal des Kamerasystems 1322 (oder ein zweites Kamerasystem) dahingehend (oder weist dieses an), optisch mit einer zweifachen Vergrößerung heranzuzoomen. In manchen Beispielen steuert das Bildzusammenführungssystem 1350 des Fahrzeugs das Kamerasystem 1322 dahingehend (oder weist dieses an), zu einem Bereich des detektierten Objekts zu schwenken, basierend auf den Kamerainformationen (oder zusammengeführten Informationen). Sobald das Kamerasystem 1322 bereit ist (gezoomt und/oder geschwenkt ist), erzeugt das Kamerasystem 1322 dann zweite Kamerainformationen und überträgt die zweiten Kamerainformationen zu dem Bildzusammenführungssystem 1350 des Fahrzeugs. Das Bildzusammenführungssystem 1350 analysiert die zweiten Kamerainformationen ähnlich wie die ersten Kamerainformationen. In manchen Ausführungsformen wird ein zweites Kamerasystem zum Erfassen der zweiten Kamerainformationen verwendet.
Gleichermaßen wird in manchen Ausführungsformen ein zweites LiDAR-System zum Erfassen zweiter LiDAR-Informationen verwendet. Wenn beispielsweise die Genauigkeit (oder Konfidenz, oder sowohl Genauigkeit als auch Konfidenz) unter einer Schwelle liegt, bestimmt das Bildzusammenführungssystem 1350, dass ein zweites Mal geschaut werden sollte, und steuert ein Zoom-Merkmal des LiDAR-Systems 1304 (oder ein zweites LiDAR-System) dahingehend (oder weist dieses an), optisch mit einer zweifachen Vergrößerung heranzuzoomen. In manchen Beispielen steuert das Bildzusammenführungssystem 1350 des Fahrzeugs das LiDAR-System 1304 dahingehend (oder weist dieses an), zu einem Bereich des detektierten Objekts zu schwenken, basierend auf den LiDAR-Informationen (oder zusammengeführten Informationen). Sobald das LiDAR-System 1304 bereit ist (gezoomt und/oder geschwenkt ist), erzeugt das LiDAR-System 1304 dann zweite LiDAR-Informationen und überträgt die zweiten LiDAR-Informationen zu dem Bildzusammenführungssystem 1350 des Fahrzeugs. Das Bildzusammenführungssystem 1350 analysiert die zweiten LiDAR-Informationen ähnlich wie die ersten LiDAR-Informationen.
In einer Ausführungsform werden LiDAR-Informationen kontinuierlich für einen Zeitraum (z. B. bis zu 10 Sekunden) erfasst und in einem Speicherpuffer des Fahrzeugs 1302 gespeichert. In manchen Ausführungsformen werden LiDAR-Informationen durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 aus dem Speicherpuffer zur Verarbeitung abgerufen.
Sobald das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 Zugriff auf LiDAR-Informationen und Kamerainformationen hat, die die Umgebung des Fahrzeugs 1302 repräsentieren (z. B. durch Erfassung oder durch Puffer), beginnt das Bildzusammenführungssystem 1350 einen Zusammenführungsprozess. Das Bildzusammenführungssystem 1350 assoziiert mindestens einen Teil der LiDAR-Informationen mit mindestens einem Pixel der Kamerainformationen, um das Verständnis des Fahrzeugs über die Umgebung zu verbessern. Typischerweise repräsentiert das mindestens eine Pixel der Kamerainformationen ein Objekt von besonderem Interesse (z. B. ein Stoppschild, eine Ampel, ein Fahrzeug usw.).
Wieder mit Bezug auf das in 15D gezeigte Beispiel werden in diesem Szenario die mit dem Kamerasystem 1322 assoziierten Kamerainformationen durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 mit den entsprechenden LiDAR-Informationen von 2 Sekunden früher zusammengeführt. In anderen Beispielen tritt die Erfassung der LiDAR-Informationen und der Kamerainformationen gleichzeitig auf.
Durch den Zusammenführungsprozess synchronisiert das Bildzusammenführungssystem 1350 die jeweiligen Sichtfelder des LiDAR-Systems 1304 und des Kamerasystems 1322 miteinander. In manchen Beispielen vergleicht das Bildzusammenführungssystem 1350 Bildmerkmale (z. B. Kanten, Gesichter, Farben usw.) der Kamerainformationen mit den zuvor erfassten LiDAR-Informationen, um die Synchronisation zu bestimmen.
16A ist eine Veranschaulichung des Zusammenführungsprozesses von LiDAR-Informationen vom LiDAR-System 1304 mit Kamerainformationen vom Kamerasystem 1322. Wie zuvor beschrieben, assoziiert das Bildzusammenführungssystem 1350 mindestens einen Teil der LiDAR-Informationen mit mindestens einem Pixel der Kamerainformationen. In manchen Beispielen führt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 die LiDAR-Informationen mit den Kamerainformationen basierend auf einem relativen Abstand zwischen dem LiDAR-System 1304 und dem Kamerasystem 1322 zusammen. In manchen Beispielen führt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 die LiDAR-Informationen mit den Kamerainformationen basierend auf einem Verhältnis des Sichtfeldes des LiDAR-Systems 1304 zu dem Kamerasystem 1322 zusammen.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 eine Ausrichtung zwischen jeweiligen Merkmalen der LiDAR-Informationen und der Kamerainformationen basierend auf Merkmalen, die sowohl in den LiDAR-Informationen als auch den Kamerainformationen repräsentiert sind. In manchen Beispielen sind Merkmalsgradienten wie etwa scharfe Kanten in sowohl den LiDAR-Informationen als auch den Kamerainformationen unterscheidbar und werden durch das Bildzusammenführungssystem 1350 verwendet, um die LiDAR-Informationen mit den Kamerainformationen zusammenzuführen. In diesem Szenario werden Kanten in den Kamerainformationen mit Gradienten in den LiDAR-Informationen ausgerichtet.
In manchen Ausführungsformen führt das Bildzusammenführungssystem 1350 alle LiDAR-Informationen mit den Kamerainformationen zusammen. In manchen Ausführungsformen führt das Bildzusammenführungssystem 1350 Teile der LiDAR-Informationen mit den Kamerainformationen zusammen. Beispielsweise wählt das Bildzusammenführungssystem 1350 Gebiete von besonderem Interesse aus den LiDAR-Informationen aus, führt diese Gebiete mit den Kamerainformationen zusammen und verwirft die restlichen Teile der LiDAR-Informationen. Wie mit Bezug auf 13B oben beschrieben, sind in manchen Beispielen die Gebiete von LiDAR-Informationen von besonderem Interesse LiDAR-Punktcluster. Ein oder mehrere LiDAR-Punktcluster sind in den LiDAR-Informationen vorhanden und werden durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 bestimmt.
In manchen Ausführungsformen bestimmt das Bildzusammenführungssystem 1350 eine Abbildung jedes LiDAR-Punktclusters in den LiDAR-Informationen. In manchen Beispielen wird der Zusammenführungsprozess unabhängig für jeden LiDAR-Punktcluster durchgeführt. In diesem Szenario bestimmt das Bildzusammenführungssystem 1350 eine Abbildung, die eine Abbildung mit bester Anpassung zwischen dem jeweiligen LiDAR-Punktcluster und dem einen oder den mehreren Pixeln der Kamerainformationen repräsentiert. Auf diese Weise assoziiert das Bildzusammenführungssystem 1350 Objektinformationen eines oder mehrerer Pixel der Kamerainformationen mit LiDAR-Punktclustern der LiDAR-Informationen. Das Zusammenführen von LiDAR-Informationen mit Kamerainformationen ermöglicht dem Bildzusammenführungssystem 1350, ein Gebiet der zusammengeführten Informationen abzufragen und jeweilige LiDAR-Informationen und Kamerainformationen abzurufen. Als ein Beispiel, wenn das Bildzusammenführungssystem 1350 einen Status oder eine Eigenschaft (z. B. Farbe, Intensität, Position usw.) der Gebiete in den zusammengeführten LiDAR-Informationen und Kamerainformationen abfragt, empfängt das Bildzusammenführungssystem 1350 Informationen, die mit sowohl LiDAR-Informationen (wie etwa Abstandsinformationen, Zeit der LiDAR-Erfassung usw.), die mit LiDAR-Punkten in den Gebieten assoziiert sind, als auch Kamerainformationen (wie etwa Farbe, Intensität, 2D-Position usw.) assoziiert sind. Beispielsweise in Szenarien, bei denen das detektierte Objekt eine Ampel ist, fragt das Bildzusammenführungssystem 1350 die Farbe von Pixeln ab, die mit den zusammengeführten Informationen assoziiert sind, um zu folgern, welche Verkehrsanweisung (z. B. Grün - Weiterfahren, Gelb - Vorfahrt beachten und Rot - Anhalten) durch die Ampel angewiesen wird. In diesen Fällen werden Farb- und Intensitätsinformationen aus dem Kamerainformationsteil der zusammengeführten Informationen abgerufen und Orientierungs- und Abstandsinformationen werden aus dem LiDAR-Informationsteil der zusammengeführten Informationen abgerufen. In manchen Beispielen, wenn das Bildzusammenführungssystem 1350 bestimmt, dass die Intensität über einer Schwelle liegt, steuert das Bildzusammenführungssystem 1350 das Fahrzeug dahingehend, auf die Verkehrsanweisung zu reagieren.
16B zeigt ein Kompositbild, in dem LiDAR-Informationen (in 16B unter Verwendung von Punkten repräsentiert) vom LiDAR-System 1304 mit Kamerainformationen (in 16B unter Verwendung von Linien repräsentiert) vom Kamerasystem 1322 zusammengeführt werden. Insbesondere zeigt 16B, dass physische Objekte in der Umgebung (z. B. Kanten von Gebäuden, Ampeln usw.) mit sowohl Kamerainformationen als auch LiDAR-Informationen assoziiert sind.
In dem in 16B gezeigten Beispiel ist ein Paar von Ampeln 1504 in einem Gebiet 1502 mit sowohl Kamerainformationen als auch LiDAR-Informationen assoziiert. Begrenzungsrahmen oder Kanten der Ampeln 1504 sind in einem fetten Umriss gezeigt. In manchen Beispielen bestimmt oder empfängt das Bildzusammenführungssystem 1350 Begrenzungsrahmeninformationen aus dem Segmentierungs- und Annotationsprozess. In manchen Beispielen identifiziert der Segmentierungs- und Annotationsprozess des Fahrzeugs 1302 Objekte von Interesse (z. B. Ampeln 1502, Stoppschilder, Fußgänger usw.), die in den Kamerainformationen repräsentiert sind, und assoziiert ein oder mehrere Pixel der Kamerainformationen, die diese Objekte repräsentieren, mit Begrenzungsrahmen. In manchen Beispielen wird der Begrenzungsrahmen basierend auf dem Kamerainformationen ohne Berücksichtigung der LiDAR-Informationen bestimmt. In manchen Beispielen wird der Begrenzungsrahmen basierend auf Objekten von Interesse (z. B. einer Klassifizierung eines Objekts von Interesse) bestimmt. Beispielsweise bestimmt in manchen Fällen der Segmentierungs- und Annotationsprozess Begrenzungsrahmen für alle detektierten Objekte, aber das Bildzusammenführungssystem 1350 filtert (ignoriert) alle detektierten Objekte in bestimmten Kategorien (z. B. ignoriert alle Begrenzungsrahmen, die mit Kategorie 3 assoziiert sind, usw.).
In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 LiDAR-Informationen, die sich innerhalb des Begrenzungsrahmens (z. B. innerhalb der Grenzen, die durch die Kanten definiert werden) befinden. In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 einen Abstand vom Fahrzeug 1302 zu den Ampeln 1502 basierend auf einem Durchschnittsabstand, der mit LiDAR-Informationen innerhalb des Begrenzungsrahmens assoziiert ist.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 einen Abstand in der Umgebung vom Fahrzeug 1302 zu dem Objekt unter Verwendung der zusammengeführten LiDAR-Informationen, die durch die Begrenzungsrahmen eingeschlossen sind. In manchen Beispielen wird der Abstand durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 für Steuerzwecke und zur Kartenannotation verwendet. In manchen Beispielen steuert das Bildzusammenführungssystem 1350 das Fahrzeug 1302 als Reaktion auf den bestimmten Abstand unter Verwendung der zusammengeführten LiDAR-Informationen und Kamerainformationen.
In manchen Beispielen wird die Position des Objekts in einer Karte annotiert, indem jede Ampel mit einer Position in der Umgebung assoziiert wird, um zu kennzeichnen, dass eine Ampel an einer bestimmten Position vorhanden ist. In manchen Beispielen ist die Karte eine globale Karte. In einer Ausführungsform wird die Karte durch andere Fahrzeuge zum Antizipieren der Position von Ampeln in der Umgebung verwendet. In manchen Beispielen wird die Position des Objekts durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 basierend auf dem Standort des Fahrzeugs 1302 (z. B. wie durch einen GPS-Sensor empfangen, wie durch ein Lokalisierungssystem oder -modul bestimmt und/oder dergleichen), der Position, der Orientierung und dem Sichtfeld des Kamerasystems 1322 und der Position, der Orientierung und dem Sichtfeld des LiDAR-Systems 1304 bestimmt.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 eine Instanzkennung (Instanz-ID) des Objekts. Die Instanzkennung des Objekts wird zum Verfolgen des Objekts durch die Umgebung verwendet. In manchen Beispielen ist die Instanzkennung eine eindeutige Nummer für Verfolgungszwecke.
Wenn beispielsweise das Fahrzeug 1302 eine neue (z. B. nicht zuvor beobachtete) Ampel identifiziert, weist das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 der neuen Ampel zu Kategorie 1 zusammen mit den Positionsinformationen der neuen Ampel zu. Während sich das Fahrzeug 1302 durch die Umgebung bewegt, beobachtet das Bildzusammenführungssystem 1350 des Fahrzeugs kontinuierlich das Objekt und verifiziert, welches Objekt dasselbe ist und welche Objekte neu sind, basierend auf der Instanzkennung. In einem Szenario fährt das Fahrzeug 1302 um eine Ecke und beobachtet eine neue vorausliegende Ampel. Anschließend bestimmt das Bildzusammenführungssystem 1350 dies und weist ihr eine neue Instanzkennung zu (z. B. eine Ziffer, die mit der Instanzkennung assoziiert ist, wird inkrementiert).
In einer Ausführungsform basiert die Instanzkennung auf der Konfidenz. Während beispielsweise das Fahrzeug 1302 dem Objekt näher kommt, bestimmt das Bildzusammenführungssystem 1350 mit einer hohen Konfidenz, dass das Objekt tatsächlich eine Ampel ist (z. B. basierend auf einer Bestimmung, dass mehr LiDAR-Informationen und Kamerainformationen des Objekts über die Sensoren des Fahrzeugs 1302 zur Verfügung stehen).
In einer Ausführungsform aktualisiert das Bildzusammenführungssystem 1350 kontinuierlich die Positionsinformationen des Objekts. Beispielsweise wird die geschätzte Position, die mit einem Objekt assoziiert ist (die Position des Objekts relativ zu einer zuvor erzeugten 3D-Karte, die Position des Objekts relativ zu einem oder mehreren Gebäuden in einem Bereich und/oder dergleichen), 10 Meter entfernt vom Fahrzeug 1302 typischerweise weniger genau sein als die geschätzten Positionsinformationen bei nur 1 Meter Entfernung. Auf diese Weise hält das Bildzusammenführungssystem 1350 Positionsinformationen mit der höchsten Konfidenz bei. In manchen Beispielen werden die Positionsinformationen in einem Speicher des Fahrzeugs 1302 oder einer Femdatenbank oder Karte gespeichert.
In einer Ausführungsform aktualisiert das Bildzusammenführungssystem 1350 die Klassifizierung im Laufe der Zeit. In manchen Fällen aktualisiert das Bildzusammenführungssystem 1350 die Klassifizierung eines Objekts (z. B. von Kategorie 3 zu Kategorie 2). In einem Szenario von einer entfernten Perspektive bestimmt beispielsweise das Bildzusammenführungssystem 1350 des Fahrzeugs 1302, dass sich ein Fußgänger vorausliegend befindet, und weist die assoziierten zusammengeführten LiDAR-Informationen zu Kategorie 3 zu, aber während sich das Fahrzeug 1302 nähert, erkennt das Bildzusammenführungssystem 1350, dass die Fußgängerklassifizierung inkorrekt ist und dass das Objekt tatsächlich ein Stoppschild ist, und aktualisiert die Klassifizierungsinformationen zu Kategorie 2.
In einer Ausführungsform aktualisiert das Bildzusammenführungssystem 1350 die Instanzkennung basierend auf anschließenden zusammengeführten LiDAR-Informationen und Kamerainformationen. In manchen Beispielen bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302, dass eine einzelne Ampel vorausliegt, aber während sich das Fahrzeug 1302 nähert, erkennt das Bildzusammenführungssystem 1350, dass es sich bei der Ampel tatsächlich um zwei Ampeln handelt. In diesem Szenario bestimmt das Bildzusammenführungssystem 1350 kontinuierlich, ob sich das Objekt in mehrere Objekte aufgeteilt hat. Hier ist die Ampel, die ursprünglich durch das Bildzusammenführungssystem 1350 zu einer einzelnen Instanzkennung zugewiesen wurde, in zwei Ampeln aufgeteilt und jeder Ampel wird durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine eindeutige Instanzkennung zugewiesen. Auf diese Weise sind Instanzkennungen des Objekts aktualisierbar.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 eine Orientierung des Objekts (z. B. eine Orientierung, die eine Richtung repräsentiert, in die eine Anweisung des Objekts zeigt). In manchen Beispielen wird eine vorausliegende Ampel, die auf eine andere Spur als die Spur des Fahrzeugs 1302 ausgerichtet ist (z. B. eine Verkehrsanweisung der Ampel ist nicht an das Fahrzeug 1302 gerichtet), zum Aktualisieren einer Karte verwendet, obwohl sie nicht in den Pfad des Fahrzeugs 1302 ausgerichtet ist. Mit anderen Worten wird in manchen Fällen das Vorhandensein und die Orientierung der Ampel in der Karte ungeachtet davon aktualisiert, ob sich die Ampel im Pfad des Fahrzeugs 1302 befindet.
In einer Ausführungsform basiert das Bestimmen der Orientierung auf Merkmalen des Objekts selbst (z. B. Kanten, Farben, Ausmaße usw.). In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 eine Richtung basierend auf der Orientierung. In manchen Beispielen wird eine Kante einer Stoppschildoberfläche verwendet, um eine Richtung normal zu der Oberfläche des Stoppschildes zu folgern (z. B. gefolgert durch Berechnen eines Vektor-Kreuzproduktes einer Oberfläche, die durch die LiDAR-Punktcluster eingespannt wird, die die Oberfläche repräsentieren). In einem anderen Beispiel wird eine Kante einer Ampel verwendet, um eine Richtung der Ampel zu folgern (z. B. um zu repräsentieren, wohin das Verkehrssignal und daher die Verkehrsanweisung gerichtet ist). In manchen Beispielen steuert das Bildzusammenführungssystem 1350 das Fahrzeug basierend auf der Orientierung des detektierten Objekts. Falls beispielsweise das Bildzusammenführungssystem 1350 bestimmt, dass die Richtung der Ampel in Richtung des Fahrzeugs gerichtet ist (z. B. durch Bestimmen, wann ein Vektor-Skalarprodukt zwischen der Richtung, in die das detektierte Objekt gerichtet ist, und einer Fahrtrichtung des Fahrzeugs über einer Schwelle liegt), wird das Fahrzeug dahingehend gesteuert, auf das Verkehrssignal der Verkehrsanweisung des Verkehrssignals zu reagieren. In anderen Fällen reagiert die Steuerung des Fahrzeugs nicht auf die Verkehrsanweisung der Ampel, wenn das Bildzusammenführungssystem 1350 bestimmt, dass die Richtung der Ampel nicht in Richtung des Fahrzeugs gerichtet ist (z. B. durch Bestimmen, wann ein Vektor-Skalarprodukt zwischen der Richtung, in die das detektierte Objekt gerichtet ist, und einer Fahrtrichtung des Fahrzeugs unter einer Schwelle liegt).
In einer Ausführungsform erstellt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine 3D-Repräsentation des Objekts, während das Fahrzeug 1302 durch die Umgebung des Objekts fährt. In einer Ausführungsform wird die 3D-Repräsentation zum Bestimmen der Orientierung des Objekts verwendet.
16C zeigt LiDAR-Informationen, die durch Begrenzungsrahmen (nicht gezeigt) eingeschlossen sind. Im Gegensatz zu dem in 13B gezeigten LiDAR-Bild 1320, das alle LiDAR-Informationen zeigt, zeigt 16C LiDAR-Informationen, die durch den einen oder die mehreren Begrenzungsrahmen eingeschlossen sind. Auf diese Weise dienen der eine oder die mehreren Begrenzungsrahmen als ein Filter von LiDAR-Informationen und nur LiDAR-Informationen innerhalb des einen oder der mehreren Begrenzungsrahmen bleiben nach diesem Filterprozess bestehen.
16D zeigt eine detaillierte Ansicht von LiDAR-Informationen, die mit einer der Ampeln von 16C assoziiert sind. Insbesondere zeigt 16D jeden LiDAR-Punkt, der mit einem LiDAR-Punktcluster assoziiert ist, der eine Ampel repräsentiert, und jeweilige Eigenschaften für jeden LiDAR-Punkt.
Das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 bestimmt die jeweiligen Eigenschaften basierend auf den zusammengeführten LiDAR-Informationen und Kamerainformationen. In dem gezeigten Beispiel wird jeder LiDAR-Punkt durch das Bildzusammenführungssystem 1350 so annotiert, dass er Positionsinformationen (z. B. x, y, z), Klassifizierungsinformationen (z. B. einen „Klasse“-Parameter) und Instanzinformationen (z. B. einen „Instanz-ID“-Parameter) beinhaltet. In manchen Beispielen wird jeder LiDAR-Punkt mit anderen Informationen annotiert (z. B. physische Eigenschaften (z. B. Farbe, Größe usw.), Status (z. B. temporär, zuletzt beobachtet usw.) usw.).
17A-17F veranschaulichen eine Ausführungsform, bei der der Zusammenführungsprozess unter Verwendung von LiDAR-Informationen und Kamerainformationen durchgeführt wird, die eine 360-Grad-Sicht rund um das Fahrzeug 1302 repräsentieren. Das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 bildet eine Kompositrepräsentation 1600, die das Zusammenführen von LiDAR-Informationen mit Kamerainformationen repräsentiert. In diesem Beispiel repräsentieren die Kamerainformationen sechs Kamerabilder, die vom Kamerasystem 1322 des Fahrzeugs 1302 erfasst werden. In diesem Beispiel repräsentiert 17B die Umgebung direkt vor dem Fahrzeug 1302, 17E repräsentiert die Umgebung direkt hinter dem Fahrzeug 1302, 17A repräsentiert die Umgebung an der linken Vorderseite des Fahrzeugs 1302, 17C repräsentiert die Umgebung an der rechten Vorderseite des Fahrzeugs 1302, 17D repräsentiert die Umgebung an der rechten Rückseite des Fahrzeugs 1302 und 17F repräsentiert die Umgebung an der linken Rückseite des Fahrzeugs 1302. Die Kompositrepräsentation 1600 definiert eine vollständige 360-Grad-Sicht rund um das Fahrzeug 1302. Das Bildzusammenführungssystem 1350 des Fahrzeugs führt die LiDAR-Informationen mit den Kamerainformationen zusammen, die die vollständige 360-Grad-Sicht einspannen. Auf diese Weise bestimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 einen Abstand jedes jeweiligen Objekts rund um eine 360-Grad-Sicht des Fahrzeugs 1302.
18 ist ein Flussdiagramm einer Ausführungsform eines Bildzusammenführungsprozesses 1700 zum Zusammenführen von LiDAR-Informationen mit Kamerainformationen. Der Bildzusammenführungsprozess 1700 ist unter Verwendung des mindestens einen Prozessors des Bildzusammenführungssystems 1350 des Fahrzeugs 1302 oder des mindestens einen Prozessors des Fernservers (z. B. des Cloud-Servers 136 oder der Cloud-Rechenumgebung 200) implementierbar. Obwohl der Bildzusammenführungsprozess 1700 einen speziellen Fluss von Informationen veranschaulicht, sind Ausführungsformen des Zusammenführens von LiDAR-Informationen mit Kamerainformationen nicht auf einen speziellen Fluss von Informationen beschränkt.
Die mindestens eine Kamera 1322 wird zum Erfassen von Kamerainformationen 1702 verwendet. In manchen Beispielen repräsentieren die Kamerainformationen 1702 eine 360-Grad-Sicht rund um das Fahrzeug 1302.
Das mindestens eine LiDAR-System 1304 wird zum Erfassen von LiDAR-Informationen 1704 verwendet. In manchen Beispielen empfängt das Bildzusammenführungssystem 1350 des Fahrzeugs Fahrzeugspositions- und -orientierungsinformationen 1712 des Fahrzeugs 1302 zusammen mit den LiDAR-Informationen 1704.
Die LiDAR-Informationen vom LiDAR-System 1304 und die mindestens eine Kamera 1322 werden im Zusammenführungsprozess 1706 verwendet. Mit anderen Worten werden die LiDAR-Informationen vom LiDAR-System 1304 und die mindestens eine Kamera 1322 durch das Bildzusammenführungssystem 1350 empfangen, wenn das Bildzusammenführungssystem 1350 den Prozess des Zusammenführungsprozesses 1706 implementiert.
Während der Zusammenführungsprozess 1706 durchgeführt wird, bestimmt das Bildzusammenführungssystem 1350 die beste Anpassung (Best Fit) zum Zusammenführen der LiDAR-Informationen mit dem Kamerainformationen und erzeugt zusammengeführte Informationen basierend auf den LiDAR-Informationen und den Kamerainformationen.
Der Prozess 1700 beinhaltet einen Segmentierungs-, Annotations- und Klassifizierungsprozess 1708. In dem gezeigten Beispiel werden die zusammengeführten Informationen vom Zusammenführungsprozess 1706 durch den Segmentierungs-, Annotations- und Klassifizierungsprozess 1708 verwendet. In manchen Beispielen wird der Segmentierungs-, Annotations- und Klassifizierungsprozess 1708 jedoch vor dem Zusammenführungsprozess 1706 (z. B. unter Verwendung entweder der Kamerainformationen oder LiDAR-Informationen alleine) durchgeführt.
In dem gezeigten Beispiel assoziiert das Bildzusammenführungssystem 1350 Objekte mit drei Kategorien (wobei Kategorie 1 Ampeln ist, Kategorie 2 Verkehrsschilder ist und Kategorie 3 alles andere ist) während der Implementierung des Segmentierungs-, Annotations- und Klassifizierungsprozesses 1708. Die Kategorieinformationen werden in Klassifizierungsinformationen eingeschlossen, die mit jedem Objekt assoziiert sind. Auf diese Weise beinhaltet jedes Objekt Klassifizierungsinformationen. In manchen Beispielen wird eine Instanzkennung als Teil des Segmentierungs-, Annotations- und Klassifizierungsprozesses 1708 zugewiesen und in den Klassifizierungsinformationen eingeschlossen.
In einer Ausführungsform ist ein Objektabfrageprozess 1708 im Prozess 1700 eingeschlossen. Während der Objektabfrageprozess 1708 durchgeführt wird, iteriert (z. B. in einer Schleife wiederholend) das Bildzusammenführungssystem 1350 über jede Instanzkennung in jeder Kategorie, um eine Handlung des Fahrzeugs 1302 zu bestimmen. In manchen Beispielen aktualisiert das Bildzusammenführungssystem 1350 eine Karte 1710 mit den Objektinformationen (z. B. Kategorie, Instanzkennung, Position und Orientierung). In manchen Beispielen wird diese Karte durch andere Fahrzeuge abgefragt und jeweilige Prozessoren der anderen Fahrzeuge verwenden diese Karte, um zu bestimmen, wann bevorstehende Ampeln oder Verkehrsschilder zu erwarten sind.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem 1350 auch, ob die mit dem Objekt assoziierten Informationen in einem Server (wie etwa dem Server 1714) oder einer Datenbank (wie etwa der Datenbank 1716) zu speichern sind. In einer Ausführungsform speichert das Bildzusammenführungssystem 1350 die mit dem Objekt assoziierten Informationen in dem Server oder der Datenbank. Gleichermaßen ruft das Bildzusammenführungssystem 1350 in einer Ausführungsform Objektinformationen von dem Server, der Datenbank oder der Karte ab, aktualisiert die Objektinformationen entsprechend und sendet die Objektinformationen zurück zu dem Server, der Datenbank oder der Karte.
19A-19B zeigen Einzelheiten der globalen Karte 1710. Die Karte 1710 beinhaltet Straßen der Umgebung. Die Karte 1710 ist mit X-Koordinaten auf der horizontalen Achse und Y-Koordinaten auf der vertikalen Achse gezeigt. Z-Koordinaten sind zur Kürze nicht gezeigt, aber sind in manchen Ausführungsformen in den Informationen enthalten, die in der globalen Karte 1710 gespeichert sind, um eine Höhe des Objekts vom Boden (oder über dem Meeresspiegel) anzugeben. In dem in 19B gezeigten Beispiel beinhaltet die globale Karte 1710 den Standort von fünf Objekten in einem Gebiet 1802. Die fünf Objekte sind in der globalen Karte 1710 gespeichert. Wenn das Bildzusammenführungssystem 1350 Objektinformationen aus der Karte 1710 abruft, werden Informationen bezüglich der fünf Objekte zu dem Bildzusammenführungssystem 1350 übertragen.
In einer Ausführungsform, nachdem das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 eine vorausliegende Ampel identifiziert hat, vergleicht das Bildzusammenführungssystem 1350 die Position der Ampel mit bekannten Instanzen von Objekten in der globalen Karte 1710. Falls beispielsweise die globale Karte 1710 eine Ampel an einem bestimmten vorausliegenden Standort angibt, nimmt das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 die Instanzkennung der Ampel an und lädt die assoziierten Informationen der Ampel von der globalen Karte 1710 herunter. In manchen Fällen sind beispielsweise die Positionsinformationen eines Objekts, das in der Karte enthalten ist, genauer als die aktuelle Position, die durch das Bildzusammenführungssystem 1350 des Fahrzeugs 1302 geschätzt wird. In anderen Beispielen ist das Objekt zu weit vom Fahrzeug 1302 entfernt, um eine Orientierung des Objekts zu bestimmen, somit wird sie durch die globale Karte 1710 stattdessen heruntergeladen und durch das Bildzusammenführungssystem 1350 als die Orientierung des Objekts angenommen. Auf diese Weise wird die globale Karte 1710 mit aktuellen, aktualisierten Schätzungen der Position und Orientierung aller Objekte in Kategorie 1 und 2 annotiert, die durch ein Bildzusammenführungssystem 1350 eines Fahrzeugs mindestens einmal beobachtet wurden.
In einer Ausführungsform wird die Anzahl von Malen, die das Objekt beobachtet wurde, auch in der globalen Karte 1710 gespeichert. In manchen Beispielen gibt die Anzahl von Malen, die das Objekt beobachtet wurde, eine Wahrscheinlichkeit dafür an, dass das Objekt existiert. In manchen Fällen, falls beispielsweise ein Objekt mindestens einmal pro Tag beobachtet wird, wird das Objekt mit einer hohen Wahrscheinlichkeit dafür assoziiert, dass das Objekt existiert. Andererseits in manchen Fällen, falls ein Objekt weniger als einmal pro Jahr beobachtet wird (z. B. einmal pro Woche, einmal pro Monat und/oder dergleichen), wird das Objekt mit einer geringen Wahrscheinlichkeit dafür assoziiert, dass das Objekt existiert. In manchen Beispielen, falls ein Objekt entfernt oder bewegt wird, wird die Karte entsprechend aktualisiert. In einer Ausführungsform bleibt das Objekt in der globalen Karte 1710, aber das Objekt ist mit Informationen assoziiert, die angeben, dass das Objekt möglicherweise nicht existiert, da mindestens eine Instanz existiert, wenn ein Bildzusammenführungssystem 1350 eines Fahrzeugs das Objekt nicht detektierte (z. B. wenn es sich widersprechende Informationen gibt, die mit einem Objekt assoziiert sind). In einer Ausführungsform sind Daten und Zeiten, die mit den Informationen assoziiert sind, in der globalen Karte 1710 gespeichert. In manchen Beispielen werden Datums- und Zeitinformationen verwendet, um dem Bildzusammenführungssystem 1350 eine Angabe der Informationszuverlässigkeit zu geben. In manchen Beispielen wird ein neu identifiziertes Objekt (das z. B. vor zwei Tagen beobachtet wurde) als zuverlässiger angesehen als ein Objekt, das zuletzt vor einem Jahr beobachtet wurde.
In einer Ausführungsform sind diese Informationen Teil der globalen Karte 1710 und werden beim Routenplanungsprozess verwendet. In manchen Beispielen, falls der Routenplaner eine Indikation empfängt, dass zehn Ampeln entlang eines Pfades vorhanden sind, leitet der Routenplaner das Fahrzeug 1302 aus Kraftstoff- und/oder Energieeffizienzgründen und/oder für Fahrtzeiterwägungen um. In einer Ausführungsform wird Passagierkomfort basierend auf der Anzahl von in der globalen Karte 1710 identifizierten Objekten entlang bestimmter Routen berücksichtigt. In manchen Beispielen ist eine Route mit zehn Stoppschildern weniger komfortabel für einen Passagier, der unter Reisekrankheit leidet, als eine Route, die länger ist (bezüglich des Abstands und/oder der Zeit), aber weniger Stopps beinhaltet (z. B. Autobahnfahrt).
20 ist ein Flussdiagramm des Bildzusammenführungsprozesses 1900 von LiDAR-Informationen mit Kamerainformationen.
Der Bildzusammenführungsprozess 1900 wird durch den mindestens einen Prozessor des Bildzusammenführungssystems eines Fahrzeugs (wie etwa des Bildzusammenführungssystems 1350 des Fahrzeugs 1302) mit mindestens einer LiDAR-Vorrichtung (wie etwa der LiDAR-Vorrichtung oder dem LiDAR-System 1304) durchgeführt, die dazu ausgelegt ist, elektromagnetische Strahlung (z. B. Licht) im Ultraviolett-, Infrarot- oder Laser-Spektrum oder eine beliebige andere Art von elektromagnetischer Strahlung zu detektieren. Das Fahrzeug beinhaltet mindestens eine Kamera (wie etwa die Kamera 1322), die dazu ausgelegt ist, Kamerainformationen der Objekte in der Nähe des Fahrzeugs in einem Sichtfeld der Kamera zu erzeugen. Das Fahrzeug beinhaltet mindestens einen Prozessor, der dazu ausgelegt ist, die Operationen/Schritte des Bildzusammenführungsprozesses 1900 zu implementieren. Der mindestens eine Prozessor führt einen Teil oder alle der Operationen/Schritte des Bildzusammenführungssystems durch.
Das Bildzusammenführungssystem empfängt 1902 LiDAR-Informationen von der mindestens einen LiDAR-Vorrichtung. In manchen Beispielen decken die LiDAR-Informationen einen 360-Grad-Azimut rund um das Fahrzeug ab. In einer Ausführungsform beinhalten die LiDAR-Informationen mehrere LiDAR-Scans unter Verwendung des LiDAR-Systems 1304 und werden in Echtzeit durch das Bildzusammenführungssystem empfangen.
Das Bildzusammenführungssystem empfängt 1904 Objektinformationen eines Objekts in der Nähe des Fahrzeugs basierend auf Kamerainformationen von der mindestens einen Kamera. In einer Ausführungsform beinhalten die Objektinformationen mindestens ein Pixel der Kamerainformationen, das das Objekt repräsentiert. In einer Ausführungsform beinhalten die Objektinformationen Kategorisierungsinformationen, die eine Klassifizierung des Objekts repräsentieren. In einer Ausführungsform empfängt das Bildzusammenführungssystem die Kamerainformationen.
In manchen Beispielen assoziieren Kategorisierungsinformationen ein Pixel mit einem Objekt. Falls beispielsweise mindestens ein Pixel des Bildes als eine Ampel repräsentierend bestimmt wird, wird diese Assoziation in den Kategorisierungsinformationen eingeschlossen. In einer Ausführungsform bestimmt der Segmentierungs- und Annotationsprozess, welche Pixel des Bildes Objekten entsprechen (z. B. ein erster Satz von Pixeln entspricht einer Ampel, ein zweiter Satz von Pixeln entspricht einem Fußgänger usw.).
In einer Ausführungsform repräsentiert die Klassifizierung eine Kategorie für diese Objekte (z. B. Kategorie 1 ist eine Ampel, Kategorie 2 ist ein Verkehrsschild und Kategorie 3 ist alles andere). In einem weiteren Zusammenhang ist eine Kategorie eine Gruppierung von Objekten mit mindestens einem gemeinsamen Merkmal. In einer Ausführungsform beinhalten zum Beispiel Kategorien 1 und 2 alle Verkehrsanweisungen (z. B. Stoppschild, Vorfahrtsschild, Schulzonenschild, Ampel, Geschwindigkeitsbegrenzungsschild, Einfädelungsschild usw.) und Kategorie 3 beinhaltet alles, das keine Verkehrsanweisung ist (z. B. ein Baum, ein Gebäude, ein Fahrzeug, eine Parkuhr usw.). In diesem Zusammenhang ist das gemeinsame Merkmal eine Verkehrsanweisung. Im Allgemeinen bezieht sich in manchen Beispielen eine Verkehrsanweisung auf eine beliebige explizite Anweisung, die durch das Fahrzeug empfangen wird, um durch die Umgebung zu navigieren (z. B. ein Stoppschild beinhaltet eine explizite Verkehrsanweisung zum Anhalten, ein Vorfahrtsschild beinhaltet eine explizite Anweisung zum Beachten der Vorfahrt anderer Fahrzeuge, ein Geschwindigkeitsbegrenzungsschild beinhaltet eine explizite Anweisung, die angegebene Geschwindigkeitsbegrenzung nicht zu überschreiten, und/oder dergleichen).
In einer Ausführungsform bestimmt 1906 das Bildzusammenführungssystem, ob die Kategorisierungsinformationen des Objekts mit einer Verkehrsanweisung assoziiert sind. In manchen Beispielen basiert der Betrieb des Fahrzeugs darauf, ob sich eine Verkehrsanweisung vor dem Fahrzeug befindet (z. B. Anhalten an einem Stopplicht, Abbremsen in einer Schulzone usw.). In manchen Beispielen ist die Verkehrsanweisung eine Ampel oder ein Verkehrsschild. In einer Ausführungsform bestimmt das Bildzusammenführungssystem ein Verkehrssignal der Verkehrsanweisung basierend auf den zusammengeführten Informationen. In manchen Beispielen folgert das Bildzusammenführungssystem das Signal der Ampel basierend auf einer Farbe mindestens eines Pixels in den zusammengeführten Informationen (z. B. Rot, Gelb oder Grün bedeutet Anhalten, Vorfahrt beachten bzw. Weiterfahren). In einer Ausführungsform folgert das Bildzusammenführungssystem das Verkehrssignal basierend auf einer Position einer Spitzenlichtintensität von Licht, das von dem Objekt emittiert wird (z. B. falls ein helles Licht nahe der Oberseite des Objekts emittiert wird, wird es als eine Stoppanweisung repräsentierend gefolgert).
In einer Ausführungsform ist die Steuerschaltung des Fahrzeugs ferner dazu ausgelegt, das Fahrzeugs basierend auf dem Verkehrssignal der Verkehrsanweisungen zu betreiben.
Gemäß dem Bestimmen, dass die Kategorisierungsinformationen des Objekts mit der Verkehrsanweisung assoziiert sind, führt 1908 das Bildzusammenführungssystem mindestens einen Teil der empfangenen LiDAR-Informationen mit mindestens einem Pixel, das mit den empfangenen Objektinformationen assoziiert ist, zusammen, um zusammengeführte Informationen zu erzeugen, die das Objekt repräsentieren. In einer Ausführungsform filtert das Bildzusammenführungssystem die zusammengeführten Informationen basierend auf den Kategorisierungsinformationen. In einer Ausführungsform umfasst das Zusammenführen des mindestens einen Teils der empfangenen LiDAR-Informationen mit dem mindestens einen Pixel, das mit den empfangenen Objektinformationen assoziiert ist, Zusammenführen mehrerer LiDAR-Punkte innerhalb eines Begrenzungsrahmens der Kamerainformationen.
Das Bildzusammenführungssystem bestimmt 1910 einen Standort des Objekts relativ zu dem Fahrzeug basierend auf den zusammengeführten Informationen, die das Objekt repräsentieren. In einer Ausführungsform bestimmt das Bildzusammenführungssystem eine Orientierung des Objekts basierend auf den zusammengeführten Informationen.
In einer Ausführungsform betreibt 1912 das Bildzusammenführungssystem das Fahrzeug basierend auf dem Standort des Objekts. In einer Ausführungsform bewirkt das Bildzusammenführungssystem, dass eine separate Steuerung des Fahrzeugs das Fahrzeug basierend auf dem Standort des Objekts betreibt. In manchen Beispielen benachrichtigt das Bildzusammenführungssystem eine Fahrzeugsteuerung, dass sich einer Ampel mit einem roten Verkehrssignal (z. B. Stoppsignal) genähert wird, und als Reaktion darauf wird das Fahrzeug dahingehend gesteuert, das Fahrzeug vor dem Objekt (z. B. innerhalb eines Abstands vom Objekt) anzuhalten.
In einer Ausführungsform weist das Bildzusammenführungssystem dem Objekt eine Instanzkennung basierend auf den zusammengeführten Informationen zu (z. B. Objekt Nr. 1, Objekt Nr. 2 usw.). In einer Ausführungsform bestimmt das Bildzusammenführungssystem, dass das Objekt schon mit einer Instanzkennung assoziiert ist. In einer Ausführungsform, falls das Bildzusammenführungssystem bestimmt, dass das Objekt nicht mit einer Instanzkennung assoziiert ist, weist das Bildzusammenführungssystem dem Objekt eine Instanzkennung zu.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem, ob das Objekt zwei verschiedene Objekte repräsentiert, basierend auf den zusammengeführten Informationen. Gemäß dem Bestimmen, ob das Objekt zwei verschiedene Objekte repräsentiert, weist das Bildzusammenführungssystem jedem der beiden verschiedenen Objekte eine eindeutige Instanzkennung zu.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem eine Genauigkeit des Objekts basierend auf den zusammengeführten Informationen.
In einer Ausführungsform annotiert das Bildzusammenführungssystem eine Karte basierend auf den zusammengeführten Informationen. In einer Ausführungsform beinhaltet das Annotieren einer Karte Übertragen des Standorts des Objekts, der Klassifizierungsinformationen des Objekts, einer Instanzkennung des Objekts und/oder eines Beobachtungsdatums des Objekts zu einer Datenbank, die die Karte hostet. In einer Ausführungsform aktualisiert das Bildzusammenführungssystem eine bestehende Instanz des Objekts auf einer Karte basierend auf den zusammengeführten Informationen. In einer Ausführungsform bestimmt das Bildzusammenführungssystem, wann sich der Standort oder die Orientierung des Objekts ändert, und entfernt die mit dem Objekt assoziierten Standort- und/oder Orientierungsinformationen aus der Karte. In manchen Beispielen, wenn ein Fahrzeug zu einem bestimmten Bereich der Umgebung zurückkehrt, bestimmt das Bildzusammenführungssystem, dass eine zuvor detektierte Ampel nicht mehr vorhanden ist. In manchen Fällen überträgt das Bildzusammenführungssystem Anweisungen zum Löschen der Ampel aus der Karte oder der Datenbank.
In einer Ausführungsform bestimmt das Bildzusammenführungssystem mindestens ein geometrisches Merkmal des Objekts basierend auf den zusammengeführten Informationen. In einer Ausführungsform beinhaltet das Bestimmen des mindestens einen geometrischen Merkmals des Objekts Bestimmen mindestens einer Kante des Objekts und mindestens einer Oberfläche des Objekts. In einer Ausführungsform beinhaltet das Bestimmen des mindestens einen geometrischen Merkmals des Objekts Bestimmen einer Größe des Objekts. In manchen Beispielen wird eine Kantendetektion an den zusammengeführten Informationen durchgeführt, um eine Kante des Objekts zu bestimmen, und die Orientierung der Kante wird verwendet, um eine Orientierung des Objekts zu folgern.
In einer Ausführungsform erfasst die mindestens eine Kamera die Kamerainformationen und die mindestens eine LiDAR-Vorrichtung erfasst gleichzeitig die LiDAR-Informationen. In einer Ausführungsform erfasst die mindestens eine Kamera die Kamerainformationen, nachdem die mindestens eine LiDAR-Vorrichtung die LiDAR-Informationen erfasst. In einer Ausführungsform basiert eine Timing-Differenz zwischen den Zeitpunkten, zu denen die mindestens eine Kamera die Kamerainformationen erfasst und die mindestens eine LiDAR-Vorrichtung die LiDAR-Informationen erfasst, auf einer vektoriellen Geschwindigkeit des Fahrzeugs.
In einer Ausführungsform empfängt das Bildzusammenführungssystem aktualisierte LiDAR-Informationen von der mindestens einen LiDAR-Vorrichtung. In einer Ausführungsform werden beispielsweise aktualisierte LiDAR-Informationen erzeugt, um die Position des Objekts, das zuvor detektiert wurde, zu bestätigen oder zu überprüfen. In einer Ausführungsform wird das Erfassen aktualisierter LiDAR-Informationen durchgeführt, wenn die vorherigen LiDAR-Informationen unter Verwendung weniger LiDAR-Punkte erfasst wurden als eine Anzahl von LiDAR-Punkten, die mit den aktualisierten LiDAR-Informationen assoziiert sind. In manchen Beispielen werden LiDAR-Informationen ein zweites Mal erfasst, um eine Auflösung in Bereichen der Umgebung zu erhöhen, in denen eine Verkehrsanweisung wahrscheinlich ist (z. B. über dem Fahrzeug, auf den Fußwegen usw.). In einer Ausführungsform wird das Erfassen aktualisierter LiDAR-Informationen durchgeführt, wenn die vorherigen LiDAR-Informationen unter Verwendung von weniger als einem vollen Sichtfeld des LiDAR-Systems erfasst wurden (z. B. weniger als einer 360-Grad-Sicht rund um das Fahrzeug) als ein aktualisiertes Sichtfeld, das mit den aktualisierten LiDAR-Informationen assoziiert ist.
In einer Ausführungsform werden aktualisierte LiDAR-Informationen basierend auf einem zuvor detektierten Objekt erfasst. In manchen Beispielen wurde das zuvor detektierte Objekt basierend auf vorherigen LiDAR-Informationen und zuvor zusammengeführten Informationen detektiert. In manchen Beispielen werden die aktualisierten LiDAR-Informationen erfasst, wenn eine Genauigkeit des Objekts von vorherigen zusammengeführten Informationen unter einer Schwellengenauigkeit liegt.
In einer Ausführungsform empfängt das Bildzusammenführungssystem Fahrzeugstandortinformationen von mindestens einem Sensor des Fahrzeugs, wobei die Fahrzeugstandortinformationen einen Breitengrad und Längengrad des Fahrzeugs beinhalten. In dieser Ausführungsform werden ein Breitengrad und Längengrad des Objekts basierend auf dem Breitengrad und Längengrad des Fahrzeugs bestimmt. Beispielsweise, unter Verwendung der aktuellen Position des Fahrzeugs, bestimmt das Bildzusammenführungssystem den Standort in globalen Koordinaten der Objekte und zeichnet den Standort in der Karte, der Datenbank oder dem Server auf.
In der vorstehenden Beschreibung wurden Ausführungsformen der Erfindung mit Bezugnahme auf zahlreiche spezifische Einzelheiten beschrieben, die von Implementierung zu Implementierung variieren können. Die Beschreibung und die Zeichnungen sind dementsprechend als veranschaulichend anstatt beschränkend aufzufassen. Der alleinige und exklusive Indikator des Schutzumfangs der Erfindung, und was durch die Anmelder als der Schutzumfang der Erfindung beabsichtigt wird, ist der wörtliche und äquivalente Schutzumfang des Satzes von Ansprüchen, der sich aus dieser Anmeldung ergibt, in der spezifischen Form, in der solche Ansprüche sich ergeben, einschließlich jeglicher anschließender Korrektur. Jegliche Definitionen, die hierin für in solchen Ansprüchen enthaltenen Begriffe dargelegt sind, sollen die Bedeutung solcher Begriffe, wie in den Ansprüchen verwendet, bestimmen. Zusätzlich, wenn der Begriff „ferner umfassend“ in der vorstehenden Beschreibung oder den folgenden Ansprüchen verwendet wird, kann, was diesem Ausdruck folgt, ein zusätzlicher Schritt oder eine zusätzliche Entität oder ein Teilschritt/eine Teilentität eines zuvor vorgetragenen Schritts oder einer zuvor vorgetragenen Entität sein.

Claims

Fahrzeug, umfassend: mindestens eine LiDAR-Vorrichtung, die dazu ausgelegt ist, elektromagnetische Strahlung zu detektieren, die von Objekten in der Nähe des Fahrzeugs reflektiert wird, und LiDAR-Informationen basierend auf der detektierten elektromagnetischen Strahlung zu erzeugen; mindestens eine Kamera, die dazu ausgelegt ist, Kamerainformationen zu erzeugen, die Bilder der Objekte in der Nähe des Fahrzeugs in einem Sichtfeld der mindestens einen Kamera repräsentieren; mindestens ein computerlesbares Medium, das computerausführbare Anweisungen speichert; mindestens einen Prozessor, der kommunikativ mit der mindestens einen LiDAR-Vorrichtung und der mindestens einen Kamera gekoppelt ist, wobei der mindestens eine Prozessor dazu ausgelegt ist, die computerausführbaren Anweisungen auszuführen, wobei die Ausführung Operationen ausführt, die Folgendes beinhalten: Empfangen von LiDAR-Informationen von der mindestens einen LiDAR-Vorrichtung; Empfangen von Objektinformationen eines Objekts in der Nähe des Fahrzeugs basierend auf Kamerainformationen von der mindestens einen Kamera, wobei die Objektinformationen mindestens ein Pixel der Kamerainformationen umfassen, das das Objekt repräsentiert, und die Objektinformationen Kategorisierungsinformationen umfassen, die eine Klassifizierung des Objekts repräsentieren; Zusammenführen mindestens eines Teils der empfangenen LiDAR-Informationen mit mindestens einem Pixel, das mit den empfangenen Objektinformationen assoziiert ist, um zusammengeführte Informationen zu erzeugen, die das Objekt repräsentieren; Bestimmen eines Standorts des Objekts relativ zu dem Fahrzeug basierend auf den zusammengeführten Informationen, die das Objekt repräsentieren; und eine Steuerschaltung, die kommunikativ mit dem mindestens einen Prozessor gekoppelt ist, wobei die Steuerschaltung dazu ausgelegt ist, das Fahrzeug basierend auf dem Standort des Objekts relativ zu dem Fahrzeug zu betreiben.
Fahrzeug nach Anspruch 1, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Filtern der zusammengeführten Informationen basierend auf den Kategorisierungsinformationen.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Bestimmen einer Orientierung des Objekts basierend auf den zusammengeführten Informationen.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Bestimmen, ob die Kategorisierungsinformationen des Objekts mit einer Verkehrsanweisung assoziiert sind.
Fahrzeug nach Anspruch 4, wobei die Verkehrsanweisung eine Ampel oder ein Verkehrsschild ist.
Fahrzeug nach Anspruch 4 oder Anspruch 5, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Bestimmen eines Verkehrssignals der Verkehrsanweisung basierend auf den zusammengeführten Informationen.
Fahrzeug nach Anspruch 6, wobei die Steuerschaltung ferner dazu ausgelegt ist, das Fahrzeug basierend auf dem Verkehrssignal der Verkehrsanweisungen zu betreiben.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Zuweisen einer Instanzkennung zu dem Objekt basierend auf den zusammengeführten Informationen.
Fahrzeug nach Anspruch 8, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die Folgendes beinhalten: Bestimmen, ob das Objekt zwei verschiedene Objekte repräsentiert, basierend auf den zusammengeführten Informationen; und gemäß dem Bestimmen, ob das Objekt zwei verschiedene Objekte repräsentiert, Zuweisen einer eindeutigen Instanzkennung zu jedem der beiden verschiedenen Objekte.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Bestimmen einer Genauigkeit des Objekts basierend auf den zusammengeführten Informationen.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Annotieren einer Karte basierend auf den zusammengeführten Informationen.
Fahrzeug nach Anspruch 11, wobei das Annotieren einer Karte Übertragen des Standorts des Objekts, der Klassifizierungsinformationen des Objekts, einer Instanzkennung des Objekts und/oder eines Beobachtungsdatums des Objekts zu einer Datenbank, die die Karte hostet, umfasst.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Aktualisieren einer bestehenden Instanz des Objekts auf einer Karte basierend auf den zusammengeführten Informationen.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei der mindestens eine Prozessor ferner dazu ausgelegt ist, Operationen auszuführen, die beinhalten: Bestimmen mindestens eines geometrischen Merkmals des Objekts basierend auf den zusammengeführten Informationen.
Fahrzeug nach Anspruch 14, wobei das Bestimmen des mindestens einen geometrischen Merkmals des Objekts Bestimmen mindestens einer Kante des Objekts und mindestens einer Oberfläche des Objekts umfasst.
Fahrzeug nach Anspruch 14, wobei das Bestimmen des mindestens einen geometrischen Merkmals des Objekts Bestimmen einer Größe des Objekts umfasst.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei die mindestens eine Kamera die Kamerainformationen erfasst und die mindestens eine LiDAR-Vorrichtung gleichzeitig die LiDAR-Informationen erfasst.
Fahrzeug nach einem der Ansprüche 1-16, wobei die mindestens eine Kamera die Kamerainformationen erfasst, nachdem die mindestens eine LiDAR-Vorrichtung die LiDAR-Informationen erfasst.
Fahrzeug nach Anspruch 18, wobei eine Timing-Differenz zwischen den Zeitpunkten, zu denen die mindestens eine Kamera die Kamerainformationen erfasst und die mindestens eine LiDAR-Vorrichtung die LiDAR-Informationen erfasst, auf einer vektoriellen Geschwindigkeit des Fahrzeugs basiert.
Fahrzeug nach einem der vorangegangenen Ansprüche, wobei das Zusammenführen des mindestens einen Teils der empfangenen LiDAR-Informationen mit dem mindestens einen Pixel, das mit den empfangenen Objektinformationen assoziiert ist, Zusammenführen mehrerer LiDAR-Punkte innerhalb eines Begrenzungsrahmens der Kamerainformationen umfasst.
Verfahren, umfassend: Empfangen von LiDAR-Informationen von mindestens einer LiDAR-Vorrichtung eines Fahrzeugs; Empfangen von Objektinformationen eines Objekts in der Nähe des Fahrzeugs basierend auf Kamerainformationen von mindestens einer Kamera, wobei die Objektinformationen mindestens ein Pixel der Kamerainformationen umfassen, das das Objekt repräsentiert, und die Objektinformationen Kategorisierungsinformationen umfassen, die eine Klassifizierung des Objekts repräsentieren; Bestimmen, ob die Kategorisierungsinformationen des Objekts mit einer Verkehrsanweisung assoziiert sind; und gemäß dem Bestimmen, dass die Kategorisierungsinformationen des Objekts mit der Verkehrsanweisung assoziiert sind: Zusammenführen mindestens eines Teils der empfangenen LiDAR-Informationen mit mindestens einem Pixel, das mit den empfangenen Objektinformationen assoziiert ist, um zusammengeführte Informationen zu erzeugen, die das Objekt repräsentieren; Bestimmen eines Standorts des Objekts relativ zu dem Fahrzeug basierend auf den zusammengeführten Informationen, die das Objekt repräsentieren; und Betreiben des Fahrzeugs basierend auf dem Standort des Objekts.
Nichtflüchtiges computerlesbares Speicherungsmedium, das mindestens ein Programm zur Ausführung durch mindestens einen Prozessor einer ersten Vorrichtung umfasst, wobei das mindestens eine Programm Anweisungen beinhaltet, die bei ihrer Ausführung durch mindestens einen Prozessor bewirken, dass die erste Vorrichtung das Verfahren nach Anspruch 21 durchführt.