DE102022100213A1

DE102022100213A1 - Auf Maschinenlernen basierendes Framework für die Annotation befahrbarer Oberflächen

Info

Publication number: DE102022100213A1
Application number: DE102022100213.6A
Authority: DE
Inventors: Sergi Adipraja Widjaja; Venice Erin Baylon Liong; Zhuang Jie Chong; Apoorv Singh
Original assignee: Motional AD LLC
Current assignee: Motional AD LLC
Priority date: 2021-07-16
Filing date: 2022-01-05
Publication date: 2023-01-19
Also published as: US11367289B1; KR20230012953A; CN115615445A; GB2609060B; US20230016246A1; GB2609060A

Abstract

Es sind Ausführungsformen eines ML-basierten Frameworks zur Annotation befahrbarer Oberflächen enthalten. Gemäß einer Ausführungsform umfasst ein Verfahren: Erhalten multimodaler Kartendaten für ein geographisches Gebiet unter Verwendung wenigstens eines Prozessors und automatisches Annotieren einer oder mehrerer semantischer Masken der Kartendaten unter Verwendung eines Maschinenlernmodells unter Verwendung des wenigstens einen Prozessors.

Description

GEBIET DER ERFINDUNG
Die folgende Beschreibung betrifft allgemein das Annotieren semantischer Kartenschichten zum Durchfahren von Straßen unter Verwendung eines autonomen Fahrzeugs.
HINTERGRUND
Autonome Fahrzeuge verwenden häufig einen Wahrnehmungsstapel, der anhand Sensordaten in der Art von Bilddaten (beispielsweise Kameradaten) und Tiefendaten (beispielsweise LiDAR-Punktwolken) arbeitet, um eine Objekterkennung unter Verwendung trainierter Maschinenlern(ML)-Modelle auszuführen. Die ML-Modelle geben typischerweise zweidimensionale (2D) und/oder dreidimensionale (3D) Begrenzungskästchen aus, die Objekte enthalten, die unter Verwendung der ML-Modelle gelabelt worden sind. Die gelabelten Objekterkennungen werden vom Fahrzeug mit handannotierten semantischen Kartenschichten (beispielsweise Fahrspur- und Kreuzungsmaskenschichten) zum sicheren und effizienten Durchfahren von Straßen in der Umgebung verwendet. Die semantischen Kartenschichten weisen grobkörnige Informationen in der Art befahrbare Oberflächen definierender Straßenmarkierungen und feinkörnigere Informationen in der Art von Fußgängerüberwegen und Fahrzeugparkplätzen auf. Die Annotation der semantischen Kartenschichten von Hand ist arbeitsintensiv und verbraucht finanzielle Ressourcen.
KURZFASSUNG
Es werden Techniken für ein ML-basiertes Framework für die Annotation befahrbarer Oberflächen bereitgestellt.
Gemäß einer Ausführungsform umfasst ein Verfahren: Erhalten von Kartendaten für ein geographisches Gebiet unter Verwendung wenigstens eines Prozessors und automatisches Annotieren einer oder mehrerer semantischer Masken der Kartendaten unter Verwendung eines Maschinenlernmodells unter Verwendung des wenigstens einen Prozessors.
Gemäß einer Ausführungsform sind die Kartendaten multimodal.
Gemäß einer Ausführungsform umfassen die multimodalen Kartendaten wenigstens Intensitäts- und Belegungskarten.
Gemäß einer Ausführungsform wird das Maschinenlernmodell durch ein zweidimensionales (2D) faltendes Netz implementiert.
Gemäß einer Ausführungsform wird das Maschinenlernmodell unter Verwendung einer Ensemble-Modellierung implementiert.
Gemäß einer Ausführungsform wird das Maschinenlernmodell anhand aus einem oder mehreren Kartenmodellen extrahierter Bildproben iterativ trainiert und werden verschiedene Bildproben für jede Trainingsiteration extrahiert, um die Variabilität von Trainingsbildern zu erhöhen.
Gemäß einer Ausführungsform werden das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen zum Trainieren und Testen des Maschinenlernmodells in verschiedene Abtastbildgebiete zerlegt.
Gemäß einer Ausführungsform werden das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen unter Verwendung einer Baumdatenstruktur automatisch in verschiedene Abtastbildgebiete zerlegt.
Gemäß einer Ausführungsform ist die Baumdatenstruktur eine Quadtree-Datenstruktur.
Gemäß einer Ausführungsform umfasst ein System: wenigstens einen Prozessor und einen Speicher, der Befehle speichert, die, wenn sie durch den wenigstens einen Prozessor ausgeführt werden, den wenigstens einen Prozessor veranlassen, eines der vorstehend beschriebenen Verfahren auszuführen.
Gemäß einer Ausführungsform umfasst ein nichtflüchtiges computerlesbares Speichermedium: wenigstens einen Prozessor und einen Speicher, der Befehle speichert, die, wenn sie durch den wenigstens einen Prozessor ausgeführt werden, den wenigstens einen Prozessor veranlassen, eines der vorstehend beschriebenen Verfahren auszuführen.
Eine oder mehrere der offenbarten Ausführungsformen bieten einen oder mehrere der folgenden Vorteile. Die Anzahl der für die handannotierten semantischen Kartenschichten benötigten Stunden wird verringert, so dass finanzielle und menschliche Ressourcen von der Handannotation hochauflösender (HD-) Karten umgewidmet werden können. Die durch die offenbarten Ausführungsformen ausgegebenen Masken befahrbarer Oberflächen können als semantische Vorstufen für andere Maschinenlernanwendungen, zum Informieren künftiger Taxonomien und zum aktiven Lernen für eine Datenkuratierung (beispielsweise vorbeeinflussendes Daten-Mining über Bereiche, die befahrbar sind, Identifizieren von Kreuzungen auf einer nicht durchfahrenen Straße für ein verbessertes Daten-Mining) und zum Verringern der Rechenanforderungen durch Ausschließen von Punkten, die von einer befahrbaren Oberfläche zu weit entfernt sind, verwendet werden. Mit dem ML-basierten Framework können mehr Informationen aus existierenden Kartenressourcen ausgenutzt werden, wodurch die Leistungsfähigkeit beispielsweise an Straßenbegrenzungen und Kreuzungen erhöht wird.
Diese und andere Aspekte, Merkmale und Implementationen können als Verfahren, Vorrichtungen, Systeme, Komponenten, Programmprodukte, Mittel oder Schritte zur Ausführung einer Funktion und auf andere Arten ausgedrückt werden. Diese und andere Aspekte, Merkmale und Implementationen werden anhand der folgenden Beschreibungen, einschließlich der Ansprüche, verständlich werden.
Figurenliste
Es zeigen:

1 ein Beispiel eines autonomen Fahrzeugs (AV) mit einer Autonomiefähigkeit gemäß einer oder mehreren Ausführungsformen,
2 eine beispielhafte „Cloud“-Rechenumgebung gemäß einer oder mehreren Ausführungsformen,
3 ein Computersystem gemäß einer oder mehreren Ausführungsformen,
4 eine beispielhafte Architektur für ein AV gemäß einer oder mehreren Ausführungsformen,
5 eine beispielhafte Ansicht einer handannotierten semantischen Kartenschicht aus der Vogelperspektive (BEV) gemäß einer oder mehreren Ausführungsformen,
6 ein Konzeptdiagramm eines ML-unterstützten Annotationszyklus gemäß einer oder mehreren Ausführungsformen,
die 7A und 7B Konzeptdiagramme eines ML-basierten Frameworks zur Annotation befahrbarer Oberflächen gemäß einer oder mehreren Ausführungsformen,
8 ein Konzeptdiagramm eines neuronalen Netzes zur ML-basierten Annotation semantischer Kartenschichten gemäß einer oder mehreren Ausführungsformen,
9 ein Konzeptdiagramm einer Ensemble-Modellierung zur ML-basierten Annotation semantischer Kartenschichten gemäß einer oder mehreren Ausführungsformen,
[00026] 10 ein Konzeptdiagramm einer Ensemble-Modellierung zur ML-basierten Annotation semantischer Kartenschichten unter Verwendung kaskadierender Blöcke gemäß einer oder mehreren Ausführungsformen,
11 ein Konzeptdiagramm einer Ensemble-Modellierung zur ML-basierten Annotation semantischer Kartenschichten, worin verschiedene Grundblöcke für kontraktive und expansive Pfade dargestellt sind, gemäß einer oder mehreren Ausführungsformen,
[00028] 12 ein Konzeptdiagramm einer Ensemble-Modellierung zur ML-basierten Annotation semantischer Kartenschichten, worin alternierende Grundblöcke dargestellt sind, gemäß einer oder mehreren Ausführungsformen,
13 ein Konzeptdiagramm einer Global-zu-lokal-Modellkaskadierung gemäß einer oder mehreren Ausführungsformen und
14 ein Flussdiagramm eines ML-basierten Frameworks für die Annotation befahrbarer Oberflächen gemäß einer oder mehreren Ausführungsformen.

DETAILLIERTE BESCHREIBUNG
In der folgenden Beschreibung werden für die Zwecke der Erklärung zahlreiche spezifische Einzelheiten dargelegt, um ein gründliches Verständnis der vorliegenden Erfindung bereitzustellen. Es ist jedoch zu verstehen, dass die vorliegende Erfindung ohne diese spezifischen Einzelheiten verwirklicht werden kann. In anderen Fällen sind wohlbekannte Strukturen und Vorrichtungen in Form eines Blockdiagramms dargestellt, um es zu vermeiden, die vorliegende Erfindung unnötig unverständlich zu machen.
In den Zeichnungen sind im Interesse einer einfachen Beschreibung spezifische Anordnungen oder Reihenfolgen schematischer Elemente in der Art solcher, die Vorrichtungen, Systeme, Befehlsblöcke und Datenelemente repräsentieren, dargestellt. Fachleute sollten jedoch verstehen, dass die spezifische Reihenfolge oder Anordnung der schematischen Elemente in den Zeichnungen nicht implizieren soll, dass eine bestimmte Ordnung oder Sequenz der Verarbeitung oder Trennung von Prozessen erforderlich ist. Ferner soll die Aufnahme eines schematischen Elements in einer Zeichnung nicht implizieren, dass dieses Element in allen Ausführungsformen benötigt wird oder dass die durch dieses Element repräsentierten Merkmale nicht gemäß einigen Ausführungsformen in andere Elemente aufgenommen oder mit diesen kombiniert werden können.
Ferner soll in den Zeichnungen an Stellen, an denen verbindende Elemente, beispielsweise durchgezogene oder gestrichelte Linien oder Pfeile, verwendet werden, um eine Verbindung, Beziehung oder Assoziation zwischen oder unter zwei oder mehr anderen schematischen Elementen darzustellen, das Nichtvorhandensein solcher verbindender Elemente nicht bedeuten, dass dadurch impliziert wird, dass keine Verbindung, Beziehung oder Assoziation existieren kann. Mit anderen Worten sind in den Zeichnungen einige Verbindungen, Beziehungen oder Assoziationen zwischen Elementen nicht dargestellt, um die Offenbarung nicht unverständlich zu machen. Zusätzlich wird im Interesse einer einfachen Darstellung ein einziges verbindendes Element verwendet, um mehrere Verbindungen, Beziehungen oder Assoziationen zwischen Elementen zu repräsentieren. Beispielsweise sollten Fachleute an Stellen, an denen ein verbindendes Element eine Kommunikation von Signalen, Daten oder Befehlen repräsentiert, verstehen, dass dieses Element einen oder mehrere Signalwege (beispielsweise einen Bus) repräsentiert, wie es erforderlich sein kann, um die Kommunikation auszuführen.
Es wird nun detailliert auf Ausführungsformen Bezug genommen, von denen Beispiele in den anliegenden Zeichnungen dargestellt sind. In der folgenden detaillierten Beschreibung werden zahlreiche spezifische Einzelheiten dargelegt, um ein gründliches Verständnis der verschiedenen beschriebenen Ausführungsformen bereitzustellen. Durchschnittsfachleute auf dem Gebiet werden jedoch verstehen, dass die verschiedenen beschriebenen Ausführungsformen ohne diese spezifischen Einzelheiten verwirklicht werden können. In anderen Fällen wurden wohlbekannte Verfahren, Prozeduren, Komponenten, Schaltungen und Netze nicht detailliert beschrieben, um Aspekte der Ausführungsformen nicht unnötig unverständlich zu machen.
Nachstehend werden mehrere Merkmale beschrieben, die jeweils unabhängig voneinander oder mit einer beliebigen Kombination anderer Merkmale verwendet werden können. Ein individuelles Merkmal kann jedoch nicht jegliche der vorstehend erörterten Probleme adressieren oder könnte nur eines der vorstehend erörterten Probleme adressieren. Einige der vorstehend erörterten Probleme könnten durch eines der hier beschriebenen Merkmale nicht vollständig adressiert werden. Wenngleich Überschriften bereitgestellt sind, können Informationen, die sich auf eine bestimmte Überschrift beziehen, jedoch nicht in dem Abschnitt mit dieser Überschrift vorgefunden werden, auch anderswo in dieser Beschreibung gefunden werden. Ausführungsformen werden hier gemäß der folgenden Grobstruktur beschrieben:

1. Allgemeiner Überblick
2. Systemüberblick
3. Autonomes-Fahrzeug-Architektur
4. ML-basiertes Framework für die Annotation befahrbarer Oberflächen

Allgemeiner Überblick
Es werden Techniken für ein ML-basiertes Framework für die Annotation befahrbarer Oberflächen bereitgestellt. Gemäß einer Ausführungsform werden ML-basierte Techniken auf Kartenmodelle angewendet. Die Kartenmodelle können in Bezug auf spezifische Gebiete einer Karte lokalisiert werden. Die Kartenmodelle können hochauflösende Karten sein und Folgende umfassen, ohne auf sie beschränkt zu sein: Intensitätskarten (beispielsweise Karten, die durch LiDAR-Sensoren bereitgestellt werden, die für jeden Punkt in einer Punktwolke die Rückkehrstärke eines Laserpulses, der den Punkt erzeugt hat, messen), Belegungskarten (die von einem Objekt belegte Bereiche repräsentieren), Farbkarten (beispielsweise farbcodierte Kamerabilder), Texturkarten (die Texturen repräsentieren), von anderen ML-Modellen und/oder dergleichen ausgegebene Karten (beispielsweise vorhergesagte BEV-Karten), farbige Punktwolken und Ausgaben von Echtzeitmodellen, die auf der angebrachten Sensorsuite laufen.
Die ML-basierten Techniken sagen automatisch eine Maske befahrbarer Oberflächen (beispielsweise eine Maske eines Gebiets einer Karte, worin wenigstens ein Fahrzeug betrieben werden soll) mit semantischen Schichten in Zusammenhang mit der Maske befahrbarer Oberflächen, die mit zusätzlichen Kategorien/Labels (beispielsweise Fahrspuren, Kreuzungen, Fußgängern, Gehwegen, Fahrzeugparkplätzen) annotiert sind, vorher. Gemäß einer Ausführungsform werden die ML-basierten Techniken unter Verwendung eines zweidimensionalen (2D) faltenden Netzes mit handannotierten semantischen Schichten als Ziel-Labels implementiert. Gemäß einer Ausführungsform werden Proben von interessierenden Bildgebieten aus den Kartenmodellen extrahiert und in das zweidimensionale faltende Netz eingegeben, das die semantischen Kartenschichten mit zusätzlichen Kategorien/Labels, die weiter handannotiert werden können, vorhersagt.
Gemäß einer Ausführungsform ist das zweidimensionale faltende Netz ein modifiziertes U-Net-Modell, bei dem die grundlegenden Faltungsblöcke in den Kontraktions- und/oder Expansionspfaden des U-Net-Modells durch Restblöcke und/oder dichte Blöcke auf der Grundlage von ResNet- und DenseNet-ML-Modellen ersetzt sind. Gemäß einer Ausführungsform kann eine Verlustfunktion, wobei es sich um eine Kombination von Kreuzentropie und Dice-Verlust handelt, zum Trainieren des zweidimensionalen faltenden Netzes verwendet werden.
Gemäß einer Ausführungsform kann eine Ensemble-Modellierung mit einer Vielzahl verschiedener Modelle in den Kontraktions- und/oder Expansionspfaden des zweidimensionalen faltenden Netzes verwendet werden, um die Vorhersage zu verbessern. Gemäß einer Ausführungsform werden die Proben während des Trainings online aus Bildgebieten extrahiert, um die Effizienz zu verbessern. Eine Baumdatenstruktur (beispielsweise Quadtree) kann zum Zerlegen von Bildgebieten verwendet werden, um einen gleichen Anteil von Straßenmarkierungen in den Trainings- und Testdatensätzen des zweidimensionalen faltenden Netzes zu gewährleisten.
Die offenbarten Ausführungsformen bieten einen oder mehrere der folgenden Vorteile. Durch die Verwendung von ML-Modellen zur Unterstützung des Handannotationsprozesses kann die Anzahl der Annotationen, die eine Person benötigt, um eine HD-Karte vollständig zu annotieren, verringert werden, wodurch die Geschwindigkeit der Annotation insgesamt erhöht wird. Die Ausgabe des zweidimensionalen faltenden Netzes ist eine annotierte Maske befahrbarer Oberflächen, die von einem Planer eines AVs oder als semantische Vorstufen für andere ML-Modelle in der Art von Bildsegmentierungs- und Punktwolken-Segmentierungsnetzen, die in durch AV-Stapel implementierten Wahrnehmungsaufgaben verwendet werden, verwendet werden kann. Das Konzept der „Befahrbarkeit“ kann auch zum Informieren künftiger Taxonomien und zum aktiven Lernen für eine Datenkuratierung verwendet werden. Beispielsweise umfassen mögliche Anwendungen die Folgenden, sind jedoch nicht auf diese beschränkt: Vorbeeinflussen des Daten-Minings auf befahrbaren Oberflächen und Identifizieren von Kreuzungen auf nicht durchfahrenen Straßen für ein besseres Daten-Mining. Zur Verringerung der Rechenanforderungen eines Punktwolken(beispielsweise LiDAR-Punktwolken)-Segmentierungsnetzes kann die Maske befahrbarer Oberflächen verwendet werden, um Punkte aus der Punktwolke auszuschließen, die zu weit von der befahrbaren Oberfläche entfernt sind.
Systemüberblick
1 zeigt ein Beispiel eines autonomen Fahrzeugs 100 mit einer Autonomiefähigkeit.
Hier bezieht sich der Begriff „Autonomiefähigkeit“ auf eine Funktion, ein Merkmal oder eine Einrichtung, die es einem Fahrzeug ermöglicht, teilweise oder vollständig ohne menschlichen Eingriff in Echtzeit betrieben zu werden, wobei dies vollständig autonome Fahrzeuge, hochgradig autonome Fahrzeuge und bedingt autonome Fahrzeuge einschließt, jedoch nicht darauf beschränkt ist.
Hier ist ein autonomes Fahrzeug (AV) ein Fahrzeug, das eine Autonomiefähigkeit besitzt.
Hier schließt „Fahrzeug“ Mittel für den Transport von Waren oder Personen ein. Beispielsweise sind dies Autos, Busse, Züge, Flugzeuge, Drohnen, Lastwagen, Boote, Schiffe, Unterseeboote, Luftschiffe, Motorräder, Fahrräder usw. Ein fahrerloses Auto ist ein Beispiel eines Fahrzeugs.
Hier bezieht sich „Fahrstrecke“ auf einen Weg oder eine Route zum Betreiben eines AVs von einem ersten räumlich-zeitlichen Ort zu einem zweiten räumlich-zeitlichen Ort. Gemäß einer Ausführungsform wird der erste räumlich-zeitliche Ort als Anfangs- oder Ausgangsort bezeichnet und wird der zweite räumlich-zeitliche Ort als Bestimmungsort, endgültiger Ort, Ziel, Zielposition oder Zielort bezeichnet. Bei einigen Beispielen besteht eine Fahrstrecke aus einem oder mehreren Segmenten (beispielsweise Straßenabschnitten) und besteht jedes Segment aus einem oder mehreren Blöcken (beispielsweise Teilen einer Fahrspur oder einer Kreuzung). Gemäß einer Ausführungsform entsprechen die räumlich-zeitlichen Orte realen Orten. Beispielsweise sind die räumlich-zeitlichen Orte Einlade- oder Ausladeorte für das Einladen oder Ausladen von Personen oder Waren.
Hier schließt „Sensor(en)“ eine oder mehrere Hardwarekomponenten ein, die Informationen über die Umgebung um den Sensor herum erfassen. Einige der Hardwarekomponenten können Messkomponenten (beispielsweise Bildsensoren, biometrische Sensoren), sendende und/oder empfangende Komponenten (beispielsweise Laser- oder Hochfrequenzwellen-Sender und -Empfänger), elektronische Komponenten in der Art von Analog-Digital-Wandlern, eine Datenspeichervorrichtung (in der Art eines RAMs und/oder eines nichtflüchtigen Speichers), Software- oder Firmwarekomponenten und Datenverarbeitungskomponenten in der Art eines ASICs (anwendungsspezifische integrierte Schaltung), eines Mikroprozessors und/oder einer Mikrosteuereinrichtung einschließen.
Hier ist eine „Straße“ ein physischer Bereich, der von einem Fahrzeug durchfahren werden kann, und sie kann einer benannten Durchgangsroute (beispielsweise einer Stadtstraße, einer Autobahn usw.) oder einer unbenannten Durchgangsroute (beispielsweise eine Auffahrt in einem Haus oder Bürogebäude, einem Abschnitt eines Parkplatzes, einem Abschnitt einer leeren Parzelle, einem unbefestigten Weg in einem ländlichen Bereich usw.) entsprechen. Weil einige Fahrzeuge (beispielsweise Pickup-Trucks mit Vierradantrieb, SUVs usw.) in der Lage sind, eine Vielzahl physischer Bereiche zu durchqueren, die nicht spezifisch für das Durchfahren mit einem Fahrzeug angepasst sind, kann eine „Straße“ ein physischer Bereich sein, der nicht formal durch eine Gemeinde- oder andere Regierungs- oder Verwaltungsinstitution als Durchgangsroute definiert ist.
Hier ist eine „Fahrspur“ ein Teil einer Straße, der von einem Fahrzeug durchfahren werden kann und dem größten Teil des Raums zwischen Fahrspurmarkierungen oder dem ganzen Raum dazwischen oder nur einem Teil (beispielsweise weniger als 50 %) des Raums zwischen Fahrspurmarkierungen entsprechen kann. Eine Straße mit weit beabstandeten Fahrspurmarkierungen könnte beispielsweise zwei oder mehr Fahrzeuge zwischen den Markierungen aufnehmen, so dass ein Fahrzeug an dem anderen vorbeifahren kann, ohne die Fahrspurmarkierungen zu überqueren, so dass sie als eine Fahrspur, die schmaler ist als der Raum zwischen den Fahrspurmarkierungen, oder als zwei Fahrspuren zwischen den Fahrspurmarkierungen aufweisend interpretiert werden könnte. Eine Fahrspur könnte auch bei Nichtvorhandensein von Fahrspurmarkierungen interpretiert werden. Beispielsweise kann eine Fahrspur auf der Grundlage eines physischen Merkmals einer Umgebung, beispielsweise Felsen und Bäume entlang einer Durchgangsroute in einem ländlichen Bereich, definiert werden.
Hier beziehen sich „Ego-Fahrzeug“ oder „Ego“ auf ein virtuelles Fahrzeug oder AV mit virtuellen Sensoren zum Erfassen einer virtuellen Umgebung, das beispielsweise von einem Planer verwendet wird, um die Route des virtuellen AVs in der virtuellen Umgebung zu planen.
„Ein/eine/eines oder mehrere“ schließt ein, dass eine Funktion durch ein Element ausgeführt wird, eine Funktion durch mehr als ein Element ausgeführt wird, beispielsweise in verteilter Weise, dass mehrere Funktionen durch ein Element ausgeführt werden, dass mehrere Funktionen durch mehrere Elemente ausgeführt werden, oder es schließt eine Kombination von diesen ein.
Es wird auch verstanden werden, dass, wenngleich die Begriffe erster, zweiter usw. hier in einigen Fällen verwendet werden, um verschiedene Elemente zu beschreiben, diese Elemente nicht auf diese Begriffe beschränkt werden sollten. Diese Begriffe werden nur verwendet, um ein Element von einem anderen Element zu unterscheiden. Beispielsweise könnte ein erster Kontakt als ein zweiter Kontakt bezeichnet werden und könnte ähnlich ein zweiter Kontakt als ein erster Kontakt bezeichnet werden, ohne vom Schutzumfang der verschiedenen beschriebenen Ausführungsformen abzuweichen. Der erste und der zweite Kontakt sind beide Kontakte, sie sind jedoch nicht derselbe Kontakt.
Die in der Beschreibung der verschiedenen hier beschriebenen Ausführungsformen verwendete Terminologie dient nur der Beschreibung bestimmter Ausführungsformen und ist nicht als einschränkend vorgesehen. Wie in der Beschreibung der verschiedenen beschriebenen Ausführungsformen und den anliegenden Ansprüchen verwendet, sollen die Singularformen „ein/eine/eines“ und „der/die/das“ auch die Pluralformen einschließen, es sei denn, dass der Zusammenhang klar etwas anderes angibt. Es sei auch bemerkt, dass der Begriff „und/oder“, wie er hier verwendet wird, jegliche und alle möglichen Kombinationen eines oder mehrerer der assoziierten aufgezählten Bestandteile betrifft und diese umfasst. Es ist ferner zu verstehen, dass die Begriffe "weist auf' und/oder „aufweisend“, wenn sie in dieser Beschreibung verwendet werden, das Vorhandensein erwähnter Merkmale, natürlicher Zahlen, Schritte, Operationen, Elemente und/oder Komponenten spezifizieren, jedoch nicht das Vorhandensein oder das Hinzufügen eines oder mehrerer anderer Merkmale, natürlicher Zahlen, Schritte, Operationen, Elemente, Komponenten und/oder Gruppen davon ausschließen.
Hier sollte der Begriff „falls“ abhängig vom Zusammenhang optional als „wenn“ oder „bei“ oder „ansprechend auf eine Feststellung“ oder „ansprechend auf eine Erkennung“ bedeutend ausgelegt werden. Ähnlich sollte der Ausdruck „falls festgestellt wird“ oder „falls [eine erwähnte Bedingung oder ein erwähntes Ereignis] erkannt wird“ abhängig vom Zusammenhang optional als „bei einer Feststellung“ oder „ansprechend auf eine Feststellung“ oder „bei einer Erkennung [der erwähnten Bedingung oder des erwähnten Ereignisses]“ oder „ansprechend auf eine Erkennung [der erwähnten Bedingung oder des erwähnten Ereignisses]“ bedeutend ausgelegt werden.
Hier bezeichnet ein AV-System das AV zusammen mit einer Anordnung von Hardware, Software, gespeicherten Daten und in Echtzeit erzeugten Daten, wodurch der Betrieb des AVs unterstützt wird. Gemäß einer Ausführungsform ist das AV-System in ein AV aufgenommen. Gemäß einer Ausführungsform ist das AV-System über mehrere Orte verteilt. Beispielsweise wird ein Teil der Software des AV-Systems auf einer Cloud-Rechenumgebung implementiert, die einer nachstehend mit Bezug auf 3 beschriebenen Cloud-Rechenumgebung 300 ähnelt.
Dieses Dokument beschreibt generell Technologien, die auf Fahrzeuge anwendbar sind, die eine oder mehrere Autonomiefähigkeiten aufweisen, einschließlich vollständig autonomer Fahrzeuge, hochgradig autonomer Fahrzeuge und bedingt autonomer Fahrzeuge, wie jeweilige so genannte Level-5-, Level-4- und Level-3-Fahrzeuge (siehe SAE International's Standard J3016: Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated Driving Systems, der für weitere Einzelheiten über die Klassifikation von Autonomieniveaus in Fahrzeugen durch Verweis in seiner Gesamtheit aufgenommen wird). Die in diesem Dokument beschriebenen Technologien sind auch auf teilweise autonome Fahrzeuge und fahrerunterstützte Fahrzeuge anwendbar, wie so genannte Level-2- und Level-1-Fahrzeuge (siehe SAE International's Standard J3016: Taxonomy and Definitions for Terms Related to On-Road Motor Vehicle Automated Driving Systems). Gemäß einer Ausführungsform können ein oder mehrere der Level-1-, 2-, 3-, 4- und 5-Fahrzeugsysteme bestimmte Fahrzeugoperationen (beispielsweise Lenken, Bremsen und Verwenden von Karten) auf der Grundlage der Verarbeitung von Sensoreingaben unter bestimmten Betriebsbedingungen automatisieren. Die in diesem Dokument beschriebenen Technologien können Fahrzeuge auf allen Niveaus, die von vollständig autonomen Fahrzeugen bis zu personenbetriebenen Fahrzeugen reichen, begünstigen.
Mit Bezug auf 1 sei bemerkt, dass ein AV-System 120 das AV 100 entlang einer Fahrstrecke 198 durch eine Umgebung 190 zu einem Bestimmungsort 199 (manchmal als endgültiger Ort bezeichnet) betreibt, während es Objekte vermeidet (beispielsweise natürliche Hindernisse 191, Fahrzeuge 193, Fußgänger 192, Radfahrer und andere Hindernisse) und Straßenregeln gehorcht (beispielsweise Regeln für den Betrieb oder Farbpräferenzen).
Gemäß einer Ausführungsform weist das AV-System 120 Vorrichtungen 101 auf, die dafür eingerichtet sind, Betriebsbefehle von den Computerprozessoren 146 zu empfangen und anhand dieser zu arbeiten. Gemäß einer Ausführungsform ähneln Rechenprozessoren 146 dem nachstehend mit Bezug auf 3 beschriebenen Prozessor 304. Beispiele von Vorrichtungen 101 umfassen eine Lenksteuerung 102, Bremsen 103, Getriebe, das Beschleunigungspedal oder andere Beschleunigungssteuermechanismen, Scheibenwischer, Seitentürverriegelungen, Fenstersteuerungen und Abbiegeindikatoren.
Gemäß einer Ausführungsform weist das AV-System 120 Sensoren 121 zum Messen oder Ableiten von Eigenschaften des Zustands oder der Bedingung des AVs 100 in der Art der Position, der Lineargeschwindigkeit und -beschleunigung, der Winkelgeschwindigkeit und -beschleunigung und der Fahrtrichtung (beispielsweise Orientierung des vorderen Endes des AVs 100) des AVs auf. Beispiele von Sensoren 121 sind ein Empfänger des globalen Navigationssatellitensystems (GNSS), Trägheitsmesseinheiten (IMU), die sowohl Fahrzeuglinearbeschleunigungen als auch Winkelraten messen, Radgeschwindigkeitssensoren zum Messen oder Schätzen von Radschlupfverhältnissen, Radbremsdruck- oder Bremsdrehmomentsensoren, Motordrehmoment- oder Raddrehmomentsensoren und Lenkwinkel- und Winkelratensensoren.
Gemäß einer Ausführungsform schließen die Sensoren 121 auch Sensoren zum Erfassen oder Messen von Eigenschaften der Umgebung des AVs ein. Beispiele sind Monokular- oder Stereovideokameras 122 im sichtbaren Licht, im Infrarot- oder im thermischen Spektrum (oder beiden), LiDAR 123, RADAR, Ultraschallsensoren, Flugzeit(TOF)-Tiefensensoren, Geschwindigkeitssensoren, Temperatursensoren, Feuchtigkeitssensoren und Niederschlagssensoren.
Gemäß einer Ausführungsform weist das AV-System 120 eine Datenspeichereinheit 142 und einen Speicher 144 zum Speichern von Maschinenbefehlen in Zusammenhang mit Computerprozessoren 146 oder durch Sensoren 121 gesammelten Daten auf. Gemäß einer Ausführungsform ähnelt die Datenspeichereinheit 142 dem ROM 308 oder der Speichervorrichtung 310, wie nachstehend in Bezug auf 3 beschrieben. Gemäß einer Ausführungsform ähnelt der Speicher 144 dem nachstehend beschriebenen Hauptspeicher 306. Gemäß einer Ausführungsform speichern die Datenspeichereinheit 142 und der Speicher 144 historische, Echtzeit- und/oder vorhersagende Informationen über die Umgebung 190. Gemäß einer Ausführungsform umfassen die gespeicherten Informationen Karten, Fahrleistung, Verkehrsstauaktualisierungen oder Wetterbedingungen. Gemäß einer Ausführungsform werden Daten in Bezug auf die Umgebung 190 über einen Kommunikationskanal von einer fernen Datenbank 134 zum AV 100 gesendet.
Gemäß einer Ausführungsform weist das AV-System 120 Kommunikationsvorrichtungen 140 zur Übermittlung gemessener oder abgeleiteter Eigenschaften anderer Fahrzeugzustände und Bedingungen in der Art von Positionen, Linear- und Winkelgeschwindigkeiten, Linear- und Winkelbeschleunigungen und Linear- und Winkelfahrtrichtungen zum AV 100 auf. Diese Vorrichtungen umfassen Fahrzeug-zu-Fahrzeug(V2V)- und Fahrzeug-zu-Infrastruktur(V2I)-Kommunikationsvorrichtungen und Vorrichtungen zur Drahtloskommunikation über Punkt-zu-Punkt- oder Ad-hoc-Netze oder beide. Gemäß einer Ausführungsform kommunizieren die Kommunikationsvorrichtungen 140 über das elektromagnetische Spektrum (einschließlich Funk- und optischer Kommunikationen) oder andere Medien (beispielsweise Luft- und akustische Medien). Eine Kombination von Fahrzeug-zu-Fahrzeug(V2V)- und Fahrzeug-zu-Infrastruktur(V2I)-Kommunikation (und gemäß einigen Ausführungsformen einem oder mehreren anderen Kommunikationstypen) wird manchmal als Fahrzeug-zu-alles(V2X)-Kommunikation bezeichnet. Die V2X-Kommunikation genügt typischerweise einem oder mehreren Kommunikationsstandards für die Kommunikation mit, zwischen und unter autonomen Fahrzeugen.
Gemäß einer Ausführungsform weisen die Kommunikationsvorrichtungen 140 Kommunikationsschnittstellen auf. Beispiele sind festverdrahtete, drahtlose, WiMAX-, Wi-Fi-, Bluetooth-, Satelliten-, Mobilfunk-, optische, Nahfeld-, Infrarot- oder Funkschnittstellen. Die Kommunikationsschnittstellen senden Daten von einer fernen Datenbank 134 zum AV-System 120. Gemäß einer Ausführungsform ist die ferne Datenbank 134 in eine in 2 beschriebene Cloud-Rechenumgebung 200 eingebettet. Die Kommunikationsschnittstellen 140 senden von Sensoren 121 gesammelte oder andere Daten in Bezug auf den Betrieb des AVs 100 zur fernen Datenbank 134. Gemäß einer Ausführungsform senden Kommunikationsschnittstellen 140 Informationen, die sich auf Teleoperationen beziehen, zum AV 100. Gemäß einigen Ausführungsformen kommuniziert das AV 100 mit anderen fernen (beispielsweise „Cloud“-) Servern 136.
Gemäß einer Ausführungsform speichert und sendet die ferne Datenbank 134 auch digitale Daten (beispielsweise Daten in der Art von Straßen- und Stadtstraßenorten). Diese Daten werden im Speicher 144 am AV 100 gespeichert oder über einen Kommunikationskanal von der fernen Datenbank 134 zum AV 100 gesendet.
Gemäß einer Ausführungsform speichert und sendet die ferne Datenbank 134 historische Informationen über Fahreigenschaften (beispielsweise Geschwindigkeits- und Beschleunigungsprofile) von Fahrzeugen, die zuvor zu ähnlichen Tageszeiten entlang der Fahrstrecke 198 gefahren sind. Bei einer Implementation können diese Daten im Speicher 144 am AV 100 gespeichert werden oder über einen Kommunikationskanal von der fernen Datenbank 134 zum AV 100 gesendet werden.
Rechenvorrichtungen 146, die sich am AV 100 befinden, erzeugen algorithmisch Steueraktionen auf der Grundlage sowohl von Echtzeit-Sensordaten als auch vorhergehender Informationen, wodurch es dem AV-System 120 ermöglicht wird, seine autonomen Fahrfähigkeiten auszuführen.
Gemäß einer Ausführungsform weist das AV-System 120 Computerperipheriegeräte 132 auf, die mit Rechenvorrichtungen 146 gekoppelt sind, um einem Benutzer (beispielsweise einem Insassen oder einem fernen Benutzer) des AVs 100 Informationen und Warnungen bereitzustellen und eine Eingabe davon zu empfangen. Gemäß einer Ausführungsform ähneln Peripheriegeräte 132 der Anzeige 312, der Eingabevorrichtung 314 und der Cursorsteuereinrichtung 316, wie nachstehend mit Bezug auf 3 erörtert. Die Kopplung ist drahtlos oder verdrahtet. Jegliche zwei oder mehr der Schnittstellenvorrichtungen können in eine einzige Vorrichtung integriert werden.
Beispielhafte Cloud-Rechenumgebung
2 zeigt eine beispielhafte „Cloud“-Rechenumgebung. Cloud-Computing ist ein Modell der Dienstauslieferung zum Ermöglichen eines zweckmäßigen auf Anforderung erfolgenden Netzzugriffs auf einen geteilten Pool konfigurierbarer Rechenressourcen (beispielsweise Netze, Netzbandbreite, Server, Verarbeitung, Speicher, Massenspeicher, Anwendungen, virtuelle Maschinen und Dienste). In typischen Cloud-Rechensystemen nehmen ein oder mehrere große Cloud-Rechenzentren die Maschinen auf, die zur Auslieferung der durch die Cloud bereitgestellten Dienste verwendet werden. Mit Bezug auf 2 sei nun bemerkt, dass die Cloud-Rechenumgebung 200 Cloud-Rechenzentren 204a, 204b und 204c aufweist, die durch die Cloud 202 miteinander verbunden sind. Die Rechenzentren 204a, 204b und 204c stellen Computersystemen 206a, 206b, 206c, 206d, 206e und 206f, die mit der Cloud 202 verbunden sind, Cloud-Rechendienste bereit.
Die Cloud-Rechenumgebung 200 weist ein oder mehrere Cloud-Rechenzentren auf. Ein Cloud-Rechenzentrum, beispielsweise das in 2 dargestellte Cloud-Rechenzentrum 204a, bezieht sich allgemein auf die physische Anordnung der eine Cloud, beispielsweise die in 2 dargestellte Cloud 202, oder einen bestimmten Teil einer Cloud bildenden Server. Beispielsweise sind Server im Cloud-Rechenzentrum physisch in Räumen, Gruppen, Reihen und Racks angeordnet. Ein Cloud-Rechenzentrum weist eine oder mehrere Zonen auf, die einen oder mehrere Serverräume aufweisen. Jeder Raum weist eine oder mehrere Serverreihen auf, und jede Reihe weist ein oder mehrere Racks auf. Jedes Rack weist einen oder mehrere individuelle Serverknoten auf. Gemäß einigen Implementationen sind Server in Zonen, Räumen, Racks und/oder Reihen auf der Grundlage physischer Infrastrukturanforderungen der Rechenzentrumsanlage, welche Leistungs-, Energie-, thermische, Wärme- und/oder andere Anforderungen einschließen, in Gruppen angeordnet. Gemäß einer Ausführungsform ähneln die Serverknoten dem in 3 beschriebenen Computersystem. Das Rechenzentrum 204a weist viele über viele Racks verteilte Rechensysteme auf.
Die Cloud 202 weist Cloud-Rechenzentren 204a, 204b und 204c zusammen mit den Netz- und Vernetzungsressourcen (beispielsweise Vernetzungsgeräte, Nodes, Router, Switches und Vernetzungskabel), welche die Cloud-Rechenzentren 204a, 204b und 204c verbinden und dabei helfen, den Zugriff der Rechensysteme 206a-f auf Cloud-Rechendienste zu ermöglichen, auf. Gemäß einer Ausführungsform repräsentiert das Netz eine Kombination eines oder mehrerer lokaler Netze, Weitbereichsnetze oder Internetsysteme, die unter Verwendung festverdrahteter oder drahtloser Links, die unter Verwendung drahtgestützter oder Satellitenverbindungen erzeugt werden, gekoppelt sind. Über das Netz ausgetauschte Daten werden unter Verwendung einer Anzahl von Netzschichtprotokollen in der Art des Internetprotokolls (IP), Multiprotocol Label Switching (MPLS), asynchroner Übertragungsmodus (ATM), Frame Relay usw. übertragen. Ferner werden bei Ausführungsformen, bei denen das Netz eine Kombination mehrerer Subnetze repräsentiert, verschiedene Netzschichtprotokolle an jedem der darunter liegenden Subnetze verwendet. Gemäß einigen Ausführungsformen repräsentiert das Netz ein oder mehrere verbundene Internetsysteme in der Art des öffentlichen Internets.
Die Kunden der Rechensysteme 206a-f oder Cloud-Rechendienste werden durch Netz-Links und Netzadapter mit der Cloud 202 verbunden. Gemäß einer Ausführungsform sind die Rechensysteme 206a-f als verschiedene Rechenvorrichtungen, beispielsweise Server, Desktops, Laptops, Tablets, Smartphones, Internet-der-Dinge(IoT)-Vorrichtungen, autonome Fahrzeuge (einschließlich Personenwagen, Drohnen, Shuttles, Züge, Busse usw.) und Endverbraucherelektronik implementiert. Gemäß einer Ausführungsform sind die Rechensysteme 206a-f in anderen Systemen oder als Teil davon implementiert.
Computersystem
3 zeigt ein Computersystem 300. Bei einer Implementation ist das Computersystem 300 eine Rechenvorrichtung für spezielle Zwecke. Die Rechenvorrichtung für spezielle Zwecke ist festverdrahtet, um die Techniken auszuführen, oder sie weist digitale elektronische Vorrichtungen in der Art einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASICs) oder feldprogrammierbarer Gate-Arrays (FPGAs) auf, die permanent programmiert sind, um die Techniken auszuführen, oder sie kann einen oder mehrere Hardwareprozessoren für allgemeine Zwecke aufweisen, die programmiert sind, um die Techniken gemäß Programmbefehlen in Firmware, im flüchtigen Speicher oder einem anderen Speicher oder einer Kombination davon auszuführen. Diese Rechenvorrichtungen für spezielle Zwecke können auch eine eigens eingerichtete festverdrahtete Logik, ASICs oder FPGAs mit eigens eingerichteter Programmierung kombinieren, um die Techniken auszuführen. Gemäß verschiedenen Ausführungsformen sind die Rechenvorrichtungen für spezielle Zwecke Desktopcomputersysteme, tragbare Computersysteme, handgehaltene Vorrichtungen, Netzvorrichtungen oder eine andere Vorrichtung, die eine festverdrahtete und/oder Programmlogik aufweist, um die Techniken zu implementieren.
Gemäß einer Ausführungsform weist das Computersystem 300 einen Bus 302 oder einen anderen Kommunikationsmechanismus zur Übermittlung von Informationen und einen mit einem Bus 302 gekoppelten Hardwareprozessor 304 zur Verarbeitung von Informationen auf. Der Hardwareprozessor 304 ist beispielsweise ein Mikroprozessor für allgemeine Zwecke. Das Computersystem 300 weist auch einen Hauptspeicher 306 in der Art eines Direktzugriffsspeichers (RAMs) oder einer anderen dynamischen Speichervorrichtung auf, die mit dem Bus 302 gekoppelt ist, um Informationen und Befehle, die durch den Prozessor 304 auszuführen sind, zu speichern. Bei einer Implementation wird der Hauptspeicher 306 zum Speichern temporärer Variablen oder anderer Zwischeninformationen während der Ausführung durch den Prozessor 304 auszuführender Befehle verwendet. Diese Befehle machen, wenn sie in einem für den Prozessor 304 zugänglichen nichtflüchtigen Speichermedium gespeichert werden, das Computersystem 300 zu einer Maschine für spezielle Zwecke, die eigens dafür eingerichtet ist, die in den Befehlen spezifizierten Operationen auszuführen.
Gemäß einer Ausführungsform weist das Computersystem 300 ferner einen Nurlesespeicher (ROM) 308 oder eine andere mit dem Bus 302 gekoppelte statische Speichervorrichtung zum Speichern statischer Informationen und Befehle für den Prozessor 304 auf. Eine Speichervorrichtung 310 in der Art einer Magnetplatte, einer optischen Scheibe, eines Halbleiterlaufwerks oder eines dreidimensionalen Cross-Point-Speichers ist für den Bus 302 für das Speichern von Informationen und Befehlen bereitgestellt und damit gekoppelt.
Gemäß einer Ausführungsform ist das Computersystem 300 über den Bus 302 mit einer Anzeige 312 in der Art einer Kathodenstrahlröhre (CRT), einer Flüssigkristallanzeige (LCD), einer Plasmaanzeige, einer Leuchtdioden(LED)-Anzeige oder einer Organische-Leuchtdioden(OLED)-Anzeige gekoppelt, um einem Computerbenutzer Informationen zu zeigen. Eine Eingabevorrichtung 314, die alphanumerische und andere Tasten aufweist, ist mit dem Bus 302 gekoppelt, um Informationen und Befehlsauswahlen zum Prozessor 304 zu übermitteln. Ein anderer Typ einer Benutzereingabevorrichtung ist eine Cursorsteuereinrichtung 316 in der Art einer Maus, eines Trackballs, einer berührungsfähigen Anzeige oder von Cursorrichtungstasten zur Übermittlung von Richtungsinformationen und Befehlsauswahlen zum Prozessor 304 und zum Steuern der Cursorbewegung auf der Anzeige 312. Diese Eingabevorrichtung weist typischerweise zwei Freiheitsgrade in zwei Achsen, nämlich einer ersten Achse (beispielsweise x-Achse) und einer zweiten Achse (beispielsweise y-Achse), auf, wodurch es der Vorrichtung ermöglicht wird, Positionen in einer Ebene zu spezifizieren.
Gemäß einer Ausführungsform werden die hier dargelegten Techniken ansprechend darauf durch das Computersystem 300 ausgeführt, dass der Prozessor 304 eine oder mehrere Sequenzen eines oder mehrerer im Hauptspeicher 306 enthaltener Befehle ausführt. Diese Befehle werden aus einem anderen Speichermedium in der Art der Speichervorrichtung 310 in den Hauptspeicher 306 gelesen. Die Ausführung der Sequenzen der im Hauptspeicher 306 enthaltenen Befehle veranlasst den Prozessor 304, die hier beschriebenen Prozessschritte auszuführen. Gemäß alternativen Ausführungsformen wird eine festverdrahtete Schaltungsanordnung an Stelle von Softwarebefehlen oder in Kombination damit verwendet.
Der hier verwendete Begriff „Speichermedien“ bezeichnet nichtflüchtige Medien, die Daten und/oder Befehle speichern, welche eine Maschine veranlassen, in einer spezifischen Weise zu arbeiten. Diese Speichermedien schließen nichtflüchtige und/oder flüchtige Medien ein. Nichtflüchtige Medien schließen beispielsweise optische Scheiben, Magnetplatten, Halbleiterlaufwerke oder einen dreidimensionalen Cross-Point-Speicher in der Art der Speichervorrichtung 310 ein. Flüchtige Medien schließen einen dynamischen Speicher in der Art des Hauptspeichers 306 ein. Übliche Formen von Speichermedien schließen beispielsweise eine Diskette, eine flexible Scheibe, eine Festplatte, ein Halbleiterlaufwerk, ein Magnetband oder einen anderen Typ eines magnetischen Datenspeichermediums, eine CD-ROM, ein anderes optisches Datenspeichermedium, ein physisches Medium mit Lochmustern, einen RAM, einen PROM und einen EPROM, einen FLASH-EPROM, NV-RAM oder einen anderen Speicherchip oder einen anderen Speichereinsatz ein.
Speichermedien unterscheiden sich von Übertragungsmedien, können jedoch zusammen mit diesen verwendet werden. Übertragungsmedien nehmen an der Übertragung von Informationen zwischen Speichermedien teil. Beispielsweise schließen Übertragungsmedien Koaxialkabel, Kupferdraht und Faseroptiken, einschließlich der Drähte, die den Bus 302 umfassen, ein. Übertragungsmedien können auch die Form akustischer Wellen oder von Lichtwellen in der Art jener, die während Funkwellen- und Infrarot-Datenkommunikationen erzeugt werden, annehmen.
Gemäß einer Ausführungsform sind verschiedene Medienformen daran beteiligt, eine oder mehrere Sequenzen eines oder mehrerer Befehle zur Ausführung zum Prozessor 304 zu übertragen. Beispielsweise werden die Befehle anfänglich auf eine Magnetplatte oder ein Halbleiterlaufwerk eines fernen Computers übertragen. Der ferne Computer lädt die Befehle in seinen dynamischen Speicher und sendet sie unter Verwendung eines Modems über eine Telefonleitung. Ein am Computersystem 300 lokales Modem empfängt die Daten auf der Telefonleitung und verwendet einen Infrarotsender, um die Daten in ein Infrarotsignal zu wandeln. Ein Infrarotdetektor empfängt die im Infrarotsignal übertragenen Daten, und eine geeignete Schaltungsanordnung gibt die Daten auf den Bus 302. Der Bus 302 überträgt die Daten zum Hauptspeicher 306, von wo aus der Prozessor 304 die Befehle abruft und ausführt. Die vom Hauptspeicher 306 empfangenen Befehle können optional entweder vor oder nach der Ausführung durch den Prozessor 304 auf der Speichervorrichtung 310 gespeichert werden.
Das Computersystem 300 weist auch eine mit dem Bus 302 gekoppelte Kommunikationsschnittstelle 318 auf. Die Kommunikationsschnittstelle 318 stellt eine Zweiwege-Datenkommunikation bereit, die mit einem Netz-Link 320 koppelt, der mit einem lokalen Netz 322 verbunden ist. Beispielsweise ist die Kommunikationsschnittstelle 318 eine Integrated-Service-Digital-Network(ISDN)-Karte, ein Kabelmodem, ein Satellitenmodem oder ein Modem zur Bereitstellung einer Datenkommunikationsverbindung mit einem entsprechenden Typ einer Telefonleitung. Bei einem anderen Beispiel ist die Kommunikationsschnittstelle 318 eine Lokales-Netz(LAN)-Karte zur Bereitstellung einer Datenkommunikationsverbindung zu einem kompatiblen LAN. Bei einigen Implementationen sind auch Drahtlos-Links implementiert. Bei jeglichen solchen Implementationen sendet und empfängt die Kommunikationsschnittstelle 318 elektrische, elektromagnetische oder optische Signale, die verschiedene Informationstypen repräsentierende digitale Datenströme übertragen.
Der Netz-Link 320 stellt typischerweise eine Datenkommunikation über ein oder mehrere Netze zu anderen Datenvorrichtungen bereit. Beispielsweise stellt der Netz-Link 320 eine Verbindung durch das lokale Netz 322 zu einem Host-Computer 324 oder zu einem Cloud-Rechenzentrum oder einem durch einen Internet-Dienstanbieter (ISP) 326 betriebenen Gerät bereit. Der ISP 326 stellt wiederum Datenkommunikationsdienste durch das nun üblicherweise als „Internet“ 328 bezeichnete weltweite Paketdaten-Kommunikationsnetz bereit. Das lokale Netz 322 und das Internet 328 verwenden beide elektrische, elektromagnetische oder optische Signale, die digitale Datenströme übertragen. Die über die verschiedenen Netze übertragenen Signale und die Signale auf dem Netz-Link 320 und die durch die Kommunikationsschnittstelle 318 übertragenen Signale, wodurch die digitalen Daten zum Computersystem 300 und von diesem übertragen werden, sind beispielhafte Formen von Übertragungsmedien. Gemäß einer Ausführungsform enthält das Netz 320 die Cloud 202 oder einen Teil der Cloud 202, wie vorstehend beschrieben.
Das Computersystem 300 sendet Nachrichten und empfängt Daten, einschließlich Programmcode, über das Netz (die Netze), den Netz-Link 320 und die Kommunikationsschnittstelle 318. Gemäß einer Ausführungsform empfängt das Computersystem 300 Code zur Verarbeitung. Der empfangene Code wird durch den Prozessor 304 ausgeführt, wenn er empfangen wird, und/oder zur späteren Ausführung in der Speichervorrichtung 310 oder einem anderen nichtflüchtigen Speicher gespeichert.
Autonomes-Fahrzeug-Archite_ktur
4 zeigt eine beispielhafte Architektur 400 für ein autonomes Fahrzeug (beispielsweise das in 1 dargestellte AV 100). Die Architektur 400 weist ein Wahrnehmungssystem 402 (manchmal als Wahrnehmungsschaltung bezeichnet), ein Planungssystem 404 (manchmal als Planungsschaltung bezeichnet), ein Steuersystem 406 (manchmal als Steuerschaltung bezeichnet), ein Lokalisierungssystem 408 (manchmal als Lokalisierungsschaltung bezeichnet) und ein Datenbanksystem 410 (manchmal als Datenbankschaltung bezeichnet) auf. Jedes System spielt eine Rolle beim Betrieb des AVs 100. Zusammen können die Systeme 402, 404, 406, 408 und 410 Teil des in 1 dargestellten AV-Systems 120 sein. Gemäß einigen Ausführungsformen ist eines der Systeme 402, 404, 406, 408 und 410 eine Kombination von Computersoftware (beispielsweise auf einem computerlesbaren Medium gespeicherten ausführbaren Codes) und Computerhardware (beispielsweise einem oder mehreren Mikroprozessoren, Mikrosteuereinrichtungen, anwendungsspezifischen integrierten Schaltungen (ASICs)), Hardwarespeichervorrichtungen, anderen Typen integrierter Schaltungen, anderen Typen von Computerhardware oder eine Kombination jeglicher oder aller dieser Dinge).
Bei der Verwendung empfängt das Planungssystem 404 Daten, die einen Bestimmungsort 412 repräsentieren, und bestimmt Daten, die eine Fahrstrecke 414 (manchmal als Route bezeichnet) repräsentieren, welche vom AV 100 durchfahren werden kann, um den Bestimmungsort 412 zu erreichen (beispielsweise an diesem anzukommen). Damit das Planungssystem 404 die Daten bestimmen kann, welche die Fahrstrecke 414 repräsentieren, empfängt das Planungssystem 404 Daten vom Wahrnehmungssystem 402, vom Lokalisierungssystem 408 und vom Datenbanksystem 410.
Das Wahrnehmungssystem 402 identifiziert nahe gelegene physische Objekte unter Verwendung eines oder mehrerer Sensoren 121, wie beispielsweise auch in 1 dargestellt. Die Objekte werden klassifiziert (beispielsweise in Typen wie Fußgänger, Fahrrad, Kraftfahrzeug, Verkehrszeichen usw. gruppiert), und es wird eine die klassifizierten Objekte 416 aufweisende Szenenbeschreibung dem Planungssystem 404 bereitgestellt.
Das Planungssystem 404 empfängt auch Daten, welche die AV-Position 418 repräsentieren, vom Lokalisierungssystem 408. Das Lokalisierungssystem 408 bestimmt die AV-Position unter Verwendung von Daten von den Sensoren 121 und Daten vom Datenbanksystem 410 (beispielsweise geographische Daten), um eine Position zu berechnen. Beispielsweise verwendet das Lokalisierungssystem 408 Daten von einem GNSS-Empfänger und geographische Daten zur Berechnung der Länge und der Breite des AVs. Gemäß einer Ausführungsform umfassen vom Lokalisierungssystem 408 verwendete Daten Karten hoher Genauigkeit der geometrischen Eigenschaften entlang dem Weg, Karten, die Straßennetz-Verbindbarkeitseigenschaften beschreiben, Karten, die physische Eigenschaften des Wegs beschreiben (wie Verkehrsgeschwindigkeit, Verkehrsaufkommen, die Anzahl von Fahrzeug- und Radfahrer-Verkehrsspuren, Fahrspurbreite, Fahrspur-Verkehrsrichtungen oder Fahrspur-Markierungstypen und -orte oder Kombinationen von ihnen) und Karten, welche die räumlichen Orte von Straßenmerkmalen in der Art von Fußgängerüberwegen, Verkehrszeichen oder anderen Verkehrssignalen verschiedener Typen beschreiben. Typischerweise werden die hochgenauen Karten handannotiert, was ein arbeitsintensiver Prozess ist. Um den Arbeitsaufwand zu verringern, können die Karten unter Verwendung eines ML-basierten Frameworks annotiert werden, wie mit Bezug auf 5 beschrieben.
Das Steuersystem 406 empfängt die Daten, welche die Fahrstrecke 414 repräsentieren, und die Daten, welche die AV-Position 418 repräsentieren, und führt die Steuerfunktionen 420a-c (beispielsweise Lenken, Drosseln, Bremsen, Zündung) des AVs derart aus, dass das AV 100 veranlasst wird, entlang der Fahrstrecke 414 zum Bestimmungsort 412 zu fahren. Falls die Fahrstrecke 414 beispielsweise eine Abbiegung nach links aufweist, führt das Steuersystem 406 die Steuerfunktionen 420a-c so aus, dass der Lenkwinkel der Lenkfunktion das AV 100 veranlasst, nach links abzubiegen, und das Drosseln und das Bremsen das AV 100 veranlassen, zu halten und auf das Passieren von Fußgängern oder Fahrzeugen zu warten, bevor die Abbiegung vorgenommen wird.
ML-basiertes Framework für die Annotation befahrbarer Oberflächen
5 ist eine beispielhafte Ansicht handannotierter semantischer Kartenschichten eines Bildgebiets 500 aus der Vogelperspektive (BEV) gemäß einer oder mehreren Ausführungsformen.
Über von einem Wahrnehmungssystem (beispielsweise Wahrnehmungssystem 402) erzeugten semantischen Informationen (beispielsweise Informationen über Oberflächen wenigstens eines Objekts in einer Umgebung und/oder dergleichen) verlässt sich das AV 100 auf handannotierte semantische Schichten, um Straßen sicher und effizient zu durchfahren. Die semantischen Kartenschichten umfassen viele Schichten in Zusammenhang mit Straßenmarkierungen, die grobkörnige Informationen (beispielsweise befahrbare Bereiche) und/oder feinkörnige Informationen (beispielsweise Fußgängerüberwege, Gehwege, Fahrzeugparkplätze) repräsentieren. Beim dargestellten Beispiel sind Handannotationen für einen Straßenteiler 501, einen Fahrspurteiler 502, eine Fahrspurzusammenführung 503, Fahrspuren 504, eine Kreuzung 505 und eine Fahrspurgruppe 506 dargestellt.
Die Handannotation einer hochauflösenden (HD) Kartenschicht in der Art der in 5 dargestellten Karte erfordert einen erheblichen personellen Arbeitsaufwand und erhebliche finanzielle Ressourcen. Beispielsweise können durch die ausschließliche Verwendung einer Handannotation abhängig von der Anzahl der verfügbaren Annotatoren einige Meilen pro Woche annotiert werden. Wie nachstehend in weiteren Einzelheiten beschrieben wird, wird eine ML-basierte Lösung beschrieben, die ein Bildsegmentierungsnetz (faltendes 2D-Netz) und präexistierende handannotierte semantische Schichten zum Trainieren eines ML-Modells (oder eines Netzes von ML-Modellen) verwendet, um Vorhersagen über einer HD-Karte entsprechende semantische Schichten (beispielsweise die Assoziation von Objekten und/oder anderen Objekten) zu erzeugen. Die HD-Karte kann dann von menschlichen Annotatoren auf der Grundlage davon, dass das ML-Modell oder Netz von ML-Modellen die Vorhersagen über die semantischen Schichten erzeugt (beispielsweise danach), annotiert werden. Durch die Verwendung von ML-Modellen zur Unterstützung des Handannotationsprozesses kann die Anzahl der Annotationen, die eine Person benötigt, um eine HD-Karte vollständig zu annotieren, verringert werden, wodurch die Geschwindigkeit der Annotation insgesamt erhöht wird.
6 ist ein Konzeptdiagramm, das einen ML-unterstützten Annotationszyklus 600 zur Annotation semantischer Kartenschichten gemäß einer oder mehreren Ausführungsformen zeigt. Gemäß einer Ausführungsform wird aktives Lernen 602 (oder ein anderer automatischer Trainingsdaten-Auswahlprozess) verwendet, um ungelabelte interessierende Objekte 601 aus Rohsensordaten (beispielsweise LiDAR-Punktwolken, Kamerabildern) auszuwählen. Die ungelabelten interessierenden Objekte 601 werden durch menschliche Annotatoren handannotiert 603 (gelabelt) und als Trainingsdaten zum Trainieren eines ML-Modells 604 zur Vorhersage von Labels für die interessierenden Objekte verwendet. Bei diesem Beispiel gibt es zwei Labels: Label A und Label B. Das trainierte ML-Modell 604 wird dann zur Verwendung bei der Vorhersage von Labels für interessierende Objekte 601 anhand der Rohsensordaten auf den ML-unterstützten Annotationszyklus angewendet 605, wodurch der ML-unterstützte Annotationszyklus 600 abgeschlossen wird. Gemäß einer Ausführungsform kann ein existierendes ML-Modell als Ausgangspunkt für das Training (beispielsweise Transferlearning 606) verwendet werden.
Die 7A und 7B sind Konzeptdiagramme, die ein ML-basiertes Framework 700 für die Annotation befahrbarer Oberflächen gemäß einer oder mehreren Ausführungsformen zeigen. Das ML-basierte Framework 700 verwendet ML an genau lokalisierten, multimodalen HD-Kartenmodellen 701. Einige Beispiele von HD-Kartenmodellen 701 umfassen Intensitätskarten, Belegungskarten, Texturkarten (Normalenkarten), Farbkarten und die Vorhergesagte-Ausgabe-Karten eines LiDAR-Segmentierungsnetzes (LSN) und/oder eines faltenden 2D-Netzes, das unter Verwendung von Kamerabildern von einer oder mehreren am Fahrzeug angebrachten Kameras trainiert ist. Diese multimodalen HD-Kartenmodelle 701 werden in das Bildsegmentierungsnetz 702 eingegeben. Gemäß einer Ausführungsform ist das Netz 702 ein Deep-Learning-basiertes Modell, das trainiert ist, Masken befahrbarer Oberflächen mit zusätzlichen Kategorie-/Labelinformationen (beispielsweise Fahrspuren, Kreuzungen, Fußgänger, Gehwege, Fahrzeugparkplätze) vorherzusagen. Bei einigen Implementationen werden die HD-Kartenmodelle 701 unter Verwendung einer Gleichzeitige-Lokalisierung-und-Kartographierung(SLAM)-Engine erzeugt.
Farbkarte
Gemäß einer Ausführungsform ist das AV 100 mit Kameras ausgerüstet, die eine andere Dynamik der Umgebung erfassen können. Für jedes Objekt/jeden Punkt/jede Orientierungsmarke, die durch das LiDAR erfasst wird, gibt es eine Abbildung zwischen dem Objekt/dem Punkt/der Orientierungsmarke und einem Punkt auf dem Kamerasensor. Demgemäß können Farbinformationen für diesen Punkt durch Verweisen des vom Kamerasensor erhaltenen Farbpixelwerts auf den LiDAR-Punkt erhalten werden. Es kann dann eine aus der Vogelperspektive betrachtete Rastereinbettung der gescannten farbigen Punktwolke, vorstehend als „Farbkarte“ bezeichnet, erzeugt werden.
Normalenkarte
In Normalenkarten wird die Orientierung einer Ebene, mit der ein Punkt assoziiert ist (entweder x-, y- oder z-Richtung) erfasst. Gemäß einer Ausführungsform werden benachbarte Punkte zur Näherung der Orientierung der Ebene verwendet.
Von Echtzeitsystem erhaltenes Segmentierungsraster
Gemäß einer Ausführungsform kann die gleiche Logik, die für das Kamerasystem gilt, auch für ein von einem Echtzeitsystem erhaltenes Segmentierungsraster gelten, wobei es eine Entsprechung zwischen den Kamerapixeln und den LiDAR-Punkten gibt. In diesem Fall werden die Farbinformationen durch semantische Labels ersetzt, die von einem Echtzeitsystem in der Art eines Bildsegmentierungsnetzes erhalten werden. Die semantischen Labels werden auf den LiDAR-Scan zurück abgebildet, und eine Ansicht des LiDAR-Scans aus der Vogelperspektive wird gerastert.
Gemäß einer Ausführungsform extrahiert das Probenerzeugungs-Framework 704 Proben 705 (auch als „Flecken“ bezeichnet) aus mehreren verschiedenen HD-Kartenmodellen 701, die als Trainingsdaten für das faltende 2D-Netz 702 zu verwenden sind. Die Proben 705 können nach Bedarf während des Trainings durch Online-Datenlader extrahiert werden, welche direkt auf die HD-Kartenmodelldaten (beispielsweise binäre Daten), die für verschiedene Versionen der HD-Kartenmodelle skalierbar sind, zugreifen (beispielsweise subskribieren). Dadurch, dass es den Online-Datenladern ermöglicht wird, während des Trainings direkt auf die HD-Kartenmodelle zuzugreifen/diese zu subskribieren, sind für die Datensatzpräparation weniger Schritte erforderlich als wenn die Proben offline extrahiert werden würden. Überdies können in jeder Trainingsiteration verschiedene Proben extrahiert werden, um die Variabilität der Trainingsbilder zu erhöhen.
Wie vorstehend erwähnt, werden die extrahierten Proben zur Vorhersage einer annotierten befahrbaren Oberfläche mit zusätzlichen Kategorien/Labels von Informationen in der Art von Fahrspuren, Kreuzungen, Fahrzeugparks, Fußgängerüberwegen, Gehwegen usw. in das faltende 2D-Netz 702 eingegeben. Das faltende 2D-Netz 702 kann unter Verwendung einer gewünschten Verlustfunktion 706 trainiert werden. Gemäß einer Ausführungsform wird das faltende 2D-Netz 702 unter Verwendung eines modifizierten U-Net-Modells implementiert und ist die Verlustfunktion 706 eine Kombination der Kreuzentropie und des Dice-Verlusts. Das Training des faltenden 2D-Netzes 702 kann durch Vergleichen der Ausgabe des faltenden 2D-Netzes 702 mit den Ground-Truth-Annotationsschichten durch Vergleichen eines Verlusts unter Verwendung einer Verlustfunktion 706 und Aktualisieren von Parametern (beispielsweise Gewichten und Biases) des faltenden 2D-Netzes 702 auf der Grundlage des Verlusts unter Verwendung von Neuronales-Netz-Backpropagation-Techniken ausgeführt werden.
Gemäß einer Ausführungsform wird für jedes HD-Kartenmodell 701 ein Kartengebiet im HD-Kartenmodell 701 in verschiedene Abtastbildgebiete für die Erzeugung von Trainings- und Testdatensätzen für das faltende 2D-Netz 702 zerlegt. Zur Erhöhung der Variabilität der Trainingsdaten werden Proben während des Trainings durch das Probenerzeugungs-Framework 704 online zufällig aus den Abtastgebieten extrahiert. Zur Gewährleistung eines gleichen Anteils semantischer Kartenschichten (beispielsweise Straßenmarkierungen) zwischen den Trainings- und Testdatensätzen wird das Zerlegen der HD-Kartenmodelle 701 in Trainings- und Testdatensätze unter Verwendung einer Baumdatenstruktur oder einer anderen geeigneten Datenstruktur automatisiert.
Gemäß einer Ausführungsform wird ein Quadtree-Algorithmus zum effizienten Speichern der Orte von Straßenorientierungsmarken in einem Bildgebiet verwendet. Jeder Knoten des Quadtrees hat höchstens vier Kinder. Der Quadtree-Algorithmus wird über das Bildgebiet implementiert, wobei das Zerlegungskriterium für Kindknoten erfüllt ist, wenn eine Instanz einer bestimmten Straßenorientierungsmarke mehr als einmal vorhanden ist. Gemäß einer Ausführungsform kann der Quadtree-Algorithmus in jedem zweidimensionalen (2D) Bildgebiet folgendermaßen implementiert werden: 1) Unterteilen des 2D-Bildgebiets in vier Kästchen, 2) falls ein Kästchen eine oder mehrere Straßenorientierungsmarken enthält, Erzeugen eines Kindknotens für das Kästchen und Speichern von ihm im 2D-Raum des Kästchens, 3) falls ein Kästchen keine Straßenorientierungsmarken enthält, wird kein Kindknoten für das Kästchen erzeugt, und 4) Wiederholen für jeden der Kindknoten. Gemäß einer Ausführungsform kann die Anzahl der Schnittpunkte als Zerlegungskriterium verwendet werden. Es kann jedoch auch jedes geeignete Zerlegungskriterium in der Art einer zufälligen Fleckabtastung auf der Grundlage eines Aggregatbereichs einer befahrbaren Oberfläche unter Verwendung einer Wahrscheinlichkeits-Heatmap verwendet werden.
Gemäß einer Ausführungsform wird das faltende 2D-Netz 702 unter Verwendung eines modifizierten U-Net-Modells implementiert. Das U-Net-Modell ist beispielsweise in Long, J.; Shelhamer, E.; Darrell, T. (2014), „Fully convolutional networks for semantic segmentation“, IEEE Transactions on Pattern Analysis and Machine Intelligence, 39 (4): 640 - 651, arXiv:1411.4038, der hier durch Verweis in seiner Gesamtheit aufgenommen ist, beschrieben. U-Net umfasst einen kontrahierenden Pfad und einen expansiven Pfad. Der kontrahierende Pfad ist ein herkömmliches faltendes neuronales Netz (CNN), das eine wiederholte Anwendung von Faltungen unter Verwendung grundlegender Faltungsblöcke aufweist, denen jeweils eine Rectified Linear Unit (ReLU) und eine Max-Pooling-Operation folgt. Im Kontraktionspfad werden räumliche Informationen verringert, während Merkmalsinformationen verstärkt werden. Im expansiven Pfad werden die Merkmalsinformationen und die räumlichen Informationen durch eine Sequenz von Aufwärtsfaltungen und Verkettungen mit hochauflösenden Merkmalen vom kontrahierenden Pfad kombiniert.
Gemäß einer Ausführungsform wird das herkömmliche U-Net-Modell durch Ersetzen der grundlegenden Faltungsblöcke des U-Net-Modells durch Restblöcke, die von ResNet-Architekturen inspiriert sind, modifiziert, wie beispielsweise in He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016), „Deep Residual Learning for Image Recognition“, Proc. Computer Vision and Pattern Recognition (CVPR), IEEE, der hier durch Verweis in seiner Gesamtheit aufgenommen ist, beschrieben ist.
Gemäß einer anderen Ausführungsform wird das herkömmliche U-Net-Modell durch Ersetzen der grundlegenden Faltungsblöcke des U-Net-Modells durch dichte Blöcke, die von DenseNet-Architekturen inspiriert sind, modifiziert, wie beispielsweise in Gao Huang; Zhuang Liu; Laurens van der Maaten; Kilian Q. Weinberger, „Densely Connected Convolutional Networks“, arXiv:1608.06993 [cs.CV], der hier durch Verweis in seiner Gesamtheit aufgenommen ist, beschrieben ist.
Die vom kontraktiven Pfad erhaltenen Merkmale werden im expansiven Pfad des U-Net wiederverwendet. Der expansive Pfad enthält grundlegende Faltungsblöcke, welche die gleiche Ausgabedimension behalten, während die Anzahl der Kanäle abnimmt, begleitet von dazwischen liegenden Upsampling-Blöcken, wodurch eine vergrößerte räumliche Dimension der Merkmalskarte und eine verringerte Anzahl von Kanälen erreicht werden.
8 ist ein Konzeptdiagramm eines modifizierten faltenden 2D-Netzes 800, wobei die grundlegenden Faltungsblöcke eines U-Net-ML-Modells durch Restblöcke und/oder einen dichten Block ersetzt sind, gemäß einer oder mehreren Ausführungsformen. Gemäß einer Ausführungsform weist das modifizierte faltende 2D-Netz 800 einen Kontraktionspfad 801 und einen Expansionspfad 802 auf. Blöcke 803 repräsentieren Merkmalskarten, Linien 805 repräsentieren grundlegende Faltungsblöcke, die durch einen oder mehrere von einem Inception-System 809, Restblöcken 810 oder dichten Blöcken 811 zu ersetzen sind, Linien 804 repräsentieren Downsampling-Blöcke, Linien 807 repräsentieren Upsampling-Blöcke, und Linien 806 repräsentieren Skip-Verbindungen. Es sei bemerkt, dass aus Gründen der Klarheit auf einer einzigen Instanz der Merkmalskarten grundlegende Blöcke, Downsampling-Blöcke, Skip-Verbindungen und Upsampling-Blöcke mit numerischen Bezeichnern gelabelt sind. Die bereitgestellte Legende zeigt auch die Orte jeder Instanz dieser Blöcke im modifizierten faltenden 2D-Netz 800.
Gemäß einer Ausführungsform weist das Inception-System 809 mehrere Verarbeitungspfade auf, die von einer vorhergehenden Schicht gespeist werden. Die Ausgabe jeder Pfadzufuhr wird unter Verwendung eines Verkettungsfilters verkettet. Beim dargestellten Beispiel weist ein erster Verarbeitungspfad einen 1×1-Faltungsblock auf, weist ein zweiter Verarbeitungspfad einen 1×1-Faltungsblock gefolgt von einem 3x3-Faltungsblock auf und weist ein dritter Verarbeitungspfad einen 1×1-Faltungsblock gefolgt von einem 5x5-Faltungsblock auf und weist ein vierter Verarbeitungspfad einen 3x3-Faltungsblock gefolgt von einem 1×1-Faltungsblock auf.
Die meisten Bilderkennungs-Backbones aus dem Stand der Technik folgen einem gewissen Muster, wobei eine Downsampling-Faltungsoperation und eine grundlegende Faltungsoperation alternierend auf das Bild und die entsprechenden Merkmalskarten angewendet werden. Die grundlegenden Faltungsblöcke 805 behalten überall die gleiche Dimension der Merkmalskarten 803. Die Downsampling-Faltung im Kontraktionspfad 801 erreicht eine verringerte räumliche Dimension der Merkmalskarte und eine erhöhte Anzahl von Kanälen. Das Produkt dieser Operationen ist eine Anzahl von Merkmalskarten 803 über unterschiedliche Schrittweiten, wobei es sich um die Ausgabe der Skip-Verbindungen 806 handelt. Dies impliziert, dass die meisten Backbones für den kontraktiven Pfad des U-Net-Modells leicht verwendbar sind. Dementsprechend können durch Betrachten des U-Net-Modells als Sequenz von Blöcken Restblöcke 810 aus ResNet-ML-Modellen oder dichte Blöcke 811 aus DenseNet-ML-Modellen die grundlegenden Faltungsblöcke 805 des U-Net-Modells 800 ersetzen, wie in 8 dargestellt ist.
9 ist ein Konzeptdiagramm, das eine Ensemble-Modellierung 900 für die ML-basierte Annotation semantischer Kartenschichten gemäß einer oder mehreren Ausführungsformen zeigt. Verglichen mit anderen Anwendungen hat das in 8 beschriebene modifizierte U-Net-Modell 800 eine höhere Latenztoleranz. Gemäß einer Ausführungsform kann ein Ensemble von zwei oder mehr verschiedenen Backbone-Modellen verwendet werden, um die Leistungsfähigkeit einhergehend mit der Erzeugung von Ungewissheitsinformationen zu erhöhen. Gemäß der dargestellten beispielhaften Ausführungsform wird eine einfache Mittelungsoperation 904 über die von drei ML-Modellen 901 - 903 ausgegebenen Vorhersagen ausgeführt. Es sei bemerkt, dass die Ensemble-ML-Modelle 901 - 903 gut für aktive Lernaufgaben wirken, insbesondere durch Bereitstellen von Ungewissheitsinformationen. Ungewissheitsinformationen können für den ML-unterstützten Annotationszyklus verwendet werden, um genau anzugeben, welche Kartengebiete eine Handannotation erfordern. Zusätzlich zur Bereitstellung robuster Ungewissheitsinformationen stellen die Ensemble-ML-Modelle 901 - 903 auch inhärent eine bessere Vorhersage bereit. Wenngleich im Ensemble 900 drei ML-Modelle dargestellt sind, kann das Ensemble 900 mehr oder weniger ML-Modelle aufweisen, wobei mehr ML-Modelle eine feinkörnigere Vorhersage erzeugen.
Die von den Ensemble-ML-Modellen 901 - 903 erzeugten Ungewissheitsinformationen sind robuster, weil die Ensemble-Modellierung 900 einen diverseren Bereich von Vorhersagen als ein einziges Modell bereitstellt. Eine Diversifizierung der Vorhersagen kann durch Modifizieren von Hyperparametern jedes Modells (beispielsweise Tiefenparametern) erreicht werden. Gemäß einer Ausführungsform wird die Diversifizierung dadurch erreicht, dass im modifizierten U-Net-Modell 800 verschiedene Faltungsblöcke vorhanden sind. Die folgenden 10 - 12 zeigen verschiedene Varianten des U-Net-Modells.
10 ist ein Konzeptdiagramm, das eine Ensemble-Modellierung des faltenden 2D-Netzes 1000 für eine ML-basierte Annotation semantischer Kartenschichten unter Verwendung kaskadierender Faltungsblöcke zeigt, wobei eine Blockvariante 1001 (beispielsweise Inception-System 809) gemäß einer oder mehreren Ausführungsformen im gesamten 2D-Faltungsnetz 1000 verwendet wird.
11 ist ein Konzeptdiagramm, das eine Ensemble-Modellierung eines faltenden 2D-Netzes 1100 für eine ML-basierte Annotation semantischer Kartenschichten zeigt, worin verschiedene grundlegende Faltungsblöcke 1101 (beispielsweise Inception-System 809), 1102 (beispielsweise dichter Block 811) für den kontraktiven bzw. den expansiven Weg gemäß einer oder mehreren Ausführungsformen dargestellt sind.
12 ist ein Konzeptdiagramm, das eine Ensemble-Modellierung und ein faltendes 2D-Netz 1200 für eine ML-basierte Annotation semantischer Kartenschichten zeigt, worin alternierende grundlegende Blöcke 1201 (beispielsweise Inception-System 809), 1202 (beispielsweise dichter Block 811) gemäß einer oder mehreren Ausführungsformen dargestellt sind.
13 ist ein Konzeptdiagramm, das eine Global-zu-lokal-Modellkaskadierung gemäß einer oder mehreren Ausführungsformen zeigt. Anders als ein befahrbarer Bereich sind Kreuzungen eine ganz andere Straßenorientierungsmarke. Sie sind typischerweise spärlich über ein gesamtes Kartengebiet verstreut. Daher müssen Kreuzungen anders behandelt werden.
Gemäß einer Ausführungsform ist eine Kreuzungserkennungspipeline 1300 in zwei Stufen unterteilt, nämlich eine globale Erkennungsstufe 1301, gefolgt von einer lokalen Verfeinerungsstufe 1302. In der globalen Erkennungsstufe 1301 akzeptiert ein globales Modell 1303 (beispielsweise Segmentierungsmodell) als Eingabe eine in der Größe geänderte Version eines Kartengebiets 1302. Das globale Modell 1303 versucht, grob zu lokalisieren, wo sich eine bestimmte Kreuzung im Kartengebiet 1302 befindet. Die Ausgabe des globalen Modells 1303 kann in Form des Kartengebiets 1304 mit Begrenzungskästchen und/oder Segmentierungsmasken vorliegen. Das Kartengebiet 1304 dient als anfänglicher Hinweis darauf, wo menschliche Annotatoren Kreuzungen suchen sollten und sie verfeinern sollten.
In der lokalen Verfeinerungsstufe 1302 ist das lokale Verfeinerungssystem 1306 ein semantisches Segmentierungsmodell, das globale modellgeleitete ausgeschnittene Flecken 1305 akzeptiert und versucht, eine verfeinerte Segmentierungsmaske 1306 (beispielsweise ein besseres Segmentierungsmodell oder eine bessere Polygonisierung) für die Kreuzung auszugeben. Das lokale Verfeinerungsmodell 1306 wird trainiert, um Segmentierungsmasken 1307 mit hohem Abruf auszugeben, d. h., es wird angenommen, dass die aus dem Kartengebiet 1304 extrahierten Flecken 1305 eine Kreuzung enthalten. Das lokale Verfeinerungsmodell 1306 zeigt die Segmentierungsmaske 1307 mit einer hohen Lokalisierungsgenauigkeit vorher.
Beispielhafte Prozesse
14 ist ein Flussdiagramm eines ML-basierten Frameworks für die Annotation befahrbarer Oberflächen gemäß einer oder mehreren Ausführungsformen. Der Prozess 1400 kann beispielsweise unter Verwendung des Computersystems 300, wie mit Bezug auf 3 beschrieben, implementiert werden.
Der Prozess 1400 weist die Schritte des Erhaltens von Kartendaten für ein geographisches Gebiet (1401) und des automatischen Annotierens einer oder mehrerer semantischer Kartenschichten unter Verwendung eines Maschinenlernmodells (1402) auf. Gemäß einer Ausführungsform sind die Kartendaten multimodal. Gemäß einer Ausführungsform umfassen die multimodalen Kartendaten eine oder mehrere von einer Intensitätskarte, von Belegungskarten, von der Ausgabe eines faltenden LSN/2D-Netzes, Texturkarten und jegliche andere geeignete Kartendaten. Gemäß einer Ausführungsform sind die Kartendaten HD-Kartendaten. Gemäß einer Ausführungsform sagt das Maschinenlernmodell eine Maske befahrbarer Oberflächen vorher, die Kategorieinformationen (beispielsweise Fahrspuren, Kreuzungen, Fahrzeugparkplätze) aufweist.
Gemäß einer Ausführungsform wird das Maschinenlernmodell durch ein Bildsegmentierungsnetz auf der Grundlage eines modifizierten U-Net-Modells mit einer segmentierungsbasierten Verlustfunktion (beispielsweise einer Kombination von Kreuzentropie und Dice-Verlust) implementiert. Beispielsweise können die grundlegenden Faltungsblöcke im Kontraktions- und Expansionspfad des U-Net-Modells durch Restblöcke oder dichte Blöcke ersetzt werden, die in ResNet- bzw. DenseNet-Modellen verwendet werden.
Gemäß einer Ausführungsform wird das modifizierte U-Net-Modell iterativ an aus einem oder mehreren HD-Kartenmodellen extrahierten Bildproben trainiert und werden verschiedene Bildproben für jede Trainingsiteration aus Bildgebieten extrahiert, um die Variabilität von Trainingsbildern zu erhöhen und dadurch die Vorhersage zu verbessern.
Gemäß einer Ausführungsform kann eine Baumdatenstruktur verwendet werden, um Bildgebiete der Kartenmodelle automatisch in Trainings- und Testdatensätze zu zerlegen, wobei eine Baumdatenstruktur (beispielsweise unter Verwendung eines Quadtrees) verwendet wird, um einen gleichen Anteil von Orientierungsmarken in den Trainings- und Testdatensätzen zu gewährleisten.
Nach der automatischen Annotation können die ML-unterstützt annotierten semantischen Kartenschichten optional weiter handannotiert werden (1403).
In der vorhergehenden Beschreibung wurden Ausführungsformen der Erfindung mit Bezug auf zahlreiche spezifische Einzelheiten, die von Implementation zu Implementation variieren können, beschrieben. Die Beschreibung und die Zeichnungen sind demgemäß als erläuternd statt als einschränkend anzusehen. Der einzige und ausschließliche Indikator des Schutzumfangs der Erfindung und dessen, was von den Anmeldern als der Schutzumfang der Erfindung vorgesehen ist, ist der buchstäbliche und gleichwertige Schutzumfang des Anspruchssatzes, der sich aus dieser Anmeldung ergibt, in der spezifischen Form, in der diese Ansprüche erteilt werden, einschließlich jeder späteren Korrektur. Jegliche Definitionen, die hier ausdrücklich für in diesen Ansprüchen enthaltene Begriffe dargelegt sind, sollen die Bedeutung dieser Begriffe, wie in den Ansprüchen verwendet, bestimmen. Zusätzlich kann, wenn wir den Begriff „ferner aufweisend“ in der folgenden Beschreibung oder den folgenden Ansprüchen verwenden, das, was diesem Ausdruck folgt, ein zusätzlicher Schritt oder eine zusätzliche Entität oder ein Unterschritt/eine Unterentität eines zuvor erwähnten Schritts oder einer zuvor erwähnten Entität sein.

Claims

Verfahren, umfassend: Erhalten von Kartendaten für ein geographisches Gebiet unter Verwendung wenigstens eines Prozessors und automatisches Annotieren einer oder mehrerer semantischer Masken der Kartendaten unter Verwendung eines Maschinenlernmodells unter Verwendung des wenigstens einen Prozessors.
Verfahren nach Anspruch 1, wobei die Kartendaten multimodal sind.
Verfahren nach Anspruch 2, wobei die multimodalen Kartendaten wenigstens Intensitäts- und Belegungskarten umfassen.
Verfahren nach Anspruch 1, wobei das Maschinenlernmodell durch ein zweidimensionales (2D) faltendes Netz implementiert wird.
Verfahren nach Anspruch 1, wobei das Maschinenlernmodell unter Verwendung einer Ensemble-Modellierung implementiert wird.
Verfahren nach Anspruch 1, wobei das Maschinenlernmodell anhand aus einem oder mehreren Kartenmodellen extrahierter Bildproben iterativ trainiert wird und verschiedene Bildproben für jede Trainingsiteration extrahiert werden, um die Variabilität von Trainingsbildern zu erhöhen.
Verfahren nach Anspruch 6, wobei das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen zum Trainieren und Testen des Maschinenlernmodells in verschiedene Abtastbildgebiete zerlegt werden.
Verfahren nach Anspruch 7, wobei das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen unter Verwendung einer Baumdatenstruktur automatisch in verschiedene Abtastbildgebiete zerlegt werden.
Verfahren nach Anspruch 8, wobei das eine oder die mehreren Kartenmodelle auf der Grundlage eines Zerlegungskriteriums automatisch in verschiedene Abtastbildgebiete zerlegt werden, wobei das Zerlegungskriterium darin besteht, dass eine Instanz einer bestimmten Straßenorientierungsmarke mehr als einmal in einem bestimmten Abtastbildgebiet vorhanden ist.
Verfahren nach Anspruch 8, wobei die Baumdatenstruktur eine Quadtree-Datenstruktur ist.
System, umfassend: wenigstens einen Prozessor und einen Speicher, der Befehle speichert, die, wenn sie durch den wenigstens einen Prozessor ausgeführt werden, den wenigstens einen Prozessor veranlassen, Folgendes auszuführen: Erhalten von Kartendaten für ein geographisches Gebiet und automatisches Annotieren einer oder mehrerer semantischer Kartenschichten der Kartendaten unter Verwendung eines Maschinenlernmodells.
System nach Anspruch 11, wobei die Kartendaten lokalisiert sind.
System nach Anspruch 11, wobei die Kartendaten multimodal sind.
System nach Anspruch 13, wobei die multimodalen Kartendaten Intensitäts- und Belegungskarten umfassen.
System nach Anspruch 11, wobei das Maschinenlernmodell durch ein zweidimensionales (2D) faltendes Netz implementiert ist.
System nach Anspruch 11, wobei das Maschinenlernmodell anhand aus einem oder mehreren Kartenmodellen extrahierter Bildproben iterativ trainiert wird und verschiedene Bildproben für jede Trainingsiteration extrahiert werden, um die Variabilität von Trainingsbildern zu erhöhen.
System nach Anspruch 16, wobei das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen zum Trainieren und Testen des Maschinenlernmodells in verschiedene Abtastbildgebiete zerlegt werden.
System nach Anspruch 17, wobei das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen unter Verwendung einer Baumdatenstruktur automatisch in verschiedene Abtastbildgebiete zerlegt werden.
System nach Anspruch 18, wobei die Baumdatenstruktur eine Quadtree-Datenstruktur ist.
Nichtflüchtiges computerlesbares Speichermedium mit darauf gespeicherten Befehlen, die, wenn sie durch wenigstens einen Prozessor ausgeführt werden, den wenigstens einen Prozessor veranlassen, Operationen auszuführen, die Folgendes umfassen: Erhalten von Kartendaten für ein geographisches Gebiet und automatisches Annotieren einer oder mehrerer semantischer Kartenschichten der Kartendaten unter Verwendung eines Maschinenlernmodells, wobei das Maschinenlernmodell an aus einem oder mehreren Kartenmodellen extrahierten Bildproben iterativ trainiert wird, verschiedene Bildproben für jede Trainingsiteration extrahiert werden und das eine oder die mehreren Kartenmodelle zur Erzeugung von Trainings- und Testdatensätzen unter Verwendung einer Baumdatenstruktur automatisch in verschiedene Abtastbildgebiete zerlegt werden.