DE102021101285A1 - Natürliche umgebungsansicht - Google Patents

Natürliche umgebungsansicht Download PDF

Info

Publication number
DE102021101285A1
DE102021101285A1 DE102021101285.6A DE102021101285A DE102021101285A1 DE 102021101285 A1 DE102021101285 A1 DE 102021101285A1 DE 102021101285 A DE102021101285 A DE 102021101285A DE 102021101285 A1 DE102021101285 A1 DE 102021101285A1
Authority
DE
Germany
Prior art keywords
camera
view
vehicle
data
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021101285.6A
Other languages
English (en)
Inventor
Michael Slutsky
Daniel Kigli
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102021101285A1 publication Critical patent/DE102021101285A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/536Depth or shape recovery from perspective effects, e.g. by using vanishing points
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)

Abstract

In verschiedenen Ausführungsformen werden Verfahren und Systeme für die Verarbeitung von Kameradaten von einem Kamerasystem, das einem Fahrzeug zugeordnet ist, bereitgestellt. In einer Ausführungsform umfasst ein Verfahren: Speichern einer Vielzahl von fotorealistischen Szenen einer Umgebung; Trainieren eines maschinellen Lernmodells durch einen Prozessor, um eine Umgebungsansicht zu erzeugen, die sich einer Bodenwahrheitsumgebungsansicht annähert, unter Verwendung der Vielzahl von fotorealistischen Szenen als Trainingsdaten; und Verarbeiten der Kameradaten von dem Kamerasystem, das dem Fahrzeug zugeordnet ist, durch einen Prozessor auf der Grundlage des trainierten maschinellen Lernmodells, um eine Umgebungsansicht einer Umgebung des Fahrzeugs zu erzeugen.

Description

  • TECHNISCHES GEBIET
  • Das technische Gebiet bezieht sich allgemein auf Systeme und Verfahren zur Verarbeitung von Kameradaten eines Kamerasystems, genauer gesagt auf Verfahren und Systeme zum Trainieren von maschinellen Lernmodellen zur Verarbeitung von Kameradaten, um natürliche, artefaktfreie Umgebungsansichten zu erzeugen.
  • Fahrzeuge sind mit Kamerasystemen ausgestattet, um Szenen aus der Fahrzeugumgebung zu erfassen. Die Kamerasysteme umfassen eine oder mehrere Kameras, die an der Außenseite des Fahrzeugs angebracht sind. In einigen Fällen werden die Bilddaten, die die erfasste Szene repräsentieren und von den Kameras erzeugt werden, synthetisiert, um eine Umgebungsansicht zu erzeugen. Die erzeugten Umgebungsansichten enthalten Artefakte (d. h. Verzerrungen, Maßstabsinkonsistenzen, Geisterbilder und/oder vollständig oder teilweise eliminierte Objekte), die in einer Umgebungsansicht unerwünscht sein können.
  • Dementsprechend ist es wünschenswert, verbesserte Verfahren und Systeme für die Verarbeitung von Kameradaten aus einem Kamerasystem bereitzustellen, um Umgebungsansichten bereitzustellen, die das Auftreten von Artefakten reduzieren oder beseitigen. Darüber hinaus werden andere wünschenswerte Merkmale und Eigenschaften der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung der Erfindung und den beigefügten Ansprüchen, wenn sie in Verbindung mit den beigefügten Zeichnungen und diesem Hintergrund der Erfindung genommen werden, ersichtlich.
  • BESCHREIBUNG
  • In verschiedenen Ausführungsformen werden Verfahren und Systeme für die Verarbeitung von Kameradaten von einem Kamerasystem, das einem Fahrzeug zugeordnet ist, bereitgestellt. In einer Ausführungsform umfasst ein Verfahren: Speichern einer Vielzahl von fotorealistischen Szenen einer Umgebung; Trainieren eines maschinellen Lernmodells durch einen Prozessor, um eine Umgebungsansicht zu erzeugen, die sich einer Bodenwahrheitsumgebungsansicht annähert, unter Verwendung der Vielzahl von fotorealistischen Szenen als Trainingsdaten; und Verarbeiten der Kameradaten von dem Kamerasystem, das dem Fahrzeug zugeordnet ist, durch einen Prozessor auf der Grundlage des trainierten maschinellen Lernmodells, um eine Umgebungsansicht einer Umgebung des Fahrzeugs zu erzeugen.
  • In verschiedenen Ausführungsformen basiert das Training auf Tiefenlernverfahren (Deep Learning Methods). In verschiedenen Ausführungsformen umfasst das maschinelle Lernmodell ein tiefenneuronales Netzwerk (Deep Neural Network). In verschiedenen Ausführungsformen wird die Vielzahl von Szenen auf der Grundlage von einem oder mehreren Stiltransferverfahren erzeugt. In verschiedenen Ausführungsformen wird die Vielzahl von Szenen auf der Grundlage von physikalischen Modellen erzeugt. In verschiedenen Ausführungsformen wird die Vielzahl von Szenen auf der Grundlage von Grafikdesign erzeugt.
  • In verschiedenen Ausführungsformen umfasst das Training: Projizieren der Szenen auf Kameras unter Verwendung von Kameraparametern, um eine Eingangsansicht zu simulieren; und Verarbeiten der Eingangsansicht mit dem maschinellen Lernmodell, um eine virtuelle Umgebungsansicht zu erzeugen, die sich derjenigen annähert, die man erhalten würde, wenn sie von einem gegebenen Aussichtspunkt aus von einer Kamera mit gewünschten Sichtpunktparametern erfasst würde.
  • In verschiedenen Ausführungsformen umfasst die Verarbeitung der Kameradaten: Bestimmen erster Tiefenwerte auf der Grundlage eines einzelnen Kameramodells für jeden Kameraeingang; Bestimmen paarweiser Disparitätskarten aus überlappenden Abschnitten von zwei benachbarten Kamerabildern aus den Kameradaten; und Bestimmen einer Umgebungstiefenkarte auf der Grundlage der ersten Tiefenwerte und der paarweisen Disparitätskarte.
  • In verschiedenen Ausführungsformen umfasst die Verarbeitung der Kameradaten ferner das Bestimmen von Sichtpunktdisparitäten zwischen Pixeln auf einer gewünschten Sichtpunktumgebungsansicht und einem Kamerapixel; und das Erzeugen der Umgebungsansicht basierend auf den Sichtpunktdisparitäten.
  • In verschiedenen Ausführungsformen umfasst die Verarbeitung der Kameradaten ferner das Identifizieren von Verdeckungen auf der Grundlage der Tiefenkarte, das Durchführen einer Behandlung der identifizierten Verdeckungen und das Erzeugen der Umgebungsansicht auf der Grundlage der behandelten Verdeckungen.
  • In einer anderen Ausführungsform wird ein nicht-transitorisches computerlesbares Medium zur Verarbeitung von Kameradaten von einem Kamerasystem, das einem Fahrzeug zugeordnet ist, bereitgestellt. Das nicht-transitorische computerlesbare Medium umfasst: eine Datenspeichervorrichtung, die so konfiguriert ist, dass sie eine Vielzahl von fotorealistischen Szenen einer Umgebung speichert; ein Trainingsmodul, das so konfiguriert ist, dass es durch einen Prozessor ein maschinelles Lernmodell trainiert, um eine Umgebungsansicht zu erzeugen, die sich einer Bodenwahrheitsumgebungsansicht annähert, wobei die Vielzahl von fotorealistischen Szenen als Trainingsdaten verwendet wird; und ein Datenverarbeitungsmodul, das so konfiguriert ist, dass es durch einen Prozessor die Kameradaten von dem Kamerasystem, das dem Fahrzeug zugeordnet ist, basierend auf dem trainierten maschinellen Lernmodell verarbeitet, um eine Umgebungsansicht der Umgebung des Fahrzeugs zu erzeugen.
  • In verschiedenen Ausführungsformen führt das Trainingsmodul das Trainieren auf Basis von Tiefenlernverfahren durch. In verschiedenen Ausführungsformen umfasst das maschinelle Lernmodell ein tiefenneuronales Netzwerk. In verschiedenen Ausführungsformen wird die Vielzahl von Szenen auf der Grundlage von einem oder mehreren Stiltransferverfahren erzeugt. In verschiedenen Ausführungsformen wird die Vielzahl von Szenen auf der Grundlage von physikalischen Modellen erzeugt. In verschiedenen Ausführungsformen wird die Vielzahl von Szenen auf der Grundlage von Grafikdesign erzeugt.
  • In verschiedenen Ausführungsformen trainiert das Trainingsmodul durch: Projizieren der Szenen auf Kameras unter Verwendung von Kameraparametern, um eine Eingangsansicht zu simulieren; und Verarbeiten der Eingangsansicht mit dem maschinellen Lernmodell, um eine virtuelle Umgebungsansicht zu erzeugen, die sich derjenigen annähert, die man erhalten würde, wenn sie von einem gegebenen Aussichtspunkt durch eine Kamera mit gewünschten Sichtpunktparametern erfasst würde.
  • In verschiedenen Ausführungsformen verarbeitet das Datenverarbeitungsmodul die Kameradaten durch: Bestimmen erster Tiefenwerte auf der Grundlage eines einzelnen Kameramodells für jeden Kameraeingang; Bestimmen paarweiser Disparitätskarten aus überlappenden Abschnitten von zwei benachbarten Kamerabildern aus den Kameradaten; und Bestimmen einer Umgebungstiefenkarte auf der Grundlage der ersten Tiefenwerte und der paarweisen Disparitätskarte.
  • In verschiedenen Ausführungsformen verarbeitet das Datenverarbeitungsmodul die Kameradaten, indem es Sichtpunktdisparitäten zwischen Pixeln auf einer gewünschten Sichtpunktumgebungsansicht und Eingangskamerapixeln bestimmt und die Umgebungsansicht basierend auf den Sichtpunktdisparitäten erzeugt.
  • In verschiedenen Ausführungsformen verarbeitet das Datenverarbeitungsmodul die Kameradaten, indem es Verdeckungen auf der Grundlage der Tiefenkarte identifiziert, eine Behandlung der identifizierten Verdeckungen durchführt und die Umgebungsansicht auf der Grundlage der behandelten Verdeckungen erzeugt.
  • Figurenliste
  • Die vorliegende Offenbarung wird im Folgenden in Verbindung mit den folgenden Zeichnungsfiguren beschrieben, wobei gleiche Ziffern gleiche Elemente bezeichnen, und wobei:
    • 1 ein funktionales Blockdiagramm eines Fahrzeugs ist, das ein Kamerasystem umfasst und einem Kameradatenverarbeitungssystem zugeordnet ist, gemäß verschiedenen Ausführungsformen;
    • 2 ein Datenflussdiagramm zur Veranschaulichung des Kameradatenverarbeitungssystems von 1 ist, gemäß verschiedenen Ausführungsformen;
    • 3 eine Darstellung von Bildern ist, die durch das Kameradatenverarbeitungssystem von 1 verarbeitet werden, gemäß verschiedenen Ausführungsformen;
    • 4 ein Flussdiagramm ist, das ein Kameradatenverarbeitungsverfahren darstellt, gemäß verschiedenen Ausführungsformen.
  • DETAILLIERTE BESCHREIBUNG
  • Die folgende detaillierte Beschreibung ist lediglich beispielhaft und soll die Offenbarung oder deren Anwendung und Verwendungen nicht einschränken. Darüber hinaus besteht nicht die Absicht, an eine Theorie gebunden zu sein, die im vorangegangenen Hintergrund oder in der folgenden detaillierten Beschreibung vorgestellt wurde. Wie hierin verwendet, bezieht sich der Begriff Modul auf jegliche Hardware, Software, Firmware, elektronische Steuerkomponente, Verarbeitungslogik und/oder Prozessorvorrichtung, einzeln oder in beliebiger Kombination, einschließlich und ohne Einschränkung: anwendungsspezifischer integrierter Schaltkreis (ASIC), ein elektronischer Schaltkreis, ein Prozessor (gemeinsam, dediziert oder gruppiert) und Speicher, der ein oder mehrere Software- oder Firmware-Programme ausführt, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten, die die beschriebene Funktionalität bereitstellen.
  • 1 zeigt ein Fahrzeug 100 gemäß einer beispielhaften Ausführungsform. Wie weiter unten ausführlicher beschrieben, umfasst das Fahrzeug 100 ein Kamerasystem 102 mit einer oder mehreren Kameras 115 und einem Kameradatenverarbeitungssystem 104. In bestimmten Ausführungsformen erfassen die Kameras 115 Szenen der Umgebung des Fahrzeugs 100 und liefern Daten an das Kameradatenverarbeitungssystem 104. Das Kameradatenverarbeitungssystem 104 verarbeitet die Kameradaten unter Verwendung von trainierten maschinellen Lernmodellen, um die Daten von den mehreren Kameras 115 zu einer Umgebungsansicht zu synthetisieren. In verschiedenen Ausführungsformen wird die Umgebungsansicht in einer Draufsicht, Panoramaansicht oder anderen Ansichten dargestellt. Wie im Folgenden näher erläutert wird, trainiert das Kameradatenverarbeitungssystem 104 die maschinellen Lernmodelle, um eine Bodenwahrheitsumgebungsansicht basierend auf einer Datenbank mit fotorealistischen Szenen zu erzeugen.
  • In verschiedenen Ausführungsformen umfasst das Fahrzeug 100 ein Automobil. Das Fahrzeug 100 kann ein beliebiges aus einer Reihe von verschiedenen Arten von Automobilen sein, wie z. B. eine Limousine, ein Kombi, ein Lastwagen oder ein Geländewagen (SUV), und kann Zweiradantrieb (2WD) (d. h. Hinterradantrieb oder Vorderradantrieb), Vierradantrieb (4WD) oder Allradantrieb (AWD) und/oder verschiedene andere Arten von Fahrzeugen in bestimmten Ausführungsformen sein. In bestimmten Ausführungsformen kann das Fahrzeug 100 auch ein Motorrad oder ein anderes Fahrzeug und/oder eine oder mehrere andere Arten von mobilen Plattformen (z. B. einen Roboter, ein Schiff usw.) und/oder andere Systeme umfassen, die z. B. ein Kamerasystem 102 aufweisen.
  • Das Fahrzeug 100 umfasst einen Körper 106, das auf einem Fahrgestell 108 angeordnet ist. Der Körper 106 umschließt im Wesentlichen andere Komponenten des Fahrzeugs 100. Der Körper 106 und das Fahrgestell 108 können gemeinsam einen Rahmen bilden. Das Fahrzeug 100 umfasst außerdem eine Vielzahl von Rädern 110. Die Räder 110 sind jeweils in der Nähe einer entsprechenden Ecke des Körpers 106 drehbar mit dem Fahrgestell 108 verbunden, um eine Bewegung des Fahrzeugs 100 zu erleichtern. In einer Ausführungsform umfasst das Fahrzeug 100 vier Räder 110, obwohl dies in anderen Ausführungsformen (z. B. für Lastwagen und bestimmte andere Fahrzeuge) variieren kann.
  • Am Fahrgestell 108 ist ein Antriebssystem 112 montiert, das die Räder 110 antreibt, z. B. über Achsen 114. Das Antriebssystem 112 umfasst vorzugsweise ein Vortriebssystem. In bestimmten beispielhaften Ausführungsformen umfasst das Antriebssystem 112 einen Verbrennungsmotor und/oder einen Elektromotor/Generator, gekoppelt mit einem Getriebe davon. In bestimmten Ausführungsformen kann das Antriebssystem 112 variieren, und/oder es können zwei oder mehrere Antriebssysteme 112 verwendet werden. Als Beispiel kann das Fahrzeug 100 auch eine beliebige oder eine Kombination von verschiedenen Arten von Antriebssystemen enthalten, wie z. B. einen Benzin- oder Dieselverbrennungsmotor, einen „Flex-Kraftstoff-Fahrzeug“-Motor (d. h. mit einer Mischung aus Benzin und Alkohol), einen mit einer gasförmigen Verbindung (z. B. Wasserstoff und/oder Erdgas) betriebenen Motor, einen Verbrennungs-/Elektromotor-Hybridmotor und einen Elektromotor.
  • Wie in 1 dargestellt, umfasst das Kamerasystem 102 in bestimmten Ausführungsformen eine Rückfahrkamera 115a, die an einem hinteren Teil des Fahrzeugs 100 angebracht ist, eine Frontsichtkamera 115b, die an einem vorderen Teil des Fahrzeugs 100 angebracht ist, eine Fahrerseitenkamera 115c, die an einer Fahrerseite des Fahrzeugs 100 angebracht ist, und eine Beifahrerseitenkamera 115d, die an einer Beifahrerseite des Fahrzeugs 100 angebracht ist. In verschiedenen Ausführungsformen nehmen die Kameras 115 Bilder des Fahrzeugs 100 und/oder der Umgebung des Fahrzeugs 100 auf, z. B. bei der Erfassung anderer Fahrzeuge, anderer Objekte, einer Fahrbahn, von Fahrbahnmerkmalen und dergleichen von verschiedenen Seiten des Fahrzeugs 100 (z. B. Vorderseite, Rückseite, Beifahrerseite und Fahrerseite), z. B. um das Fahrzeug 100 und/oder den Fahrer bei der Fahrt entlang einer Fahrbahn zu unterstützen (z. B. um Kontakt mit anderen Fahrzeugen und/oder anderen Objekten zu vermeiden). In verschiedenen Ausführungsformen können eine oder mehrere der Kameras 115 auch an einer oder mehreren anderen Stellen des Fahrzeugs 100 angeordnet sein, z. B. auf der Oberseite des Fahrzeugs 100 oder im Inneren des Fahrzeugs 100, um z. B. eine Umgebungsansicht und/oder eine oder mehrere andere Ansichten für das Fahrzeug 100 zu erzeugen. In verschiedenen Ausführungsformen können die Anzahl, die Standorte und/oder die Anordnung der Kameras 115 variieren (z. B. kann in bestimmten Ausführungsformen eine einzige Kamera verwendet werden usw.).
  • In verschiedenen Ausführungsformen steuert ein Steuersystem 118 den Betrieb von Komponenten des Fahrzeugs 100. In verschiedenen Ausführungsformen steuert das Steuersystem 118 den Betrieb des Kamerasystems 102. In verschiedenen Ausführungsformen umfasst das Steuersystem 118 das gesamte oder einen Teil des Kameradatenverarbeitungssystems 104. In verschiedenen Ausführungsformen ist das Steuersystem 118 innerhalb des Körpers 106 des Fahrzeugs 100 angeordnet. In verschiedenen Ausführungsformen kann das Steuersystem 118 und/oder eine oder mehrere Komponenten davon, einschließlich des Kameradatenverarbeitungssystems 104, außerhalb des Körpers 106 angeordnet sein, zum Beispiel auf einem teilweise oder vollständig entfernten Server, in der Cloud oder in einem entfernten Smartphone oder einem anderen Gerät, in dem die Bildverarbeitung aus der Ferne durchgeführt werden kann. Darüber hinaus kann in verschiedenen Ausführungsformen das Steuersystem 118 innerhalb und/oder als Teil der Kameras 102 und/oder innerhalb und/oder oder als Teil eines oder mehrerer anderer Fahrzeugsysteme (nicht dargestellt) angeordnet sein.
  • Außerdem ist, wie in 1 dargestellt, in verschiedenen Ausführungsformen das Steuersystem 118 über eine oder mehrere Kommunikationsverbindungen 116 mit dem Kamerasystem 102 gekoppelt und empfängt über die Kommunikationsverbindungen 116 Kamerabilddaten von den Kameras 115. In bestimmten Ausführungsformen umfasst jede Kommunikationsverbindung 116 eine oder mehrere drahtgebundene Verbindungen, wie z. B. ein oder mehrere Kabel (z. B. Koaxialkabel und/oder eine oder mehrere andere Arten von Kabeln). In anderen Ausführungsformen kann jede Kommunikationsverbindung 116 eine oder mehrere drahtlose Verbindungen umfassen, z. B. unter Verwendung eines oder mehrerer Sender-Empfänger.
  • In verschiedenen Ausführungsformen umfasst das Steuersystem 118 ein Computersystem. Beispielsweise umfasst das Steuersystem 118 einen Prozessor 122, einen Speicher 124, eine Schnittstelle 126 und einen Bus 130. Der Prozessor 122 führt die Berechnungs- und Steuerfunktionen des Computersystems aus und kann jede Art von Prozessor oder mehrere Prozessoren, einzelne integrierte Schaltkreise wie einen Mikroprozessor oder jede geeignete Anzahl von integrierten Schaltkreisen und/oder Leiterplatten umfassen, die zusammenarbeiten, um die Funktionen einer Verarbeitungseinheit zu erfüllen. Während des Betriebs führt der Prozessor 122 ein oder mehrere im Speicher 124 gespeicherte Programme 132 aus und steuert so den allgemeinen Betrieb des Computersystems. In verschiedenen Ausführungsformen führt der Prozessor Programme aus, die in Bezug auf die weiter unten in Verbindung mit den 2-5 beschriebenen Systeme und Prozesse beschrieben sind.
  • Der Speicher 124 kann ein beliebiger Typ eines geeigneten Speichers sein. Zum Beispiel kann der Speicher 124 verschiedene Arten von dynamischem Direktzugriffsspeicher (DRAM) wie SDRAM, die verschiedenen Arten von statischem RAM (SRAM) und die verschiedenen Arten von nichtflüchtigem Speicher (PROM, EPROM und Flash) umfassen. In bestimmten Beispielen befindet sich der Speicher 124 auf demselben Computerchip wie der Prozessor 122 und/oder ist auf diesem angeordnet. In der dargestellten Ausführungsform speichert der Speicher 124 die oben erwähnten Programme zusammen mit einem oder mehreren gespeicherten Werten 134 (z.B. in verschiedenen Ausführungsformen, einschließlich früherer Kalibrierungen, Standardkalibrierungen usw.).
  • Die Schnittstelle 126 ermöglicht die Kommunikation mit dem Computersystem, z. B. von einem Systemtreiber und/oder einem anderen Computersystem, und kann mit jedem/jeder geeigneten Verfahren und Vorrichtung implementiert werden. In einer Ausführungsform erhält die Schnittstelle 126 die verschiedenen Daten von den Kameras 115. Die Schnittstelle 126 kann eine oder mehrere Netzwerkschnittstellen enthalten, um mit anderen Systemen oder Komponenten zu kommunizieren. Die Schnittstelle 126 kann auch eine oder mehrere Netzwerkschnittstellen enthalten, um mit Technikern zu kommunizieren, und/oder eine oder mehrere Speicherschnittstellen, um sich mit Speichergeräten zu verbinden.
  • Der Bus 130 dient der Übertragung von Programmen, Daten, Status und anderen Informationen oder Signalen zwischen den verschiedenen Komponenten des Computersystems. Der Bus 130 kann jedes geeignete physikalische oder logische Mittel zur Verbindung von Computersystemen und Komponenten sein. Dazu gehören unter anderem direkte, fest verdrahtete Verbindungen, Glasfaser, Infrarot und drahtlose Bustechnologien.
  • Während diese beispielhafte Ausführungsform im Zusammenhang mit einem voll funktionsfähigen Computersystem beschrieben wird, wird der Fachmann erkennen, dass die Mechanismen der vorliegenden Offenbarung als ein Programmprodukt mit einer oder mehreren Arten von nichttransitorischen computerlesbaren Medien verteilt werden können, die zum Speichern des Programms und seiner Anweisungen und zur Durchführung der Verteilung verwendet werden, wie z. B. ein nicht-transitorisches computerlesbares Medium, das das Programm trägt und darin gespeicherte Computeranweisungen enthält, um einen Computerprozessor (wie den Prozessor 122) zu veranlassen, das Programm durchzuführen und auszuführen. Es wird in ähnlicher Weise gewürdigt, dass das Computersystem auch anderweitig von der in 1 dargestellten Ausführungsform abweichen kann.
  • Unter Bezugnahme auf 2 und unter fortgesetzter Bezugnahme auf 1 veranschaulicht ein Datenflussdiagramm das Kameradatenverarbeitungssystem 104 von 1, das so konfiguriert ist, dass es maschinelle Lernmodelle trainiert und Kameradaten unter Verwendung der trainierten maschinellen Lernmodelle verarbeitet, gemäß beispielhaften Ausführungsformen. Wie in 2 dargestellt, kann das Kameradatenverarbeitungssystem 104 in verschiedenen Ausführungsformen ein oder mehrere Module oder Untermodule enthalten. Wie zu erkennen ist, können die dargestellten Module und Untermodule kombiniert und/oder weiter unterteilt werden, um maschinelle Lernmodelle zu trainieren und Kameradaten unter Verwendung der trainierten maschinellen Lernmodelle zu verarbeiten, in verschiedenen Ausführungsformen. In verschiedenen Ausführungsformen umfasst das Kameradatenverarbeitungssystem 104 ein Trainingsmodul 202, ein Datenverarbeitungsmodul 204, einen Szenendatenspeicher 206 und einen Modelldatenspeicher 208.
  • Das Trainingsmodul 202 trainiert ein maschinelles Lernmodell 209 basierend auf Szenen, die im Szenendatenspeicher 206 gespeichert sind. Die im Szenendatenspeicher 206 gespeicherten Szenen 214 umfassen Szenen der Umgebung. In verschiedenen Ausführungsformen sind die Szenen tatsächliche Szenen, die von Umgebungskameras erfasst werden, und Tiefenwerte, die von Tiefensensoren (nicht dargestellt) erfasst werden. In verschiedenen anderen Ausführungsformen sind die Szenen 214 fotorealistische Szenen oder Szenen, die keine tatsächlichen Bilder der Umgebung sind, sondern maschinell erzeugte Bilder zur Nachahmung einer Umgebung. Die fotorealistischen Szenen enthalten dreidimensionale Tiefeninformationen der Szene, die eine Re-Projektion jeder Szene auf jeden zugänglichen Sichtpunkt ermöglichen. Viele fotorealistische Szenen 214 können durch Verfahren wie z. B. Grafikdesign, physikalische Modelle, Stilübertragungsverfahren usw. erzeugt und im Szenendatenspeicher 206 gespeichert werden, sind aber nicht darauf beschränkt. In verschiedenen Ausführungsformen kann z. B. eine tatsächliche Szene von einer Kamera in der Umgebung aufgenommen werden, und verschiedene Stilübertragungsverfahren können auf die tatsächliche Szene angewendet werden, um verschiedene fotorealistische Szenen der Umgebung zu erhalten. Die Stilübertragungsverfahren können verschiedene Sensortypen, Ansichten und Ausrichtungen emulieren.
  • Wie im Folgenden näher erläutert wird, generiert das maschinelle Lernmodell 209 Umgebungsansichten der Umgebung von einem gewählten Aussichtspunkt aus, wenn Kamerabilder, Parameter, die die Kamerapositionen und -ausrichtungen angeben, und Parameter, die den gewünschten Aussichtspunkt und die Ausrichtung angeben, eingegeben werden.
  • In verschiedenen Ausführungsformen trainiert das Trainingsmodul 202 das maschinelle Lernmodell 209, um schließlich Kamerabilder unter Verwendung der fotorealistischen Szenen 214 und Tiefenlerntechniken zu verarbeiten. Zum Beispiel empfängt das Trainingsmodul 202 Szenen 214 aus dem Szenendatenspeicher 206, Kameraparameter 212 von Kameras, die mit den Szenen 214 verbunden sind (z. B. Kalibrierungen und Ausrichtungen einer Kamera, die mit der Szene 214 verbunden ist), und gewünschte Sichtpunktparameter 210 (z. B. Kalibrierungen und Ausrichtungen einer Kamera an einem gewünschten Sichtpunkt). Im Allgemeinen projiziert das maschinelle Lernmodell 209, während es trainiert wird, die Szenen 214 auf Kameras unter Verwendung der Kameraparameter 212, wodurch das eingegebene Umgebungsbild simuliert wird. Die simulierten Umgebungsbilder werden dann durch das maschinelle Lernmodell geleitet, um ein Bild zu erzeugen, das sich dem Bild annähert, das man erhalten würde, wenn es von einem gegebenen Aussichtspunkt mit einer Kamera mit gewünschten Sichtpunktparametern 210 aufgenommen würde. In verschiedenen Ausführungsformen leitet das Trainingsmodul 202 zahlreiche Eingangsbilder durch das maschinelle Lernmodell 209, wobei die Modellparameter ständig variiert werden (z. B. durch Rückwärtspropagierung), um Ausgangsansichten zu erzeugen, die den entsprechenden Bodenwahrheit (GT)-Ausgaben so nahe wie möglich kommen sollten. Zu Beginn enthält das Ausgabebild eine zufällige Ansammlung von Pixeln und hat nichts mit der Bodenwahrheit zu tun; mit fortschreitendem Training beginnt die Ansammlung von Pixeln der Bodenwahrheit immer mehr zu ähneln. Diese angenäherten Ansichten werden dann mit bekannten Informationen aus den fotorealistischen Szenen 214 verglichen, um das maschinelle Lernmodell 209 zu aktualisieren. Nach dem Training wird das maschinelle Lernmodell 209 als Modelldaten 216 im Modelldatenspeicher 208 zur zukünftigen Verwendung gespeichert.
  • Das Datenverarbeitungsmodul 202 ruft das trainierte maschinelle Lernmodell 209 aus dem Modelldatenspeicher als Modelldaten 218 ab und verarbeitet Kameradaten 220 vom Kamerasystem 102 des Fahrzeugs 100, um eine synthetisierte Umgebungsansicht 226 der tatsächlichen Umgebung zu erzeugen. Die synthetisierte Umgebungsansicht 226 kann dann einem Benutzer auf einem Display angezeigt oder von anderen Systemen des Fahrzeugs 100 verwendet werden, um den Betrieb des Fahrzeugs 100 zu steuern.
  • In verschiedenen Ausführungsformen verarbeitet das Datenverarbeitungsmodul 202 die Kameradaten 220 mit dem trainierten maschinellen Lernmodell 209 auf der Grundlage von Kameraparametern 222, die mit den Kameradaten 220 verbunden sind (z. B. Kalibrierungen und Ausrichtungen einer Kamera, die mit dem Kamerabild 220 verbunden ist), und gewünschten Sichtpunktparametern 224 (z. B. Kalibrierungen und Ausrichtungen einer Kamera an einem gewünschten Sichtpunkt). Wie in 3 dargestellt, verarbeitet das Datenverarbeitungsmodul 204 die Kameradaten 220 (z. B. von zwei oder mehreren Kameras) und die Parameter 222, 224, um natürliche Ansichten 213, 215 von dem gewünschten Sichtpunkt 217 relativ zum Fahrzeug 100 zu erzeugen.
  • In verschiedenen Ausführungsformen umfasst das trainierte maschinelle Lernmodell 209 ein oder mehrere tiefenneuronale Netzwerke (DNNs) oder andere künstliche neuronale Netzwerke, die als ein einziges maschinelles Lernmodell implementiert sind. Wie in 4 detaillierter dargestellt, illustriert ein Flussdiagramm einen Prozess 300 zur Verarbeitung der Kameradaten 220 gemäß beispielhaften Ausführungsformen. Der Prozess 300 kann gemäß beispielhaften Ausführungsformen in Verbindung mit dem Fahrzeug 100, dem Kamerasystem 102 und dem Datenverarbeitungssystem 104 der 1 und 2 implementiert werden. Wie zu erkennen ist, kann die Reihenfolge des Verfahrens variieren, und/oder ein oder mehrere Schritte können in verschiedenen Ausführungsformen hinzugefügt oder entfernt werden.
  • In einem Beispiel kann der Prozess 300 bei 305 beginnen. Die Kameradaten 220 und die zugehörigen Kameraparameterdaten 222 werden bei 310 vom Kamerasystem 102 empfangen. Die Kameradaten werden bei 320 vorverarbeitet. Beispielsweise wird das Bild in den Kameradaten 220 entzerrt, um etwaige Verzerrungen, die Adressausrichtung usw. zu entfernen. Danach werden die entzerrten Kameradaten mit dem trainierten maschinellen Lernmodell bei 330 verarbeitet.
  • Zum Beispiel werden bei 340 in einem ersten Schritt des trainierten maschinellen Lernmodells Tiefenwerte aus einem einzelnen Bild mit einem einzelnen Kameramodell ermittelt. Beispielsweise werden die Tiefenwerte für jede Umgebungskamera von einem DNN erzeugt, das mit einem überwachten „Depth-from-Mono“-Ansatz trainiert wurde. Bei 350 werden in einem zweiten Schritt des trainierten maschinellen Lernmodells paarweise Tiefendisparitätskarten aus Disparitäten bestimmt, die aus überlappenden Abschnitten zweier Kamerabilder ermittelt werden, die z. B. von benachbarten Kamerapaaren bereitgestellt werden. Bei 360 wird in einem dritten Schritt des maschinellen Lernmodells aus den Tiefenwerten der einzelnen Kameras und den Disparitäten zwischen den benachbarten Kamerapaaren eine global konsistente Umgebungstiefenkarte erzeugt.
  • Danach werden die gewünschten Sichtpunktparameterdaten bei 370 empfangen und die Tiefenkarte wird bei 380 auf die gewünschte Kamera basierend auf den gewünschten Sichtpunktparametern projiziert. Unter Verwendung der projizierten Karte wird in einem vierten Schritt des maschinellen Lernmodells bei 390 eine Sichtbarkeits- und Verdeckungsbehandlung an der umgebenden Tiefenkarte durchgeführt. Beispielsweise werden Bereiche identifiziert, die von der gewünschten Kamera nicht beobachtet werden können, und die mit der Verdeckung verbundenen Pixeldaten werden mit einer oder mehreren Objektersatztechniken behandelt.
  • Unter Verwendung der projizierten Karte werden bei 400 in einem fünften Schritt des maschinellen Lernmodells Sichtpunktdisparitäten zwischen Pixeln des gewünschten Sichtpunkts (d. h. der erzeugten Tiefenkarte) und Pixeln des Kamerasichtpunkts (d. h. der projizierten Tiefenkarte) bestimmt. Basierend auf den Sichtpunktdisparitäten wird in einem sechsten Schritt des maschinellen Lernmodells eine Pixelinterpolation auf der projizierten Karte durchgeführt und Gewichte werden geschätzt.
  • Danach wird das Rendern der Ausgabeansicht basierend auf der Pixelinterpolation und den geschätzten Gewichten und den behandelten Pixeln bei 420 durchgeführt. Die Ausgabeansicht wird dann einem Steuersystem des Fahrzeugs 100 zur Verfügung gestellt oder auf einem Bildschirm im Fahrzeug 100 zur Ansicht und/oder Steuerung des Fahrzeugs 100 gerendert (430). Danach kann der Prozess 300 bei 440 enden.
  • Obwohl in der vorangegangenen detaillierten Beschreibung mindestens eine beispielhafte Ausführungsform vorgestellt wurde, sollte man sich darüber im Klaren sein, dass es eine große Anzahl von Variationen gibt. Es sollte auch gewürdigt werden, dass die beispielhafte Ausführungsform oder die beispielhaften Ausführungsformen lediglich Beispiele sind und nicht dazu gedacht sind, den Umfang, die Anwendbarkeit oder die Konfiguration der Offenbarung in irgendeiner Weise einzuschränken. Vielmehr soll die vorstehende detaillierte Beschreibung dem Fachmann eine praktische Anleitung zur Umsetzung der beispielhaften Ausführungsform oder der beispielhaften Ausführungsformen geben. Es sollte verstanden werden, dass verschiedene Änderungen in der Funktion und Anordnung der Elemente vorgenommen werden können, ohne vom Umfang der Offenbarung, wie in den beigefügten Ansprüchen und den rechtlichen Äquivalenten davon dargelegt, abzuweichen.

Claims (10)

  1. Verfahren zum Verarbeiten von Kameradaten von einem Kamerasystem, das einem Fahrzeug zugeordnet ist, umfassend: Speichern einer Vielzahl von fotorealistischen Szenen einer Umgebung; Trainieren eines maschinellen Lernmodells durch einen Prozessor, um eine Umgebungsansicht zu erzeugen, die sich einer Bodenwahrheitsumgebungsansicht annähert, unter Verwendung der Vielzahl von fotorealistischen Szenen als Trainingsdaten; und Verarbeiten der Kameradaten von dem dem Fahrzeug zugeordneten Kamerasystem durch einen Prozessor basierend auf dem trainierten maschinellen Lernmodell, um eine Umgebungsansicht einer Umgebung des Fahrzeugs zu erzeugen.
  2. Verfahren nach Anspruch 1, wobei das Trainieren auf Tiefenlernverfahren basiert.
  3. Verfahren nach Anspruch 2, wobei das maschinelle Lernmodell ein tiefenneuronales Netzwerk umfasst.
  4. Verfahren nach Anspruch 1, wobei die Vielzahl der Szenen basierend auf einem oder mehreren Stilübertragungsverfahren erzeugt wird.
  5. Verfahren nach Anspruch 1, wobei die Vielzahl der Szenen basierend auf physikalischen Modellen erzeugt wird.
  6. Verfahren nach Anspruch 1, wobei das Training umfasst: Projizieren der Szenen auf Kameras unter Verwendung von Kameraparametern, um eine Eingangsansicht zu simulieren; und Verarbeiten der Eingangsansicht mit dem maschinellen Lernmodell, um eine virtuelle Umgebungsansicht zu erzeugen, die sich derjenigen annähert, die man erhalten würde, wenn sie von einem gegebenen Aussichtspunkt aus von einer Kamera mit gewünschten Sichtpunktparametern erfasst würde.
  7. Verfahren nach Anspruch 1, wobei das Verarbeiten der Kameradaten umfasst: Bestimmen von ersten Tiefenwerten basierend auf einem einzelnen Kameramodell für jede Kamera des Kamerasystems; Bestimmen von paarweisen Disparitätskarten aus überlappenden Ausschnitten von zwei benachbarten Kamerabildern aus den Kameradaten, und Bestimmen einer Umgebungstiefenkarte basierend auf den ersten Tiefenwerten und den paarweisen Disparitätskarten.
  8. Verfahren nach Anspruch 7, wobei das Verarbeiten der Kameradaten ferner umfasst: Bestimmen von Sichtpunktdisparitäten zwischen Pixeln auf einer gewünschten Sichtpunktumgebungsansicht und Eingangskamerapixeln; und Erzeugen der Umgebungsansicht basierend auf den Sichtpunktdisparitäten.
  9. Verfahren nach Anspruch 7, wobei das Verarbeiten der Kameradaten ferner umfasst: Identifizieren von Verdeckungen basierend auf der Tiefenkarte, Durchführen einer Behandlung der identifizierten Verdeckungen; und Erzeugen der Umgebungsansicht basierend auf den behandelten Verdeckungen.
  10. Nicht-transitorisches computerlesbares Medium zum Verarbeiten von Kameradaten von einem Kamerasystem, das einem Fahrzeug zugeordnet ist, umfassend: eine Datenspeichervorrichtung, die so konfiguriert ist, dass sie eine Vielzahl von fotorealistischen Szenen einer Umgebung speichert; ein Trainingsmodul, das so konfiguriert ist, dass es durch einen Prozessor ein maschinelles Lernmodell trainiert, um eine Umgebungsansicht zu erzeugen, die sich einer Bodenwahrheitsumgebungsansicht annähert, unter Verwendung der Vielzahl von fotorealistischen Szenen als Trainingsdaten; und ein Datenverarbeitungsmodul, das so konfiguriert ist, dass es durch einen Prozessor die Kameradaten von dem dem Fahrzeug zugeordneten Kamerasystem basierend auf dem trainierten maschinellen Lernmodell verarbeitet, um eine Umgebungsansicht der Umgebung des Fahrzeugs zu erzeugen.
DE102021101285.6A 2020-02-26 2021-01-21 Natürliche umgebungsansicht Pending DE102021101285A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/801,587 US11532165B2 (en) 2020-02-26 2020-02-26 Natural surround view
US16/801,587 2020-02-26

Publications (1)

Publication Number Publication Date
DE102021101285A1 true DE102021101285A1 (de) 2021-08-26

Family

ID=77176257

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021101285.6A Pending DE102021101285A1 (de) 2020-02-26 2021-01-21 Natürliche umgebungsansicht

Country Status (3)

Country Link
US (1) US11532165B2 (de)
CN (1) CN113315946B (de)
DE (1) DE102021101285A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11721064B1 (en) 2020-12-11 2023-08-08 Meta Platforms Technologies, Llc Adaptive rate shading using texture atlas
US11544894B2 (en) * 2021-02-26 2023-01-03 Meta Platforms Technologies, Llc Latency-resilient cloud rendering
US11676324B2 (en) 2021-03-30 2023-06-13 Meta Platforms Technologies, Llc Cloud rendering of texture map

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336604B2 (en) * 2014-02-08 2016-05-10 Honda Motor Co., Ltd. System and method for generating a depth map through iterative interpolation and warping
US10086871B2 (en) * 2015-12-02 2018-10-02 GM Global Technology Operations LLC Vehicle data recording
US9760837B1 (en) * 2016-03-13 2017-09-12 Microsoft Technology Licensing, Llc Depth from time-of-flight using machine learning
US20190349571A1 (en) * 2018-05-11 2019-11-14 Ford Global Technologies, Llc Distortion correction for vehicle surround view camera projections
JP7316620B2 (ja) * 2019-02-15 2023-07-28 トヨタ モーター ヨーロッパ 画像正規化のためのシステムと方法

Also Published As

Publication number Publication date
CN113315946B (zh) 2023-04-07
US11532165B2 (en) 2022-12-20
CN113315946A (zh) 2021-08-27
US20210264166A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
DE102021101285A1 (de) Natürliche umgebungsansicht
DE102018104857B4 (de) Verfahren und Systeme zum Analysieren von Fahrzeugreifen unter Verwendung von an einem Fahrzeug montierten Kameras
DE102019114355A1 (de) Autokalibrierung für fahrzeugkameras
DE102010004165B4 (de) Verfahren und Systeme zum Kalibrieren von Fahrzeugsichtsystemen
DE102019112175A1 (de) Verzerrungskorrektur für fahrzeug-surround-view-kamera-projektionen
DE102018108054A1 (de) Verfahren und systeme zur bestimmung einer kamera-fehlausrichtung
DE102019111521A1 (de) Verfahren und vorrichtung zum erfassen von tiefeninformationen mit kameras von verschiedenen fahrzeugen
DE102019106052A1 (de) Fahrzeugkameras zum überwachen von off-road-gelände
DE102019108645A1 (de) Verfahren und vorrichtung zur erzeugung von situationswahrnehmungsgrafiken unter verwendung von kameras von verschiedenen fahrzeugen
WO2008064892A1 (de) Verfahren zum bestimmen einer position, vorrichtung und computerprogrammprodukt
DE102010015079A1 (de) Verfahren zum Anzeigen eines Bildes auf einer Anzeigeeinrichtung in einem Fahrzeug. Fahrerassistenzsystem und Fahrzeug
DE102018116106A1 (de) Videoübertragung für ein ankommendes linksabbiegendes fahrzeug
DE102021109360A1 (de) Systeme und verfahren zur erkennung der absicht von spurmanövern
EP3545463A1 (de) Verfahren und vorrichtung zum erzeugen einer fahrzeugumgebungsansicht bei einem fahrzeug
DE102021129887A1 (de) Prädiktive bewertung der fahreraufmerksamkeit
DE102015100894A1 (de) Fahrzeugspursteuerung unter Verwendung eines Differenzdrehmomentes
DE102021111977A1 (de) Dreidimensionale verkehrszeichenerkennung
DE102021104178A1 (de) Dynamisch gerouteter felddiskriminator
DE102017124760A1 (de) Fahrzeug mit einer Multifokuskamera
DE102016123135B4 (de) Fahrzeugdatenaufzeichnung
DE102020103653A1 (de) Fahrzeugbilddarstellungssystem und -verfahren für eine einparklösung
DE102021109536A1 (de) Proaktive Scheinwerferverfolgung für den automatischen Fernlichtassistenten des Fahrzeugs
DE102019128615A1 (de) Automobilproduktionssystem
DE102019112654A1 (de) Verfahren und system für distributed-ledger-technologie-kommunikationen für fahrzeuge
DE102019133631A1 (de) Bilderzeugungsvorrichtung und bilderzeugungsverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed