DE102022105267A1 - Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind - Google Patents

Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind Download PDF

Info

Publication number
DE102022105267A1
DE102022105267A1 DE102022105267.2A DE102022105267A DE102022105267A1 DE 102022105267 A1 DE102022105267 A1 DE 102022105267A1 DE 102022105267 A DE102022105267 A DE 102022105267A DE 102022105267 A1 DE102022105267 A1 DE 102022105267A1
Authority
DE
Germany
Prior art keywords
image
camera
training
information
sensor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022105267.2A
Other languages
English (en)
Inventor
Akhilesh Kumar Malviya
Arindam Das
Senthil Kumar Yogamani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Connaught Electronics Ltd
Original Assignee
Connaught Electronics Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Connaught Electronics Ltd filed Critical Connaught Electronics Ltd
Priority to DE102022105267.2A priority Critical patent/DE102022105267A1/de
Priority to PCT/EP2023/055257 priority patent/WO2023169912A1/en
Publication of DE102022105267A1 publication Critical patent/DE102022105267A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S2205/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S2205/01Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations specially adapted for specific applications
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/16Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using electromagnetic waves other than radio waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Ein computerimplementiertes Verfahren zum Kombinieren von Kamerainformationen, die durch wenigstens ein Kamerabild (14) gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten (15) gegeben sind, beinhaltet das Erzeugen eines weiteren Bildes (17, 18) durch ein künstliches neuronales Netzwerk, ANN, (10) in Abhängigkeit von den Umfeldsensordaten (15). Eine Maskenmerkmalskarte (19) wird durch Anwenden eines Maskierungsmoduls (24) des ANN (10) auf das wenigstens eine Kamerabild (14) und das weitere Bild (17, 18) erzeugt, wobei die Maskenmerkmalskarte (19) für jeden Bildpunkt des weiteren Bildes (17, 18) angibt, ob das wenigstens eine Kamerabild (14) einen entsprechenden Kamerabildpunkt aufweist. Eine kombinierte visuelle Darstellung (16) der Kamerainformationen und der weiteren Informationen wird unter Verwendung eines generativen adversen Netzwerks, GAN, (13) des ANN (10) in Abhängigkeit von der Maskenmerkmalskarte (19) erzeugt.

Description

  • Die vorliegende Erfindung richtet sich auf ein computerimplementiertes Verfahren zum Kombinieren von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind, wobei die weiteren Informationen Informationen bezüglich wenigstens eines Teils eines Objekts beinhalten, der nicht durch das wenigstens eine Kamerabild abgebildet wird. Die Erfindung richtet sich ferner auf ein Verfahren zur zumindest teilweisen automatischen Führung eines Fahrzeugs, auf ein elektronisches Fahrzeugführungssystem und auf ein Computerprogrammprodukt.
  • Für die zumindest teilweise automatische Führung eines Fahrzeugs, also für autonomes Fahren, teilautonomes Fahren oder Fahrerassistenzfunktionen, ist es von Vorteil, wenn auf den Fahrzeugen Kameras montiert sind, die die Umgebung und das Umfeld des Fahrzeugs möglichst vollständig erfassen. Mit regulären geradlinigen oder gnomischen Kameras erfordert dies aufgrund ihrer eingeschränkten Sichtfelder eine relativ große Anzahl von Einzelkameras. Stattdessen können nicht-geradlinige Kameras, wie zum Beispiel Fischaugenkameras, eingesetzt werden. Diese können ein größeres Sichtfeld aufweisen und somit die Gesamtzahl der benötigten Kameras reduzieren. Allerdings sind nicht-geradlinige Kameras in der Regel teurer als geradlinige Kameras und außerdem werden die resultierenden Kamerabilder aufgrund der nicht-geradlinigen Abbildungsfunktion erheblich durch Verzerrungen beeinträchtigt. Außerdem können Objekte in der Umgebung des Fahrzeugs von weiteren Objekten in der Umgebung verdeckt sein und daher möglicherweise nicht mit Kameras erkannt werden.
  • Im Dokument Y. Lyu, „An Interactive LiDAR to Camera Calibration“, arXiv:1903.02122v1, 2019, wird ein Fahrzeug beschrieben, das mit einem Lidar-System und mehreren Kameras ausgestattet ist. Die Autoren beschreiben eine Möglichkeit, präzise intrinsische und extrinsische Kalibrierungen zwischen den einzelnen Geräten sicherzustellen.
  • Es ist ein Ziel der vorliegenden Erfindung, eine erweiterte visuelle Darstellung von Kamerainformationen und weiteren Informationen von Umfeldsensorsystemen bereitzustellen.
  • Dieses Ziel wird durch den jeweiligen Gegenstand der unabhängigen Ansprüche erreicht. Weitere Ausführungsformen und bevorzugte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche.
  • Der Erfindung liegt die Idee zugrunde, ein trainiertes künstliches neuronales Netzwerk, ANN, beinhaltend ein generatives adverses Netzwerk, GAN, zu verwenden, um eine kombinierte visuelle Darstellung von Kamerainformationen und weiteren Informationen zu erzeugen. Dazu wird durch ein Maskierungsmodul des ANN eine Maskenmerkmalskarte erzeugt, die angibt, ob einzelne Bildpunkte, die durch die Umfeldsensordaten repräsentiert werden, auch in den Kamerainformationen vorhanden sind oder nicht.
  • Gemäß einem Aspekt der Erfindung wird ein computerimplementiertes Verfahren zur Kombination von Kamerainformationen und weiteren Informationen bereitgestellt. Die Kamerainformationen sind durch wenigstens ein Kamerabild gegeben und die weiteren Informationen sind durch Umfeldsensordaten gegeben. Die weiteren Informationen beinhalten Informationen über wenigstens einen Teil eines Objekts, der nicht durch das wenigstens eine Kamerabild abgebildet ist. Ein zweidimensionales weiteres Bild wird durch ein Formkonstruktionsmodul, insbesondere ein trainiertes Formkonstruktionsmodul, eines trainierten künstlichen neuronalen Netzwerks, ANN, in Abhängigkeit von den Umfeldsensordaten erzeugt. Eine Maskenmerkmalskarte wird erzeugt, indem ein Maskierungsmodul, insbesondere ein trainiertes Maskierungsmodul, des ANN auf das wenigstens eine Kamerabild und auf das weitere Bild angewendet wird. Dabei gibt die Maskenmerkmalskarte für jeden weiteren Bildpunkt des weiteren Bildes an, ob das wenigstens eine Kamerabild einen entsprechenden Kamerabildpunkt enthält. Eine kombinierte visuelle Darstellung der Kamerainformationen und der weiteren Informationen wird von einem generativen adversen Netzwerk, GAN, des ANN, insbesondere von einem trainierten Generatormodul des GAN, in Abhängigkeit von der Maskenmerkmalskarte und dem weiteren Bild erzeugt.
  • Hier und im Folgenden können, wenn nicht anders angegeben, Verfahrensschritte eines erfindungsgemäßen computerimplementierten Verfahrens von wenigstens einer Recheneinheit, insbesondere eines Fahrzeugs, ausgeführt werden. In Ausführungsformen, bei denen das computerimplementierte Verfahren die Durchführung eines Trainingsverfahrens zum Trainieren des ANN beinhaltet, können die Schritte des Trainingsverfahrens von einem Trainingsrechnersystem durchgeführt werden und die verbleibenden Schritte nach Abschluss des Trainingsverfahrens von der wenigstens einen Recheneinheit, die insbesondere nicht Teil des Trainingsrechnersystems ist, durchgeführt werden.
  • Es wird darauf hingewiesen, dass für jede Ausführungsform eines erfindungsgemäßen computerimplementierten Verfahrens eine jeweilige nicht rein computerimplementierte Ausführungsform eines Verfahrens zum Kombinieren von Kamerainformationen und weiteren Informationen direkt durch Einbeziehen von Verfahrensschritten zum Erzeugen des wenigstens einen Kamerabildes durch ein Kamerasystem und/oder zum Erzeugen der Umfeldsensordaten durch ein Umfeldsensorsystem erhalten wird.
  • Die Umfeldsensordaten werden von einem oder mehreren entsprechenden Umfeldsensorsystemen erzeugt, vorzugsweise von einem Lidarsystem und/oder einem Radarsystem. Insbesondere können die Umfeldsensordaten Tiefeninformationen oder mit anderen Worten dreidimensionale Informationen über die Umgebung beinhalten. Beispielsweise können die Umfeldsensordaten in Form einer dreidimensionalen Punktwolke vorliegen, wobei die Punktwolke eine Vielzahl von Punkten beinhaltet, die jeweils durch drei Raumkoordinaten spezifiziert sind. Optional kann jeder der Punkte der Punktwolke auch zusätzliche Informationen tragen.
  • Das wenigstens eine Kamerabild wird von einem Kamerasystem erzeugt, das wenigstens eine Kamera beinhaltet. Insbesondere erzeugt jede Kamera des Kamerasystems genau eines des wenigstens einen Kamerabildes. Das wenigstens eine Kamerabild ist insbesondere wenigstens ein zweidimensionales Kamerabild. Das wenigstens eine Kamerabild kann einer unbearbeiteten oder teilbearbeiteten Ausgabe des Kamerasystems entsprechen.
  • Jede der Kameras des Kamerasystems hat ein entsprechendes Sichtfeld und folglich hat das Kamerasystem ein gemeinsames Sichtfeld, das aus der Überlagerung aller einzelnen Sichtfelder der Kameras besteht. Das gemeinsame Sichtfeld ist nicht notwendigerweise zusammenhängend und ist im Allgemeinen nicht zusammenhängend. Das heißt, zwischen den einzelnen Sichtfeldern der Kameras kann es blinde Flecken geben, die von dem gemeinsamen Sichtfeld nicht erfasst werden.
  • Das Sichtfeld der Umfeldsensorsysteme, die zu den Umfeldsensordaten beitragen, kann sich mit dem gemeinsamen Sichtfeld des Kamerasystems überschneiden, ist aber nicht identisch mit dem gemeinsamen Sichtfeld des Kamerasystems. So können zum Beispiel die blinden Flecken des gemeinsamen Sichtfeldes des Kamerasystems zumindest teilweise durch das Sichtfeld der Umfeldsensorsysteme abgedeckt sein. Auf diese Weise kann ein Objekt oder ein Teil eines Objekts, das sich in einem blinden Fleck befindet und daher nicht durch das wenigstens eine Kamerabild dargestellt wird, durch die Umfeldsensordaten repräsentiert werden. Alternativ oder zusätzlich können die Umfeldsensordaten ein Objekt oder einen Teil eines Objekts darstellen, das durch ein weiteres Objekt in der Umgebung für das Kamerasystem verdeckt ist. Zum Beispiel kann ein weiteres Fahrzeug in der Umgebung einen Fußgänger oder einen anderen Verkehrsteilnehmer verdecken. Das Umfeldsensorsystem kann das verdeckte Objekt zumindest teilweise darstellen, zum Beispiel aufgrund seiner anderen Montageposition im Vergleich zu den Kameras und/oder aufgrund seines anderen Erfassungsprinzips. So kann zum Beispiel ein Radarsystem auch Objekte erfassen, die für ein Kamerasystem verdeckt sind.
  • Außerdem können die Beleuchtungsbedingungen in der Umgebung so beschaffen sein, dass das Kamerasystem möglicherweise nicht alle Objekte in seinem gemeinsamen Sichtfeld abbildet. Das Umfeldsensorsystem, zum Beispiel ein Lidar-System, kann im Vergleich zu Kamerasystemen auch bei relativer Dunkelheit oder anderen ungünstigen Umgebungsbedingungen Objekte darstellen.
  • Das weitere Bild wird aus den Umfeldsensordaten als zweidimensionales weiteres Bild erzeugt. Es kann zum Beispiel einer zweidimensionalen Projektion der dreidimensionalen Punktwolke entsprechen, die durch die Umfeldsensordaten gegeben ist. Zur Erzeugung des zweidimensionalen weiteren Bildes kann das Formkonstruktionsmodul zum Beispiel eine oder mehrere Regressionsoperationen durchführen.
  • Das ANN kann derart verstanden werden, dass es eine Vielzahl von Modulen beinhaltet, die auch als Teilnetze betrachtet werden können und selbst wieder Teilmodule beinhalten können und so weiter. Die Module können im Allgemeinen trainierbare oder trainierte Module sein. Eines der Module des ANN ist durch das GAN gegeben, ein anderes durch das Formkonstruktionsmodul. Die verschiedenen Module und Teilnetze bilden zusammen das trainierte ANN.
  • Das wenigstens eine Kamerabild hat eine bestimmte Anzahl von Kamerabildpunkten oder Pixeln. Die Anzahl der Kamerabildpunkte kann auch als Dimension des wenigstens einen Kamerabildes oder als räumliche Dimension bezeichnet werden. Analog dazu hat das weitere Bild eine Vielzahl von weiteren Bildpunkten und die Anzahl der weiteren Bildpunkte kann als Dimension oder räumliche Ausdehnung des weiteren Bildes bezeichnet werden. Außerdem hat das wenigstens eine Kamerabild in der Regel mehr als einen Kanal, der zum Beispiel den jeweiligen Farben entspricht. Je nach verwendetem Farbraum kann das wenigstens eine Kamerabild zum Beispiel drei, vier oder fünf Kanäle aufweisen, zum Beispiel einen roten Farbkanal, einen grünen Farbkanal und einen blauen Farbkanal et cetera.
  • Andererseits enthält das weitere Bild in der Regel keine Farbinformationen. Daher kann das weitere Bild zum Beispiel nur einen einzigen Kanal haben.
  • Das Maskenmerkmalabbild kann einen oder mehrere Kanäle enthalten. Ein erster Kanal der Maskenmerkmalstabelle gibt für jeden weiteren Bildpunkt des weiteren Bildes an, ob das wenigstens eine Kamerabild den entsprechenden Kamerabildpunkt enthält. Der erste Kanal kann dabei ein binärer Kanal sein, so dass die Werte des ersten Kanals nur zwei vordefinierte Werte annehmen können, zum Beispiel 0 oder 1. In anderen Ausführungsformen ist es jedoch möglich, dass der erste Kanal auch mehr Werte innerhalb eines Wertebereichs annehmen kann, der durch einen Minimalwert, zum Beispiel 0, und einen Maximalwert, zum Beispiel 1, begrenzt sein kann. Da der erste Kanal für jeden weiteren Bildpunkt des weiteren Bildes einen Eintrag enthält, ist die räumliche Dimension der Maskenmerkmalskarte die gleiche wie für das weitere Bild.
  • Es wird darauf hingewiesen, dass das GAN nicht notwendigerweise die Maskenmerkmalskarte und das weitere Bild als direkte Eingaben erhält. Mit anderen Worten, kann das GAN auf eine Eingabe angewendet werden, die von der Maskenmerkmalskarte und dem weiteren Bild abhängt. Mit anderen Worten, kann die Eingabe für das GAN durch die Verarbeitung der Maskenmerkmalskarte und des weiteren Bildes erzeugt werden, zum Beispiel durch eines oder mehrere weitere Regressionsmodule des ANN.
  • Mittels des erfindungsgemäßen computerimplementierten Verfahrens werden Informationen, die nicht durch die Kamerainformationen, sondern durch Umfeldsensordaten repräsentiert werden, mit den Kamerainformationen des wenigstens einen Kamerabildes kombiniert, um die kombinierte visuelle Darstellung zu erzeugen, und zwar in einer Weise, die für einen menschlichen Benutzer eines Fahrzeugs visuell wahrnehmbar ist. Dabei kann die kombinierte visuelle Darstellung zum Beispiel einem zweidimensionalen oder dreidimensionalen Bild oder einer zweidimensionalen oder dreidimensionalen Darstellung entsprechen. Das Bild kann zum Beispiel auf eine vordefinierte Render-Oberfläche gerendert werden. Die Ausgabe des GAN kann dann einer Vielzahl von Ausgabepixeln oder Ausgabebildpunkten der kombinierten visuellen Darstellung entsprechen. Die Ausgabepixel können von einem Anzeigegerät gerendert und angezeigt oder von Algorithmen zur automatischen visuellen Wahrnehmung weiterverarbeitet werden et cetera.
  • Das wenigstens eine Kamerabild kann zum Beispiel Farbinformationen für jeden der jeweiligen Kamerabildpunkte enthalten. Die Umfeldsensordaten hingegen können Informationen über Objekte enthalten, die in dem wenigstens einen Kamerabild nicht sichtbar sind, zum Beispiel Forminformationen. Das GAN ist dazu trainiert, den Kontext der Umfeldsensordaten aufgrund des Vorhandenseins des wenigstens einen Kamerabildes zu verstehen oder umgekehrt. Daher kann die kombinierte visuelle Darstellung besonders vorteilhaft für den menschlichen Benutzer und/oder für nachfolgende Computer-Vision-Algorithmen wie Objekterkennung, Objektverfolgung, semantische Segmentierung et cetera sein.
  • Gemäß mehreren Ausführungsformen des erfindungsgemäßen computerimplementierten Verfahrens wird die Maskenmerkmalskarte derart erzeugt, dass sie den ersten Kanal beinhaltet, der für jeden weiteren Bildpunkt des weiteren Bildes angibt, ob das wenigstens eine Kamerabild den entsprechenden Kamerabildpunkt enthält. Die Maskenmerkmalskarte enthält wenigstens einen weiteren Kanal, der für jeden weiteren Bildpunkt des weiteren Bildes, für den der erste Kanal angibt, dass das wenigstens eine Kamerabild den entsprechenden Kamerabildpunkt beinhaltet, Farbinformationen beinhaltet.
  • Folglich gibt die Maske in solchen Ausführungsformen nicht nur die Teile des weiteren Bildes an, die entsprechende Gegenstücke in dem wenigstens einen Kamerabild haben, sondern ordnet auch die jeweiligen Farbinformationen aus dem wenigstens einen Kamerabild diesen Teilen des weiteren Bildes zu. Daher stellt die Maskenmerkmalskarte eine besonders nützliche Informationsquelle für das GAN dar, um den lokalen Kontext auch für solche Stellen des weiteren Bildes zu identifizieren, an denen nativ keine Farbinformationen vorhanden sind. Für diese Teile des weiteren Bildes kann das GAN gemäß seinem Training den erwarteten Kontext und die Farbinformationen entsprechend vorhersagen.
  • Gemäß mehreren Ausführungsformen beinhaltet der wenigstens eine weitere Kanal der Maskenmerkmalskarte einen Rotkanal, einen Grünkanal und einen Blaukanal. Dabei beinhalten der rote, der grüne und der blaue Kanal rote Farbinformationen, grüne Farbinformationen beziehungsweise blaue Farbinformationen.
  • In anderen Ausführungsformen beinhaltet der wenigstens eine weitere Kanal der Maskenmerkmalskarte einen Farbtonkanal, der Farbtoninformationen enthält, einen Sättigungskanal, der Sättigungsinformationen enthält, und einen Helligkeitskanal, der eine Helligkeitsinformation enthält, entsprechend einem HSV-Farbraum. Alternativ kann auch ein HSL-Farbraum, ein HSB-Farbraum et cetera verwendet werden.
  • Gemäß mehreren Ausführungsformen beinhaltet der wenigstens eine weitere Kanal für jeden Bildpunkt des weiteren Bildes wenigstens, für den der erste Kanal angibt, dass das wenigstens eine Kamerabild keinen entsprechenden Kamerabildpunkt beinhaltet, einen entsprechenden Standardwert.
  • Der Standardwert kann zum Beispiel gleich null sein oder eine andere vordefinierte Konstante. Auf diese Weise wird sichergestellt, dass für die Bildpunkte des weiteren Bildes, für die keine ausreichenden Informationen in dem wenigstens einen Kamerabild vorhanden sind, keine unzuverlässigen Informationen künstlich eingeführt werden, die zu Artefakten oder Fehlern führen könnten.
  • Gemäß mehreren Ausführungsformen wird die kombinierte visuelle Darstellung, insbesondere die Eingabe für das GAN, auf Basis des ersten Kanals und des wenigstens einen weiteren Kanals der Maskenmerkmalskarte erzeugt.
  • Gemäß mehreren Ausführungsformen wird in Abhängigkeit von den Umfeldsensordaten ein zweidimensionales initiales Bild durch ein Bildkonstruktionssubmodul, insbesondere ein trainiertes Bildkonstruktionssubmodul, des Formkonstruktionsmoduls erzeugt. Ein verbessertes Bild wird durch ein Formregressionssubmodul, insbesondere ein trainiertes Formregressionssubmodul, des Formkonstruktionsmoduls in Abhängigkeit von dem initialen Bild erzeugt. Die kombinierte visuelle Darstellung wird durch das GAN in Abhängigkeit von dem verbesserten Bild erzeugt.
  • Dabei ist das weitere Bild durch das initiale Bild oder durch das verbesserte Bild gegeben. Mit anderen Worten, die kombinierte visuelle Darstellung wird in solchen Ausführungsformen auf Basis des verbesserten Bildes erzeugt, während die Maskenmerkmalskarte auch auf Basis des verbesserten Bildes oder auf Basis des initialen Bildes erzeugt werden kann.
  • Das Formregressionssubmodul kann zum Beispiel ein Encoder-Modul und ein dem Encoder-Modul folgendes Decoder-Modul beinhalten. Das Formregressionssubmodul kann trainiert sein, um das verbesserte Bild mittels einer Regressionsoperation zu konstruieren. Die räumlichen Dimensionen des initialen Bildes und des verbesserten Bildes sind gleich.
  • Beispielsweise kann das Bildkonstruktionssubmodul die Umfeldsensordaten in ein zweidimensionales Bild oder eine zweidimensionale Punktwolke transformieren, wie oben beschrieben. Es kann sein, dass dieses initiale Bild die geometrische Form von Objekten in der Umgebung aufgrund der Beschaffenheit der Umfeldsensordaten nur grob kodiert. Folglich kann das Formregressionssubmodul trainiert sein, um die geometrische Form der Objekte im verbesserten Bild zu verbessern, um die gespeicherten Informationen zu verbessern, die zur Erzeugung der Eingabe für das GAN verwendet werden. Auf diese Weise kann die kombinierte visuelle Darstellung auf eine natürlichere oder realistischere Weise rekonstruiert werden.
  • In alternativen Ausführungsformen kann das Formkonstruktionsmodul das verbesserte Bild aus den Umfeldsensordaten generieren, ohne dazwischen das initiale Bild zu erzeugen. Auch in solchen Ausführungsformen ist das weitere Bild durch das verbesserte Bild gegeben.
  • Gemäß mehreren Ausführungsformen wird das verbesserte Bild durch ein weiteres Regressionsmodul, insbesondere ein weiteres trainiertes Regressionsmodul, des ANN in einen ersten Teil und einen zweiten Teil aufgeteilt. Der erste Teil des aufgeteilten verbesserten Bildes entspricht den Bildpunkten des verbesserten Bildes, zu denen das wenigstens eine Kamerabild die entsprechenden Kamerabildpunkte beinhaltet, insbesondere wie durch die Maskenmerkmalskarte, zum Beispiel den ersten Kanal der Maskenmerkmalskarte, spezifiziert. Der zweite Teil des aufgeteilten verbesserten Bildes entspricht den Bildpunkten des verbesserten Bildes, für die das wenigstens eine Kamerabild keine entsprechenden Kamerabildpunkte beinhaltet, wie insbesondere durch das Maskenmerkmalskarte, insbesondere durch den ersten Kanal, spezifiziert. Die kombinierte visuelle Darstellung wird durch das GAN in Abhängigkeit von dem ersten Teil des aufgeteilten verbesserten Bildes und dem zweiten Teil des aufgeteilten verbesserten Bildes erzeugt.
  • Insbesondere enthält der erste Teil des aufgeteilten verbesserten Bildes auch die entsprechende Farbinformation gemäß dem wenigstens einen weiteren Kanal der Maskenmerkmalskarte. Der zweite Teil des aufgeteilten verbesserten Bildes enthält keine solchen Farbinformationen. Mit anderen Worten: Der zweite Teil des aufgeteilten verbesserten Bildes entspricht einer einkanaligen Merkmalskarte und der erste Teil des aufgeteilten verbesserten Bildes entspricht einer Merkmalskarte, deren Anzahl der Kanäle gleich der Anzahl der Kanäle der Maskenmerkmalskarte ist.
  • In solchen Ausführungsformen erzeugt das GAN dann die kombinierte visuelle Darstellung, indem es den für den zweiten Teil des aufgeteilten verbesserten Bildes geeigneten lokalen Kontext aus dem ersten Teil des aufgeteilten verbesserten Bildes erkennt, so dass für alle Ausgabebildpunkte der kombinierten visuellen Darstellung entsprechende Forminformationen sowie Farbinformationen durch das wenigstens eine Kamerabild entweder vorhergesagt oder von dem wenigstens einen Kamerabild erhalten werden können.
  • Gemäß mehreren Ausführungsformen beinhalten die Umfeldsensordaten Lidar-Sensordaten und/oder Radar-Sensordaten.
  • Mit anderen Worten, beinhaltet das Umfeldsensorsystem ein Lidar-Sensorsystem und/oder ein Radar-Sensorsystem.
  • Radarsensorsysteme haben den Vorteil, dass sie Objekte erkennen können, die durch andere Objekte in der Umgebung verdeckt oder teilweise verdeckt sind. Lidar-Sensorsysteme haben eine besonders große Reichweite in radialer Richtung und in Winkelrichtung und können zum Beispiel blinde Flecken des Kamerasystems abdecken.
  • Durch die Kombination der Sensorleistungsfähigkeiten des Kamerasystems und des Lidar-Sensorsystems und/oder des Radar-Sensorsystems kann eine besonders vollständige und zuverlässige kombinierte visuelle Darstellung erreicht werden.
  • Gemäß mehreren Ausführungsformen beinhaltet das Erzeugen der kombinierten visuellen Darstellung das Rendern eines Ausgabebildes auf einer vordefinierten Render-Oberfläche in Abhängigkeit von der Maskenmerkmalskarte und dem weiteren Bild, insbesondere dem ersten und dem zweiten Teil des aufgeteilten verbesserten Bildes, wobei das Ausgabebild die Kamerainformationen und zumindest den Teil des Objekts darstellt, der nicht durch das wenigstens eine Kamerabild dargestellt wird.
  • Die vordefinierte Render-Oberfläche kann eine Ebene oder eine gekrümmte Oberfläche wie zum Beispiel eine Schalenoberfläche sein, um eine realistischere Darstellung zu ermöglichen.
  • Das Ausgabebild kann zum Beispiel eine Vielzahl von Ausgabebildpunkten und die jeweiligen Farbinformationen für jeden der Ausgabebildpunkte beinhalten. Insbesondere beinhalten die Ausgabebildpunkte die jeweiligen Farbinformationen nicht nur für Ausgabebildpunkte, die Kamerabildpunkten entsprechen, sondern auch für solche Ausgabebildpunkte, die von dem Kamerasystem verdeckt oder nicht gesehen werden.
  • Gemäß mehreren Ausführungsformen wird ein Trainingsverfahren zum Trainieren des ANN durchgeführt, insbesondere bevor das weitere Bild durch das ANN erzeugt wird, bevor die Maskenmerkmalskarte durch das Maskierungsmodul erzeugt wird und bevor die kombinierte visuelle Darstellung unter Verwendung des GAN erzeugt wird.
  • Das Trainingsverfahren beinhaltet eine erste Trainingsphase, in der das Maskierungsmodul und das Formkonstruktionsmodul, gegebenenfalls einschließlich des Formregressionssubmoduls und/oder des Bildkonstruktionssubmoduls und/oder des weiteren Regressionssubmoduls, während der ersten Trainingsphase überwacht trainiert werden. Das Trainingsverfahren beinhaltet eine zweite Trainingsphase nach Abschluss der ersten Trainingsphase, wobei das GAN während der zweiten Trainingsphase trainiert wird.
  • Mit anderen Worten, das Formkonstruktionsmodul und das Maskierungsmodul werden in der ersten Trainingsphase unabhängig von dem GAN trainiert und das GAN wird in der zweiten Trainingsphase trainiert.
  • Das GAN enthält ein Generatormodul und ein Diskriminatormodul. Beim Training des GAN werden sowohl das Generatormodul als auch das Diskriminatormodul trainiert. Das Training des Generatormoduls und des Diskriminatormoduls kann nacheinander durchgeführt werden. Nachdem das Training des GAN abgeschlossen ist, wird das Diskriminatormodul möglicherweise nicht mehr für die Erzeugung der kombinierten visuellen Darstellung durch das GAN benötigt. In anderen Ausführungsformen kann das trainierte Diskriminatormodul jedoch auch nach dem Training des GAN verwendet werden.
  • Gemäß mehreren Ausführungsformen wird während der zweiten Trainingsphase ein zweidimensionales weiteres Trainingsbild durch das trainierte Formkonstruktionsmodul in Abhängigkeit von vordefinierten Trainingsumfeldsensordaten erzeugt. Durch Anwendung des trainierten Maskierungsmoduls auf das wenigstens eine vordefinierte Trainingskamerabild und das weitere Trainingsbild wird eine Trainings-Maskenmerkmalskarte erzeugt. Dabei gibt die Trainings-Maskenmerkmalskarte für jeden Bildpunkt des weiteren Trainingsbildes an, ob das wenigstens eine Trainingskamerabild einen entsprechenden Kamerabildpunkt enthält. Ein zweidimensionales initiales Trainingsbild wird durch das trainierte Bildkonstruktionssubmodul in Abhängigkeit von den Trainingssensordaten erzeugt. Ein verbessertes Trainingsbild wird durch das trainierte Formregressionssubmodul in Abhängigkeit von dem initialen Trainingsbild erzeugt. Das weitere Trainingsbild ist durch das initiale Trainingsbild oder durch das verbesserte Trainingsbild gegeben. Das GAN wird in Abhängigkeit von Bildpunkten des verbesserten Trainingsbildes trainiert, für die das wenigstens eine Trainingskamerabild die entsprechenden Kamerabildpunkte enthält, und unabhängig von Bildpunkten des verbesserten Trainingsbildes, für die das wenigstens eine Trainingskamerabild keine entsprechenden Kamerabildpunkte enthält.
  • Mit anderen Worten entsprechen die Bildpunkte des verbesserten Trainingsbildes dem ersten Teil des aufgeteilten verbesserten Bildes während der Inferenzphase. Das GAN wird auf Basis dieser Bildpunkte trainiert. Die Punkte des verbesserten Trainingsbildes, für die das wenigstens eine Trainingsbild keine entsprechenden Kamerabildpunkte enthält, können während der Inferenzphase als dem zweiten Teil des aufgeteilten verbesserten Bildes entsprechend betrachtet werden. Diese Punkte werden beispielsweise für das Training des GAN nicht berücksichtigt, da eine entsprechende Ground Truth möglicherweise nicht verfügbar ist. Stattdessen kann der erste Teil des aufgeteilten verbesserten Trainingsbildes einmal zusammen mit den Farbinformationen und einmal ohne die Farbinformationen verwendet werden, um eine entsprechende Ground Truth für Punkte bereitzustellen, die nicht durch das wenigstens eine Trainingskamerabild dargestellt werden.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zur zumindest teilweisen automatischen Führung eines Fahrzeugs bereitgestellt. Dabei wird wenigstens ein Kamerabild von einem Kamerasystem des Fahrzeugs erzeugt und Umfeldsensordaten werden von einem Umfeldsensorsystem des Fahrzeugs erzeugt. Erfindungsgemäß wird ein computerimplementiertes Verfahren zum Kombinieren von Kamerainformationen und weiteren Informationen durchgeführt, um eine kombinierte visuelle Darstellung von Kamerainformationen des wenigstens einen Kamerabildes und weiteren Informationen, die durch die Umfeldsensordaten gegeben sind und die Informationen bezüglich wenigstens eines Teils eines Objekts enthalten, das durch das wenigstens eine Kamerabild nicht abgebildet wird, zu erzeugen. Die kombinierte visuelle Darstellung wird auf einer Anzeigeeinrichtung des Fahrzeugs zur Unterstützung eines Fahrers des Fahrzeugs angezeigt und/oder es wird in Abhängigkeit von der kombinierten visuellen Darstellung wenigstens ein Steuergerät zur zumindest teilweisen automatischen Führung des Fahrzeugs erzeugt.
  • Gegebenenfalls wird das wenigstens eine Steuersignal verwendet, um das Fahrzeug zumindest teilweise automatisch zu führen, zum Beispiel durch einen oder mehrere Aktuatoren des Fahrzeugs. Das wenigstens eine Steuersignal kann zum Beispiel von einem Steuergerät des Fahrzeugs, insbesondere der wenigstens einen Recheneinheit des Fahrzeugs, erzeugt werden.
  • Das computerimplementierte Verfahren kann zum Beispiel zumindest teilweise von wenigstens einer Recheneinheit des Fahrzeugs ausgeführt werden. Insbesondere kann das computerimplementierte Verfahren von der wenigstens einen Recheneinheit ausgeführt werden, mit Ausnahme von Verfahrensschritten des Trainingsverfahrens, falls zutreffend.
  • Gemäß mehreren Ausführungsformen wird von der wenigstens einen Recheneinheit des Fahrzeugs ein Algorithmus zur automatischen visuellen Wahrnehmung auf der Grundlage der kombinierten visuellen Darstellung ausgeführt. Das wenigstens eine Steuersignal wird in Abhängigkeit von einem Ergebnis des Algorithmus zur automatischen visuellen Wahrnehmung erzeugt.
  • Der Algorithmus zur automatischen visuellen Wahrnehmung kann zum Beispiel einen Algorithmus zur Objekterkennung, Objektverfolgung, Bildklassifizierung, semantischen Segmentierung et cetera beinhalten. Je nach Art des Algorithmus zur automatischen visuellen Wahrnehmung kann das Ergebnis des Algorithmus unterschiedlich sein. Es kann zum Beispiel Objektklassen, Bildklassen oder Klassen auf Pixelebene der kombinierten visuellen Darstellung und/oder Begrenzungsboxen für Objekte in der Umgebung beinhalten.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein elektronisches Fahrzeugführungssystem für ein Fahrzeug bereitgestellt. Das elektronische Fahrzeugführungssystem beinhaltet ein Kamerasystem zur Anbringung an dem Fahrzeug, das dazu ausgebildet ist, wenigstens ein Kamerabild zu erzeugen. Das elektronische Fahrzeugführungssystem beinhaltet ein Umfeldsensorsystem, insbesondere ein Lidarsystem und/oder ein Radarsystem, zur Anbringung an dem Fahrzeug, das zur Erzeugung von Umfeldsensordaten ausgebildet ist. Das elektronische Fahrzeugführungssystem beinhaltet wenigstens eine Recheneinheit, die ausgebildet ist, ein erfindungsgemäßes computerimplementiertes Verfahren auszuführen, um eine kombinierte visuelle Darstellung von Kamerainformationen des wenigstens einen Kamerabildes und weiteren Informationen, die durch die Umfeldsensordaten gegeben sind und die Informationen bezüglich wenigstens eines Teils eines Objekts beinhalten, das nicht durch das wenigstens eine Kamerabild abgebildet ist, zu erzeugen. Dabei beinhaltet das elektronische Fahrzeugführungssystem, insbesondere die wenigstens eine Recheneinheit, eine Speichereinrichtung, die das trainierte ANN speichert.
  • Gemäß mehreren Ausführungsformen des elektronischen Fahrzeugführungssystems beinhaltet das elektronische Fahrzeugführungssystem eine Anzeigevorrichtung für das Fahrzeug und die wenigstens eine Recheneinheit dazu eingerichtet, die kombinierte visuelle Darstellung auf der Anzeigevorrichtung anzuzeigen.
  • Gemäß mehreren Ausführungsformen beinhaltet das elektronische Fahrzeugführungssystem, insbesondere die wenigstens eine Recheneinheit, eine Steuereinheit, die ausgebildet ist, wenigstens ein Steuersignal zur zumindest teilweisen automatischen Führung des Fahrzeugs in Abhängigkeit von der kombinierten visuellen Darstellung zu erzeugen.
  • Gemäß mehreren Ausführungsformen beinhaltet das Kamerasystem wenigstens eine geradlinige Kamera.
  • In solchen Ausführungsformen ist die Erfindung besonders vorteilhaft, da die Anzahl und/oder Größe der blinden Flecken von Kamerasystemen mit geradlinigen Kameras im Vergleich zu nicht-geradlinigen Kameras, wie zum Beispiel Fischaugenkameras, potenziell größer sind.
  • Weitere Ausführungsformen des elektronischen Fahrzeugführungssystems ergeben sich unmittelbar aus den verschiedenen Ausführungsformen des erfindungsgemäßen computerimplementierten Verfahrens und des erfindungsgemäßen Verfahrens zum Führen eines Fahrzeugs und umgekehrt. Insbesondere kann ein erfindungsgemäßes elektronisches Fahrzeugführungssystem zur Durchführung eines erfindungsgemäßen computerimplementierten Verfahrens und/oder eines erfindungsgemäßen Verfahrens zum Führen eines Fahrzeugs eingerichtet sein oder ein solches Verfahren durchführen.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Fahrzeug, insbesondere ein Kraftfahrzeug, mit einem erfindungsgemäßen elektronischen Fahrzeugführungssystem bereitgestellt. Das Kamerasystem ist an dem Fahrzeug montiert und das Umfeldsensorsystem ist an dem Fahrzeug montiert.
  • Gemäß einem weiteren Aspekt der Erfindung ist ein erstes Computerprogramm mit ersten Anweisungen vorgesehen. Bei Ausführung der ersten Anweisungen durch ein Computersystem, insbesondere durch die wenigstens eine Recheneinheit eines erfindungsgemäßen elektronischen Fahrzeugführungssystems, bewirken die ersten Anweisungen, dass das Computersystem ein computerimplementiertes Verfahren zum Kombinieren von Kamerainformationen und weiteren Informationen gemäß der Erfindung durchführt.
  • Gemäß einem weiteren Aspekt der Erfindung ist ein zweites Computerprogramm mit zweiten Anweisungen vorgesehen. Bei Ausführung der zweiten Anweisungen durch ein erfindungsgemäßes elektronisches Fahrzeugführungssystem, insbesondere durch die wenigstens eine Recheneinheit, bewirken die zweiten Anweisungen, dass das elektronische Fahrzeugführungssystem ein erfindungsgemäßes Verfahren zur zumindest teilweise automatischen Führung eines Fahrzeugs durchführt.
  • Gemäß einem weiteren Aspekt der Erfindung ist ein computerlesbares Speichermedium vorgesehen, das ein erstes Computerprogramm und/oder ein zweites Computerprogramm gemäß der Erfindung speichert.
  • Das erste Computerprogramm, das zweite Computerprogramm und das computerlesbare Speichermedium können als jeweilige Computerprogrammprodukte betrachtet werden, die die ersten und/oder die zweiten Anweisungen beinhalten.
  • Ein Umfeldsensorsystem kann als Sensorsystem verstanden werden, das dazu in der Lage ist, Sensordaten oder Sensorsignale zu erzeugen, welche eine Umgebung des Umfeldsensorsystems beziehungsweise des Kraftfahrzeugs abbilden, darstellen oder wiedergeben. Insbesondere ist die Fähigkeit, elektromagnetische oder sonstige Signale aus der Umgebung zu erfassen, nicht hinreichend, um ein Sensorsystem als Umfeldsensorsystem zu erachten. Beispielsweise können Kameras, Radarsysteme, Lidarsysteme oder Ultraschallsensorsysteme als Umfeldsensorsysteme aufgefasst werden.
  • Unter einer Recheneinheit kann insbesondere ein Datenverarbeitungsgerät verstanden werden, die Recheneinheit kann also insbesondere Daten zur Durchführung von Rechenoperationen verarbeiten. Darunter fallen gegebenenfalls auch Operationen, um indizierte Zugriffe auf eine Datenstruktur, beispielsweise eine Umsetzungstabelle, LUT (englisch: „look-up table“), durchzuführen.
  • Die Recheneinheit kann insbesondere einen oder mehrere Computer, einen oder mehrere Mikrocontroller und/oder einen oder mehrere integrierte Schaltkreise enthalten, beispielsweise eine oder mehrere anwendungsspezifische integrierte Schaltungen, ASIC (englisch: „application-specific integrated circuit“), eines oder mehrere feldprogrammierbare Gate-Arrays, FPGA, und/oder eines oder mehrere Einchipsysteme, SoC (englisch: „system on a chip“). Die Recheneinheit kann auch einen oder mehrere Prozessoren, beispielsweise einen oder mehrere Mikroprozessoren, eine oder mehrere zentrale Prozessoreinheiten, CPU (englisch: „central processing unit“), eine oder mehrere Grafikprozessoreinheiten, GPU (englisch: „graphics processing unit“) und/oder einen oder mehrere Signalprozessoren, insbesondere einen oder mehrere digitale Signalprozessoren, DSP, enthalten. Die Recheneinheit kann auch einen physischen oder einen virtuellen Verbund von Computern oder sonstigen der genannten Einheiten beinhalten.
  • In verschiedenen Ausführungsbeispielen beinhaltet die Recheneinheit eine oder mehrere Hardware- und/oder Softwareschnittstelle und/oder eine oder mehrere Speichereinheiten.
  • Eine Speichereinheit kann als flüchtiger Datenspeicher, beispielsweise als dynamischer Speicher mit wahlfreiem Zugriff, DRAM, als statischer Speicher mit wahlfreiem Zugriff, SRAM, oder als nicht-flüchtiger Datenspeicher, beispielsweise als Festwertspeicher, ROM, als programmierbarer Festwertspeicher, PROM, als löschbarer Festwertspeicher, EPROM, als elektrisch löschbarer Festwertspeicher, EEPROM, als Flash-Speicher oder Flash-EEPROM, als ferroelektrischer Speicher mit wahlfreiem Zugriff, FRAM, als magnetoresistiver Speicher mit wahlfreiem Zugriff, MRAM oder als Phasenänderungsspeicher mit wahlfreiem Zugriff, PCRAM, ausgestaltet sein.
  • Ist im Rahmen der vorliegenden Offenbarung die Rede davon, dass eine Komponente des erfindungsgemäßen elektronischen Fahrzeugführungssystems, insbesondere die wenigstens eine Recheneinheit des elektronischen Fahrzeugführungssystems dazu eingerichtet, ausgebildet, ausgelegt, oder dergleichen ist, eine bestimmte Funktion auszuführen oder zu realisieren, eine bestimmte Wirkung zu erzielen oder einem bestimmten Zweck zu dienen, so kann dies derart verstanden werden, dass die Komponente, über die prinzipielle oder theoretische Verwendbarkeit oder Eignung der Komponente für diese Funktion, Wirkung oder diesen Zweck hinaus, durch eine entsprechende Anpassung, Programmierung, physische Ausgestaltung und so weiter konkret und tatsächlich dazu in der Lage ist, die Funktion auszuführen oder zu realisieren, die Wirkung zu erzielen oder dem Zweck zu dienen.
  • Computer-Vision-Algorithmen, die auch als Machine-Vision-Algorithmen oder Algorithmen zur automatischen visuellen Wahrnehmung bezeichnet werden können, können als Computeralgorithmen zur automatischen Durchführung einer visuellen Wahrnehmungsaufgabe betrachtet werden. Eine visuelle Wahrnehmungsaufgabe, die auch als Computer-Vision-Aufgabe bezeichnet wird, kann beispielsweise als eine Aufgabe zur Extraktion von Informationen aus Bilddaten verstanden werden. Insbesondere kann die visuelle Wahrnehmungsaufgabe prinzipiell von einem Menschen ausgeführt werden, der in der Lage ist, ein den Bilddaten entsprechendes Bild visuell wahrzunehmen. Im vorliegenden Zusammenhang werden visuelle Wahrnehmungsaufgaben jedoch auch automatisch durchgeführt, ohne dass die Unterstützung eines Menschen erforderlich ist.
  • Unter einem Computer-Vision-Algorithmus kann beispielsweise ein Bildverarbeitungsalgorithmus oder ein Algorithmus zur Bildanalyse verstanden werden, der durch maschinelles Lernen trainiert wird und beispielsweise auf einem künstlichen neuronalen Netzwerk, insbesondere einem faltenden neuronalen Netzwerk, CNN basieren kann.
  • Der Computer-Vision-Algorithmus kann beispielsweise einen Objekterkennungsalgorithmus, einen Hinderniserkennungsalgorithmus, einen Objektverfolgungsalgorithmus, einen Klassifikationsalgorithmus und/oder einen Segmentierungsalgorithmus umfassen.
  • Unter einer nicht-gnomonischen oder nicht-geradlinigen Kamera versteht man eine Kamera mit einer nicht-gnomonischen oder nicht-geradlinigen Objektiveinheit. Unter einer nicht-gnomonischen oder nicht-geradlinigen Linseneinheit kann eine Linseneinheit, d. h. eine oder mehrere Linsen, verstanden werden, die eine nicht-gnomonische, d. h. nicht-geradlinige, Abbildungsfunktion, auch als krummlinige Abbildungsfunktion bezeichnet, aufweist. Insbesondere Fisheye-Kameras stellen nicht-gnomonische oder nicht-geradlinige Kameras dar.
  • Die Abbildungsfunktion der Linseneinheit kann als eine Funktion r(θ) verstanden werden, die einen Winkel θ von der Mittelachse der radialen Verzeichnung der Linseneinheit auf eine radiale Verschiebung r aus der Bildmitte abbildet. Die Funktion hängt parametrisch von der Brennweite f der Linseneinheit ab.
  • Eine nicht-gnomonische oder nicht-geradlinige Kamera kann als eine Kamera mit einer nicht-gnomonischen oder nicht-geradlinigen Linseneinheit verstanden werden. Eine nicht-gnomonische oder nicht-geradlinige Linseneinheit kann als eine Linseneinheit, das heißt eine oder mehrere Linsen, mit einer nicht-gnomonischen, also nicht-geradlinigen oder kurvilinearen, Abbildungsfunktion verstanden werden. Insbesondere stellen Fischaugenkameras nicht-gnomonische oder nicht-geradlinige Kameras dar.
  • Die Abbildungsfunktion der Linseneinheit kann als eine Funktion r(θ) verstanden werden, die einen Winkel θ von der Mittelachse der radialen Verzeichnung der Linseneinheit auf eine radiale Verschiebung r aus dem Bildzentrum abbildet. Die Funktion hängt parametrisch von der Brennweite f der Linseneinheit ab.
  • Zum Beispiel weist eine gnomonische oder geradlinige Linseneinheit eine gnomonische Abbildungsfunktion auf, insbesondere r(θ) = f tan(θ). Mit anderen Worten bildet eine gnomonische oder geradlinige Linseneinheit gerade Linien in der realen Welt auf gerade Linien im Bild ab, zumindest bis auf Linsenungenauigkeiten.
  • Eine nicht-gnomonische, nicht-geradlinige oder kurvilineare Linseneinheit bildet im Allgemeinen gerade Linien nicht auf gerade Linien ab. Insbesondere kann die Abbildungsfunktion einer nicht-gnomonischen oder nicht-geradlinigen Kamera stereographisch, äquidistant, raumwinkelgleich oder orthographisch sein. Abbildungsfunktionen von nicht-geradlinigen Linseneinheiten können auch, zumindest näherungsweise, durch Polynomfunktionen gegeben sein.
  • Unter einem elektronischen Fahrzeugführungssystem kann hier und im Folgenden ein elektronisches System verstanden werden, das dazu eingerichtet ist, das Kraftfahrzeug vollautomatisch oder vollautonom zu führen oder zu steuern, insbesondere ohne dass ein Eingriff in eine Steuerung durch einen Fahrer erforderlich ist. Das Kraftfahrzeug beziehungsweise das elektronische Fahrzeugführungssystem führt dabei alle erforderlichen Funktionen, wie gegebenenfalls erforderliche Lenk-, Brems- und/oder Beschleunigungsmanöver, die Beobachtung und Erfassung des Straßenverkehrs sowie die damit verbundenen erforderlichen Reaktionen selbsttätig und vollautomatisch durch. Insbesondere kann das elektronische Fahrzeugführungssystem zur Implementierung eines vollautomatischen oder vollautonomen Fahrmodus des Kraftfahrzeugs nach Stufe 5 der Klassifizierung gemäß SAE J3016 dienen. Unter einem elektronischen Fahrzeugführungssystem kann auch ein Fahrerassistenzsystem (englisch: „advanced driver assistance system“, ADAS) verstanden werden, welches den Fahrer bei einer teilweise automatisierten oder teilautonomen Fahrt des Kraftfahrzeugs unterstützt. Insbesondere kann das elektronische Fahrzeugführungssystem zur Implementierung eines teilweise automatisierten oder teilautonomen Fahrmodus des Kraftfahrzeugs nach einer der Stufen 1 bis 4 gemäß der SAE J3016-Klassifizierung dienen. Hier und im Folgenden bezieht sich „SAE J3016“ auf die entsprechende Norm in der Version vom Juni 2018.
  • Die wenigstens teilweise automatische Fahrzeugführung kann es daher beinhalten, das Kraftfahrzeug gemäß eines vollautomatischen oder vollautonomen Fahrmodus der Stufe 5 nach SAE J3016 zu führen. Die wenigstens teilweise automatische Fahrzeugführung kann auch beinhalten, das Kraftfahrzeug gemäß eines teilweise automatisierten oder teilautonomen Fahrmodus nach einer der Stufen 1 bis 4 nach SAE J3016 zu führen.
  • Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren gezeigten Merkmale und Merkmalskombinationen können nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen von der Erfindung umfasst sein. Es sind insbesondere auch Ausführungen und Merkmalskombinationen von der Erfindung umfasst, die nicht alle Merkmale eines ursprünglich formulierten Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen von der Erfindung umfasst, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder von diesen abweichen.
  • In den Figuren zeigen:
    • 1 schematisch ein Fahrzeug mit einer beispielhaften Ausführungsform eines elektronischen Fahrzeugführungssystems gemäß der Erfindung;
    • 2 ein schematisches Blockdiagramm eines ANN gemäß einer beispielhaften Ausführungsform eines computerimplementierten Verfahrens gemäß der Erfindung;
    • 3 ein schematisches Blockdiagramm eines Teils eines ANN gemäß einer beispielhaften Ausführungsform eines erfindungsgemäßen computerimplementierten Verfahrens;
    • 4 ein schematisches Blockdiagramm eines Teils eines ANN gemäß einer beispielhaften Ausführungsform eines computerimplementierten Verfahrens gemäß der Erfindung
    • 5 schematisch ein GAN;
    • 6 schematisch eine Trainingsphase zum Trainieren eines Diskriminatormoduls eines GAN; und
    • 7 schematisch eine Trainingsphase zum Trainieren eines Generatormoduls eines GAN.
  • In 1 ist ein Fahrzeug 1 mit einer beispielhaften Ausführungsform eines elektronischen Fahrzeugführungssystems 9 gemäß der Erfindung schematisch dargestellt.
  • Das elektronische Fahrzeugführungssystem 9 enthält eine Vielzahl von Kameras 2a, 2b, 2c, die an verschiedenen Positionen des Fahrzeugs 1 angeordnet sind. In dem nicht einschränkenden Beispiel von 1 sind eine erste Seitenkamera 2a, eine zweite Seitenkamera 2b und eine Rückkamera 2c dargestellt. Die Anzahl und genauen Positionen der in 1 gezeigten Kameras sind jedoch nicht einschränkend für die Erfindung. Jede der Kameras 2a, 2b, 2c hat ein entsprechendes Sichtfeld 3a, 3b, 3c, die sich teilweise überschneiden können, aber nicht müssen. Im Allgemeinen deckt die Kombination der einzelnen Sichtfelder 3a, 3b, 3c die Umgebung des Fahrzeugs 1 nicht vollständig ab. Mit anderen Worten, es können ein oder mehrere blinde Flecken 5a, 5b existieren, die Bereichen in der Umgebung des Fahrzeugs 1 entsprechen, die in keinem der Sichtfelder 3a, 3b, 3c der Kameras 2a, 2b, 2c liegen.
  • Das elektronische Fahrzeugführungssystem 9 enthält auch wenigstens ein Umfeldsensorsystem, zum Beispiel eines oder mehrere Lidarsysteme 4a, 4b und/oder eines oder mehrere Radarsysteme 6. Im Beispiel von 1 sind zwei Lidarsysteme 4a, 4b dargestellt, die nahe den seitlichen Enden am hinteren Ende des Fahrzeugs 1 angebracht sind. Weiterhin ist ein Radarsystem 6 dargestellt, das am hinteren Ende des Fahrzeugs 1 montiert ist. Auch in Bezug auf die Umfeldsensorsysteme 4a, 4b, 6 ist die dargestellte Anzahl und Anordnung am Fahrzeug 1 nicht einschränkend für die Erfindung.
  • Beispielsweise können die Umfeldsensorsysteme 4a, 4b, 6 so angeordnet sein, dass sie zumindest einen Teil der blinden Flecken 5a, 5b abdecken. Im Beispiel von 1 können die Lidar-Systeme 4a, 4b jeweils Sichtfelder haben, die die jeweiligen blinden Flecken 5a, 5b abdecken.
  • Das Sichtfeld 7 des Radarsystems 6 kann sich zum Beispiel mit dem Sichtfeld 3c der nach hinten gerichteten Kamera 2c überschneiden.
  • Das elektronische Fahrzeugführungssystem 9 beinhaltet ferner wenigstens eine Recheneinheit 8, die beispielsweise als Teil eines elektronischen Steuergeräts, ECU, des Fahrzeugs 1 implementiert sein kann oder eine oder mehrere ECUs beinhalten kann. Die wenigstens eine Recheneinheit 8 beinhaltet eine Speichereinrichtung (nicht dargestellt), die ein trainiertes künstliches neuronales Netzwerk, ANN, 10, speichert.
  • Das elektronische Fahrzeugführungssystem 9 ist dazu eingerichtet, ein erfindungsgemäßes Verfahren zur zumindest teilweise automatischen Führung des Fahrzeugs 1 durchzuführen. Zu diesem Zweck erzeugen die Kameras 2a, 2b, 2c jeweils Kamerabilder 14 und stellen diese der wenigstens einen Recheneinheit 8 zur Verfügung. Ferner erzeugen die Umfeldsensorsysteme 4a, 4b, 6 jeweils einen Satz von Umfeldsensordaten 15 und stellen diese der wenigstens einen Recheneinheit 8 zur Verfügung. Beispielsweise kann das Radarsystem 6 eine Radartiefenkarte als jeweilige Umfeldsensordaten 15 erzeugen und die Lidarsysteme 4a, 4b können jeweilige dreidimensionale Punktwolken als jeweilige Umfeldsensordaten 15 erzeugen. Aufgrund der oben beschriebenen Anordnung der Kameras 2a, 2b, 2c und der Umfeldsensorsysteme 4a, 4b, 6 können die Umfeldsensordaten 15 Informationen über ein Objekt enthalten, das von den Kameras 2a, 2b, 2c nicht abgebildet werden kann. Das Objekt oder ein Teil des Objekts kann beispielsweise innerhalb eines der blinden Flecken 5a, 5b liegen und durch die mittels der Lidarsysteme 4a, 4b erzeugten Umfeldsensordaten 15 dargestellt werden. Alternativ kann das Objekt im Sichtfeld 3c der nach hinten gerichteten Kamera 2c liegen, aber durch ein anderes Objekt in diesem Sichtfeld 3c verdeckt sein. Da das Radarsystem 6 zumindest teilweise durch das verdeckende Objekt sehen kann, können seine jeweiligen Umfeldsensordaten 15 das verdeckte Objekt darstellen.
  • Für das Verfahren zur zumindest teilautomatischen Führung des Fahrzeugs 1 führt die wenigstens eine Recheneinheit 8 ein erfindungsgemäßes computerimplementiertes Verfahren zur Kombination von Kamerainformationen und weiteren Informationen der Umfeldsensordaten 15 durch, insbesondere eine Ausführungsform des computerimplementierten Verfahrens, bei der das ANN 10 bereits trainiert ist. Als Ergebnis des computerimplementierten Verfahrens erzeugt die wenigstens eine Recheneinheit 8 eine kombinierte visuelle Darstellung 16 der Kamerainformationen und der weiteren Informationen der Umfeldsensordaten 15. Die kombinierte visuelle Darstellung 16 kann beispielsweise auf eine vordefinierte Render-Oberfläche gerendert und auf einer Anzeigevorrichtung (nicht dargestellt) angezeigt werden, um einen Fahrer des Fahrzeugs 1 zu unterstützen.
  • Alternativ oder zusätzlich kann die wenigstens eine Recheneinheit 8 einen Objekterkennungsalgorithmus, einen schematischen Segmentierungsalgorithmus oder einen anderen Algorithmus zur automatischen visuellen Wahrnehmung basierend auf der kombinierten visuellen Darstellung 16 durchführen. Die aus dem Algorithmus zur automatischen visuellen Wahrnehmung gewonnenen Ergebnisse können dann von einer Steuereinheit (nicht dargestellt) des elektronischen Fahrzeugführungssystems 9, insbesondere der wenigstens einen Recheneinheit 8, verwendet werden, um wenigstens ein Steuersignal für wenigstens einen Aktuator (nicht dargestellt) des Fahrzeugs 1 zur automatischen oder teilweise automatischen Führung des Fahrzeugs 1 zu erzeugen.
  • Im Folgenden wird das computerimplementierte Verfahren anhand der 2 bis 4, 6 und 7 näher erläutert. Darin zeigt 2 ein schematisches Blockdiagramm des ANN 10 während der Inferenzphase oder, mit anderen Worten, nachdem das Training des ANN 10 abgeschlossen ist. 3 und 4 zeigen jeweilige Trainingsphasen eines Trainingsverfahrens zum Trainieren des ANN 10, das auch Teil des erfindungsgemäßen computerimplementierten Verfahrens sein kann. 6 und bis 7 zeigen Aspekte des Trainings eines generativen adversen Netzwerks, GAN, 13.
  • Das ANN 10 in 2 beinhaltet drei Hauptblöcke. Der erste Block ist durch ein Formkonstruktionsmodul 11 gegeben, der zweite Block durch einen okklusionsgeführten Formkonstruktionsblock 12 und der dritte Block durch ein trainiertes GAN 13.
  • Das Formkonstruktionsmodul 11 empfängt die Umfeldsensordaten 15 und wandelt sie in ein zweidimensionales initiales Bild 17 um, indem es ein trainiertes Bildkonstruktionssubmodul 22 des Formkonstruktionsmoduls 11 auf die Umfeldsensordaten 15 anwendet, um eine durch maschinelles Lernen trainierte Regressionsoperation durchzuführen. Das initiale Bild 17 kann auch als Tiefenbild erachtet werden und entspricht einem einkanaligen Bild, das Objektinformationen bezüglich beliebiger Objekte in den Sichtfeldern der Umfeldsensorsysteme 4a, 4b, 6 enthält. Ein Formregressionssubmodul 23 des Formkonstruktionsmoduls 11 empfängt das initiale Bild 17 und konstruiert die Form der Objekte im initialen Bild 17, indem es das initiale Bild 17 durch ein Encoder-Modul 23a und anschließend durch ein Decoder-Modul 23b des Formregressionssubmoduls 23 leitet. Als Ergebnis erhält man ein verbessertes Bild 18, das auch als formkonstruiertes Bild bezeichnet werden kann.
  • Im Allgemeinen kann das Encoder-Modul 23a eine Reihe von Faltungsschichten zur tiefen Merkmalsextraktion beinhalten. Je mehr Schichten das Encoder-Modul 23a hat, desto besser sind die Merkmale für die Formkonstruktion geeignet. Das Decoder-Modul 23b beinhaltet eine oder mehrere Entfaltungsschichten, um das formkonstruierte Bild oder das verbesserte Bild 18 zu rekonstruieren. Der Typ des Encoder-Moduls 23a und der Typ des Decoder-Moduls 23b können basierend auf den Beschränkungen der wenigstens einen Recheneinheit 8 und der entsprechenden eingebetteten Plattform ausgewählt werden. Beispielsweise können Standard-Encoder-Familien wie ResNet, VGG, Inception et cetera für diese Aufgabe verwendet werden.
  • Ein Maskierungsmodul 24 des okklusionsgesteuerten Formkonstruktionsblocks 12 empfängt das initiale Bild 17 und die Kamerabilder 14 als Eingabe und erzeugt eine Maskenmerkmalskarte 19 basierend auf der Eingabe. In alternativen Ausführungsformen kann das Maskierungsmodul 24 statt des initialen Bildes 17 zusammen mit den Kamerabildern 14 das verbesserte Bild 18 zusammen mit den Kamerabildern 14 als Eingabe erhalten.
  • Die Maskenmerkmalskarte 19 gibt für jeden Bildpunkt des initialen Bildes 17 an, ob das wenigstens eine Kamerabild 14 einen entsprechenden Kamerabildpunkt enthält. Das Maskierungsmodul 24 ist dazu trainiert, die Maskenmerkmalskarte 19 mit der gleichen räumlichen Dimension wie das initiale Bild 17 zu erzeugen. Die Bildpunkte des initialen Bildes 17, deren korrespondierende Kamerabildpunkte in dem wenigstens einen Kamerabild 14 vorhanden sind, werden in der Maskenmerkmalskarte mit einem höheren Wert, beispielsweise 1 oder einem von null verschiedenen Wert zwischen 0 und 1, dargestellt, während die restlichen Punkte, also Punkte, die keine korrespondierenden Kamerabildpunkte in dem wenigstens einen Kamerabild 14 haben, mit einem vordefinierten kleinen Wert, beispielsweise 0, dargestellt werden. Diese Information kann beispielsweise in einem ersten Kanal der Maskenmerkmalskarte 19 enthalten sein. Der erste Kanal des Maskenmerkmalsplans 19 kann also die Information enthalten, welche Bildpunkte des initialen Bildes 17 innerhalb der blinden Flecken 5a, 5b liegen oder durch andere verdeckende Objekte verdeckt sind.
  • Zusätzlich zum ersten Kanal kann das Maskenmerkmalabbild 19 beispielsweise wenigstens einen weiteren Kanal, beispielsweise drei weitere Kanäle, beinhalten, die Farbinformationen für die jeweiligen Bildpunkte enthalten, für die die Farbinformationen aus dem wenigstens einen Kamerabild 14 verfügbar sind. Mit anderen Worten ist für jeden Bildpunkt des initialen Bildes 17, für den ein entsprechender Kamerabildpunkt in dem wenigstens einen Kamerabild 14 verfügbar ist, die Farbinformation in dem wenigstens einen weiteren Kanal gespeichert. Für die restlichen Punkte kann in dem wenigstens einen weiteren Kanal ein vordefinierter Standardwert, zum Beispiel 0, gespeichert werden.
  • Es wird darauf hingewiesen, dass in Ausführungsformen, in denen das Maskierungsmodul 24 das verbesserte Bild 18 anstelle des initialen Bildes 17 empfängt, die entsprechenden Bildpunkte des verbesserten Bildes 18 anstelle der Bildpunkte des initialen Bildes 17 berücksichtigt werden. Das verbesserte Bild 18 ist jedoch ein einkanaliges Bild mit einer räumlichen Dimension, die der räumlichen Dimension des initialen Bildes 17 entspricht.
  • Das GAN 13 erhält eine Eingabe, die von der Maskenmerkmalskarte 19 und dem verbesserten Bild 18 abhängt. Basierend auf dieser Eingabe erzeugt das GAN 13, insbesondere ein Generatormodul 13a des GAN 13, die kombinierte visuelle Darstellung 16 der durch das wenigstens eine Kamerabild 14 gegebenen Kamerainformationen und der durch die Umfeldsensordaten 15 gegebenen weiteren Informationen.
  • Der okklusionsgeführte Formkonstruktionsblock 12 kann beispielsweise ein weiteres Regressionsmodul 25 beinhalten, das ein erstes Encoder-Modul 25a enthält, das das verbesserte Bild 18 als Eingabe erhält, und ein zweites Encoder-Modul 25b, das die Maskenmerkmalskarte 19 als Eingabe erhält. Die Encoder-Module 25a, 25b wandeln ihre jeweiligen Eingänge in eine entsprechende niederdimensionale Darstellung um, die dann einem gemeinsamen Decoder-Modul 25c des weiteren Regressionsmoduls 25 zugeführt wird. Die jeweiligen Ausgaben der Encoder-Module 25a, 25b können vor dem Eintritt in das Decoder-Modul 25c fusioniert werden.
  • Das weitere Regressionsmodul 25 ist dazu trainiert, die Form und den Typ der im verbesserten Bild 18 dargestellten Objekte zu verstehen und erzeugt zwei Bilder als Ausgabe. Mit anderen Worten, das verbesserte Bild 18 wird in einen ersten Teil 20 und einen zweiten Teil 21 aufgeteilt, die der Ausgabe des Decoder-Moduls 25c entsprechen. Der erste Teil 20 enthält die Objektinformationen in einem ersten Kanal und Farbinformationen in wenigstens einem weiteren Kanal und der zweite Teil 21 enthält nur die Objektinformationen aus dem verbesserten Bild 18. Mit anderen Worten entspricht der erste Teil 20 des aufgeteilten verbesserten Bildes 18 den Bildpunkten des verbesserten Bildes 18, zu denen das wenigstens eine Kamerabild 14 die entsprechenden Kamerabildpunkte enthält, und den jeweiligen Farbinformationen. Der zweite Teil 21 des aufgeteilten verbesserten Bildes 18 entspricht den Bildpunkten, für die das wenigstens eine Kamerabild 14 keine entsprechenden Kamerabildpunkte beinhaltet und somit keine entsprechenden Farbinformationen vorhanden sind.
  • Das GAN 13 ist zum Beispiel dazu trainiert, die besten Farbinformationen der Objekte im verdeckten Bereich oder in den Bereichen der blinden Flecken 5a, 5b zu finden, indem es den lokalen Kontext von Farben und Objekten im ersten Teil 20 des aufgeteilten verbesserten Bildes 18 versteht. Auf diese Weise werden die Informationen des ersten und des zweiten Teils 20, 21 kombiniert, um ein lokales kontextbewusstes adversarial geführtes Rendern auf einer Render-Oberfläche, zum Beispiel einer schalenförmigen Oberfläche, zu erreichen.
  • Zum Training des ANN 10 vor den in 2 beschriebenen Schritten kann ein zweiphasiger Trainingsansatz verfolgt werden, wie er in 3 und 4 schematisch dargestellt ist. In einer ersten Trainingsphase werden das Formkonstruktionsmodul 11 und der okklusionsgeführte Formkonstruktionsblock 12 trainiert, insbesondere in einer überwachten Weise, wie in 3 dargestellt. Danach wird in einer zweiten Trainingsphase das GAN 13 trainiert, wie in 4 dargestellt.
  • Die Erläuterungen zu 2 übertragen sich analog auf 3 für die erste Trainingsphase. Dabei sind die Umfeldsensordaten 15 und das wenigstens eine Kamerabild 14 durch einen entsprechenden Trainingssatz von Umfeldsensordaten 15' und entsprechenden Trainingskamerabildern 14' ersetzt. Folglich sind auch das initiale Bild 17, das verbesserte Bild 18, die Maskenmerkmalskarte 19 und die Teile 20, 21 des verbesserten Bildes 18 durch entsprechende Trainingsversionen 17', 18', 19', 20', 21' ersetzt.
  • Während der zweiten Trainingsphase, wie in 4 dargestellt, werden weitere Trainingskamerabilder 14" und weitere Trainingssätze von Umfeldsensordaten 15" verwendet, um entsprechende Teile 20", 21" des aufgeteilten verbesserten Bildes auf analoge Weise als Eingabe für das Training des GAN 13 zu erzeugen. Während der zweiten Trainingsphase kann jedoch eine Ground Truth der Farbinformationen für die verdeckten Bereiche oder die Bereiche der blinden Flecken 5a, 5b nicht verfügbar sein. Daher wird der erste Teil 20" des aufgeteilten verbesserten Bildes für das Training des GAN verwendet, während der zweite Teil 21" nicht verwendet wird. Stattdessen wird ein dritter Teil 20''' erzeugt, indem nur der erste Kanal des ersten Teils 20" ohne die entsprechenden Farbinformationen genommen wird. Dann wird der dritte Teil 20''' für das Training eines GAN 13 anstelle des zweiten Teils 21" verwendet.
  • Wie in 5 bis 7 schematisch dargestellt, hat ein GAN 13 grundsätzlich zwei Komponenten, nämlich ein Generatormodul 13a und ein Diskriminatormodul 13b. Das Generatormodul 13a ist im Grunde ein Subnetz, das neue Dateninstanzen erzeugt, und das Diskriminatormodul 13b bewertet die Authentizität der Instanzen. Das Generatormodul 13a kann eine zufällige Eingabe annehmen und versuchen, ein Sample von Daten zu erzeugen. Diese Daten werden an das Diskriminatormodul 13b weitergeleitet. Die Aufgabe des Diskriminatormoduls 13b ist es, Eingaben entweder aus dem realen Datensatz oder aus dem Generatormodul 13a zu erhalten und zu versuchen, vorherzusagen, ob die Eingabe real oder von dem Generatormodul 13a erzeugt ist. Es kann dann ein binäres Klassifikationsproblem lösen, indem es zum Beispiel eine Sigmoidfunktion verwendet, die eine Ausgabe im Bereich von 0 bis 1 liefert.
  • Für das Training des GAN 13 kann zunächst das Generatormodul 13a eingefroren werden, während das Diskriminatormodul 13b für eine Anzahl von Trainingsepochen trainiert wird, wie in 6 dargestellt. In 6 nimmt das Diskriminatormodul 13b entweder die reale Eingabe 26 oder die von dem Generatormodul 13a erzeugte Eingabe 27 auf. Dann wird, wie in 7 skizziert, das trainierte Diskriminatormodul 13b zum Trainieren des Generatormoduls 13a verwendet.
  • Auch während der Inferenz kann die Ausgabe des Generatormoduls 13a in einigen Ausführungsformen in das Diskriminatormodul 13b eingegeben werden, um hinsichtlich ihrer Akzeptanz bewertet zu werden. Wenn das Diskriminatormodul 13b die Ausgabe des Generatormoduls 13a verwirft, kann das Generatormodul 13a eine verfeinerte Ausgabe mit einer verbesserten Qualität erzeugen, wie in 5 schematisch dargestellt.
  • Zum Testen der erfinderischen Ideen wurde das ANN 10 mit Lidar- und Radardaten sowie Kamerabildern verschiedener Städte, Umgebungen, Wetter- und Lichtverhältnisse trainiert. Die Ground Truth für die Lidar- und Radardaten sowie die Kamerabilder waren verfügbar. Es wurde eine Kombination aus mehreren Verlustfunktionen verwendet, die auf die spezifischen Aufgaben des ANN 10 abgestimmt sind.
  • Das Untermodul 22 zur Bildkonstruktion erzeugt das initiale Bild 17' als Merkmalskarte, die die Lidar- und Radardaten repräsentiert. Zur Berechnung des Fehlers stehen mehrere bekannte Regressionsverlustfunktionen zur Verfügung. Zum Beispiel kann ein pixelweiser mittlerer quadratischer Fehler verwendet werden. Die entsprechende Verlustfunktion kann dann gegeben sein durch: L 22 = 1 n i = 0 n 1 ( y i - y ^ i ) 2
    Figure DE102022105267A1_0001
    wobei n die Anzahl der Bildpunkte des initialen Bildes 17' ist, yi den vorhergesagten Punkt und ŷi den entsprechenden Ground-Truth-Punkt darstellt.
  • Das Formregressionssubmodul 23 konstruiert die Form eines Objekts, was dabei hilft, den Kontext des Objekts zu verstehen. Es sind mehrere bekannte Verlustfunktionen verfügbar. Die beste Verlustfunktion kann durch Experimente mit mehreren Funktionen ausgewählt werden. Die entsprechende Verlustfunktion kann mit L23 bezeichnet werden.
  • Wie oben beschrieben, erzeugt der okklusionsgeführte Formkonstruktionsblock 12 zwei Teile 20', 21' als jeweilige Bilder. Der erste Teil 20' enthält sowohl Objektinformationen als auch entsprechende Farbinformationen und der zweite Teil 21' enthält Objektinformationen, aber keine Farbinformationen. Es gibt mehrere bekannte Verlustfunktionen. Die beste Verlustfunktion kann durch Experimente mit mehreren Funktionen ausgewählt werden. Die entsprechende Verlustfunktion kann mit L12 bezeichnet werden.
  • Wie oben beschrieben, erzeugt das GAN 13, das als lokaler kontextbewusster, adversarial geführter Schalenansicht-Render-Block betrachtet werden kann, ein Farbbild basierend auf der bereitgestellten Eingabe. Es sind mehrere bekannte Verlustfunktionen nach dem Stand der Technik verfügbar. Die beste Verlustfunktion kann durch Experimente mit mehreren Funktionen ausgewählt werden. Die entsprechende adverse Verlustfunktion kann mit L13 bezeichnet werden.
  • Der Gesamtverlust kann als gewichtete Summe der Einzelverluste wie folgt berechnet werden: L = a * L 22 + b * L 23 + c * L 12 + d * L 13
    Figure DE102022105267A1_0002
    wobei a, b, c und d entsprechende Gewichtungsfaktoren sind.
  • Wie insbesondere unter Bezugnahme auf die Figuren beschrieben, ermöglicht die Erfindung eine automatische Kombination von Kamerainformationen mit anderen Umfeldsensordaten, insbesondere für automatisiertes Fahren und/oder Fahrerassistenzfunktionen.
  • Mit dem Trend zu zentralisierten Domain Controllern stehen Umfeldsensorsysteme wie Lidar-Systeme und Radar-Systeme zur Verfügung und können daher genutzt werden, um die potenziellen Nachteile von Kamerasystemen zu verbessern. Insbesondere Probleme mit blinden Flecken des gemeinsamen Kamera-Sichtfeldes, insbesondere bei Verwendung von Lochkameras oder geradlinigen Kameras anstelle von Fischaugenkameras, können überwunden werden. Einige Ausführungsformen bieten eine erhöhte Flexibilität für einen Benutzer, um die Szene auch mit verdeckten Objekten zu visualisieren.
  • Das Sichtfeld von Kameras, insbesondere von Lochkameras im Vergleich zu Fischaugenkameras, ist begrenzt und kann zu blinden Flecken führen, zum Beispiel in einem Surround-View-System. Radarsysteme können in einigen Ausführungsformen verwendet werden, um virtuell durch Autos oder andere verdeckende Objekte hindurchzusehen, indem eine Radartiefenkarte verwendet wird, die für jedes verdeckende Objekt unterschiedlich sein kann. Diese Informationen können im Deep-Learning-Kontext verwendet werden, um die geometrischen Merkmale der verdeckten Objekte zu verstehen. Lidar-Systeme können eine große Reichweite aufweisen und somit die Reichweite von Kamerasystemen erheblich erweitern. Deep-Learning-Ansätze, wie beschrieben, können von teilweise sichtbaren und teilweise verdeckten Objekten extrapolieren, um Daten zu generieren, die eine Vorhersage des vollständigen Objekts ermöglichen.
  • Die Erfindung bietet eine ganzheitliche Lösung, die Umfeldsensorsysteme nutzt, um die Reichweite von Kamerasystemen effektiv zu verbessern und Verdeckungen in einem Deep Learning Framework zu behandeln.

Claims (15)

  1. Computerimplementiertes Verfahren zum Kombinieren von Kamerainformationen, die durch wenigstens ein Kamerabild (14) gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten (15) gegeben sind, wobei die weiteren Informationen Informationen über wenigstens einen Teil eines Objekts beinhalten, der nicht durch das wenigstens eine Kamerabild (14) abgebildet wird, dadurch gekennzeichnet, dass - ein zweidimensionales weiteres Bild (17, 18) mittels eines Formkonstruktionsmoduls (11) eines trainierten künstlichen neuronalen Netzwerks, ANN, (10) in Abhängigkeit von den Umfeldsensordaten (15) erzeugt wird; - eine Maskenmerkmalskarte (19) erzeugt wird, indem ein Maskierungsmodul (24) des ANN (10) auf das wenigstens eine Kamerabild (14) und das weitere Bild (17, 18) angewendet wird, wobei die Maskenmerkmalskarte (19) für jeden Bildpunkt des weiteren Bildes (17, 18) angibt, ob das wenigstens eine Kamerabild (14) einen entsprechenden Kamerabildpunkt beinhaltet; und - eine kombinierte visuelle Darstellung (16) der Kamerainformation und der weiteren Information in Abhängigkeit von der Maskenmerkmalskarte (19) und dem weiteren Bild (17, 18) unter Verwendung eines generativen adversen Netzwerks, GAN, (13) des ANN (10) erzeugt wird.
  2. Computerimplementiertes Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass - die Maskenmerkmalskarte (19) derart erzeugt wird, dass sie einen ersten Kanal beinhaltet, der für jeden Bildpunkt des weiteren Bildes (17, 18) angibt, ob das wenigstens eine Kamerabild (14) den entsprechenden Kamerabildpunkt beinhaltet; - die Maskenmerkmalskarte (19) wenigstens einen weiteren Kanal beinhaltet, der für jeden Bildpunkt des weiteren Bildes (17, 18), für die der erste Kanal angibt, dass das wenigstens eine Kamerabild (14) den entsprechenden Kamerabildpunkt beinhaltet, Farbinformationen beinhaltet.
  3. Computerimplementiertes Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass - in Abhängigkeit von den Umfeldsensordaten (15) ein zweidimensionales initiales Bild (17) durch ein Bildkonstruktionsuntermodul (22) des Formkonstruktionsmoduls (11) erzeugt wird; und - ein verbessertes Bild (18) von einem Formregressionsuntermodul (23) des Formkonstruktionsmoduls (11) in Abhängigkeit von dem initialen Bild (17) erzeugt wird; - das weitere Bild (17, 18) durch das initiale Bild (17) oder das verbesserte Bild (18) gegeben ist; und - die kombinierte visuelle Darstellung (16) von dem GAN (13) in Abhängigkeit von dem verbesserten Bild (18) erzeugt wird.
  4. Computerimplementiertes Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass - das verbesserte Bild (18) durch ein weiteres Regressionsmodul (25) des ANN (10) in einen ersten Teil (20) und einen zweiten Teil (21) aufgeteilt wird; - der erste Teil (20) des aufgeteilten verbesserten Bildes (18) den Bildpunkten des verbesserten Bildes (18) entspricht, für die das wenigstens eine Kamerabild (14) die entsprechenden Kamerabildpunkte beinhaltet; - der zweite Teil (21) des aufgeteilten verbesserten Bildes (18) den Bildpunkten des verbesserten Bildes (18) entspricht, für die das wenigstens eine Kamerabild (14) keine entsprechenden Kamerabildpunkte enthält; und - die kombinierte visuelle Darstellung (16) von dem GAN (13) in Abhängigkeit von dem ersten Teil (20) des aufgeteilten verbesserten Bildes (18) und in Abhängigkeit von dem zweiten Teil (21) des aufgeteilten verbesserten Bildes (18) erzeugt wird.
  5. Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Umfeldsensordaten (15) Lidar-Sensordaten und/oder Radar-Sensordaten beinhalten.
  6. Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Erzeugen der kombinierten visuellen Darstellung (16) das Rendern eines Ausgabebildes auf einer vordefinierten Render-Oberfläche in Abhängigkeit von der Maskenmerkmalskarte (19) und dem weiteren Bild (17, 18) beinhaltet, wobei das Ausgabebild die Kamerainformationen und wenigstens den Teil des Objekts darstellt, der nicht durch das wenigstens eine Kamerabild (14) dargestellt wird.
  7. Computerimplementiertes Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass das Ausgabebild eine Vielzahl von Ausgabebildpunkten und entsprechende Farbinformationen für jeden der Ausgabebildpunkte beinhaltet.
  8. Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Trainieren des ANN (10) ein Trainingsverfahren durchgeführt wird, dadurch gekennzeichnet, dass - das Trainingsverfahren eine erste Trainingsphase aufweist, wobei das Formkonstruktionsmodul (11) und das Maskierungsmodul (24) während der ersten Trainingsphase in einer überwachten Weise trainiert werden; und - das Trainingsverfahren eine zweite Trainingsphase nach Abschluss der ersten Trainingsphase aufweist, wobei das GAN (13) während der zweiten Trainingsphase trainiert wird.
  9. Computerimplementiertes Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass während der zweiten Trainingsphase, - ein zweidimensionales weiteres Trainingsbild (17', 18') durch das trainierte Formkonstruktionsmodul (11) in Abhängigkeit von vordefinierten TrainingsUmfeldsensordaten (15') erzeugt wird; - eine Trainings-Maskenmerkmalskarte (19') erzeugt wird, indem das trainierte Maskierungsmodul (24) auf wenigstens ein vordefiniertes Trainingskamerabild (14') und das weitere Trainingsbild (17', 18') angewendet wird, wobei die Trainings-Maskenmerkmalskarte (19') für jeden Bildpunkt des weiteren Trainingsbildes (17', 18') angibt, ob das wenigstens eine Trainingskamerabild (14') einen entsprechenden Kamerabildpunkt beinhaltet; - ein zweidimensionales initiales Trainingsbild (17') durch das Bildkonstruktionsuntermodul (22) in Abhängigkeit von den Training-Umfeldsensordaten (15') erzeugt wird; - ein verbessertes Trainingsbild (18') durch das trainierte Formregressionsuntermodul (23) in Abhängigkeit von dem initialen Trainingsbild (17') erzeugt wird; - das weitere Trainingsbild (17', 18') durch das ursprüngliche Trainingsbild (17') oder das verbesserte Trainingsbild (18') gegeben ist; und - das GAN (13) in Abhängigkeit von Bildpunkten des verbesserten Trainingsbildes (18') trainiert wird, für die das wenigstens eine Trainingskamerabild (14) die entsprechenden Kamerabildpunkte enthält, und unabhängig von Bildpunkten des verbesserten Trainingsbildes (18'), für die das wenigstens eine Trainingskamerabild (14') keine entsprechenden Kamerabildpunkte enthält.
  10. Verfahren zur zumindest teilweisen automatischen Führung eines Fahrzeugs (1), wobei wenigstens ein Kamerabild (14) von einem Kamerasystem (2a, 2b, 2c) des Fahrzeugs (1) erzeugt werden und Umfeldsensordaten (15) von einem Umfeldsensorsystem (4a, 4b, 6) des Fahrzeugs (1) erzeugt werden, dadurch gekennzeichnet, dass - ein computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche durchgeführt wird, um eine kombinierte visuelle Darstellung (16) von Kamerainformationen des wenigstens einen Kamerabildes (14) und weiteren Informationen zu erzeugen, die durch die Umfeldsensordaten (15) gegeben sind und Informationen bezüglich wenigstens eines Teils eines Objekts enthalten, der nicht durch das wenigstens eine Kamerabild (14) dargestellt wird; und - die kombinierte visuelle Darstellung (16) auf einer Anzeigeeinrichtung des Fahrzeugs (1) zur Unterstützung eines Fahrers des Fahrzeugs (1) angezeigt wird und/oder wenigstens ein Steuersignal zur zumindest teilweise automatischen Führung des Fahrzeugs (1) in Abhängigkeit von der kombinierten visuellen Darstellung (16) erzeugt wird.
  11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass - ein Algorithmus zur automatischen visuellen Wahrnehmung von wenigstens einer Recheneinheit (8) des Fahrzeugs (1) basierend auf der kombinierten visuellen Darstellung (16) ausgeführt wird; und - das wenigstens eine Steuersignal in Abhängigkeit von einem Ergebnis des Algorithmus zur automatischen visuellen Wahrnehmung erzeugt wird.
  12. Elektronisches Fahrzeugführungssystem (9) für ein Fahrzeug (1) aufweisend - ein Kamerasystem (2a, 2b, 2c) zur Anbringung dem Fahrzeug (1), das dazu eingerichtet ist, wenigstens ein Kamerabild (14) zu erzeugen; - ein Umfeldsensorsystem (4a, 4b, 6) zur Anbringung an dem Fahrzeug (1), das dazu eingerichtet ist, Umfeldsensordaten (15) zu erzeugen; dadurch gekennzeichnet, dass - das elektronische Fahrzeugführungssystem (9) eine Speichervorrichtung, die ein trainiertes ANN (10) speichert, und wenigstens eine Recheneinheit (8) beinhaltet, die dazu eingerichtet ist, ein computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 7 auszuführen, um eine kombinierte visuelle Darstellung (16) von Kamerainformationen des wenigstens einen Kamerabildes (14) und weiteren Informationen zu erzeugen, die durch Umfeldsensordaten (15) gegeben sind und Informationen bezüglich wenigstens eines Teils eines Objekts enthalten, der nicht durch das wenigstens eine Kamerabild (14) dargestellt wird; und - das elektronische Fahrzeugführungssystem (9) - eine Anzeigevorrichtung beinhaltet und die wenigstens eine Recheneinheit (8) dazu eingerichtet ist, die kombinierte visuelle Darstellung (16) auf der Anzeigevorrichtung anzuzeigen; und/oder - eine Steuereinheit beinhaltet, die dazu eingerichtet ist, wenigstens ein Steuersignal zur zumindest teilweisen automatischen Führung des Fahrzeugs (1) in Abhängigkeit von der kombinierten visuellen Darstellung (16) zu erzeugen.
  13. Elektronisches Fahrzeugführungssystem (9) nach Anspruch 12, dadurch gekennzeichnet, dass das Umfeldsensorsystem (4a, 4b, 6) ein Lidarsystem (4a, 4b) und/oder ein Radarsystem (6) enthält.
  14. Elektronisches Fahrzeugführungssystem (9) nach einem der Ansprüche 12 oder 13, dadurch gekennzeichnet, dass das Kamerasystem (2a, 2b, 2c) wenigstens eine geradlinige Kamera (2a, 2b, 2c) beinhaltet.
  15. Computerprogrammprodukt aufweisend - erste Anweisungen, die, wenn sie von einem Computersystem ausgeführt werden, das Computersystem veranlassen, ein computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 9 auszuführen; und/oder - zweite Anweisungen, wenn sie durch ein elektronisches Fahrzeugführungssystem (9) nach einem der Ansprüche 12 bis 14 ausgeführt werden, das elektronische Fahrzeugführungssystem (9) dazu veranlassen, ein Verfahren nach einem der Ansprüche 10 oder 11 auszuführen.
DE102022105267.2A 2022-03-07 2022-03-07 Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind Pending DE102022105267A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102022105267.2A DE102022105267A1 (de) 2022-03-07 2022-03-07 Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind
PCT/EP2023/055257 WO2023169912A1 (en) 2022-03-07 2023-03-02 Combining camera information given by at least one camera image and further information given by environmental sensor data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102022105267.2A DE102022105267A1 (de) 2022-03-07 2022-03-07 Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind

Publications (1)

Publication Number Publication Date
DE102022105267A1 true DE102022105267A1 (de) 2023-09-07

Family

ID=85477918

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022105267.2A Pending DE102022105267A1 (de) 2022-03-07 2022-03-07 Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind

Country Status (2)

Country Link
DE (1) DE102022105267A1 (de)
WO (1) WO2023169912A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021000135T5 (de) 2020-06-25 2022-06-30 Nvidia Corporation Sensorfusion für anwendungen autonomer maschinen durch maschinelles lernen
WO2022175094A1 (en) 2021-02-18 2022-08-25 Volkswagen Aktiengesellschaft Apparatus, system and method for fusing sensor data to do sensor translation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220067983A1 (en) * 2020-08-28 2022-03-03 Nvidia Corporation Object image completion

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112021000135T5 (de) 2020-06-25 2022-06-30 Nvidia Corporation Sensorfusion für anwendungen autonomer maschinen durch maschinelles lernen
WO2022175094A1 (en) 2021-02-18 2022-08-25 Volkswagen Aktiengesellschaft Apparatus, system and method for fusing sensor data to do sensor translation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LYU, Yecheng [u.a.]: An interactive LiDAR to camera calibration. 06-03-2019. S. 1-6. Version 1, URL: https://arxiv.org/pdf/1903.02122 [abgerufen am 2022-04-07].

Also Published As

Publication number Publication date
WO2023169912A1 (en) 2023-09-14

Similar Documents

Publication Publication Date Title
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE102017203276B4 (de) Verfahren und Vorrichtung zur Ermittlung einer Trajektorie in Off-road-Szenarien
DE102019114622A1 (de) Erfassung und planare darstellung dreidimensionaler fahrspuren in einer strassenszene
DE112020001103T5 (de) Multitasking-Wahrnehmungsnetzwerk mit Anwendungen für ein Szenenverständnis und ein fortschrittliches Fahrerassistenzsystem
DE112017000342T5 (de) Fahrunterstützungsvorrichtung und fahrunterstützungsverfahren
DE102018100909A1 (de) Verfahren zum Rekonstruieren von Bildern einer Szene, die durch ein multifokales Kamerasystem aufgenommen werden
DE102019131971A1 (de) Ein Bildverarbeitungsmodul
DE112015000763T5 (de) Fahrzeugumgebungsbildanzeigevorrichtung undFahrzeugumgebungsbildanzeigeverfahren
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
DE102022105267A1 (de) Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind
EP3465608B1 (de) Verfahren und vorrichtung zum bestimmen eines übergangs zwischen zwei anzeigebildern, und fahrzeug
DE102020105070A1 (de) Verfahren zum Erkennen eines befahrbaren Bereichs in einer Umgebung eines Fahrzeugs mithilfe eines binären künstlichen neuronalen Netzes, Recheneinrichtung sowie Fahrerassistenzsystem
DE102021213756B3 (de) Verfahren zum Fusionieren von Sensordaten im Kontext eines künstlichen neuronalen Netzwerks
DE102022121839A1 (de) Texterkennung basierend auf einem verzeichneten Kamerabild
DE102022124384A1 (de) Automatische Umfeldwahrnehmung auf der Basis von multimodalen Sensordaten eines Fahrzeugs
DE102021213757B3 (de) Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks
WO2024041833A1 (de) Visuelle wahrnehmung mit einem fahrzeug basierend auf einem kamerabild und einer ultraschallkarte
EP3555808A1 (de) Vorrichtung zur bereitstellung einer verbesserten hinderniserkennung
DE102022119751A1 (de) Bestimmen eines Bereichs von Interesse aus Kamerabildern
DE102018130229B4 (de) Verfahren und Vorrichtung zur Objektextraktion aus eine dreidimensionale Szene darstellenden Szenenbilddaten
DE102022213414A1 (de) Fahrzeug, elektronische vorrichtung und steuerungsverfahren dafür
DE102021133878A1 (de) Bildkomprimierung mittels künstlicher neuronaler Netzwerke
DE102022121111A1 (de) Automatische visuelle Wahrnehmung mit einem Fahrzeug unter Verwendung einer Kamera und eines Ultraschallsensorsystems
DE102022124085A1 (de) Darstellung von Bilddaten in einem Fahrzeug abhängig von Sensordaten
DE102023209106A1 (de) System und Verfahren mit Maskierungs- und Inpainting-Strategie für generische Abwehr gegen Patch-Angriffe

Legal Events

Date Code Title Description
R163 Identified publications notified