DE102020211896A1 - Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung - Google Patents

Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung Download PDF

Info

Publication number
DE102020211896A1
DE102020211896A1 DE102020211896.5A DE102020211896A DE102020211896A1 DE 102020211896 A1 DE102020211896 A1 DE 102020211896A1 DE 102020211896 A DE102020211896 A DE 102020211896A DE 102020211896 A1 DE102020211896 A1 DE 102020211896A1
Authority
DE
Germany
Prior art keywords
image
kernel
images
surround view
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020211896.5A
Other languages
English (en)
Inventor
Deepanshu Makkar
Varun Vijaykumar
Markus Eich
Markus Friebe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Autonomous Mobility Germany GmbH
Original Assignee
Conti Temic Microelectronic GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conti Temic Microelectronic GmbH filed Critical Conti Temic Microelectronic GmbH
Priority to DE102020211896.5A priority Critical patent/DE102020211896A1/de
Publication of DE102020211896A1 publication Critical patent/DE102020211896A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/86Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving reduction of coding artifacts, e.g. of blockiness

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)

Abstract

Verfahren zur Erzeugung eines Bildes (23, 33, 43, 64b, 73) einer Fahrzeugumgebung eines Ego-Fahrzeuges (1), bei dem mehrere Surroundview-Kameras (3a-3d) zur Erfassung der Fahrzeugumgebung und Erzeugung eines Bildes (22, 32, 42, 64a, 72) vorgesehen sind, die Surroundview-Kameras (3a-3d) jeweils ein Fischaugenobjektiv aufweisen, und das von den Surroundview-Kameras (3a-3d) erzeugte Bild (22, 32, 42, 64a, 72), wobei das Bild (22, 32, 42, 64a, 72) in mehrere Unterbilder (25, 44) geteilt wird, und die Unterbilder (25, 44) mit verschiedenen Kernels mit jeweils festlegbaren Kernel-Werten (21, 51) konvolutiert werden, und das Bild (23, 33, 43, 64b, 73) aus den Unterbildern (25, 44) erzeugt wird.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren für ein Ego-Fahrzeug zur Erzeugung eines Bildes einer Fahrzeugumgebung des Ego-Fahrzeuges sowie ein Surroundview-System mit Surroundview-Kameras zur Erzeugung eines Bildes der Fahrzeugumgebung des Ego-Fahrzeuges anhand des erfindungsgemäßen Verfahrens.
  • Technologischer Hintergrund
  • Fahrzeuge werden zunehmend mit Fahrerassistenzsystemen ausgerüstet, welche den Fahrer bei der Durchführung von Fahrmanövern unterstützen. Diese Fahrerassistenzsysteme enthalten zum Teil Kamera-Surround-View-Systeme, die es erlauben, dem Fahrer des Fahrzeugs die Fahrzeugumgebung anzuzeigen. Derartige Kamera-Surround-View-Systeme umfassen mehrere Fahrzeugkameras, welche reale Bilder der Fahrzeugumgebung liefern, die insbesondere durch eine Datenverarbeitungseinheit des Kamera-Surround-View-Systems zu einem Umgebungsbild der Fahrzeugumgebung zusammengefügt werden. Das Bild der Fahrzeugumgebung wird dann dem Fahrer vorteilhafterweise auf einer Anzeigeeinheit angezeigt. Auf diese Weise kann der Fahrer bei einem Fahrzeugmanöver unterstützt werden, beispielsweise bei einem Rückwärtsfahren des Fahrzeuges oder bei einem Parkmanöver.
  • Bei modernen Surroundview-Kamerasystemen werden in der Regel Kameras mit Fischaugen (Fisheye)-Objektive eingesetzt, die großen Radialverzerrungen unterliegen und erfordern gute Verzerrungs-, Modellierungs- und Schätzverfahren für die Objektivkalibrierung und Bildkorrektur in der Computeransicht. Bekannte Algorithmen zur Kalibrierung von Radialverzerrungen in der Fischaugen-Linse besitzen bislang jedoch nicht die Korrekturleistung, um die Kompressionsartefakte auf der Peripherie des korrigierten Bildes vollständig zu entfernen. Zudem sind Nachbearbeitungsmethoden bekannt, wie z. B. interpolationsbasierte Techniken, rekonstruktionsbasierte Techniken und Techniken basierend auf neuronalen Netzen, durch die die Bildqualität des Bildes auf dem Peripheriegerät bzw. einer Anzeigevorrichtung verbessert werden kann, dennoch haben diese Methoden Probleme durch die nicht lineare Pixeldichte-Verteilung im Bild. Ferner können moderne neuronale Netze keine hochauflösenden Bilder ohne Komprimierungsartefakte rekonstruieren, wenn sie mit einem rektifiziertem Fischaugenbild versehen sind.
  • Die Bilder von Fischaugenkameras werden dabei nicht ausreichend genutzt. Zwar kann die komplette 180°-Sicht der jeweiligen Kamera auf dem Bildschirm dargestellt werden, jedoch erschweren die Komprimierungsartefakte dem Fahrer, die Eck-Bereiche des Bildes deutlich zu sehen.
  • Druckschriftlicher Stand der Technik
  • Aus der WO 2018 087 348 A1 ist ein Verfahren zur Bestimmung eines zusammengesetzten Bildes eines Umgebungsbereichs eines Kraftfahrzeugs bekannt, bei dem mindestens zwei Eingangsbilder von Fischaugen-Surroundview-Kameras empfangen werden, aus denen ein Eingangsbild zusammengesetzt wird. Zur Bestimmung des zusammengesetzten Bildes wird die Helligkeit und/oder die Farbe mindestens eines der Eingangsbilder eingestellt, wobei Histogramme ermittelt werden, die eine Luminanz und/oder eine Chrominanz der jeweiligen Eingangsbilder beschreiben, und die Helligkeit und/oder die Farbe des Eingangsbildes auf der Basis der Histogramme eingestellt wird.
  • Aufgabe der vorliegenden Erfindung
  • Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren für ein Surroundview-System sowie ein entsprechendes Surroundview-System zur Verfügung zu stellen, durch das eine höhere Bildqualität, insbesondere über das gesamte 180°-Sichtfeld, erzielt werden kann.
  • Lösung der Aufgabe
  • Die vorstehende Aufgabe wird durch die gesamte Lehre des Anspruchs 1 sowie der nebengeordneten Ansprüche gelöst. Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen beansprucht.
  • Bei dem erfindungsgemäßen Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung eines Ego-Fahrzeuges sind zunächst mehrere Surroundview-Kameras zur Erfassung der Fahrzeugumgebung und zur Erzeugung bzw. Aufnahme eines Bildes vorgesehen. Bei den Surroundview-Kameras handelt es sich um Fischaugenkameras, die jeweils zumindest ein Fischaugenobjektiv aufweisen. Das von den Surroundview-Kameras erzeugte bzw. aufgenommene Bild, d. h. das Bild einer der Surroundview-Kameras, wird in mehrere Unterbilder geteilt bzw. unterteilt, wobei die Unterbilder dann mit verschiedenen Kernels und mit festlegbaren, insbesondere verschiedenen, Kernel-Werten verschachtelt bzw. konvolutiert (im Sinne von (math.) gefaltet bzw. (engl.) convoluted) sind. Unter dem Begriff Kernel wird im Sinne der Erfindung wird insbesondere eine Zahlenmatrix verstanden, die über das ganze Bild hinweg angewendet wird, um das Bild als Ganzes zu verarbeiten. Ferner wird dann das finale Bild aus den einzelnen Unterbildern erzeugt bzw. zusammengesetzt. Die finalen Bilder der einzelnen Surroundview-Kameras können dann zu einem Surroundview-Gesamtbild zusammengesetzt werden („Rundumsicht“). Daraus resultiert der Vorteil, dass die Komprimierungsartefakte der einzelnen Bilder bzw. Aufnahmen in einfacher Weise kompensiert werden, sodass das letztendlich entzerrte Bild klarer am Bildschirm dargestellt werden kann. Beispielsweise kann eine Beschränkung des Sichtfeldes bzw. FOV (Field of View) von z. B. 120° bei einer Surroundview-Kamera kann auf ein höheres Sichtfeld ausgedehnt werden. Darüber hinaus weisen die erzeugten Bilder eine hohe Rekonstruktionsgenauigkeit und/oder Wahrnehmungsgenauigkeit auf.
  • Vorzugsweise handelt es sich bei dem erzeugten Bild um ein bereits rektifiziertes Bild, sozusagen ein entzerrtes Bild. Beispielsweise weist ein Fischaugenobjektiv eine radiale Verzerrung auf. Dieser Effekt der radialen Verzerrung wirkt sich dadurch aus, dass reale gerade Linien bzw. Objekte zu Kurven verzerrt und Punkte aus ihrer korrekten Position in radialer Richtung verschoben werden. Es ist daher wünschenswert, Fischaugenbilder in ihre annähernd geradlinigen Versionen zu korrigieren, bevor sie dem Endbetrachter präsentiert werden. Dieser Vorgang wird als Rektifizierung oder auch als Bildentzerrung bezeichnet.
  • In praktischer Weise kann das erzeugte Bild dabei vor der Teilung in mehrere Unterbilder anhand von Verzerrungs-, Modellierungs- und/oder Schätzverfahren korrigiert wird.
  • Vorzugsweise umfassen die Kernel-Werte die Kernel-Größe und den Kernel-Koeffizienten des jeweiligen Kernels. Alternativ oder zusätzlich können die Kernel-Werte auch noch weitere Eigenschaften bzw. Werte umfassen. Zudem umfasst der Begriff Kernel-Werte ausdrücklich auch eine Ausgestaltung der Kernel-Werte, bei der nur eine Eigenschaft bzw. ein Wert des Kernels betrachtet wird (d. h. gegebenenfalls nur die Kernel-Größe oder den Kernel-Koeffizienten des jeweiligen Kernels).
  • Zweckmäßigerweise können die Kernels unterschiedliche Kernel-Werte, d. h. beispielsweiseunterschiedliche Kernel-Größen und Kernel-Koeffizienten aufweisen. Die Berechnung bzw. Bilderzeugung kann dadurch in besonderem Maße vereinfacht werden.
  • Vorzugsweise sind die Kernel-Werte, insbesondere Kernel-Größe und der Kernel-Koeffizient, des jeweiligen Kernels unter Berücksichtigung bestimmter Eigenschaften festgelegt bzw. ergeben sich daraus. Insbesondere wird als Eigenschaft berücksichtigt, wie weit der Kernel zur Bildmitte beabstandet ist und/oder ob die Pixel in diesem Bereich des Bildes bzw. des Kernels über niederfrequente oder hochfrequente Informationen verfügen.
  • Zweckmäßigerweise können die Kernel-Werte, insbesondere die Kernel-Größe und/oder der Kernel-Koeffizienten, des jeweiligen Kernels geschätzt werden. Eine derartige Schätzung vereinfacht das Verfahren noch zusätzlich.
  • In bevorzugter Weise kann die Schätzung der Kernel-Werte oder einzelner Eigenschaften, insbesondere der Kernel-Größe und/oder des Kernel-Koeffizienten, anhand eines Künstlichen neuronalen Netzes erfolgen und anhand von maschinellem Lernen hergeleitet bzw. trainiert werden. Der Begriff „Machine learning (ML)“ bzw. „Maschinelles Lernen“ beschreibt dabei im Sinne der Erfindung das Verwenden von Algorithmen, um Daten zu analysieren, daraus zu lernen und dann eine Bestimmung oder Vorhersage über etwas (noch nicht sichtbares) zu treffen. Dabei kann das überwachte als auch das unüberwachte Lernen Anwendung finden. Für die Analyse der Daten ist unter anderem die Labelling-Strategie bzw. Etikettierung oder Beschriftung der Daten von entscheidender Bedeutung. Der Begriff „Training“ beschreibt im Sinne der Erfindung das Anpassen von Parametern eines Modells im Bereich des Maschinellen Lernens, derart, dass ein zuvor festgelegtes Fehlermaß für das angepasste Modell kleiner wird. Der Begriff „Artificial Neural Network“ (ANN) oder „Convolutional Neural Network“ (CNN) bzw. „Künstliche Neuronale Netze“ (KNN), umfasst Netze aus künstlichen Neuronen, welche in Hinblick auf ihre Informationsverarbeitung abstrahierend ausgedrückt wie in einem Nervensystem eines Lebewesens vernetzt sind. Hierbei können die Neuronen als Knoten und ihre Verbindungen als Kanten in einem Graphen dargestellt werden, wobei die hinterste (Knoten-) Schicht des Netzes als Ausgabeschicht („output layer“) und davorliegende (Knoten-) Schichten („nicht sichtbare“) als verdeckte Schichten („hidden layer“) bezeichnet werden. Derartige Künstliche neuronale Netze können vom Aufbau einschichtig (eine Ausgabeschicht), zweischichtig (eine Ausgabeschicht und eine verdeckte Schicht zur Verbesserung der Abstraktion) oder mehrschichtig (mindestens eine Ausgabeschicht sowie mehrere verdeckte Schichten zur Verbesserung der Abstraktion) sein. Zudem können diese in Hinblick auf ihre Datenübertragung vorwärtsgerichtet (feedforward) und/oder mit rückgerichteten Kanten (rekurrente Verbindungen) ausgestaltet sein (Rückkopplung; Feedbacknetz). Dadurch, dass die Schätzung der Kernel-Größe und/oder des Kernel-Koeffizienten anhand derartiger Methoden erfolgt, kann die Bilderzeugung noch zusätzlich verbessert werden. Insbesondere ist die vorliegende Erfindung nicht auf schlankere („Lean Neural Network“) oder tiefere neuronale Netze („Deep Neural Network“) beschränkt. Der vorgeschlagene Fischaugenblock ist mit anderen Super-Auflösung-Netzwerken („Super Resolution Network“) kompatibel.
  • Vorzugsweise wird bei dem neuronalen Netz auch eine Zuordnung zwischen hochauflösendem und niederauflösendem Bild mit Komprimierungsartefakten vorgenommen. Beispielsweise kann dies anhand eines FESRGAN („Fisheye Super-Resolution Generative Adversarial Network“) dargestellt werden, welches eine Erweiterung eines bekannten ESRGAN-Netzwerks („Enhanced Super-Resolution Generative Adversarial Network“) ist, wobei der Fischaugenblock in das ESRGAN-Netzwerk eingeführt wird. Herkömmliche ESRGAN Netzwerke, welche Stand der Technik für Bild Super Auflösung Verarbeitungen sind, sind nicht ohne Weiteres in der Lage, Superaufgelöste Bilder mit Kompressionsartefakten und Rauschen zu erzeugen. Demgegenüber kann das FERSGAN-Netzwerk auch mit Komprimierungsartefakten eine besonders gute Bildauflösung durchführen und somit bessere Ergebnisse erzielen. Das FERS-RGAN-Netzwerk besitzt dabei nicht nur eine bessere Rekonstruktionsgenauigkeit, sondern auch die wahrnehmbare Qualität des Bildes wird verbessert, was besonders für die Visualisierung von Nutzen ist.
  • Aus dem erzeugten bzw. aufgenommenen Bild wird sozusagen ein prädiziertes Bild mittels Konvolution unter Verwendung der jeweiligen Kernel-Größen und Kernel-Koeffizienten erstellt. Gemäß einer bevorzugten Ausgestaltung wird dann validiert, ob das prädizierte Bild nun realistischer ist als das aufgenommene Bild. Sofern dann das prädizierte Bild realistischer ist als das aufgenommene Bild wird das prädizierte Bild als hochaufgelöstes Bild ausgegeben.
  • In vorteilhafter Weise kann die Konvolution anhand einer 2D-Konvolution und/oder einer 3D-Konvolution erfolgen bzw. die Unterbilder werden anhand einer 2D-Konvolution und/oder einer 3D-Konvolution konvolutiert.
  • Neben- oder untergeordnet beansprucht die vorliegende Erfindung auch ein Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung eines Ego-Fahrzeuges, welches mehrere Surroundview-Kameras zur Erfassung der Fahrzeugumgebung es Ego-Fahrzeuges aufweist und bei dem zur Erzeugung eines Bildes der Fahrzeugumgebung das erfindungsgemäße Verfahren Anwendung findet. Zur Ausführung des Verfahrens weist das System zudem eine Steuereinrichtung auf, die insbesondere die Daten der Surroundview-Kamers erfassen und verarbeiten kann. Vorzugsweise kann diese Steuereinrichtung auch andere Funktionen bzw. Assistenzfunktionen ausführen und hierzu auf andere Aktoren und Sensoren des Ego-Fahrzeuges zugreifen.
  • Figurenliste
  • Im Folgenden wird die Erfindung anhand von zweckmäßigen Ausführungsbeispielen näher beschrieben. Es zeigen:
    • 1 eine vereinfachte schematische Darstellung eines Ego-Fahrzeuges mit einem erfindungsgemäßen Surroundview-System zur Erzeugung eines Bildes der Fahrzeugumgebung;
    • 2 eine vereinfachte schematische Darstellung eines erzeugten Bildes, welches in Unterbilder unterteilt wird, die in verschiedene Kernels umgewandelt werden, um ein hochaufgelöstes Ausgabebild zu erzeugen;
    • 3 eine vereinfachte schematische Darstellung des erfindungsgemäßen Verfahrensablaufs;
    • 4 eine vereinfachte schematische Darstellung einer Optimierungstechnik einzelner Bilder anhand des erfindungsgemäßen Algorithmus;
    • 5 eine vereinfachte schematische Darstellung einer Ausgestaltung der Architektur des erfindungsgemäßen Algorithmus;
    • 6 eine vereinfachte schematische Darstellung des Modellierungsablaufs des Modells aus 5, sowie
    • 7 eine vereinfachte schematische Darstellung einer Ausgestaltung der Architektur des FESRGAN-Netzwerks.
  • Bezugsziffer 1 in 1 bezeichnet ein Ego-Fahrzeug mit einer Steuereinrichtung 2 (ECU, Electronic Control Unit oder ADCU, Assisted and Automated Driving Control Unit), welche auf verschiedene Aktoren (z. B. Lenkung, Motor, Bremse) des Ego-Fahrzeuges 1 zugreifen kann, um Steuervorgänge des Ego-Fahrzeuges 1 ausführen zu können. Ferner weist das Ego-Fahrzeug 1 zur Umfelderfassung mehrere Surroundview-Kameras 3a-3d, eine Frontkamera 4 und einen Lidarsensor 5 auf. Darüber hinaus können auch weitere Sensoren, wie z. B. Radar- oder Ultraschallsensoren vorgesehen sein. Die Sensordaten können dann zur Umfeld- und Objekterkennung genutzt werden. Infolgedessen können verschiedene Assistenzfunktionen, wie z. B. Einparkassistenten, Notbremsassistent (EBA, Electronic Brake Assist), Abstandsfolgeregelung (ACC, Automatic Cruise Control), Spurhalteregelung bzw. ein Spurhalteassistent (LKA, Lane Keep Assist) oder dergleichen, realisiert werden. In praktischer Weise kann die Ausführung der Assistenzfunktionen ebenfalls über die Steuereinrichtung 2 oder eine eigene Steuereinrichtung erfolgen.
  • Die Surroundview-Kameras 3a-3d sind dabei Teil eines Surroundview-Systems, welches vorzugsweise durch die Steuereinrichtung 2 gesteuert wird (alternativ kann z. B. eine eigene Steuerung vorgesehen sein), das eine vollständige 360-Grad-Sicht rund um das gesamte Ego-Fahrzeug 1 bietet, indem die Sichtfelder der einzelnen Surroundview-Kameras, z. B. 120-Grad, zu einer Gesamtsicht bzw. Gesamtbild vereint werden. Durch die einfache Überwachung des toten Winkels besitzt dieses Kamerasystem zahlreiche Vorteile in vielen alltäglichen Situationen. Durch das Surroundview-System können dem Fahrer verschiedene Blickwinkel des Ego-Fahrzeuges 1 z. B. über eine Anzeigeeinheit (in 1 nicht gezeigt) dargestellt werden. In der Regel werden dabei 4 Surroundview-Kameras 3a-3d verwendet, die z. B. im Front- und Heckbereich sowie an den Seitenspiegeln angeordnet sind. Zudem können aber auch 3, 6, 8, 10 Surroundview-Kameras vorgesehen sein. Besonders hilfreich sind diese Kameraansichten bzw. Blickwinkeln beim Überprüfen des toten Winkels, beim Spurwechsel oder beim Einparken.
  • Die Surroundview-Kameras 3a-3d weisen Fischaugen (Fisheye)-Objektive auf, welche großen Radialverzerrungen unterliegen und somit Verzerrungs-, Modellierungs- und Schätzverfahren für die Objektivkalibrierung und Bildkorrektur in der Computeransicht erfordern, d. h. das aufgenommene Bild wird korrigiert. Das korrigierte Bild enthält dabei Komprimierungsartefakte und wird erfindungsgemäß verbessert, indem das Bild in mehrere Unterbilder geteilt wird. Diese Unterbilder können dann in verschiedenen Kernels umgewandelt werden. Der jeweilige Kernel kann dabei unterschiedliche Kernel-Größen und Kernel-Koeffizienten aufweisen, wie in 2 anhand der Kernel-Werte 21 dargestellt, abhängig davon, wie weit der Abstand der Pixel zur Bildmitte des aufgenommenen Bildes 22 ist und ob die Pixel in diesem Bereich über niederfrequente oder hochfrequente Informationen verfügen. Beispielsweise sind die peripheren Bildbereiche 22a und 22c weiter von der Bildmitte beabstandet und weisen eine niedrige Pixeldichte auf. Demgegenüber ist der zentrale Bildbereich 22b nicht wesentlich von der Bildmitte beabstandet und weist eine hohe Pixeldichte auf. Dementsprechend können dann die Kernel-Werte 21 angepasst werden. In 2 werden z. B. die Pixel 24a der ersten (oben) und Pixel 24c der letzten Reihe (unten) aus Bereich 22a bzw. 22c in Kernelgröße 11x11 und die zentralen Pixel 24b aus dem Bereich 22b (Mitte) in Kernelgröße 1x1 unterteilt. Dazwischenliegende bzw. moderat beabstandete Reihen oder Bereiche werden z. B. in Kernelgröße 7x7 unterteilt. Die somit entstehenden bzw. berechneten Unterbilder 25 mit unterschiedlichen Kernel-Werten 21 können dann zu einem hochaufgelösten prädizierten Bild 23 zusammengesetzt (bzw. rekonstruiert) und ausgegeben werden.
  • Wie in 2 dargestellt, benötigen die Bereiche in der Bildperipherie größere Filtergrößen im Vergleich zu zentralen Bereichen, in denen die Pixeldichte besser bzw. größer ist. Um die Kernel-Koeffizienten und die Kernel-Größe zu schätzen, kann dabei auch ein künstliches neuronales Netzwerk trainiert werden, in dem eine Zuordnung zwischen hochauflösendem und niederauflösendem Bild mit Komprimierungsartefakten vorgenommen wird. Verschiedene Hochauflösende-Netzwerke können mit den vorgeschlagenen Fischaugenblock kaskadiert werden, um hochauflösende Bilder aus einem Bild mit komprimierten Artefakten zu erzeugen, wie in 3 dargestellt. Das aufgenommene Bild 32 wird zunächst mittels 2D Konvolution überarbeitet und dem Hochauflösenden Netzwerk 36 weitergegeben, welches dieses dann optimiert und mit dem Fischaugenblock kaskadiert. Der vorgeschlagene Fischaugenblock 37 umfasst dabei eine 3D Konvolution der einzelnen Pixel und arbeitet dabei mit verschiedenen Verlustfunktionen, wobei die verwendete Verlustfunktion basierend auf der Rekonstruktionsgenauigkeit oder der Wahrnehmungskorrektur auf dem Bild verwendet werden kann. Als Resultat wird dann das Prädizierte Bild 33 erstellt welches dann als hochaufgelöstes Bild 34 ausgegeben wird.
  • Im Folgenden wird das erfindungsgemäße Verfahren anhand einer Optimierungstechnik (genetischer Algorithmus) auf einzelnen Bildern erläutert, wobei ein Neuronales Netz zur Schätzung der Kernel-Größe und des Kernel-Koeffizienten trainiert werden kann. Hierbei handelt es sich um ein Super-Auflösungs-Netzwerk, ESRGAN („Enhanced Super-Resolution Generative Adversarial Network“), welches mit dem Fischaugenblock kaskadiert wird (zu einem FESRGAN - „Fisheye Super-Resolution Generative Adversarial Network“). Das Netz erzielt mittels APSP (Average of PSNR, SSIM and PI)-Metrik bzw. Messgröße herkömmliche Ergebnisse. Als APSP-Metrik bzw. APSP-Messgröße ist der Durchschnitt der normierten Messwerte für „Spitzen-Signal-Rausch-Verhältnis“ (PSNR - „Peak Signal to Noise Ratio“), der Index struktureller Ähnlichkeit (SSIM - „Structured Similarity Index Measure“) und der „Wahrnehmungsindex“ (PI - „Perceptual Index“) zu verstehen. Durch die APSP-Metrik wird das Bild nicht nur auf eine gute Rekonstruktionsgenauigkeit überprüft, sondern auch dahingehend, wie natürlich das Bild erscheint bzw. aussieht. Die APSP-Metrik kann dabei gemäß folgender Gleichung bestimmt werden: A P S P = P S N R n + S S I M n + P I n 3
    Figure DE102020211896A1_0001
  • In 4 ist das Ergebnis einer erfindungsgemäßen Optimierungstechnik einzelner Bilder anhand des generischen Algorithmus exemplarisch dargestellt, wobei aus dem realen Bild 41 (Ground Truth) und einem aufgenommenen Bild 42 mit Radialverzerrungen (Image with radial distortion) durch die erfindungsgemäße Unterteilung und Berechnung ein Prädiziertes Bild 43 (Prediction Image) erstellt werden kann, das in Hinblick auf die Bildqualität bzw. Verzerrung dem realen Bild 41 eher entspricht als das mit herkömmlichen Methoden erzeugte bzw. aufgenommene Bild 24 mit Radialverzerrungen (vereinfacht dargestellt an den korrespondierenden Unterbildern 44a-44c). Die Ausgestaltung der Architektur des generischen Algorithmus zeigt 5, wobei die Optimierungsvariablen (Kernel-Parameter bzw. Kernel-Werte 51) insbesondere die Kernel-Größe k für den Box-Filter und der Kernel-Koeffizient sind (z. B. für einen 3x3 Filter und entsprechender Fitnessfunktion), die den mittleren quadratischen Fehler (MSE - Mean Square Error) minimieren und den Index struktureller Ähnlichkeit (SSIM) maximieren. Die Kernel-Werte 51 werden dann zusammen mit der Eingabe 52 (Input), d. h. dem aufgenommenen Bild 42, dem Algorithmus bzw. dem Modell 54 oder der Modellberechnung zugeführt, sodass dieser als Ausgabe 53 (Output) das prädizierte Bild 43 berechnen bzw. erstellen kann.
  • Der dabei verwendete Modellierungsablauf ist anhand des Ablaufplans gemäß 6 aufgezeigt. Zunächst wird eine anfängliche Zufallsbesetzung betrachtet, bei der die Kernel-Größe 61 für den Box-Filter sowie der Kernel-Koeffizient 62 festgelegt sind. Diese werden dann zur 2D-Konvulution 63 herangezogen, sodass aus dem aufgenommenen Bild 64a durch den beschriebenen Algorithmus ein prädiziertes Bild 64b entsteht, welches dem realen Bild 64c vorliegend mehr entspricht als das aufgenommene Bild 64a. Anschließend erfolgt eine Evaluation der Fitness 65, bei der im Wesentlichen der MSE und der SSIM betrachtet wird. Sind dann festlegbare Abbruchbedingungen erfüllt (Abfrage 66 Abbruchbedingungen erfüllt?), erfolgt die Ausgabe 69 der Kernel-Werte, z. B. Kernel-Größe und Kernel-Koeffizient. Sind die festlegbaren Abbruchbedingungen wiederum nicht erfüllt, erfolgt eine Auswahl 67 der entsprechenden Kernel-Größen und Kernel-Koeffizienten, anhand derer dann der Übergang (Crossover) sowie die Mutation bestimmt wird (Bestimmen 68), sodass diese anschließend wieder dem Modellierungsablauf zugeführt werden, indem erneut eine Evaluation der Fitness 65 der Auswahl 67 unter Berücksichtigung von Übergang (Crossover) und Mutation erfolgt. Ferner kann die Fitness-Funktion berechnet werden auf Basis von RMSE (Wurzelmittelquadrat-Fehler) und SSIM (Strukturähnlichkeitsindex-Messung) zwischen Vorhersage und Bodenwahrscheinlichkeit („Ground Truth“), wobei die Abbruchbedingung die Anzahl der Generationen ist. Beispielsweise kann nach 300 Generationen gestoppt werden, wobei als Ergebnis die entsprechenden Kernel-Werte ausgegeben werden (Ausgabe 69), welche die besten PSNR und SSIM in dieser Anzahl von Generationen liefern konnten.
  • Eine vorteilhafte Ausgestaltung der Architektur des FESRGAN (Fisheye Enhanced Super Resolution GAN)-Netzwerks ist in 7 schematisch dargestellt, wobei diese Architektur eine Erweiterung eines bekannten ESRGAN-Netzes darstellt, wobei auf der Seite des Generators 71 der Fischaugenblock 77 realisiert wurde. Auf der linken Seite in 7 ist das Generatormodell und auf der rechten Seite das Diskriminatormodell (Diskriminator 78) dargestellt (beide Modelle bilden zusammen eine Art Netzwerk, das als „Generative Adversarial Network“ (GANs) bezeichnet werden kann. GANs sind eine vorteilhafte Methode, ein komplexes Problem als ein beaufsichtigtes Lernproblem zu trainieren, bei dem mittels des Generators versucht wird, neue Proben/Beispiele zu erzeugen und mittels Diskriminator wird versucht, diese Proben/Beispiele als real oder falsch einzustufen. Die beiden Modelle werden gemeinsam in einer Art Nullsummenspiel („zero-sum game“) trainiert. Dabei können über das Generatormodell, superhochaufgelöste bzw. superaufgelöste Bilder („super resolution images“) erzeugt werden. Der Diskriminator 78 (in diesem Fall ausgelegt als relativistischer Diskriminator) bestimmt bzw. ermittelt dann die Wahrscheinlichkeit, dass dabei ein reales Bild (Aufgenommenes Bild 72) realistischer ist als ein „falsches“ Bild (Prädiziertes Bild 73). Das prädizierte Bild 73 wird dabei ebenfalls durch 2D-Konvolution 75 aus dem aufgenommenen Bild 72 unter Verwendung der jeweiligen Kernel-Größen und Kernel-Koeffizienten erstellt. Für die Validierung am Ende ist dann nur das Generatormodell erforderlich, bei dem, wenn ein neues Bild bereitgestellt wird, daraus dann eine Ausgabe in hoher Auflösung (ausgegebenes superhochaufgelöstes Bild 74) erzeugt wird. Zudem ist auch eine Restskalierung anzuwenden, um z. B. ein Schwindendes Gradienten Problem (vanishing gradient problem) bzw. Explodierendes Gradienten Problem (exploding gradient problem) zu vermeiden, welche insbesondere beim Training künstlicher neuronaler Netze mit Gradienten-basierten Lernmethoden und Backpropagation (Fehlerrückführung bzw. Rückpropagierung oder Rückpropagation) auftreten können.
  • In überraschender Weise hat sich zudem gezeigt, dass das erfindungsgemäße Verfahren auch in der 2D-Radar- und Ultraschallsignalverarbeitung angewendet werden kann. Ferner kann die Erfindung in allen Bereichen eingesetzt werden, in denen Fischaugenkameras verwendet werden oder in denen es andere verzerrte Bilder mit variierender Pixelverteilung gibt. Daher leistet die Erfindung einen ganz besonderen Beitrag auf dem Gebiet der Surroundview-Kameras und Surroundview-Systemen sowie auch anderen ADAS-Systemen.
  • Bezugszeichenliste
  • 1
    Fahrzeug
    2
    Steuereinrichtung
    3a-3d
    Surroundview-Kamera
    4
    Frontkamera
    5
    Lidarsensor
    21
    Kernel-Werte
    22
    aufgenommenes Bild
    22a
    Peripherer Bildbereich
    22b
    Zentraler Bildbereich
    22c
    Peripherer Bildbereich
    23
    prädiziertes Bild
    24a
    Pixel (aus einem peripheren Bereich)
    24b
    Pixel (aus dem zentralen Bereich)
    24c
    Pixel (aus einem peripheren Bereich)
    25
    Unterbild
    32
    aufgenommenes Bild
    33
    prädiziertes Bild
    34
    ausgegebenes Bild
    35
    2D-Konvolution
    36
    Hochauflösendes Netzwerk
    37
    Fischaugenblock
    41
    reales Bild
    42
    aufgenommenes Bild
    43
    prädiziertes Bild
    44a-44c
    Unterbild
    51
    Kernel-Werte
    52
    Eingabe
    53
    Ausgabe
    54
    Modell
    60
    (anfängliche) Zufallsbesetzung
    61
    Kernel-Größe k für den Box-Filter
    62
    Kernel-Koeffizient
    63
    2D-Konvulution
    64a
    aufgenommenes Bild
    64b
    prädiziertes Bild
    64c
    reales Bild
    65
    Evaluation der Fitness
    66
    Abfrage: Abbruchbedingungen erfüllt?
    67
    Auswahl
    68
    Bestimmen von Übergang und Mutation
    69
    Ausgabe der Kernel-Werte
    71
    Generator
    72
    aufgenommenes Bild
    73
    prädiziertes Bild
    74
    ausgegebenes Bild
    75
    2D-Konvolution
    76a
    RRD-Block
    76b
    RD-Block
    77
    Fischaugenblock
    78
    Diskriminator
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • WO 2018087348 A1 [0005]

Claims (12)

  1. Verfahren zur Erzeugung eines Bildes (23, 33, 43, 64b, 73) einer Fahrzeugumgebung eines Ego-Fahrzeuges (1), bei dem mehrere Surroundview-Kameras (3a-3d) zur Erfassung der Fahrzeugumgebung und Erzeugung eines Bildes (22, 32, 42, 64a, 72) vorgesehen sind, die Surroundview-Kameras (3a-3d) jeweils ein Fischaugenobjektiv aufweisen, und das Bild (22, 32, 42, 64a, 72) in mehrere Unterbilder (25, 44) geteilt wird, wobei die Unterbilder (25, 44) mit verschiedenen Kernels mit jeweils festlegbaren Kernel-Werten (21, 51) konvolutiert werden, und das Bild (23, 33, 43, 64b, 73) aus den Unterbildern (25, 44) erzeugt wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei dem erzeugten Bild (22, 33, 43, 64a, 72) um ein rektifiziertes Bild handelt.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das erzeugte Bild (22, 33, 43, 64a, 72) vor der Teilung in mehrere Unterbilder (25, 44) anhand von Verzerrungs-, Modellierungs- und/oder Schätzverfahren korrigiert wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernel-Werte (21, 51) die Kernel-Größe und/oder den Kernel-Koeffizienten des jeweiligen Kernels umfassen.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernels unterschiedliche Kernel-Werte (21, 51) aufweisen.
  6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernel-Werte (21, 51) des jeweiligen Kernels anhand der Eigenschaften festgelegt werden, wie weit der Kernel zur Bildmitte des erzeugten Bildes (22, 32, 42, 64a, 72) beabstandet ist und/oder ob die Pixel in diesem Bereich des Bildes (22, 32, 42, 64a, 72) über niederfrequente oder hochfrequente Informationen verfügen.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernel-Werte (21, 51) des jeweiligen Kernels anhand eines Schätzverfahrens festgelegt werden.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Schätzung der Kernel-Werte (21, 51) anhand eines neuronalen Netzes erfolgt.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei dem neuronalen Netz eine Zuordnung zwischen hochauflösendem und niederauflösendem Bild mit Komprimierungsartefakten vorgenommen wird.
  10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass validiert wird, ob das prädizierte Bild (23, 33, 43, 64b, 73) realistischer ist als das aufgenommene Bild (22, 32, 42, 64a, 72) und das prädizierte Bild (22, 32, 42, 64a, 72) als Bild (74) ausgegeben wird, sofern das prädizierte Bild (23, 33, 43, 64b, 73) realistischer ist als das aufgenommene Bild (22, 32, 42, 64a, 72).
  11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Unterbilder (25, 44) anhand einer 2D-Konvolution und/oder einer 3D-Konvolution konvolutiert sind.
  12. Surroundview-System zur Erzeugung eines Bildes (23, 33, 43, 53, 64) einer Fahrzeugumgebung eines Ego-Fahrzeuges (1), aufweisend eine Steuereinrichtung (2) sowie mehrere Surroundview-Kameras (3a-3d) zur Erfassung der Fahrzeugumgebung es Ego-Fahrzeuges (1) und zur Erzeugung eines Bildes (23, 33, 43, 64b, 73), wobei die Erzeugung des Bildes (23, 33, 43, 64b, 73) anhand eines Verfahrens nach einem der vorhergehenden Ansprüche erfolgt.
DE102020211896.5A 2020-09-23 2020-09-23 Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung Pending DE102020211896A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020211896.5A DE102020211896A1 (de) 2020-09-23 2020-09-23 Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020211896.5A DE102020211896A1 (de) 2020-09-23 2020-09-23 Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung

Publications (1)

Publication Number Publication Date
DE102020211896A1 true DE102020211896A1 (de) 2022-03-24

Family

ID=80473581

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020211896.5A Pending DE102020211896A1 (de) 2020-09-23 2020-09-23 Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung

Country Status (1)

Country Link
DE (1) DE102020211896A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7227574B2 (en) 2003-02-05 2007-06-05 Minolta Co., Ltd. Image capturing apparatus
US20130121609A1 (en) 2010-09-19 2013-05-16 Huazhong University Of Science And Technology Method for restoring and enhancing space based image of point or spot objects
WO2018087348A1 (en) 2016-11-14 2018-05-17 Connaught Electronics Ltd. Method for determining a composite image of an environmental region of a motor vehicle with adjusting brightness and/or colour, camera system as well as motor vehicle

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7227574B2 (en) 2003-02-05 2007-06-05 Minolta Co., Ltd. Image capturing apparatus
US20130121609A1 (en) 2010-09-19 2013-05-16 Huazhong University Of Science And Technology Method for restoring and enhancing space based image of point or spot objects
WO2018087348A1 (en) 2016-11-14 2018-05-17 Connaught Electronics Ltd. Method for determining a composite image of an environmental region of a motor vehicle with adjusting brightness and/or colour, camera system as well as motor vehicle

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GIFFORD, Steve: Astronomical coma image restoration through the use of localized deconvolution. Society for Astronomical Sciences Annual Symposium, 2008, Seiten 141143.
SCHULER, Christian J., et al.: Blind correction of optical aberrations. European Conference on Computer Vision, Springer, 2012, Seiten 187-200.
YUE, Tao, et al.: Blind optical aberration correction by exploring geometric and visual priors. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, Seiten 1684-1692.

Similar Documents

Publication Publication Date Title
DE102018216413A1 (de) Vorrichtung und Verfahren zur automatischen Bildverbesserung bei Fahrzeugen
WO2019001649A1 (de) Wissenstransfer zwischen verschiedenen deep-learning architekturen
EP3291172B1 (de) Verfahren zur ermittlung von ergebnisbilddaten
DE112020000448T5 (de) Kameraselbstkalibrierungsnetz
DE102020133963A1 (de) Systeme und Verfahren zur Abbildrauschunterdrückung unter Verwendung von tiefen gefalteten Netzwerken
DE102018119467B4 (de) Verfahren zum durchführen eines autonomen betriebs eines fahrzeugs durch tiefes räumlich-zeitliches lernen
DE102018217091A1 (de) Verfahren, künstliches neuronales Netz, Vorrichtung, Computerprogramm und maschinenlesbares Speichermedium zur semantischen Segmentierung von Bilddaten
DE102016121755A1 (de) Verfahren zum Bestimmen eines zusammengesetzten Bilds eines Umgebungsbereichs eines Kraftfahrzeugs mit Anpassung von Helligkeit und/oder Farbe, Kamerasystem sowie Krafzfahrzeug
EP4078941A2 (de) Umwandlung von eingangs-bilddaten einer mehrzahl von fahrzeugkameras eines rundumsichtsystems in optimierte ausgangs-bilddaten
DE102017208994A1 (de) Verfahren zur Ermittlung von Ergebnisbilddaten
DE102020211896A1 (de) Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung
DE102018209898A1 (de) Verfahren zur Bestimmung von zueinander korrespondierenden Bildpunkten, SoC zur Durchführung des Verfahrens, Kamerasystem mit dem SoC, Steuergerät und Fahrzeug
DE102018201909A1 (de) Verfahren und Vorrichtung zur Objekterkennung
DE112015005753T5 (de) Bildverarbeitungssystem und Vorrichtung davon
DE102020116774A1 (de) Automatische visuelle Wahrnehmung mittels eines künstlichen neuronalen Netzes
DE102020203047A1 (de) Effiziente gleichzeitige Inferenzberechnung für mehrere neuronale Netzwerke
DE102018113281A1 (de) Verfahren zur Bildharmonisierung, Computerprogrammprodukt, Kamerasystem und Kraftfahrzeug
DE102018208604A1 (de) Ermitteln eines Aufnahmeverhaltens einer Aufnahmeeinheit
DE102022206328B3 (de) Verfahren für ein Kamerasystem sowie Kamerasystem
DE102016220079B4 (de) Verfahren zur Ermittlung von Entfernungsdaten
WO2024078668A1 (de) Konfidenzabhängige bildaufhellung
WO2023016798A1 (de) Verfahren zur darstellung einer rückwärtigen umgebung einer mobilen plattform, die mit einem anhänger gekoppelt ist
DE102022214341A1 (de) Verfahren zur Erkennung von mindestens einer Fahrspurlinie und/oder Straßenmarkierung in mindestens einer digitalen Bilddarstellung
WO2020094551A1 (de) Verfahren zum betreiben einer fischaugenkamera durch nutzung eines ersten kompressionsalgorithmus und eines zweiten kompressionsalgorithmus, elektronische recheneinrichtung, fischaugenkamera sowie fahrerassistenzsystem
DE102022105267A1 (de) Kombination von Kamerainformationen, die durch wenigstens ein Kamerabild gegeben sind, und weiteren Informationen, die durch Umfeldsensordaten gegeben sind

Legal Events

Date Code Title Description
R163 Identified publications notified
R081 Change of applicant/patentee

Owner name: CONTINENTAL AUTONOMOUS MOBILITY GERMANY GMBH, DE

Free format text: FORMER OWNER: CONTI TEMIC MICROELECTRONIC GMBH, 90411 NUERNBERG, DE

R012 Request for examination validly filed