DE102020211896A1

DE102020211896A1 - Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung

Info

Publication number: DE102020211896A1
Application number: DE102020211896.5A
Authority: DE
Inventors: Deepanshu Makkar; Varun Vijaykumar; Markus Eich; Markus Friebe
Original assignee: Conti Temic Microelectronic GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-03-24

Abstract

Verfahren zur Erzeugung eines Bildes (23, 33, 43, 64b, 73) einer Fahrzeugumgebung eines Ego-Fahrzeuges (1), bei dem mehrere Surroundview-Kameras (3a-3d) zur Erfassung der Fahrzeugumgebung und Erzeugung eines Bildes (22, 32, 42, 64a, 72) vorgesehen sind, die Surroundview-Kameras (3a-3d) jeweils ein Fischaugenobjektiv aufweisen, und das von den Surroundview-Kameras (3a-3d) erzeugte Bild (22, 32, 42, 64a, 72), wobei das Bild (22, 32, 42, 64a, 72) in mehrere Unterbilder (25, 44) geteilt wird, und die Unterbilder (25, 44) mit verschiedenen Kernels mit jeweils festlegbaren Kernel-Werten (21, 51) konvolutiert werden, und das Bild (23, 33, 43, 64b, 73) aus den Unterbildern (25, 44) erzeugt wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren für ein Ego-Fahrzeug zur Erzeugung eines Bildes einer Fahrzeugumgebung des Ego-Fahrzeuges sowie ein Surroundview-System mit Surroundview-Kameras zur Erzeugung eines Bildes der Fahrzeugumgebung des Ego-Fahrzeuges anhand des erfindungsgemäßen Verfahrens.
Technologischer Hintergrund
Fahrzeuge werden zunehmend mit Fahrerassistenzsystemen ausgerüstet, welche den Fahrer bei der Durchführung von Fahrmanövern unterstützen. Diese Fahrerassistenzsysteme enthalten zum Teil Kamera-Surround-View-Systeme, die es erlauben, dem Fahrer des Fahrzeugs die Fahrzeugumgebung anzuzeigen. Derartige Kamera-Surround-View-Systeme umfassen mehrere Fahrzeugkameras, welche reale Bilder der Fahrzeugumgebung liefern, die insbesondere durch eine Datenverarbeitungseinheit des Kamera-Surround-View-Systems zu einem Umgebungsbild der Fahrzeugumgebung zusammengefügt werden. Das Bild der Fahrzeugumgebung wird dann dem Fahrer vorteilhafterweise auf einer Anzeigeeinheit angezeigt. Auf diese Weise kann der Fahrer bei einem Fahrzeugmanöver unterstützt werden, beispielsweise bei einem Rückwärtsfahren des Fahrzeuges oder bei einem Parkmanöver.
Bei modernen Surroundview-Kamerasystemen werden in der Regel Kameras mit Fischaugen (Fisheye)-Objektive eingesetzt, die großen Radialverzerrungen unterliegen und erfordern gute Verzerrungs-, Modellierungs- und Schätzverfahren für die Objektivkalibrierung und Bildkorrektur in der Computeransicht. Bekannte Algorithmen zur Kalibrierung von Radialverzerrungen in der Fischaugen-Linse besitzen bislang jedoch nicht die Korrekturleistung, um die Kompressionsartefakte auf der Peripherie des korrigierten Bildes vollständig zu entfernen. Zudem sind Nachbearbeitungsmethoden bekannt, wie z. B. interpolationsbasierte Techniken, rekonstruktionsbasierte Techniken und Techniken basierend auf neuronalen Netzen, durch die die Bildqualität des Bildes auf dem Peripheriegerät bzw. einer Anzeigevorrichtung verbessert werden kann, dennoch haben diese Methoden Probleme durch die nicht lineare Pixeldichte-Verteilung im Bild. Ferner können moderne neuronale Netze keine hochauflösenden Bilder ohne Komprimierungsartefakte rekonstruieren, wenn sie mit einem rektifiziertem Fischaugenbild versehen sind.
Die Bilder von Fischaugenkameras werden dabei nicht ausreichend genutzt. Zwar kann die komplette 180°-Sicht der jeweiligen Kamera auf dem Bildschirm dargestellt werden, jedoch erschweren die Komprimierungsartefakte dem Fahrer, die Eck-Bereiche des Bildes deutlich zu sehen.
Druckschriftlicher Stand der Technik
Aus der WO 2018 087 348 A1 ist ein Verfahren zur Bestimmung eines zusammengesetzten Bildes eines Umgebungsbereichs eines Kraftfahrzeugs bekannt, bei dem mindestens zwei Eingangsbilder von Fischaugen-Surroundview-Kameras empfangen werden, aus denen ein Eingangsbild zusammengesetzt wird. Zur Bestimmung des zusammengesetzten Bildes wird die Helligkeit und/oder die Farbe mindestens eines der Eingangsbilder eingestellt, wobei Histogramme ermittelt werden, die eine Luminanz und/oder eine Chrominanz der jeweiligen Eingangsbilder beschreiben, und die Helligkeit und/oder die Farbe des Eingangsbildes auf der Basis der Histogramme eingestellt wird.
Aufgabe der vorliegenden Erfindung
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren für ein Surroundview-System sowie ein entsprechendes Surroundview-System zur Verfügung zu stellen, durch das eine höhere Bildqualität, insbesondere über das gesamte 180°-Sichtfeld, erzielt werden kann.
Lösung der Aufgabe
Die vorstehende Aufgabe wird durch die gesamte Lehre des Anspruchs 1 sowie der nebengeordneten Ansprüche gelöst. Zweckmäßige Ausgestaltungen der Erfindung sind in den Unteransprüchen beansprucht.
Bei dem erfindungsgemäßen Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung eines Ego-Fahrzeuges sind zunächst mehrere Surroundview-Kameras zur Erfassung der Fahrzeugumgebung und zur Erzeugung bzw. Aufnahme eines Bildes vorgesehen. Bei den Surroundview-Kameras handelt es sich um Fischaugenkameras, die jeweils zumindest ein Fischaugenobjektiv aufweisen. Das von den Surroundview-Kameras erzeugte bzw. aufgenommene Bild, d. h. das Bild einer der Surroundview-Kameras, wird in mehrere Unterbilder geteilt bzw. unterteilt, wobei die Unterbilder dann mit verschiedenen Kernels und mit festlegbaren, insbesondere verschiedenen, Kernel-Werten verschachtelt bzw. konvolutiert (im Sinne von (math.) gefaltet bzw. (engl.) convoluted) sind. Unter dem Begriff Kernel wird im Sinne der Erfindung wird insbesondere eine Zahlenmatrix verstanden, die über das ganze Bild hinweg angewendet wird, um das Bild als Ganzes zu verarbeiten. Ferner wird dann das finale Bild aus den einzelnen Unterbildern erzeugt bzw. zusammengesetzt. Die finalen Bilder der einzelnen Surroundview-Kameras können dann zu einem Surroundview-Gesamtbild zusammengesetzt werden („Rundumsicht“). Daraus resultiert der Vorteil, dass die Komprimierungsartefakte der einzelnen Bilder bzw. Aufnahmen in einfacher Weise kompensiert werden, sodass das letztendlich entzerrte Bild klarer am Bildschirm dargestellt werden kann. Beispielsweise kann eine Beschränkung des Sichtfeldes bzw. FOV (Field of View) von z. B. 120° bei einer Surroundview-Kamera kann auf ein höheres Sichtfeld ausgedehnt werden. Darüber hinaus weisen die erzeugten Bilder eine hohe Rekonstruktionsgenauigkeit und/oder Wahrnehmungsgenauigkeit auf.
Vorzugsweise handelt es sich bei dem erzeugten Bild um ein bereits rektifiziertes Bild, sozusagen ein entzerrtes Bild. Beispielsweise weist ein Fischaugenobjektiv eine radiale Verzerrung auf. Dieser Effekt der radialen Verzerrung wirkt sich dadurch aus, dass reale gerade Linien bzw. Objekte zu Kurven verzerrt und Punkte aus ihrer korrekten Position in radialer Richtung verschoben werden. Es ist daher wünschenswert, Fischaugenbilder in ihre annähernd geradlinigen Versionen zu korrigieren, bevor sie dem Endbetrachter präsentiert werden. Dieser Vorgang wird als Rektifizierung oder auch als Bildentzerrung bezeichnet.
In praktischer Weise kann das erzeugte Bild dabei vor der Teilung in mehrere Unterbilder anhand von Verzerrungs-, Modellierungs- und/oder Schätzverfahren korrigiert wird.
Vorzugsweise umfassen die Kernel-Werte die Kernel-Größe und den Kernel-Koeffizienten des jeweiligen Kernels. Alternativ oder zusätzlich können die Kernel-Werte auch noch weitere Eigenschaften bzw. Werte umfassen. Zudem umfasst der Begriff Kernel-Werte ausdrücklich auch eine Ausgestaltung der Kernel-Werte, bei der nur eine Eigenschaft bzw. ein Wert des Kernels betrachtet wird (d. h. gegebenenfalls nur die Kernel-Größe oder den Kernel-Koeffizienten des jeweiligen Kernels).
Zweckmäßigerweise können die Kernels unterschiedliche Kernel-Werte, d. h. beispielsweiseunterschiedliche Kernel-Größen und Kernel-Koeffizienten aufweisen. Die Berechnung bzw. Bilderzeugung kann dadurch in besonderem Maße vereinfacht werden.
Vorzugsweise sind die Kernel-Werte, insbesondere Kernel-Größe und der Kernel-Koeffizient, des jeweiligen Kernels unter Berücksichtigung bestimmter Eigenschaften festgelegt bzw. ergeben sich daraus. Insbesondere wird als Eigenschaft berücksichtigt, wie weit der Kernel zur Bildmitte beabstandet ist und/oder ob die Pixel in diesem Bereich des Bildes bzw. des Kernels über niederfrequente oder hochfrequente Informationen verfügen.
Zweckmäßigerweise können die Kernel-Werte, insbesondere die Kernel-Größe und/oder der Kernel-Koeffizienten, des jeweiligen Kernels geschätzt werden. Eine derartige Schätzung vereinfacht das Verfahren noch zusätzlich.
In bevorzugter Weise kann die Schätzung der Kernel-Werte oder einzelner Eigenschaften, insbesondere der Kernel-Größe und/oder des Kernel-Koeffizienten, anhand eines Künstlichen neuronalen Netzes erfolgen und anhand von maschinellem Lernen hergeleitet bzw. trainiert werden. Der Begriff „Machine learning (ML)“ bzw. „Maschinelles Lernen“ beschreibt dabei im Sinne der Erfindung das Verwenden von Algorithmen, um Daten zu analysieren, daraus zu lernen und dann eine Bestimmung oder Vorhersage über etwas (noch nicht sichtbares) zu treffen. Dabei kann das überwachte als auch das unüberwachte Lernen Anwendung finden. Für die Analyse der Daten ist unter anderem die Labelling-Strategie bzw. Etikettierung oder Beschriftung der Daten von entscheidender Bedeutung. Der Begriff „Training“ beschreibt im Sinne der Erfindung das Anpassen von Parametern eines Modells im Bereich des Maschinellen Lernens, derart, dass ein zuvor festgelegtes Fehlermaß für das angepasste Modell kleiner wird. Der Begriff „Artificial Neural Network“ (ANN) oder „Convolutional Neural Network“ (CNN) bzw. „Künstliche Neuronale Netze“ (KNN), umfasst Netze aus künstlichen Neuronen, welche in Hinblick auf ihre Informationsverarbeitung abstrahierend ausgedrückt wie in einem Nervensystem eines Lebewesens vernetzt sind. Hierbei können die Neuronen als Knoten und ihre Verbindungen als Kanten in einem Graphen dargestellt werden, wobei die hinterste (Knoten-) Schicht des Netzes als Ausgabeschicht („output layer“) und davorliegende (Knoten-) Schichten („nicht sichtbare“) als verdeckte Schichten („hidden layer“) bezeichnet werden. Derartige Künstliche neuronale Netze können vom Aufbau einschichtig (eine Ausgabeschicht), zweischichtig (eine Ausgabeschicht und eine verdeckte Schicht zur Verbesserung der Abstraktion) oder mehrschichtig (mindestens eine Ausgabeschicht sowie mehrere verdeckte Schichten zur Verbesserung der Abstraktion) sein. Zudem können diese in Hinblick auf ihre Datenübertragung vorwärtsgerichtet (feedforward) und/oder mit rückgerichteten Kanten (rekurrente Verbindungen) ausgestaltet sein (Rückkopplung; Feedbacknetz). Dadurch, dass die Schätzung der Kernel-Größe und/oder des Kernel-Koeffizienten anhand derartiger Methoden erfolgt, kann die Bilderzeugung noch zusätzlich verbessert werden. Insbesondere ist die vorliegende Erfindung nicht auf schlankere („Lean Neural Network“) oder tiefere neuronale Netze („Deep Neural Network“) beschränkt. Der vorgeschlagene Fischaugenblock ist mit anderen Super-Auflösung-Netzwerken („Super Resolution Network“) kompatibel.
Vorzugsweise wird bei dem neuronalen Netz auch eine Zuordnung zwischen hochauflösendem und niederauflösendem Bild mit Komprimierungsartefakten vorgenommen. Beispielsweise kann dies anhand eines FESRGAN („Fisheye Super-Resolution Generative Adversarial Network“) dargestellt werden, welches eine Erweiterung eines bekannten ESRGAN-Netzwerks („Enhanced Super-Resolution Generative Adversarial Network“) ist, wobei der Fischaugenblock in das ESRGAN-Netzwerk eingeführt wird. Herkömmliche ESRGAN Netzwerke, welche Stand der Technik für Bild Super Auflösung Verarbeitungen sind, sind nicht ohne Weiteres in der Lage, Superaufgelöste Bilder mit Kompressionsartefakten und Rauschen zu erzeugen. Demgegenüber kann das FERSGAN-Netzwerk auch mit Komprimierungsartefakten eine besonders gute Bildauflösung durchführen und somit bessere Ergebnisse erzielen. Das FERS-RGAN-Netzwerk besitzt dabei nicht nur eine bessere Rekonstruktionsgenauigkeit, sondern auch die wahrnehmbare Qualität des Bildes wird verbessert, was besonders für die Visualisierung von Nutzen ist.
Aus dem erzeugten bzw. aufgenommenen Bild wird sozusagen ein prädiziertes Bild mittels Konvolution unter Verwendung der jeweiligen Kernel-Größen und Kernel-Koeffizienten erstellt. Gemäß einer bevorzugten Ausgestaltung wird dann validiert, ob das prädizierte Bild nun realistischer ist als das aufgenommene Bild. Sofern dann das prädizierte Bild realistischer ist als das aufgenommene Bild wird das prädizierte Bild als hochaufgelöstes Bild ausgegeben.
In vorteilhafter Weise kann die Konvolution anhand einer 2D-Konvolution und/oder einer 3D-Konvolution erfolgen bzw. die Unterbilder werden anhand einer 2D-Konvolution und/oder einer 3D-Konvolution konvolutiert.
Neben- oder untergeordnet beansprucht die vorliegende Erfindung auch ein Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung eines Ego-Fahrzeuges, welches mehrere Surroundview-Kameras zur Erfassung der Fahrzeugumgebung es Ego-Fahrzeuges aufweist und bei dem zur Erzeugung eines Bildes der Fahrzeugumgebung das erfindungsgemäße Verfahren Anwendung findet. Zur Ausführung des Verfahrens weist das System zudem eine Steuereinrichtung auf, die insbesondere die Daten der Surroundview-Kamers erfassen und verarbeiten kann. Vorzugsweise kann diese Steuereinrichtung auch andere Funktionen bzw. Assistenzfunktionen ausführen und hierzu auf andere Aktoren und Sensoren des Ego-Fahrzeuges zugreifen.
Figurenliste
Im Folgenden wird die Erfindung anhand von zweckmäßigen Ausführungsbeispielen näher beschrieben. Es zeigen:

1 eine vereinfachte schematische Darstellung eines Ego-Fahrzeuges mit einem erfindungsgemäßen Surroundview-System zur Erzeugung eines Bildes der Fahrzeugumgebung;
2 eine vereinfachte schematische Darstellung eines erzeugten Bildes, welches in Unterbilder unterteilt wird, die in verschiedene Kernels umgewandelt werden, um ein hochaufgelöstes Ausgabebild zu erzeugen;
3 eine vereinfachte schematische Darstellung des erfindungsgemäßen Verfahrensablaufs;
4 eine vereinfachte schematische Darstellung einer Optimierungstechnik einzelner Bilder anhand des erfindungsgemäßen Algorithmus;
5 eine vereinfachte schematische Darstellung einer Ausgestaltung der Architektur des erfindungsgemäßen Algorithmus;
6 eine vereinfachte schematische Darstellung des Modellierungsablaufs des Modells aus 5, sowie
7 eine vereinfachte schematische Darstellung einer Ausgestaltung der Architektur des FESRGAN-Netzwerks.

Bezugsziffer 1 in 1 bezeichnet ein Ego-Fahrzeug mit einer Steuereinrichtung 2 (ECU, Electronic Control Unit oder ADCU, Assisted and Automated Driving Control Unit), welche auf verschiedene Aktoren (z. B. Lenkung, Motor, Bremse) des Ego-Fahrzeuges 1 zugreifen kann, um Steuervorgänge des Ego-Fahrzeuges 1 ausführen zu können. Ferner weist das Ego-Fahrzeug 1 zur Umfelderfassung mehrere Surroundview-Kameras 3a-3d, eine Frontkamera 4 und einen Lidarsensor 5 auf. Darüber hinaus können auch weitere Sensoren, wie z. B. Radar- oder Ultraschallsensoren vorgesehen sein. Die Sensordaten können dann zur Umfeld- und Objekterkennung genutzt werden. Infolgedessen können verschiedene Assistenzfunktionen, wie z. B. Einparkassistenten, Notbremsassistent (EBA, Electronic Brake Assist), Abstandsfolgeregelung (ACC, Automatic Cruise Control), Spurhalteregelung bzw. ein Spurhalteassistent (LKA, Lane Keep Assist) oder dergleichen, realisiert werden. In praktischer Weise kann die Ausführung der Assistenzfunktionen ebenfalls über die Steuereinrichtung 2 oder eine eigene Steuereinrichtung erfolgen.
Die Surroundview-Kameras 3a-3d sind dabei Teil eines Surroundview-Systems, welches vorzugsweise durch die Steuereinrichtung 2 gesteuert wird (alternativ kann z. B. eine eigene Steuerung vorgesehen sein), das eine vollständige 360-Grad-Sicht rund um das gesamte Ego-Fahrzeug 1 bietet, indem die Sichtfelder der einzelnen Surroundview-Kameras, z. B. 120-Grad, zu einer Gesamtsicht bzw. Gesamtbild vereint werden. Durch die einfache Überwachung des toten Winkels besitzt dieses Kamerasystem zahlreiche Vorteile in vielen alltäglichen Situationen. Durch das Surroundview-System können dem Fahrer verschiedene Blickwinkel des Ego-Fahrzeuges 1 z. B. über eine Anzeigeeinheit (in 1 nicht gezeigt) dargestellt werden. In der Regel werden dabei 4 Surroundview-Kameras 3a-3d verwendet, die z. B. im Front- und Heckbereich sowie an den Seitenspiegeln angeordnet sind. Zudem können aber auch 3, 6, 8, 10 Surroundview-Kameras vorgesehen sein. Besonders hilfreich sind diese Kameraansichten bzw. Blickwinkeln beim Überprüfen des toten Winkels, beim Spurwechsel oder beim Einparken.
Die Surroundview-Kameras 3a-3d weisen Fischaugen (Fisheye)-Objektive auf, welche großen Radialverzerrungen unterliegen und somit Verzerrungs-, Modellierungs- und Schätzverfahren für die Objektivkalibrierung und Bildkorrektur in der Computeransicht erfordern, d. h. das aufgenommene Bild wird korrigiert. Das korrigierte Bild enthält dabei Komprimierungsartefakte und wird erfindungsgemäß verbessert, indem das Bild in mehrere Unterbilder geteilt wird. Diese Unterbilder können dann in verschiedenen Kernels umgewandelt werden. Der jeweilige Kernel kann dabei unterschiedliche Kernel-Größen und Kernel-Koeffizienten aufweisen, wie in 2 anhand der Kernel-Werte 21 dargestellt, abhängig davon, wie weit der Abstand der Pixel zur Bildmitte des aufgenommenen Bildes 22 ist und ob die Pixel in diesem Bereich über niederfrequente oder hochfrequente Informationen verfügen. Beispielsweise sind die peripheren Bildbereiche 22a und 22c weiter von der Bildmitte beabstandet und weisen eine niedrige Pixeldichte auf. Demgegenüber ist der zentrale Bildbereich 22b nicht wesentlich von der Bildmitte beabstandet und weist eine hohe Pixeldichte auf. Dementsprechend können dann die Kernel-Werte 21 angepasst werden. In 2 werden z. B. die Pixel 24a der ersten (oben) und Pixel 24c der letzten Reihe (unten) aus Bereich 22a bzw. 22c in Kernelgröße 11x11 und die zentralen Pixel 24b aus dem Bereich 22b (Mitte) in Kernelgröße 1x1 unterteilt. Dazwischenliegende bzw. moderat beabstandete Reihen oder Bereiche werden z. B. in Kernelgröße 7x7 unterteilt. Die somit entstehenden bzw. berechneten Unterbilder 25 mit unterschiedlichen Kernel-Werten 21 können dann zu einem hochaufgelösten prädizierten Bild 23 zusammengesetzt (bzw. rekonstruiert) und ausgegeben werden.
Wie in 2 dargestellt, benötigen die Bereiche in der Bildperipherie größere Filtergrößen im Vergleich zu zentralen Bereichen, in denen die Pixeldichte besser bzw. größer ist. Um die Kernel-Koeffizienten und die Kernel-Größe zu schätzen, kann dabei auch ein künstliches neuronales Netzwerk trainiert werden, in dem eine Zuordnung zwischen hochauflösendem und niederauflösendem Bild mit Komprimierungsartefakten vorgenommen wird. Verschiedene Hochauflösende-Netzwerke können mit den vorgeschlagenen Fischaugenblock kaskadiert werden, um hochauflösende Bilder aus einem Bild mit komprimierten Artefakten zu erzeugen, wie in 3 dargestellt. Das aufgenommene Bild 32 wird zunächst mittels 2D Konvolution überarbeitet und dem Hochauflösenden Netzwerk 36 weitergegeben, welches dieses dann optimiert und mit dem Fischaugenblock kaskadiert. Der vorgeschlagene Fischaugenblock 37 umfasst dabei eine 3D Konvolution der einzelnen Pixel und arbeitet dabei mit verschiedenen Verlustfunktionen, wobei die verwendete Verlustfunktion basierend auf der Rekonstruktionsgenauigkeit oder der Wahrnehmungskorrektur auf dem Bild verwendet werden kann. Als Resultat wird dann das Prädizierte Bild 33 erstellt welches dann als hochaufgelöstes Bild 34 ausgegeben wird.
Im Folgenden wird das erfindungsgemäße Verfahren anhand einer Optimierungstechnik (genetischer Algorithmus) auf einzelnen Bildern erläutert, wobei ein Neuronales Netz zur Schätzung der Kernel-Größe und des Kernel-Koeffizienten trainiert werden kann. Hierbei handelt es sich um ein Super-Auflösungs-Netzwerk, ESRGAN („Enhanced Super-Resolution Generative Adversarial Network“), welches mit dem Fischaugenblock kaskadiert wird (zu einem FESRGAN - „Fisheye Super-Resolution Generative Adversarial Network“). Das Netz erzielt mittels APSP (Average of PSNR, SSIM and PI)-Metrik bzw. Messgröße herkömmliche Ergebnisse. Als APSP-Metrik bzw. APSP-Messgröße ist der Durchschnitt der normierten Messwerte für „Spitzen-Signal-Rausch-Verhältnis“ (PSNR - „Peak Signal to Noise Ratio“), der Index struktureller Ähnlichkeit (SSIM - „Structured Similarity Index Measure“) und der „Wahrnehmungsindex“ (PI - „Perceptual Index“) zu verstehen. Durch die APSP-Metrik wird das Bild nicht nur auf eine gute Rekonstruktionsgenauigkeit überprüft, sondern auch dahingehend, wie natürlich das Bild erscheint bzw. aussieht. Die APSP-Metrik kann dabei gemäß folgender Gleichung bestimmt werden: $A P S P = \frac{P S N R_{n} + S S I M_{n} + P I_{n}}{3}$
In 4 ist das Ergebnis einer erfindungsgemäßen Optimierungstechnik einzelner Bilder anhand des generischen Algorithmus exemplarisch dargestellt, wobei aus dem realen Bild 41 (Ground Truth) und einem aufgenommenen Bild 42 mit Radialverzerrungen (Image with radial distortion) durch die erfindungsgemäße Unterteilung und Berechnung ein Prädiziertes Bild 43 (Prediction Image) erstellt werden kann, das in Hinblick auf die Bildqualität bzw. Verzerrung dem realen Bild 41 eher entspricht als das mit herkömmlichen Methoden erzeugte bzw. aufgenommene Bild 24 mit Radialverzerrungen (vereinfacht dargestellt an den korrespondierenden Unterbildern 44a-44c). Die Ausgestaltung der Architektur des generischen Algorithmus zeigt 5, wobei die Optimierungsvariablen (Kernel-Parameter bzw. Kernel-Werte 51) insbesondere die Kernel-Größe k für den Box-Filter und der Kernel-Koeffizient sind (z. B. für einen 3x3 Filter und entsprechender Fitnessfunktion), die den mittleren quadratischen Fehler (MSE - Mean Square Error) minimieren und den Index struktureller Ähnlichkeit (SSIM) maximieren. Die Kernel-Werte 51 werden dann zusammen mit der Eingabe 52 (Input), d. h. dem aufgenommenen Bild 42, dem Algorithmus bzw. dem Modell 54 oder der Modellberechnung zugeführt, sodass dieser als Ausgabe 53 (Output) das prädizierte Bild 43 berechnen bzw. erstellen kann.
Der dabei verwendete Modellierungsablauf ist anhand des Ablaufplans gemäß 6 aufgezeigt. Zunächst wird eine anfängliche Zufallsbesetzung betrachtet, bei der die Kernel-Größe 61 für den Box-Filter sowie der Kernel-Koeffizient 62 festgelegt sind. Diese werden dann zur 2D-Konvulution 63 herangezogen, sodass aus dem aufgenommenen Bild 64a durch den beschriebenen Algorithmus ein prädiziertes Bild 64b entsteht, welches dem realen Bild 64c vorliegend mehr entspricht als das aufgenommene Bild 64a. Anschließend erfolgt eine Evaluation der Fitness 65, bei der im Wesentlichen der MSE und der SSIM betrachtet wird. Sind dann festlegbare Abbruchbedingungen erfüllt (Abfrage 66 Abbruchbedingungen erfüllt?), erfolgt die Ausgabe 69 der Kernel-Werte, z. B. Kernel-Größe und Kernel-Koeffizient. Sind die festlegbaren Abbruchbedingungen wiederum nicht erfüllt, erfolgt eine Auswahl 67 der entsprechenden Kernel-Größen und Kernel-Koeffizienten, anhand derer dann der Übergang (Crossover) sowie die Mutation bestimmt wird (Bestimmen 68), sodass diese anschließend wieder dem Modellierungsablauf zugeführt werden, indem erneut eine Evaluation der Fitness 65 der Auswahl 67 unter Berücksichtigung von Übergang (Crossover) und Mutation erfolgt. Ferner kann die Fitness-Funktion berechnet werden auf Basis von RMSE (Wurzelmittelquadrat-Fehler) und SSIM (Strukturähnlichkeitsindex-Messung) zwischen Vorhersage und Bodenwahrscheinlichkeit („Ground Truth“), wobei die Abbruchbedingung die Anzahl der Generationen ist. Beispielsweise kann nach 300 Generationen gestoppt werden, wobei als Ergebnis die entsprechenden Kernel-Werte ausgegeben werden (Ausgabe 69), welche die besten PSNR und SSIM in dieser Anzahl von Generationen liefern konnten.
Eine vorteilhafte Ausgestaltung der Architektur des FESRGAN (Fisheye Enhanced Super Resolution GAN)-Netzwerks ist in 7 schematisch dargestellt, wobei diese Architektur eine Erweiterung eines bekannten ESRGAN-Netzes darstellt, wobei auf der Seite des Generators 71 der Fischaugenblock 77 realisiert wurde. Auf der linken Seite in 7 ist das Generatormodell und auf der rechten Seite das Diskriminatormodell (Diskriminator 78) dargestellt (beide Modelle bilden zusammen eine Art Netzwerk, das als „Generative Adversarial Network“ (GANs) bezeichnet werden kann. GANs sind eine vorteilhafte Methode, ein komplexes Problem als ein beaufsichtigtes Lernproblem zu trainieren, bei dem mittels des Generators versucht wird, neue Proben/Beispiele zu erzeugen und mittels Diskriminator wird versucht, diese Proben/Beispiele als real oder falsch einzustufen. Die beiden Modelle werden gemeinsam in einer Art Nullsummenspiel („zero-sum game“) trainiert. Dabei können über das Generatormodell, superhochaufgelöste bzw. superaufgelöste Bilder („super resolution images“) erzeugt werden. Der Diskriminator 78 (in diesem Fall ausgelegt als relativistischer Diskriminator) bestimmt bzw. ermittelt dann die Wahrscheinlichkeit, dass dabei ein reales Bild (Aufgenommenes Bild 72) realistischer ist als ein „falsches“ Bild (Prädiziertes Bild 73). Das prädizierte Bild 73 wird dabei ebenfalls durch 2D-Konvolution 75 aus dem aufgenommenen Bild 72 unter Verwendung der jeweiligen Kernel-Größen und Kernel-Koeffizienten erstellt. Für die Validierung am Ende ist dann nur das Generatormodell erforderlich, bei dem, wenn ein neues Bild bereitgestellt wird, daraus dann eine Ausgabe in hoher Auflösung (ausgegebenes superhochaufgelöstes Bild 74) erzeugt wird. Zudem ist auch eine Restskalierung anzuwenden, um z. B. ein Schwindendes Gradienten Problem (vanishing gradient problem) bzw. Explodierendes Gradienten Problem (exploding gradient problem) zu vermeiden, welche insbesondere beim Training künstlicher neuronaler Netze mit Gradienten-basierten Lernmethoden und Backpropagation (Fehlerrückführung bzw. Rückpropagierung oder Rückpropagation) auftreten können.
In überraschender Weise hat sich zudem gezeigt, dass das erfindungsgemäße Verfahren auch in der 2D-Radar- und Ultraschallsignalverarbeitung angewendet werden kann. Ferner kann die Erfindung in allen Bereichen eingesetzt werden, in denen Fischaugenkameras verwendet werden oder in denen es andere verzerrte Bilder mit variierender Pixelverteilung gibt. Daher leistet die Erfindung einen ganz besonderen Beitrag auf dem Gebiet der Surroundview-Kameras und Surroundview-Systemen sowie auch anderen ADAS-Systemen.
Bezugszeichenliste

1: Fahrzeug
2: Steuereinrichtung
3a-3d: Surroundview-Kamera
4: Frontkamera
5: Lidarsensor
21: Kernel-Werte
22: aufgenommenes Bild
22a: Peripherer Bildbereich
22b: Zentraler Bildbereich
22c: Peripherer Bildbereich
23: prädiziertes Bild
24a: Pixel (aus einem peripheren Bereich)
24b: Pixel (aus dem zentralen Bereich)
24c: Pixel (aus einem peripheren Bereich)
25: Unterbild
32: aufgenommenes Bild
33: prädiziertes Bild
34: ausgegebenes Bild
35: 2D-Konvolution
36: Hochauflösendes Netzwerk
37: Fischaugenblock
41: reales Bild
42: aufgenommenes Bild
43: prädiziertes Bild
44a-44c: Unterbild
51: Kernel-Werte
52: Eingabe
53: Ausgabe
54: Modell
60: (anfängliche) Zufallsbesetzung
61: Kernel-Größe k für den Box-Filter
62: Kernel-Koeffizient
63: 2D-Konvulution
64a: aufgenommenes Bild
64b: prädiziertes Bild
64c: reales Bild
65: Evaluation der Fitness
66: Abfrage: Abbruchbedingungen erfüllt?
67: Auswahl
68: Bestimmen von Übergang und Mutation
69: Ausgabe der Kernel-Werte
71: Generator
72: aufgenommenes Bild
73: prädiziertes Bild
74: ausgegebenes Bild
75: 2D-Konvolution
76a: RRD-Block
76b: RD-Block
77: Fischaugenblock
78: Diskriminator

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2018087348 A1 [0005]

Claims

Verfahren zur Erzeugung eines Bildes (23, 33, 43, 64b, 73) einer Fahrzeugumgebung eines Ego-Fahrzeuges (1), bei dem mehrere Surroundview-Kameras (3a-3d) zur Erfassung der Fahrzeugumgebung und Erzeugung eines Bildes (22, 32, 42, 64a, 72) vorgesehen sind, die Surroundview-Kameras (3a-3d) jeweils ein Fischaugenobjektiv aufweisen, und das Bild (22, 32, 42, 64a, 72) in mehrere Unterbilder (25, 44) geteilt wird, wobei die Unterbilder (25, 44) mit verschiedenen Kernels mit jeweils festlegbaren Kernel-Werten (21, 51) konvolutiert werden, und das Bild (23, 33, 43, 64b, 73) aus den Unterbildern (25, 44) erzeugt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass es sich bei dem erzeugten Bild (22, 33, 43, 64a, 72) um ein rektifiziertes Bild handelt.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das erzeugte Bild (22, 33, 43, 64a, 72) vor der Teilung in mehrere Unterbilder (25, 44) anhand von Verzerrungs-, Modellierungs- und/oder Schätzverfahren korrigiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernel-Werte (21, 51) die Kernel-Größe und/oder den Kernel-Koeffizienten des jeweiligen Kernels umfassen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernels unterschiedliche Kernel-Werte (21, 51) aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernel-Werte (21, 51) des jeweiligen Kernels anhand der Eigenschaften festgelegt werden, wie weit der Kernel zur Bildmitte des erzeugten Bildes (22, 32, 42, 64a, 72) beabstandet ist und/oder ob die Pixel in diesem Bereich des Bildes (22, 32, 42, 64a, 72) über niederfrequente oder hochfrequente Informationen verfügen.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Kernel-Werte (21, 51) des jeweiligen Kernels anhand eines Schätzverfahrens festgelegt werden.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Schätzung der Kernel-Werte (21, 51) anhand eines neuronalen Netzes erfolgt.
Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass bei dem neuronalen Netz eine Zuordnung zwischen hochauflösendem und niederauflösendem Bild mit Komprimierungsartefakten vorgenommen wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass validiert wird, ob das prädizierte Bild (23, 33, 43, 64b, 73) realistischer ist als das aufgenommene Bild (22, 32, 42, 64a, 72) und das prädizierte Bild (22, 32, 42, 64a, 72) als Bild (74) ausgegeben wird, sofern das prädizierte Bild (23, 33, 43, 64b, 73) realistischer ist als das aufgenommene Bild (22, 32, 42, 64a, 72).
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Unterbilder (25, 44) anhand einer 2D-Konvolution und/oder einer 3D-Konvolution konvolutiert sind.
Surroundview-System zur Erzeugung eines Bildes (23, 33, 43, 53, 64) einer Fahrzeugumgebung eines Ego-Fahrzeuges (1), aufweisend eine Steuereinrichtung (2) sowie mehrere Surroundview-Kameras (3a-3d) zur Erfassung der Fahrzeugumgebung es Ego-Fahrzeuges (1) und zur Erzeugung eines Bildes (23, 33, 43, 64b, 73), wobei die Erzeugung des Bildes (23, 33, 43, 64b, 73) anhand eines Verfahrens nach einem der vorhergehenden Ansprüche erfolgt.