DE102019220171A1

DE102019220171A1 - Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras eines Rundumsichtsystems in optimierte Ausgangs-Bilddaten

Info

Publication number: DE102019220171A1
Application number: DE102019220171.7A
Authority: DE
Inventors: Christian Scharfenberger; Michelle Karg
Original assignee: Conti Temic Microelectronic GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-24
Also published as: DE112020006216A5; EP4078941A2; US20230342894A1; WO2021121491A2; WO2021121491A3

Abstract

Die Erfindung bezieht sich auf ein maschinelles Lernverfahren, ein Verfahren und eine Vorrichtung zur Umwandlung von Eingangs-Bilddaten (Ini) einer Mehrzahl von Fahrzeugkameras (2-i) eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten (Opti).Das Verfahren zur Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras (2-i) eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten umfasst die Schritte:a) Von den Fahrzeugkameras (2-i) aufgenommene Eingangs-Bilddaten (Ini) einer aktuellen Helligkeit oder Farbverteilung werden einem trainierten künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt,b) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Eingangs-Bilddaten (Ini) mit der aktuellen Helligkeit oder Farbverteilung in optimierte Ausgabe-Bilddaten (Opti) mit abweichender Ausgabehelligkeit oder -farbverteilung umzuwandeln, undc) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Ausgabe-Bilddaten (Opti) auszugeben.

Description

Die Erfindung bezieht sich auf ein maschinelles Lernverfahren, ein Verfahren und eine Vorrichtung zur Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras eines Rundumsichtsystems in optimierte Ausgangs-Bilddaten.
Heutige Fahrzeuge sind zunehmend mit Surroundview- und/oder Assistenzsystemen ausgestattet, welche die Bereiche vor, neben oder hinter dem Fahrzeug überwachen. Dies dient entweder der Erkennung von Objekten zur Vermeidung von Kollisionen, der Erkennung von Straßenbegrenzungen, zum Halten des Fahrzeuges innerhalb der Fahrspur oder einfach nur der Anzeige der Umgebung zur Unterstützung bei einem Parkvorgang.
Diese Systeme arbeiten mit hochauflösenden Kameras, welche heute einen immer höheren dynamischen Bereich besitzen. Von letzterem profitieren insbesondere Anzeige- und Erkennungsfunktionen in Situationen mit unterschiedlichen Helligkeitsstufen und Kontrast.
DE 102014210323 A1 zeigt eine Vorrichtung und ein Verfahren zur adaptiven Bildkorrektur von mindestens einem Bildparameter eines Kamerabildes mit: mehreren Kameras zur Erzeugung von Kamerabildern, wobei die Kamerabilder von benachbarten Kameras jeweils überlappende Bildbereiche aufweisen; und mit einer Bildverarbeitungseinheit, welche die von den Kameras erzeugten Kamerabilder zu einem zusammengesetzten Gesamtbild zusammensetzt; wobei die Bildverarbeitungseinheit eine Bildkorrekturkomponente aufweist, die für jedes empfangene Kamerabild mehrere durchschnittliche Bildparameterpegel des Bildparameters in den überlappenden Bildbereichen des Kamerabildes berechnet und den jeweiligen Bildparameter in Abhängigkeit von den berechneten durchschnittlichen Bildparameterpegeln einstellt.
Die oben genannten Systeme zeigen eine sehr gute Performance bei Szenarien, die durch Tageslicht, Straßenbeleuchtung oder Scheinwerferlicht eines Fahrzeuges hinreichend ausgeleuchtet sind. Degradation sowohl in der Erkennung von Objekten als auch bei der Darstellung der Umgebung oder von Objekten tritt jedoch ein, sobald in einer Situation nur wenig bis gar kein Umgebungslicht zum Ausleuchten des Szenarios zur Verfügung steht.
Als ein prominentes Beispiel sei die Fahrt auf einer unbeleuchteten Landstraße bei Nacht genannt. Das Fahrzeug sei mit einem Surroundview-System ausgestattet, welches während der Fahrt sowohl Assistenz- als auch Anzeigefunktion bieten soll. Während das Fahrzeug durch die Front- und Heckscheinwerfer den vorderen und hinteren Bereich ausleuchtet, ist der Bereich neben dem Fahrzeug nahezu unbeleuchtet.
Als ein weiteres Beispiel sei das Parken eines Fahrzeuges in einer dunklen Ecke in einem Parkhaus genannt. Auch hier tritt gerade bei Parkpositionen neben Wänden oder anderen Fahrzeugen der Fall ein, in denen zu wenig bis gar kein Licht für die Seitenkameras zur Verfügung steht.
Abhilfe schaffen zusätzliche Lampen, welche in die Seitenbereiche des Fahrzeuges eingebaut die kritischen Bereiche neben dem Fahrzeug ausleuchten. Für ein vollständiges Ausleuchten ist jedoch eine hohe Anzahl an Lampen notwendig, welches neben kritischen Designeinschränkungen zu erheblichen Mehrkosten im Fahrzeug führen können.
Bekannte algorithmische Verfahren wie eine Gammakorrektur, ein automatischer Weißabgleich oder ein Histogrammausgleich (Histogram Equalization) können die Bilder algorithmisch aufhellen und verbessern. Letztere zeigen jedoch gerade bei Dunkelheit signifikante Performanceeinbußen durch fehlende Farbinformationen im Bild.
Ein System wäre daher wünschenswert, welches ohne zusätzliche Beleuchtung algorithmisch eine gute Aufwertung der unausgeleuchteten Bereiche ermöglicht.
Es ist Aufgabe der vorliegenden Erfindung, Lösungen hierfür bereitzustellen.
Die Aufgabe wird gelöst durch die Gegenstände der unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen sind Gegenstand der abhängigen Ansprüche, der folgenden Beschreibung sowie der Figuren.
Ein Verfahren zum maschinellen Lernen einer Umwandlung von Eingangs-Bilddaten mehrerer Fahrzeugkameras eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten mittels eines künstlichen neuronalen Netzwerks sieht vor, dass das Lernen mit einer Vielzahl von Trainings-Bildpaaren derart erfolgt, dass am Eingang des künstlichen neuronalen Netzwerks jeweils ein erstes Bild einer ersten Helligkeit oder Farbverteilung und als Soll-Ausgabe-Bild ein zweites Bild derselben Szene mit einer abweichenden zweiten Helligkeit oder Farbverteilung bereitgestellt wird. Das künstliche neuronale Netzwerk kann beispielsweise ein Convolutional Neural Network („faltendes neuronales Netzwerk“, CNN) sein. Die Fahrzeugkameras sind derart bevorzugt derart angeordnet und konfiguriert, dass sie zusammengenommen den das Fahrzeug umgebenden Bereich der Fahrzeugumgebung erfassen und abbilden.
In einer Ausführungsform werden die Trainings-Bildpaare erzeugt, indem jeweils ein erstes Bild mit erster und ein zweites Bild mit zweiter Helligkeit zeitgleich oder unmittelbar aufeinanderfolgend mit unterschiedlichen Belichtungszeiten aufgenommen werden. Eine erste kürzere Belichtungszeit führt zu einem dunkleren Trainingsbild und eine zweite längere Belichtungszeit zu einem helleren Trainingsbild. Beispielsweise ist die jeweilige Fahrzeugkamera während der Erzeugung der Trainingsdaten stationär (unbewegt) gegenüber der zu erfassenden Umgebung. Hierzu können die Trainingsdaten beispielsweise mit mindestens einer Fahrzeugkamera eines stehenden Fahrzeugs erfasst werden. Die von der Fahrzeugkamera erfasste Szene kann beispielsweise eine statische Umgebung beinhalten, also ohne bewegte Objekte.
In einer Ausführungsform wird (nur) ein künstliches neuronales Netzwerk für alle Fahrzeugkameras gemeinsam bzw. gleichzeitig trainiert.
Es kann jeweils eine Folge von aufeinanderfolgenden Bildern für jede Einzelkamera für das gemeinsame Training verwendet werden.
Die zeitliche Korrelation von Bildern kann beim Training und/oder beim Einsatz des trainierten Netzwerks gewinnbringend berücksichtigt werden.
Informationen über Bildmerkmale und deren Soll-Ausgabe-Bilddaten können verwendet werden, die zu einem Zeitpunkt t von einer Frontkamera und zu einem späteren Zeitpunkt von einer seitlichen Kamera oder der Rückkamera aufgenommen werden. Dadurch kann trainiert werden, dass ein Objekt mit bestimmten Bildmerkmalen in den Ausgabe-Bildern aller Einzelkameras eine identische Helligkeit und Farbigkeit aufweist.
Gemäß einer Ausführungsform wird mindestens ein Faktor d als Maß für den Unterschied zwischen der zweiten und der ersten Helligkeit oder Farbverteilung eines Trainings-Bildpaars ermittelt wird und dem künstlichen neuronalen Netzwerk im Rahmen des Trainings bereitgestellt.
Der Faktor d kann beispielsweise ermittelt werden als Verhältnis von zweiter Helligkeit oder Farbverteilung zu erster Helligkeit oder Farbverteilung. Die Helligkeit kann insbesondere als mittlere Helligkeit eines Bildes oder anhand eines Illuminanzhistogramms eines Bildes ermittelt werden.
In einer Ausführungsform weist das künstliche neuronale Netz eine gemeinsame Eingangsschnittstelle für zwei separate Ausgangsschnittstellen auf. Die gemeinsame Eingangsschnittstelle weist geteilte Merkmalsrepräsentationsschichten auf. An der ersten Ausgangsschnittstelle werden umgewandelte Bilddaten ausgegeben. An der zweiten Ausgangsschnittstelle werden ADAS-relevante Detektionen mindestens einer ADAS-Detektionsfunktion ausgegeben. ADAS steht für fortschrittliche Systeme zum assistierten oder automatisierten Fahren (Englisch: Advanced Driver Assistance Systems). ADAS-relevante Detektionen sind somit z.B. Objekte, Gegenstände, Verkehrsteilnehmer, die für ADAS/AD Systeme wichtige Eingangsgrößen darstellen. Das künstliche neuronalen Netzwerk umfasst ADAS-Detektionsfunktionen, z.B. eine Spurerkennung, eine Objekterkennung, eine Tiefenerkennung (3D-Schätzung der Bildbestandteilee), semantische Erkennung, oder dergleichen mehr. Im Rahmen des Trainings werden die Ausgaben beider Ausgangsschnittstellen optimiert.
Ein Verfahren zur Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten umfasst die Schritte:

a) von den Fahrzeugkameras aufgenommene Eingangs-Bilddaten einer aktuellen Helligkeit oder Farbverteilung werden einem trainierten künstlichen neuronalen Netzwerk bereitgestellt,
b) das trainierte künstliche neuronale Netzwerk ist dazu konfiguriert, die Eingangs-Bilddaten mit der aktuellen Helligkeit oder Farbverteilung in Ausgabe-Bilddaten mit abweichender Ausgabehelligkeit oder -farbverteilung umzuwandeln, und
c) das trainierte künstliche neuronale Netzwerk ist dazu konfiguriert, die Ausgabe-Bilddaten auszugeben.

Die in ihrer Helligkeit bzw. Farbverteilung optimierten Ausgabe-Bilddaten ermöglichen vorteilhafterweise ein besseres Zusammensetzen der Bilder der einzelnen Fahrzeugkameras zu einem zusammengesetzten Bild, welches dem Fahrer angezeigt werden kann.
In einer Ausführungsform wird in Schritt a) zusätzlich ein Faktor d dem trainierten künstlichen neuronalen Netzwerk bereitgestellt wird und in Schritt b) die (Stärke bzw. der Grad der) Umwandlung in Abhängigkeit von dem Faktor d gesteuert.
Gemäß einer Ausführungsform erfolgt die Umwandlung in Schritt b) derart, dass eine Sichtverbesserung hinsichtlich Überbelichtung erzielt wird. Beispielsweise wurde im Rahmen des Trainings gelernt, überbelichtete Bilder in der Helligkeit zu reduzieren bzw. in der Farbverteilung anzupassen.
In einer Ausführungsform werden in Schritt b) die Eingangs-Bilddaten mit aktueller Helligkeit in Ausgangs-Bilddaten mit einer längeren (virtuellen) Belichtungszeit umgewandelt. Das bietet den Vorteil einer Vermeidung von Bewegungsunschärfe („motion blur“).
Gemäß einer Ausführungsform wird der Faktor d geschätzt und bei der Schätzung wird die Helligkeit oder Farbverteilung der aktuellen erfassten Bilddaten (z.B. Illuminanzhistogramm oder mittlere Helligkeit) oder der vorhergehend erfassten Bilddaten oder die Historie des Faktors d berücksichtigt.
Eine zu hohe Helligkeit spricht beispielsweise für eine Überbelichtung, eine zu niedrige Helligkeit für eine Unterbelichtung. Beides kann mittels entsprechender Schwellwerte festgestellt und durch eine entsprechende Umwandlung behoben werden
In einer Ausführungsform wird für jede der Fahrzeugkameras ein eigener Faktor d geschätzt bzw. bestimmt. Dies ermöglicht die individuelle Umwandlung für Bilddaten der einzelnen Fahrzeugkameras insbesondere in Abhängigkeit von der aktuellen Helligkeit bzw. Farbverteilung des Bildes der jeweiligen Fahrzeugkamera.
In einer Ausführungsform wird nach einer Erkennung, dass mindestens zwei Bildregionen eines aktuell erfassten Bildes, eine (deutlich) unterschiedliche Bildhelligkeit aufweisen, für jede der Bildregionen ein unterschiedlicher Faktor d geschätzt oder bestimmt werden. Beim Vorliegen von Bildregionen mit unterschiedlichen Beleuchtungsintensitäten kann somit der Faktor d innerhalb eines Bildes variieren und Bildregionen mit unterschiedlichen Faktoren d werden über Helligkeitsschätzungen bestimmt. Die Helligkeitsverbesserung kann somit an einzelne Bildregionen angepasst werden.
Gemäß einer Ausführungsform kann bei der Bestimmung bzw. Schätzung des Faktors d eine zeitliche Entwicklung des Faktors d berücksichtigt werden.
Hierzu gehen in die Schätzung die zeitliche Entwicklung des Faktors d und eine Sequenz von Eingangsbildern ein. Information über die zeitliche Entwicklung der Helligkeit kann auch für Bildregionen mit unterschiedlichen Faktoren d herangezogen werden.
Gemäß einer Ausführungsform werden bei der Bestimmung des Faktors d Informationen über die aktuelle Umgebung des Fahrzeugs berücksichtigt. Die Schätzung des Faktors d kann weitere Szeneninformationen berücksichtigen, wie Umgebungsinformationen (Landstraße, Stadt, Autobahn, Tunnel, Unterführung), die über Bildverarbeitung aus den Sensordaten oder Daten eines Navigationssystems (bspw. GPS Empfänger mit digitaler Karte) gewonnen werden.
Beispielsweise kann der Faktor d basierend auf Umgebungsinformationen und aus der zeitlichen Reihenfolge von Bildern als auch aus der Historie des Faktors d geschätzt werden.
Die Schätzung des Faktors d beim Einsatz eines trainierten künstlichen neuronalen Netzwerks kann somit dynamisch erfolgen.
In einer Ausführungsform erfolgt eine Ausgabe der umgewandelten Bilddaten an mindestens eine ADAS-Detektionsfunktion, welche ADAS-relevante Detektionen ermittelt und ausgibt. ADAS-Detektionsfunktionen können bekannte Kanten- bzw. Mustererkennungsverfahren umfassen sowie Erkennungsverfahren, die mittels eines künstlichen neuronalen Netzwerks relevante Bildobjekte erkennen und optional klassifizieren können.
In einer alternativen Ausführungsform kann der Ansatz erweitert werden und das künstliche neuronale Netzwerk zur Umwandlung der Bilddaten kann mit einem neuronalen Netzwerk für ADAS-Detektionsfunktionen, z.B. Spurerkennung, Objekterkennung, Tiefenerkennung, semantische Erkennung, kombiniert werden.
Somit wird kaum zusätzlicher Aufwand in der Rechenzeit verursacht. Nach dem Training kann die (erste) Ausgangsschnittstelle für die Ausgabe der umgewandelten Bilddaten eliminiert werden, so dass bei Einsatz im Fahrzeug nur die (zweite) Ausgangsschnittstelle für die ADAS-Detektionen vorhanden ist.
Die Erfindung betrifft weiterhin eine Vorrichtung mit mindestens einer Datenverarbeitungseinheit konfiguriert zur Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten. Die Vorrichtung umfasst: eine Eingangsschnittstelle, ein trainiertes künstliches neuronales Netzwerk und eine (erste) Ausgangsschnittstelle.
Die Eingangsschnittstelle ist konfiguriert zum Empfangen von Eingangs-Bilddaten einer aktuellen Helligkeit oder Farbverteilung von den Fahrzeugkameras. Das trainierte künstliche neuronale Netzwerk ist dazu konfiguriert, die Eingangs-Bilddaten, die eine erste Helligkeit oder Farbverteilung aufweisen, in Ausgabe-Bilddaten mit abweichender Ausgabehelligkeit oder -farbverteilung umzuwandeln.
Die (erste) Ausgangsschnittstelle ist dazu konfiguriert, die umgewandelten Bilddaten auszugeben.
Die Vorrichtung bzw. die Datenverarbeitungseinheit kann insbesondere einen Mikrocontroller oder -prozessor, eine Zentrale Verarbeitungseinheit (CPU), ein Grafische Verarbeitungseinheit (GPU), einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.
Gemäß einer Ausführungsform ist die Datenverarbeitungseinheit in eine hardwarebasierter Bildvorverarbeitungsstufe (Image Signal Processor, ISP) implementiert.
In einer Ausführungsform ist das trainierte künstliche neuronale Netzwerk zur Umwandlung von Eingangs-Bilddaten in Ausgangs-Bilddaten mit optimierter Helligkeit oder Farbverteilung ein Bestandteil eines fahrzeugseitigen ADAS-Detektions-Neuronalen-Netzwerks, z.B. zur semantischen Segmentierung, Fahrspurdetektion bzw. Objektdetektion, mit einer geteilten Eingangsschnittstelle (Eingangs- bzw. Merkmalsrepräsentationsschichten), und zwei separaten Ausgangsschnittstellen (Ausgangsschichten) ist. Die erste Ausgangsschnittstelle ist zur Ausgabe der umgewandelten Ausgabebilddaten und die zweite Ausgangsschnittstelle ist zur Ausgabe der ADAS-Detektionen (Bilderkennungsdaten) konfiguriert.
Die Erfindung betrifft weiterhin ein Computer Programmelement, welches, wenn damit eine Datenverarbeitungseinheit programmiert wird, die Datenverarbeitungseinheit dazu anweist, ein Verfahren zur Umwandlung von Eingangs-Bilddaten der Fahrzeugkameras in optimierte Ausgabe-Bilddaten durchzuführen.
Die Erfindung betrifft weiterhin ein Computerlesbares Speichermedium, auf dem ein solches Programmelement gespeichert ist.
Die Erfindung betrifft weiterhin die Verwendung eines Verfahrens zum maschinellen Lernen einer Umwandlung von Eingangs-Bilddaten mehrerer Fahrzeugkameras eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten zum Trainieren eines künstlichen neuronalen Netzwerks einer Vorrichtung mit mindestens einer Datenverarbeitungseinheit.
Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Hardware, Firmware oder Software implementiert sein.
Im Folgenden werden Ausführungsbeispiele und Fig. näher beschrieben. Dabei zeigen

1: eine erste schematische Darstellung einer erfindungsgemäßen Vorrichtung in einer Ausgestaltung;
2: eine zweite schematische Darstellung einer erfindungsgemäßen Vorrichtung in einer Ausgestaltung in einem Fahrzeug;
3: schematisch eine allgemeine Übersicht eines Systems zur Umwandlung bzw. Sichtverbesserung von Fahrzeugkamerabildern;
4: ein System mit einem ersten neuronale Netz zur Sichtverbesserung mit einem nachgelagertem zweiten neuronalen Netz für Detektionsfunktionen;
5: ein neuronales Netzwerk für die Sichtverbesserung eines Eingangsbildes, welches Merkmalsrepräsentationsschichten mit dem Netzwerk für die Detektionsfunktionen teilt und zwei Ausgänge aufweist; und
6: einen auf 5 basierenden abgewandelten Ansatz.

Wie man aus 1 erkennen kann, kann eine erfindungsgemäße Vorrichtung zur 1 zur Umwandlung von Eingangs-Bilddaten von mehreren Fahrzeugkameras eines Rundumsichstsystems in optimierte Ausgabe-Bilddaten mehrere Einheiten bzw. Schaltungskomponenten aufweisen. Bei dem in 1 dargestellten Ausführungsbeispiel weist die Vorrichtung zur adaptiven Bildkorrektur mehrere Fahrzeugkameras 2-i auf, die jeweils Kamerabilder bzw. Videodaten erzeugen. Bei dem in 1 dargestellten Ausführungsbeispiel weist die Vorrichtung 1 vier Fahrzeugkameras 2-i zur Erzeugung von Kamerabildern auf. Die Anzahl der Fahrzeugkameras 2-i kann für unterschiedliche Anwendungen variieren. Die erfindungsgemäße Vorrichtung 1 weist mindestens zwei Fahrzeugkameras zur Erzeugung von Kamerabildern auf. Die Kamerabilder von benachbarten Fahrzeugkameras 2-i weisen typischerweise überlappende Bildbereiche auf.
Die Vorrichtung 1 enthält eine Datenverarbeitungseinheit 3, welche die von den Fahrzeugkameras 2-i erzeugten Kamerabilder zu einem zusammengesetzten Gesamtbild zusammensetzt. Wie in 1 dargestellt, weist die Datenverarbeitungseinheit 3 ein System zur Bildumwandlung 4 auf. Das System zur Bildumwandlung 4 erzeugt aus den Eingangsbilddaten (Ini) der Fahrzeugkameras (2-i) Ausgangs- bzw. Ausgabebilddaten (Opti), die eine optimierte Helligkeit bzw. Farbverteilung aufweisen. Die optimierten Ausgabebilddaten der einzelnen Fahrzeugkameras werden zu einem zusammengesetzten Gesamtbild zusammengesetzt (sogenanntes Stitching). Das von der Bildverarbeitungseinheit 3 aus den optimierten Bilddaten (Opti) zusammengesetzte Gesamtbild wird anschließend durch eine Anzeigeeinheit 5 einem Nutzer angezeigt. Bei einer möglichen Ausführungsform wird für das System zur Bildumwandlung 4 durch eine eigenständige Hardwareschaltung gebildet, welche die Umwandlung der Helligkeit bzw. der Farbverteilung vornimmt. Bei einer alternativen Ausführungsform führt das System Programmbefehle bei Durchführung eines Verfahrens zur Bildumwandlung aus.
Die Datenverarbeitungseinheit 3 kann einen oder mehrere Bildverarbeitungsprozessoren aufweisen, wobei sie die von den verschiedenen Fahrzeugkameras 2-i empfangenen Kamerabilder bzw. Videodaten umwandelt und anschließend zu einem zusammengesetzten Gesamtbild zusammensetzt (Stitching). Bei einer möglichen Ausführungsform wird das System zur Bildumwandlung 4 durch einen dafür vorgesehenen Prozessor gebildet, welcher die Umwandlung der Helligkeit bzw. der Farbverteilung parallel zu dem oder den übrigen Prozessoren der Datenverarbeitungseinheit 3 vornimmt. Durch die parallele Datenverarbeitung wird die benötigte Zeit zur Verarbeitung der Bilddaten gesenkt.
2 zeigt eine weitere schematische Darstellung einer erfindungsgemäßen Vorrichtung 1 in einer Ausgestaltung. Die in 2 dargestellte Vorrichtung 1 wird in einem Surround View System eines Fahrzeugs 10, insbesondere eines Personenkraftwagens oder eines Lastkraftwagens, eingesetzt. Hierbei können sich die vier verschiedenen Fahrzeugkameras 2-1, 2-2, 2-3, 2-4 an verschiedenen Seiten des Fahrzeugs 10 befinden und weisen entsprechende Sichtbereiche (gestrichelte Linien) vor V, hinter H, links L und rechts R dem bzw. des Fahrzeug(s) 10 auf.
Beispielsweise befindet sich die erste Fahrzeugkamera 2-1 an einer Vorderseite des Fahrzeugs 10, die zweite Fahrzeugkamera 2-2 an einer Hinterseite des Fahrzeugs 10, die dritte Fahrzeugkamera 2-3 an der linken Seite des Fahrzeugs 10 und die vierte Fahrzeugkamera 2-4 an der rechten Seite des Fahrzeugs 10. Die Kamerabilder von zwei benachbarten Fahrzeugkameras 2-i weisen überlappende Bildbereiche VL, VR, HL, HR auf. Bei den Fahrzeugkameras 2-i handelt es sich bei einer möglichen Ausführungsform um sogenannte Fischaugenkameras, die einen Blickwinkel von mindestens 185° aufweisen. Die Fahrzeugkameras 2-i können die Kamerabilder bzw. Kamera-Bild-Frames bzw. Videodaten bei einer möglichen Ausführungsform über eine Ethernet-Verbindung an die Datenverarbeitungseinheit 3 übertragen. Die Datenverarbeitungseinheit 3 berechnet aus den Kamerabildern der Fahrzeugkameras 2-i ein zusammengesetztes Surround-View-Kamerabild, das auf der Anzeige 5 des Fahrzeugs 10 dem Fahrer und/oder einem Passagier angezeigt wird. In manchen Fällen weichen die Lichtverhältnisse in der Umgebung bei der vorderen Fahrzeugkamera 2-1 und bei der hinteren Fahrzeugkamera 2-2 während der Fahrt voneinander ab, beispielsweise bei der Einfahrt in einen Fahrzeugtunnel oder beim Einfahren in eine Fahrzeuggarage.
Bei einer dunklen Umgebung des Fahrzeugs 10 leuchten die aktivierten Frontscheinwerfer den vorderen Bereich V vor dem Fahrzeug 10 mit weißem Licht und relativ hoher Intensität aus, die Heckscheinwerfer den hinteren Bereich H hinter dem Fahrzeug mit rotem Licht und mittlerer Intensität. Dagegen sind die Bereiche links L und rechts R neben dem Fahrzeug 10 nahezu unbeleuchtet.
Bei einem gleichzeitigen bzw. gemeinsamen Training eines künstlichen neuronalen Netzwerks mit dunklen Bildern (beispielsweise für die Seitenkameras 2-3, 2-4) und hellen Bildern (beispielsweise für die Front- 2-1 und Rearviewkameras 2-2) lernt das neuronale Netz optimale Parameter.
Bei dem gemeinsamen Training für mehrere Fahrzeugkameras 2-i werden in einer ersten Anwendung bevorzugt Groundtruth-Daten verwendet, welche eine für alle Zielkameras 2-1, 2-2, 2-3, 2-4 angewandte Helligkeit und Balance aufweisen. Mit anderen Worten sind die Groundtruth-Daten für alle Zielkameras 2-1, 2-2, 2-3, 2-4 derart ausbalanciert, dass beispielsweise bei einer Surroundview-Anwendung keine Helligkeitsunterschiede in den Groundtruth-Daten erkennbar sind. Mit diesen Groundtruth-Daten als Referenz und den Eingangsdaten der Zielkameras 2-1, 2-2, 2-3, 2-4, die unterschiedliche Helligkeiten haben können, wird ein neuronales Netz CNN1, CNN10, CNN11, CNN12, hinsichtlich eines optimalen Parametersets für das Netz trainiert. Dieser Datensatz kann beispielsweise aus Bildern mit weißem und rotem Scheinwerferlicht für die Frontkameras 2-1 und Rückkameras 2-2, und dunklen Bildern für die Seitenkameras 2-3, 2-4 bestehen. Denkbar sind ebenfalls Daten mit unterschiedlich ausgeleuchteten Seitenbereichen L, R, beispielsweise wenn sich das Fahrzeug 10 neben einer Straßenlaterne befindet, oder das Fahrzeug 10 auf einer Seite eine zusätzliche Lichtquelle aufweist.
In einer weiteren Anwendung kann das neuronale Netz für die gemeinsamen Kameras 2-i dahingehend trainiert werden, dass auch im Falle von fehlenden Trainingsdaten und Groundtruth-Daten für eine Kamera, beispielsweise einer Seitenkamera 2-3 oder 2-4, das Netz die Parameter für diese Kamera 2-3 oder 2-4 mit den fehlenden Daten basierend auf den Trainingsdaten der anderen Kameras 2-1, 2-2 und 2-4 oder 2-3 trainiert und optimiert. Dies kann beispielsweise als Einschränkung (bzw. Constraint) im Training des Netzes erreicht werden, beispielsweise als Annahme, dass die Korrektur und Training aufgrund ähnlicher Lichtverhältnisse der Seitenkameras 2-3 und 2-4 immer gleich sein muss.
In einem letzten Beispiel nutzt das neuronale Netz zeitlich unterschiedliche und mit den Kameras 2-i korrelierte Trainings- und Groundtruth-Daten, welche durch die verschiedenen Kameras 2-i zu unterschiedlichen Zeitpunkten aufgenommen wurde. Dazu können Informationen von Features oder Objekten und deren Groundtruth-Daten verwendet werden, welche beispielsweise zu einem Zeitpunkt t von der Frontkamera 2-1 und zu einem Zeitpunkt t+n von den Seitenkameras 2-3, 2-4 aufgenommen wurden. Diese Feature oder Objekte und deren Groundtruth-Daten können fehlende Informationen in den Training- und Grorundtruth-Daten der jeweils anderen Kameras ersetzen, wenn sie in den Bildern der anderen Kameras 2-i und dann vom Netz als Trainingsdaten verwendet werden. Auf diese Weise kann das Netz die Parameter für alle Seitenkameras 2-3, 2-4 optimieren, und gegebenenfalls fehlende Informationen in den Trainingsdaten kompensieren.
Dies führt bei der Verwendung von mehreren Fahrzeugkameras 2-i zu einer angepassten Helligkeit und Balance für alle Fahrzeugkameras 2-i, da die individuellen Beleuchtungsprofile im Außenraum im Gesamtverbund explizit erfasst und trainiert werden.
3 zeigt schematisch eine allgemeine Übersicht eines Systems zur Umwandlung bzw. Sichtverbesserung von Kamerabildern. Wesentlicher Bestandteil ist ein künstliches neuronales Netzwerk CNN1, welches in einer Trainingsphase lernt, einem Satz von Trainingsbildern In (In1, In2, In3, ...) einen Satz von korrespondieren sichtverbesserten Bildern Out (Out1, Out2, Out3, ...) zuzuordnen. Zuordnen heißt hierbei, dass das neuronale Netz CNN1 lernt, ein sichtverbessertes Bild zu generieren. Ein Trainingsbild (In1, In2, In3, ...) kann z.B. eine Straßenszene bei Dämmerung enthalten, auf dem mit dem menschlichen Auge nur ein unmittelbar vor dem Fahrzeug befindliches weiteres Fahrzeug und der Himmel erkennbar sind. Auf dem korrespondierenden sichtverbesserten Bild (Out1, Out2, Out3, ...) sind zusätzlich die Konturen des weiteren Fahrzeugs, ein Bürgersteig als Fahrbahnbegrenzung und angrenzende Gebäude erkennbar.
Vorzugsweise dient ein Faktor d als zusätzliche Eingangsgröße für das neuronale Netz CNN1. Der Faktor d ist ein Maß für den Grad der Sichtverbesserung. Beim Training kann der Faktor d für ein Bildpaar aus Trainingsbild und sichtverbessertem Bild (In1, Out1; In2, Out2; In3, Out3; ...) vorab ermittelt und dem neuronalen Netz CNN1 bereitgestellt werden. Beim Einsatz des trainierten neuronalen Netzes CNN1 kann über die Vorgabe eines Faktors d gesteuert werden, wie stark das neuronale Netz CNN1 ein Bild „erhellt“ bzw. „abdunkelt“ - man kann sich den Faktor d auch als einen externen Regressionsparameter vorstellen (nicht nur hell - dunkel, sondern mit einer beliebigen Abstufung). Da der Faktor d möglichen Schwankungen im Bereich von +/- 10% unterliegen kann, wird dies während des Trainings berücksichtigt. Der Faktor d kann während des Trainings um circa +/- 10% verrauscht werden (z.B., während der verschiedenen Epochen des Trainings des neuronalen Netzwerkes), um währen der Inferenz im Fahrzeug robust gegenüber Fehlschätzungen des Faktors d im Bereich von ca. +/- 10% zu sein. Mit anderen Worten liegt Ddie nötige Genauigkeit von Faktor d liegt im Bereich von +/- 10% - somit ist das neuronale Netz CNN1 robust gegenüber Abweichungen bei Schätzungen von diesem Parameter.
Eine Möglichkeit zur Erzeugung der Trainingsdaten (Trainingsbilder (In1, In2, In3, ...) und zugeordnete sichtverbesserte Bilder (Out1, Out2, Out3, ...)) besteht in der Aufnahme von Bilddaten einer Szene mit jeweils einer kurzen und zeitgleich bzw. unmittelbar aufeinander folgend mit einer langen Belichtungszeit. Darüberhinausgehend können für eine Szene Bildpaare (In1, Out1; In2, Out2; In3, Out3; ...) mit verschiedenen Faktoren d aufgenommen werden, um so ein kontinuierliches Spektrum für die Sichtverbesserung abhängig von dem Parameter bzw. Faktor d zu lernen. Vorzugsweise ist die Fahrzeugkamera 2-i während der Erzeugung der Trainingsdaten stationär (unbewegt) gegenüber der zu erfassenden Umgebung. Beispielsweise können die Trainingsdaten mittels einer Fahrzeukamera 2-i eines stehenden Fahrzeugs 10 erfasst werden. Die von der Fahrzeugkamera 2-i erfasste Szene kann insbesondere eine statische Umgebung beinhalten, also ohne bewegte Objekte.
Wenn das neuronale Netz CNN1 trainiert ist, erfolgt eine Sichtverbesserung nach folgendem Schema:

Eingangsbild → CNN1
Faktor d → CNN1
CNN1 → sichtverbessertes Ausgangs-/Ausgabebild.

Die 4 bis 6 zeigen Ausführungsbeispiele für mögliche Kombinationen eines ersten Netzwerks für die Sichtverbesserung mit einem oder mehreren Netzwerken der Funktionen für Fahrerassistenzfunktionen und Automatisiertes Fahren geordnet nach dem Verbrauch an Rechenressourcen.
4 zeigt ein System mit einem ersten neuronale Netz CNN1 zur Sichtverbesserung mit einem nachgelagertem zweiten neuronalen Netz CNN2 für Detektionsfunktionen (fn1, fn2, fn3, fn4). Die Detektionsfunktionen (fn1, fn2, fn3, fn4) sind hierbei Bildverarbeitungsfunktionen, die für ADAS oder AD-Funktionen relevante Objekte, Strukturen, Eigenschaften (allgemein: Merkmale) in den Bilddaten detektieren. Viele solcher Detektionsfunktionen (fn1, fn2, fn3, fn4), die auf maschinellem Lernen beruhen, sind bereits entwickelt oder Gegenstand aktueller Entwicklung (z. B: Verkehrszeichenklassifikation, Objektklassifikation, semantische Segmentierung, Tiefenschätzung, Fahrspurmarkierungserkennung und -lokalisierung). Auf sichtverbesserten Bildern (Opti) liefern Detektionsfunktionen (fn1, fn2, fn3, fn4) des zweiten neuronalen Netzes CNN2 bessere Ergebnisse als auf den ursprünglichen Eingangsbilddaten (Ini) bei schlechten Sichtverhältnissen.
Wenn die beiden neuronalen Netze CNN1 und CNN2 trainiert sind, kann ein Verfahren nach folgendem Schema ablaufen:

Eingangsbild (Ini), Faktor d → CNN1 → sichtverbessertes Ausgangs-/Ausgabebild (Opti) → CNN2 für Detektionsfunktionen (fn1, fn2, fn3, fn4) → Ausgabe der Detektionen: Objekte, Tiefe, Spur, Semantik, ...

5 zeigt ein neuronales Netzwerk CNN10 für die Sichtverbesserung eines Eingangsbildes (Ini) ggfs. gesteuert durch einen Faktor d, welches Merkmalsrepräsentationsschichten (als Eingangs- bzw. untere Schichten) mit dem Netzwerk für die Detektionsfunktionen (fn1, fn2, fn3, fn4) teilt. In den Merkmalsrepräsentationsschichten des neuronalen Netzwerks CNN10 werden gemeinsame Merkmale für die Sichtverbesserung und für die Detektionsfunktionen gelernt.
Das neuronale Netz CNN10 mit geteilten Eingangsschichten und zwei separaten Ausgängen weist einen erster Ausgang CNN 11 zur Ausgabe des sichtverbesserten Ausgangs-/Ausgabebildes (Opti) sowie einen zweiten Ausgang CNN 12 zur Ausgabe der Detektionen: Objekte, Tiefe, Spur, Semantik, etc. auf.
Dadurch, dass beim Training die Merkmalsrepräsentationsschichten sowohl hinsichtlich der Sichtverbesserung als auch der Detektionsfunktionen (fn1, fn2, fn3, fn4) optimiert werden, bewirkt eine Optimierung der Sichtverbesserung zugleich eine Verbesserung der Detektionsfunktionen (fn1, fn2, fn3, fn4).
Falls nun eine Ausgabe des sichtverbesserten Bildes (Opti) nicht gewünscht bzw. nicht erforderlich ist, kann der Ansatz weiter variiert werden, wie anhand von 5 erläutert wird.
6 zeigt einen auf dem System der 5 basierenden Ansatz zur neuronalen-Netz-basierten Sichtverbesserung durch Optimierung der Merkmale. Um Rechenzeit zu sparen, werden die Merkmale für die Detektionsfunktionen (fn1, fn2, fn3, fn4) während des Trainings hinsichtlich Sichtverbesserung und hinsichtlich der Detektionsfunktionen (fn1, fn2, fn3, fn4) optimiert.
Zur Laufzeit, d.h. beim Einsatz des trainierten neuronalen Netzes (CNN10, CNN11, CNN12), werden keine sichtverbesserten Bilder (Opti) berechnet.
Dennoch sind die Detektionsfunktionen (fn1, fn2, fn3, fn4) - wie bereits erläutert - durch das gemeinsame Training von Sichtverbesserung und Detektionsfunktionen verbessert verglichen mit einem System mit nur einem neuronalen Netz (CNN2) für Detektionsfunktionen (fn1, fn2, fn3, fn4), bei dem im Training auch nur die Detektionsfunktionen (fn1, fn2, fn3, fn4) optimiert worden sind.
In der Trainingsphase wird durch eine zusätzliche Ausgangsschnittstelle (CNN11) das helligkeitsverbesserte Bild (Opti) ausgegeben und mit der Ground Truth (dem korrespondierenden sichtverbesserten Trainingsbild) verglichen. In der Testphase bzw. zur Laufzeit kann dieser Ausgang (CNN11) weiterverwendet werden oder, um Rechenzeit zu sparen, abgeschnitten werden. Die Gewichte für die Detektionsfunktionen (fn1, fn2, fn3, fn4) werden bei diesem Training mit dem zusätzlichen Ausgang (CNN11) dahingehend modifiziert, dass sie die Helligkeitsverbesserungen für die Detektionsfunktionen (fn1, fn2, fn3, fn4) berücksichtigen. Die Gewichte der Detektionsfunktionen (fn1, fn2, fn3, fn4) lernen somit implizit die Information über die Helligkeitsverbesserung.
Weitere Aspekte und Ausführungsformen eines auf Surroundviewkameras basierten Assistenzsystems, welches die Bilddaten trotz Dunkelheit und fehlenden Farbinformationen algorithmisch in eine Darstellung umrechnet, welche eine Aufnahme bei Ausleuchtung oder Tageslicht entspricht, werden im Folgenden dargelegt. Das umgerechnete Bild kann entweder zu reinen Anzeigezwecken oder als Input für featurebasierte Erkennungsalgorithmen dienen.

1a) In einer ersten Ausführung basiert die Berechnung in einem System beispielsweise auf einem neuronalen Netz, welches einer Detektions- oder Anzeigeeinheit vorgelagert ein sehr dunkles Eingangsbild mit wenig Kontrast und Farbinformationen in eine beispielsweise taghelle Repräsentation umwandelt. Für diese Aufgabe wurde das neuronale Netz mit einem Datensatz bestehend aus „dunklen Eingangsbildern“ und den dazugehörigen „taghellen Bildern“ trainiert. Dieses Training kann für jede Fahrzeugkamera individuell durchgeführt werden, so dass eine Umrechnung für jede einzelne Fahrzeugkamera individuell stattfindet. Ein individuelles Training für jede Fahrzeugkamera bietet den Vorteil einer Redundanz im Gesamtsystem. Je nach Art des Trainings kann das neuronale Netz Verfahren wie White Balancing, Gamma Correction und Histogram Equalization in einer sehr idealen Weise nachbilden, und zusätzliche, in der Netzwerkstruktur gespeicherten Informationen nutzen, um fehlende Farb- oder Kontrastinformationen automatisch zu ergänzen. Auf diese Art lassen sich sehr dunkle Bilder in eine Darstellung umwandeln, welche für eine featurebasierte Erkennung und eine Betrachtung vorteilhaft ist.
1b) In einem alternativen Training können auch alle Fahrzeugkameras gleichzeitig trainiert werden. Dies hätte den Vorteil, dass das Netz bei einem gleichzeitigen Training mit dunklen Bildern (beispielsweise für die Seitenkameras) und hellen Bildern (beispielsweise für die Front- und Rearviewkameras) optimale Parameter lernt. Dies führt bei der Verwendung von mehreren Fahrzeugkameras zu einer angepassten Helligkeit und Balance für alle Fahrzeugkameras, da die individuellen Beleuchtungsprofile im Außenraum im Gesamtverbund explizit erfasst und trainiert werden. Beim Training wird durch eine Vorgabe entsprechender Soll-Ausgabe-Bilder (Ground Truth Daten) ermöglicht, dass das Netzwerk lernt, die unterschiedlichen Bilder der einzelnen Fahrzeugkameras umzuwandeln in Bilder mit optimierter Helligkeit und/oder Farbverteilung. Als optimal kann beispielsweise gelten, dass Helligkeit bzw. Farbverteilung im überlappenden Sichtbereich benachbarter Fahrzeugkameras gleich oder nahezu gleich sind. Indem Ground Truth Daten für sämtliche Fahrzeugkameras verwendet werden, die alle in Helligkeit bzw. Farbverteilung dem optimierten Bild der Frontkamera entsprechen, sind später bei Einsatz des trainierten neuronalen Netzes stets die umgewandelten Bilder aller Fahrzeugkameras ideal, um daraus mittels Stitching ein zusammengesetztes Bild für die Anzeigeeinheit zu erzeugen. Das Training kann in einer Ausführungsform Ground Truth Daten vorsehen, die Ergebnis einer Bildsimulation oder einer Bildsynthese sind. Beispielsweise können die Soll-Ausgabe-Bilder der seitlichen Fahrzeugkameras unter Berücksichtigung realer Front- und Rückbilder simuliert oder synthetisiert werden.
2) In einer weiteren Ausführung kann dieses Verfahren in einer hardwarebasierten Bildvorverarbeitungsstufe, der ISP (Image Signal Processor), integriert sein. Diese ISP wird hardwareseitig um ein kleines trainiertes neuronales Netz ergänzt, welches die entsprechende Umwandlung vornimmt und die aufbereiteten Informationen mit den Originaldaten möglichen Detektions- oder Anzeigeverfahren zur Verfügung stellt.
3) Dieses Verfahren kann in einer weiteren Anwendung dahingehend angewandt werden, dass es wie bei einem Surroundviewsystem vorkommend Bilder mit unterschiedlichen Beleuchtungsprofilen zu einem Gesamtbild mit ausgewogener Beleuchtung verrechnet. Als Beispiel sei die Anzeige der Fahrzeugumgebung auf einem Display bei einer unbeleuchteten Landstraße genannt, wo die Bereiche der vorderen und hinteren Fahrzeugkameras durch Scheinwerfer ausgeleuchtet sind, die seitlichen Bereiche allerdings keine Aufhellung durch Scheinwerfer erfahren.
4) In einer weiteren Ausführung kann das System mit dem neuronalen Netz dahingehend trainiert werden, dass es Informationen aus den besser beleuchteten Bereichen nutzt, um die Umrechnung für die unbeleuchteten Bereiche weiter zu verbessern. Hier wird das Netz dann weniger mit Einzelbildern für jede Fahrzeugkamera individuell trainiert, sondern als Gesamtsystem bestehend aus mehreren Kamerasystemen.
5) In einer weiteren Anwendung können dem Netz zum Trainieren neben Beleuchtungsinformationen und Bilddaten Informationen zur Bildqualität zur Verfügung gestellt werden. Dahingehend kann das System und das Verfahren dahingehend optimiert werden, dass es für Computer Vision und Human Vision optimierte Bilddaten berechnet.
6) In einer weiteren Ausführung wird die Recheneffizienz optimiert. Hierzu wird kein separates neuronales Netzwerk für die Rekonstruktion der sichtverbesserten Nachtbilder benötigt, stattdessen wird eines der operativen Netzwerke im Fahrzeug hierzu herangezogen, z.B. ein Netzwerk für die semantische Segmentierung, die Fahrspurerkennung, die Objekterkennung oder ein Multi-Task-Netzwerk.

Diesem Netzwerk wird eine oder mehrere weitere Ausgangsschicht(en) hinzugefügt, welche für die Rekonstruktion der sichtverbesserten Nachtbilder zuständig ist. Während des Trainings werden die Trainingsdaten für die Nachtsichtverbesserung für die Berechnung dieser Ausgangsschicht verwendet.
Während der Laufzeit im Fahrzeug sind zwei unterschiedliche Ausführungen umsetzbar:

a) Die Rekonstruktion der sichtverbesserten Aufnahmen wird weiteren Funktionen zur Verfügung gestellt: Hier wird die Ausgabe der erweiterten Ausgangschichten benötigt. Diese Ausgabe wird berechnet und die sichtverbesserten Bilder werden den Funktionen zur Verfügung gestellt, z.B. für eine Anzeige für den Fahrer.
b) Die direkte Rekonstruktion der sichtverbesserten Aufnahmen wird nicht benötigt: Da ein gemeinsames Netzwerk für die Funktion(en) und die Sichtverbesserung verwendet wird, findet in diesem Falle während des Trainings eine signifikante Verbesserung der Merkmalsrepräsentation der einzelnen Schichten für die Funktionen statt. Dies wird durch folgenden Netzwerkaufbau erzielt:
- - die Netzwerkschichten werden sowohl für die Funktionen als auch für die Verbesserung der Sicht erzielt,
- - nur die Ausgangschichten der Funktionen und der Sichtverbesserungen enthalten separate Neuronen für die Funktion oder die Sichtverbesserung, und
- - das Training des Netzwerkes umfasst Daten für die Funktion und die Sichtverbesserung.

Dieses Setup macht es möglich, dass die Merkmalsrepräsentation der gemeinsam verwendeten Schichten Information über die Sichtverbesserung enthält und diese Information den Funktionen zur Verfügung gestellt wird. Zur Laufzeit besteht somit die Möglichkeit, das Netzwerk nur für die Berechnung der Funktionen zu verwenden, welche hierzu auf sichtverbesserte Merkmalsrepräsentationen arbeiten. Dies ist eine rechenzeit-effiziente Umsetzung, die insbesondere für den Betrieb auf eingebetteten Systemen geeignet ist.
Der zusätzliche Rechenaufwand zur Laufzeit beträgt bei dieser Ausführung entweder nur die Berechnung der Ausgangsschicht(en), wenn die sichtverbesserten Nachtbilder weiteren Funktionen im Fahrzeug zur Verfügung gestellt werden, oder keinen zusätzlichen Rechenaufwand, wenn die Sichtverbesserung in die Algorithmen der Funktionen integriert ist und nur die Ausgabe dieser Funktionen weiterverwendet wird, z.B., Spurerkennung, Objekterkennung, semantische Segmentierung und/oder Tiefenschätzung.

7) Für die Anwendung im Straßenverkehr kann die Sichtverbesserung erweitert werden hinsichtlich Überbelichtung. Mit den hier beschriebenen Methoden kann ein gemeinsames Netzwerk zur Sichtverbesserung gelernt werden, welches sowohl die Qualität von überbelichteten als auch unterbelichteten Aufnahmen aufwertet. Eine Fusion dieser beiden Anwendungen in einem Netzwerk ermöglicht eine recheneffiziente Umsetzung im Fahrzeug. Weiterhin kann die Recheneffizienz erhöht werden, wenn diese Netzwerkfusion ebenfalls auf die Funktionen, wie Objekterkennung, Spurerkennung, Tiefenschätzung, semantische Segmentierung, erweitert wird.
8) Zur Laufzeit werden nur die Aufnahmen der Fahrzeugkameras benötigt und optional eine Abschätzung des Verhältnisses/Faktors d, welcher die erreichte Sichtverbesserung zwischen Eingangsbild und Ausgangsbild beschreibt. Dies kann beispielsweise durch das Verhältnis der Belichtungszeit zwischen Eingangs- und Ausgangsbild beschrieben werden. Auch andere Verhältnisse zum Messen eines solchen Verhältnisses sind denkbar.

D.h. das Netzwerk berechnet basierend auf den Eingangsdaten (=eine Aufnahme mit kurzer Belichtungszeit) ein sichtverbessertes Bild, welches einer Aufnahme mit längerer Belichtungszeit entspricht.
Im Fahrzeug ist die Belichtungszeit insbesondere bei Nachtaufnahmen begrenzt, um die Qualität der Aufnahme durch die Fahrgeschwindigkeit oder in Kurven nicht zu beeinträchtigen (u.a. motion blur). In Kombination mit dem vorgeschlagenen Netzwerk zur Sichtverbesserung werden Bilder mit längerer Belichtungszeit berechnet, ohne dass diese durch z.B. die Fahrgeschwindigkeit beeinträchtigt werden.
Die Abschätzung des Verhältnisses (bzw. Faktors d) kann aus dem jetzigen Bild, dem vorherigen Bild oder einer Bilderfolge gewonnen werden. Ein Beispiel hierzu sei der Wechsel aus einer beleuchteten Innenstadt auf die Landstraße.
Hierzu kann ein Regelkreis aufgesetzt werden, in dem die Eigenschaften des Illuminanzhistogramms verfolgt werden. Tritt eine Abweichung von der mittleren erwarteten Verteilung auf, kann das Verhältnis erhöht oder erniedrigt werden.
Diese Anpassung des Verhältnisses ist zur Laufzeit im Fahrzeug relevant. Beim Training sind die Verhältnisse der Belichtungszeiten bekannt, und die mittlere erwartete Verteilung für die Sichtverbesserung kann aus den Ground Truth Bildern der Trainingsdaten für verschiedene Szenen berechnet werden. Die Szenentypen können zur Laufzeit im Fahrzeug aus den Funktionen gewonnen werden, z.B. der semantischen Segmentierung.
Somit kann das Verhältnis zur Sichtverbesserung zur Laufzeit a) eine konstante, b) abhängig vom Illuminanzhistogramm, c) abhängig von der Straßenszene, oder d) abhängig vom Illuminanzhistogramm und der Straßenszene sein.
Zusammenfassend können in dynamischen Szenen wie Straßenverkehrsszenen Abweichungen von einem festen Sichtverbesserungsfaktor d auftreten. Mit einer Regulierung dieses Faktors lässt sich die Sichtverbesserung für eine große Anzahl an verschiedenen Verkehrsszenen zur Laufzeit im Fahrzeug erreichen.
Wesentliche Vorteile sind:

- Sehr effiziente Methode zur Aufbesserung der Bildqualität bei unzureichender Beleuchtung
- Deutliche Verbesserung der Bildqualität bei der Anzeige von Nachtbildern
- Es wird keine zusätzliche Beleuchtung benötigt, welche Fahrzeugbereiche wie die seitlichen Bereiche mit fehlender Beleuchtung aufhellt. Dies kann ein Alleinstellungsmerkmal für ADAS darstellen.
- Generierung eines Bilddatenstromes für Human und Computer Vision aus einem Netzwerk

Neben Kraftfahrzeugen sind alternative Anwendungsgebiete beispielsweise Flugzeuge, Schiffe, Drohnen, Busse und Bahnen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102014210323 A1 [0004]

Claims

Verfahren zum maschinellen Lernen einer Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras (2-i) eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten mittels mindestens eines künstlichen neuronalen Netzwerks (CNN1, CNN10, CNN11, CNN12), wobei das Lernen mit einer Vielzahl von Trainings-Bildpaaren (In1, Out1; In2, Out2; In3, Out3; ...) derart erfolgt, dass am Eingang des künstlichen neuronalen Netzwerks (CNN1, CNN10) jeweils ein erstes Bild (In1, In2, In3, ...) einer ersten Helligkeit oder Farbverteilung und als Soll-Ausgabe-Bild ein zweites Bild (Out1, Out2, Out3, ...) derselben Szene mit einer abweichenden zweiten Helligkeit oder Farbverteilung bereitgestellt wird.
Verfahren nach Anspruch 1, wobei die Trainings-Bildpaare (In1, Out1; In2, Out2; In3, Out3; ...) für jede der Fahrzeugkameras (2-i) erzeugt werden, indem jeweils ein erstes Bild (In1, In2, In3, ...) mit erster und ein zweites Bild (Out1, Out2, Out3, ...) mit zweiter Helligkeit zeitgleich oder unmittelbar aufeinander folgend mit unterschiedlichen Belichtungszeiten aufgenommen werden.
Verfahren nach Anspruch 1 oder 2, wobei ein künstliches neuronales Netzwerk (CNN1; CNN10, CNN11, CNN12) für alle Fahrzeugkameras (2-i) gemeinsam trainiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei mindestens ein Faktor d als Maß für den Unterschied zwischen der zweiten und der ersten Helligkeit eines Trainings-Bildpaars (In1, Out1; In2, Out2; In3, Out3; ...) ermittelt wird und dem künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das künstliche neuronale Netz (CNN1, CNN10, CNN11, CNN12) eine gemeinsame Eingangsschnittstelle für zwei separate Ausgangsschnittstellen (CNN11, CNN12) aufweist, wobei die gemeinsame Eingangsschnittstelle geteilte Merkmalsrepräsentationsschichten aufweist, wobei an der ersten Ausgangsschnittstelle (CNN11) helligkeitsumgewandelte Bilddaten (Opti) ausgegeben werden, wobei an der zweiten Ausgangsschnittstelle (CNN12) ADAS-relevante Detektionen mindestens einer ADAS-Detektionsfunktion (fn1, fn2, fn3, fn4) ausgegeben werden und wobei im Rahmen des Trainings die Ausgaben beider Ausgangsschnittstellen (CNN11, CNN12) optimiert werden.
Verfahren zur Umwandlung von Eingangs-Bilddaten einer Mehrzahl von Fahrzeugkameras (2-i) eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten mit den Schritten: a) Von den Fahrzeugkameras (2-i) aufgenommene Eingangs-Bilddaten (Ini) einer aktuellen Helligkeit oder Farbverteilung werden einem trainierten künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt, b) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Eingangs-Bilddaten (Ini) mit der aktuellen Helligkeit oder Farbverteilung in optimierte Ausgabe-Bilddaten (Opti) mit abweichender Ausgabehelligkeit oder -farbverteilung umzuwandeln, und c) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die optimierten Ausgabe-Bilddaten (Opti) auszugeben.
Verfahren nach Anspruch 6, wobei in Schritt a) zusätzlich ein Faktor d dem trainierten künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt wird und in Schritt b) die Umwandlung in Abhängigkeit von dem Faktor d gesteuert wird.
Verfahren nach Anspruch 7, wobei der Faktor d geschätzt wird und bei der Schätzung die Helligkeit oder Farbverteilung der aktuellen erfassten Bilddaten, der vorhergehend erfassten Bilddaten und/oder die Historie des Faktors d berücksichtigt wird.
Verfahren nach Anspruch 7 oder 8, wobei für jede der Fahrzeugkameras (2-i) ein eigener Faktor d geschätzt oder bestimmt wird.
Vorrichtung (1) mit mindestens einer Datenverarbeitungseinheit (3) konfiguriert zur Umwandlung von Eingangs-Bilddaten (Ini) einer Mehrzahl von Fahrzeugkameras (2-i) eines Rundumsichtsystems in optimierte Ausgabe-Bilddaten (Opti) umfassend: - eine Eingangsschnittstelle, die konfiguriert ist zum Empfangen der Eingangs-Bilddaten (Ini) einer aktuellen Helligkeit oder Farbverteilung von den Fahrzeugkameras (2-i), - ein trainiertes künstliches neuronales Netzwerk (CNN1, CNN10, CNN11, CNN12), das dazu konfiguriert ist, die Eingangs-Bilddaten (Ini) mit der aktuellen Helligkeit oder Farbverteilung in Ausgabe-Bilddaten (Opti) mit abweichender Ausgabehelligkeit oder -farbverteilung umzuwandeln und - eine erste Ausgangsschnittstelle (CNN1, CNN11), die dazu konfiguriert ist, die optimierten Ausgabe-Bilddaten (Opti) auszugeben.
Vorrichtung (1) nach Anspruch 10, wobei die Datenverarbeitungseinheit (3) in eine hardwarebasierter Bildvorverarbeitungsstufe implementiert ist.
Vorrichtung (1) nach Anspruch 10 oder 11, wobei das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11) zur Helligkeits- oder Farbverteilungsumwandlung Bestandteil eines fahrzeugseitigen ADAS-Detektions-Neuronalen-Netzwerks (CNN2, CNN12) mit einer geteilten Eingangsschnittstelle, und zwei separaten Ausgangsschnittstellen ist, wobei die erste Ausgangsschnittstelle (CNN11) zur Ausgabe der optimierten Ausgabebilddaten (Opti) und die zweite Ausgangsschnittstelle (CNN12) zur Ausgabe der ADAS-relevanten Detektionen konfiguriert sind.
Computer Programmelement, welches, wenn damit eine Datenverarbeitungseinheit programmiert wird, die Datenverarbeitungseinheit dazu anweist, ein Verfahren nach einem der Ansprüche 6 bis 9 durchzuführen.
Computerlesbares Speichermedium, auf dem ein Programmelement nach Anspruch 13 gespeichert ist.
Verwendung eines Verfahrens nach Anspruch 1 bis 5 zum Trainieren eines künstlichen neuronalen Netzwerks (CNN1, CNN10, CNN11, CNN12) einer Vorrichtung (1) nach einem der Ansprüche 10 bis 12.