DE102021208736A1

DE102021208736A1 - Computerimplementiertes Verfahren zur Korrektur von Belichtungsfehlern und Hardwaremodul für automatisiertes Fahren

Info

Publication number: DE102021208736A1
Application number: DE102021208736.1A
Authority: DE
Inventors: Yue Yao; Steffen Biel
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-02-16

Abstract

Computerimplementiertes Verfahren zur Korrektur von Belichtungsfehlern umfassend die Schritte: Bereitstellen von Aufnahmen (1) eines Bildgebungssensors; Eingeben der Aufnahmen (1) in ein zur Korrektur von Belichtungsfehlern trainiertes künstliches neuronales Netzwerk (100) umfassend eine Kodierer-Dekodierer-Architektur (10, 11, 20) umfassend einen ersten Kodierer (10), der aus einer der Aufnahmen (1) mit einem aktuellen Zeitstempel Merkmale kodiert (V1); einen zweiten Kodierer (11), der aus Aufnahmen (2) mit zeitlich zurückliegenden Zeitstempeln Merkmale kodiert (V2), wobei eine Ausgabe des ersten Kodierers (10) mit einer Ausgabe des zweiten Kodierers (11) konkateniert wird (V3); einen Dekodierer (20), der eine Konkatenation des ersten und zweiten Kodierers (10, 11) dekodiert (V4) und basierend auf den kodierten Merkmalen des ersten und zweiten Kodierers (10, 11) eine Aufnahme (3) zu dem aktuellen Zeitstempel mit korrigierter Belichtung ausgibt (V5); wobei Trainingsdaten des künstlichen neuronalen Netzwerks (100) normal belichtete Aufnahmen des Bildgebungssensors als Wahrheitsreferenz (4) und basierend auf der Wahrheitsreferenz Aufnahmen (5) mit Belichtungsfehlern umfassen und das künstliche neuronale Netzwerk (100) in einem Training mit den Trainingsdaten überwacht oder unüberwacht trainiert wird oder wurde.

Description

Die Erfindung betrifft im Wesentlichen ein computerimplementiertes Verfahren zur Korrektur von Belichtungsfehlern und ein Hardwaremodul für automatisiertes Fahren.
Kamerasensoren sind eine der wichtigsten Sensoren des autonomen Fahrens für die Wahrnehmung verschiedener Umgebungsinformationen. Dabei ist Überbelichtung, beispielsweise durch entgegenkommende Fahrzeuge oder Sonnenauf-/untergang ein Problem. Bei überbelichtetem Kamerabild könnte die Wahrnehmung weniger vertrauliche oder gar falsche Informationen liefern, was sich negativ auf ein Entscheidungsmodul beim autonomen Fahren auswirkt. Zwar kann „High Dynamic Range“ (HDR) ein größeres Spektrum an Lichtstärke des Bildes reproduzieren, indem mehrere verschiedene Belichtungen kombiniert werden. Dennoch sind in überbelichteten Szenarien in den helleren Bereichen keine Merkmale sichtbar und das Bild kann nicht wiederhergestellt werden. Die verlorenen Eigenschaften und Informationen im Bild können zu einer Situation führen, in der das Entscheidungsmodul beim autonomen Fahren nicht handhabbar ist.
In arXiv:2003.11596v1 [eess.IV] 25 Mar 2020, „Learning to Correct Overexposed and Underexposed Photos“, Mahmoud Afifi, Konstantinos G. Derpanis, Björn Ommer, Michael S. Brown wird ein coarse-to-fine künstliches neuronales Netzwerk offenbart zur schrittweisen Korrektur von Belichtungsfehlern in 8-Bit-sRGB-Bildern vor. Dabei werden n-Level einer Laplacian Pyramide eines Bildes prozessiert, um ein final korrigiertes Bild zu erhalten. Dieser Ansatz ist mit durchschnittlich 4,5 Sekunden Bearbeitungszeit pro Bild relativ zeitaufwendig und damit für Echtzeitsysteme, wie beispielsweise beim autonomen Fahren eingesetzt, nicht geeignet.
US 10 713 537 B2 offenbart ein Verfahren, um Trainingsrohbilder für ein Maschinenlernmodell zu erhalten. Ein Prozessor bestimmt eine Darstellung eines Rohbildes, initialisiert einen Satz von Bilddarstellungsparametern, definiert einen Satz von Analyseparametern eines Bildanalysenetzwerks, das zur Verarbeitung der Bilddarstellung konfiguriert ist, und trainiert gemeinsam die Darstellungsparameter und Analyseparameter, um eine kombinierte objektive Funktion zu optimieren. Die ausführbaren Prozessoranweisungen sind in ein Modul zur Umwandlung von Pixelwerten des Rohbildes zur Erzeugung eines transformierten Bildes mit Pixeln varianzstabilisierter Werte, einem Modul zur sukzessiven Durchführung von Prozessen der Soft-Kamera-Projektion und Bildprojektion und einem Modul zur inversen Transformation der transformierten Pixel unterteilt. Der Bildprojektionsprozess führt eine mehrstufige räumliche Faltung, Bündelung, Subsampling und Interpolation durch.
Aufgabe der Erfindung war es, wie Belichtungsfehler von Bildern, insbesondere für hellere Bereiche ohne sichtbare Merkmale/Informationen, insbesondere beim autonomen Fahren, gegenüber dem bekannten Stand der Technik verbessert korrigiert werden können.
Die Gegenstände der Ansprüche 1 und 7 bis 10 lösen jeweils diese Aufgabe.
Nach einem Aspekt stellt die Erfindung ein computerimplementiertes Verfahren bereit zur Korrektur von Belichtungsfehlern. Das Verfahren umfasst die Schritte: Bereitstellen von Aufnahmen eines Bildgebungssensors; Eingeben der Aufnahmen in ein zur Korrektur von Belichtungsfehlern trainiertes künstliches neuronales Netzwerk umfassend eine Kodierer-Dekodierer-Architektur. Die Kodierer-Dekodierer-Architektur umfasst

• einen ersten Kodierer, der aus einer der Aufnahmen mit einem aktuellen Zeitstempel Merkmale kodiert;
• einen zweiten Kodierer, der aus Aufnahmen mit zeitlich zurückliegenden Zeitstempeln Merkmale kodiert, wobei eine Ausgabe des ersten Kodierers mit einer Ausgabe des zweiten Kodierers konkateniert wird;
• einen Dekodierer, der eine Konkatenation des ersten und zweiten Kodierers dekodiert und basierend auf den kodierten Merkmalen des ersten und zweiten Kodierers eine Aufnahme zu dem aktuellen Zeitstempel mit korrigierter Belichtung ausgibt.

Trainingsdaten des künstlichen neuronalen Netzwerks umfassen normal belichtete Aufnahmen des Bildgebungssensors als Wahrheitsreferenz und basierend auf der Wahrheitsreferenz Aufnahmen mit Belichtungsfehlern. Das künstliche neuronale Netzwerk wird oder wurde in einem Training mit den Trainingsdaten überwacht oder unüberwacht trainiert. Nach einem Aspekt der Erfindung wird oder wurde das künstliche neuronale Netzwerk in einem Training mit den Trainingsdaten überwacht trainiert.
Nach einem weiteren Aspekt stellt die Erfindung ein Computerprogramm bereit zur Korrektur von Belichtungsfehlern. Das Computerprogramm umfasst Befehle, die ein Hardwaremodul für automatisiertes Fahren veranlassen, die Schritte des erfindungsgemäßen Verfahrens auszuführen, wenn das Hardwaremodul das Computerprogramm ausführt. Ferner stellt die Erfindung einen computerlesbaren Datenträger bereit, auf dem das erfindungsgemäße Computerprogramm gespeichert ist, und ein Datenträgersignal, das das erfindungsgemäße Computerprogramm überträgt.
Die Befehle des erfindungsgemäßen Computerprogramms umfassen Maschinenbefehle, Quelltext oder Objektcode geschrieben in Assemblersprache, einer objektorientierten Programmiersprache, beispielsweise C++, in einer prozeduralen Programmiersprache, beispielsweise C, oder in einer Hardwarebeschreibungssprache, beispielsweise zur Verschaltung von Elementen des erfindungsgemäßen Hardwaremoduls, beispielsweise eines FPGA Schaltkreises. Das Computerprogramm ist nach einem Aspekt der Erfindung ein Hardware unabhängiges Anwendungsprogramm, das beispielsweise über den Datenträger oder das Datenträgersignal, nach einem Aspekt mittels Software Over The Air Technologie, für eine beliebige Hardware bereitgestellt wird, beispielsweise über eine Middleware. Nach einem weiteren Aspekt ist das Computerprogramm ein Hardware abhängiges Programm, beispielsweise eine Firmware eines Steuermoduls, umfassend das erfindungsgemäße Hardwaremodul, eines autonomen Fahrsystems. Der Datenträger umfasst flüchtige Speicher, beispielsweise RAM, DRAM, SRAM, und nichtflüchtige Speicher, beispielsweise ROM, Flash-EEPROM. Die Datenträger sind beispielsweise Flash-Speicherkarten, USB-Sticks. Nach einem Aspekt der Erfindung wird der Datenträger an ein In/Out System des Hardwaremoduls, beispielsweise eines Mikrocontrollers, des autonomen Fahrsystems angeschlossen und überträgt das Computerprogramm in den Mikrocontroller.
Nach einem weiteren Aspekt stellt die Erfindung ein Hardwaremodul für automatisiertes Fahren bereit. Das Hardwaremodul ist ausgeführt, das erfindungsgemäße Computerprogramm auszuführen, den erfindungsgemäßen computerlesebaren Datenträger einzulesen und/oder das erfindungsgemäße Datenträgersignal zu empfangen und zu verarbeiten. Das Hardwaremodul regelt und/oder steuert basierend auf der Aufnahme mit korrigierter Belichtung eine Trajektorie eines Ego-Fahrzeuges und/oder prädiziert Trajektorien von Verkehrsteilnehmern.
Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.
Belichtungsfehler umfassen Überbelichtungen, Unterbelichtungen, Unschärfe und verschwommene Bereiche, auch blurr genannt, beispielsweise bei schnellen Bewegungen, Regen oder Nebel. Die Fehler können durch zu lange oder zu kurze Belichtungszeiten entstehen. Aufgrund von Belichtungsfehlern entstehen in den fehlerhaft belichteten Aufnahmen Stellen, Bereiche oder einzelne Pixelwerte mit fehlenden Informationen.
Der Bildgebungssensor kann ein Sensor basierend auf verschiedenen Technologien sein, beispielsweise Optik oder Radar. Beispielsweise ist der Bildgebungssensor ein Kamerasensor, Lidarsensor oder Radarsensor. Der Kamerasensor ist beispielsweise ein active pixel sensor oder ein CCD Sensor.
Pixel des Kamerasensors werden beispielsweise mehrkanalig, beispielsweise dreikanalig ausgelesen, beispielsweise in den Farbkanälen rot, grün, blau (RGB Model).
Bei Belichtungsfehlern kann der Fall auftreten, dass Pixel einer fehlerhaft belichteten Aufnahme nicht mehrkanalig ausgelesen werden können. Beispielsweise können in Aufnahmen, die Scheinwerfer von entgegenkommenden Fahrzeugen, direkten Sonneneinfall oder Hell-Dunkel-Wechsel, beispielsweise bei Ausfahrten aus Tunneln, umfassen, die Pixel der entsprechenden überbelichteten Bereiche nicht mehrkanalig ausgelesen werden. Diese Pixel liefern dann nur Weißfarbwerte und es können keine Rot-, Grün-, Blaufarbwerte ausgelesen werden. Ferner können in diesen Aufnahmen Objekte in den überbelichteten Bereichen, beispielsweise die entgegenkommenden oder vorausfahrende Fahrzeuge, Fahrbahnmarkierungen oder weitere Verkehrsobjekte nicht mehr erkannt werden. Damit resultieren fehlende Informationen aus den überbelichteten Bereichen.
Nach einem Aspekt ist der Bildgebungssensor ein Umfelderkennungssensor eines Wahrnehmungs- oder Perzeptionssystems eines automatisierten Fahrsystems. Automatisiertes Fahrsystem, umfassend ein autonomes Fahrsystem, bezeichnet die Komponenten und Funktionalitäten eines automatisierten oder autonomen Fahrzeuges auf Systemebene als auch das automatisierte oder autonome Fahrzeug als solches. Die Aufnahmen sind beispielsweise Liveaufnahmen, die während eines automatisierten oder autonomen Fahrens von dem Bildgebungssensor aufgenommen wurden.
Der Kodierer ist für die Extraktion von Merkmalen konzipiert und besteht aus mehreren Faltungs- und Maxpooling-Schichten. Je tiefer die Ebenen im Kodierer liegen, desto detaillierter können die Merkmale aus den Eingabebildern extrahiert werden. Im Gegensatz zum Kodierer besteht der Dekodierer aus dekonvolutionalen und Upsampling-Schichten, die das normale belichtete Bild basierend auf den extrahierten Merkmalen des Kodierers rekonstruieren.
Die Aufnahmen mit zeitlich zurückliegenden Zeitstempeln enthalten historische Informationen und können Aufnahmen umfassen, die korrekt belichtet sind. Damit erhält der zweite Kodierer zusätzliche Informationen und kann verbessert die Merkmale für korrekt belichtete Aufnahmen extrahieren. Nach einem Aspekt wurden die Aufnahmen mit zurückliegenden Zeitstempeln aus einer anderen Position und/oder Perspektive als die Aufnahmen mit aktuellen Zeitstempeln aufgenommen. Damit können weitere Informationen gewonnen werden.
Nach einem Aspekt umfasst der erste und/oder der zweite Kodierer jeweils drei Faltungsschichten mit jeweils dazwischen liegenden Maxpooling Schichten. Die Aktivierungsfunktion in den Faltungsoperationen sind beispielsweise Rectified Linear Units. Bereits dieser relativ einfache Aufbau der Kodierer extrahiert überraschender Weise die Merkmale, aus denen der Dekodierer ein korrekt belichtetes Bild bestimmen kann.
Nach einem Aspekt sind die Architekturen des ersten und zweiten Kodierers identisch. Damit wird sichergestellt, dass die Merkmale aus den Aufnahmen auf einen gemeinsamen latenten Merkmalsraum abgebildet werden, aus dem dann der Dekodierer die korrekt belichteten Aufnahmen bestimmt. Beispielsweise werden in einer ersten Faltungsschicht 3x3 Kernel angewendet, beispielsweise 16 Stück, das heißt für jede eingegebene Aufnahme werden 16 Feature-Maps erhalten. Auf jede dieser Feature-Maps wird ein Maxpooling angewendet. Beispielsweise werden durch das Maxpooling die Dimensionen der Feature-Maps halbiert. Bei Aufnahmen des Bildgebungssensor in der Auflösung von beispielsweise 910x470 haben die Features-Maps mit halbierter Dimension die Dimension 455x235. Nach der ersten Maxpooling Schicht liegen damit beispielsweise 16 Feature-Maps mit halbierten Dimensionen vor. Die 16 Feature-Maps mit halbierten Dimensionen werden dann beispielsweise gemeinsame gefaltet mit 32 verschiedenen Kerneln, wobei ein Kernel beispielsweise die Dimension 3x3 hat. Am Ausgang der zweiten Faltungsschicht entstehen dann 32 Feature-Maps. Auf jede dieser 32 Feature-Maps wird ein Maxpooling angewendet. Beispielsweise werden durch das Maxpooling die Dimensionen der Feature-Maps halbiert. Nach der zweiten Maxpooling Schicht liegen damit beispielsweise 32 Feature-Maps mit nochmals halbierten Dimensionen vor, beispielsweise 227x117. Die 32 Feature-Maps mit nochmals halbierten Dimensionen werden dann beispielsweise in eine dritte Faltungsschicht eingegeben, in denen jede der Feature-Maps beispielsweise mit 2 3x3 Kerneln gefaltet wird. Am Ausgang der dritten Faltungsschicht des ersten und des zweiten Kodierers entstehen dann jeweils 64 Feature-Maps, beispielsweise der Dimension 227x117. Bereits dieser relativ einfache Aufbau der Kodierer extrahiert überraschender Weise die Merkmale, aus denen der Dekodierer ein korrekt belichtetes Bild bestimmen kann.
Nach einem weiteren Aspekt umfasst der Dekodierer drei dekonvolutionale Schichten mit jeweils dazwischen liegenden Upsampling Schichten. In den dekonvolutioanlen Schichten werden Dekonvolutionen durchgeführt. Bereits dieser relativ einfache Aufbau des Dekodierers bestimmt überraschender Weise die korrekt belichteten Aufnahmen.
Im der voran genannten gemeinsamen Beispielarchitektur des ersten und zweiten Kodierers werden die am Ausgang der dritten Faltungsschicht des ersten Kodierers erhaltenen 64 Feature-Maps mit den am Ausgang der dritten Faltungsschicht des zweiten Kodierers erhaltenen 64 Feature-Maps konkateniert. Damit werden in den Dekodierer 128 Feature-Maps, beispielsweise der Dimensionen 227x117, eingegeben. Eine erste dekonvolutionale Schicht des Dekodierers umfasst 64 3x3 Kernel, um 64 feature maps zu generieren. Am Ausgang der ersten dekonvolutionalen Schicht werden 64 Feature-Maps erhalten, die in eine erste Upsampling Schicht eingegeben werden. Die erste Upsampling Schicht umfasst beispielsweise einen Skalenfaktor von 2, das heißt, die Dimensionen der eingegebenen Feature-Maps werden ein erstes Mal verdoppelt. Es werden 64 Feature-Maps mit verdoppelten Dimensionen, beispielsweise 454x234, erhalten, die in eine zweite dekonvolutionale Schicht eingegeben werden. Die zweite dekonvolutionale Schicht umfasst 16 3x3 Kernel. Am Ausgang der zweiten dekonvolutionalen Schicht werden 16 Feature-Maps erhalten, die in eine zweite Upsampling Schicht eingegeben werden. Die zweite Upsampling Schicht umfasst beispielsweise einen Skalenfaktor von 2, das heißt, die Dimensionen der eingegebenen Feature-Maps werden ein zweites Mal verdoppelt. Es werden 16 Feature-Maps mit nochmals verdoppelten Dimensionen, beispielsweise 908x468, erhalten, die in eine dritte dekonvolutionale Schicht eingegeben werden. Die dritte dekonvolutionale Schicht umfasst 3 3x3 Kernel. Am Ausgang der dritten dekonvolutionalen Schicht werden 3 Feature-Maps, beispielsweise der Dimensionen 910x470, erhalten. Die 3 Feature-Maps entsprechen beispielsweise den drei Farbkanälen rot, grün, blau. Damit wird wieder eine RGB-Aufnahme in der Auflösung 910x470 Pixel erhalten.
Die voran genannten Kodierer-Dekodierer-Architekturen benötigt relativ wenig Rechen- und/oder Speicherkapazität und kann damit in einem Echtzeitsystem wie beispielsweise einem automatisierten oder autonomen Fahrsystem eingesetzt werden.
Nach einem Aspekt werden Überbelichtungen korrigiert. Die Aufnahmen werden oder wurden während Fahrten eines Fahrzeuges aufgenommen und/oder simuliert. Die Trainingsdaten umfassen die normal belichteten Aufnahmen in unterschiedlichen Szenarien, umfassend Tunnelfahrten, Fahrten bei Sonnenauf-/untergang, Nacht, Nebel und/oder Niederschlag, als Wahrheitsreferenz und basierend auf der Wahrheitsreferenz überbelichtete Aufnahmen mit unterschiedlichen Überbelichtungsstufen. Die überbelichteten Aufnahmen werden beispielsweise durch Variationen der Luminosität und/oder Luminanz erzeugt. Durch die Aufnahmen in unterschiedlichen Szenarien und die überbelichteten Aufnahmen mit unterschiedlichen Überbelichtungsstufen wird die Vielfalt der Trainingsdaten und die Diversität des Trainings und damit die Performanz des trainierten künstlichen neuronalen Netzwerks verbessert. Nach einem Aspekt werden die Aufnahmen für die Wahrheitsreferenz oder auch ground truth genannt mit einer an einem autonom fahrenden Fahrzeug montierten Kamera in verschiedenen Szenarien gesammelt.
Nach der erfindungsgemäßen Überbelichtungskorrektur ist die erhaltene Aufnahme weniger belichtet. Damit sind die sonst durch Überbelichtung fehlende Informationen, beispielsweise zu Fahrbahnmarkierungen und/oder Verkehrsteilnehmer im Umfeld eines Ego-Fahrzeuges, deutlicher und/oder mit weniger Unsicherheit wiederhergestellt und erkennbar.
Nach einem weiteren Aspekt wird oder wurde das künstliche neuronale Netzwerk durch das erfindungsgemäße Verfahren trainiert, aus den Belichtungsfehlern resultierende fehlende Informationen in den Aufnahmen zu ergänzen. Durch die Aufnahmen mit aktuellen und zeitlich zurückliegenden Zeitstempeln baut das künstliche neuronale Netzwerk einen Erfahrungsschatz mittels den von dem ersten und zweiten Kodierer extrahierten Merkmalen auf. Auf diesem Erfahrungsschatz wird oder wurde der Dekodierer trainiert, die fehlenden Informationen zu ergänzen. Nach einem Aspekt entsprechen die fehlenden Informationen überbelichteten Stellen in den Aufnahmen. Beispielsweise können damit in überbelichteten Aufnahmen in Tunneln Straßenverläufe in den Tunneln ergänzt werden.
Nach einem weiteren Aspekt ist die Kodierer-Dekodierer-Architektur ein Autoenkodierer. Der Autoenkodierer umfasst ein generatives adversariales Netzwerk, dessen Generator der Dekodierer und dessen Diskriminator ein Subnetzwerk des künstlichen neuronalen Netzwerks ist. Damit wird ein unüberwachtes Lernen ermöglicht.
Nach einem weiteren Aspekt werden Aufnahmen eines Kamerasensors und/oder eines Lidarsensors in reduzierter Auflösung bereitgestellt. Beispielsweise werden die Aufnahmen des Kamerasensors in halbierter Auflösung bereitgestellt. Bei einem Kamerasensor mit einer Auflösung von 1820x940 Pixeln bedeutet dies, dass die Aufnahmen eine Auflösung von 910x470 Pixeln haben. Die reduzierte Auflösung reicht überraschender Weise aus, um die Merkmale zu extrahieren, die für die Erzeugung einer korrekt belichteten Aufnahme erforderlich sind. Ferner wird durch die verringerte Auflösung die Latenzzeit des Systems verringert. Damit wird der Einsatz in einem Echtzeitsystem wie beispielsweise einem automatisierten oder autonomen Fahrsystem verbessert.
Insbesondere werden Überbelichtungen von Kamera- und/oder Lidarsensoren erfindungsgemäß korrigiert.
Nach einem weiteren Aspekt wird das erfindungsgemäße Verfahren während eines automatisierten Fahrens durchgeführt und die Aufnahmen jeweils für eine Zeit kleiner oder gleich einer Sekunde zwischengespeichert. Eine Anzahl zurückliegender Aufnahmen ist jeweils kleiner oder gleich 10. Beispielsweise werden die aufgenommenen Kamerabilder jeweils 0,5 Sekunden gespeichert und das aktuelle Kamerabild und die letzten 4 Bilder, die Bilder bis 2 Sekunden in der Vergangenheit sind, als Input für das künstliche neuronale Netzwerk genutzt. Damit werden überraschender Weise bereits genügend historische Informationen erhalten und die Speicherkapazität geschont.
Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

1 ein Ausführungsbeispiel eines erfindungsgemäßen künstlichen neuronalen Netzwerks,
2 ein Ausführungsbeispiel für Trainingsdaten,
3 ein Ausführungsbeispiel zur Korrektur von Überbelichtungen und
4 ein Ausführungsbeispiel eines erfindungsgemäßen Verfahrens.

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.
Das in 1 dargestellte künstliche neuronale Netzwerk 100 umfasst einen ersten Kodierer 10, einen zweiten Kodierer 11 und einen Dekodierer 20. Der erste Kodierer 10 umfasst beispielsweise die in der Beschreibung genannten Faltungsschichten 12 und Maxpooling Schichten 13. Der zweite Kodierer 11 umfasst beispielsweise die in der Beschreibung genannten dekonvolutionalen Schichten 21 und Upsampling Schichten 22. Erfindungsgemäß extrahiert der erste Kodierer 10 in einem Verfahrensschritt V1, siehe 4, Merkmale aus Aufnahmen 1 mit aktuellem Zeitstempel. Der zweite Kodierer 11 extrahiert in einem Verfahrensschritt V2 Merkmale aus Aufnahmen 2 mit zeitlich zurückliegenden Zeitstempeln, beispielsweise aus 4 zurückliegenden Aufnahmen. Die Ausgaben des ersten Kodierers 10 werden in einem Verfahrensschritt V3 mit den Ausgaben des zweiten Kodierers 11 konkateniert. Aus der Konkatenation erzeugt der Dekodierer 20 in einem Verfahrensschritt V4 eine Aufnahme 3 mit korrigierter Belichtung. 1 zeigt auch die Dimensionen der Aufnahmen in den einzelnen Schichten des künstlichen neuronalen Netzwerks 100 und Parameter betreffend Kernelgrößen und Kanäle.
2 zeigt, wie Trainingsdaten für das künstliche neuronale Netzwerk 100 erhalten werden können. Die Wahrheitsreferenz oder auch ground truth bilden normal belichtete Aufnahmen 4 eines Bildgebungssensors. Durch Erhöhung der Luminosität werden künstlich überbelichtete Aufnahmen 5 erzeugt.
3 zeigt den Einsatz des künstlichen neuronalen Netzwerks 100 zur Korrektur von Überbelichtungen. Die Aufnahmen 1 und 2 werden zu einem Aufnahmestapel 6 zusammengefasst, der durch das trainierte künstliche neuronale Netzwerk 100 gespeist wird. Am Ausgang des künstlichen neuronalen Netzwerks 100 werden die Aufnahmen 3 mit korrigierter Belichtung erhalten.
Bezugszeichenliste

100: künstliches neuronales Netzwerk
10: erster Kodierer
11: zweiter Kodierer
12: Faltungsschicht
13: Maxpooling
20: Dekodierer
21: dekonvolutionale Schicht
22: Upsampling
1: aktuelle Aufnahme
2: zeitlich zurückliegende Aufnahmen
3: aktuelle Aufnahme mit korrigierter Belichtung
4: Wahrheitsreferenz
5: erzeugte Aufnahmen mit Belichtungsfehlern
6: Aufnahmestapel
V1-V5: Verfahrensschritte

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 10713537 B2 [0004]

Claims

Computerimplementiertes Verfahren zur Korrektur von Belichtungsfehlern umfassend die Schritte: Bereitstellen von Aufnahmen (1) eines Bildgebungssensors; Eingeben der Aufnahmen (1) in ein zur Korrektur von Belichtungsfehlern trainiertes künstliches neuronales Netzwerk (100) umfassend eine Kodierer-Dekodierer-Architektur (10, 11, 20) umfassend • einen ersten Kodierer (10), der aus einer der Aufnahmen (1) mit einem aktuellen Zeitstempel Merkmale kodiert (V1); • einen zweiten Kodierer (11), der aus Aufnahmen (2) mit zeitlich zurückliegenden Zeitstempeln Merkmale kodiert (V2), wobei eine Ausgabe des ersten Kodierers (10) mit einer Ausgabe des zweiten Kodierers (11) konkateniert wird (V3); • einen Dekodierer (20), der eine Konkatenation des ersten und zweiten Kodierers (10, 11) dekodiert und basierend auf den kodierten Merkmalen des ersten und zweiten Kodierers (10, 11) eine Aufnahme (3) zu dem aktuellen Zeitstempel mit korrigierter Belichtung ausgibt (V4); wobei Trainingsdaten des künstlichen neuronalen Netzwerks (100) normal belichtete Aufnahmen des Bildgebungssensors als Wahrheitsreferenz (4) und basierend auf der Wahrheitsreferenz Aufnahmen (5) mit Belichtungsfehlern umfassen und das künstliche neuronale Netzwerk (100) in einem Training mit den Trainingsdaten überwacht oder unüberwacht trainiert wird oder wurde.
Verfahren nach Anspruch 1, wobei Überbelichtungen korrigiert werden; die Aufnahmen (1, 2, 5) während Fahrten eines Fahrzeuges aufgenommen und/oder simuliert werden oder wurden; die Trainingsdaten die normal belichteten Aufnahmen (4) in unterschiedlichen Szenarien, umfassend Tunnelfahrten, Fahrten bei Sonnenauf-/untergang, Nacht, Nebel und/oder Niederschlag, als Wahrheitsreferenz und basierend auf der Wahrheitsreferenz überbelichtete Aufnahmen (5) mit unterschiedlichen Überbelichtungsstufen umfassen.
Verfahren nach einem der vorangehenden Ansprüche, wobei das künstliche neuronale Netzwerk (100) durch das Verfahren trainiert wird oder trainiert wurde, aus den Belichtungsfehlern resultierende fehlende Informationen in den Aufnahmen (1) zu ergänzen.
Verfahren nach einem der vorangehenden Ansprüche, wobei die Kodierer-Dekodierer-Architektur (10, 11, 20) ein Autoenkodierer ist umfassend ein generatives adversariales Netzwerk, dessen Generator der Dekodierer (20) und dessen Diskriminator ein Subnetzwerk des künstlichen neuronalen Netzwerks (100) ist.
Verfahren nach einem der vorangehenden Ansprüche, wobei Aufnahmen (1) eines Kamerasensors und/oder eines Lidarsensors in reduzierter Auflösung bereitgestellt werden.
Verfahren nach einem der vorangehenden Ansprüche, wobei das Verfahren während eines automatisierten Fahrens durchgeführt wird und die Aufnahmen (1) jeweils für eine Zeit kleiner oder gleich einer Sekunde zwischengespeichert werden und jeweils eine Anzahl zurückliegender Aufnahmen (2) kleiner oder gleich 10 ist.
Computerprogramm zur Korrektur von Belichtungsfehlern umfassend Befehle, die ein Hardwaremodul für automatisiertes Fahren veranlassen, die Schritte des Verfahrens nach einem der vorangehenden Ansprüche auszuführen, wenn das Hardwaremodul das Computerprogramm ausführt.
Computerlesbarer Datenträger, auf dem das Computerprogramm nach Anspruch 7 gespeichert ist.
Datenträgersignal, das das Computerprogramm nach Anspruch 7 überträgt.
Hardwaremodul für automatisiertes Fahren, ausgeführt, das Computerprogramm nach Anspruch 7 auszuführen, den computerlesebaren Datenträger nach Anspruch 8 einzulesen und/oder das Datenträgersignal nach Anspruch 9 zu empfangen und zu verarbeiten, wobei das Hardwaremodul basierend auf der Aufnahme mit korrigierter Belichtung eine Trajektorie eines Ego-Fahrzeuges regelt und/oder steuert und/oder Trajektorien von Verkehrsteilnehmern prädiziert.