DE102019205962A1

DE102019205962A1 - Verfahren zur Generierung von digitalen Bildpaaren als Trainingsdaten für Neuronale Netze

Info

Publication number: DE102019205962A1
Application number: DE102019205962.7A
Authority: DE
Inventors: Martin Meinke
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-04-25
Filing date: 2019-04-25
Publication date: 2020-10-29
Also published as: CN111860761A; US11321815B2; US20200342574A1

Abstract

Verfahren zur Erstellung eines digitalen Bilderpaares zum Training eines Neuronalen Netzes verrauschte Bildanteile verrauschter Bilder zu korrigieren, mit den Schritten:
Bestimmen eines Ausmaßes von Objektbewegungen innerhalb eines überlappenden Bereiches eines gespeicherten ersten digitalen Bildes und eines gespeicherten zweiten digitalen Bildes einer Umgebung einer mobilen Plattform;
Bestimmen eines jeweils erfassten Raumwinkels der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes;
Erstellen des digitalen Bilderpaares aus dem ersten digitalen Bild und dem zweiten digitalen Bild, sofern der jeweils erfasste Raumwinkel der Umgebung des ersten und des zweiten digitalen Bildes um nicht mehr als um einen festgelegten Unterschied voneinander abweichen, und das Ausmaß der Objektbewegungen innerhalb des überlappenden Bereiches des ersten und des zweiten digitalen Bildes unter einem festgelegten Wert liegt.

Description

Die Erfindung betrifft ein Verfahren zum Generieren von digitalen Bildpaaren als Trainingsdaten für Neuronale Netze, die mittels verrauschter Bilder lernen verrauschte Bilder zu rekonstruieren.
Stand der Technik
Bei einer Generierung von Umweltrepräsentationen für das automatisierte Fahren mittels beispielsweise bildgebenden Sensoren, kann durch eine Vielzahl von Effekten das Ergebnis negativ beeinflusst werden. Dabei verursachen, neben dem klassischen Messrauschen, welches aus der stochastischen Natur des Messverfahrens und dessen Detektorauslegung von bildgebenden Sensoren resultiert, diverse Umwelteinflüsse, wie beispielsweise direkte Sonneneinstrahlung, Regen, Schnee oder Nebel eine Beeinflussung des Messergebnisses. Dieser Einflussfaktoren führen zu vielen Fehldetektionen (False-Positives) oder dem kompletten Ausbleiben von Detektionen (False-Negatives). Die Leistungsfähigkeit nachgelagerte Algorithmen nimmt infolgedessen ab.
Wenn das Ergebnis bedingt durch solche Einflussfaktoren bei den verwendeten bildgebenden Verfahren verschlechtert wird, müssen solche Daten ggf. detektiert und korrigiert oder verworfen werden.
Verfahren welche diese Fehlmessungen erkennen oder entfernen können, führen daher speziell im Bereich des automatisierten Fahrens zu Verbesserungen einer Umweltrepräsentation.
Offenbarung der Erfindung
Die vorliegende Erfindung offenbart ein Verfahren zur Erstellung digitaler Bilderpaare zum Training von Neuronalen Netzen, um verrauschte Bildanteile verrauschter Bilder zu korrigieren, ein entsprechendes Verfahren zum Training eines Neuronalen Netzes, ein entsprechendes Verfahren zum Korrigieren verrauschter Bildanteile verrauschter Bilder, ein Verfahren zur Repräsentation einer Umgebung einer zumindest teilautomatisierten mobilen Plattform, eine Vorrichtung, ein Computerprogrammprodukt, und ein maschinenlesbares Speichermedium, gemäß den Merkmalen der unabhängigen Ansprüche. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen Ansprüche sowie der nachfolgenden Beschreibung.
Zur Rauschunterdrückung können Neuronale Faltungs-Netzwerke eingesetzt werden. Zum Trainieren eines solchen Netzes werden „saubere“ Trainingsdaten, also Bilder welche nicht - oder nur geringermaßen - rauschbehaftet sind verwendet. Derartige Trainingsdaten sind in der Realität leider häufig nicht oder nur sehr schwer und teuer zugänglich.
Wenn die Rauschverteilung in den Bildern einen statischen Mittelwert oder Median der betroffenen Pixel betrifft, wenn also die Pixelwerte vieler unabhängig voneinander verrauschter Bilder im Mittel bzw. im Median dem rauschfreien Bild entsprechen, ist eine erfolgreiche Entfernung von Rauschanteilen in digitalen Bildern auch ohne Ground-Truth annotierte Trainingsbilddaten möglich. Dazu sind aber entsprechend geeignete Bilderpaare erforderlich.
Das erfindungsgemäße Verfahren erstellt ein digitales Bilderpaar zum Training eines Neuronalen Netzes, wobei das Neuronale Netz verrauschte Bildanteile verrauschter Bilder korrigiert.
Dabei wird in einem Schritt ein Ausmaß von Objektbewegungen innerhalb eines überlappenden Bereiches eines gespeicherten ersten digitalen Bildes und eines gespeicherten zweiten digitalen Bildes einer Umgebung einer mobilen Plattform bestimmt. In einem weiteren Schritt wird ein jeweils erfasster Raumwinkel der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes bestimmt. In einem weiteren Schritt wird das digitale Bilderpaar aus dem ersten digitalen Bild und dem zweiten digitalen Bild erstellt, sofern der jeweils erfasste Raumwinkel der Umgebung des ersten und des zweiten digitalen Bildes um nicht mehr als um einen festgelegten Unterschied voneinander abweichen und das Ausmaß der Objektbewegungen innerhalb des überlappenden Bereiches des ersten und des zweiten digitalen Bildes unter einem festgelegten Wert liegt.
Ein Neuronales Netzwerk stellt einen Rahmen für viele verschiedene Algorithmen zum maschinellen Lernen, zum Zusammenarbeiten und für die Verarbeitung komplexer Dateneingaben zur Verfügung. Solche Neuronalen Netzwerke lernen, Aufgaben anhand von Beispielen auszuführen, ohne typischerweise mit aufgabenspezifischen Regeln programmiert worden zu sein.
Ein solches Neuronale Netz basiert auf einer Sammlung verbundener Einheiten oder Knoten, die als künstliche Neurone bezeichnet werden. Jede Verbindung kann ein Signal von einem künstlichen Neuron zu einem anderen übertragen. Ein künstliches Neuron, das ein Signal empfängt, kann es verarbeiten und dann weitere damit verbundene künstliche Neuronen aktivieren.
Bei herkömmlichen Implementierungen von Neuronalen Netzen ist das Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge berechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen können eine Schwelle aufweisen, so dass ein Signal nur dann ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet. Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusammengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht, möglicherweise nach mehrmaligem Durchlaufen der Schichten.
Die Architektur eines solchen künstlichen Neuronalen Netzes kann ein Neuronales-Netz sein, das entsprechend einem Multi-Layer-Perceptron (MLP) Netz aufgebaut ist. Ein Multi-Layer-Perceptron (MLP) Netz gehört zur Familie der künstlichen feed-forward Neuronalen Netzwerken. Grundsätzlich bestehen MLPs aus mindestens drei Schichten von Neuronen: einer Eingabe-Schicht, einer Zwischen-Schicht (hidden layer) und einer Ausgabe-Schicht. Das bedeutet alle Neuronen des Netzwerks sind in Schichten eingeteilt, wobei ein Neuron einer Schicht immer mit allen Neuronen der nächsten Schicht verbunden ist. Es gibt keine Verbindungen zur vorherigen Schicht und keine Verbindungen, die eine Schicht überspringen. Bis auf die Eingabeschicht bestehen die unterschiedlichen Schichten aus Neuronen, die einer nichtlinearen Aktivierungsfunktion unterliegen, und mit den Neuronen der nächsten Schicht verbunden sind. Ein tiefes Neuronales Netz kann viele solcher Zwischen-Schichten aufweisen.
Eine Verarbeitung von Bildern kann mit Neuronalen Encoder-Decoder-Netzwerken erfolgen, die analog den oben genannten Neuronalen Netzen weiterentwickelt sind. Die Architektur solcher Neuronalen Encoder-Decoder-Netzwerke besteht typischerweise aus zwei Teilen. Der erste Teil entspricht einem Autoencoder und ist eine Folge von Schichten, die die Eingabemuster in eine, in Bezug auf eine Datenmenge, niedrigere Auflösung herunterrechnen, um die gewünschten Informationen zu erhalten und redundante Informationen zu reduzieren. Der zweite Teil ist eine Folge von Schichten, die die Ausgabe des ersten Teils hochrechnen und die gewünschte Ausgabeauflösung, z. B. die Eingabeauflösung, wiederherstellen. Optional kann es zusätzliche Skip-Verbindungen geben, die einige Layer im ersten Teil und im zweiten Teil direkt verbinden.
Solche Encoder-Decoder-Netzwerke müssen für ihre spezifische Aufgabe trainiert werden. Dabei erhält jedes Neuron der entsprechenden Architektur des Neuronalen Netzes z. B. ein zufälliges Anfangs-Gewicht. Dann werden die Eingangs-Daten in das Netz gegeben, und jedes Neuron gewichtet die EingangsSignale mit seinem Gewicht und gibt das Ergebnis weiter an die Neuronen der nächsten Schicht. An der Output-Schicht wird dann das Gesamt-Ergebnis bereitgestellt. Die Größe des Fehlers kann berechnet werden, sowie der Anteil, den jedes Neuron an diesem Fehler hatte, und dann das Gewicht jedes Neurons in die Richtung verändern, die den Fehler minimiert. Dann erfolgen rekursiv Durchläufe, erneute Messungen des Fehlers und Anpassung der Gewichte bis der Fehler unter einer vorgegebenen Grenze liegt.
Digitale Bilder können durch eine Vielzahl von Effekten in Bezug auf eine Verwendung der Bilder negativ beeinflusst werden. Zusätzlich zu einem klassischen Messrauschen, welches durch die stochastische Natur des Messverfahrens und dessen Detektorauslegung verursacht wird, können Bilder einer Umgebung einer mobilen Plattform auch durch Umwelteffekten beeinflusst werden. Insbesondere Nebel, Schnee und Regen haben offensichtlich einen großen Einfluss auf die Qualität der Bilder, aber auch Reflexe oder eine direkte Sonneneinstrahlung können die Qualität von Bildern beeinträchtigen. Dies gilt für digitale Bilder im optischen Bereich, für RADAR (radio detection and ranging) - Bilder für LIDAR (eng. light detection and ranging) -Bilder oder andere bildgebenden Verfahren, in unterschiedlichem Ausmaß, ähnlich.
Zum Beispiel bei Bildern, die durch ein LIDAR Messverfahren generiert werden führen diese Einflussfaktoren zu Fehldetektionen (Falsch-Positive) oder dem kompletten Ausbleiben von Detektionen (Falsch-Negative). Die Leistungsfähigkeit nachgelagerter Auswertealgorithmen nimmt in Folge dessen ab.
Betrachten wir nun zum Beispiel die Reichweitenmessung eines LiDAR Sensors. Bei guten Umweltbedingungen (keine Wettereinflüsse oder starkes Hintergrundlicht) treten kaum Falsch Positive oder Falsch-Negative Messungen auf.
Bei beeinträchtigenden Bedingungen durch die Umwelt, kommt es aber vermehrt zu beiden Phänomenen. Zum Beispiel wird der ausgesendete Laserpuls des LIDAR-Scanners durch Regentropfen oder Schneeflocken reflektiert, bevor er das
anzumessende Objekt erreicht. Die gemessene Distanz ist kleiner als die wahre Distanz zum anzumessenden Objekt. Auch durch ein hohes Maß an Hintergrundlicht (beispielsweise direkte Sonneneinstrahlung) kommt es zu einer Detektion, bevor der reflektierte Messpuls auf den LIDAR-Detektor trifft. Die gemessene Distanz ist dann kleiner als eine wahre Distanz zum angemessenen Objekt. Wird der ausgesendete Laserpuls beispielsweise durch Wassertropfen von seiner Bahn abgelenkt, kommt das reflektierte Signal u. U. nicht am Detektor an und die Messung ist ungültig bzw. das Objekt außerhalb der Sensorreichweite.
Beim LIDAR-Bild kann man daher die Rauschverteilung von zeitlich aufeinanderfolgend aufgenommenen Messungen („Bildern“) als unabhängig voneinander annehmen. Eine Distanzmessung in einem bestimmten Raumwinkel gibt dann keine statistisch signifikante Aussage über ein Ergebnis einer darauffolgenden Messung. Also eine Kenntnis über die Rauschverteilung eines Bildes lässt keine Rückschlüsse auf die Rauschverteilung des anderen zu. Daher sind beim LIDAR-Messverfahren und daraus resultierenden Bildern die Voraussetzungen für die Anwendbarkeit des oben beschriebenen Verfahrens gegeben.
Damit die erstellten Bildpaare für das oben beschriebene Verfahren geeignet sind, muss gewährleistet sein, dass die Szene nur mit einem Rauschen der oben genannten Rauschquellen überlagert ist, und sich nicht etwas durch eine Veränderung der Szene zusätzliche Veränderungen im Bild ergeben.
Das bedeutet, dass neben den Anforderungen an das Rauschen, zum einen nur Szenen ausgewertet werden, deren Bildinhalte sich überlappen und außerdem das in dem Zeitbereich in dem das Bilderpaar erstellt wurde, eine Veränderung von abgebildeten Objekte, aufgrund einer Bewegung, in ihrem Ausmaß unter einem festgelegten Wert liegt. Mittels eines Trägheitsnavigationssystems, das für die mobile Plattform verfügbar sind, kann gegebenenfalls gewährleistet werden, dass der Standort der beiden Bilder, die für ein solches Bilderpaar infrage kommen, nicht mehr als einen vorher definierten Wert voneinander abweichen. Beispielsweise können aber auch andere bildgebenden Verfahren, die gleichzeitig angewendet werden, benutzt werden um den Überlapp der beiden Bilder zu gewährleisten. Darüber hinaus können Sensordaten, wie zum Beispiel Radardaten, verwendet werden, um den Umfang von Bewegung von Objekten in dieser Szene zu bestimmen und mittels eines Vergleichs sicherstellen, dass eine solche Bewegung unterhalb einer festgelegten Grenze geblieben ist. Insbesondere sollte eine Verschiebung der Bilddaten im Überlappbereich wenige Pixel nicht überschreiten, also sollte diese Verschiebung genauer definiert weniger als 5 Pixel betragen.
Für die Eignung eines digitalen Bilderpaares zu einem solchen Training eines Neuronalen Netzes muss außerdem sichergestellt werden, dass das Bild aus einer sehr ähnlichen Perspektive aufgenommen ist. Dies kann dadurch gewährleistet werden, dass die jeweils erfassten Raumwinkel der Umgebung des ersten und des zweiten digitalen Bildes um nicht mehr als einen festgelegten Unterschied voneinander abweichen. Dabei beschreibt ein Raumwinkel den Anteil am gesamten Raum, der z. B. im Inneren eines gegebenen Kegel- oder Pyramidenmantels liegt.
Dies kann insbesondere dadurch gewährleistet werden, dass die Standpunkte von denen aus die Bilder aufgenommen wurden, sich nicht mehr als um einen festgelegten Wert voneinander unterscheiden. Dies kann durch eine Vielfalt von unterschiedlichen Verfahren gewährleistet werden, wie beispielsweise durch die Messung von Abständen mit einem Radarsystem, durch Triangulation, durch Position bestimmende Systeme wie zum Beispiel GPS (Global Positioning System) oder durch Messwerte aus Trägheitsnavigationssystemen, die mit der mobilen Plattform, auf der ein solches bildgebende System installiert sein kann, verbunden ist. Optional werden weitere Umgebungssensoren, wie beispielsweise Radar-Systeme oder Kameras, sowie Tracking Algorithmen auch miteinander verkoppelt verwendet, um festzustellen, ob sich in der Szene andere bewegte Verkehrsteilnehmer befinden, die sich zwischen der Aufnahme der beiden Bilder in zu unzulässigen Ausmaß ihre Position und somit die Szene verändert haben. In entsprechender Weise gilt dies auch für eine gleichzeitige Aufnahme mit zwei bildgebenden Systemen, die so miteinander im Verhältnis stehen, dass nur eine zulässige Veränderung eines Raumwinkels der damit verbundenen Bilder resultiert. Eine zulässige Verschiebung des Aufnahmestandpunktes durch Bewegung der mobilen Plattform und oder Verschiebung zwischen jeweils zwei bildgebenden Systemen liegt typischerweise im Bereich einiger Zentimeter, insbesondere sollte eine solche Verschiebung weniger als 15 cm betragen.
Unter einer mobilen Plattform kann ein zumindest teilweise automatisiertes System verstanden werden, welches mobil ist, und/oder ein Fahrerassistenzsystem. Ein Beispiel kann ein zumindest teilweise automatisiertes Fahrzeug bzw. ein Fahrzeug mit einem Fahrerassistenzsystem sein. Das heißt, in diesem Zusammenhang beinhaltet ein zumindest teilweise automatisiertes System eine mobile Plattform in Bezug auf eine zumindest teilweise automatisierte Funktionalität, aber eine mobile Plattform beinhaltet auch Fahrzeuge und andere mobile Maschinen einschließlich Fahrerassistenzsysteme. Weitere Beispiele für mobile Plattformen können Fahrerassistenzsysteme mit mehreren Sensoren, mobile Multisensor-Roboter wie z.B. Roboterstaubsauger oder Rasenmäher, ein Multisensor-Überwachungssystem, eine Fertigungsmaschine, ein persönlicher Assistent oder ein Zugangskontrollsystem sein. Jedes dieser Systeme kann ein vollständig oder teilweise automatisiertes System sein.
Erfüllt nun beispielsweise eine Sequenz von 20 Aufnahmen die oben Genannten Anforderungen, ließen sich hieraus 20 über 2, entsprechend dem Binomialkoeffizient, unterschiedliche Bildpaare als Trainingsdaten für ein Neuronales Netz generieren. Da ein derartiges Verfahren zur Gewinnung von Trainingsdaten keinerlei manuelle Annotation erforderlich macht, lassen sich große Datenmengen, beispielsweise aus einer Fahrzeugflotte, sehr einfach gewinnen und auf ein Training eines Neuronalen Netzes anwenden.
Gemäß einer Ausgestaltung der Erfindung wird vorgeschlagen, dass das Ausmaß der Objektbewegungen innerhalb des überlappenden Bereiches des ersten und des zweiten digitalen Bildes mit Daten eines Trägheitsnavigationssystems der mobilen Plattform bestimmt wird. Ein Trägheitsnavigationssystem integriert Messdaten mehrerer an der mobilen Plattform angebrachter Sensoren, um die Güte der Objektdetektion und Objektverfolgung zu verbessern.
Durch die Auswertung einer Vielzahl von Bildern, die als Bilderpaaren geeignet erscheinen ein Neuronales Netz entsprechend zu trainieren und für die jeweils die Daten eines Trägheitsnavigationssystems verfügbar sind, lässt sich je nach Umfang und Komplexität der Daten des Tracking-Systems ein Ausmaß der Objektbewegungen, innerhalb des überlappenden Bereiches der beiden Bilder, sehr einfach bestimmen. Zum Beispiel indem der Standort und die Ausrichtung eines Systems, dass die entsprechenden Bilder aufgenommen hat, miteinander verglichen werden. Zusätzliche Sensoren, die zu den Tracking-Systems gehören, können ebenfalls für die Bestimmung des Ausmaßes der Objektbewegungen herangezogen werden.
Gemäß einer Ausgestaltung der Erfindung wird vorgeschlagen, dass das Bestimmen des jeweils erfassten Raumwinkels der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes mit Daten eines Trägheitsnavigationssystems der mobilen Plattform bestimmt wird.
Hierfür kann das Trägheitsnavigationssystem in der gleichen Weise verwendet werden, wie bei der Auswertung für das Ausmaß von Objektbewegungen innerhalb des überlappenden Bereiches beschrieben wurde.
Gemäß einer Ausgestaltung der Erfindung wird vorgeschlagen, dass das Ausmaß der Objektbewegung mittels eines Signals eines Radarsystems oder Radarsensors oder einer Bildauswertung eines optischen Systems oder eines Tracking-Systems ermittelt wird.
Wie schon oben beschrieben wurde, eignet sich ein Radarsystem bzw. ein Radarsensor insbesondere für die Detektion von Objektbewegungen, da ein Radarsignal Bewegungen und Geschwindigkeiten in seinen Detektionsbereich direkt angeben kann.
Gemäß einer Ausgestaltung der Erfindung wird vorgeschlagen, dass eine Abweichung des jeweils erfassten Raumwinkels der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes mit Daten eines Trägheitsnavigationssystems der mobilen Plattform bestimmt wird. Insbesondere über Daten eines Trägheitsnavigationssystems, das mittels eines Trägheitseffekts gegebenenfalls identifizieren kann, dass zwischen dem ersten und dem zweiten Bild keine Bewegung des bildgebenden Systems erfolgte, können Rückschlüsse sowohl in Bezug auf einen Überlapp der Bildbereiche, als auch in Bezug auf einen erfassten Raumwinkel gezogen werden.
Gemäß einer Ausgestaltung der Erfindung wird vorgeschlagen, dass das gespeicherte erste und zweite digitale Bild durch eine Transformation von Signalen eines LIDAR-Systems generiert werden.
Die Signale eines LIDAR-Systems, das mittels Laserstrahlen zum Beispiel die Umgebung einer mobilen Plattform abtastet, können mittels einer Transformation in ein zweidimensionales Bild umgerechnet werden und dann für ein Training eines Neuronalen Netzes verwendet werden, um verrauschte Bildanteile von so generierten Bildern zu korrigieren. Wie oben ausgeführt wurde unterliegen auch LIDAR-Systeme Fehlern insbesondere durch Umwelteinflüsse, die durch die Anwendung eines solchen Neuronalen Netzes auf die Bilder eines solchen Systems für eine weitere Verwendung, wie beispielsweise für ein Entscheidungssystem, für ein automatisiertes Fahrzeug verwendet werden können.
Gemäß einer Ausgestaltung der Erfindung wird vorgeschlagen, dass das gespeicherte erste und zweite digitale Bild mittels bilderzeugender Systeme einer Vielzahl von zumindest teilautomatisierten mobilen Plattformen erfasst werden. Für eine schnelle Generierung geeigneter Bilderpaare für das Training eines Neuronalen Netzes zum Korrigieren verrauschter Bilder, können die Bilderpaare einer Vielzahl von zumindest teilautomatisierten mobilen Plattformen, die mit dem jeweiligen bildgebenden System ausgestattet sind, aufgenommen werden und dann zentral ausgewertet werden, um ein Neuronales Netz in beschriebener Weise zu trainieren.
Es wird ein Verfahren zum Training eines Neuronalen Netzes verrauschte Bildanteile verrauschter Bilder zu korrigieren vorgeschlagen, wobei die Bilderpaare, entsprechend dem oben beschriebenen Verfahren zur Erstellung digitaler Bilderpaare, generiert wurden und das Neuronale Netz mit dem ersten digitalen Bild des digitalen Bilderpaares als Eingangsgröße trainiert wird, das zweite digitale Bild des digitalen Bilderpaares zu generieren.
Das oben beschriebene Verfahren zur Generierung geeigneter digitaler Bilderpaare kann verwendet werden um ein Neuronales Netz zu trainieren, indem ein erstes Bild des Bilderpaares als Eingangsgröße für das Neuronale Netz verwendet wird und das zweite Bild des Bilderpaares als Zielgröße für das Neuronale Netz vorgegeben wird. Dabei lernt das Neuronale Netz, das zum Beispiel eine Architektur aufweist wie sie oben beschrieben wurde, genau das Rauschen aus vertauschten Bildern herauszufiltern, indem es verrauschte Bildanteile korrigiert.
Es wird ein Verfahren zum Korrigieren verrauschter Bildanteile verrauschter Bilder mittels eines Neuronalen Netzes, das gemäß dem Verfahren zum Training eines Neuronalen Netzes trainiert wurde, vorgeschlagen. Dabei wird ein verrauschtes Bild als Eingangsgröße an ein trainiertes Neuronales Netz übergeben und die verrauschten Bildanteile sind dann in dem von dem Neuronalen Netz generierten Bild korrigiert.
Mit diesem Verfahren zum Korrigieren verrauschter Bildanteile wird erreicht, dass die von unterschiedlichen bildgebenden Verfahren erzeugten und gegebenenfalls verrauschte Bilder für eine weitere Verwendung im Zusammenhang mit automatisierten Systemen verwendet werden besser geeignet sind, um zum Beispiel für eine Erkennung einer Umgebung einer mobilen Plattform oder resultierende Aktion, die von einem nachgelagerten Entscheidungssystem ausgelöst werden, ausgewertet zu werden.
Es wird ein Verfahren zur Repräsentation einer Umgebung einer zumindest teilautomatisierten mobilen Plattform mittels Bildern angegeben, die von bilderzeugenden Systemen von der Umgebung der zumindest teilautomatisierten mobilen Plattform erfasst wurden und deren verrauschte Bildanteile gemäß einem Verfahren zum Korrigieren verrauschter Bildanteile verrauschter Bilder korrigiert werden.
Durch die Korrektur der verrauschten Bildanteile, kann die Repräsentation der Umgebung der zumindest teilautomatisierten mobilen Plattform mit einer höheren Qualität für eine Darstellung oder für eine weitere Auswertung, zum Beispiel ein Entscheidungssystem, verwendet werden, und somit mit einer höheren Sicherheit in Bezug auf Aktionen, die aus der Repräsentation der Umgebung abgeleitet werden, verwendet werden.
Gemäß einer Ausgestaltung des Verfahren zur Repräsentation einer Umgebung wird die Repräsentation der Umgebung zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs verwendet und/oder eine Darstellung der Repräsentation einer Umgebung an einen Fahrzeuginsassen ausgesendet. Mittels einer solchen Repräsentation einer Umgebung können zum Beispiel Aktionen einer mobilen Plattform eingeleitet oder geregelt werden, oder ein Fahrzeuginsasse kann die Repräsentation verwenden um Informationen abzuleiten, die ein weiteres Verhalten des Fahrzeuginsassen beeinflussen können.
Es wird eine Vorrichtung angegeben, die eingerichtet ist, eines der oben beschriebenen Verfahren durchzuführen.
Mittels einer solchen Vorrichtung ist es möglich, die oben beschriebenen Verfahren zum Beispiel für den Einbau in eine mobile Plattform verfügbar zu machen.
Es wird ein Computerprogrammprodukt angegeben, welches Befehle umfasst, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen.
Mittels eines solchen Computerprogrammproduktes können die oben beschriebenen Verfahren auf eine einfache Art und Weise zum Beispiel einer mobilen Plattform verfügbar gemacht werden.
Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist.
Mittels eines solchen maschinenlesbaren Speichermediums ist das oben beschriebene Computerprogrammprodukt transportabel.
Ausführungsbeispiele
Ausführungsbeispiele der Erfindung werden mit Bezug auf die 1 bis 2 dargestellt und im Folgenden näher erläutert. Es zeigen:

1a ein rauschfreies Eingangsbild;
1b das Eingangsbild mit einem ersten synthetischen Rauschen überlagert;
1c das Eingangsbild mit einem zweiten synthetischen Rauschen überlagert;
1d ein Bild mit korrigierten Bildanteilen eines verrauschten Eingangsbildes; und
2 ein Verfahren zum Korrigieren verrauschter Bildanteile.

Die 1a zeigt schematisch ein rauschfreies exemplarisches Eingangsbild. Das Bild stellt ein mit einem LIDAR-System erstelltes Bild einer Umgebung einer Plattform dar, bei der sich eine Straße in die Tiefe des Bildes erstreckt. In der Tiefe des Bildes ist ein Auto detektiert worden, rechts läuft entlang der Straße ein Gehweg und weiter rechts davon ist Vegetation detektiert worden. Links von der Straße ragt in der Ferne ein Verkehrsschild auf. Dabei sind alle Bilder 1a, b, c und d mittels Schraffuren für diese Darstellung schematisch aus den Originalbildern umgesetzt worden.
In der 1b ist das in der 1a gezeigte Eingangsbild mit synthetischen Rauschen überlagert worden, wobei für 25 % der Pixel ein Rauschwert mit einer Distanz zwischen 0 m und der gemessenen Distanz eingesetzt wurden.
Die 1c ist entsprechend der 1b erstellt worden, wobei das Rauschen aber unabhängig von dem Rauschen der 1b dem Bild der 1a überlagert wurde.
Die 1d zeigt das Ergebnis des, wie oben beschrieben, mit einer Vielzahl von verrauschte Bilderpaaren trainierten Neuronalen Netzes, das das verrauschte Bild der 1b als Eingangsgröße erhalten hat.
Bilder der 1b und 1c sind somit Beispiele für verrauschte Bilderpaare für das Training eines Neuronalen Netzes. Die 1d zeigt, wie überraschend gut das Neuronale Netz gelernt hat die verrauschten Bildanteile zu korrigieren.
Das beispielhafte Neuronale Netz ist ein Encoder-Decoder Netz das aus zwei Teilen aufgebaut ist.
Der erste Teil ist eine Abfolge von Schichten, die die Eingangsgitter auf eine niedrigere Auflösung herunter abtasten, um die gewünschten Informationen zu erhalten und die redundanten Informationen zu speichern.
Der zweite Teil ist eine Abfolge von Schichten, die die Ausgabe des ersten Teils erneut in eine vollständig verbundene Schicht abtasten und die gewünschte Ausgangsauflösung erzeugen, wie z. B. einen Klassifizierungsvektor mit der gleichen Länge wie die Anzahl der zu klassifizierenden Gefahrensituationen kennzeichnende Signale.
Der erste Teil ist ein Encoder der zum Beispiel drei oder mehr Schichten aufweist:

• Eine Eingabeschicht, wie zum Beispiel ein 2-dimensionales Bild.
• Mehrere signifikant kleinere Schichten, die das Encoding zur Reduktion der Daten bilden.
• Eine Ausgabeschicht, deren Dimension die der Eingabeschicht entspricht, d.h. jeder Ausgabe-Parameter in der Ausgabeschicht hat die gleiche Bedeutung wie der entsprechende Parameter in der Eingabeschicht.

Dieser Encoder ist entsprechend einem künstlichen Neuronalen-Faltungs-Netz (Convolutional Neural Network) ausgebildet und weist eine oder mehreren Faltungs-Schichten (convolutional layer) auf, denen gegebenenfalls Pooling Layer folgen. Die Abfolge von Schichten können mit oder ohne Normalisierungs-Schichten (z.B. Batch-Normalisierung), Zero-Padding-Schichten, Dropout-Schichten und Aktivierungs-Funktionen, wie z.B. Rectified Linear Unit ReLU, sigmoid-Funktion, tanh-Funktion oder softmax-Funktion, verwendet werden. Diese Einheiten können sich prinzipiell beliebig oft wiederholen, bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks.

Dabei besteht das künstliche Neuronale-Faltungs-Netz aus einer Encoder-Decoder Architektur, welche die Reduktion der Daten über mehrere Faltungen mit Schrittweite 2 erzielt. Zur Rückskalierung der Komprimierten Datenrepräsentation werden transponierte Faltungsschichten („Deconvolution“) verwendet wie aus der Tabelle 1 zu entnehmen ist. Die Tabelle 1 beschreibt die Schichten des Encoder Faltungs-Netzes detaillierter. Der Eingang des Encoder-Faltungs-Netzes ist ein 1800x32x1 Bild (Distanzmessung für jedes „Pixel“) bzw. Tensor-Datenmuster. Tabelle 1

Schicht (Typ)	Ausgangsform
Eingang Lidar-Distanzbild	(1800, 32, 1)
Conv2d 1 (3x3, null-auffüllend)	(1800, 32, 32)
Conv2d 2 (3x3, null-auffüllend)	(1800, 32, 64)
Conv2d 3 (3x3, Schrittweite=2)	(900, 16, 96)
Conv2d 4 (3x3, Schrittweite=2)	(450, 8, 96)
Conv2d 5 (3x3, Schrittweite=2)	(225, 4, 96)
Conv2d_transponiert 1 (3x3, Schrittweite=2, null-auffüllend)	(450, 8, 96)
Conv2d_ transponiert 2 (3x3, Schrittweite=2, null-auffüllend)	(900, 16, 64)
Conv2d_ transponiert 3 (3x3, Schrittweite=2, null-auffüllend)	(1800, 32, 32)
Conv2d 6 (3x3)	(1800, 32, 1)

Beim Training können zwei unterschiedliche Verlustfunktionen für die Festlegung der Parameter des Neuronalen Netzes verwendet werden. Bei einem LIDAR-System kann man von einer Rauschverteilung ausgehen die mit einem Median beschrieben werden kann. Das heißt, dass der Median unendlich vieler aufgenommener Bilder einem unverrauschten Bild entspricht. Für ein solches Rauschen, das mit einem Median beschrieben werden kann, kann der Fehler mit einer L1 Norm beschrieben werden bei dem die Variablen des Fehlers L1 auf eine Weise miteinander zusammenhängen, die entsprechend der folgenden Formel beschrieben werden kann: $L 1 = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{y}}^{(i)} - y^{(i)} |$
Dabei ist L die Loss Funktion mit dem Laufindex i, der als Pixel Index von 1 bis zur Länge mal der Breite des Bildes läuft und ŷ: die Prädiktion des Netzwerkes d.h. die Anwendung des Neuronalen Netzes auf das Bild A und y: das Bild B darstellt.
Für verrauschte Bilder deren Rauschen mit einem Mittelwert beschrieben werden kann, kann eine L2 Norm mit dem Zusammenhang der Variablen wie sie die Formel zwei wiedergibt, für die Berechnung der Parameter des Neuronalen Netzes herangezogogen werden. $L 2 = \frac{1}{n} \sum_{i = 1}^{n} {({\hat{y}}^{(i)} - y^{(i)})}^{2}$
Die 2 zeigt ein Verfahren zur Erstellung eines digitalen Bilderpaares zum Training eines Neuronalen Netzes verrauschte Bildanteile verrauschter Bilder zu korrigieren.
Dabei wird in einem Schritt S1 ein Ausmaß von Objektbewegungen innerhalb eines überlappenden Bereiches eines gespeicherten ersten digitalen Bildes und eines gespeicherten zweiten digitalen Bildes einer Umgebung einer mobilen Plattform bestimmt.
In einem weiteren Schritt S2 werden jeweils erfasste Raumwinkel der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes bestimmt.
In einem weiteren Schritt S3 wird ein digitales Bilderpaar aus dem ersten digitalen Bild und dem zweiten digitalen Bild erstellt, sofern der jeweils erfasste Raumwinkel der Umgebung des ersten und des zweiten digitalen Bildes um nicht mehr als um einen festgelegten Unterschied voneinander abweichen, und das Ausmaß der Objektbewegungen innerhalb des überlappenden Bereiches des ersten und des zweiten digitalen Bildes unter einem festgelegten Wert liegt.

Claims

Verfahren zur Erstellung eines digitalen Bilderpaares zum Training eines Neuronalen Netzes verrauschte Bildanteile verrauschter Bilder zu korrigieren, mit den Schritten: Bestimmen eines Ausmaßes von Objektbewegungen (S1) innerhalb eines überlappenden Bereiches eines gespeicherten ersten digitalen Bildes und eines gespeicherten zweiten digitalen Bildes einer Umgebung einer mobilen Plattform; Bestimmen eines jeweils erfassten Raumwinkels der Umgebung der mobilen Plattform (S2), des ersten und zweiten digitalen Bildes; Erstellen des digitalen Bilderpaares aus dem ersten digitalen Bild und dem zweiten digitalen Bild (S3), sofern der jeweils erfasste Raumwinkel der Umgebung des ersten und des zweiten digitalen Bildes um nicht mehr als um einen festgelegten Unterschied voneinander abweichen, und das Ausmaß der Objektbewegungen innerhalb des überlappenden Bereiches des ersten und des zweiten digitalen Bildes unter einem festgelegten Wert liegt.
Verfahren nach Anspruch 1, bei dem das Ausmaß der Objektbewegungen innerhalb des überlappenden Bereiches des ersten und des zweiten digitalen Bildes mit Daten eines Trägheitsnavigationssystems der mobilen Plattform bestimmt wird.
Verfahren nach Anspruch 1 oder 2, bei dem das Bestimmen des jeweils erfassten Raumwinkels der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes mit Daten eines Trägheitsnavigationssystems der mobilen Plattform bestimmt wird.
Verfahren nach einem der vorangehenden Ansprüche, bei dem das Ausmaß der Objektbewegung mittels eines Signals eines Radarsensors oder einer Bildauswertung eines optischen Systems oder eines Tracking-Systems ermittelt wird.
Verfahren nach einem der vorangehenden Ansprüche, bei dem eine Abweichung des jeweils erfassten Raumwinkels der Umgebung der mobilen Plattform, des ersten und zweiten digitalen Bildes mit Daten zumindest eines Inertialsensors der mobilen Plattform bestimmt wird.
Verfahren nach einem der vorangehenden Ansprüche, bei dem das gespeicherte erste und zweite digitale Bild durch eine Transformation von Signalen eines LIDAR-Systems generiert werden.
Verfahren nach einem der vorangehenden Ansprüche, bei dem das gespeicherte erste und zweite digitale Bild mittels bilderzeugender Systeme einer Vielzahl von zumindest teilautomatisierten mobilen Plattformen erfasst werden.
Verfahren zum Training eines Neuronalen Netzes verrauschte Bildanteile verrauschter Bilder zu korrigieren, wobei die Bilderpaare entsprechen einem Verfahren der Ansprüche 1 bis 7 generiert wurden, und das Neuronale Netz mit dem ersten digitalen Bild des digitalen Bilderpaares als Eingangsgröße trainiert wird das zweite digitale Bild des digitalen Bilderpaares zu generieren.
Verfahren zum Korrigieren verrauschter Bildanteile verrauschter Bilder mittels eines Neuronalen Netzes, das gemäß Anspruch 8 trainiert wurde, indem ein verrauschtes Bild als Eingangsgröße an das trainierte Neuronale Netz übergeben wird und die verrauschten Bildanteile in dem von dem Neuronalen Netz generierten Bild korrigiert sind.
Verfahren zur Repräsentation einer Umgebung einer zumindest teilautomatisierten mobilen Plattform mittels Bildern, die von bilderzeugenden Systemen von der Umgebung der zumindest teilautomatisierten mobilen Plattform erfasst wurden und deren verrauschte Bildanteile gemäß einem Verfahren des Anspruchs 9 korrigiert werden.
Verfahren nach Anspruch 10, wobei die Repräsentation der Umgebung zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs verwendet und/oder eine Darstellung der Repräsentation an einen Fahrzeuginsassen ausgesendet wird.
Vorrichtung, die eingerichtet ist, ein Verfahren nach einem der Ansprüche 1 bis 11 durchzuführen.
Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 13 gespeichert ist.