DE102018221625A1

DE102018221625A1 - Transfer von Zusatzinformation zwischen Kamerasystemen

Info

Publication number: DE102018221625A1
Application number: DE102018221625.8A
Authority: DE
Inventors: Paul Robert Herzog; Uwe Brosch; Lidia Rosario Torres Lopez; Dirk Raproeger; Paul-Sebastian Lauer
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2020-06-18
Also published as: WO2020119996A1; US20210329219A1; CN113196746A; EP3895415A1

Abstract

Verfahren (100) zur Anreicherung eines Ziel-Bildes (31), welches ein Ziel-Kamerasystem (3) von einer Szenerie (1) aufgenommen hat, mit Zusatzinformation (4, 41, 42), mit der mindestens ein Quell-Bild (21), welches ein Quell-Kamerasystem (2) von der gleichen Szenerie (1) aus einer anderen Perspektive aufgenommen hat, bereits angereichert ist, mit den Schritten:• Quell-Pixeln (21a) des Quell-Bildes (21) werden 3D-Orte (5) im dreidimensionalen Raum zugeordnet (110), die zu den Positionen der Quell-Pixel (21a) im Quell-Bild (21) korrespondieren;• Zusatzinformation (4, 41, 42), die Quell-Pixeln (21a) zugeordnet ist, wird den jeweils zugehörigen 3D-Orten (5) zugeordnet (120);• den 3D-Orten (5) werden diejenigen Ziel-Pixel (31a) des Ziel-Bildes (31) zugeordnet (130), deren Positionen im Ziel-Bild (31) zu den 3D-Orten (5) korrespondieren;Zusatzinformation (4, 41, 42), die 3D-Orten (5) zugeordnet ist, wird den zugehörigen Ziel-Pixeln (31a) zugeordnet (140).Verfahren (200) zum Trainieren eines KI-Moduls (50), wobei Lern-Zusatzinformation (54) mindestens teilweise mit dem Verfahren (100) den Pixeln (53a) eines Lern-Bildes (53) als Ziel-Pixeln (31a) zugeordnet wird (215).Zugehöriges Computerprogramm.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Verarbeitung von Bildern, die mit unterschiedlichen Kamerasystemen aufgenommen worden sind. Das Verfahren ist insbesondere für Fahrassistenzsysteme und Systeme zum zumindest teilweise automatisierten Fahren nutzbar.
Stand der Technik
Für Fahrassistenzsysteme und für Systeme zum zumindest teilweise automatisierten Fahren sind Bilder, die mit Kamerasystemen vom Fahrzeugumfeld aufgenommen werden, die wichtigste Informationsquelle. Häufig existiert zu den Bildern eine Zusatzinformation, wie beispielsweise eine semantische Segmentierung, die mit einem künstlichen neuronalen Netzwerk erhalten wurde. Die Zusatzinformation ist an das jeweils verwendete Kamerasystem gebunden.
Die US 8,958,630 B1 offenbart ein Verfahren zur Herstellung eines Klassifizierers für die semantische Klassifikation von Bildpixeln, die zu unterschiedlichen Objekttypen gehören. Dabei wird die Datenbasis der Lern-Daten in einem unüberwachten Lernprozess vergrößert.
Die US 9,414,048 B2 und die US 8,330,801 B2 offenbaren Verfahren, mit denen zweidimensionale Bilder und Videosequenzen in dreidimensionale Bilder umgewandelt werden können.
Offenbarung der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Anreicherung eines Ziel-Bildes, welches ein Ziel-Kamerasystem von einer Szenerie aufgenommen hat, mit Zusatzinformation entwickelt. Die Zusatzinformation ist einem Quell-Bild, welches ein Quell-Kamerasystem von der gleichen Szenerie aus einer anderen Perspektive aufgenommen hat, bzw. Quell-Pixeln dieses Quell-Bildes, zugeordnet. Mit anderen Worten, das Quell-Bild ist bereits mit dieser Zusatzinformation angereichert.
Die Zusatzinformation kann von beliebiger Art sein. Sie kann beispielsweise physikalische Messdaten beinhalten, die im Zusammenhang mit der Aufnahme des Quell-Bildes erfasst worden sind. Beispielsweise kann das Quell-Kamerasystem ein Kamerasystem sein, welches eine auf sichtbares Licht sensitive Quell-Kamera und eine auf den gleichen Beobachtungsbereich ausgerichtete Wärmebildkamera umfasst. Dieses Quell-Kamerasystem kann dann ein Quell-Bild mit sichtbarem Licht aufnehmen, und jedem Pixel des Quell-Bildes ist dann als Zusatzinformation ein Intensitätswert aus dem gleichzeitig aufgenommenen Wärmebild zugeordnet.
Den Quell-Pixeln des Quell-Bildes werden 3D-Orte im dreidimensionalen Raum zugeordnet, die zu den Positionen der Quell-Pixel im Quell-Bild korrespondieren. Es wird also eine dreidimensionale Darstellung der Szenerie bestimmt, die bei Abbildung mit dem Quell-Kamerasystem auf das eingegebene Quell-Bild führt. Diese Darstellung muss im dreidimensionalen Raum nicht kontinuierlich und/oder vollständig sein wie eine herkömmliche dreidimensionale Szenerie, zumal insbesondere aus einem einzelnen zweidimensionalen Bild gar nicht eindeutig auf eine bestimmte dreidimensionale Szenerie geschlossen werden kann. Vielmehr gibt es mehrere dreidimensionale Szenerien, die bei Abbildung mit dem Quell-Kamerasystem das gleiche zweidimensionale Quell-Bild erzeugen. Die aus einem einzelnen Quell-Bild gewonnene dreidimensionale Darstellung kann also beispielsweise eine Punktwolke im dreidimensionalen Raum sein, in der es genauso viele Punkte gibt wie das Quell-Bild Quell-Pixel hat und in der der dreidimensionale Raum im Übrigen als leer angenommen wird. Bei einer Auftragung dieser Punkte in einer dreidimensionalen Darstellung ist das dreidimensionale Volumen somit dünn besetzt.
Zusatzinformation, die Quell-Pixeln zugeordnet ist, wird den jeweils zugehörigen 3D-Orten zugeordnet. In dem zuvor genannten Beispiel mit der zusätzlichen Wärmebildkamera wird also jedem Punkt in der dreidimensionalen Punktwolke, die zu dem Quell-Bild korrespondiert, der zu dem entsprechenden Pixel im Quell-Bild gehörige Intensitätswert des Wärmebildes zugeordnet.
Den 3D-Orten werden nun diejenigen Ziel-Pixel des Ziel-Bildes zugeordnet, deren Positionen im Ziel-Bild zu den 3D-Orten korrespondieren. Es wird also ermittelt, auf welche Ziel-Pixel im Ziel-Bild die 3D-Orte abgebildet werden, wenn die dreidimensionale Szenerie mit dem Ziel-Kamerasystem aufgenommen wird. Diese Zuordnung ergibt sich aus dem Zusammenspiel der Anordnung des Ziel-Kamerasystems im Raum mit den Abbildungseigenschaften des Ziel-Kamerasystems.
Die Zusatzinformation, die den 3D-Orten zugeordnet ist, wird nun den zugehörigen Ziel-Pixeln zugeordnet.
Auf diese Weise kann die Zusatzinformation, die ursprünglich im Zusammenhang mit dem Quell-Bild erarbeitet wurde, auf das Ziel-Bild übertragen werden. Es ist also möglich, das Ziel-Bild mit dieser Zusatzinformation zu versehen, ohne die Zusatzinformation physikalisch neu aufnehmen zu müssen.
Der Grundgedanke hinter dem Verfahren ist, dass die Zusatzinformation, wie in dem genannten Beispiel die Infrarot-Intensität aus dem Wärmebild, physikalisch primär nicht an das Quell-Pixel des Quell-Bildes gebunden ist, sondern an den zugehörigen 3D-Ort im dreidimensionalen Raum. An diesem 3D-Ort befindet sich in diesem Beispiel Materie, die Infrarotstrahlung abgibt. Dieser 3D-Ort wird lediglich im Quell-Bild und im Ziel-Bild jeweils auf unterschiedliche Positionen abgebildet, da die Quell-Kamera und die Ziel-Kamera den 3D-Ort aus unterschiedlichen Perspektiven betrachten. Diesen Zusammenhang macht sich das Verfahren zu Nutze, indem zu Quell-Pixeln des Quell-Bildes 3D-Orte in einem dreidimensionalen „Weltkoordinatensystem“ rekonstruiert werden und anschließend diese 3D-Orte Ziel-Pixeln des Ziel-Bildes zugeordnet werden.
In einer besonders vorteilhaften Ausgestaltung wird eine semantische Klassifikation von Bildpixeln als Zusatzinformation gewählt. Eine solche semantische Klassifikation kann beispielsweise jedem Pixel die Information zuordnen, von welchem Typ das Objekt ist, zu dem das Pixel gehört. Das Objekt kann beispielsweise ein Fahrzeug, eine Fahrbahn, eine Fahrbahnmarkierung, eine Fahrbahnbegrenzung, ein bauliches Hindernis oder ein Verkehrszeichen sein. Die semantische Klassifikation wird häufig mit neuronalen Netzwerken oder anderen KI-Modulen vorgenommen. Diese KI-Module werden trainiert, indem ihnen eine Vielzahl von Lern-Bildern eingegeben wird, zu denen jeweils die korrekte semantische Klassifikation als „ground truth“ bekannt ist. Es wird geprüft, inwieweit die vom KI-Modul ausgegebene Klassifikation der „ground truth“ entspricht, und aus den Abweichungen wird gelernt, indem die Verarbeitung des KI-Moduls entsprechend optimiert wird.
Die „ground truth“ wird üblicherweise erhalten, indem eine Vielzahl von Bildern von Menschen semantisch klassifiziert wird. D.h., der Mensch markiert in den Bildern, welche Pixel zu Objekten welcher Klassen gehören. Dieser „Labelling“ genannte Prozess ist zeitaufwändig und teuer. Bislang war die auf diese Weise von Menschen eingepflegte Zusatzinformation immer an genau das Kamerasystem gebunden, mit dem die Lern-Bilder aufgenommen worden waren. Wurde zu einem Kamerasystem eines anderen Typs gewechselt, wie etwa von einer normalen perspektivischen Kamera zu einer Fish-Eye-Kamera, oder wurde auch nur die Perspektive des bestehenden Kamerasystems geändert, so musste der Prozess des „Labellings“ komplett von vorne beginnen. Indem nun die für die mit dem Quell-Kamerasystem aufgenommenen Quell-Bilder schon vorhandene semantische Klassifikation auf die mit dem Ziel-Kamerasystem aufgenommenen Ziel-Bilder übertragen werden kann, kann die zuvor im Zusammenhang mit den Quell-Bildern investierte Arbeit weiter genutzt werden.
Dies ist insbesondere wichtig im Zusammenhang mit Anwendungen in Fahrzeugen. In Fahrassistenzsystemen und Systemen für das zumindest teilweise automatisierte Fahren kommen immer mehr Kameras und immer mehr unterschiedliche Kameraperspektiven zum Einsatz.
So ist es beispielsweise gängig, eine Frontkamera mittig hinter der Windschutzscheibe zu verbauen. Für diese Kameraperspektive liegt in großer Menge „ground truth“ in Form von durch Menschen semantisch klassifizierten Bildern vor und wird derzeit noch immer angefertigt. Daneben entstehen jedoch auch immer mehr Systeme, die zusätzlich zu dem Frontkamerasystem weitere Kameras enthalten, etwa im Frontbereich im Kühlerbereich, im Seitenspiegel oder in der Heckklappe. Das neuronale Netzwerk, das mit Aufnahmen der Frontkamera und zugehöriger „ground truth“ trainiert wurde, liefert nun eine semantische Klassifikation dessen, was die übrigen Kameras aus ihren anderen Perspektiven sehen. Diese semantische Klassifikation kann als „ground truth“ für das Training eines neuronalen Netzwerks mit Aufnahmen dieser übrigen Kameras verwendet werden. Die im Zusammenhang mit der Frontkamera als Quell-Kamera erworbene „ground truth“ kann also für das Training der übrigen Kameras als Ziel-Kameras weitergenutzt werden. Es muss also für das Training mehrerer Kameras nur einmal „ground truth“ erworben werden, d.h., der Aufwand für das Erwerben von „ground truth“ vervielfacht sich nicht mit der Anzahl der Kameras und Perspektiven.
Die Zuordnung der Quell-Pixel zu 3D-Orten kann auf beliebige Weise erfolgen. Beispielsweise kann zu mindestens einem Quell-Pixel der zugehörige 3D-Ort aus einem Zeitprogramm ermittelt werden, nach dem sich mindestens eine Quell-Kamera des Quell-Kamerasystems im Raum bewegt. Beispielsweise kann ein „Structure from Motion“-Algorithmus verwendet werden, um das Zeitprogramm der Bewegung einer einzelnen Quell-Kamera in eine Zuordnung der Quell-Pixel zu 3D-Orten umzuwandeln.
In einer besonders vorteilhaften Ausgestaltung wird ein Quell-Kamerasystem mit mindestens zwei Quell-Kameras gewählt. Zum einen können dann die zu Quell-Pixeln zugehörigen 3D-Orte durch stereoskopische Auswertung von Quell-Bildern ermittelt werden, die von beiden 3D-Kameras aufgenommen wurden. Die mindestens zwei Quell-Kameras können insbesondere in einem Stereo-Kamerasystem enthalten sein, das zu jedem Pixel unmittelbar eine Tiefeninformation liefert. Diese Tiefeninformation kann genutzt werden, um die Quell-Pixel des Quell-Bildes unmittelbar 3D-Orten zuzuordnen.
Zum anderen können auch Quell-Pixel aus Quell-Bildern, die von beiden Quell-Kameras aufgenommen wurden, zusammengeführt werden, um mehr Ziel-Pixeln des Ziel-Bildes Zusatzinformationen zuzuordnen. Da die Perspektiven des Quell-Kamerasystems und des Ziel-Kamerasystems unterschiedlich sind, bilden beide Kamerasysteme nicht genau den gleichen Ausschnitt der dreidimensionalen Szenerie ab. Wenn also die Zusatzinformation von allen Quell-Pixeln eines einzigen Quell-Bildes auf Ziel-Pixel des Ziel-Bildes transferiert ist, werden hiervon nicht alle Ziel-Pixel des Ziel-Bildes abgedeckt sein. Es wird also Ziel-Pixel geben, denen noch keine Zusatzinformation zugeordnet ist. Wenn mehrere Quell-Kameras verwendet werden, vorzugsweise zwei oder drei Quell-Kameras, dann können diesbezügliche Lücken im Ziel-Bild gefüllt werden. Für das Training eines neuronalen Netzwerks oder anderen KI-Moduls auf der Basis des Ziel-Bildes ist dies jedoch nicht zwingend notwendig. Insbesondere können bei einem derartigen Training Ziel-Pixel des Ziel-Bildes, zu denen es keine Zusatzinformationen gibt, von der Bewertung durch das beim Training verwendete Gütemaß (etwa eine Fehlerfunktion) ausgenommen werden.
In einer weiteren Ausprägung des Systems kann zur Erlangung der sowohl von dem Quell- als auch von dem Ziel-Kamera-System beobachteten 3D-Struktur ein beliebiger 3D-Sensor eine Punktwolke liefern, die mit geeignetem Kalibrierverfahren sowohl die Quell-Pixel als auch die Ziel-Pixel im 3D-Raum verortet und damit die Übertragbarkeit der Trainingsinformation vom Quellsystem zum Zielsystem sicherstellt.
Mögliche weitere 3D Sensoren, die für das Training lediglich die verbindende 3D-Struktur der beobachteten Szene bestimmen, könnte ein zusätzlicher bildgebender Time-of-Flight-(TOF)-Sensor oder etwa ein Lidar-Sensor sein.
In einer weiteren vorteilhaften Ausgestaltung werden ein Quell-Bild und ein Ziel-Bild gewählt, die gleichzeitig aufgenommen worden sind. Auf diese Weise ist sichergestellt, dass gerade bei einer dynamischen Szenerie mit bewegten Objekten das Quell-Bild und das Ziel-Bild, abgesehen von der unterschiedlichen Kameraperspektive, den gleichen Zustand der Szenerie abbilden. Gibt es hingegen einen zeitlichen Versatz zwischen dem Quell-Bild und dem Ziel-Bild, ist ein Objekt, das in dem einen Bild noch vorhanden war, bis zur Aufnahme des anderen Bildes möglicherweise schon aus dem Erfassungsbereich verschwunden.
In einer besonders vorteilhaften Ausgestaltung werden ein Quell-Kamerasystem und ein Ziel-Kamerasystem gewählt, die in fester relativer Orientierung zueinander an ein und dasselbe Fahrzeug montiert sind. Gerade bei Anwendungen in und an Fahrzeugen sind die beobachteten Szenerien in der Regel dynamisch. Sind die beiden Kamerasysteme in fester relativer Orientierung zueinander montiert, ist insbesondere eine gleichzeitige Bildaufnahme möglich. Die feste Verbindung der beiden Kamerasysteme bewirkt, dass der Unterschied der Perspektiven zwischen beiden Kamerasystemen während der Fahrt konstant bleibt.
Wie zuvor erläutert, ist die Übertragung von Zusatzinformation von einem Quell-Bild zu einem Ziel-Bild unabhängig davon nützlich, worin die Zusatzinformation konkret besteht. Jedoch ist eine wichtige Anwendung die Weiternutzung von „ground truth“, die für die Verarbeitung von Bildern eines Kamerasystems mit einem KI-Modul generiert wurde, für die Verarbeitung von Bildern eines anderen Kamerasystems.
Daher bezieht sich die Erfindung auch auf ein Verfahren zum Trainieren eines KI-Moduls, das einem von einem Kamerasystem aufgenommenen Bild, und/oder Pixeln eines solchen Bildes, durch Verarbeitung in einer internen Verarbeitungskette Zusatzinformation zuordnet. Diese Zusatzinformation kann insbesondere eine Klassifikation von Bildpixeln sein. Die interne Verarbeitungskette des KI-Moduls kann insbesondere ein künstliches neuronales Netzwerk (KNN) beinhalten.
Das Verhalten der internen Verarbeitungskette ist durch Parameter festgelegt. Diese Parameter werden beim Trainieren des KI-Moduls optimiert. Bei einem KNN können die Parameter beispielsweise Gewichte sein, mit denen die Eingaben, die ein Neuron erhält, untereinander gewichtet werden.
Beim Trainieren werden Lern-Bilder in das KI-Modul eingegeben. Die vom KI-Modul ausgegebene Zusatzinformation wird mit Lern-Zusatzinformation verglichen, die dem jeweiligen Lern-Bild zugeordnet ist. Das Ergebnis des Vergleichs wird zur Anpassung der Parameter herangezogen. Beispielsweise kann eine Fehlerfunktion (Loss-Funktion) von der im Vergleich ermittelten Abweichung abhängen, und die Parameter können mit dem Ziel optimiert werden, diese Fehlerfunktion zu minimieren. Hierzu kann jedes beliebige multivariate Optimierungsverfahren genutzt werden, wie beispielsweise ein Gradientenabstiegsverfahren.
Die Lern-Zusatzinformation wird mindestens teilweise mit dem zuvor beschriebenen Verfahren den Pixeln des Lern-Bildes als Ziel-Pixeln zugeordnet. Das heißt, es wird für ein anderes Kamerasystem, und/oder für ein aus einer anderen Perspektive beobachtendes Kamerasystem, erstellte Lern-Zusatzinformation weitergenutzt. Die Generierung von „ground truth“ für das konkrete Kamerasystem, das im Zusammenhang mit dem trainierten KI-Modul eingesetzt werden soll, kann also zumindest teilweise automatisiert werden. Da die manuelle Generierung von „ground truth“ sehr arbeitsaufwändig war, werden somit die Entwicklungskosten für Kombinationen von Kl-Modulen und neuen Kamerasystemen deutlich reduziert. Weiterhin wird auch die Fehleranfälligkeit vermindert, da einmal geprüfte „ground truth“ vielfach weitergenutzt werden kann.
Die Verfahren können insbesondere auf einem Computer, und/oder auf einem Steuergerät, durchgeführt werden und insoweit in einer Software verkörpert sein. Diese Software ist ein eigenständiges Produkt mit Kundennutzen. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem Computer, und/oder einem Steuergerät, ausgeführt werden, den Computer, und/oder das Steuergerät, dazu veranlassen, eines der beschriebenen Verfahren auszuführen.
Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt.
Ausführungsbeispiele
Es zeigt:

1 Ausführungsbeispiel des Verfahrens 100;
2 Beispielhaftes Quell-Bild 21;
3 Beispielhafte Übersetzung des Quell-Bildes 21 in eine Punktwolke im dreidimensionalen Raum;
4 Beispielhaftes Ziel-Bild 31 mit aus dem Quell-Bild 21 übertragener Zusatzinformation 4, 41, 42;
5 Beispielhafte Anordnung eines Quell-Kamerasystems 2 und eines Ziel-Kamerasystems 3 an einem Fahrzeug 6;
6 Ausführungsbeispiel des Verfahrens 200.

Nach 1 werden in Schritt 110 des Verfahrens 100 Quell-Pixeln 21a eines Quell-Bildes 21 3D-Orte 5 im dreidimensionalen Raum zugeordnet. Dabei kann gemäß Block 111 zu mindestens einem Quell-Pixel 21a der zugehörige 3D-Ort 5 aus einem Zeitprogramm ermittelt werden, nach dem sich mindestens eine Quell-Kamera des Quell-Kamerasystems 2 im Raum bewegt. Alternativ oder auch in Kombination hierzu kann gemäß Block 112 zu mindestens einem Quell-Pixel 21a der zugehörige 3D-Ort 5 durch stereoskopische Auswertung von Quell-Bildern 21 ermittelt werden, die von zwei Quell-Kameras aufgenommen wurden.
Letztere Option setzt voraus, dass in Schritt 105 ein Quell-Kamerasystem mit mindestens zwei Quell-Kameras gewählt wurde. Des Weiteren können gemäß dem optionalen Schritt 106 ein Quell-Bild 21a und ein Ziel-Bild 31a gewählt werden, die gleichzeitig aufgenommen worden sind. Gemäß dem optionalen Schritt 107 können weiterhin ein Quell-Kamerasystem 2 und ein Ziel-Kamerasystem 3 gewählt werden, die in fester relativer Orientierung 61 zueinander an ein und dasselbe Fahrzeug 6 montiert sind.
In Schritt 120 wird die Zusatzinformation 4, 41, 42, die den Quell-Pixeln 21a des Quell-Bildes 21 zugeordnet ist, den jeweils zugehörigen 3D-Orten 5 zugeordnet. In Schritt 130 werden den 3D-Orten diejenigen Ziel-Pixel 31a des Ziel-Bildes 31 zugeordnet, deren Positionen im Ziel-Bild 31 zu den 3D-Orten 5 korrespondieren. In Schritt 140 wird die Zusatzinformation 4, 41, 42, die 3D-Orten 5 zugeordnet ist, den zugehörigen Ziel-Pixeln 31a zugeordnet.
Dieser Prozess wird in den 2 bis 4 näher erläutert.
2 zeigt ein zweidimensionales Quell-Bild 21 mit Koordinatenrichtungen x und y, das ein Quell-Kamerasystem 2 von einer Szenerie 1 aufgenommen hat. Das Quell-Bild 21 wurde semantisch segmentiert. In dem in 2 gezeigten Beispiel wurde somit zu einem Teilbereich des Quell-Bildes 21 die Zusatzinformation 4, 41 erworben, dass dieser Teilbereich zu einem in der Szenerie 1 vorhandenen Fahrzeug 11 gehört. Zu anderen Teilbereichen des Quell-Bildes 21 wurde die Zusatzinformation 4, 42 erworben, dass diese Teilbereiche zu in der Szenerie 1 vorhandenen Fahrbahnmarkierungen 12 gehören. Ein einzelnes Pixel 21a des Quell-Bildes 21 ist in 2 exemplarisch markiert.
In 3 sind die Quell-Pixel 21a in 3D-Orte 5 im dreidimensionalen Raum übersetzt, wobei dies für das Ziel-Pixel 21a aus 2 mit dem Bezugszeichen 5 bezeichnet ist. Wenn zu einem Quell-Pixel 21a die Zusatzinformation 4, 41 hinterlegt war, dass das Quell-Pixel 21a zu einem Fahrzeug 11 gehört, dann wurde diese Zusatzinformation 4, 41 auch dem entsprechenden 3D-Ort 5 zugewiesen. Wenn zu einem Quell-Pixel 21a die Zusatzinformation 4, 42 hinterlegt war, dass das Quell-Pixel 21a zu einer Fahrbahnmarkierung 12 gehört, dann wurde diese Zusatzinformation 4, 42 auch dem entsprechenden 3D-Ort 5 zugewiesen. Dies ist durch unterschiedliche Symbole dargestellt, mit denen die jeweiligen 3D-Orte 5 in der in 3 gezeigten Punktwolke dargestellt sind.
In 3 sind nur genauso viele 3D-Orte 5 verzeichnet wie es Quell-Pixel 21a im Quell-Bild 21 gibt. Daher ist der dreidimensionale Raum in 3 nicht vollständig ausgefüllt, sondern vielmehr durch die Punktwolke nur dünn besetzt. Insbesondere ist nur der Heckbereich des Fahrzeugs 11 dargestellt, da auch nur dieser Bereich in 2 sichtbar ist.
In 3 ist weiterhin eingezeichnet, dass das in 2 gezeigte Quell-Bild 21 aus der Perspektive A aufgenommen wurde. Als rein illustratives Beispiel ohne Anspruch auf reale Anwendbarkeit sei das Ziel-Bild 31 aus der in 3 eingezeichneten Perspektive B aufgenommen.
Dieses beispielhafte Ziel-Bild 31 ist in 4 dargestellt. Hier ist exemplarisch eingezeichnet, dass das Quell-Pixel 21a auf dem Umweg über den zugehörigen 3D-Ort 5 letztendlich dem Ziel-Pixel 31a zugeordnet wurde. Allen Ziel-Pixeln 31a, zu denen es in 2 ein zugehöriges Quell-Pixel 21a mit hinterlegter Zusatzinformation 4, 41, 42 gibt, ist dementsprechend, auf dem Umweg über den zugehörigen 3D-Ort 5, diese Zusatzinformation 4, 41, 42 zugeordnet. Die insoweit in die semantische Segmentierung des Quell-Bildes 21 investierte Arbeit wurde also vollständig wiederverwertet.
Wie in 4 angedeutet ist, ist in der hier gezeigten Perspektive B mehr von dem Fahrzeug 11 sichtbar als in der Perspektive A des Quell-Bildes. Die Zusatzinformation 4, 41, dass Quell-Pixel 21a zum Fahrzeug 11 gehören, wurde aber nur bezüglich des in 2 sichtbaren Heckbereichs des Fahrzeugs 11 erfasst. Somit ist der in 4 gestrichelt eingezeichnete Frontbereich des Fahrzeugs 11 nicht mit dieser Zusatzinformation 4, 41 versehen. Dieses extreme konstruierte Beispiel zeigt, dass es vorteilhaft ist, Quell-Bilder 21 von mehreren Quell-Kameras zu kombinieren, um möglichst viele Ziel-Pixel 31a des Ziel-Bildes 31 mit Zusatzinformation 4, 41, 42 zu versehen.
5 zeigt eine beispielhafte Anordnung aus einem Quell-Kamerasystem 2 und einem Zielkamerasystem 3, die beide in einer festen relativen Orientierung 61 zueinander an das gleiche Fahrzeug 6 montiert sind. Diese feste relative Orientierung 61 wird in dem in 5 gezeigten Beispiel durch einen starren Versuchsträger vorgegeben.
Das Quell-Kamerasystem 2 beobachtet die Szenerie 1 aus einer ersten Perspektive A'. Das Ziel-Kamerasystem 3 beobachtet die gleiche Szenerie 1 aus einer zweiten Perspektive B'. Das beschriebene Verfahren 100 ermöglicht es, Zusatzinformation 4, 41, 42, die im Zusammenhang mit dem Quell-Kamerasystem 2 erworben wurde, im Kontext des Ziel-Kamerasystems 3 nutzbar zu machen.
6 zeigt ein Ausführungsbeispiel des Verfahrens 200 zum Trainieren eines KI-Moduls 50. Das KI-Modul 50 umfasst eine interne Verarbeitungskette 51, deren Verhalten durch Parameter 52 festgelegt ist.
In Schritt 210 des Verfahrens 200 werden Lern-Bilder 53 mit Pixeln 53a in das KI-Modul 50 eingegeben. Das KI-Modul 50 liefert zu diesen Lern-Bildern Zusatzinformation 4, 41, 42, wie beispielsweise eine semantische Segmentierung. Lern-Daten 54 dahingehend, welche Zusatzinformation 4, 41, 42 zu einem gegebenen Lern-Bild 53 jeweils erwartet wird, wird gemäß Schritt 215 mittels des Verfahrens 100 in die Perspektive transferiert, aus der das Lern-Bild 53 aufgenommen wurde.
In Schritt 220 wird die tatsächlich vom KI-Modul 50 gelieferte Zusatzinformation 4, 41, 42 mit der Lern-Zusatzinformation 54 verglichen. Das Ergebnis 220a dieses Vergleichs 220 wird in Schritt 230 genutzt, um die Parameter 52 der internen Verarbeitungskette 51 des KI-Moduls 50 zu optimieren.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 8958630 B1 [0003]
US 9414048 B2 [0004]
US 8330801 B2 [0004]

Claims

Verfahren (100) zur Anreicherung eines Ziel-Bildes (31), welches ein Ziel-Kamerasystem (3) von einer Szenerie (1) aufgenommen hat, mit Zusatzinformation (4, 41, 42), mit der mindestens ein Quell-Bild (21), welches ein Quell-Kamerasystem (2) von der gleichen Szenerie (1) aus einer anderen Perspektive aufgenommen hat, bereits angereichert ist, mit den Schritten: • Quell-Pixeln (21a) des Quell-Bildes (21) werden 3D-Orte (5) im dreidimensionalen Raum zugeordnet (110), die zu den Positionen der Quell-Pixel (21a) im Quell-Bild (21) korrespondieren; • Zusatzinformation (4, 41, 42), die Quell-Pixeln (21a) zugeordnet ist, wird den jeweils zugehörigen 3D-Orten (5) zugeordnet (120); • den 3D-Orten (5) werden diejenigen Ziel-Pixel (31a) des Ziel-Bildes (31) zugeordnet (130), deren Positionen im Ziel-Bild (31) zu den 3D-Orten (5) korrespondieren; • Zusatzinformation (4, 41, 42), die 3D-Orten (5) zugeordnet ist, wird den zugehörigen Ziel-Pixeln (31a) zugeordnet (140).
Verfahren (100) nach Anspruch 1, wobei zu mindestens einem Quell-Pixel (21a) der zugehörige 3D-Ort (5) aus einem Zeitprogramm ermittelt wird (111), nach dem sich mindestens eine Quell-Kamera des Quell-Kamerasystems (2) im Raum bewegt.
Verfahren (100) nach einem der Ansprüche 1 bis 2, wobei ein Quell-Kamerasystem (2) mit mindestens zwei Quell-Kameras gewählt wird (105).
Verfahren (100) nach Anspruch 3, wobei zu mindestens einem Quell-Pixel (21a) der zugehörige 3D-Ort (5) durch stereoskopische Auswertung von Quell-Bildern (21) ermittelt wird (112), die von beiden Quell-Kameras aufgenommen wurden.
Verfahren (100) nach einem der Ansprüche 3 bis 4, wobei Quell-Pixel aus Quell-Bildern (21), die von beiden Quell-Kameras aufgenommen wurden, zusammengeführt werden, um mehr Ziel-Pixeln (31a) des Ziel-Bildes (31) Zusatzinformation (4, 41, 42) zuzuordnen.
Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei ein Quell-Bild (21a) und ein Ziel-Bild (31a) gewählt werden (106), die gleichzeitig aufgenommen worden sind.
Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei ein Quell-Kamerasystem (2) und ein Ziel-Kamerasystem (3) gewählt werden (107), die in fester relativer Orientierung (61) zueinander an ein und dasselbe Fahrzeug (6) montiert sind.
Verfahren (200) zum Trainieren eines KI-Moduls (50), welches einem von einem Kamerasystem (3) aufgenommenen Bild (31), und/oder Pixeln (31a) eines solchen Bildes (31), durch Verarbeitung in einer internen Verarbeitungskette (51) Zusatzinformation (4, 41, 42) zuordnet, wobei das Verhalten der internen Verarbeitungskette (51) durch Parameter (52) festgelegt ist, wobei • Lern-Bilder (53) in das KI-Modul (50) eingegeben werden (210), • die vom KI-Modul (50) ausgegebene Zusatzinformation (4, 41, 42) mit dem jeweiligen Lern-Bild (53) zugeordneter Lern-Zusatzinformation (54) verglichen wird (220), • das Ergebnis (220a) des Vergleichs (220) zur Anpassung der Parameter (52) herangezogen wird (230) und • die Lern-Zusatzinformation (54) mindestens teilweise mit dem Verfahren (100) nach einem der Ansprüche 1 bis 5 den Pixeln (53a) des Lern-Bildes (53) als Ziel-Pixeln (31a) zugeordnet wird (215).
Verfahren (100, 200) nach einem der Ansprüche 1 bis 8, wobei eine semantische Klassifikation von Bildpixeln (21a, 31a) als Zusatzinformation (4, 41, 42) gewählt wird.
Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem Computer, und/oder einem Steuergerät, ausgeführt werden, den Computer, und/oder das Steuergerät, dazu veranlassen, ein Verfahren (100, 200) nach einem der Ansprüche 1 bis 9 auszuführen.