DE102019100575A1

DE102019100575A1 - Verfahren und system zum erzeugen eines bereichsbildes unter verwendung von daten mit geringer tiefe

Info

Publication number: DE102019100575A1
Application number: DE102019100575.2A
Authority: DE
Inventors: Wei Tong; Shuqing Zeng; Upali P. Mudalige
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2018-01-24
Filing date: 2019-01-10
Publication date: 2019-07-25
Also published as: US20190228504A1; CN110070572A; CN110070572B; US10706505B2

Abstract

Ein System und Verfahren zum Erzeugen eines Bereichsbildes unter Verwendung von Daten mit geringer Tiefe wird offenbart. Das Verfahren beinhaltet das Empfangen von Bilddaten einer Szene durch eine Steuerung. Die Bilddaten beinhalten einen ersten Satz von Pixeln. Das Verfahren beinhaltet auch das Empfangen von Daten mit geringer Tiefe der Szene durch die Steuerung. Die Daten mit geringer Tiefe beinhalten einen zweiten Satz von Pixeln, und die Anzahl der zweiten Menge von Pixeln ist kleiner als die Anzahl der ersten Menge von Pixeln. Das Verfahren beinhaltet auch das Kombinieren der Bilddaten und der Daten mit geringer Tiefe zu einer Kombination von Daten. Das Verfahren beinhaltet auch das Erzeugen eines Bereichsbildes unter Verwendung der kombinierten Daten.

Description

EINLEITUNG
Die Ausführungsformen des Gegenstands der Erfindung beziehen sich auf das Erzeugen eines Bereichsbildes unter Verwendung von Daten mit geringer Tiefe. Insbesondere können eine oder mehrere Ausführungsformen so ausgerichtet sein, dass sie ein hochauflösendes Bereichsbild unter Verwendung mindestens einer Kamera und mindestens eines Bereichssensors erzeugen. Eine oder mehrere Ausführungsformen können das hochauflösende Bereichsbild erzeugen, indem sie beispielsweise Bilddaten (die von der mindestens einen Kamera erfasst werden) mit Daten mit geringer Tiefe (die von dem mindestens einen Bereichssensor erfasst werden) kombinieren.
Ein Bereichsbild ist ein zweidimensionales Bild, bei dem Abstände zwischen einem bestimmten Punkt (d. h. einer Position, an der ein Bereichssensor positioniert ist) und Punkten innerhalb einer Szene des zweidimensionalen Bildes durch das zweidimensionale Bild reflektiert werden. Bei bestimmten Bereichsbildern können die Pixel, aus denen sich die Bereichsbilder zusammensetzen, Werte enthalten, die den Abständen zwischen dem bestimmten Punkt und den Punkten innerhalb der erfassten Szene entsprechen.
KURZDARSTELLUNG
In einer exemplarischen Ausführungsform beinhaltet ein Verfahren das Empfangen von Bilddaten einer Szene durch eine Steuerung. Die Bilddaten beinhalten einen ersten Satz von Pixeln. Das Verfahren beinhaltet auch das Empfangen von Daten mit geringer Tiefe der Szene durch die Steuerung. Die Daten mit geringer Tiefe beinhalten einen zweiten Satz von Pixeln, und die Anzahl der zweiten Menge von Pixeln ist kleiner als die Anzahl der ersten Menge von Pixeln. Das Verfahren beinhaltet auch das Kombinieren der Bilddaten und der Daten mit geringer Tiefe zu einer Kombination von Daten. Das Verfahren beinhaltet auch das Erzeugen eines Bereichsbildes unter Verwendung der kombinierten Daten.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Verfahren auch das Durchführen eines Merkmalsextraktionsprozesses an den Bilddaten, um einen Merkmalsvektor zu erzeugen.
In einer weiteren exemplarischen Ausführungsform entspricht der zweite Satz von Pixeln einer festen Anzahl von Pixeln, die an festen Pixelpositionen angeordnet sind.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Empfangen der Bilddaten das Empfangen der Bilddaten von einer monokularen Kamera.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Verfahren auch das Trainieren der Steuerung zum Durchführen von Merkmalsextraktion und -regression.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Trainieren der Steuerung das Trainieren zum Reduzieren eines Tiefenfehlers zwischen einem erzeugten Tiefendatensatz und einem tatsächlichen Tiefendatensatz.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Trainieren der Steuerung ein Trainieren, um eine durchgängig gleichbleibende Ordnung der Pixeltiefe zu erhalten.
In einer weiteren exemplarischen Ausführungsform spiegelt der Merkmalsvektor identifizierte räumliche Beziehungen zwischen verschiedenen identifizierbaren Merkmalen wider.
In einer weiteren exemplarischen Ausführungsform beinhaltet ein System in einem Fahrzeug eine elektronische Steuerung, die zum Empfangen von Bilddaten einer Szene konfiguriert ist. Die Bilddaten beinhalten einen ersten Satz von Pixeln. Die elektronische Steuerung ist ebenfalls konfiguriert, um Daten mit geringer Tiefe der Szene zu empfangen. Die Daten mit geringer Tiefe beinhalten einen zweiten Satz von Pixeln, und die Anzahl der zweiten Menge von Pixeln ist kleiner als die Anzahl der ersten Menge von Pixeln. Die elektronische Steuerung ist auch konfiguriert, um die Bilddaten und die Daten mit geringer Tiefe zu kombinierten Daten zu kombinieren. Die elektronische Steuerung ist auch konfiguriert, um aus den kombinierten Daten ein Bereichsbild zu erzeugen.
In einer weiteren exemplarischen Ausführungsform ist die elektronische Steuerung ferner konfiguriert, um einen Merkmalsextraktionsprozess an den Bilddaten durchzuführen, um einen Merkmalsvektor zu erzeugen.
In einer weiteren exemplarischen Ausführungsform entspricht der zweite Satz von Pixeln einer festen Anzahl von Pixeln, die an festen Pixelpositionen angeordnet sind.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Empfangen der Bilddaten das Empfangen der Bilddaten von einer monokularen Kamera.
In einer weiteren exemplarischen Ausführungsform ist die Steuerung ferner konfiguriert, um eine erste Normalisierung der Daten mit geringer Tiefe durchzuführen. Die erste Normalisierung beinhaltet das Ändern von Werten der Daten mit geringer Tiefe gemäß einem Wertebereich des Merkmalsvektors.
In einer weiteren exemplarischen Ausführungsform ist die Steuerung ferner konfiguriert, um eine zweite Normalisierung der kombinierten Daten durchzuführen. Die zweite Normalisierung beinhaltet das Modifizieren der kombinierten Daten in eine bestimmte Vektorlänge.
In einer weiteren exemplarischen Ausführungsform wird die Steuerung trainiert, um die Merkmalsextraktion und -regression durchzuführen.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Trainieren der Steuerung das Trainieren zum Reduzieren eines Tiefenfehlers zwischen einem erzeugten Tiefendatensatz und einem tatsächlichen Tiefendatensatz.
In einer weiteren exemplarischen Ausführungsform beinhaltet das Trainieren der Steuerung ein Trainieren, um eine durchgängig gleichbleibende Ordnung der Pixeltiefe zu erhalten.
In einer weiteren exemplarischen Ausführungsform spiegelt der Merkmalsvektor identifizierte räumliche Beziehungen zwischen verschiedenen identifizierbaren Merkmalen wider.
Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne Weiteres hervor.
Figurenliste
Andere Merkmale, Vorteile und Einzelheiten erscheinen, nur exemplarisch, in der folgenden ausführlichen Beschreibung der Ausführungsformen, wobei sich die ausführliche Beschreibung auf die Zeichnungen bezieht, wobei gilt:

1 veranschaulicht exemplarische Bilddaten und exemplarische Tiefendatensätze gemäß einer oder mehreren Ausführungsformen;
2 veranschaulicht des Kombinieren von exemplarischen Bilddaten und exemplarische Tiefendatensätzen gemäß einer oder mehreren Ausführungsformen;
3 veranschaulicht exemplarische Trainingsbilder und tatsächliche Tiefendatensätze, die verwendet werden, um eine oder mehrere Vorrichtungen zum Durchführen von Merkmalsextraktion und -regression gemäß einer oder mehreren Ausführungsformen zu trainieren;
4 bildet ein Flussdiagramm eines Verfahrens gemäß einer oder mehreren Ausführungsformen ab; und
5 zeigt ein Blockdiagramm auf hoher Ebene eines Computersystems, das verwendet werden kann, um eine oder mehrere Ausführungsformen zu implementieren.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende Beschreibung ist lediglich exemplarischer Natur und nicht dazu gedacht, die vorliegende Offenbarung in ihren An- oder Verwendungen zu beschränken. Der hier verwendete Begriff „Modul“ bezieht sich auf eine Verarbeitungsschaltung, die eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder gruppiert) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten, beinhalten kann.
Wie vorstehend beschrieben, ist ein Bereichsbild ein zweidimensionales Bild, bei dem Abstände zwischen einem bestimmten Punkt (d. h. einer Position, an der ein Sensor positioniert ist) und Punkten innerhalb einer Szene des zweidimensionalen Bildes durch das zweidimensionale Bild reflektiert werden. Die Fähigkeit, qualitativ hochwertige Bereichsbilder zu erzeugen, wird mit dem Aufkommen neuer Technologien immer wichtiger. So ist beispielsweise die Fähigkeit zum Erzeugen hochwertiger Bereichsbilder notwendig, um assistierte und automatisierte Fahrtechniken zu ermöglichen. Insbesondere muss ein Fahrzeug, das in der Lage ist, automatisiert zu fahren, in der Regel auf aufgenommene Bilder von hoher Qualität verweisen, um das Erkennen von Objekten in einer Umgebung und das Erkennen von Objekten in der Umgebung durchzuführen. Darüber hinaus kann es erforderlich sein, dass sich das Fahrzeug auf aufgenommene qualitativ hochwertige Reichweitenbilder verweisen muss, um einen aktuellen Standort des Fahrzeugs zu bestimmen und z. B. Karten- und Planungsfunktionen durchzuführen.
Herkömmliche Ansätze zum Gewinnen von Entfernungs-/Tiefendaten von Objekten in einer Umgebung können Lichtdetektions- und Entfernungstechnologien (LIDAR), Stereovisionstechnologien und/oder Tiefenvorhersagetechniken für monokulare Bilder verwenden. Allerdings weist jeder dieser Ansätze in der Regel erhebliche technische Einschränkungen auf. Ansätze, die die LIDAR-Technologie zum Bestimmen von Abstands-/Tiefendaten einer Umgebung verwenden, können im Allgemeinen keine hochauflösenden Abstands-/Tiefendaten für Objekte bereitstellen, die sich in größerer Entfernung vom LIDAR-Gerät befinden. Ansätze mit Stereovisionstechnologie können auch keine hochauflösenden Entfernungs-/Tiefendaten für weiter entfernte Objekte bereitstellen. Schließlich erfordern Ansätze, die Tiefenvorhersagen unter Verwendung von monokularen Bildern durchführen, im Allgemeinen Objekte der Umgebung (die in monokularen Bildern erfasst werden), um eine relative Bewegung zwischen den Bildern aufzuzeigen. In Abwesenheit einer Relativbewegung von Objekten innerhalb der Umgebung sind solche Ansätze jedoch im Allgemeinen unwirksam beim Bestimmen von Abstands-/Tiefendaten der Objekte, und solche Ansätze weisen im Allgemeinen eine geringe Leistung beim Bestimmen der erforderlichen Abstands-/Tiefendaten auf.
Angesichts der oben beschriebenen Mängel der konventionellen Ansätze und der Notwendigkeit, qualitativ hochwertige Bereichsbilder zu erzeugen, werden eine oder mehrere Ausführungsformen auf ein kostengünstiges Verfahren ausgerichtet, das Bereichsbilder erzeugt, die eine höhere Auflösung aufweisen als die Bereichsbilder, die durch die aktuellen Ansätze erzeugt werden.
Das Verfahren einer oder mehrerer Ausführungsformen kann mit aktuellen Kameras und Bereichsmessgeräten realisiert werden. Da eine oder mehrere Ausführungsformen die hochwertigen Bereichsbilder mit einem computerimplementierten Verfahren erzeugen können, können diese Ausführungsformen die hochwertigen Bereichsbilder zu einem niedrigeren Preis als bei den herkömmlichen Ansätzen erzeugen.
Eine oder mehrere Ausführungsformen sind auf ein System und Verfahren ausgerichtet, das ein hochauflösendes Bereichsbild erzeugt, indem es Bilddaten einer Szene mit Daten einer geringen Tiefe der Szene kombiniert. Die Bilddaten der Szene können z. B. mit einer Monokularkamera aufgenommen werden. Die Daten mit geringer Tiefe der Szene können z. B. mit einem oder mehreren Bereichssensoren erfasst werden.
Die Bilddaten einer Szene können eine Reihe von Elementen/Pixeln sein, die zusammen eine visuelle Darstellung der Szene bilden, wobei jedes Pixel einen digitalen Wert speichern kann, der einen Teil der visuellen Darstellung der Szene wiedergibt. Die Bilddaten können eine Anzahl von Pixeln sein, die in Zeilen und Spalten angeordnet sind.
Die Daten mit geringer Tiefe können eine Reihe von Elementen/Pixeln sein, die den Abstand von Punkten in einer Szene (die den Elementen/Pixeln der Daten mit geringer Tiefe zugeordnet sind) zu einem bestimmten Punkt anzeigen, der sich auf einen oder mehrere Bereichssensoren bezieht, die die Daten mit geringer Tiefe erfassen. Somit kann jedes Pixel der Tiefendaten Daten über den Abstand zwischen einem Punkt in der Szene (der dem Pixel zugeordnet ist) und dem einem oder mehreren Bereichssensoren speichern. Die Pixel der Tiefendaten können als gering angesehen werden, da die Anzahl der Pixel der Tiefendaten kleiner als die Anzahl der Pixel der Bilddaten ist. Die Pixel der Tiefendaten können eine feste Anzahl von Pixeln an festen Positionen sein.
1 veranschaulicht exemplarische Bilddaten 110 und exemplarische Tiefendatensätze 120 gemäß einer oder mehreren Ausführungsformen. In 1 stellen exemplarische Bilddaten 110 eine Szene mit verschiedenen Merkmalen dar (z. B. ein Bett, ein Nachttisch, eine Tür, usw.). Die exemplarischen Tiefendaten 120 beinhalten eine Vielzahl von Elementen/Pixeln 120, wobei jedes Pixel einem bestimmten Punkt in der Szene entspricht. Jedes Pixel speichert Daten über den Abstand zwischen dem Punkt in der Szene (der dem Pixel zugeordnet ist) und dem Sensor, der die Tiefendaten erfasst hat. Im Beispiel von 1 beinhalten die Tiefendaten 120 45 Pixel, angeordnet in 9 Spalten und 5 Zeilen. Wie beschrieben, können die Tiefendaten von 45 Pixeln gering ausfallen, da die Anzahl der Tiefendaten (45 Pixel) kleiner ist als die Anzahl der Pixel, aus denen sich die Bilddaten 110 zusammensetzen. Nach der Aufnahme können die Bilddaten 110 mit den Tiefendaten 120 kombiniert werden. Die Daten mit geringer Tiefe 120 können mit Mitteln wie z.B. Lichtdetektion und -entfernung (LIDAR), Radar usw. gewonnen werden.
2 veranschaulicht die Kombination von exemplarischen Bilddaten 110 und exemplarischen Tiefendaten 120 gemäß einer oder mehreren Ausführungsformen. Die Bilddaten 110 können z.B. mit einer Monokularkamera erfasst werden. Ein Prozess der Merkmalsextraktion 210 kann mit Bilddaten 110 durchgeführt werden, um räumliche Beziehungen zwischen verschiedenen identifizierbaren Merkmalen innerhalb der aufgenommenen Szene zu identifizieren. Die Informationen über die räumlichen Verhältnisse und identifizierten Merkmale können als ein Merkmalsvektor 230 gespeichert werden. Der Merkmalsvektor 230 kann im Allgemeinen Daten über die Merkmale sein, die durch die Merkmalsextraktion 210 extrahiert wurden. In einer oder mehreren Ausführungsformen kann der Merkmalsvektor 230 eine Reihe von Werten der identifizierten Merkmale / Beziehungen sein. Die Merkmalsextraktion 210 kann von einem Gerät durchgeführt werden, das für das Durchführen der Extraktion trainiert wurde, wie im Folgenden näher beschrieben.
Ein Prozess des ersten Normalisierens 220 kann mit den Daten 120 mit geringer Tiefe durchgeführt werden, um den Tiefenvektor 240 zu erzeugen. Das erste Normalisieren 220 kann die Daten mit geringer Tiefe 120 durch Ändern des Wertebereichs der Tiefendaten 120 gemäß den Wertebereichen des Merkmalsvektors 230 normalisieren. Angenommen, jeder Wert des Merkmalsvektors 230 kann von 1-100 reichen, und angenommen, dass jeder Wert der Tiefendaten 120 von 1-10 reichen kann. In diesem Beispiel können die Werte der Tiefendaten 120 an den Wertebereich des Merkmalsvektors 230 angepasst werden. Der Tiefenvektor 240 kann im Allgemeinen Daten über die Tiefen sein, die durch den ersten Normalisierungsprozess 220 normiert wurden.
Der resultierende Merkmalsvektor 230 (der sich aus der Merkmalsextraktion 210 ergibt) kann dann mit dem Tiefenvektor 240 kombiniert werden. In einer exemplarischen Ausführungsform kann der Merkmalsvektor 230 mit dem Tiefenvektor 240 verknüpft werden. Die kombinierten Vektoren können dann durch einen zweiten Normierungsprozess 250 normiert werden. Nach dem Durchführen des zweiten Normierungsprozesses 250 wird ein normierter Merkmalsvektor 260 erzeugt. Der zweite Normierungsprozess kann verwendet werden, um die Länge der kombinierten Vektoren entsprechend einer Länge zu modifizieren, die von einer Regressorvorrichtung benötigt wird, die die Regression 270 durchführt.
Ein Regressionsprozess 270 kann von der Regressorvorrichtung auf dem normierten Merkmalsvektor 260 durchgeführt werden, und der Regressionsprozess 270 erzeugt dann ein vorhergesagtes Tiefenbild 280. Die Regressorvorrichtung kann, wie im Folgenden näher beschrieben, trainiert werden.
Nach dem Durchführen des Regressionsprozesses 270 ist das vorhergesagte Tiefenbild 280 ein Bereichsbild der Szene, das durch Bilddaten 110 aufgenommen wird. Jedes Element bzw. Pixel des vorhergesagten Tiefenbildes 280 zeigt einen Abstand von einem Punkt in der Szene zu einem bestimmten Punkt in Bezug auf den Bereichssensor, wobei die Position des Punktes in der Szene der Position des Elements bzw. Pixels innerhalb des vorhergesagten Tiefenbildes 280 entspricht. Die Bildauflösung des vorhergesagten Tiefenbildes 280 kann geringer, größer oder gleich der Bildauflösung der Bilddaten 110 sein.
Wie vorstehend beschrieben, trainieren eine oder mehrere Ausführungsformen eine oder mehrere Vorrichtungen, um die Funktionen der Merkmalsextraktion 210 und der Regression 270 auszuführen. So können beispielsweise eine oder mehrere Ausführungsformen ein oder mehrere neuronale Netze trainieren, um die Funktionen der Merkmalsextraktion 210 und der Regression 270 auszuführen.
3 veranschaulicht exemplarische Trainingsbilder (300-340) und tatsächliche Tiefendaten (350-390), die verwendet werden, um ein oder mehrere Maschinenlernsysteme zu trainieren, um Merkmalsextraktion und -regression gemäß einer oder mehreren Ausführungsformen durchzuführen. So können beispielsweise das eine oder die mehreren Maschinenlernsysteme Eingaben in Form von (1) Bilddaten aus Trainingsbildern (300-340) und (2) den entsprechenden geringen Daten für jedes der Trainingsbilder (300-340) erhalten. Basierend auf dieser Eingabe können das eine oder die mehreren Maschinenlernsysteme Bereichsbilder erzeugen, die die in den eingegebenen Bildern (300-340) abgebildeten Szenen widerspiegeln. Die erzeugten Bereichsbilder können dann mit den tatsächlichen Tiefendaten (350-390) verglichen werden.
Das Maschinenlernsystem, das die Funktionen der Merkmalsextraktion und/oder - regression übernimmt, kann beispielsweise auf einem oder mehreren künstlichen neuronalen Netzwerken (ANNs) basieren, die elektronische Komponenten verwenden können, die die Verarbeitungsarchitektur des menschlichen Gehirns nachahmen. Künstliche neuronale Netze werden oft als Systeme von miteinander verbundenen Prozessorelementen verkörpert, die als simulierte „Neuronen“ fungieren und „Nachrichten“ in Form von elektronischen Signalen untereinander austauschen. Ähnlich wie die so genannte „Plastizität“ von synaptischen Neurotransmitterverbindungen, die Nachrichten zwischen biologischen Neuronen übertragen, werden die Verbindungen in ANNs, die elektronische Nachrichten zwischen simulierten Neuronen übertragen, mit numerischen Gewichten versehen, die der Stärke oder Schwäche einer bestimmten Verbindung entsprechen. Die Gewichte können aufgrund von Erfahrungen angepasst und abgestimmt werden, so dass die ANNs an die Eingaben angepasst werden können und lernfähig sind.
Um das Maschinenlernsystem zu trainieren, um die Funktionen der Merkmalsextraktion und -regression auszuführen, zielt eine oder mehrere Ausführungsformen darauf ab: (1) einen Bereichs-/Tiefenfehler zwischen den erzeugten Bereichs-/Tiefeninformationen und den tatsächlichen Tiefeninformationen zu reduzieren, (2) eine durchgängig gleichbleibende Ordnung der Pixeltiefe (in Bezug auf den relativen Abstand zwischen dem Bereichssensor und der Szene) aufrechtzuerhalten und (3) eine Bereichskontinuität über benachbarte Pixel hinweg zu erhalten. Um die durchgängig gleichbleibende Ordnung der Pixeltiefe zu erhalten, stellen die verfügbaren tatsächlichen Tiefendaten (z.B. Tatsächliche Tiefendaten 350-390) einen Tiefenwert für jedes Pixel. Angenommen, ein erstes Pixel der tatsächlichen Tiefendaten hat einen tatsächlichen Tiefenwert von 5,6 Metern, während ein zweites Pixel der tatsächlichen Tiefendaten einen tatsächlichen Tiefenwert von 2,3 Metern hat und ein drittes Pixel der tatsächlichen Tiefendaten einen tatsächlichen Tiefenwert von 6 Metern hat. Wenn diese drei Beispielpixel nach dem tatsächlichen Tiefenwert geordnet werden (z.B. von einem kleineren Tiefenwert zu einem höheren Tiefenwert), dann kann das zweite Pixel (von 2,3 Metern) zuerst geordnet werden, das erste Pixel (von 5,6 Metern) kann zweitrangig geordnet werden, und das dritte Pixel (von 6 Metern) kann drittrangig geordnet werden. Mit anderen Worten, die oben beschriebene Rangfolge kann als relative Rangfolge (basierend auf einem zunehmenden tatsächlichen Tiefenwert) zwischen den drei Beispiel-Pixeln betrachtet werden. Bei einer oder mehreren Ausführungsformen, wenn ein Bereichsbild durch ein Maschinenlernsystem erzeugt wird, spiegelt die relative Rangfolge der Pixel (des erzeugten Bereichsbildes) die relative Rangfolge der Pixel mit tatsächlicher Tiefe und der Daten mit tatsächlicher Tiefe wider. Mit anderen Worten, auch wenn die erzeugten Tiefendaten eines bestimmten Pixels (des erzeugten Bereichsbildes) von den Tiefendaten des Pixels abweichen können, die durch die tatsächlichen Tiefendaten reflektiert werden, wird die relative Rangfolge der Pixel (des erzeugten Bereichsbildes) in einer oder mehreren Ausführungsformen mit der relativen Rangfolge der Pixel der tatsächlichen Tiefendaten durch die tatsächlichen Tiefendaten übereinstimmen. Eine oder mehrere Ausführungsformen können ein oder mehrere neuronale Netze trainieren, um den folgenden Ausdruck zu minimieren: $\frac{1}{n^{2}} \sum_{i, f}^{n} (log y_{i} - log y_{i}^{*}) + \frac{λ}{n} \sum_{i}^{n} \sum_{k \in s (i)} d i f f (o (y_{i}, y_{k}), o (y_{i}^{*}, y_{k}^{*})) + | y_{i} - y_{k} |$
Im obigen Ausdruck stellt „s(i)“ eine Nachbarschaft von Pixeln von i dar. „o(a,b)“ entspricht der Reihenfolge der Objekte „a“ und „b“. Schließlich, wenn a = b, dann diff(a,b) = 0. Andernfalls, wenn a ≠ b, dann diff(a,b) = 1.
In Bezug auf die in Experimenten erhaltenen Ergebnisse wurden in einer oder mehreren Ausführungsformen (1) Bilddaten (mit einer Auflösung von 304 x 228 Pixeln) und (2) Daten mit geringer Tiefe von 10 x 10 Tiefenpixeln pro Bild in ein neuronales Netzwerk von fünf Faltungsschichten eingegeben. Die fünf Faltungsschichten führten eine Merkmalsextraktion durch, um den oben beschriebenen Merkmalsvektor zu erzeugen. Die Regression wurde dann von einem neuronalen Netzwerk aus zwei verbundenen Schichten durchgeführt, um das oben beschriebene vorhergesagte Tiefenbild (mit einer Auflösung von 74 x 55 Pixel) zu erzeugen.
4 bildet ein Flussdiagramm eines Verfahrens in Übereinstimmung mit einer oder mehreren Ausführungsformen ab. Das Verfahren von 4 kann durchgeführt werden, um ein Bereichsbild mit Daten mit geringer Tiefe zu erzeugen. Das Verfahren von 4 kann von einer Steuerung in Verbindung mit einer Kameravorrichtung und einem Bereichssensor durchgeführt werden. So kann beispielsweise das Verfahren von 4 von einer Fahrzeugsteuerung durchgeführt werden, die Bilder einer Szene empfängt und verarbeitet, in der ein Fahrzeug gefahren wird. Das Verfahren kann bei Block 410 das Empfangen von Bilddaten einer Szene durch eine Steuerung beinhalten. Die Bilddaten beinhalten einen ersten Satz von Pixeln. Das Verfahren kann auch bei Block 420 das Empfangen von Daten mit geringer Tiefe der Szene durch die Steuerung beinhalten. Die Daten mit geringer Tiefe beinhalten einen zweiten Satz von Pixeln, und die Anzahl der zweiten Menge von Pixeln ist kleiner als die Anzahl der ersten Menge von Pixeln. Das Verfahren kann bei Block 430 das Kombinieren der Bilddaten und der Daten mit geringer Tiefe zu einer Kombination von Daten beinhalten. Das Verfahren kann bei Block 440 das Erzeugen eines Bereichsbildes unter Verwendung der Kombination von Daten beinhalten.
In Anbetracht dessen können eine oder mehrere Ausführungsformen ein hochauflösendes Bereichsbild erzeugen, indem sie Bilddaten (z. B. von einer monokularen Kamera) und Daten mit geringer Tiefe (z. B. von einem Bereichssensor) kombinieren. Eine oder mehrere Ausführungsformen können, im Vergleich zu Bildern, die von den herkömmlichen Geräten erzeugt werden, ein Bild mit höherer Auflösung bereitstellen. Eine oder mehrere Ausführungsformen können mit einer oder mehreren vorhandenen Monokularkameras und einem oder mehreren vorhandenen Bereichsmesssensoren realisiert werden. Da eine oder mehrere Ausführungsformen die Bilddaten und die Daten mit geringer Tiefe über ein Computerprogrammprodukt kombinieren können, können eine oder mehrere Ausführungsformen ein hochauflösendes Bereichsbild zu einem niedrigeren Preis als die von den herkömmlichen Vorrichtungen erzeugten Bilder erzeugen.
5 bildet ein Blockdiagramm eines Computersystems 500 auf hoher Ebene ab, das verwendet werden kann, um eine oder mehrere Ausführungsformen zu implementieren. Das Computersystem 500 kann mindestens einem System entsprechen, das konfiguriert ist, um beispielsweise aus Daten mit geringer Tiefe ein Bereichsbild zu erzeugen. Das erzeugende System kann Teil eines Elektroniksystems in einem Fahrzeug sein, das in Verbindung mit einer Kamera und einem Bereichssensor betreiben wird. Bei einer oder mehreren Ausführungsformen kann das Computersystem 500 einem elektronischen Steuergerät (ECU) eines Fahrzeugs entsprechen. Computersystem 500 kann verwendet werden, um Hardwarekomponenten des Systems zu implementieren, die imstande sind, die hierin beschriebenen Verfahren durchzuführen. Obwohl ein exemplarisches Computersystem 500 gezeigt wird, beinhaltet das Computersystem 500 einen Kommunikationspfad 526, der das Computersystem 500 mit zusätzlichen Systemen (nicht dargestellt) verbindet. Das Computersystem 500 und ein zusätzliches System sind über den Kommunikationspfad 526 miteinander verbunden, z. B. um Daten zueinander zu übertragen.
Computersystem 500 beinhaltet einen oder mehrere Prozessoren, wie etwa Prozessor 502. Prozessor 502 ist mit einer Kommunikationsinfrastruktur 504 verbunden (z. B. ein Kommunikationsbus, eine Cross-Over-Schiene oder ein Netzwerk). Computersystem 500 kann eine Anzeigeschnittstelle 506 beinhalten, die Grafiken, textliche Inhalte oder sonstige Daten aus der Kommunikationsinfrastruktur 504 (oder einem nicht dargestellten Rahmenpuffer) zum Anzeigen auf der Anzeigeeinheit 508 weiterleitet. Computersystem 500 beinhaltet auch einen Hauptspeicher 510, vorzugsweise ein Festplattenlaufwerk (RAM) und kann auch einen sekundären Speicher 512 beinhalten. Innerhalb des sekundären Speichers 512 können auch ein oder mehrere Laufwerke 514 enthalten sein. Das entfernbare Speicherlaufwerk 516 liest von und/oder schreibt auf die entfernbare Speichereinheit 518. Wie zu erkennen ist, beinhaltet die entfernbare Speichereinheit 518 ein computerlesbares Speichermedium, auf dem Computersoftware und/oder Daten gespeichert sind.
In alternativen Ausführungsformen kann der sekundäre Speicher 512 andere ähnliche Mittel enthalten, die das Laden von Computerprogrammen oder anderen Anweisungen in das Computersystem ermöglichen. Solche Mittel können zum Beispiel eine entfernbare Speichereinheit 520 und eine Schnittstelle 522 beinhalten.
In der vorliegenden Beschreibung werden die Begriffe „Computerprogramm Medium“ und „computernutzbares Medium“ und „computerlesbares Medium“ verwendet, um generell Medien, wie etwa Hauptspeicher 510 und sekundäre Speicher 512, entfernbare Speicherlaufwerke 516 und eine Festplatte, die im Festplattenlaufwerk 514 installiert ist, zu bezeichnen. Computerprogramme (auch Computersteuerlogik genannt) werden im Hauptspeicher 510 und/oder im sekundären Speicher 512 gespeichert. Computerprogramme können außerdem über Kommunikationsschnittstelle 524 empfangen werden. Wenn derartige Computerprogramme ausgeführt werden, versetzen sie das Computersystem in die Lage, die hierin besprochenen Merkmale auszuführen. Insbesondere wird der Prozessor 502 von den Computerprogrammen, wenn diese ausgeführt werden, in die Lage versetzt, die Merkmale des Computersystems auszuführen. Demgemäß stellen solche Computerprogramme Steuerungen des Computersystems dar. Somit ist aus der vorangegangenen detaillierten Beschreibung erkennbar, dass eine oder mehrere Ausführungsformen technischen Nutzen und Vorteile bereitstellen.
Während die vorstehende Offenbarung mit Bezug auf exemplarische Ausführungsformen beschrieben wurde, werden Fachleute verstehen, dass unterschiedliche Änderungen vorgenommen und die einzelnen Teile durch entsprechende andere Teile ausgetauscht werden können, ohne vom Umfang der Offenbarung abzuweichen. Darüber hinaus können viele Modifikationen vorgenommen werden, um eine bestimmte Materialsituation an die Lehren der Offenbarung anzupassen, ohne von deren wesentlichem Umfang abzuweichen. Daher ist vorgesehen, dass sich die Ausführungsformen nicht auf die jeweils offenbarten Ausführungsformen beschränken, sondern alle Ausführungsformen umfassen, die innerhalb des Umfangs der Anmeldung fallen.

Claims

Verfahren, wobei das Verfahren das Folgende umfasst: Empfangen von Bilddaten einer Szene durch eine Steuerung, wobei die Bilddaten einen ersten Satz von Pixeln umfassen; Empfangen von Daten mit geringer Tiefe der Szene durch die Steuerung, wobei die Daten mit geringer Tiefe einen zweiten Satz von Pixeln umfassen und die Anzahl der zweiten Menge von Pixeln kleiner ist als die Anzahl der ersten Menge von Pixeln; Kombinieren der Bilddaten und der Daten mit geringer Tiefe zu einer Kombination von Daten; und Erzeugen eines Bereichsbildes unter Verwendung der kombinierten Daten.
Verfahren nach Anspruch 1, ferner umfassend das Durchführen eines Merkmalsextraktionsprozesses an den Bilddaten, um einen Merkmalsvektor zu erzeugen.
Verfahren nach Anspruch 1, wobei der zweite Satz von Pixeln einer festen Anzahl von Pixeln entspricht, die an festen Pixelpositionen angeordnet sind.
Verfahren nach Anspruch 1, wobei das Empfangen der Bilddaten das Empfangen der Bilddaten von einer monokularen Kamera umfasst.
Verfahren nach Anspruch 2, ferner umfassend das Durchführen einer Normierung der Daten mit geringer Tiefe, wobei die Normierung das Modifizieren von Werten der Daten mit geringer Tiefe gemäß einem Wertebereich des Merkmalsvektors umfasst.
Steuerungssystem innerhalb eines Fahrzeugs, das Folgendes umfasst: eine elektronische Steuerung, die konfiguriert ist zum: Empfangen von Bilddaten einer Szene, wobei die Bilddaten einen ersten Satz von Pixeln umfassen; Empfangen von Daten mit geringer Tiefe der Szene, wobei die Daten mit geringer Tiefe einen zweiten Satz von Pixeln umfassen und die Anzahl der zweiten Menge von Pixeln kleiner ist als die Anzahl der ersten Menge von Pixeln; Kombinieren der Bilddaten und der Daten mit geringer Tiefe zu einer Kombination von Daten; und Erzeugen eines Bereichsbildes unter Verwendung der Kombination von Daten.
System nach Anspruch 6, wobei die elektronische Steuerung ferner konfiguriert ist, um einen Merkmalsextraktionsprozess an den Bilddaten durchzuführen, um einen Merkmalsvektor zu erzeugen.
System nach Anspruch 6, wobei der zweite Satz von Pixeln einer festen Anzahl von Pixeln entspricht, die an festen Pixelpositionen angeordnet sind.
System nach Anspruch 6, wobei das Empfangen der Bilddaten das Empfangen der Bilddaten von einer monokularen Kamera umfasst.
System nach Anspruch 7, wobei die Steuerung ferner konfiguriert ist, um eine Normierung der Daten mit geringer Tiefe durchzuführen, wobei die Normierung das Ändern von Werten der Daten mit geringer Tiefe gemäß einem Wertebereich des Merkmalsvektors umfasst.