DE102022121781A1

DE102022121781A1 - Computer-Vision basierend auf Wärmebilderfassung in einem Fahrzeug

Info

Publication number: DE102022121781A1
Application number: DE102022121781.7A
Authority: DE
Inventors: Suganthi Srinivasan; Arindam Das; Mohamed Jauhar
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-02-29

Abstract

Gemäß einem computerimplementierten Verfahren zur Computer-Vision basierend auf Wärmebilderfassung wird ein Wärmebild (26), welches eine Umgebung eines Fahrzeugs (1) darstellt, von einer Wärmebildkamera (3) empfangen, ein gefiltertes Bild (7) durch Anwenden eines nichtlinearen Diffusionsfilters (6) auf ein Eingangsbild, welches durch das Wärmebild (26) gegeben ist oder von diesem abhängt, erzeugt, ein Encodermodul (8) eines trainierten faltenden neuronalen Netzwerks (5) auf das gefilterte Bild (7) angewendet, um zumindest eine Merkmalskarte zu erzeugen, und zumindest eine Computer-Vision-Aufgabe wird ausgeführt, indem zumindest ein Decodermodul (9a, 9b, 9c, 9d) des faltenden neuronalen Netzwerks (5) auf die zumindest eine Merkmalskarte angewendet wird.

Description

Die vorliegende Erfindung ist auf ein computerimplementiertes Verfahren zur Computer-Vision basierend auf Wärmebilderfassung, auf ein computerimplementiertes Trainingsverfahren zum Trainieren eines faltenden neuronalen Netzwerks zur Computer-Vision basierend auf Wärmebilderfassung, ein Computer-Vision-System sowie ein Computerprogrammprodukt gerichtet.
Kameras, die im sichtbaren Bereich arbeiten, stellen eine der wichtigsten sensorischen Modalitäten für die autonome Roboternavigation oder für die Realisierung von Fahrerassistenzfunktionen in Fahrzeugen, insbesondere Kraftfahrzeugen, und/oder andere Funktionen für autonomes oder teilautonomes Fahren eines Fahrzeugs dar. Insbesondere für Funktionen gemäß einer Stufe 3 und darüber werden die verarbeiteten Daten aus den Kameras gewöhnlich mit den Daten von Radarsystemen oder Lidar-Systemen fusioniert. Bestehende Mehrfachsensorsysteme sind am besten dafür geeignet, die Herausforderungen bei Tageslichtverhältnissen zu bewältigen und ihre Leistung ist bei Szenarien mit schlechten Lichtverhältnissen deutlich verringert. Zum Beispiel können schwere Unfälle bei Nacht aufgrund der schlechten Sichtverhältnisse auftreten, zum Beispiel mit Fußgängern, die die Fahrbahn überqueren, oder anderen Objekten auf der Fahrbahn. Dasselbe gilt bis zu einem gewissen Grad für schlechte Wetterverhältnisse. In praktischen Anwendungen wurde festgestellt, dass selbst bevor Beleuchtungsniveaus von 1 Ix oder darunter erreicht sind, eine schlechte Leistungsfähigkeit von kamerabasierten Systemen auftritt. Bis zu einem gewissen Grad können Lidar-Systeme oder Radarsysteme bei schlechten Lichtverhältnissen ergänzend unterstützen. Dadurch steigen jedoch die Kosten des Sensorsystems insgesamt deutlich an.
Im Prinzip könnten Wärmebildkameras zur Unterstützung von Computer-Vision-Aufgaben benutzt werden. Die in Wärmebildkameras eingesetzten Infrarotdetektoren unterliegen jedoch inhärent einem relativ hohen Grad an Rauschen. Des Weiteren können Wärmebilder auch durch Umgebungs- und Witterungsverhältnisse verschlechtert werden. Dies führt zu einem niedrigen Signal-zu-Rausch-Verhältnis, geringerem Kontrast und der Abwesenheit von deutlichen Formen, was die Genauigkeit der Objekterkennung, semantischen Segmentierung oder anderer Computer-Vision-Aufgaben, insbesondere solche Computer-Vision-Aufgaben, die auf Merkmalsextraktion basieren, stark verschlechtert.
Das Dokument US 2020/0278690 A1 beschreibt ein Verfahren zur Unterstützung einer Operation eines Fahrzeugs, welches auf einer Fahrbahn fährt. Dabei werden visuelle Bilder um das Fahrzeug herum mit einer Wärmebildkamera erfasst, die dasselbe Sichtfeld hat wie die visuelle Kamera. Die Wärmebilder werden über die visuellen Bilder gelegt, um zusammengesetzte Bilder hervorzubringen. Ein Objekt wird in den zusammengesetzten Bildern erkannt. Ein Fahrzeugassistenzsystem passt eine Fahrtrichtung oder Geschwindigkeit des Fahrzeugs in Reaktion auf das Erkennen des Objekts an.
Dabei werden jedoch die Wärmebilder nur in Kombination mit den visuellen Bildern verwendet und folglich wird die Wärmebildkamera nicht als eine individuelle Sensormodalität verwendet. Insbesondere sind die visuellen Bilder für das Verfahren von entscheidender Bedeutung, was den Nutzen bei schlechten Lichtverhältnissen oder widrigen Wetterverhältnissen einschränkt.
Eine Aufgabe der vorliegenden Erfindung ist es, die Zuverlässigkeit und/oder Genauigkeit von Computer-Vision-Aufgaben, die zum zumindest teilweise automatischen Führen eines Fahrzeugs bei schlechten Lichtverhältnissen und/oder Szenarios mit ungünstigen Wetterverhältnissen eingesetzt werden, zu erhöhen.
Diese Aufgabe wird durch den jeweiligen Gegenstand der unabhängigen Ansprüche erreicht. Weitere Ausführungen und bevorzugte Ausführungsformen sind Gegenstand der abhängigen Ansprüche.
Die Erfindung basiert auf dem Gedanken, ein trainiertes faltendes neuronales Netzwerk auf Merkmale anzuwenden, die aus einem Wärmebild extrahiert werden, welches die Umgebung des Fahrzeugs darstellt und welches durch Anwenden eines nichtlinearen Diffusionsfilters vorverarbeitet worden ist.
Gemäß einem Aspekt der Erfindung wird ein computerimplementiertes Verfahren zur Computer-Vision basierend auf Wärmebilderfassung bereitgestellt. Dabei wird ein Wärmebild, welches eine Umgebung eines Fahrzeugs, insbesondere eines Kraftfahrzeugs, darstellt, von einer Wärmebildkamera empfangen, die insbesondere an dem Fahrzeug montiert ist. Ein gefiltertes Bild wird durch Anwenden eines nichtlinearen Diffusionsfilters auf ein Eingangsbild, welches durch das Wärmebild gegeben ist oder von diesem abhängt, erzeugt. Ein Encodermodul eines trainierten faltenden neuronalen Netzwerks wird auf das gefilterte Bild angewendet, um zumindest eine Merkmalskarte zu erzeugen. Zumindest eine Computer-Vision-Aufgabe wird ausgeführt, indem zumindest ein Decodermodul, insbesondere zumindest ein aufgabenspezifisches Decodermodul, des faltenden neuronalen Netzwerks auf die zumindest eine Merkmalskarte angewendet wird.
Eine Computer-Vision-Aufgabe, auch als visuelle Wahrnehmungsaufgabe bezeichnet, kann zum Beispiel als eine Aufgabe zum Extrahieren visuell wahrnehmbarer Informationen aus den Bilddaten sein. Insbesondere kann die visuelle Wahrnehmungsaufgabe in vielen Fällen im Prinzip durch einen Menschen ausgeführt werden, der dazu imstande ist, ein den Bilddaten entsprechendes Bild visuell wahrzunehmen. Im vorliegenden Zusammenhang werden visuelle Wahrnehmungsaufgaben jedoch automatisch durchgeführt, ohne dass die Unterstützung durch einen Menschen erforderlich wäre.
Im Zusammenhang der vorliegenden Erfindung werden das Verfahren und der Algorithmus zur automatischen visuellen Wahrnehmung nicht basierend auf einem Kamerabild im sichtbaren Bereich oder mit anderen Worten einem Bild, das von einer Kamera erzeugt wird, die empfindlich für sichtbares Licht ist, sondern basierend auf dem Wärmebild ausgeführt. Obwohl Infrarotlicht für Menschen nicht sichtbar ist, kann das Wärmebild derart angezeigt oder dargestellt werden, dass es für einen Menschen zum Beispiel als ein monochromes Bild oder ein Falschfarbenbild wahrnehmbar ist. So kann das erfindungsgemäße Verfahren dennoch als ein Verfahren zur Computer-Vision betrachtet werden. Insbesondere können typische Computer-Vision-Aufgaben, wie Objekterkennung, semantische Segmentierung, Tiefenschätzung, Schätzung eines optischen Flusses et cetera, basierend auf Wärmebildern in analoger Weise zu den Kamerabildern im sichtbaren Bereich ausgeführt werden.
Soweit nicht anders angegeben können alle Schritte des computerimplementierten Verfahrens durch zumindest eine Recheneinheit, insbesondere des Fahrzeugs, durchgeführt werden, die auch als ein Datenverarbeitungsgerät bezeichnet werden kann. Insbesondere weist die mindestens eine Recheneinheit zumindest eine Verarbeitungsschaltung auf, welche dazu eingerichtet oder adaptiert ist, die Schritte des computerimplementierten Verfahrens durchzuführen. Zu diesem Zweck kann die zumindest eine Recheneinheit zum Beispiel ein Computerprogramm speichern, welches Befehle beinhaltet, die, wenn sie von der zumindest einen Recheneinheit ausgeführt werden, die zumindest eine Recheneinheit dazu veranlassen, das computerimplementierte Verfahren auszuführen.
Zum Beispiel kann das trainierte faltende neuronale Netzwerk auf computerlesbare Weise, zum Beispiel gespeichert auf einem Speichermedium des Fahrzeugs, insbesondere der zumindest einen Recheneinheit, bereitgestellt sein.
Das faltende neuronale Netzwerk weist mehrere Module auf, die das Encodermodul und das zumindest eine Decodermodul einschließen. Diese Module können als Softwaremodule oder entsprechende Teile des neuronalen Netzwerks verstanden werden. Ein Softwaremodul kann als Softwarecode verstanden werden, der funktional verbunden und zu einer Einheit kombiniert ist. Ein Softwaremodul kann mehrere Verarbeitungsschritte und/oder Datenstrukturen aufweisen oder implementieren.
Die Module können insbesondere selbst faltende neuronale Netzwerke oder Teilnetzwerke darstellen. Falls nicht anders angegeben kann ein Modul des faltenden neuronalen Netzwerks als ein trainierbares und insbesondere trainiertes Modul des faltenden neuronalen Netzwerks verstanden werden. Zum Beispiel kann das faltende neuronale Netzwerk und somit alle seiner trainierbaren Module in Ende-zu-Ende-Weise trainiert werden, bevor das erfindungsgemäße computerimplementierte Verfahren ausgeführt wird. Bei anderen Ausführungen können jedoch andere Module individuell trainiert oder vortrainiert werden. Mit anderen Worten entspricht das erfindungsgemäße Verfahren einer Verwendungsphase des faltenden neuronalen Netzwerks.
Das Training selbst kann im Prinzip unter Verwendung konventioneller Verfahren zum Trainieren neuronaler Netzwerke, insbesondere faltender neuronaler Netzwerke, CNN, wie etwa überwachter Trainingsansätze, ausgeführt werden.
Die Wärmebildkamera kann auch als Wärmebilderfassungskamera oder Thermographiekamera oder Infrarotkamera bezeichnet werden. Insbesondere enthält sie einen Infrarotdetektor oder infrarotempfindlichen Imager, der empfindlich für Infrarotstrahlung ist, die auch als Infrarotlicht bezeichnet werden kann. Zum Beispiel kann der Infrarotdetektor oder der Imager empfindlich für Wellenlängen im Bereich von 750 nm bis 15 µm oder in einem Teilbereich dieses Bereichs sein.
Das Wärmebild kann direkt von der Wärmebildkamera empfangen werden, zum Beispiel als ein Einzelbild eines Bilddatenstroms oder Videodatenstroms, der von der Wärmebildkamera erzeugt wird. Das Wärmebild kann auch indirekt oder mit anderen Worten aus einem Speicher oder Puffer empfangen werden, auf den es gespeichert worden ist, nachdem es von der Wärmebildkamera erzeugt wurde.
Falls das Eingangsbild nicht direkt durch das Wärmebild gegeben ist, wird es zum Beispiel durch Vorverarbeiten des Wärmebilds, zum Beispiel durch Anwenden eines oder mehrerer Filter oder anderer Bildverarbeitungsschritte erhalten.
Bei manchen Ausführungen schließt das Erzeugen der zumindest einen Merkmalskarte außer dem Anwenden des Encodermoduls auf das gefilterte Bild noch zusätzliche Schritte ein. Mit anderen Worten kann die zumindest eine Merkmalskarte eine Ausgabe des Encodermoduls sein, wenn es auf das gefilterte Bild angewendet wird, oder die zumindest eine Merkmalskarte kann abhängig von einer Ausgabe des Encodermoduls erzeugt werden. Zum Beispiel kann die Ausgabe des Encodermoduls, welche Merkmale des gefilterten Bilds darstellt, mit Merkmalen fusioniert oder kombiniert werden, die von anderen Sensormodalitäten erhalten werden. Alternativ oder zusätzlich kann ein aufgabenunabhängiges Decodermodul des faltenden neuronalen Netzwerks auf die Ausgabe des Encodermoduls angewendet werden, um die zumindest eine Merkmalskarte zu erzeugen. Dies kann besonders vorteilhaft sein, falls das zumindest eine Decodermodul zwei oder mehr aufgabenspezifische Decodermodule aufweist. Ein Teil der Decoderfunktionalität kann dann durch das aufgabenunabhängige Decodermodul für alle der Computer-Vision-Aufgaben, die den aufgabenspezifischen Decodermodulen zugeordnet sind, abgedeckt werden.
Vorzugsweise hängt die zumindest eine Merkmalskarte nicht von weiteren Sensordaten außer dem Wärmebild ab. Mit anderen Worten wird das Wärmebild als eine unabhängige Sensoreingabe für die zumindest eine Computer-Vision-Aufgabe benutzt. Insbesondere hängt die zumindest eine Merkmalskarte nicht von einem Bild ab, welches durch eine im sichtbaren Bereich arbeitende Kamera erzeugt wird.
Insbesondere wird jedes Decodermodul des zumindest einen Decodermoduls auf die zumindest eine Merkmalskarte angewendet und dadurch führt jedes Decodermodul des zumindest einen Decodermoduls eine entsprechende Computer-Vision-Aufgabe der zumindest einen Computer-Vision-Aufgabe aus.
Die zumindest eine Computer-Vision-Aufgabe kann eine Objekterkennungsaufgabe, eine Begrenzungsboxerkennungsaufgabe, eine Tiefenschätzaufgabe, eine semantische Segmentierungsaufgabe, eine Aufgabe zur Erkennung des optischen Flusses, eine Aufgabe zur Erkennung von Kameraverschmutzung et cetera beinhalten. Folglich können der Typ und die Struktur der Ausgaben der zumindest einen Computer-Vision-Aufgabe je nach tatsächlicher Ausführung variieren. Zum Beispiel kann ein Ergebnis einer Objekterkennungsaufgabe Positionsinformationen für eine oder mehrere Begrenzungsboxen und entsprechende Objektklassen, die jeder der Begrenzungsboxen zugewiesen sind, enthalten. Für eine semantische Segmentierungsaufgabe weist das Ergebnis der zumindest einen Computer-Vision-Aufgabe ein semantisch segmentiertes Bild auf, wobei jedes Pixel des Eingangsbilds beziehungsweise des Wärmebilds einer jeweiligen Klassen auf Pixelebene zugeordnet ist. Es ist allgemein bekannt, wie Objekterkennung, Begrenzungsboxerkennung, semantische Segmentierung, Tiefenschätzung et cetera ausgeführt werden können, indem ein faltendes neuronales Netzwerk benutzt wird. Diese Ansätze können auch im Rahmen der Erfindung benutzt werden, zum Beispiel zur Ausgestaltung des Encodermoduls und/oder des zumindest einen Decodermoduls.
Folglich wird erfindungsgemäß eine Computer-Vision-Lösung sowohl für Tageslicht- als auch für Nachtszenarios, für Fahrerassistenzsysteme, ADAS (englisch: „advanced driver assistance systems“), sowie andere autonome Fahrsysteme, ADS (englisch: „autonomous driving systems“), oder teilautonome Fahrsysteme bereitgestellt. Indem das Wärmebild als eine Basis für die zumindest eine Computer-Vision-Aufgabe benutzt wird, werden die erforderlichen Funktionalitäten auch bei Nacht oder anderen schwachen Lichtverhältnissen, zum Beispiel in Tunneln, sowie bei ungünstigen Wetterverhältnissen, wie Schnee, Nebel oder Regen ermöglicht. Unter derartigen Bedingungen wird die Fähigkeit, verletzbare Fahrbahnnutzer, wie etwa Fußgänger, Tiere und Radfahrer, zu erkennen verbessert.
Aufgrund der inhärenten Beschaffenheit von Infrarotdetektoren, die für die Erfassung von Wärmebildern und entsprechenden Ausleseschaltkreisen verwendet werden, kann die visuelle Qualität des Wärmebilds hinsichtlich eines niedrigen Signal-zu-Rausch-Verhältnisses, geringen Kontrasts, dem Fehlen von klaren Kanten et cetera gering sein. Durch Anwenden des nichtlinearen Diffusionsfilters gemäß der Erfindung, kann Rauschen in dem Wärmebild reduziert werden, während wichtige Merkmale, wie etwa Kanten, die bei der Ausführung der zumindest einen Computer-Vision-Aufgabe helfen, erhalten werden können. Übliche Diffusionsfilter, wie etwa Medianfilter oder Gaußsche Filter, sind linearer und homogener Natur. Mit anderen Worten wird derselbe Glättungsvorgang an jeder Bildstelle durchgeführt, was zu weiterem Verwischen der Kanten, insbesondere bei Wärmebildern, führt, die typischerweise bereits wenig kontrastreich sind. Probalistische Kantenerhaltungsverfahren, wie etwa Bayes'sche Schätzungen, Maximum-Likelihood-Schätzer und Maximum-A-Posteriori-Schätzer, erfordern die genaue Kenntnis geeigneter vorheriger Verteilungen des rauschfreien Bilds, welche potenziell im vorliegenden Fall nicht verfügbar sind. Um dieses Problem zu bewältigen, wird der nichtlineare Diffusionsfilter, der in manchen Ausführungen inhomogener Natur und/oder isotrop ist, dazu benutzt, das Signal-zu-Rausch-Verhältnis und den Kontrast des Wärmebilds zu verbessern, wodurch die Qualität der Merkmalsextraktion mittels des Encodermoduls und folglich die Qualität der Ergebnisse der zumindest einen Computer-Vision-Aufgabe verbessert werden.
Gemäß mehreren Ausführungen wird das gefilterte Bild gemäß dem Zusammenhang $I_{t} (x, y) = d i v (c (x, y) \nabla I (x, y)) = \frac{\partial [c (x, y) \partial I (x, y) / \partial x]}{\partial y} + \frac{\partial [c (x,) \partial I (x, y) / \partial y]}{\partial x}$
erzeugt, wobei I(x,y) einen Pixelwert des Eingangsbilds an einer Pixelposition, die durch (x,y) gegeben ist, bezeichnet, I_t(x,y), den entsprechenden Pixelwert des gefilterten Bilds an der Pixelposition, die durch (x,y) gegeben ist, bezeichnet, und c(x,y) einen vordefinierten Diffusionskoeffizienten an der Pixelposition, die durch (x,y) gegeben ist, darstellt. Des Weiteren bezeichnet „div“ den Divergenz-Operator, ∇ bezeichnet den Gradientenvektor und ∂ bezeichnet jeweilige partielle Ableitungen.
Da der Filter ein nichtlinearer Diffusionsfilter ist, hängt der Diffusionskoeffizient von dem Eingangsbild ab. Zum Beispiel kann der Diffusionskoeffizient von einem Gradienten des Eingangsbilds abhängen, so dass der in dem Filter einbezogene Glättungsvorgang unter Berücksichtigung der lokalen Gradienteninformationen durchgeführt wird, so dass die Binnenbereiche in dem Bild glatt sind und die Kanten zwischen den Bereichen erhalten werden.
Gemäß einigen Ausführungen ist der nichtlineare Diffusionsfilter ein inhomogener Filter.
Mit anderen Worten hängt der Diffusionskoeffizient von x und y ab und ist insbesondere keine Konstante in x oder y.
Gemäß einigen Ausführungen ist der nichtlineare Diffusionsfilter ein isotroper Filter.
Mit anderen Worten ist der Diffusionskoeffizient unter einer Rotation hinsichtlich einer Rotationsachse, die zu der Bildebene senkrecht ist und sich zum Beispiel bei x = y = 0 befindet, invariant.
Gemäß einigen Ausführungen, ist der Diffusionskoeffizient durch $c (x, y) = e x p (- {(\frac{‖ \nabla I (x, y) ‖}{K})}^{2}),$
gegeben, wobei K eine vordefinierte reelle Konstante ist.
Auf diese Weise kann gewährleistet werden, dass der Glättungsvorgang die Kanten erhält und die Kanten auch schärft und aufhellt. Des Weiteren ist der Diffusionskoeffizient an den Kanten zwischen den Bereichen, die einen großen Gradientenwert haben, niedrig, während er in den Nicht-Kanten-Bereichen mit niedrigem Gradientenwert hoch ist. Das wird durch die obige Funktion für den Diffusionskoeffizienten erreicht. Die Konstante K kann als eine Kantenstärkeschwelle betrachtet werden, die eingestellt werden kann, um die optimalen Ergebnisse zu erhalten.
Gemäß einigen Ausführungen schließt das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Tiefenschätzaufgabe durch Anwenden eines ersten Decoder-Moduls des zumindest einen Decoder-Moduls auf die zumindest eine Merkmalskarte ein.
Das Ergebnis der Tiefenschätzaufgabe beinhaltet insbesondere eine Tiefenkarte, die jedem Pixel des Wärmebilds einen jeweiligen Tiefenwert zuweist. Alternativ kann ein Tiefenwert vordefinierten Pixelgruppen des Wärmebilds zugewiesen werden.
Gemäß einigen Ausführungen schließt das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Objekterkennungsaufgabe durch Anwenden eines zweiten Decodermoduls des zumindest einen Decodermoduls auf die zumindest eine Merkmalskarte ein.
Folglich enthält das Ergebnis der Objekterkennungsaufgabe Positionsinformationen für eine oder mehrere Begrenzungsboxen für jeweilige Objekte in der Umgebung des Fahrzeugs und eine jeweilige Objektklasse, die dem Objekt beziehungsweise der Begrenzungsbox zugewiesen ist. Alternativ kann jeder einer Vielzahl von vordefinierten Objektklassen für jedes der Objekte beziehungsweise jede der Begrenzungsboxen ein jeweiliger Objektkonfidenzwert zugewiesen werden.
Die Begrenzungsboxen können zum Beispiel rechteckige Begrenzungsboxen sein. Es können jedoch auch andere geometrische Figuren benutzt werden. Zum Beispiel kann im Fall einer rechteckigen Begrenzungsbox deren Position durch eine Zentrumsposition des Rechtecks oder eine Eckposition des Rechtecks oder eine andere definierte Position des Rechtecks gegeben sein. In diesem Fall kann die Größe der Begrenzungsbox durch eine Breite und/oder Höhe des Rechtecks oder durch äquivalente Größen gegeben sein.
Das Ausführen der zumindest einen Computer-Vision-Aufgabe schließt vorzugsweise ein Ausführen der Tiefenschätzaufgabe und der Objekterkennungsaufgabe durch Anwenden des ersten Decodermoduls und des zweiten Decodermoduls auf die zumindest eine Merkmalskarte ein.
Gemäß einigen Ausführungen wird zumindest ein Objekt in der Umgebung des Fahrzeugs abhängig von einem Ergebnis der Objekterkennungsaufgabe und/oder abhängig von einem Ergebnis der Tiefenschätzaufgabe verfolgt.
Insbesondere wird das zumindest eine Objekt abhängig von dem Ergebnis der Objekterkennungsaufgabe verfolgt und optional, insbesondere wenn die Objekterkennungsaufgabe und die Tiefenschätzaufgabe beide ausgeführt werden, wird das zumindest eine Objekt auch abhängig von dem Ergebnis der Tiefenschätzaufgabe verfolgt.
Zum Beispiel kann ein Kalman-Filteralgorithmus zur Verfolgung des zumindest einen Objekts benutzt werden. Insbesondere kann ein Mehrfachobjektverfolgungsalgorithmus, der auf einem Kalman-Filteralgorithmus basiert, benutzt werden.
Insbesondere kann die zumindest eine Computer-Vision-Aufgabe wiederholt basierend auf aufeinanderfolgenden Einzelbildern der Wärmebildkamera ausgeführt werden. Dabei wird das Wärmebild durch entsprechende weitere Wärmebilder des Bild- oder Videodatenstroms, der durch die Wärmebildkamera erzeugt wird, ersetzt und die verbleibenden Schritte werden analog ausgeführt. Die Objektverfolgung kann zum Beispiel basierend auf den wiederholt erzeugten Ergebnissen der zumindest einen Computer-Vision-Aufgabe für die aufeinanderfolgenden Einzelbilder ausgeführt werden.
Gemäß einigen Ausführungen schließt das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer semantischen Segmentierungsaufgabe durch Anwenden eines dritten Decodermoduls des zumindest einen Decodermoduls auf die zumindest eine Merkmalskarte ein.
Insbesondere kann eine Ausgabe des dritten Decodermoduls gemäß der semantischen Segmentierungsaufgabe einem semantisch segmentierten Bild entsprechen. Das semantisch segmentierte Bild kann als eine rechteckige Anordnung von Pixeln verstanden werden, wobei jedem der Pixel eine Objektklasse einer Vielzahl von vordefinierten Klassen auf Pixelebene zugewiesen wird. Jedes Pixel des semantisch segmentierten Bilds kann einem jeweiligen Pixel des Wärmebilds entsprechen. Mit anderen Worten kann die semantische Segmentierungsaufgabe jedem Pixel des Wärmebilds eine Klasse auf Pixelebene zuweisen.
Gemäß einigen Ausführungen schließt das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Aufgabe zur Erkennung von Kameraverschmutzung durch Anwenden eines vierten Decodermoduls des zumindest einen Decodermoduls auf die zumindest eine Merkmalskarte ein.
Die Aufgabe zur Erkennung von Kameraverschmutzung wird zum Beispiel ausgeführt, um zu bestimmen, ob die Kamera, insbesondere ein Kameraobjektiv der Wärmekamera, Verschmutzung unterliegt oder nicht. Zu diesem Zweck wird das Wärmebild wie beschrieben entsprechend analysiert. Ein Ergebnis der Aufgabe zur Erkennung von Verschmutzung kann zum Beispiel die Information enthalten, ob die Wärmekamera als verschmutzt klassifiziert werden kann und/oder ob das Wärmebild anzeigt, dass die Wärmebildkamera verschmutzt ist oder nicht, oder es kann eine entsprechende Wahrscheinlichkeit für die Verschmutzung der Wärmebildkamera enthalten.
Es ist bekannt, die Verschmutzung von im sichtbaren Bereich arbeitenden Kameras basierend auf den jeweiligen Kamerabildern im sichtbaren Bereich zu erkennen. Mittels entsprechender Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens, kann Verschmutzung der Wärmebildkamera auf besonders zuverlässige Weise erkannt werden.
Gemäß einigen Ausführungen wird als ein Ergebnis der Aufgabe zur Erkennung von Verschmutzung der Kamera eine jeweilige Abdeckungsfläche des Wärmebilds für jede von zwei oder mehr vordefinierten Verschmutzungsklassen berechnet. Die Kamera und/oder das Wärmebild werden abhängig von den berechneten Abdeckungsflächen als verschmutzt klassifiziert.
Die Verschmutzungsklassen können zum Beispiel eine „sauber“-Klasse und eine „verschmutzt“-Klasse umfassen, entsprechend der Feststellung, dass die Kamera sauber beziehungsweise verschmutzt ist. Bei anderen Ausführungen können die zwei oder mehr vordefinierten Verschmutzungsklassen mehr als eine „verschmutzt“-Klasse, zum Beispiel entsprechend unterschiedlichen Verschmutzungstypen aufweisen. Die zwei oder mehr Verschmutzungsklassen können zum Beispiel die „sauber“-Klasse und eine „transparente Verschmutzung“-Klasse und/oder eine „semi-transparente Verschmutzung“-Klasse und/oder eine „opake Verschmutzung“-Klasse umfassen, die transparenter, semitransparenter beziehungsweise opaker Verschmutzung entsprechen.
Die Klassifikation der Kamera und/oder des Wärmebilds als verschmutzt wird zum Beispiel gemäß einer vordefinierten Regel ausgeführt. Die Wärmebildkamera und/oder das Wärmebild können dann als verschmutzt klassifiziert werden, wenn mehr als ein vordefinierter Schwellwertbereich des Wärmebilds durch die „verschmutzt“-Klasse oder durch irgendeine der „verschmutzt“-Klassen oder durch eine oder mehrere spezifische der „verschmutzt“-Klassen abgedeckt wird.
Das Klassifizieren der Wärmebildkamera als verschmutzt kann derart verstanden werden, dass die Information, dass die Wärmebildkamera gemäß dem Ergebnis der Aufgabe zur Erkennung von Verschmutzung wahrscheinlich verschmutzt ist, in einem Speicher gespeichert wird. Das Klassifizieren des Wärmebilds als verschmutzt kann derart verstanden werden, dass die Information, dass das Wärmebild eine Verschmutzung der Wärmebildkamera anzeigt, in einem Speicher, zum Beispiel, aber nicht notwendigerweise, zusammen mit dem Wärmebild, gespeichert wird.
Statt das Wärmebild in eine Vielzahl von Kacheln zu unterteilen, die Kacheln individuell zu klassifizieren und dann die Anzahl der verschmutzten Kacheln zu zählen, wird erfindungsgemäß bei jeweiligen Ausführungen der Erfindung die Abdeckungsfläche für jede der Verschmutzungsklassen berechnet. Das schließt eine Aufteilung des Bildes in eine Vielzahl von Kacheln und eine individuelle Bewertung der Kacheln nicht aus. Jedoch wird basierend auf der Analyse die Abdeckungsfläche als eine Fläche oder ein Prozentwert und nicht als eine Anzahl von verschmutzten Kacheln bestimmt. Zum Beispiel kann für jede der Kacheln eine jeweilige Abdeckungsfläche für jede der zwei oder mehr vordefinierten Verschmutzungsklassen vordefiniert werden. Dann können die Kachelabdeckungsflächen für jede der Verschmutzungsklassen individuell summiert werden, um die jeweilige Abdeckungsfläche des Wärmebilds zu erhalten.
Bei manchen Ausführungen wird eine Gesamtabdeckungsfläche für das Wärmebild durch Summieren der jeweiligen Abdeckungsfläche für alle der „verschmutzt“-Klassen, zum Beispiel für die „transparente Verschmutzung“-Klasse, die „semi-transparente Verschmutzung“-Klasse und die „opake Verschmutzung“-Klasse, berechnet.
Die Kamera und/oder das Wärmebild werden dann abhängig von der Gesamtabdeckungsfläche als verschmutzt klassifiziert. Auf diese Weise kann es vermieden werden, dass die Kamera und/oder das Wärmebild nicht als verschmutzt klassifiziert werden, nur weil einzelne „verschmutzt“-Klassen lediglich einen kleinen Bruchteil der gesamten Bildfläche ausmachen, während die Summe aller „verschmutzt“-Klassen gegenüber der „sauber“-Klasse dominiert.
Gemäß einigen Ausführungen kann eine Warnmeldung oder eine Informationsmeldung abhängig von dem Ergebnis der Klassifizierung der Kamera und/oder des Wärmebilds erzeugt werden.
Die Warnungs- und/oder Informationsmeldung kann dann durch nachfolgende Algorithmen zum automatischen oder teil-automatisierten Führen des Fahrzeugs, zum Beispiel durch Anpassen einer Konfidenz für die Wärmebildkamera berücksichtigt werden.
Gemäß einem weiteren Aspekt der Erfindung wird ein computerimplementiertes Trainingsverfahren zum Trainieren eines faltenden neuronalen Netzwerks zur Computer-Vision basierend auf Wärmebilderfassung bereitgestellt. Dabei wird ein gelabeltes Trainingswärmebild bereitgestellt und ein gefiltertes Trainingsbild wird durch Anwenden eines nichtlinearen Diffusionsfilters auf ein Eingangsbild, welches durch das Trainingswärmebild gegeben ist oder von diesem abhängt, erzeugt. Ein Encodermodul des faltenden neuronalen Netzwerks wird auf das gefilterte Bild angewendet, um zumindest eine Merkmalskarte zu erzeugen, und zumindest eine Computer-Vision-Aufgabe wird ausgeführt, indem zumindest ein Decodermodul des faltenden neuronalen Netzwerks auf die zumindest eine Merkmalskarte angewendet wird. Zumindest eine vordefinierte Verlustfunktion wird abhängig von einem Ergebnis der zumindest einen Computer-Vision-Aufgabe ausgewertet. Netzwerkparameter des faltenden neuronalen Netzwerks werden abhängig von einem Ergebnis der Auswertung geändert.
Die Netzwerkparameter des faltenden neuronalen Netzwerks beinhalten insbesondere Gewichtungsfaktoren und/oder Bias-Faktoren des faltenden neuronalen Netzwerks, zum Beispiel des Encodermoduls und eines oder mehrerer Decodermodule des zumindest einen Decodermoduls.
Insbesondere falls das zumindest eine Decodermodul mehr als ein Decodermodul beinhaltet, können die unterschiedlichen Decodermodule gemeinsam miteinander und/oder gemeinsam mit dem Encodermodul trainiert werden. Bei manchen Ausführungen werden manche der Decodermodule zusammen miteinander und zusammen mit dem Encodermodul auf eine Ende-zu-Ende-Weise trainiert, während weitere Decodermodule getrennt trainiert werden.
Zum Beispiel beinhalten das zumindest eine Decodermodul, wie oben beschrieben, das erste Decodermodul, das zweite Decodermodul, das dritte Decodermodul und das vierte Decodermodul. Das Encodermodul, das erste Decodermodul, das zweite Decodermodul und das dritte Decodermodul können zusammen in einer Ende-zu-Ende-Weise trainiert werden, während das vierte Decodermodul getrennt trainiert wird.
Gemäß einigen Ausführungen schließt das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen der Tiefenschätzaufgabe durch Anwenden des ersten Decodermoduls auf die zumindest eine Merkmalskarte ein und ein Ergebnis der Tiefenschätzaufgabe schließt die Tiefenkarte ein, welche jedem Pixel des Trainingswärmebilds einen jeweiligen Tiefenwert zuweist. Die zumindest eine Verlustfunktion hängt von dem Gradienten des Tiefenwerts ab.
Zum Beispiel kann die zumindest eine Verlustfunktion von einem absoluten Wert des Gradienten des Tiefenwerts abhängen. Auf diese Weise kann die Trainingsleistung verbessert werden, da das Infrarotrauschen deutlich reduziert werden kann. Da ein überwachtes Training benutzt wird, beschleunigen die Berechnung der korrekten Tiefenkarte und ihres Gradienten die Konvergenz des Trainings.
Gemäß einigen Ausführungen des erfindungsgemäßen computerimplementierten Verfahrens zur Computer-Vision wird das faltende neuronale Netzwerk trainiert, indem ein erfindungsgemäßes computerimplementiertes Trainingsverfahren benutzt wird.
Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zum zumindest teilweise automatischen Führen eines Fahrzeugs, insbesondere eines Kraftfahrzeugs, bereitgestellt. Das Verfahren schließt das Ausführen eines erfindungsgemäßen computerimplementierten Verfahrens zur Computer-Vision ein. Das Verfahren schließt des Weiteren das Erzeugen zumindest eines Steuersignals zum zumindest teilweise automatischen Führen eines Fahrzeugs abhängig von einem Ergebnis der zumindest einen visuellen Wahrnehmungsaufgabe ein.
Das zumindest eine Steuersignal kann zum Beispiel an einen oder mehrere Aktuatoren des Fahrzeugs bereitgestellt werden, die eine Quer- und/oder Längssteuerung des Fahrzeugs automatisch oder teilautomatisiert beeinflussen oder ausführen.
Für Nutzungsfälle oder Nutzungssituationen, welche sich bei dem Verfahren ergeben können und die hier nicht explizit beschrieben werden, kann es vorgesehen sein, dass in Übereinstimmung mit dem Verfahren eine Fehlermeldung und/oder eine Aufforderung zum Benutzerfeedback ausgegeben wird und/oder eine Standardeinstellung und/oder ein vorbestimmter Ausgangszustand eingestellt wird.
Gemäß einem weiteren Aspekt der Erfindung wird ein Computer-Vision-System bereitgestellt. Das Computer-Vision-System weist zumindest eine Recheneinheit auf, welche dazu eingerichtet ist, ein erfindungsgemäßes computerimplementiertes Verfahren zur Computer-Vision basierend auf Wärmebilderfassung und/oder ein erfindungsgemäßes computerimplementiertes Trainingsverfahren auszuführen.
Gemäß einem weiteren Aspekt der Erfindung wird ein elektronisches Fahrzeugführungssystem für ein Fahrzeug bereitgestellt. Das elektronische Fahrzeugführungssystem weist ein erfindungsgemäßes Computer-Vision-System und zum Beispiel eine Wärmebildkamera für das Fahrzeug auf, welche dazu eingerichtet ist, das Wärmebild zu erzeugen. Die zumindest eine Recheneinheit ist dazu eingerichtet, zumindest ein Steuersignal zum zumindest teilweise automatischen Führen des Fahrzeugs abhängig von einem Ergebnis der zumindest einen visuellen Wahrnehmungsaufgabe zu erzeugen.
Ein elektronisches Fahrzeugführungssystem kann als ein elektronisches System verstanden werden, welches dazu eingerichtet ist, ein Fahrzeug vollautomatisch oder vollautonom und insbesondere, ohne dass ein manuelles Eingreifen oder Steuern durch einen Fahrer oder Benutzer des Fahrzeugs notwendig wäre, zu führen. Das Fahrzeug führt erforderliche Lenkmanöver, Bremsmanöver und/oder Beschleunigungsmanöver und so weiter automatisch aus. Insbesondere kann das elektronische Fahrzeugführungssystem einen vollautomatischen oder vollautonomen Fahrmodus gemäß Stufe 5 der SAE J3016 Klassifikation implementieren. Ein elektronisches Fahrzeugführungssystem kann auch als ein Fahrerassistenzsystem, ADAS, implementiert sein, welches einem Fahrer beim teilautomatischen oder teilautonomen Fahren assistiert. Insbesondere kann das elektronische Fahrzeugführungssystem einen teilautomatischen oder teilautonomen Fahrmodus gemäß den Stufen 1 bis 4 der SAE J3016 Klassifikation implementieren. Hier und im Folgenden bezieht sich SAE J3016 auf den entsprechenden Standard mit Datum vom Juni 2018.
Ein wenigstens teilweise automatisches Führen des Fahrzeugs kann daher als Führen des Fahrzeugs gemäß einem vollautomatischen oder vollautonomen Fahrmodus nach Stufe 5 der SAE J3016 Klassifikation beinhalten. Ein wenigstens teilweise automatisches Führen des Fahrzeugs kann auch als Führen des Fahrzeugs gemäß einem teilautomatischen oder teilautonomen Fahrmodus nach den Stufen 1 bis 4 der SAE J3016 Klassifikation beinhalten.
Eine Recheneinheit kann insbesondere als ein Datenverarbeitungsgerät verstanden werden, welches einen Verarbeitungsschaltkreis aufweist. Die Recheneinheit kann somit insbesondere Daten verarbeiten, um Rechenoperationen durchzuführen. Dies kann auch Operationen zum Durchführen indizierter Zugänge zu einer Datenstruktur, beispielsweise einer Look-Up-Tabelle, LUT, umfassen.
Die Recheneinheit kann insbesondere einen oder mehrere Computer, einen oder mehrere Mikrocontroller und/oder einen oder mehrere integrierte Schaltkreise, beispielsweise eine oder mehrere anwendungsspezifische integrierte Schaltungen, ASIC (englisch: „application-specific integrated circuit“), eines oder mehrere feldprogrammierbare Gate Arrays, FPGA, und/oder eines oder mehrere Einchipsysteme, SoC (englisch: „system on a chip“), enthalten. Die Recheneinheit kann auch einen oder mehrere Prozessoren, zum Beispiel einen oder mehrere Mikroprozessoren, eine oder mehrere zentrale Prozessoreinheiten, CPU (englisch: „central processing unit“), eine oder mehrere Grafikprozessoreinheiten, GPU (englisch: „graphics processing unit“) und/oder einen oder mehrere Signalprozessoren, insbesondere einen oder mehrere digitale Signalprozessoren, DSP, enthalten. Die Recheneinheit kann auch einen physischen oder einen virtuellen Verbund von Computern oder sonstigen der genannten Einheiten beinhalten.
Bei verschiedenen Ausführungsformen beinhaltet die Recheneinheit eine oder mehrere Hardware- und/oder Softwareschnittstellen und/oder eine oder mehrere Speichereinheiten.
Eine Speichereinheit kann als flüchtiger Datenspeicher, beispielsweise als dynamischer Speicher mit wahlfreiem Zugriff, DRAM (englisch: „dynamic random access memory“) oder statischer Speicher mit wahlfreiem Zugriff, SRAM (englisch: „static random access memory“), oder als nicht-flüchtiger Datenspeicher, beispielsweise als Festwertspeicher, ROM (englisch: „read-only memory“), als programmierbarer Festwertspeicher, PROM (englisch: „programmable read-only memory“), als löschbarer Festwertspeicher, EPROM (englisch: „erasable read-only memory“), als elektrisch löschbarer Festwertspeicher, EEPROM (englisch: „electrically erasable read-only memory“), als Flash-Speicher oder Flash-EEPROM, als ferroelektrischer Speicher mit wahlfreiem Zugriff, FRAM (englisch: „ferroelectric random access memory“), als magnetoresistiver Speicher mit wahlfreiem Zugriff, MRAM (englisch: „magnetoresistive random access memory“) oder als Phasenänderungsspeicher mit wahlfreiem Zugriff, PCRAM (englisch: „phase-change random access memory“), ausgestaltet sein.
Gemäß einem weiteren Aspekt der Erfindung wird ein Fahrzeug, insbesondere ein Kraftfahrzeug, welches ein erfindungsgemäßes Computer-Vision-System und/oder ein elektronisches Fahrzeugführungssystem aufweist, bereitgestellt. Dabei wird die Wärmebildkamera an dem Fahrzeug montiert.
Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogramm, welches Befehle beinhaltet, bereitgestellt. Wenn die Befehle von zumindest einer Recheneinheit ausgeführt werden, veranlassen die Befehle die zumindest eine Recheneinheit dazu, ein erfindungsgemäßes computerimplementiertes Verfahren zur Computer-Vision basierend auf Wärmebilderfassung und/oder ein erfindungsgemäßes computerimplementiertes Trainingsverfahren auszuführen.
Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt. Das computerlesbare Speichermedium speichert ein erfindungsgemäßes Computerprogramm.
Das Computerprogramm und das computerlesbare Speichermedium können als jeweilige Computerprogrammprodukte, welche die Befehle beinhalten, bezeichnet werden.
Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar. Insbesondere können auch Ausführungsformen und Merkmalskombinationen von der Erfindung umfasst sein, die nicht alle der Merkmale eines ursprünglich formulierten Anspruchs aufweisen. Darüber hinaus können Ausführungsformen und Merkmalskombinationen von der Erfindung umfasst sein, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder davon abweichen.
Im Folgenden wird die Erfindung im Einzelnen mit Bezug auf spezifische beispielhafte Ausführungen und jeweilige schematische Zeichnungen erläutert. In den Zeichnungen können identische und funktionsgleiche Elemente mit denselben Bezugszeichen bezeichnet sein. Die Beschreibung identischer oder funktionsgleicher Elemente wird mit Bezug auf andere Figuren nicht notwendigerweise wiederholt.
In den Figuren zeigen:

1 schematisch ein Fahrzeug mit einer beispielhaften Ausführung eines erfindungsgemäßen Computer-Vision-Systems;
2 schematisch ein Blockdiagramm, welches eine beispielhafte Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zur Computer-Vision basierend auf Wärmebilderfassung darstellt;
3 schematisch ein Blockdiagramm, welches einen Teil einer weiteren beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zur Computer-Vision basierend auf Wärmebilderfassung darstellt;
4 schematisch ein Blockdiagramm, welches einen Teil einer weiteren beispielhaften Ausführung eines erfindungsgemäßen Verfahrens zur Computer-Vision basierend auf Wärmebilderfassung darstellt;
5 schematisch ein Bild, das von einer Kamera erzeugt wird, die Verschmutzung ausgesetzt ist; und
6 schematisch ein Blockdiagramm, welches einen Teil einer weiteren beispielhaften Ausführung eines erfindungsgemäßen computerimplementierten Verfahrens zur Computer-Vision basierend auf Wärmebilderfassung darstellt.

1 zeigt ein Fahrzeug 1 mit einer beispielhaften Ausführung eines erfindungsgemäßen Computer-Vision-Systems 2.
Das Computer-Vision-System 2 weist eine Recheneinheit 4 auf, welche als repräsentativ für eine oder mehrere Recheneinheiten des Fahrzeugs 1 betrachtet werden kann. Das Fahrzeug 1, zum Beispiel das Computer-Vision-System 2, weist eine Wärmebildkamera 3, auf, welche an dem Fahrzeug 1 montiert ist, so dass ein Sichtfeld der Wärmebildkamera 3 einen Teil einer äußeren Umgebung des Fahrzeugs 1 abdeckt.
Die Wärmebildkamera 3 ist dazu eingerichtet, ein Wärmebild 26 (siehe 2) zu erzeugen, welches die Umgebung des Fahrzeugs 1, wie sie durch das Sichtfeld der Wärmebildkamera 3 abgedeckt ist, darstellt. Die Recheneinheit 4 kann das Wärmebild 26 empfangen und ein erfindungsgemäßes computerimplementiertes Verfahren zur Computer-Vision basierend auf Wärmebilderfassung ausführen.
2 zeigt ein Blockdiagramm, welches eine beispielhafte Ausführung eines derartigen computerimplementierten Verfahrens zur Computer-Vision schematisch darstellt.
Die Recheneinheit 4 erzeugt ein gefiltertes Bild 7, indem sie einen nichtlinearer Diffusionsfilter 6 auf das Wärmebild 26 anwendet, und wendet ein Encodermodul 8 des trainierten faltenden neuronalen Netzwerks 5 auf das gefilterte Bild 7 an, um zumindest eine Merkmalskarte zu erzeugen. Zumindest eine Computer-Vision-Aufgabe wird durch Anwenden zumindest eines Decodermoduls 9a, 9b, 9c, 9d des faltenden neuronalen Netzwerks 5 auf die zumindest eine Merkmalskarte ausgeführt.
Zum Beispiel kann ein erstes Decodermodul 9a trainiert sein, eine Tiefenschätzaufgabe auszuführen, die eine Tiefenkarte für das Wärmebild 26 erzeugt, und/oder ein zweites Decodermodul 9b kann trainiert sein, eine Objekterkennungsaufgabe auszuführen, um Begrenzungsboxen und jeweilige Objektklassen für Objekte in der Umgebung, die durch das Wärmebild 26 dargestellt wird, zu bestimmen, und/oder ein drittes Decodermodul 9c kann trainiert sein, eine Segmentierungsaufgabe auszuführen, um ein semantisch segmentiertes Bild basierend auf dem Wärmebild 26 zu erzeugen, und/oder ein viertes Decodermodul 9d kann trainiert sein, eine Aufgabe zur Erkennung von Kameraverschmutzung auszuführen, um zu bestimmen, ob die Wärmebildkamera 3 Verschmutzung ausgesetzt ist.
Die beschriebenen Schritte können für jedes Einzelbild eines Bilddatenstroms von Wärmebildern 26 der Wärmebildkamera 3 ausgeführt werden. Optional kann ein Objektverfolgungsalgorithmus 10, insbesondere ein Mehrfachobjektverfolgungsalgorithmus, auf das Ergebnis des Objektverfolgungsalgorithmus, insbesondere die Positionen von Objekten hinsichtlich ihrer Begrenzungsboxen, angewendet werten. Zum Beispiel kann der Objektverfolgungsalgorithmus 10 auch die Tiefenkarte, die den Abstand der Objekte von der Wärmebildkamera 3 darstellt, berücksichtigen. Als ein Ergebnis des Objektverfolgungsalgorithmus 10 kann für jedes Objekt eine geschätzte 2D- oder 3D-Objektposition und/oder eine Objektgeschwindigkeit und/oder eine Objektbeschleunigung und/oder ein Objektabstand und/oder eine Objektklasse über die Einzelbilder hinweg verfolgt werden.
Die Recheneinheit 4 kann zum Beispiel Steuersignale zur Beeinflussung einer Längs- und/oder einer Quersteuerung, mit anderen Worten der Fahrtrichtung und/oder Geschwindigkeit, des Fahrzeugs 1 erzeugen. Die Steuersignale werden zu diesem Zweck zum Beispiel an jeweilige Aktuatoren (nicht gezeigt) des Fahrzeugs 1 übertragen.
Der nichtlineare Diffusionsfilter 6, welcher ein nichtlinearer isotroper Diffusionsfilter sein kann, verbessert das Signal-zu-Rauschen-Verhältnis und den Kontrast des Wärmebilds 26, wodurch die Qualität der Merkmalsextraktion durch das Encodermodul 8, welche von den Decodermodulen 9a, 9b, 9c, 9d zur Decodierung der Computer-Vision-Aufgaben benutzt wird, verbessert wird.
Gemäß dem nichtlinearen Diffusionsfilter 6 kann ein Glättungsvorgang unter Berücksichtigung lokaler Gradienteninformationen durchgeführt werden, so dass Binnenbereiche in dem Wärmebild 26 geglättet werden und Kanten zwischen den Bereichen erhalten werden. Der nichtlineare Diffusionsfilter 6 kann durch $I_{t} (x, y) = d i v (c (x, y) \nabla I (x, y)) = \frac{\partial [c (x, y) \partial I (x, y) / \partial x]}{\partial y} + \frac{\partial [c (x, y) \partial I (x, y) / \partial y]}{\partial x},$
gegeben sein, wobei I(x,y) einen Pixelwert des Eingangsbilds an einer durch (x,y) gegebenen Pixelposition bezeichnet, I_t(x,y) den entsprechenden Pixelwert des gefilterten Bilds 7 an der durch (x,y) gegebenen Pixelposition bezeichnet und c(x,y) einen vordefinierten Diffusionskoeffizienten an der durch (x,y) gegebenen Pixelposition darstellt.
Durch Berücksichtigung des Diffusionskoeffizienten als eine Funktion der Größe des Gradienten der Helligkeit können lokal die besten bereichsspezifischen Glättungsvorgänge erreicht werden. Zum Beispiel $c (x, y) = ƒ [\nabla I (x, y)] .$
Die Funktion f kann gewählt werden als $ƒ [\nabla I (x, y)] = ƒ [‖ \nabla I (x, y) ‖] = e x p (- {(\frac{‖ \nabla I (x, y) ‖}{K})}^{2}),$
wobei K ein vordefinierter Kantenstärkenschwellwert ist, der angepasst werden kann, um geeignete Ergebnisse zu ergeben. Auf diese Weise kann gewährleistet werden, dass die Funktion f die Kanten erhält und die Kanten auch schärft und aufhellt. Die Kanten werden somit gegenüber kontrastarmen Kanten verbessert.
Die Objekterkennungsaufgabe kann die Identifikation und Klassifizierung von unterschiedlichen Objekten in dem Wärmebild 26 einbeziehen. Faltende neuronale Netzwerke sind erfolgreich für Bilder von im sichtbaren Bereich arbeitenden Kameras implementiert worden und es existieren Echtzeitlösungen zur Lösung von Objekterkennungsaufgaben. Zum Beispiel kann das zweite Decodermodul 9b auf bekannten Modellen, wie etwa YOLO, SSD, RefineDet oder DenseNet, basieren, welche zur Prädiktion der Begrenzungsboxen der Objekte in der Umgebung benutzt werden können.
Das faltende neuronale Netzwerk 5 kann trainiert werden, indem gelabelte Trainingsbilder für vordefinierte Objektklassen benutzt werden. Die Verlustfunktion für die Objektdetektion L_OD kann als die übliche Kreuzentropie basierend auf der Prädiktion verglichen mit Ground-Truth-Labeln definiert sein.
Gemäß der semantischen Segmentierungsaufgabe kann das Wärmebild 26 als in eine Vielzahl von Bereichen eingeteilt betrachtet werden und kann ihnen jeweilige Klassen zuweisen. Zum Beispiel kann jedes Pixel einem derartigen Bereich entsprechen. Trainingsbilder mit gelabelten semantischen Klassen können dazu benutzt werden, das dritte Decodermodul 9c zu trainieren. Die Klassen können zum Beispiel fahrbarer Bereich, Fahrbahn, Gehsteig, et cetera einschließen. Das dritte Decodermodul 9c kann zum Beispiel auf einem vollständig faltenden neuronalen Netzwerk, einer U-Net- oder SegNet-Architektur basieren. Eine geeignete Verlustfunktion für die semantische Segmentierung L_SEM kann ein pixelweiser Kreuzentropieverlust für jede Klasse sein, gemittelt über einen Mini-Batch.
Tiefenschätzungsmethoden basierend auf Bildern von im sichtbaren Bereich arbeitenden Kameras, die sich gut für günstige Wetterverhältnisse mit reichhaltigen Szeneninformationen eignen, sind in der Literatur verfügbar. Die Leistung derartiger Verfahren ist häufig sehr gering bei ungünstigen Wetterverhältnissen, wie etwa Regen, Nebel, Schnee und bei Nacht. Wärmebilder 26 sind besonders gut zur visuellen Wahrnehmung bei derartig widrigen Bedingungen geeignet. Eine Schwierigkeit besteht jedoch darin, dass sie nur über einen einzigen Kanal oder eine einzige Farbinformation und nur über ein geringes Maß an Texturinformationen verfügen, was auf inhärente Beschränkungen, wie etwa ein niedriges Signal-zu-Rauschen-Verhältnis und schwachen Kontrast, zurückzuführen ist. Daher ist die Merkmalsextraktion aus Infrarotbildern schwieriger als aus sichtbaren Bildern. Somit ist die Verwendung des nichtlinearen Diffusionsfilters 6 besonders geeignet, um die Bildqualität zu verbessern, wodurch das Infrarotrauschen reduziert wird, und um den Kontrast zu verbessern, was zur Verbesserung der Merkmalsextraktion aus dem Wärmebild 26 beiträgt. Die Szenenwahrnehmung kann durch die Schätzung einer Tiefenkarte stark verbessert werden, welche jedem Pixel einen Tiefenwert des Wärmebilds 26 zuweist, basierend auf dem gefilterten Bild durch das erste Decodermodul 9a.
Verfahren, die in der bestehenden Literatur zur Verfügung stehen, benutzen Raumgeometriebeschränkungen und kombinieren sie mit einem Lochkameraprojektionsmodell, um Tiefenschätzung durchzuführen. Es kann sein, dass diese Verfahren nur schlechte Echtzeitleistung und verschlechterte Leistung aufgrund von geringen Texturbereichen haben. Daher kann ein überwachtes Tiefenschätzverfahren basierend auf dem monokularen Wärmebild 26 bei jeweiligen Ausführungen der Erfindung benutzt werden. Die verbesserte Merkmalsextraktion durch das Encodermodul 8 basierend auf dem gefilterten Bild gewährleistet, dass das erste Decodermodul 9a die Merkmale aus der zumindest einen Merkmalskarte effektiv in die Tiefenkarte umwandeln kann. Hierzu kann zum Beispiel eine Verlustfunktion, die einen Kantenverlust und Huber-Verlust benutzt, eingesetzt werden, um das faltende neuronale Netzwerk 5 zu trainieren. Die Verlustfunktion für die Tiefenschätzung L_Depth kann daher durch L_Depth = L_Huber + L_edge mit $L_{H u b e r} = {\begin{matrix} \frac{1}{2} {[y - \hat{y}]}^{2} : [y - \hat{y}] \leq δ \\ δ (| y - \hat{y} | - \frac{δ}{2}) : s o n s t \end{matrix},$
$L_{e d g e} = \frac{1}{1 + {| \nabla I_{t d} |}^{2}},$
gegeben sein, wobei ∇ I_td den Gradienten der Tiefenkarte bezeichnet, die aus dem gefilterten Bild erhalten wird.
Das verbessert die Trainingsleistung, da das Infrarotrauschen deutlich reduziert wird und wichtige Kantenmerkmale durch den nichtlinearen Diffusionsfilter 6 verbessert werden. Aufgrund des überwachten Trainings hilft die Berechnung der korrekten Tiefenkarte dabei, das Training des faltenden neuronalen Netzwerks 5 schneller zu konvergieren.
Eine Gesamtverlustfunktion L_Total zum gemeinsamen Training der Computer-Vision-Aufgaben mit Ausnahme der Verschmutzungserkennung, das heißt zum Beispiel für die Objekterkennung, semantische Segmentierung und Tiefenschätzung, kann als ein arithmetisches Mittel AM der Verlustfunktionen durch L_OD, L_SEM und L_Depth berechnet werden $L_{T o t a l} = A M (L_{O D}, L_{S E M}, L_{D e p t h}),$
$L_{T o t a l} = \frac{1}{M} \sum_{i}^{M} w_{i} L_{i} .$
Dabei ist M, zum Beispiel M = 3, die Anzahl von Wahrnehmungsaufgaben, L_i sind die individuellen Verlustfunktionen L_OD, L_SEM und L_Depth und w_i sind jeweilige Gewichtungen, die der L_i während des Trainings zugewiesen werden.
Zur Verschmutzungserkennung basierend auf Bildern von im sichtbaren Bereich arbeitenden Kameras kann man das Bild in Kacheln aufteilen, jeder Kachel eine vordefinierte Verschmutzungsklasse zuweisen und dann die Anzahl der verschmutzten Kacheln in dem Bild zählen. Ein Kameraobjektivreinigungssystem oder andere Funktionen können initiiert werden, wenn die Gesamtanzahl verschmutzter Kacheln über einem gewissen Schwellwert liegt. Eine derartige Herangehensweise hat jedoch ihre Grenzen. Wenn zum Beispiel die jeweiligen Konfidenzwerte für eine spezifische Kachel sauber: 40%, transparent: 5%, semi-transparent: 20%, opak: 35% ergeben, so ist es wahrscheinlich, dass eine derartige Kachel basierend auf der mehrheitlichen Bewertungen als sauber betrachtet wird, tatsächlich jedoch zu 60% verschmutzt ist. Derartige Fehler können sich über die Kacheln akkumulieren und eine fehlerhafte Schätzung der verschmutzten Fläche liefern.
Hier wird eine zuverlässigere Art der Steuerung des obigen Szenarios und eine effizientere Art der Benutzung des Reinigungssystems vorgeschlagen. Statt die Klassenkonfidenz für jede Kachel zu berücksichtigen, kann die Abdeckung verschmutzter Fläche für jede Klasse pro Kachel berechnet werden. Ein individuelles Summieren der Abdeckungsinformationen über die Kacheln für alle Verschmutzungsklassen liefert eine bessere Erkenntnis über die tatsächliche Verschmutzung, was bei einer effizienteren und zuverlässigeren Entscheidung über das Initiieren des Reinigungssystems hilft.
Auf diese Weise kann ein einziges Wärmebild 26 für die Verschmutzungserkennung benutzt werden. Bei bestehenden Lösungen kann es sein, dass Mehrfachbilder bis zu mehreren Zehn Bildern erforderlich sind, um die Bildmerkmale rechtzeitig zu berechnen. Auch transparente Verschmutzung kann erkannt werden und insbesondere eine hohe Erkennungsgeschwindigkeit erreicht werden. Die Ausgabe der Aufgabe zur Verschmutzungserkennung kann die Wahrscheinlichkeit für die Verschmutzung, die Abdeckungsflächen für saubere und transparente, semi-transparente sowie opake Verschmutzungstypen einschließen.
5 zeigt das Wärmebild 26 schematisch mit einem Raster 27, welches eine Anordnung von 4 x 4 Kacheln definiert. Das Wärmebild 26 weist saubere Kacheln 28, semi-transparent verschmutzte Kacheln 29 und opak verschmutzte Kacheln 30 auf.
6 zeigt das Encodermodul 8 und ein schematisches Beispiel für das vierte Decodermodul 9d zur Verschmutzungserkennung sowie einen Nachbearbeitungsblock 31. Das vierte Decodermodul 9d kann eine Ausgabemerkmalskarte ausgeben, welche zu einer Softmax-Schicht 32 weitergeleitet wird, die eine Klassifikationskarte 34 ausgibt, die den Verschmutzungstyp pro Kachel angibt. Die Ausgabemerkmalskarte kann an eine weitere Softmax-Schicht 33 weitergeleitet werden, die eine Verschmutzungsabdeckungskarte 35 ausgibt, die die Verschmutzungsabdeckungsfläche pro Kachel angibt. Der Nachbearbeitungsblock 31 kann bei manchen Ausführungen auch als ein Teil des vierten Decodermoduls 9d betrachtet werden.
Durch Verfolgen des Mehrfachaufgabenlern-Ansatzes kann das Encodermodul 8, welches bereits für die Objekterkennung, Tiefenschätzung und semantische Segmentierung benutzt wird, für die Aufgabe zur Verschmutzungserkennung vorteilhaft eingesetzt werden.
Das Training des vierten Decodermoduls 9b zur Verschmutzungserkennung kann einer anderen Strategie folgen als das Training der verbleibenden Decodermodule 9a, 9b, 9c. Es besteht die Möglichkeit, dass ein gemeinsames Training des Encodermoduls 8 und aller Decodermodule 9a, 9b, 9c einschließlich des vierten Decodermoduls 9d zur Verschmutzungserkennung zusammen einen wesentlichen Einfluss auf die Leistung der Aufgaben der Objekterkennung, semantischen Segmentierung und Tiefenschätzung aufgrund der Aktualisierung der Gewichtung in dem Encodermodul 8 ergibt. Um die mögliche Verschlechterung bei den anderen Aufgaben zu verhindern, kann das vierte Decodermodul 9d daher separat trainiert werden, wobei das Encodermodul 8 und die verbleibenden Decodermodule 9a, 9b, 9c als für diesen Zweck nicht trainierbar beibehalten werden. Wenn daher das vierte Decodermodul 9d trainiert wird, so fungiert das Encodermodul 8 nur als ein Merkmalsextraktor für das vierte Decodermodul 9d.
Das faltende neuronale Netzwerk 5 kann zum Beispiel mit vortrainierten Gewichtungen initialisiert werden und ein Transfer-Lernen für spezifische Aufgaben unter Verwendung von Wärmebildern kann verwendet werden. Das führt zu einer besseren Initialisierung von Hyperparametern und zu einer schnelleren Konvergenz des Netzwerks zu den erwarteten Ergebnissen. Auch bestehende Datensätze für Automobilanwendungen, wie etwa FLIR, KAIST et cetera können für das Training und die Validierung verwendet werden.
Der Objektverfolgungsalgorithmus 10 zielt ab auf die Lokalisierung sich bewegender Objekte, zum Beispiel weiterer Fahrzeuge, über aufeinanderfolgende Einzelbilder, um den nächsten Zustand dieser Objekte abzuschätzen und zu prädizieren. Die Zustände der Objekte können zu jedem Zeitpunkt aktualisiert werden. Nach Erkennen der Objekte, die das Ego-Fahrzeug umgeben, können sie verfolgt werden und ihr Verhalten kann prädiziert werden. Diese Informationen können für die weitere Entscheidungsfindung, zum Beispiel während der Wegplanung und Bewegungsplanung für Funktionen gemäß Stufe 3 und darüber, insbesondere für automatisches Fahren, nützlich sein.
Gemäß Mehrfachobjektverfolgung können räumliche und zeitliche Beziehungen unter den sich bewegenden Objekten, statischen Hindernissen und dem Fahrzeug 1 hergestellt werden. Mehrfachobjektverfolgung kann auch verpasste Erkennungen, Fehlerkennungen und vorübergehende Verdeckung von Objekten durch Schätzen der Positionen der Objekte basierend auf ihren Bewegungsmodellen und Bewegungshistorien handhaben. Wenn mehrere sich bewegende Objekte vorhanden sind, so wird der Verfolgungsvorgang komplexer und somit werden zwei Hauptaufgaben relevant: die Datenzuordnung und Verfolgungsmanagement. Datenzuordnung bedeutet, bestehenden Objektverfolgungsinstanzen neue Objektmessungen zuzuordnen, wann immer diese verfügbar sind. Die Liste der Verfolgungsinstanzen wird durch Verfolgungsmanagement gepflegt, indem neue Verfolgungsinstanzen für neue Objektmessungen geschaffen werden, wobei Verfolgungsinstanzen, die keine neuen Messungen empfangen gelöscht werden und den bestehenden Verfolgungsinstanzen neue Messungen zugeordnet werden.
Dynamische Umgebungen schließen sowohl statische als auch sich bewegende Objekte ein, die miteinander interagieren. Zum Beispiel fungieren nur Beobachtungen von sich bewegenden Objekten als Eingabe in das Objektverfolgungsmodul. Dynamische Zustände der sich bewegenden Objekte können durch Aggregation der Messungen über die Zeit geschätzt werden. Die Zustände sich bewegender Objekte können Objektposition, Schnelligkeit, Beschleunigung, Gierrate, Objektabmessungen und/oder Orientierung der Objekte einschließen. Diese Zustandsparameter werden nicht direkt gemessen, sondern können durch den Verfolgungsvorgang geschätzt werden.
3 ist eine beispielhafte Blockdiagrammdarstellung des Objektverfolgungsblocks 10. Er empfängt und fusioniert Daten aus der Tiefenkarte, Objektabstand, Objektposition und Objektklasse mittels eines Fusionsblocks 11. Objektgeschwindigkeit und -beschleunigung werden durch den Block 12 als Änderungsrate der Verschiebung und Änderungsrate der Objektgeschwindigkeit berechnet. Basierend auf der berechneten Geschwindigkeit des Objekts, kann es als sich bewegend oder statisch durch den Block 13 identifiziert werden. Eine Liste Messungen sich bewegender Objekte, wie etwa Objektposition, Objektgeschwindigkeit, Objektbeschleunigung, Objektklasse, zusammen mit dem Abstand kann als eine Eingabe in das Verfolgungsmodul bereitgestellt werden, welches einen Gating-Block 15, einen Datenzuordnungsblock 16, einen Verfolgungsmanagementblock 17 und einen Kalman-Filterblock 18 aufweist.
Im Falle von urbanen Szenarios kann es sein, dass eine große Anzahl von sich bewegenden Objekten verfolgt werden muss und daher kann der Gating-Block 15 bei der Handhabung solcher Szenarien helfen. Er weist ein einige Messungen zu, bei denen es am wahrscheinlichsten ist, dass sie jeder der bestehenden Verfolgungsinstanzen zugeordnet werden, wodurch die Komplexität der Zuordnung aller Messungen zu jeder Verfolgungsinstanz reduziert wird. Der Datenzuordnungsblock 16 kann dabei helfen, die neuen Messungen den bestehenden Verfolgungsinstanzen basierend auf Euklidischen oder Mahalanobis-Abstandsmessungen zuzuordnen.
Die Verfolgungsinstanzen, denen aktuelle Messungen zugeordnet werden, können basierend auf individuellen Bewegungsmodellen aktualisiert und/oder gefiltert werden, während die Verfolgungsinstanzen, denen keine aktuellen Messungen zugeordnet werden, zur Löschung vorgesehen werden können. Die Verfolgungsinstanzen werden von dem Verfolgungsmanagementblock 17 gehandhabt, wo neue Messungen, die keinen bestehenden Verfolgungsinstanzen zugeordnet werden, mit neuen Verfolgungsinstanzen initiiert werden, und Verfolgungsinstanzen ohne aktuelle Messung gelöscht werden, wenn es keine Messungen für eine vordefinierte Anzahl, zum Beispiel drei, Einzelbilder gibt. Die Verfolgungsinstanzen, denen aktuellen Messungen zugeordnet werden, werden einem Filtervorgang unter Benutzung des Kalman-Filterblocks 18 unterzogen.
Die Zustandsvektoren, die für die Verfolgung berücksichtigt werden, weisen lineare Parameter auf, die aus den Aufgaben der Objekterkennung und Tiefenschätzung abgeleitet werden. Eine Verfolgung auf Basis eines Kalman-Filters wird angewendet, um sich bewegende Objekte in der Umgebung zu verfolgen. Der Kalman-Filter ist sehr gut geeignet für einen linearen Vorgang, der eine Gaußsche Verteilung verfolgt. Die Zustandsvektoren, die für die Verfolgung berücksichtigt werden, beinhalten Objektposition, Objektgeschwindigkeit und Objektbeschleunigung. Informationen zur Objektklasse und zum Objektabstand können während des Verfolgungsvorgangs jedem Objekt angefügt werden.
8 zeigt die allgemeine Struktur des Kalman-Filters, der dazu verwendet wird, die Objektposition, Geschwindigkeit und Beschleunigung mehrerer sich bewegender Objekte über die Zeit zu verfolgen und auch die mit ihnen verbundenen Unsicherheiten zu messen. Er besteht aus zwei Vorgängen, die iterativ aufeinanderfolgen: Prädiktionen und Aktualisieren der Zustandsvektoren. In dem Prädiktionsschritt werden die neuen Positionen der sich bewegenden Objekte basierend auf der früheren Bewegungshistorie und unter der Annahme, dass sich die Objekte mit konstanter Beschleunigung bewegen, prädiziert. Die Unsicherheit in der Prädiktion wird auch gemäß dem einhergehenden Prozessrauschen berechnet. Die prädizierten Zustände 21 werden basierend auf dem zugrundeliegenden physikalischen Modell und dem vorherigen Zustand 20 berechnet. In dem Aktualisierungsschritt werden die geschätzten Zustandsvektoren basierend auf den aktuellen Messungen 22 von den Sensoren aktualisiert.
Die Differenz zwischen dem gemessenen und dem prädizierten Wert wird benutzt, um den Kalman-Gain 23 zu berechnen, der dann dazu benutzt wird, die neuen Zustandsvektoren und neuen Unsicherheitswerte in dem Aktualisierungsblock 24 zu erzeugen. Die Ausgabe des Kalman-Filters beinhaltet die geschätzten Zustandsvektoren 25, welche auch als Eingabe in den Prädiktionsschritt für die nächste Iteration benutzt werden, wo sie zu dem vorherigen Zustand 20 werden. Ein Ausgangszustand 19 wird für den initialen Prädiktionsschritt benutzt.
In dem Prädiktionsschritt gilt $X_{k} = A X_{k - 1} + w_{k},$
wobei X_k der prädizierte Zustand bei Zeitschritt k ist, X_k-1 der geschätzte Zustand bei Zeitschritt k-1 ist, A die Zustandsübergangsmatrix ist und w_k Prozessrauschen bezeichnet. Zum Beispiel $X_{k} = {[x_{k} v_{x k} a_{x k} y_{k} v_{y k} a_{y k} z_{k} v_{z k} a_{z k}]}^{T}$
und $A = [\begin{matrix} 1 & Δ t & 0.5 Δ t^{2} & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 1 & Δ t & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & Δ t & 0.5 Δ t^{2} & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & Δ t & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & Δ t & 0.5 Δ t^{2} \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & Δ t \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \end{matrix}]$
und die Kovarianzprädiktionsgleichung lautet $P_{k} = A P_{k - 1} A^{T} + Q,$
wobei P_k und P_k-1 die geschätzte Unsicherheitsmatrix bei Zeitschritt k beziehungsweise k-1 sind und Q die Prozessrauschmatrix ist.
Für ein Modell mit konstanter Beschleunigung können die Matrizen wie folgt abgeleitet werden $Q = [\begin{matrix} \frac{Δ t^{4}}{4} & \frac{Δ t^{3}}{2} & \frac{Δ t^{2}}{2} & 0 & 0 & 0 & 0 & 0 & 0 \\ \frac{Δ t^{3}}{2} & Δ t^{2} & Δ t & 0 & 0 & 0 & 0 & 0 & 0 \\ \frac{Δ t^{2}}{2} & Δ t & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & \frac{Δ t^{4}}{4} & \frac{Δ t^{3} 2}{2} & \frac{Δ t^{2}}{2} & 0 & 0 & 0 \\ 0 & 0 & 0 & \frac{Δ t^{3}}{2} & Δ t^{2} & Δ t & 0 & 0 & 0 \\ 0 & 0 & 0 & \frac{Δ t^{2}}{2} & Δ t & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & \frac{Δ t^{4}}{4} & \frac{Δ t^{3}}{2} & \frac{Δ t^{2}}{2} \\ 0 & 0 & 0 & 0 & 0 & 0 & \frac{Δ t^{3}}{2} & Δ t^{2} & Δ t \\ 0 & 0 & 0 & 0 & 0 & 0 & \frac{Δ t^{2}}{2} & Δ t & 1 \end{matrix}] σ_{a}^{2}$
mit einer Standardabweichung bei zufälliger Beschleunigung von $σ_{a}^{2}$
und $P = [\begin{matrix} p_{x} & p_{x v_{x}} & p_{x a_{x}} & 0 & 0 & 0 & 0 & 0 & 0 \\ p_{v_{x} x} & p_{v_{x}} & p_{v_{x} a_{x}} & 0 & 0 & 0 & 0 & 0 & 0 \\ p_{a_{x} x} & p_{a_{x} v_{x}} & p_{a_{x}} & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & p_{y} & p_{y v_{y}} & p_{y a_{y}} & 0 & 0 & 0 \\ 0 & 0 & 0 & p_{v_{y} y} & p_{v_{y}} & p_{v_{y} a_{y}} & 0 & 0 & 0 \\ 0 & 0 & 0 & p_{a_{y} y} & p_{a_{y} v_{y}} & p_{a_{y}} & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & p_{z} & p_{z v_{z}} & p_{z a_{z}} \\ 0 & 0 & 0 & 0 & 0 & 0 & p_{v_{z} z} & p_{v_{z}} & p_{v_{z} a_{z}} \\ 0 & 0 & 0 & 0 & 0 & 0 & p_{a_{z} z} & p_{a_{z} v_{z}} & p_{a_{z}} \end{matrix}] .$
Die Messungsgleichung in der Matrixformel ist gegeben durch $Z_{k} = H X_{k} + w_{k},$
wobei Z_k der Messungsvektor $Z_{k} = {[x_{k} v_{x k} a_{x k} y_{k} v_{y k} a_{y k} z_{k} v_{z k} a_{z k}]}^{T}$
ist, H die Beobachtungsmatrix ist, X_k der prädizierte Zustandsvektor ist und w_k die Zufallsrauschmatrix.
Zum Beispiel können für ein Mehrfachobjektverfolgungssystem, wie es vorgeschlagen wird, die Messungsgleichungen abgeleitet werden als $H = [\begin{matrix} 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 \end{matrix}],$
$R_{k} = [\begin{matrix} σ_{x_{k}}^{2} & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & σ_{v_{x_{k}}}^{2} & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & σ_{a_{x_{k}}}^{2} & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & σ_{y_{k}}^{2} & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & σ_{v_{y_{k}}}^{2} & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & σ_{a_{y_{k}}}^{2} & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & σ_{z_{k}}^{2} & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & σ_{v_{z_{k}}}^{2} & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & σ_{a_{z_{k}}}^{2} \end{matrix}] .$
Der Kalman-Gain in Matrixnotation ist gegeben durch $K = P_{k - 1} H^{T} {(H P_{k - 1} H^{T} + R_{k})}^{- 1},$
wobei K der Kalman-Gain ist, P_k-1 eine zuvor geschätzte Unsicherheitsmatrix bei Zeitschritt k-1 ist, H die Beobachtungsmatrix ist und R_k die Messungsunsicherheit oder das Messungsrauschen ist.
Für den Aktualisierungsschritt, gilt $X_{k}^{'} = X_{k - 1}^{'} + K (Z_{k} - H X_{k - 1}),$
wobei X'_k der geschätzte Zustandsvektor bei Zeitschritt k ist, X'_k-1 der prädizierte Zustandsvektor bei Zeitschritt k-1 ist, K der Kalman-Gain ist, Z_k die Messungsmatrix ist und H die Beobachtungsmatrix ist.
Für die Kovarianzaktualisierungsgleichung gilt $P_{k} = (I - K H) P_{k - 1} {(I - K H)}^{T} + K R_{k} K^{T},$
wobei P_k die geschätzte Unsicherheitsmatrix bei Zeitschritt k ist, P_k-1 die zuvor geschätzte Unsicherheitsmatrix bei Zeitschritt k-1 ist, R_k die Messungsunsicherheit ist, H die Beobachtungsmatrix ist und K der Kalman-Gain ist.
Die gefilterte Ausgabe des Kalman-Filters beinhaltet die geschätzten Zustände der sich bewegenden Objekte, die Objektposition, -schnelligkeit und -beschleunigung einschließen. Die gefilterte Ausgabe wird an die Objektklasse und Objektabstandsinformation jedes Objekts angefügt, was die Verfolgungsinstanzen in der Umgebung bildet. Die Positionen statischer Objekte 14 zusammen mit ihrer Klasse und Abstandsinformationen können den sich bewegenden Objektverfolgungsinstanzen angefügt werden, was die Ausgabe des Objektverfolgungsblocks bildet.
Wie beschrieben, stellt das Beispiel von 2 einen Mehrfachaufgabenlernrahmen bereit, welcher ein Netzwerk mit vier Aufgaben für die Objekterkennung, -verfolgung und - klassifizierung der Objekte in der Umgebung, Tiefenschätzung, semantische Segmentierung und Verschmutzungserkennung einschließt. Zu den vorwiegend berücksichtigten Objekten gehören Fahrzeuge, Tiere, Fußgänger, Fahrradfahrer, Motorradfahrer et cetera, insbesondere bei Tageslicht, ungünstigen Wetterverhältnissen und bei Nacht.
Die Erfindung ist jedoch nicht auf die erwähnten spezifischen Computer-Vision-Aufgaben eingeschränkt. Die Architektur erlaubt die Benutzung anderer aufgabenspezifischer Decodermodule. Durch Berücksichtigung ausreichender Trainingsmuster kann das vorgeschlagene Netzwerk auch im Fall von unterschiedlichen Infrarotbändern, wie etwa Nahinfrarot, Mittelinfrarot und Ferninfrarot effektiv benutzt werden.
Weitere Vorteile der Erfindung schließen es ein, dass eine realistische Lösung für autonomes Fahren zum Erreichen einer Autonomie gemäß Stufe 5 bereitgestellt werden kann, ADAS-Funktionalitäten bei Nacht und während ungünstiger Wetterverhältnisse verbessert werden können und verletzliche Fahrbahnbenutzer wirksam erkannt und klassifiziert werden können.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2020/0278690 A1 [0004]

Claims

Computerimplementiertes Verfahren zur Computer-Vision basierend auf Wärmebilderfassung, wobei - ein Wärmebild (26), welches eine Umgebung eines Fahrzeugs (1) darstellt, von einer Wärmebildkamera (3) empfangen wird; - ein gefiltertes Bild (7) durch Anwenden eines nichtlinearen Diffusionsfilters (6) auf ein Eingangsbild, welches durch das Wärmebild (26) gegeben ist oder von diesem abhängt, erzeugt wird; - ein Encodermodul (8) eines trainierten faltenden neuronalen Netzwerks (5) auf das gefilterte Bild (7) angewendet wird, um zumindest eine Merkmalskarte zu erzeugen; und - zumindest eine Computer-Vision-Aufgabe durch Anwenden zumindest eines Decodermoduls (9a, 9b, 9c, 9d) des faltenden neuronalen Netzwerks (5) auf die zumindest eine Merkmalskarte ausgeführt wird.
Computerimplementiertes Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das gefilterte Bild (7) gemäß dem Zusammenhang $I_{t} (x, y) = d i v (c (x, y) \nabla I (x, y)) - \frac{\partial [c (x, y) \partial I (x, y) / \partial x]}{\partial y} + \frac{\partial [c (x, y) \partial I (x, y) / \partial y]}{\partial x},$
erzeugt wird, wobei I(x,y) einen Pixelwert des Eingangsbilds an einer Pixelposition bezeichnet, die durch (x,y) gegeben ist, I_t(x,y) einen entsprechenden Pixelwert des gefilterten Bilds (7) an der Pixelposition bezeichnet, die durch (x,y) gegeben ist, und c(x,y) einen vordefinierten Diffusionskoeffizienten an der Pixelposition darstellt, die durch die Pixelposition (x,y) gegeben ist.
Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der nichtlineare Diffusionsfilter (6) ein inhomogener Filter ist.
Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der nichtlineare Diffusionsfilter (6) ein isotroper Filter ist.
Computerimplementiertes Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der Diffusionskoeffizient durch $c (x, y) = e x p (- {(\frac{‖ \nabla I (x, y) ‖}{K})}^{2}),$
gegeben ist, wobei K eine vordefinierte reelle Konstante ist.
Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass - das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Tiefenschätzaufgabe durch Anwenden eines ersten Decodermoduls (9a) des zumindest einen Decodermoduls (9a, 9b, 9c, 9d) auf die zumindest eine Merkmalskarte beinhaltet; und/oder - das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Objekterkennungsaufgabe durch Anwenden eines zweiten Decodermoduls (9b) des zumindest einen Decodermoduls (9a, 9b, 9c, 9d) auf die zumindest eine Merkmalskarte beinhaltet.
Computerimplementiertes Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass zumindest ein Objekt in der Umgebung des Fahrzeugs (1) abhängig von einem Ergebnis der Objekterkennungsaufgabe und/oder abhängig von einem Ergebnis der Tiefenschätzaufgabe verfolgt wird.
Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer semantischen Segmentierungsaufgabe durch Anwenden eines dritten Decodermoduls (9c) des zumindest einen Decodermoduls (9a, 9b, 9c, 9d) auf die zumindest eine Merkmalskarte beinhaltet.
Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Aufgabe zur Erkennung von Kameraverschmutzung durch Anwenden eines vierten Decodermoduls (9d) des zumindest einen Decodermoduls (9a, 9b, 9c, 9d) auf die zumindest eine Merkmalskarte beinhaltet.
Computerimplementiertes Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass - als ein Ergebnis der Aufgabe zur Erkennung von Kameraverschmutzung für jede von zwei oder mehr vordefinierten Verschmutzungsklassen, eine jeweilige Abdeckungsfläche des Wärmebilds (26) berechnet wird; und - die Kamera (3) und/oder das Wärmebild (26) abhängig von den berechneten Abdeckungsflächen als verschmutzt klassifiziert wird.
Computerimplementiertes Trainingsverfahren zum Trainieren eines faltenden neuronalen Netzwerks (5) zur Computer-Vision basierend auf Wärmebilderfassung, wobei - ein gelabeltes Trainingswärmebild bereitgestellt wird und ein gefiltertes Trainingsbild durch Anwenden eines nichtlinearen Diffusionsfilters (6) auf ein Eingangsbild, welches durch das Trainingswärmebild gegeben ist oder von diesem abhängt, erzeugt wird; - ein Encodermodul (8) des faltenden neuronalen Netzwerks (5) auf das gefilterte Bild (7) angewendet wird, um zumindest eine Merkmalskarte zu erzeugen; - zumindest eine Computer-Vision-Aufgabe durch Anwenden zumindest eines Decodermoduls (9a, 9b, 9c, 9d) des faltenden neuronalen Netzwerks (5) auf die zumindest eine Merkmalskarte ausgeführt wird; - zumindest eine vordefinierte Verlustfunktion abhängig von einem Ergebnis der zumindest einen Computer-Vision-Aufgabe und abhängig von einem oder mehreren Labels des gelabelten Trainingswärmebilds ausgewertet wird; und - Netzwerkparameter des faltenden neuronalen Netzwerks (5) abhängig von einem Ergebnis der Auswertung geändert werden.
Computerimplementiertes Trainingsverfahren nach Anspruch 11, dadurch gekennzeichnet, dass - das Ausführen der zumindest einen Computer-Vision-Aufgabe ein Ausführen einer Tiefenschätzaufgabe durch Anwenden eines ersten Decodermoduls (9a) des zumindest einen Decodermoduls (9a, 9b, 9c, 9d) auf die zumindest eine Merkmalskarte beinhaltet; - ein Ergebnis der Tiefenschätzaufgabe eine Tiefenkarte enthält, welche jedem Pixel des Trainingswärmebilds einen jeweiligen Tiefenwert zuweist; und - die zumindest eine Verlustfunktion von einem Gradienten des Tiefenwerts abhängt.
Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 10, wobei das faltende neuronale Netzwerk (5) trainiert wird, indem ein computerimplementiertes Trainingsverfahren nach einem der Ansprüche 11 oder 12 verwendet wird.
Computer-Vision-System (2) aufweisend zumindest eine Recheneinheit (4), welche dazu eingerichtet ist, ein computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 10 oder 13 auszuführen und/oder ein computerimplementiertes Trainingsverfahren nach einem der Ansprüche 11 oder 12 auszuführen.
Computerprogrammprodukt, welches Befehle beinhaltet, welche, wenn sie von zumindest einer Recheneinheit (4) ausgeführt werden, die zumindest eine Recheneinheit (4) dazu veranlassen, ein computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 10 oder 13 auszuführen und/oder ein computerimplementiertes Verfahren nach einem der Ansprüche 11 oder 12 auszuführen.