DE102017127592A1

DE102017127592A1 - Verfahren zum Klassifizieren von Bildszenen in einem Fahrunterstützungssystem

Info

Publication number: DE102017127592A1
Application number: DE102017127592.4A
Authority: DE
Inventors: Joseph Fernandez; Catherine Enright
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2019-05-23
Also published as: WO2019101720A1

Abstract

Die Erfindung betrifft ein Verfahren zum Klassifizieren von Bildszenen bei einer Bildverarbeitung in einem Fahrunterstützungssystem (2) eines Kraftfahrzeugs (1), das die folgenden Schritte umfasst: räumliches Ordnen von Regionen des Bildes durch Bilden von Clustern der Bildpixel in Regionen mit hoher Varianz zwischen Klassen und geringer Varianz innerhalb einer Klasse, Modellieren der zugrundeliegenden Wahrscheinlichkeitsverteilung jeder Szenekategorie unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als generatives Modell, das einen Stapel beschränkter Boltzmann-Maschinen (RBM) und einen Klassifizierer wie eine Radialbasis-Filterunterstützungs-Vektormaschine (RBF-SVM), ein zweites CNN oder einfach eine Softmax-Schicht als abschließende Schicht verwendet, und das Klassifizieren der Szene auf Basis des Lernergebnisses der Deep-Boltzmann-Maschine (DBM).Die Erfindung betrifft ferner ein Verfahren zum Klassifizieren von Bildszenen bei der Bildverarbeitung in einem Fahrunterstützungssystem (2) eines Kraftfahrzeugs (1), das die folgenden Schritte umfasst: Bereitstellen eines neuronalen Faltungsnetzes (CNN), das mehrere Schichten umfasst, um zu lernen, welche Merkmale des Bildes für die Klassifizierung von Szenen am besten geeignet sind, wobei mehrere Auflösungen von Merkmalen zum Erfassen von Details von Merkmalen bei einer höheren Auflösung und des „großen Ganzen“ bei einer niedrigeren Aufösung erzeugt werden, Modellieren der allgemeinen Wahrscheinlichkeitsverteilung jeder Szenekategorie unter Verwendung einer Deep-Boltzmann-Maschine (DBM), die einen Stapel beschränkter Boltzmann-Maschinen (RBM) und einen Klassifizierer wie eine Radialbasis-Filterunterstützungs-Vektormaschine, ein zweites CNN oder einfach eine Softmax-Schicht als abschließende Schicht umfasst, wobei die Ausgabe jeder Schicht des neuronalen Faltungsnetzes (CNN9 in die sichtbare Schicht der Deep-Boltzmann-Maschine (DBM) als separate Eingabe eingegeben wird, woran sich anschließt, dass der Stapel beschränkter Boltzmann-Maschinen (RBM) die zugrunde liegende Wahrscheinlichkeitsverteilung jeder Szenekategorie lernt und die Szene auf Basis des Lernergebnisses der Deep-Boltzmann-Maschine (DBM) klassifiziert.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Klassifizieren von Bildszenen bei einer Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs.
Auch betrifft die Erfindung ein Verfahren zum Klassifizieren von Bildszenen bei einer Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs.
Fahrunterstützungssysteme, wie Fahrerassistenzsysteme, sind Systeme, die entwickelt werden, um Fahrzeugsysteme aus Gründen der Sicherheit und für ein besseres Fahren zu automatisieren, anzupasssen und zu verbessern. Sicherheitsmerkmale werden entworfen, um Kollisionen und Unfälle dadurch zu verhindern, dass sie Technologien bieten, die den Fahrer auf mögliche Probleme aufmerksam machen, oder um Kollisionen dadurch zu verhindern, dass sie Sicherungen implementieren und die Steuerung des Fahrzeugs übernehmen. In autonomen Fahrzeugen liefern die Fahrunterstützungssysteme eine Eingabe, um eine Steuerung des Fahrzeugs durchzuführen. Adaptive Merkmale können eine Beleuchtung automatisieren, für eine adaptive Geschwindigkeitsregelung sorgen, ein Bremsen automatisieren, Verkehrswarnungen einbeziehen, sich mit Smartphones verbinden, den Fahrer z.B. auf andere Autos oder unterschiedliche Arten von Gefahren aufmerksam machen, das Fahrzeug auf dem richtigen Fahrstreifen halten oder zeigen, was sich in toten Winkeln befindet. Fahrunterstützungssysteme einschließlich der oben genannten Fahrerassistenzsysteme stützen sich häufig auf Eingaben aus mehreren Datenquellen, wie beispielsweise Automotive Imaging, Bildverarbeitung, Radarsensoren, LiDAR, Ultraschallsensoren und anderen Quellen. Seit kurzem werden neuronale Netze in die Verarbeitung solcher Dateneingaben innerhalb von Fahrerassistenzsystemen, oder allgemein in Fahrunterstützungssysteme einbezogen.
In jüngerer Zeit wird verstärkt an Deep-Boltzmann-Maschinen (DBMs) und neuronalen Faltungsnetzen (Convolution Neural Networks, CNNs) geforscht. Ihre Planung und Ausführung wird durch die Zunahme der Rechenleistung in Computerarchitekturen und die Verfügbarkeit großer annotierter Datensätze begünstigt.
Eine Deep-Boltzmann-Maschine (DBM) ist ein stochastisches Hopfield-Netz mit verborgenen Schichten. Ein Hopfield-Netz ist ein auf Energie basierendes Modell. Während das Hopfield-Netz als inhaltlich adressierbares Speichersystem verwendet wird, lernt die Boltzmann-Maschine, ihrer Eingaben darzustellen. Sie ist ein generatives Modell, das heißt, sie lernt die allgemeine Wahrscheinlichkeitsverteilung all ihrer Eingaben. Sobald die Boltzmann-Maschine ihre Eingabe gelernt hat (d.h. wenn sie ein thermisches Gleichgewicht erreicht hat), bildet die Konfiguration aus Gewichten an den (mehreren) verborgenen Schichten eine Darstellung der Eingaben, die an der sichtbaren Schicht präsentiert werden. RBMs sind beschränkte Boltzmann-Maschinen, wobei die Beschränkung darin besteht, dass die Neuronen einen zweiteiligen Graphen mit keinen schichtinternen Verbindungen bilden. Diese Beschränkung gestattet die Verwendung des hocheffizienten Contrastive-Divergence-Algorithmus. Eine Deep-Boltzmann-Maschine (DBM) ist ein Stapel von RBMs. Ein DBN (Deep Belief Net) enthält ebenfalls RBMs, aber es weist RBMs nur in den zwei obersten Schichten auf, und die Schichten darunter sind Sigmoid-Belief-Netze, die gerichtete grafische Modelle sind. Im Gegensatz dazu ist die DBM ein ganz und gar ungerichtetes grafisches Modell.
Neuronale Faltungsnetze (CNNs) sind äußerst erfolgreich bei der Klassifizierung und Kategorisierung von Aufgaben, aber ein großer Teil der Forschung betrifft photometrische Standard-RGB-Bilder und ist nicht auf eingebettete Vorrichtungen in Kraftfahrzeugen gerichtet. Hardware-Vorrichtungen in Kraftfahrzeugen müssen einen geringen Leistungsaufnahmebedarf und somit eine geringe Rechenleistung haben.
Im maschinellen Lernen ist ein neuronales Faltungsnetz eine Klasse tiefer, vorwärts verknüpfter künstlicher neuronaler Netze, die mit Erfolg auf die Analyse visueller Bildinhalte angewendet wird. CNNs verwenden eine Reihe verschiedener mehrschichtiger Perzeptrons, die so ausgelegt sind, dass sie eine nur minimale Vorverarbeitung brauchen. Faltungsnetze wurden durch biologische Prozesse inspiriert, wobei das Verbindungsmuster zwischen Neuronen von der Organisation des visuellen Cortex von Lebewesen inspiriert ist. Individuelle Neuronen im Kortex antworten auf Stimuli nur in einer beschränkten Region des Gesichtsfelds, dem sogenannten rezeptiven Feld. Die rezeptiven Felder verschiedener Neuronen überschneiden einander zum Teil, so dass sie das gesamte Gesichtsfeld abdecken.
CNNs verwenden relativ wenig Vorverarbeitung im Vergleich zu anderen Bildklassifizierungsalgorithmen. Das bedeutet, dass das Netz die Filter lernt, die in traditionellen Algorithmen menschengemacht waren. Diese Unabhängigkeit von vorhandenem Wissen und menschlichem Bemühen beim Entwerfen von Merkmalen ist ein Riesenvorteil. CNNs kommen bei der Bild- und Videoerkennung, in Empfehlungsdiensten und bei der Verarbeitung natürlicher Sprache zum Einsatz.
Bei den hierin beschriebenen Verfahren kann eine Szeneklassifizierung z.B. auf Basis einer Unterscheidung zwischen einer oder allen der folgenden drei Kategorien durchgeführt werde.
a. Szenetypen

i. Ländliche Gegend
ii. Stadt
iii. Parkplatz im Freien
iv. Parkplatz im Untergeschoss eines Einkaufszentrums

b. Wetterbedingungen

i. Schnee
ii. Sonnenschein

c. Szenedichte

i. Gering
ii. Dicht/ereignisreiche Szene

Die obige Klassifikation kann von einer Schicht verwendet werden, die über alle Algorithmen in einem Computervisionsprodukt läuft. Die Klassifikation kann somit verwendet werden:

a) zum Bestimmen der Aktivierungslogik einer Algorithmusvariante. Beispielsweise kann eine 3-dimensionale Objekterkennung (3DOD) einen Algorithmus für inhaltsarme Szenen aufweisen, der den größten Teil der Zeit über ausgeführt wird und der weniger Ressourcen (CPU, Speicher) verbraucht, und kann ferner eine intensive Variante für inhaltsreiche Szenen aufweisen. Wenn also der „Master-/weisungsbefugte Algorithmus“ weiß, dass die Szene inhaltsreich oder inhaltsarm ist, kann er die entsprechende Variante des 3DOD-Algorithmus aktivieren.
b) Außerdem sind Schnee und Regen bekanntermaßen schwierige Bedingungen für Computervisionsalgorithmen. Für den Algorithmus sind sie noch schwieriger, weil er für sonniges Wetter und für Schneebedingungen die gleiche Konfiguration und die gleichen Lernparameter haben muss. Wenn der weisungsbefugte Algorithmus jedoch weiß, dass die Szene verschneit, regnerisch oder sonnig ist, kann er unterschiedliche Varianten von 3DOD, Fußgängererkennung (Pedestrian Detection, PD), Stellplatzmarkierungserkennung (Parking Slot Marker Detection, PSMD) und so weiter aktivieren, während jede dieser Varianten nur lernt, mit einer einzigen Wetterbedingung umzugehen.
c) Ebenso unterscheiden sich Stellplätze im Freien für einen Stellplatzmarkierungserkennungalgorithmus sehr stark von Stellplätzen in einem Untergeschoss unter der Erde, wo überall künstliches Licht herrscht. Unter der Anleitung eines weisungsbefugten Algorithmus und eines Szeneklassifizierungsalgorithmus muss der PSMD-Algorithmus dann nur ein einziges Szenario lernen, das aber gründlich.

In diesem Zusammenhang offenbart US 2007/0282506 A1 ein Verfahren zum Verarbeiten von Bildern für Fahrzeuganwendungen, das Umrisse von Objekten in Bildern bestimmt und diese Daten in ein neuronales Netz einspeist, das eine Klassifizierung, Identifizierung und/oder Lokalisierung eines Objekts leisten kann. Das Verfahren umfasst die Schritte des Erfassens von Informationen über Objekte in einer Umgebung in oder um ein Fahrzeug, was umfasst, das ein Mustererkennungsalgorithmus, beispielsweise ein neuronales Netz, darauf trainiert wird, Informationen über Objekte in der Umgebung bereitzustellen, nachdem es als Eingabe Informationen über Umrisse unbekannter Objekte empfangen hat, das Installieren des Mustererkennungsalgorithmus in einem Prozessor an dem Fahrzeug, das betriebsmäßige Erfassen von Bildern der Umgebung, das Ableiten von Daten über Umrisse von Objekten in den erfassten Bildern und das Bereitstellen der Daten am Mustererkennungsalgorithmus in dem Prozessor, um als Ausgabe Informationen über das Objekt, beispielsweise eine Klassifizierung, Identifizierung und/oder Lokalisierung eines Objekts zu empfangen.
US 2008/0144944 A1 offenbart ein Verfahren zum Erfassen von Informationen über etwas bzw. jemanden, das bzw. der Platz in einem Fahrzeug einnimmt, beispielsweise einen Menschen, was das Erfassen von Bildern eines Bereichs oberhalb eines Sitzes in dem Fahrzeug, auf dem sich etwas oder jemand befindet, und das Klassifizieren von dem, was sich dort befindet, umfasst, durch Eingeben von Signalen, die aus dem Bild abgeleitet werden, in eine Form eines trainierten neuronalen Netzes, das darauf trainiert ist, eine Angabe zur Klasse von dem, was sich dort befindet, aus einer vorgegebenen Anzahl möglicher Klassen auszugeben. Die Bilder können vorverarbeitet werden, um Hintergrundabschnitte des Bildes zu entfernen, und dann in Signale umgewandelt werden, die in die Form des neuronalen Netzes eingegeben werden.
Fahrunterstützungssysteme wie Fahrerassistenzsysteme sind eines der am schnellsten wachsenden Segmente auf dem Gebiet der Kraftfahrzeugelektronik, und es besteht ein Bedarf an verbesserten Verfahren und Systemen für eine Bildverarbeitung in F ah ru nterstützu ngs-Assistenzsystemen.
Ausgehend von dem oben genannten Stand der Technik liegt der Erfindung somit die Aufgabe zugrunde, Verfahren anzugeben, mit denen Szenen in Fahrunterstützungssystemen genauer klassifiziert werden können als mit heutigen Verfahren und Szenen besser klassifiziert werden können, um manuell erstellte Merkmale, die als Eingabe verwendet werden, überflüssig zu machen.
Die Lösung der Aufgabe erfolgt erfindungsgemäß durch den Gegenstand der unabhängigen Ansprüche. Bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen beschrieben.
Erfindungsgemäß ist somit ein Verfahren angegeben zum Klassifizieren von Bildszenen bei einer Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs, welches die folgenden Schritte umfasst:

- räumliches Ordnen von Regionen des Bildes durch Bilden von Clustern aus Bildpixeln in Regionen mit großer klassenübergreifender Varianz und geringer klasseninterner Varianz,
- Modellieren der zugrundeliegenden allgemeinen Wahrscheinlichkeitsverteilung der einzelnen Szenekategorien unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als generatives Modell, das einen Stapel von beschränkten Boltzmann-Maschinen (RBM) und einen Klassifizierer wie eine Radialbasis-Filterunterstützungs-Vektormaschine (Radial Basis Filter Support Vector Machine, RBF-SVM), ein zweites CNN oder eine Softmax-Schicht als abschließende Schicht umfasst, und
- Klassifizieren der Szene auf Basis des Lernergebnisses der Deep-Boltzmann-Maschine (DBM).

Somit ist eine grundlegende Idee dieser Ausführungsform der Erfindung, die folgenden drei Hauptschritte auf einzigartige Weise zu kombinieren: räumliches Ordnen von Regionen des Bildes, Modellieren der zugrundeliegenden allgemeinen Wahrscheinlichkeitsverteilung mit einem generativen Modell, d.h. der Deep-Boltzmann-Maschine (DBM), und dann Klassifizieren von Szenen auf Basis dieses generativen Modells. Ein Vorteil der Erfindung besteht darin, dass kein Verlust an Regionsordnung stattfindet (d.h. dass unwahrscheinliche Erklärungen für eine Szene verworfen werden), die eine große Menge an Informationen enthält, die für die Klassifizierung von Szenen nützlich sind, z.B. „Himmel über Erde“, „Straße unter Himmel“ und „Baumwipfel über Straße“. Das menschliche Gehirn verwendet solche Informationen, um eine Szene zu verstehen und um die unwahrscheinlichen Erklärungen für das Gesehene zu verwerfen.
Außerdem verwendet die Erfindung ein nicht weisungsgebundenes, generatives Modell, d.h. die Deep-Boltzmann-Maschine (DBM), was den Vorteil bringt, dass die notwendige Menge an markierten Daten verringert ist. Markierte Daten werden nur zur Feinabstimmung der DBM verwendet. Somit sind nur sehr wenige annotierte Daten nötig, wodurch die Kosten erheblich sinken und der Annotationsaufwand reduziert ist. Ein weiterer Vorteil dessen, dass die Erfindung eine DBM nutzt, besteht darin, dass das Verfahren in größerem Umfang auf einen breiteren Aufgabenbereich angewendet werden kann, was bedeutet, dass man nicht den teuren Schritt der Annotierung von Bildern durchlaufen muss, um diese auf eine andere Aufgabe, z.B. eine Segmentierung, anwenden zu können. Außerdem stehen viel mehr Transformationen (z.B. Beleuchtung, Perspektive und Verdeckung) von Szenen zur Verfügung als annotierte Daten zur Hand sind. Angesichts dessen wird ein generatives Modell, d.h. die DBM, mit größerer Wahrscheinlichkeit eine bessere Klassifizierung leisten. Ferner bietet die Verwendung eines nicht weisungsgebundenen, generativen Verfahrens den weiteren Vorteil, dass eine viel bessere und umfassendere Darstellung ermöglicht wird, da insbesondere im Hinblick auf eine Szeneklassifikation zahlreiche Kombinationen existieren, aus denen die gleiche Szene bestehen kann, z.B. i) kann eine Szene eine Schnellstraße bei Nacht sein, die aus vielen Kombinationen von Regionen und von Merkmalen bestehen kann, ii) gibt es auch eine große Menge an Überschneidungen zwischen verschiedenen Arten von Szenen, und diese Überschneidungen werden durch eine vom Menschen erstellte Annotation nicht so gut erfasst wie durch Lernen der zugrunde liegenden Wahrscheinlichkeitsverteilungen verschiedener Szenen, iii) weisen die für eine Szeneklassifizierung zur Verfügung stehenden annotierten Daten wahrscheinlich keine ausreichende Darstellung auf.
Vorzugsweise umfasst das räumliche Ordnen von Regionen des Bildes das Verwenden eines oder mehrerer Region-Deskriptoren, um eine semantisch unkorrelierte einfache Darstellung der einzelnen Regionen zu erfassen auf Basis der Merkmale i) Gabor-Filter, ii) der Farbraummerkmale Farbwert, Farbsättigung und Hellwert (Hue, Saturation and Value, HSV) und iii) von Gleichzeitigkeitsmerkmalen, die Haralick-Merkmale sind, die aus der Graustufen-Gleichzeitigkeitsmatrix (GLCM) abgeleitet werden.
Die erfasste einfache Darstellung jeder Region ist semantisch unkorreliert, weil die oben genannten verwendeten Merkmale i), ii) und iii) in einem semantischen Sinn nicht miteinander korreliert sind. Das i) Gabor-Filter ist ein lineares Filter, das für eine Texturanalyse verwendet wird und das analysiert, ob irgendein spezifischer Frequenzinhalt in dem Bild in spezifischen Richtungen in einer lokal begrenzten Region um den analysierten Punkt oder die analysierte Region vorhanden ist. Frequenz- und Ausrichtungsdarstellungen von Gabor-Filtern wurden als Merkmal nachgewiesen, das für das menschliche Sehen verwendet wird. Der ii) HSV-Farbraum ist ein Farbraum, der die Lokalisierung einer Farbe anhand der Merkmale Farbwert, Farbsättigung und Hellwert definiert.
Die iii) Gleichzeitigkeitsmerkmale können für Statistiken über eine regionsinterne Gleichzeitigkeit (Mittelwert und Bereichswert) verwendet werden, wobei diese Merkmale aus der Gruppe ausgewählt sind, die aus Bogensekundenmoment, Kontrast, Summendurchschnitt, Summenvarianz und Differenzvarianz besteht.
Die Fahrunterstützungssysteme einschließlich von Fahrerassistenzsystemen sind Systeme, die bereits bekannt sind und die in Fahrzeugen des Standes der Technik verwendet werden. Die entwickelten Fahrunterstützungssysteme werden bereitgestellt, um Fahrzeugsysteme aus Gründen der Sicherheit und für ein besseres Fahren zu automatisieren, anzupasssen und zu verbessern. Sicherheitsmerkmale werden entworfen, um Kollisionen und Unfälle dadurch zu verhindern, dass sie Technologien bieten, die den Fahrer auf mögliche Probleme aufmerksam machen, oder um Kollisionen dadurch zu verhindern, dass sie Sicherungen implementieren und die Steuerung des Fahrzeugs übernehmen. In autonomen Fahrzeugen liefern die Fahrunterstützungssysteme eine Eingabe, um eine Steuerung des Fahrzeugs durchzuführen. Adaptive Merkmale können eine Beleuchtung automatisieren, eine adaptive Geschwindigkeitsregelung, ein automatisches Bremsen bereitstellen, Verkehrswarnungen einbeziehen, sich mit Smartphones verbinden, den Fahrer z.B. auf andere Autos oder unterschiedliche Arten von Gefahren aufmerksam machen, das Fahrzeug auf dem richtigen Fahrstreifen halten oder zeigen, was sich in toten Winkeln befindet. Fahrunterstützungssysteme einschließlich der oben genannten Fahrerassistenzsysteme stützen sich häufig auf Eingaben aus mehreren Datenquellen, wie beispielsweise Automotive Imaging, Bildverarbeitung, Radarsensoren, LiDAR, Ultraschallsensoren und anderen Quellen.
Ferner umfasst gemäß einer bevorzugten Ausführungsform der Erfindung das räumliche Ordnen von Regionen des Bildes ferner das Hinzufügen von Raumbeziehungen zwischen einander benachbarten Regionen, um einen Deskriptor für eine räumlich geordnete Region (Spatially Ordered Region Descriptor, SORD) zu schaffen, wobei weitere Haralick-Merkmale verwendet werden, die ausgewählt sind aus der Gruppe bestehend aus dem Mittelwert und dem Bereichswert von iv) Korrelation, v) Entropie, vi) Summenvarianz, vii) Differenzvarianz und (vii) Informationskorrelationsmessungen.
Vorzugsweise umfasst der Deskriptor für eine räumlich geordnete Region (SORD) die Merkmale i) Gabor-Filter, ii) die Farbraummerkmale Farbwert, Farbsättigung und Hellwert (HSV), iii) Gleichzeitigkeitsmerkmale, iv) Korrelation, v) Entropie, vi) Summenvarianz, vii) Differenzvarianz und viii) Informationskorrelationsmessungen. Das bedeutet, dass die oben genannten acht Merkmale dem Region-Deskriptor hinzugefügt werden, um ihn in den SORD umzuwandeln.
Der Deskriptor für eine räumlich geordnete Region (SORD) kann die Eingabe für die Neuronen der sichtbaren Schicht der Deep-Boltzmann-Maschine (DBM) sein, wenn die zugrundeliegende allgemeine Wahrscheinlichkeitsverteilung jeder Szenekategorie modelliert wird, an die sich eine Verarbeitung durch einen Stapel beschränkter Boltzmann-Maschinen (RBMs) anschließt, welche die zugrundeliegenden allgemeinen Wahrscheinlichkeitsverteilungen jeder Szenekategorie lernen.
Vorzugsweise wird die Klassifizierung der Szene durch eine Softmax-Schicht am oberen Ende des Stapels beschränkter Boltzmann-Maschinen (RBMs) vorgenommen. Das bedeutet, dass die DBM oben vorzugsweise mit einer Softmax-Schicht abschließt, um die Klassifizierung der Szene durchzuführen. Sobald der RBM-Stapel die zugrundeliegenden Wahrscheinlichkeitsverteilungen jeder Szenekategorie gelernt hat, nimmt die oben hinzugefügte Softmax-Schicht die eigentliche Klassifizierung vor. Anstelle der Softmax-Schicht kann auch eine RBF-SVM oder ein CNN für die Klassifizierung verwendet werden. Die abschließende Klassifizierungsschicht benötigt einen wesentlich kleineren Trainingssatz, da ihre Gewichte durch die Ausgabe der DBM initialisiert werden und somit nur eine Feinabstimmung für die spezifischen Szenekategorien in der angestrebten Anwendung benötigen.
Erfindungsgemäß ist außerdem ein Verfahren angegeben zum Klassifizieren von Bildszenen bei einer Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs, welches die folgenden Schritte umfasst:

- Bereitstellen eines neuronalen Faltungsnetzes (CNN), das mehrere Schichten umfasst, um zu lernen, welche Merkmale des Bildes für die Klassifizierung von Szenen am besten geeignet sind, wobei mehrere Auflösungen von Merkmalen erzeugt werden, um Details von Merkmalen bei einer höheren Auflösung und das „große Ganze“ bei einer geringeren Auflösung zu erfassen,
- Modellieren der allgemeinen Wahrscheinlichkeitsverteilung jeder einzelnen Szenekategorie unter Verwendung einer Deep-Boltzmann-Maschine (DBM), die einen Stapel beschränkter Boltzmann-Maschinen (RBM) und einen Klassifizierer wie eine Radialbasis-Filterunterstützungs-Vektormaschine (RBF-SVM), ein zweites CNN oder einfach eine Softmax-Schicht als letzte Schicht umfasst, wobei die Ausgabe jeder Schicht des neuronalen Faltungsnetzes (CNN) in die sichtbare Schicht der Deep-Boltzmann-Maschine (DBM) als separate Eingabe eingegeben wird, gefolgt davon, dass der Stapel von beschränkten Boltzmann-Maschinen (RBM) die zugrundeliegende Wahrscheinlichkeitsverteilung jeder Szenekategorie lernt, und
- Klassifizieren der Szene auf Basis des Lernergebnisses der Deep-Boltzmann-Maschine (DBM).

Die Kombination aus einem CNN mit einer DBM in einem Verfahren zum Klassifizieren von Bildszenen bei der Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs ist einmalig und bietet mehrere Vorteile. Es ist ein besonderer Vorteil dieser Ausführungsform der Erfindung, dass Merkmale, die als Eingabe für die DBM verwendet werden, nicht manuell bestimmt werden, sondern vom CNN als die am besten geeigneten Merkmale erkannt werden, wodurch Kosten und Aufwand erheblich verringert werden. Außerdem verwendet diese Ausführungsform der Erfindung ein einziges CNN bei mehreren Auflösungen. Die Merkmale bei einer höheren Auflösung erfassen Details, während die Merkmale, die bei einer niedrigeren Auflösung gelernt werden, das „große Ganze“ erfassen, d.h. die Informationen in dem Bild auf Regionsebene und auf Szeneebene. Das eine CNN stellt diese Merkmale bei mehreren Auflösungen oder Skalierungen bereit. Da die Bilder mit der niedrigeren Auflösung das „große Ganze“ erfassen, stellt ein CNN, das bei dieser Auflösung trainiert wird und bei dieser niedrigen Auflösung eine Inferenz durchführt, die Merkmale der Regionsebene und der Szeneebene an der DBM bereit, die dann die Szeneklassifizierung in ihrer Softmax-Schicht durchführt, die an ihrem oberen Ende hinzugefügt ist.
Außerdem weist die DBM Vorteile gegenüber einem DBN (Deep Belief Network) dahingehend auf, dass das DBN ein DAG (ein gerichtetes azyklisches grafisches Modell) ist, während die DBM ein ungerichtetes grafisches Modell ist. Anders als bei DBNs kann der Vorgang der näherungsweise durchgeführten Inferenz in DBMs zusätzlich zu einer anfänglichen Weitergabe von unten nach oben eine Rückmeldung von oben nach unten beinhalten, wodurch DBMs Unsicherheiten über uneindeutige Eingaben besser propagieren und somit robuster damit umgehen können. Durch gieriges schichtenweise ablaufendes Vorab-Training kann diese Ausführungsform der Erfindung außerdem eine schnelle näherungsweise Inferenz in DBMs erreichen. Das heißt, da ein Datenvektor auf den sichtbaren Einheiten gegeben ist, kann jede Schicht verborgener Einheiten in einem einzigen Durchgang von unten nach oben durch Verdoppeln der von unten nach oben erfolgenden Eingabe, um den Verlust von Feedback von oben nach unten auszugleichen (außer für die oberste Schicht, die keine Eingabe von oben nach unten aufweist), aktiviert werden. Diese schnelle näherungsweise Inferenz wird verwendet, um die Molekularfeldmethode zu initialisieren, die wesentlich schneller konvergiert als bei einer zufälligen Initialisierung.
In dieser Ausführungsform der Erfindung wird eine Szeneklassifizierung unter Verwendung eines CNN verwirklicht, das lernt, welche Merkmale für die Klassifizierung von Szenen in einem Bild am besten geeignet sind, wobei ein CNN mit mehreren Auflösungen verwendet wird, um Details und das „große Ganze“ als separate Eingaben zu erfassen, gefolgt von einer Modellierung der allgemeinen Wahrscheinlichkeitsverteilung jeder Szenekategorie unter Verwendung einer DBM, an die sich dann eine Klassifizierung der Szenen auf Basis des Lernergebnisses der DBM anschließt, das auf Basis der Eingaben der separaten Schichten des CNN erzeugt worden ist.
Somit kann diese Ausführungsform der Erfindung als hybrides CNN-DBM-Modell beschrieben werden, in dem eine DBM die gegenseitigen Beziehungen zwischen Regionen und Mehrfachauflösungsmerkmale derselben Region mit einem nicht weisungsgebundenen, generativen Verfahren auf Basis der separaten Eingaben der verschiedenen Schichten des CNN lernt. Das bedeutet, dass die DBM eine interne Darstellung der Szenekategorie unter Verwendung von Merkmalen bei mehreren Auflösungen lernt, die aus dem Bild extrahiert werden und die von den einzelnen Schichten des CNN as separate Eingaben in die sichtbare Schicht der DBM eingespeist werden. Anders ausgedrückt wird die Ausgabe jeder Schicht des CNN separat in die sichtbare Schicht der DBM eingespeist, woran sich dann ein Lernen der zugrundeliegenden Wahrscheinlichkeitsverteilung jeder Szenekategorie durch den Stapel beschränkter Boltzmann-Maschinen (RBM) anschließt, gefolgt von einer Klassifizierung der Szene auf Basis des Lernergebnisses der DBM. Die Architektur dieses hybriden CNN-DBM-Modells der Erfindung ermöglicht der DBM nicht zur das Lernen der gegenseitigen Beziehungen zwischen Regionen in einer Szene, sondern auch das Lernen der gegenseitigen Beziehungen zwischen Mehrfachauflösungsmerkmalen derselben Regionen. Dies ist ein Hauptvorteil der Ausführungsform der Erfindung gegenüber rein diskriminativen Netzen.
Somit wird in diesem hybriden CNN-DBM-Modell der Erfindung das primäre Modellieren von Szenekategorien von einem nicht weisungsgebundenen, generativen Verfahren, d.h. der DBM, durchgeführt, wodurch a. natürlicherweise eine Darstellung bereitgestellt wird, die eine Beziehung zwischen Merkmalen beinhaltet.
Die DBM lernt die allgemeine Wahrscheinlichkeitsverteilung all dieser Eingaben. Die DBM-Eingaben bestehen aus den diskriminativen Merkmalen, die auf unterschiedlichen Abstraktionsstufen gelernt werden. Die Architektur dieses hybriden CNN-DBM-Modells der Erfindung ermöglicht der DBM nicht nur das Lernen der gegenseitigen Beziehungen zwischen Regionen in einer Szene, sondern auch das Lernen der gegenseitigen Beziehungen zwischen Mehrfachauflösungsmerkmalen derselben Regionen; b. eine wesentlich bessere, umfassendere Darstellung ermöglicht wird, da es insbesondere im Hinblick auf eine Szeneklassifikation zahlreiche Kombinationen gibt, aus denen die gleiche Szene bestehen kann;

i. beispielsweise kann die Szene eine Schnellstraße bei Nacht sein, die aus zahlreichen Kombinationen von Regionen und Merkmalen bestehen kann.
ii. gibt es auch viele Überschneidungen zwischen unterschiedlichen Arten von Szenen, und diese Überschneidungen werden durch die Annotation durch den Menschen nicht ebenso gut erfasst wie dies durch Lernen der zugrundeliegenden Wahrscheinlichkeitsverteilung verschiedener Szenen möglich ist.

Vorzugsweise wird das neuronale Faltungsnetz (CNN) unter Verwendung weisungsgebundenen Trainings und markierter Daten vorab trainiert, wobei die Klassifizierung der Szene von einer temporären Softmax-Schicht als letzter Schicht der Deep-Boltzmann-Maschine (DBM) vorgenommen wird, wobei die temporäre Softmax-Schicht entfernt wird, nachdem das neuronale Faltungsnetz (CNN) die Merkmale gelernt hat, woran sich das Einspeisen der Ausgabe jeder Schicht des neuronalen Faltungsnetzes (CNN) in die sichtbare Schicht der Deep-Boltzmann-Maschine (DBM) als separate Eingabe anschließt.
Gemäß einer bevorzugten Ausführungsform der Erfindung wird die Deep-Boltzmann-Maschine (DBM) ferner unter Verwendung von gierigem schichtenweise stattfindendem Vorabtraining vorab trainiert, um die interne Darstellung der Kombination aus mehreren Merkmalen in einer Szene und von Mehrfachauflösungs-Merkmalen derselben Region zu lernen, woran sich das Hinzufügen der Softmax-Schicht und deren Vorabtraining unter Verwendung markierter Daten anschließt.
Vorzugsweise wird die Klassifizierung der Szene durch eine Softmax-Schicht am oberen Ende des Stapels beschränkter Boltzmann-Maschinen (RBMs) vorgenommen. Anders ausgedrückt schließt die DBM vorzugsweise mit einer Softmax-Schicht ab, wo die Klassifizierung der Szene auf Basis des Lernergebnisses der DBM durchgeführt wird, nachdem der Stapel von RBMs die zugrundeliegenden Wahrscheinlichkeitsverteilungen jeder Szenekategorie gelernt hat. Anstelle der Softmax-Schicht kann auch eine RBF-SVM oder ein CNN für die Klassifizierung verwendet werden. Die abschließende Klassifizierungsschicht benötigt einen wesentlich kleineren Trainingssatz, da ihre Gewichte durch die Ausgabe der DBM initialisiert werden und somit nur eine Feinabstimmung für die spezifischen Szenekategorien in der angestrebten Anwendung benötigen.
Die Erfindung gibt auch die Verwendung der hierin beschriebenen Verfahren in einem Fahrunterstützungssystem eines Kraftfahrzeugs an. Genauer gibt die Erfindung die Verwendung der oben beschriebenen Verfahren zum Klassifizieren von Bildszenen bei der Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs an.
Die Erfindung gibt ferner ein Fahrunterstützungssystem für ein Kraftfahrzeug an, das eine Kamera umfasst, um Bilder für die Klassifizierung bereitzustellen, wobei das Fahrunterstützungssystem dafür ausgelegt ist, die hierin beschriebenen Verfahren durchzuführen.
Die Erfindung gibt ferner ein nichtflüchtiges computerlesbares Medium an, auf dem Befehle gespeichert sind, die, wenn sie an einem Prozessor ausgeführt werden, bewirken, dass ein Fahrunterstützungssystem die hierin beschriebenen Verfahren durchführt.
Die Erfindung gibt auch ein Kraftfahrzeug an, das umfasst:

eine Datenverarbeitungseinrichtung,
ein nichtflüchtiges computerlesbares Medium, auf dem Befehle gespeichert sind, die, wenn sie an einem Prozessor ausgeführt werden, bewirken, dass ein Fahrunterstützungssystem die hierin beschriebenen Verfahren durchführt, und
ein Fahrunterstützungssystem für ein Kraftfahrzeug, das eine Kamera umfasst, um Bilder für die Klassifizierung bereitzustellen, wobei das Fahrunterstützungssystem dafür ausgelegt ist, die hierin beschriebenen Verfahren durchzuführen.

Nachfolgend wird die Erfindung unter Bezugnahme auf die anliegende Zeichnung anhand bevorzugter Ausführungsformen näher erläutert. Die dargestellten Merkmale können sowohl jeweils einzeln als auch in Kombination einen Aspekt der Erfindung darstellen. Merkmale verschiedener Ausführungsbeispiele sind übertragbar von einem Ausführungsbeispiel auf ein anderes. Ausführungsformen der vorliegenden Offenbarung werden in den folgenden Beispielen näher beschrieben, die der Erläuterung dienen und die Erfindung in keiner Weise beschränken sollen.
Es zeigen:

1 eine schematische Ansicht eines Kraftfahrzeugs mit einem Fahrunterstützungssystem und einer Kamera gemäß einer ersten bevorzugten Ausführungsform der Erfindung.
2 eine schematische Ansicht der Klassifizierung eines Bildes bei einer Bildverarbeitung in einem Fahrunterstützungssystem des Kraftfahrzeugs gemäß der ersten Ausführungsform der Erfindung, und
3 eine schematische Ansicht einer zweiten Ausführungsform der Klassifizierung eines Bildes bei der Bildverarbeitung in einem Fahrunterstützungssystem eines Kraftfahrzeugs, das auf einem hybriden CNN-DBM-Modell basiert.

Beispiel 1
Die 1 zeigt schematisch ein Kraftfahrzeug 1 mit einem Fahrunterstützungssystem 2 und einer Kamera 3 gemäß einer ersten bevorzugten Ausführungsform der Erfindung. Die Kamera 3 liefert Bilder einer Szene, z.B. einer Schnellstraße bei Nacht, zur Klassifizierung durch das Fahrunterstützungssystem 2, das dafür ausgelegt ist, die Verfahren zum Klassifizieren von Bildszenen bei einer Bildverarbeitung durchzuführen wie hierin beschrieben.
Die 2 zeigt schematisch die Klassifizierung eines Bildes bei einer Bildverarbeitung in dem Fahrunterstützungssystem 2 eines Kraftfahrzeugs 1 gemäß einer bevorzugten Ausführungsform der Erfindung. Das Bild einer Szene, z.B. einer Schnellstraße bei Nacht, das von der Kamera 3 aufgenommen wird, wird durch Bilden von Gruppen aus den Bildpixeln in Regionen mit hoher klassenübergreifender Varianz und mit geringer klasseninterner Varianz räumlich geordnet.
Das räumliche Ordnen von Regionen des Bildes wird vorzugsweise unter Verwendung von Region-Deskriptoren durchgeführt, um eine semantisch unkorrelierte einfache Darstellung der einzelnen Regionen zu erfassen auf Basis der Merkmale i) Gabor-Filter, ii) der Farbraummerkmale Farbwert, Farbsättigung und Hellwert (Hue, Saturation and Value, HSV) und iii) von Gleichzeitigkeitsmerkmalen, die Haralick-Merkmale sind, die aus der Graustufen-Gleichzeitigkeitsmatrix (GLCM, innerhalb einer Region und zwischen Regionen) abgeleitet werden. Die erfasste einfache Darstellung jeder Region ist semantisch unkorreliert, weil die oben genannten verwendeten Merkmale i), ii) und iii) in einem semantischen Sinn nicht miteinander korreliert sind. Das i) Gabor-Filter ist ein lineares Filter, das für eine Texturanalyse verwendet wird und das analysiert, ob irgendein spezifischer Frequenzinhalt in dem Bild in spezifischen Richtungen in einer lokal begrenzten Region um den analysierten Punkt oder die analysierte Region vorhanden ist. Frequenz- und Ausrichtungsdarstellungen von Gabor-Filtern wurden als Merkmal nachgewiesen, das für das menschliche Sehen verwendet wird. Der ii) HSV-Farbraum ist ein Farbraum, der die Lokalisierung einer Farbe anhand der Merkmale Farbwert, Farbsättigung und Hellwert definiert.
Die iii) Gleichzeitigkeitsmerkmale werden für Statistiken über eine regionsinterne Gleichzeitigkeit (Mittelwert und Bereichswert) verwendet, wobei diese Merkmale aus der Gruppe ausgewählt sind, die aus Bogensekundenmoment, Kontrast, Summendurchschnitt, Summenvarianz und Differenzvarianz besteht. Das räumliche Ordnen der Regionen des Bildes wird ferner durch Hinzufügen von Raumbeziehungen zwischen einander benachbarten Regionen durchgeführt, um den Deskriptor für eine räumlich geordnete Region (Spatially Ordered Region Descriptor, SORD) zu schaffen, wobei weitere Haralick-Merkmale verwendet werden, die ausgewählt sind aus der Gruppe bestehend aus dem Mittelwert und dem Bereichswert von iv) Korrelation, v) Entropie, vi) Summenvarianz, vii) Differenzvarianz und (vii) Informationskorrelationsmessungen..
Der auf diese Weise geschaffene SORD umfasst die Merkmale i) Gabor-Filter, ii) die Farbraummerkmale Farbwert, Farbsättigung und Hellwert (HSV), und iii) Gleichzeitigkeitsmerkmale, iv) Korrelation, v) Entropie, vi) Summenvarianz, vii) Differenzvarianz und viii) Informationskorrelationsmessungen. Das bedeutet, dass die oben genannten acht Merkmale dem Region-Deskriptor hinzugefügt werden, um ihn in den SORD umzuwandeln.
Der SORD wird dann in die Neuronen der sichtbaren Schicht (die z.B. 1024 Einheiten aufweist) der DBM gespeist, gefolgt von einer Verarbeitung durch die verborgenen Schichten (eine verborgene Schicht 1 mit z.B. 512 Einheiten und eine verborgene Schicht 2 mit z.B. 256 Einheiten) der DBM, um die zugrundeliegende Wahrscheinlichkeitsverteilung jeder Szenekategorie zu modellieren. Die verborgenen Schichten der DBM sind ein Stapel von RBMs.
Der letzte Schritt der Klassifizierung der Szene wird dann von der abschließenden Softmax-Schicht, die z.B. 1000 Einheit aufweist, am oberen Ende der verborgenen Schichten (des RBM-Stapels) der DBM durchgeführt. Das bedeutet, dass die DBM oben mit einer Softmax-Schicht abschließt, um die Klassifizierung der Szene durchzuführen. Sobald der RBM-Stapel die zugrundeliegenden Wahrscheinlichkeitsverteilungen jeder Szenekategorie gelernt hat, nimmt die oben hinzugefügte Softmax-Schicht die eigentliche Klassifizierung vor.
Beispiel 2
Die 3 zeigt schematisch eine zweite Ausführungsform der Klassifizierung eines Bildes bei der Bildverarbeitung in einem Fahrunterstützungssystem 2 eines Kraftfahrzeugs 1, das auf einem hybriden CNN-DBM-Modell basiert. Das Bild einer Szene, z.B. einer Schnellstraße bei Nacht, das von der Kamera 3 aufgenommen wird, wird in ein CNN eingespeist, das mehrere Schichten (Schicht 1, Schicht 2, ..., Schicht n) umfasst, um zu lernen, welche Merkmale des Bildes für die Klassifizierung von Szenen am besten geeignet sind.
Mehrere Auflösungen von Merkmalen werden zur Erfassung der Details von Merkmalen bei einer höheren Auflösung ebenso wie als „großes Ganzen“ bei einer niedrigeren Auflösung erzeugt. Die Ausgabe jeder einzelnen Schicht des CNN wird dann in die sichtbare Schicht der DBM als separate Eingabe zum Modellieren der allgemeinen Wahrscheinlichkeitsverteilung jeder Szenekategorie eingespeist. Anders ausgedrückt verwendet diese Ausführungsform der Erfindung ein einziges CNN bei mehreren Auflösungen. Die Merkmale bei einer höheren Auflösung erfassen Details, während die Merkmale, die bei einer niedrigeren Auflösung erfasst werden, das „große Ganze“ erfassen, d.h. die Informationen in dem Bild auf Regionsebene und auf Szeneebene. Das eine CNN stellt diese Merkmale bei mehreren Auflösungen oder Skalierungen bereit. Da die Bilder mit der niedrigeren Auflösung das „große Ganze“ erfassen, stellt das CNN, das bei dieser Auflösung trainiert wird und bei dieser niedrigen Auflösung eine Inferenz durchführt, die Merkmale der Regionsebene und der Szeneebene an der DBM bereit.
Darauf folgt die Verarbeitung durch die verborgenen Schichten (verborgene Schicht 1, verborgene Schicht 2) der DBM. Die verborgenen Schichten der DBM sind ein Stapel von RBMs, welche die zugrundeliegende Wahrscheinlichkeitsverteilung jeder Szenekategorie lernen.
Das CNN wird unter Verwendung weisungsgebundenen Trainings und markierter Daten vorab trainiert, wobei die Klassifizierung der Szene von einer temporären Softmax-Schicht als letzter Schicht der DBM vorgenommen wird, wobei die temporäre Softmax-Schicht entfernt wird, nachdem das CNN die Merkmale gelernt hat, woran sich das Einspeisen der Ausgabe jeder Schicht des CNN in die sichtbare Schicht der DBM als separate Eingabe anschließt.
Die DBM wird ferner unter Verwendung von gierigem schichtenweise stattfindenden Vorabtrainings vorab trainiert, um die interne Darstellung der Kombination aus mehreren Merkmalen in einer Szene und von Mehrfachauflösungsmerkmalen derselben Region zu lernen, woran sich das Hinzufügen der Softmax-Schicht und deren Vorabtraining unter Verwendung markierter Daten anschließt.
Der letzte Schritt der Klassifizierung der Szene wird dann von der abschließenden Softmax-Schicht an der Oberseite der verborgenen Schichten (des RBM-Stapels) der DBM durchgeführt. Anders ausgedrückt schließt die DBM vorzugsweise mit einer Softmax-Schicht ab, wo die Klassifizierung der Szene auf Basis des Lernergebnisses der DBM durchgeführt wird, nachdem der Stapel von RBMs die zugrundeliegenden Wahrscheinlichkeitsverteilungen jeder Szenekategorie gelernt hat.
Bezugszeichenliste

1: Kraftfahrzeug
2: Fahrunterstützungssystem
3: Kamera

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2007/0282506 A1 [0014]
US 2008/0144944 A1 [0015]

Claims

Verfahren zum Klassifizieren von Bildszenen bei der Bildverarbeitung in einem Fahrunterstützungssystem (2) eines Kraftfahrzeugs (1), die folgenden Schritte umfassend: - räumliches Ordnen von Regionen des Bildes durch Bilden von Clustern aus Bildpixeln in Regionen mit großer klassenübergreifender Varianz und geringer klasseninterner Varianz, - Modellieren der zugrundeliegenden allgemeinen Wahrscheinlichkeitsverteilung der einzelnen Szenekategorien unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als generatives Modell, das einen Stapel von beschränkten Boltzmann-Maschinen (RBMs) und einen Klassifizierer wie eine Radialbasis-Filterunterstützungs-Vektormaschine (Radial Basis Filter Support Vector Machine, RBF-SVM), ein zweites CNN oder eine Softmax-Schicht als abschließende Schicht umfasst, und - Klassifizieren der Szene auf Basis des Lernergebnisses der Deep-Boltzmann-Maschine (DBM).
Verfahren nach Anspruch 1, wobei das räumliche Ordnen von Regionen des Bildes das Verwenden eines oder mehrerer Region-Deskriptoren umfasst, um eine semantisch unkorrelierte einfache Darstellung der einzelnen Regionen zu erfassen auf Basis der Merkmale i) Gabor-Filter, ii) der Farbraummerkmale Farbwert, Farbsättigung und Hellwert (Hue, Saturation and Value, HSV) und iii) von Gleichzeitigkeitsmerkmalen, die Haralick-Merkmale sind, die aus der Graustufen-Gleichzeitigkeitsmatrix (GLCM) abgeleitet werden.
Verfahren nach Anspruch 2, wobei die iii) Gleichzeitigkeitsmerkmale für Statistiken über eine regionsinterne Gleichzeitigkeit (Mittelwert und Bereichswert) verwendet werden, wobei diese Merkmale aus der Gruppe ausgewählt sind, die aus Bogensekundenmoment, Kontrast, Summendurchschnitt, Summenvarianz und Differenzvarianz besteht.
Verfahren nach einem der Ansprüche 2 oder 3, wobei das räumliche Ordnen von Regionen des Bildes ferner das Hinzufügen von Raumbeziehungen zwischen einander benachbarten Regionen umfasst, um einen Deskriptor für eine räumlich geordnete Region (Spatially Ordered Region Descriptor, SORD) zu schaffen, wobei weitere Haralick-Merkmale verwendet werden, die ausgewählt sind aus der Gruppe bestehend aus dem Mittelwert und dem Bereichswert von iv) Korrelation, v) Entropie, vi) Summenvarianz, vii) Differenzvarianz und (vii) Informationskorrelationsmessungen.
Verfahren nach Anspruch 4, wobei der Deskriptor für eine räumlich geordnete Region (SORD) die Merkmale i) Gabor-Filter, ii) die Farbraummerkmale Farbwert, Farbsättigung und Hellwert (HSV), und iii) von Gleichzeitigkeitsmerkmalen, iv) Korrelation, v) Entropie, vi) Summenvarianz, vii) Differenzvarianz und viii) Informationskorrelationsmessungen umfasst.
Verfahren nach Anspruch 4 oder 5, wobei der Deskriptor für eine räumlich geordnete Region (SORD) die Eingabe für die Neuronen der sichtbaren Schicht der Deep-Boltzmann-Maschine (DBM) ist, wenn die zugrundeliegende allgemeine Wahrscheinlichkeitsverteilung jeder Szenekategorie modelliert wird, an die sich eine Verarbeitung durch einen Stapel beschränkter Boltzmann-Maschinen (RBMs) anschließt, welche die zugrundeliegenden allgemeinen Wahrscheinlichkeitsverteilungen jeder Szenekategorie lernen.
Verfahren nach einem der vorstehenden Ansprüche, wobei das Klassifizieren der Szene durch eine Softmax-Schicht am oberen Ende des Stapels beschränkter Boltzmann-Maschinen (RBMs) vorgenommen wird.
Verfahren zum Klassifizieren von Bildszenen bei der Bildverarbeitung in einem Fahrunterstützungssystem (2) eines Kraftfahrzeugs (1), die folgenden Schritte umfassend: - Bereitstellen eines neuronalen Faltungsnetzes (CNN), das mehrere Schichten umfasst, um zu lernen, welche Merkmale des Bildes für die Klassifizierung von Szenen am besten geeignet sind, wobei mehrere Auflösungen von Merkmalen erzeugt werden, um Details von Merkmalen bei einer höheren Auflösung und das „große Ganze“ bei einer geringeren Auflösung zu erfassen, - Modellieren der allgemeinen Wahrscheinlichkeitsverteilung jeder einzelnen Szenekategorie unter Verwendung einer Deep-Boltzmann-Maschine (DBM), die einen Stapel beschränkter Boltzmann-Maschinen (RBMs) und einen Klassifizierer wie eine Radialbasis-Filterunterstützungs-Vektormaschine (RBF-SVM), ein zweites CNN oder eine Softmax-Schicht als letzte Schicht umfasst, wobei die Ausgabe jeder Schicht des neuronalen Faltungsnetzes (CNN) in die sichtbare Schicht der Deep-Boltzmann-Maschine (DBM) als separate Eingabe eingegeben wird, gefolgt davon, dass der Stapel von beschränkten Boltzmann-Maschinen (RBM) die zugrundeliegende Wahrscheinlichkeitsverteilung jeder Szenekategorie lernt, und - Klassifizieren der Szene auf Basis des Lernergebnisses der Deep-Boltzmann-Maschine (DBM).
Verfahren nach Anspruch 8, wobei das neuronale Faltungsnetz (CNN) unter Verwendung weisungsgebundenen Trainings und markierter Daten vorab trainiert wird, wobei die Klassifizierung der Szene von einer temporären Softmax-Schicht als letzter Schicht der Deep-Boltzmann-Maschine (DBM) vorgenommen wird, wobei die temporäre Softmax-Schicht entfernt wird, nachdem das neuronale Faltungsnetz (CNN) die Merkmale gelernt hat, woran sich das Einspeisen der Ausgabe jeder Schicht des neuronalen Faltungsnetzes (CNN) in die sichtbare Schicht der Deep-Boltzmann-Maschine (DBM) als separate Eingabe anschließt.
Verfahren nach Anspruch 8 oder 9, wobei die Deep-Boltzmann-Maschine (DBM) unter Verwendung von gierigem schichtenweise stattfindendem Vorabtraining vorab trainiert wird, um die interne Darstellung der Kombination aus mehreren Merkmalen in einer Szene und von Mehrfachauflösungsmerkmalen derselben Region zu lernen, woran sich das Hinzufügen der Softmax-Schicht und deren Vorabtraining unter Verwendung markierter Daten anschließt.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Klassifizieren der Szene durch eine Softmax-Schicht an der Oberseite des Stapels beschränkter Boltzmann-Maschinen (RBMs) vorgenommen wird.
Verwendung des Verfahrens nach einem der Ansprüche 1 bis 7 oder einem der Ansprüche 8 bis 11 in einem Fahrunterstützungssystem (2) eines Kraftfahrzeugs (1).
Fahrunterstützungssystem (2) für ein Kraftfahrzeug (1), eine Kamera (3) umfassend, um Bilder für die Klassifizierung bereitzustellen, wobei das Fahrunterstützungssystem (2) dafür ausgelegt ist, das Verfahren nach einem der Ansprüche 1 bis 7 oder einem der Ansprüche 8 bis 12 durchzuführen.
Nichtflüchtiges computerlesbares Medium (4), auf dem Befehle gespeichert sind, die, wenn sie an einem Prozessor ausgeführt werden, bewirken, dass ein Fahrunterstützungssystem (2) das Verfahren nach einem der Ansprüche 1 bis 7 oder einem der Ansprüche 8 bis 12 durchführt.
Kraftfahrzeug (1), aufweisend: eine Datenverarbeitungsvorrichtung (5), das nichtflüchtige, computerlesbare Medium (4) nach Anspruch 14, und das Fahrunterstützungssystem (2) nach Anspruch 13.