DE102017127170A1

DE102017127170A1 - Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug mit einem Fahrunterstützungssystem

Info

Publication number: DE102017127170A1
Application number: DE102017127170.8A
Authority: DE
Inventors: Jospeh Fernandenz
Original assignee: Connaught Electronics Ltd
Current assignee: Connaught Electronics Ltd
Priority date: 2017-11-17
Filing date: 2017-11-17
Publication date: 2019-05-23

Abstract

Die Erfindung betrifft ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug (1) mit einem Fahrunterstützungssystem (2) mit den Schritten:
- Bereitstellen von Merkmalen unter Verwendung eines oder mehrerer Detektoren mit mehreren Auflösungen,
- Modellieren der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung der Merkmale unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als ein generatives Modell, das ssRBM- (Spike and Slab Restricted Boltzmann-Maschine) Schichten aufweist, wobei die Merkmale als Eingabe für die DBM verwendet werden, und
- Klassifizieren der Merkmale durch a) eine Softmax-Schicht, die über den ssRBM-Schichten hinzugefügt ist, oder b) Verwenden von Gewichten oberer Schichten des DBM zum Initialisieren eines Klassifikators.

Description

Die Erfindung betrifft ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug mit einem Fahrunterstützungssystem, mit den Schritten:

- Bereitstellen von Merkmalen unter Verwendung eines oder mehrerer Detektoren mit mehreren Auflösungen,
- Modellieren der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung der Merkmale unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als ein generatives Modell, das ssRBM- (Spike and Slab Restricted Boltzmann-Maschine) Schichten aufweist, wobei die Merkmale als Eingaben für die DBM verwendet werden, und
- Klassifizieren der Merkmale durch a) eine Softmax-Schicht, die oben auf den ssRBM-Schichten hinzugefügt ist, oder b) Verwenden von Gewichten oberer Schichten der DBM zum Initialisieren eines Klassifikators.

Fahrunterstützungssysteme, wie beispielsweise Fahrerassistenzsysteme, sind Systeme, die entwickelt wurden, um Fahrzeugsysteme zu automatisieren, anzupassen und zu verbessern, um Sicherheit und ein besseres Fahrverhalten zu gewährleisten. Die Fahrunterstützungssysteme weisen Fahrerassistenzsysteme auf, die einen Fahrer beim Fahren des Fahrzeugs unterstützen. Der Fahrer ist jedoch für das Fahren des Fahrzeugs verantwortlich. Fahrerassistenzsysteme stellen z.B. Sicherheitsmerkmale bereit, die dafür ausgelegt sind, Kollisionen und Unfälle zu vermeiden, indem Technologien bereitgestellt werden, die den Fahrer auf mögliche Probleme aufmerksam machen oder Kollisionen vermeiden, indem in einer bestimmten Fahrsituation Sicherheitsmaßnahmen getroffen werden und die Kontrolle über das Fahrzeug übernommen wird. In autonomen Fahrzeugen stellen die Fahrunterstützungssysteme eine Eingabe bereit, um eine Steuerung des Fahrzeugs auszuführen. Adaptive Merkmale können die Beleuchtung automatisieren, eine adaptive Geschwindigkeitsregelung bereitstellen, Bremsvorgänge automatisieren, Verkehrswarnungen integrieren, mit Smartphones kommunizieren, Warnungen bezüglich anderen Fahrzeugen oder verschiedenartigen Gefahren ausgeben, das Fahrzeug in der korrekten Fahrspur halten oder anzeigen, was sich in toten Winkeln befindet. Diese Information wird verwendet, um die autonome Steuerung des Fahrzeugs an die jeweiligen Situationen anzupassen.
Fahrunterstützungssysteme, einschließlich der vorstehend erwähnten Fahrerassistenzsysteme, basieren häufig auf Eingaben von mehreren Umgebungssensoren, wie beispielsweise Fahrzeugkameras mit Bildverarbeitung, Radarsensoren, LIDAR-Systemen, Ultraschallsensoren und anderen Quellen. In jüngster Zeit wurden neuronale Netzwerke zum Verarbeiten derartiger Dateneingaben in Fahrerassistenzsystemen oder allgemein in Fahrunterstützungssystemen einbezogen.
In jüngster Zeit hat es einen Forschungsschub bezüglich Deep-Boltzmann-Maschinen (DBMs) und konvolutionellen neuronalen Netzwerken (CNNs) gegeben. Ihre Konstruktion wurde durch die Erhöhung der Rechenleistung in Computerarchitekturen und die Verfügbarkeit großer annotierter Datensätze unterstützt.
Eine Boltzmann-Maschine ist ein stochastisches Hopfield-Netzwerk mit verborgenen Schichten. Ein Hopfield-Netzwerk ist wiederum ein energiebasiertes Modell. Während aber das Hopfield-Netzwerk als inhalts-adressierbares Speichersystem verwendet wird, lernt die Boltzmann-Maschine ihre Eingaben darzustellen. Es ist ein generatives Modell, das heißt, es lernt die gemeinsame Wahrscheinlichkeitsverteilung aller seiner Eingaben und der (verborgenen) latenten Einheiten. Sobald die Boltzmann-Maschine diese gemeinsame Wahrscheinlichkeitsverteilung gelernt hat (d.h., wenn sie ein thermisches Gleichgewicht erreicht hat), bildet die Konfiguration von Gewichten bei den (mehreren) verborgenen Schichten eine Darstellung der an der sichtbaren Schicht dargestellten Eingaben. Bei RBMs (Restricted-Boltzmann-Maschinen) liegt die Beschränkung darin, dass die Neuronen hier einen bipartiten Graphen ohne intra-Schicht-Verbindungen bilden. Diese Beschränkung ermöglicht die Verwendung des hocheffizienten Contrastive-Divergence-Algorithmus für ein Training. Eine Deep-Boltzmann-Maschine ist ein Stapel von RBMs, der typischerweise mittels eines Greedy-Algorithmus für schichtweises Vortraining (Greedy Layer-wise Pretraining) trainiert wird.
Konvolutionelle neuronale Netzwerke (CNNs) sind bei Klassifizierungs- und Kategorisierungsaufgaben sehr erfolgreich, aber ein großer Teil der Forschung betrifft standardmäßige photometrische RGB-Bilder und konzentriert sich nicht auf eingebettete Vorrichtungen in Kraftfahrzeugen. Hardware für Kraftfahrzeuge muss einen geringen Energieverbrauch und somit eine geringe Rechenleistung haben.
Beim maschinellen Lernen ist ein konvolutionelles neuronales Netzwerk (CNN) eine Klasse tiefer künstlicher neuronaler Netzwerke mit Vorwärtskopplung, die bei der Analyse visueller Bilder erfolgreich angewendet wurden. CNNs verwenden eine Variation mehrschichtiger Perzeptronen, die derart konfiguriert sind, dass sie eine minimale Vorverarbeitung erfordern. Konvolutionelle Netzwerke wurden durch biologische Prozesse inspiriert, bei denen das Konnektivitätsmuster zwischen Neuronen durch die Organisation des visuellen Kortex des Tieres inspiriert ist. Einzelne kortikale Neuronen reagieren auf Stimuli nur in einem begrenzten Bereich des Gesichtsfeldes, der als das rezeptive Feld bekannt ist. Die rezeptiven Felder verschiedener Neuronen überlappen sich teilweise, so dass sie das gesamte Gesichtsfeld abdecken.
CNNs verwenden im Vergleich zu anderen Bildklassifizierungsalgorithmen eine relativ geringe Vorverarbeitung. Dies bedeutet, dass das Netzwerk die Filter lernt, die in herkömmlichen Algorithmen von Hand entwickelt wurden. Diese Unabhängigkeit von Vorwissen und menschlichem Arbeitsaufwand beim Merkmalsdesign ist von großem Vorteil. CNNs finden Anwendung in der Bild- und Videoerkennung, in Empfehlungssystemen und in der natürlichen Sprachverarbeitung.
Das erfindungsgemäße Verfahren ist ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug mit einem Fahrunterstützungssystem, vorzugsweise zum Zwecke der Vermeidung einer Kollision. Für das hierin beschriebene Verfahren kann eine Fahrzeugerfassung z.B. basierend auf den folgenden Anwendungsfällen ausgeführt werden:

a. Automatisiertes Parken:
1. i. um zu wissen, welche Parkplätze besetzt sind,
2. ii. um eine Kollision mit Fahrzeugen zu vermeiden,
3. iii. um ein Parkmanöver um ein Fahrzeug herum zu planen, wenn es im Weg steht.
b. Szenenklassifizierung (z.B. wenn das System durchgehend viele Fahrzeuge „sieht“, befindet sich das Ego-Fahrzeug wahrscheinlich in einer verkehrsreichen Verkehrsszene).

Das erfindungsgemäße Verfahren verwendet Kästen und Linien als Merkmale, da sich Kästen und Linien eher bei einem Fahrzeug als bei einem Baum oder einem Fußgänger finden. Das erfindungsgemäße Verfahren verwendet ein generatives Modell, das dazu geeignet ist, natürliche Bilder zu verarbeiten. Das generative Modell wird ermutigt, Merkmale mit über den Raum stabilen Auflösungen zu lernen.
Die US 2007/0282506 A1 offenbart ein Verfahren und ein System zum Erhalten von Information über Objekte in einer Umgebung in einem oder um ein Fahrzeug, das einen oder mehrere optische Abbildungseinrichtungen zum Erhalten von Bildern der Umgebung und einen mit der Abbildungseinrichtung verbundenen Prozessor zum Erhalten von Information über ein Objekt in einem oder mehreren der Bilder aufweist. Der Prozessor ist dafür eingerichtet, die erhaltenen Bilder zu verarbeiten, um Kanten von Objekten in den Bildern zu bestimmen und Daten über die Kanten in einen trainierten Mustererkennungsalgorithmus, wie beispielsweise ein neuronales Netzwerk, einzugeben, das trainiert worden ist, um Information über das Objekt als Ausgabe bereitzustellen. Das neuronale Netzwerk kann trainiert werden, um als Ausgabe eine Klassifizierung, eine Identifizierung und/oder einen Ort des Objekts bereitzustellen, das im oder um das Fahrzeug herum erfasst wurde.
Fahrunterstützungssysteme, wie beispielsweise Fahrerassistenzsysteme, sind eines der am schnellsten wachsenden Segmente in der Kraftfahrzeugelektronik, und es besteht Bedarf an verbesserten Verfahren und Systemen zur Fahrzeugerfassung für Kraftfahrzeuge, die derartige Fahrunterstützungssysteme aufweisen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug anzugeben, das ein Fahrunterstützungssystem aufweist, das dazu geeignet ist, Fahrzeuge genauer zu erfassen als herkömmliche Verfahren, und Fahrzeuge auf eine bessere Weise erfassen kann, um von Hand erzeugte Merkmale zu eliminieren, die als Eingaben verwendet werden.
Die Lösung dieser Aufgabe erfolgt durch den Gegenstand der unabhängigen Ansprüche. Bevorzugte Ausführungsformen sind in den Unteransprüchen beschrieben.
Die Erfindung stellt ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug bereit, das ein Fahrunterstützungssystem aufweist, mit den Schritten:

- Bereitstellen von Merkmalen unter Verwendung eines oder mehrerer Detektoren mit mehreren Auflösungen,
- Modellieren der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung der Merkmale unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als ein generatives Modell, das ssRBM- (Spike and Slab Restricted Boltzmann-Maschine) Schichten aufweist, wobei die Merkmale als Eingabe für die DBM verwendet werden, und
- Klassifizieren der Merkmale durch a) eine Softmax-Schicht, die oben auf den ssRBM-Schichten hinzugefügt ist, oder b) Verwenden von Gewichten oberer Schichten der DBM zum Initialisieren eines Klassifikators.

Daher ist es eine wesentliche Idee dieser Ausführungsform der Erfindung, die folgenden drei Hauptschritte auf eine einzigartige Weise zu kombinieren: 1) Bereitstellen von Merkmalen unter Verwendung eines oder mehrerer Detektoren, jeweils mit mehreren Auflösungen, als Eingabe für eine Deep-Boltzmann-Maschine (DBM), 2) Modellieren der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung für die Merkmale unter Verwendung der Deep-Boltzmann-Maschine (DBM) als ein generatives Modell, das ssRBM (Spike and Slab Restricted Boltzmann-Maschine) Schichten aufweist, und 3) Klassifizieren der Merkmale durch a) eine Softmax-Schicht, die oben auf den ssRBM-Schichten hinzugefügt ist, oder durch b) Verwenden von Gewichten oberer Schichten der DBM zum Initialisieren eines Klassifikators.
Ein wesentlicher Vorteil des vorstehenden Verfahrens ist, dass es Merkmale verwendet, die in von Menschen gemachten Objekten wahrscheinlicher als in natürlichen Objekten gefunden werden, wodurch ein „vorausgehendes“ Bias für das generative Modell bereitgestellt wird, um zu lernen, wie Fahrzeuge „aussehen“. Dies ist auch der Grund, warum das erfindungsgemäße Verfahren besonders gut für die Fahrzeugerfassung geeignet ist. Ein weiterer Vorteil der Erfindung besteht darin, dass das Verfahren ein generatives Modell verwendet, das für den Großteil seines Trainings einen großen Datensatz unmarkierter Bilder verwenden kann. Dieses generative Modell kann zum Initialisieren einer Radial-Basis-Function-Support-Vektormaschine (RBF-SVM) oder eines konvolutionellen neuronalen Netzwerks (CNN) verwendet werden, oder es kann mit einer Softmax-Schicht für die Klassifizierung abgeschlossen werden. Wenn das gesamte tiefe neuronale Netzwerk dann über einen viel kleineren Satz annotierter Bilder trainiert wird, kann es ein ähnliches diskriminatives tiefes neuronales Netzwerk, wie beispielsweise ein CNN selbst, mit einer zufälligen Initialisierung übertreffen.
Es wird erwartet, dass das erfindungsgemäße Verfahren und das erfindungsgemäße Fahrunterstützungssystem, insbesondere für Grenzfälle wie Blockierungen oder teilweise abgeschattete Fahrzeuge, im Vergleich zu existierenden Lösungen, die auf diskriminativen Modellen basieren, wie beispielsweise den vorstehend erwähnten CNN-basierten Lösungen, robuster sind, da es einen wesentlich größeren Datensatz für das Training verwenden kann und in Bezug auf Zeit und Arbeitsaufwand günstiger trainierbar ist, da sehr wenig annotierte Daten erforderlich sind.
Fahrunterstützungssysteme umfassen Fahrerassistenzsysteme, die bereits bekannt sind und in herkömmlichen Fahrzeugen verwendet werden. Die entwickelten Fahrunterstützungssysteme werden bereitgestellt, um Fahrzeugsysteme für Sicherheit und besseres Fahren zu automatisieren, anzupassen und zu verbessern. Die Sicherheitsmerkmale sind dafür konfiguriert, Kollisionen und Unfälle zu vermeiden, indem Technologien bereitgestellt werden, die den Fahrer auf potenzielle Probleme aufmerksam machen, oder Kollisionen zu vermeiden, indem sie Schutzmaßnahmen implementieren und die Kontrolle über das Fahrzeug übernehmen. In autonomen Fahrzeugen stellen die Fahrunterstützungssysteme eine Eingabe zum Ausführen einer Steuerung des Fahrzeugs bereit. Adaptive Merkmale können die Beleuchtung automatisieren, eine adaptive Geschwindigkeitsregelung bereitstellen, Bremsvorgänge automatisieren, Verkehrswarnungen integrieren, eine Verbindung mit Smartphones herstellen, z.B. den Fahrer in Bezug auf andere Autos oder verschiedenartige Gefahren warnen, das Fahrzeug in der korrekten Fahrspur halten, oder anzeigen, was sich in toten Winkeln befindet. Fahrunterstützungssysteme, die die vorstehend erwähnten Fahrerassistenzsysteme aufweisen, basieren häufig auf Eingaben von mehreren Datenquellen, wie beispielsweise Abbildungseinrichtungen in Fahrzeugen, Bildverarbeitung, Radarsensoren, LIDAR-Systemen, Ultraschallsensoren und anderen Quellen.
Die Deep-Boltzmann-Maschine (DBM) hat Vorteile gegenüber einem DBN (Deep Belief Network) dahingehend, dass das DBN ein DAG- (gerichtetes azyklisches grafisches (Directed Acyclic Graphical)) Modell ist, während die DBM ein ungerichtetes graphisches Modell ist. Im Gegensatz zu DBNs kann die approximative Inferenzprozedur in DBMs zusätzlich zu einem anfänglichen Bottom-Up-Durchlauf ein Top-Down-Feedback enthalten, das es ermöglicht, dass DBMs Unsicherheiten bei mehrdeutigen Eingaben besser propagieren und somit robuster damit umgehen können. Außerdem kann diese Ausführungsform der Erfindung durch einen Greedy-Algorithmus zum schichtweisen Vortraining eine schnelle approximative Interferenz in DBMs erreichen. Das heißt, wenn ein Datenvektor auf den sichtbaren Einheiten gegeben ist, kann jede Schicht verborgener Einheiten in einem einzigen Bottom-Up-Durchlauf aktiviert werden, indem die Bottom-Up-Eingabe verdoppelt wird, um das Fehlen eines Top-Down-Feedbacks zu kompensieren (mit Ausnahme der obersten Schicht, die keine Top-Down-Eingabe hat). Diese schnelle approximative Interferenz wird zum Initialisieren der Mean-Field-Methode verwendet, die viel schneller konvergiert als bei einer zufälligen Initialisierung.
Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens weisen die Merkmale, die unter Verwendung eines oder mehrerer Detektoren mit jeweils mehreren Auflösungen bereitgestellt werden, Kastenformen, Ecken, Linien und/oder Kanten auf. Diese Merkmale können durch Kameras erfasst werden. Daher können die vorstehend erwähnten Merkmale auch als „kamerabasierte“ Merkmale charakterisiert werden. Die Erfindung nutzt die Tatsache, dass ein Fahrzeug ein von Menschenhand hergestelltes Objekt ist und daher eher gerade lange Kanten und Kombinationen davon enthält, wie zum Beispiel Kastenformen, Ecken, Linien und/oder Kanten.
Vorzugsweise weisen die mehreren Auflösungen, mit denen jedes der Merkmale erfasst wird, die Werte /16, /8, /4, /2 und/oder /1 auf. Daher wird ein Bild, das durch einen vorgegebenen Detektor bereitgestellt wird, mit mehreren Auflösungen aufgenommen, wobei jedes Bild mit mehreren Auflösungen unterabgetastet wird, z.B. mit /16, /8, /4, /2 und/oder /1.
Gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens weisen der eine oder die mehreren Detektoren eine oder mehrere Kameras auf, vorzugsweise eine Sichtkamera und/oder eine Infrarotkamera. Die eine oder die mehreren verwendeten Kameras können eine vorwärts gerichtete Kamera und/oder ein Rundumsicht-Kamerasystem sein. Die Kameras, z.B. eine Sichtkamera und/oder eine Infrarotkamera, kann Merkmale mit jeweils mehreren Auflösungen bereitstellen, die anschließend als Eingabe für die Deep-Boltzmann-Maschine (DBM) verwendet werden. Auf diese Weise werden die mehreren Auflösungen jedes Merkmals, die durch den einen oder die mehreren Detektoren aufgenommen werden, in die Neuronen der sichtbaren Schicht der DBM eingespeist.
Die Deep-Boltzmann-Maschine (DBM) modelliert dann die zugrundeliegende gemeinsame Wahrscheinlichkeitsverteilung für die vorstehend erwähnten beitragenden Merkmale, z.B. Kastenformen, Ecken, Linien und Kanten, ohne dass eine Markierung erforderlich ist. Vorzugsweise lernt die Deep-Boltzmann-Maschine (DBM) das Merkmal der MSERs (Maximally Stable Extremal Regions). Das bedeutet, dass die DBM durch Lernen der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung dieser Merkmale mit mehreren Auflösungen die MSERs lernt, d.h. Bereiche, die über Auflösungen hinweg maximal stabil bleiben. Beispielsweise ist ein Kasten, der mit mehreren Auflösungen erfasst wird, wie beispielsweise /16, /8, /4 und /2, sehr wahrscheinlich eine Kastenform in der Szene. Anstatt einen Stapel von Regeln in Software hinzuzufügen, um solche Entscheidungen zu treffen, ermöglicht die Erfindung der DBM zu lernen, welche gemeinsame Verteilung dieser Merkmale ein Fahrzeug darstellt.
Die Deep-Boltzmann-Maschine (DBM) weist ssRBM- (Spike and Slab RBMs) Schichten auf, für die nachgewiesen wurde, dass sie für natürliche Bilder besser funktionieren als z.B. eine gaußsche RBM.
Es können mehrere Optionen zum Klassifizieren der Merkmale verwendet werden, die mit mehreren Auflösungen erfasst worden sind. In einer Ausführungsform wird eine Softmax-Schicht oben auf den ssRBM-Schichten hinzugefügt, um die Klassifizierung auszuführen. Vorzugsweise wird das tiefe Netzwerk, z.B. die Deep-Boltzmann-Maschine, durch Trainieren des gesamten Netzwerks unter Verwendung von Backpropagation unter Anwendung eines wesentlich kleineren Satzes annotierter Daten feinabgestimmt. Vorzugsweise ist die Deep-Boltzmann-Maschine (DBM) durch einen Greedy-Algorithmus für schichtweises Vortraining vortrainiert.
In einer weiteren Ausführungsform werden Gewichte oberer Schichten der DBM verwendet, um einen Klassifikator zu initialisieren. Vorzugsweise weist der Klassifikator eine Radial-Basis-Function-Support-Vektormaschine (RBF-SVM) oder ein konvolutionelles neuronales Netzwerk (CNN) auf. Das bedeutet, dass in dieser Ausführungsform der verwendete Klassifikator eine RBF-SVM oder ein CNN sein kann. Es hat sich gezeigt, dass die derart initialisierten Gewichte wesentlich besser funktionieren als die zufällige Initialisierung von Gewichten. Die gesamte Architektur der Deep-Boltzmann-Maschine (DBM), die eine auf ssRBM-Schichten oben hinzugefügte Softmax-Schicht oder einen Klassifikator mit einer RBF-SVM oder ein konvolutionelles neuronales Netzwerk (CNN) aufweist, kann als neuronales Netzwerk charakterisiert werden.
Somit wird gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens das gesamte neuronale Netzwerk, das eine Softmax-Schicht, die oben auf ssRBM-Schichten hinzugefügt ist, oder einen Klassifikator aufweist, der eine RBF-SVM oder ein konvolutionelles neuronales Netzwerk (CNN) aufweist, mit einem Satz annotierter Bilder vortrainiert.
Durch die Erfindung ist außerdem die Verwendung der hierin beschriebenen Verfahren in einem Fahrunterstützungssystem eines Kraftfahrzeugs angegeben. Insbesondere ist durch die Erfindung die Verwendung des Verfahrens zur Fahrzeugerfassung, wie vorstehend beschrieben, in einem Fahrunterstützungssystem eines Kraftfahrzeugs angegeben.
Durch die Erfindung ist ferner ein Fahrunterstützungssystem für ein Kraftfahrzeug angegeben, das einen oder mehrere vorstehend beschriebene Detektoren aufweist, wobei das Fahrunterstützungssystem dafür konfiguriert ist, das hierin beschriebene Verfahren auszuführen.
Durch die Erfindung ist ferner ein nichtflüchtiges computerlesbares Medium angegeben, das darin gespeicherte Befehle aufweist, die, wenn sie durch einen Prozessor ausgeführt werden, ein Fahrunterstützungssystem veranlassen, das hierin beschriebene Verfahren auszuführen.
Durch die Erfindung ist außerdem ein Kraftfahrzeug angegeben, mit:

einer Datenverarbeitungsvorrichtung,
einem nichtflüchtigen computerlesbaren Medium mit darauf gespeicherten Befehlen, die, wenn sie durch einen Prozessor ausgeführt werden, ein Fahrunterstützungssystem veranlassen, das hierin beschriebene Verfahren auszuführen, und
einem Fahrunterstützungssystem für ein Kraftfahrzeug, das einen oder mehrere Detektoren umfasst, wobei das Fahrunterstützungssystem dafür konfiguriert ist, das hierin beschriebene Verfahren auszuführen.

Diese und andere Aspekte der Erfindung werden anhand der nachfolgend beschriebenen Ausführungsformen und Beispiele ersichtlich und erläutert. Einzelne Merkmale, die in Verbindung mit den Ausführungsformen dargestellt sind, können allein oder in Kombination einen Aspekt der vorliegenden Erfindung bilden. Merkmale der verschiedenen Ausführungsformen können von einer Ausführungsform auf eine andere Ausführungsform übertragen werden. Ausführungsformen der vorliegenden Erfindung werden anhand der nachstehenden Beispiele beschrieben, die lediglich zur Erläuterung dienen und die Erfindung in keinerlei Weise einschränken sollen.
Es zeigen:

1 schematisch ein Kraftfahrzeug 1 mit einem Fahrunterstützungssystem 2 und einem Detektor 3, der ein Bild bereitstellt, gemäß einer Ausführungsform der Erfindung; und
2 schematisch ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug 1, das ein Fahrunterstützungssystem 2 aufweist, gemäß einer Ausführungsform der Erfindung.

Beispiel 1
1 zeigt schematisch ein Kraftfahrzeug 1 mit einem Fahrunterstützungssystem 2 und einem Detektor 3 gemäß einer Ausführungsform der Erfindung. Der Detektor 3 stellt ein Bild mit Merkmalen mit mehreren Auflösungen bereit. In diesem Beispiel ist der Detektor 3 eine nach vorne gerichtete Kamera.
2 zeigt schematisch ein Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug 1, das ein Fahrunterstützungssystem 2 aufweist, gemäß einer Ausführungsform der Erfindung. Das Verfahren wird z.B. während eines automatisierten Parkvorgangs eines Kraftfahrzeugs 1 ausgeführt, um zu erkennen, welche Parkplätze besetzt sind, um eine Kollision mit Fahrzeugen zu vermeiden und/oder ein Einparkmanöver um ein Fahrzeug herum zu planen, das im Weg steht. Alternativ wird das Verfahren in einer verkehrsreichen Verkehrsszene ausgeführt, bei der das Fahrunterstützungssystem 2 durchgehend viele Fahrzeuge „sieht“ und die Szene entsprechend klassifiziert, d.h. als eine „verkehrsreiche Verkehrsszene“. Das Ego-Fahrzeug, d.h. das Kraftfahrzeug 1, befindet sich dann wahrscheinlich in einer verkehrsreichen Verkehrsszene.
Das Verfahren weist die Schritte zum Bereitstellen von Merkmalen eines Bildes, das unter Verwendung eines oder mehrerer Detektoren 3 mit mehreren Auflösungen aufgenommen wird, Modellieren der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung der Merkmale unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als ein generatives Modell, das ssRBM- (Spike and Slab Restricted Boltzmann-Maschine) Schichten aufweist, wobei die Merkmale als Eingabe für die DBM verwendet werden, und Klassifizieren der Merkmale durch a) eine Softmax-Schicht, die auf den ssRBM-Schichten hinzugefügt ist, oder b) Verwenden von Gewichten oberer Schichten der DBM zum Initialisieren eines Klassifikators auf. Die Merkmale, die durch den einen oder die mehreren Detektoren 3 jeweils mit mehreren Auflösungen erfasst werden, können Kastenformen, Ecken, Linien und/oder Kanten aufweisen. In dieser Ausführungsform werden die Merkmale durch eine oder mehrere Kameras erfasst. Daher können die vorstehend erwähnten Merkmale auch als „kamerabasierte“ Merkmale charakterisiert werden. Ein Fahrzeug ist ein von Menschen gemachtes Objekt und enthält daher eher gerade lange Kanten und Kombinationen davon, wie beispielsweise Kastenformen, Ecken, Linien und/oder Kanten, d.h. „kamerabasierte Merkmale“. Daher verwendet das Verfahren z.B. Kasten, Linien, Ecken und/oder Kanten als Merkmale, insbesondere weil sie eher bei einem Fahrzeug als bei einem Baum oder einem Fußgänger zu finden sind.
Die mehreren Auflösungen, mit denen jedes der Merkmale erfasst wird, beinhalten die Werte /16, /8, /4, /2 und/oder /1. Daher wird ein Bild, das durch einen vorgegebenen Detektor 3 bereitgestellt wird, mit mehreren Auflösungen aufgenommen, wobei jedes Bild mit mehreren Auflösungen, z.B. mit den Werten /16, /8, /4 und/oder bei /2, unterabgetastet wird.
In dieser Ausführungsform weisen der eine oder die mehreren Detektoren 3 eine oder mehrere Kameras auf, vorzugsweise eine Sichtkamera und/oder eine Infrarotkamera. Die eine oder die mehreren verwendeten Kameras können eine vorwärts gerichtete Kamera und/oder ein Rundumsicht-Kamerasystem sein. Im vorliegenden Beispiel ist der Detektor 3 eine nach vorne gerichtete Kamera. Die Kameras, z.B. eine Sichtkamera und/oder eine Infrarotkamera, stellen Merkmale bereit, jeweils mit mehreren Auflösungen, die anschließend als Eingabe für die Deep-Boltzmann-Maschine (DBM) verwendet werden. Auf diese Weise werden die mehreren Auflösungen jedes Merkmals, die durch den einen oder die mehreren Detektoren 3 aufgenommen werden, in die Neuronen der sichtbaren Schicht der DBM eingespeist.
Die Deep-Boltzmann-Maschine (DBM) modelliert dann die zugrundeliegende gemeinsame Wahrscheinlichkeitsverteilung für die vorstehend erwähnten beitragenden Merkmale, z.B. Kastenformen, Ecken, Linien und Kanten, ohne dass eine Markierung erforderlich ist. Die Deep-Boltzmann-Maschine (DBM) lernt dann das Merkmal der MSERs (Maximally Stable Extremal Regions). D.h., dass die DBM durch Lernen der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung dieser Merkmale mit mehreren Auflösungen die MSERs lernt, d.h. Bereiche, die über Auflösungen hinweg maximal stabil bleiben. Beispielsweise ist es sehr wahrscheinlich, dass ein Kasten, der durch den Detektor 3 mit mehreren Auflösungen, wie beispielsweise /16, /8, /4 und /2, erfasst wird, eine Kastenform in der Szene ist. Anstatt einen Stapel von Regeln in Software hinzuzufügen, um solche Entscheidungen zu treffen, ermöglicht das Verfahren, dass die DBM lernt, welche gemeinsame Verteilung dieser Merkmale ein Fahrzeug darstellt.
Die Deep-Boltzmann-Maschine (DBM) weist ssRBM- (Spike and Slab RBM) Schichten auf, die sich bei natürlichen Bildern als besser erwiesen haben als z.B. eine gaußsche RBM. Auf die sichtbare Schicht der DBM folgen eine verborgene Schicht H1 und eine verborgene Schicht H2, der dann eine Softmax-Schicht übergeordnet ist.
In diesem Beispiel führt die Softmax-Schicht, die über der verborgenen Schicht H1 und der verborgenen Schicht H2 (ssRBM-Schichten) hinzugefügt ist, die eigentliche Klassifizierung aus. Das tiefe Netzwerk wird durch Trainieren des gesamten Netzwerks durch Backpropagation optimiert. Dies geschieht mit einem wesentlich kleineren Satz annotierter Daten. Die Deep-Boltzmann-Maschine (DBM) wird durch einen Greedy-Algorithmus für schichtweises Vortraining vortrainiert.
In einer anderen Ausführungsform werden Gewichte oberer Schichten der DBM verwendet, um einen Klassifikator zu initialisieren. Vorzugsweise weist der Klassifikator eine Radial-Basis-Function-Support-Vektormaschine (RBF-SVM) oder ein konvolutionelles neuronales Netzwerk (CNN) auf. Das bedeutet, dass in dieser Ausführungsform der verwendete Klassifikator eine RBF-SVM oder ein CNN sein kann. Es hat sich gezeigt, dass die derart initialisierten Gewichte wesentlich besser funktionieren als die zufällige Initialisierung von Gewichten.
Das gesamte neuronale Netzwerk, das eine Softmax-Schicht, die über den ssRBM-Schichten hinzugefügt ist, oder einen Klassifikator aufweist, der eine RBF-SVM oder ein konvolutionelles neuronales Netzwerk (CNN) aufweist, wird mit einem Satz annotierter Bilder vortrainiert.
Bezugszeichenliste

1: Kraftfahrzeug
2: Fahrunterstützungssystem
3: Detektor

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2007/0282506 A1 [0011]

Claims

Verfahren zur Fahrzeugerfassung für ein Kraftfahrzeug (1) mit einem Fahrunterstützungssystem (2), mit den Schritten: - Bereitstellen von Merkmalen unter Verwendung eines oder mehrerer Detektoren mit mehreren Auflösungen, - Modellieren der zugrundeliegenden gemeinsamen Wahrscheinlichkeitsverteilung der Merkmale unter Verwendung einer Deep-Boltzmann-Maschine (DBM) als ein generatives Modell, das ssRBM- (Spike and Slab Restricted Boltzmann-Maschine) Schichten aufweist, wobei die Merkmale als Eingabe für die DBM verwendet werden; und - Klassifizieren der Merkmale durch a) eine Softmax-Schicht, die über den ssRBM-Schichten hinzugefügt ist, oder b) Verwenden von Gewichten oberer Schichten der DBM, um einen Klassifikator zu initialisieren.
Verfahren nach Anspruch 1, wobei die Merkmale, die unter Verwendung eines oder mehrerer Detektoren (3) mit mehreren Auflösungen bereitgestellt werden, Kastenformen, Ecken, Linien und/oder Kanten aufweisen.
Verfahren nach Anspruch 1 oder 2, wobei die mehreren Auflösungen die Werte /16, /8, /4 und/oder /1 aufweisen.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der eine oder die mehreren Detektoren (3) eine oder mehrere Kameras aufweisen, vorzugsweise eine Sichtkamera und/oder eine Infrarotkamera.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Deep-Boltzmann-Maschine (DBM) das Merkmal von MSERs (Maximally Stable Extremal Regions) lernt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Klassifikator eine Radial-Basis-Function-Support-Vektormaschine (RBF-SVM) oder ein konvolutionelles neuronales Netzwerk (CNN) aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Deep-Boltzmann-Maschine (DBM) unter Verwendung eines Greedy-Algorithmus für schichtweises Vortraining vortrainiert wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das gesamte neuronale Netzwerk, das eine Softmax-Schicht, die über ssRBM-Schichten hinzugefügt ist, oder einen Klassifikator aufweist, der eine RBF-SVM oder ein konvolutionelles neuronales Netzwerk (CNN) aufweist, mit einem Satz annotierter Bilder vortrainiert wird.
Verwendung des Verfahrens nach einem der Ansprüche 1 bis 8 in einem Fahrunterstützungssystem (2) eines Kraftfahrzeugs (1).
Fahrunterstützungssystem (2) für ein Kraftfahrzeug (1) mit einem oder mehreren der Detektoren (3) nach Anspruch 4, wobei das Fahrunterstützungssystem (2) dafür konfiguriert ist, das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.
Nichtflüchtiges computerlesbares Medium, das darin gespeicherte Befehle enthält, die, wenn sie durch einen Prozessor ausgeführt werden, ein Fahrunterstützungssystem (2) veranlassen, das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.
Kraftfahrzeug (1) mit: einer Datenverarbeitungseinrichtung; dem nichtflüchtigen computerlesbaren Medium nach Anspruch 11; und dem Fahrunterstützungssystem (2) nach Anspruch 10.