DE102017100199A1

DE102017100199A1 - FUßGÄNGERERKENNUNG MIT AUFFÄLLIGKEITSKARTEN

Info

Publication number: DE102017100199A1
Application number: DE102017100199.9A
Authority: DE
Inventors: Madeline Jane Goh; Vidya Nariyambut murali; Gint Puskorius
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-01-15
Filing date: 2017-01-06
Publication date: 2017-09-07
Also published as: CN106980814A; RU2017100270A; GB2548200A; GB201700496D0; US20170206426A1; MX2017000688A

Abstract

Systeme, Verfahren und Vorrichtungen zur Fußgängererkennung sind hierin offenbart. Ein Verfahren umfasst das Empfangen eines Bildes eines Bereichs in der Nähe eines Fahrzeugs. Das Verfahren umfasst ferner das Verarbeiten des Bildes unter Verwendung eines ersten neuronalen Netzwerks, um einen oder mehrere Orte zu bestimmen, an denen sich wahrscheinlich Fußgänger innerhalb des Bildes befinden. Das Verfahren umfasst auch das Verarbeiten des einen oder der mehreren Orte des Bildes unter Verwendung eines zweiten neuronalen Netzwerks, um zu bestimmen, dass ein Fußgänger anwesend ist, und das Benachrichtigen eines Fahrassistenzsystems oder eines automatisierten Fahrsystems, dass der Fußgänger anwesend ist.

Description

TECHNISCHES GEBIET
Die Offenbarung bezieht sich allgemein auf Verfahren, Systeme und Vorrichtungen zum automatisierten Fahren oder zur Unterstützung eines Fahrers und betrifft insbesondere Verfahren, Systeme und Vorrichtungen zum Erfassen eines oder mehrerer Fußgänger unter Verwendung von maschinellen Lern- und Auffälligkeitskarten.
ALLGEMEINER STAND DER TECHNIK
Automobile stellen einen bedeutenden Teil des Verkehrs für kommerzielle, staatliche und private Einheiten bereit. Autonome Fahrzeuge und Fahrassistenzsysteme werden derzeit entwickelt und eingesetzt, um Sicherheit zu gewährleisten, die Anzahl der benötigten Benutzereingaben zu reduzieren oder sogar die Nutzerbeteiligung vollständig zu beseitigen. Zum Beispiel können einige Fahrassistenzsysteme, wie etwa Zusammenstoßvermeidungssysteme, das Fahren, die Positionen und die Geschwindigkeit des Fahrzeugs und andere Objekte überwachen, während ein Mensch fährt. Wenn das System erkennt, dass ein Zusammenstoß oder ein Aufprall unmittelbar bevorsteht, kann das Zusammenstoßvermeidungssystem eingreifen und eine Bremse betätigen, das Fahrzeug lenken oder andere Vermeidungs- oder Sicherheitsmanöver durchführen. Als ein weiteres Beispiel können autonome Fahrzeuge ein Fahrzeug mit wenig oder keiner Benutzereingabe fahren und navigieren. Allerdings ist es aufgrund der Gefahren beim Fahren und der Kosten von Fahrzeugen äußerst wichtig, dass autonome Fahrzeuge und Fahrassistenzsysteme sicher funktionieren und in der Lage sind, auf Straßen genau zu navigieren und andere Fahrzeuge und Fußgänger zu vermeiden.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Nichteinschränkende und nicht erschöpfende Umsetzungen der vorliegenden Offenbarung werden unter Bezugnahme auf die folgenden Figuren beschrieben, wobei gleiche Bezugszeichen sich auf gleiche Teile in den verschiedenen Ansichten beziehen, sofern nichts Anderes angegeben ist. Die Vorteile der vorliegenden Offenbarung werden mit Bezug auf die folgende Beschreibung und die begleitenden Zeichnungen besser verständlich, wobei:
1 ein schematisches Blockdiagramm ist, das eine beispielhafte Implementierung eines Fahrzeugsteuersystems darstellt, das ein automatisiertes Fahr/Assistenzsystem umfasst;
2 ein Bild einer Fahrbahn darstellt;
3 eine schematische Darstellung einer Auffälligkeitskarte für das Bild von 2 gemäß einer Umsetzung ist;
4 ein schematisches Blockdiagramm ist, das eine Fußgängererkennung gemäß einer Umsetzung darstellt;
5 ein schematisches Blockdiagramm ist, das beispielhafte Komponenten einer Fußgängerkomponente gemäß einer Umsetzung darstellt; und
6 ein schematisches Blockdiagramm ist, das ein Verfahren zur Fußgängererkennung gemäß einer Umsetzung darstellt.
DETAILLIERTE BESCHREIBUNG
Um ein sicheres Funktionieren zu ermöglichen, sollte ein intelligentes Fahrzeug schnell und genau einen Fußgänger erkennen können. Für aktive Sicherheits- und Fahrerassistenzanwendungen ist es eine gemeinsame Herausforderung, schnell und präzise einen Fußgänger und den Standort eines Fußgängers in einer Szene zu erkennen. Einige Klassifizierungslösungen wurden mit großem Erfolg unter Verwendung tiefer neuronaler Netze erreicht. Allerdings sind Erkennung und Lokalisierung immer noch schwierig, da Fußgänger in verschiedenen Maßstäben und an verschiedenen Orten vorhanden sind. Beispielsweise sind gegenwärtige Erkennungs- und Lokalisierungstechniken nicht in der Lage, die Fähigkeit eines Menschen zu erreichen, eine Skala und Lage von interessanten Objekten in einer Szene zu erfassen und/oder schnell das "Wesentliche" der Szene zu verstehen.
In der vorliegenden Offenbarung stellen die Anmelder Systeme, Vorrichtungen und Verfahren vor, welche die automatisierte Fußgängerlokalisierung und -erfassung verbessern. In einer Ausführungsform umfasst ein Verfahren zum Erfassen von Fußgängern das Empfangen eines Bildes eines Bereichs in der Nähe eines Fahrzeugs und das Verarbeiten des Bildes unter Verwendung eines ersten neuronalen Netzwerks, um eine oder mehrere Stellen zu bestimmen, wo sich Fußgänger wahrscheinlich innerhalb des Bildes befinden. Das Verfahren umfasst ferner das Verarbeiten der einen oder mehreren Stellen des Bildes unter Verwendung eines zweiten neuronalen Netzwerks, um zu bestimmen, dass ein Fußgänger vorhanden ist. Das Verfahren umfasst auch das Melden, dass der Fußgänger vorhanden ist, an ein Fahrassistenzsystem oder an ein automatisiertes Fahrsystem.
Gemäß einer Ausführungsform verwendet ein verbessertes Verfahren zur Fußgängerlokalisierung und -erfassung eine zweistufige computerbasierte tiefe Lerntechnik. In einer ersten Stufe werden ein oder mehrere Bereiche eines Bildes, die aus den Wahrnehmungssensoren und Sensordaten des Fahrzeugs gewonnen werden, als wahrscheinlicher, um Fußgänger zu enthalten, identifiziert. Die erste Stufe kann Anzeichen für wahrscheinliche Bereiche, in denen sich der Fußgänger befindet, in Form einer Auffälligkeitskarte oder (ein) andere(s) Anzeichen eines Bereichs eines Bildes liefern, wo sich Fußgänger wahrscheinlich befinden. Die Anmelder haben erkannt, dass psycho-visuelle Studien gezeigt haben, dass Blickfixierungen von Bildern mit niedrigerer Auflösung Fixationen auf höher aufgelösten Bildern vorhersagen können. Als solche können einige Ausführungsformen effektive Auffälligkeitskarten bei einer niedrigen Auflösung erzeugen. Diese Auffälligkeitskarten mit niedriger Auflösung können als Etiketten für entsprechende Bilder verwendet werden. In einer Ausführungsform kann ein tiefes neuronales Netzwerk trainiert werden, um eine Auffälligkeitskarte für jedes Bild basierend auf Trainingsdaten auszugeben. In einer Ausführungsform zeigt eine Auffälligkeitskarte Bereiche eines Bildes an, die höchstwahrscheinlich einen Fußgänger enthalten. Auffälligkeitskarten bleiben auch bei sehr niedrigen Auflösungen wirksam, was eine schnellere Verarbeitung ermöglicht, indem der Suchraum verringert wird, während immer noch eine genaue Erkennung von Fußgängern in einer Umgebung stattfindet.
In einer zweiten Stufe kann ein tiefer neuronaler Netzklassifizierer verwendet werden, um zu bestimmen, ob ein Fußgänger tatsächlich innerhalb eines Bereichs oder mehrerer Bereiche vorhanden ist, die in der ersten Stufe identifiziert wurden. In einer Ausführungsform kann die zweite Stufe einen tiefen neuronalen Netzklassifizierer verwenden, einschließlich Variationen in tiefen Netzwerken, die in "ImageNet Classification with Deep Convolutional Neural Networks" von A. Krizhevsky, I. Sutskever, G. Hinton (Neural Information Processing Systems Conference, 2012). In einer Ausführungsform kann ein gefaltetes neuronales Netzwerk auf verkürzte Geländewirklichkeitsbegrenzungsrahmenfeldern von sowohl positiven als auch negativen Fußgängerdaten ausgebildet werden. Spezifische Teile des Bildes, wie in der ersten Stufe identifiziert, können ausgewählt und als Kandidatenbereiche identifiziert werden. Diese Kandidatenbereiche können in das trainierte tiefe neuronale Netzwerk eingegeben werden, das die potentiellen Fußgänger klassifiziert. Ein großes tiefes neuronales Netzwerk kann konfiguriert und trainiert werden, um einen hohen Prozentsatz an Genauigkeit und an niedrigen falschen Negativen zu erzielen. Eines oder beide des neuronalen Netzwerks der ersten Stufe und des neuronalen Netzwerks der zweiten Stufe können mit existierenden Datensätzen, wie etwa dem Caltech Pedestrian DataSet, internen Datensätzen von Flottenfahrzeugen und/oder simulierten Daten von verwandten Projekten trainiert werden.
Ein Beispiel einer Netzwerkerfassung von Fußgängern wurde in "Pedestrian Detection with a Large-Field-Of-View Deep Network", A. Angelova, A. Krizhevsky, V. Vanhoucke (IEEE International Conference on Robotics and Automation ICRA 2015) vorgestellt. Die Weitwinkelsicht-Netzwerke, die von Angelova et al. entwickelt wurden, präsentierten Fußgängererkennung und schnelle Lokalisierung. Jedoch verwendet Angelova et al. nicht die Auffälligkeit für die Lokalisierung, sondern erfordert stattdessen die zusätzliche Erzeugung eines separaten netzbasierten Datensatzes von Fußgängerortsbildern, wobei Fußgänger ignoriert werden, welche die Gitter überlappen, und wobei der Umgrenzung durch das Netzwerk zur Erfassung erzwungen wird. Somit haben sie eine Fußgängerfehlerrate, die höher liegt, als dass sie noch brauchbar ist, um für aktive Sicherheitsanwendungen einsetzbar zu sein. Im Gegensatz dazu benötigen zumindest einige Ausführungsformen der vorliegenden Offenbarung kein gleitendes Fenster und eliminieren somit einen der rechenintensivsten Aspekte von hochmodernen Tiefenlerntechniken.
Es wird nun auf die Figuren Bezug genommen. 1 veranschaulicht ein beispielhaftes Fahrzeugsteuersystem 100, das ein automatisiertes Fahr-/Assistenzsystem 102 umfasst. Das automatisierte Fahr-/Assistenzsystem 102 kann verwendet werden, um den Betrieb eines Fahrzeugs, wie zum Beispiel ein Auto, ein Lastkraftwagen, ein Bus oder ein Kleinbus, große LKWs, Einsatzfahrzeuge oder jedes andere Kraftfahrzeug zum Transport von Personen oder Gütern, zu automatisieren, zu unterstützen oder zu steuern oder um Unterstützung bei einem menschlichen Fahrer bereitzustellen. Beispielsweise kann das automatisierte Fahr-/Assistenzsystem 102 eines oder mehrere Bremsen-, Lenk-, Beschleunigungs-, Lichter-, Warnungs-, Fahrerbenachrichtigungs-, Funk- oder andere Hilfssysteme des Fahrzeugs steuern. In einem anderen Beispiel kann das automatisierte Fahr-/Assistenzsystem 102 außerstande sein, eine Steuerung des Fahrens (z. B. Lenken, Beschleunigen oder Bremsen) vorzusehen, kann aber Benachrichtigungen und Warnungen bereitstellen, um einen menschlichen Fahrer beim Fahren sicher zu unterstützen. Das automatisierte Fahr-/Assistenzsystem 102 umfasst eine Fußgängerkomponente 104, die Fußgänger in der Nähe eines Fahrzeugs oder in der Nähe eines Fahrwegs des Fahrzeugs lokalisieren und ermitteln kann. Beispielsweise kann die Fußgängerkomponente 104 einen oder mehrere Bereiche innerhalb eines Bildes bestimmen, die eine höhere Wahrscheinlichkeit aufweisen, einen Fußgänger zu enthalten, und dann Verarbeiten des einen oder mehrerer Bereiche, um zu bestimmen, ob ein Fußgänger in den Bereichen vorhanden ist. Als weiteres Beispiel kann die Fußgängerkomponente 104 eine Auffälligkeitskarte für ein Bild erzeugen und dann das Bild basierend auf der Auffälligkeitskarte verarbeiten, um einen Fußgänger in dem Bild oder in Bezug auf ein Fahrzeug zu erfassen oder zu lokalisieren.
Das Fahrzeugsteuersystem 100 umfasst auch ein oder mehrere Sensorsysteme/-vorrichtungen zum Erfassen eines Vorhandenseins von nahe gelegenen Objekten oder zum Bestimmen einer Position eines Stammfahrzeugs (z. B. ein Fahrzeug, welches das Fahrzeugsteuersystem 100 enthält) oder in der Nähe befindlicher Objekte. Beispielsweise kann das Fahrzeugsteuersystem 100 ein oder mehrere Radarsysteme 106, ein oder mehrere LIDAR-Systeme 108, ein oder mehrere Kamerasysteme 110, ein globales Positionierungssystem (GPS) 112 und/oder ein oder mehrere Ultraschallsysteme 114 umfassen.
Das Fahrzeugsteuersystem 100 kann einen Datenspeicher 116 zum Speichern relevanter oder nützlicher Daten für Navigation und Sicherheit, wie Kartendaten, Fahrverlauf oder andere Daten, umfassen. Das Fahrzeugsteuersystem 100 kann auch einen Sendeempfänger 118 zur drahtlosen Kommunikation mit einem mobilen oder drahtlosen Netzwerk, mit anderen Fahrzeugen, mit einer Infrastruktur oder irgendeinem anderen Kommunikationssystem umfassen. Das Fahrzeugsteuersystem 100 kann Fahrzeugsteuerungsaktuatoren 120 umfassen, um verschiedene Aspekte des Antriebs des Fahrzeugs, wie Elektromotoren, Schalter oder andere Aktuatoren, zu steuern, um Bremsen, Beschleunigen, Lenken oder dergleichen zu steuern. Das Fahrzeugsteuersystem 100 kann auch eine oder mehrere Anzeigen 122, Lautsprecher 124 oder andere Vorrichtungen umfassen, so dass Benachrichtigungen an einen menschlichen Fahrer oder Passagier bereitgestellt werden können. Die Anzeige 122 kann eine Überkopfanzeige, eine Armaturenbrett-Anzeige oder einen Armaturenbrettanzeiger, einen Anzeigeschirm oder jede andere optische Anzeige umfassen, die von einem Fahrer oder Passagier eines Fahrzeugs gesehen werden kann. Die Lautsprecher 124 können einen oder mehrere Lautsprecher eines Soundsystems eines Fahrzeugs oder einen Lautsprecher, der für eine Fahrerbenachrichtigung vorgesehen ist, umfassen.
Es wird geschätzt werden, dass die Ausführungsform von 1 nur beispielhaft präsentiert wird. Andere Ausführungsformen können weniger oder zusätzliche Komponenten aufweisen, ohne vom Umfang der Offenbarung abzuweichen. Zusätzlich können die dargestellten Komponenten ohne Einschränkung kombiniert oder in anderen Komponenten enthalten sein. Beispielsweise kann die Fußgängerkomponente 104 von dem automatisierten Fahr-/Assistenzsystem 102 getrennt sein und der Datenspeicher 116 kann als Teil des automatisierten Fahr-/Assistenzsystems 102 und/oder als Teil der Fußgängerkomponente 104 vorgesehen sein.
Das Radarsystem 106 kann durch Senden von Funksignalen und Erfassen von Reflexionen von Objekten arbeiten. In Geländeanwendungen kann das Radar zum Erfassen von physikalischen Objekten, wie andere Fahrzeuge, Parksperren oder Parkinseln, Landschaften (wie Bäumen, Klippen, Felsen, Hügeln oder dergleichen), Straßenkanten, Schilder, Gebäude oder andere Objekte, verwendet werden. Das Radarsystem 106 kann die reflektierten Funkwellen verwenden, um eine Größe, Form, Entfernung, Oberflächenstruktur oder andere Informationen über ein physikalisches Objekt oder Material zu bestimmen. Beispielsweise kann das Radarsystem 106 einen Bereich abtasten, um Daten über Objekte innerhalb eines bestimmten Bereichs und Sichtwinkels des Radarsystems 106 zu erhalten. In einer Ausführungsform ist das Radarsystem 106 konfiguriert, um Wahrnehmungsinformationen von einem Bereich nahe dem Fahrzeug zu erzeugen, wie beispielsweise ein oder mehrere Bereiche in der Nähe oder um das Fahrzeug herum. Beispielsweise kann das Radarsystem 106 Daten über Bereiche des Geländes oder des vertikalen Raums erhalten, die unmittelbar benachbart oder nahe dem Fahrzeug liegen. Das Radarsystem 106 kann eines von vielen weit verbreiteten handelsüblichen Radarsystemen sein. In einer Ausführungsform kann das Radarsystem 106 Wahrnehmungsdaten, die eine/ein zweidimensionale(s) oder dreidimensionale(s) Karte oder Modell umfassen, an das automatisierte Fahr-/Assistenzsystem 102 zur Referenz oder Verarbeitung bereitstellen.
Das LIDAR-System 108 kann durch Aussenden von sichtbaren Wellenlängen- oder Infrarotwellenlängenlasern und Erfassen von Reflexionen von Laserlicht durch die Objekte arbeiten. In Geländeanwendungen können die Laser verwendet werden, um physikalische Gegenstände wie andere Fahrzeuge, Parksperren oder Parkinseln, Landschaften (wie Bäume, Klippen, Felsen, Hügel oder dergleichen), Straßenkanten, Schilder, Gebäude oder andere Objekte zu erkennen. Das LIDAR-System 108 kann das reflektierte Laserlicht verwenden, um eine Größe, Form, Entfernung, Oberflächentextur oder andere Information über ein physikalisches Objekt oder Material zu bestimmen. Zum Beispiel kann das LIDAR-System 108 einen Bereich abtasten, um Daten oder Objekte innerhalb eines bestimmten Bereichs und eines Sichtwinkels des LIDAR-Systems 108 zu erhalten. Beispielsweise kann das LIDAR-System 108 Daten über Bereiche des Geländes oder des vertikalen Raums erhalten, die unmittelbar benachbart sind oder in der Nähe des Fahrzeugs sind. Das LIDAR-System 108 kann eines von vielen im Handel erhältlichen LIDAR-Systemen sein. In einer Ausführungsform kann das LIDAR-System 108 Wahrnehmungsdaten, die ein/eine zweidimensionale(s) oder dreidimensionale(s) Modell oder Karte von erfassten Objekten oder Flächen umfassen, bereitstellen.
Das Kamerasystem 110 kann eine oder mehrere Kameras, wie Kameras für sichtbare Wellenlängen oder Infrarotkameras, umfassen. Das Kamerasystem 110 kann eine Videozufuhr oder periodische Bilder bereitstellen, die zur Objekterfassung, zur Straßenidentifizierung und -positionierung oder zur anderen Erfassungen oder Positionierungen verarbeitet werden können. In einer Ausführungsform kann das Kamerasystem 110 zwei oder mehr Kameras umfassen, die verwendet werden können, um Anordnen (z. B. Erfassen eines Abstands) für Objekte innerhalb des Sichtbereichs bereitzustellen. In einer Ausführungsform kann die Bildverarbeitung bei erfassten Kamerabildern oder Videos verwendet werden, um Fahrzeuge, Blinkersignale, Fahrer, Gesten und/oder Körpersprache eines Fahrers zu erfassen. In einer Ausführungsform kann das Kamerasystem 110 Kameras aufweisen, die Bilder für zwei oder mehrere Richtungen um das Fahrzeug herum erhalten.
Das GPS-System 112 ist eine Ausführungsform eines Positionierungssystems, das eine geographische Lage des Fahrzeugs auf der Grundlage von Satelliten- oder Funkturm-Signalen bereitstellen kann. GPS-Systeme 112 sind gut bekannt und in der Technik weit verbreitet. Obwohl die GPS-Systeme 112 sehr genaue Positionierungsinformationen bereitstellen können, liefern die GPS-Systeme 112 im Allgemeinen nur geringe oder keine Informationen über Abstände zwischen dem Fahrzeug und anderen Objekten. Vielmehr stellen sie einfach einen Ort bereit, der dann mit anderen Daten, wie Karten, verglichen werden kann, um Abstände zu anderen Objekten, Straßen oder interessanten Orten zu bestimmen.
Das Ultraschallsystem 114 kann verwendet werden, um Objekte oder Abstände zwischen einem Fahrzeug und Objekten unter Verwendung von Ultraschallwellen zu erfassen. Beispielsweise kann das Ultraschallsystem 114 Ultraschallwellen von einem Ort an oder nahe einer Stoßfänger- oder Seitenwandposition eines Fahrzeugs aussenden. Die Ultraschallwellen, die kurze Wege durch Luft hindurch überwinden können, können von anderen Objekten reflektiert und vom Ultraschallsystem 114 erfasst werden. Auf der Grundlage einer Zeitdauer zwischen der Emission und dem Empfang reflektierter Ultraschallwellen kann das Ultraschallsystem 114 in der Lage sein, genaue Abstände zwischen einem Stoßfänger oder einer Seitenwand und anderen Gegenständen zu erfassen. Aufgrund des kürzeren Bereichs können die Ultraschallsysteme 114 nützlicher sein, um Objekte während des Parkens zu erfassen oder um unmittelbar bevorstehende Kollisionen während des Fahrens zu erfassen.
In einer Ausführungsform können das/die Radarsystem(e) 106, das/die LIDAR-System(e) 108, das/die Kamerasystem(e) 110 und das/die Ultraschallsystem(e) 114 Umgebungsattribute oder Hindernisse in der Nähe eines Fahrzeugs erfassen. Beispielsweise können die Systeme 106–110 und 114 verwendet werden, um andere Fahrzeuge, Fußgänger, Menschen, Tiere, eine Anzahl von Fahrstreifen, die Spurbreite, die Fahrbahnschulterbreite, die Straßenoberflächenbombierung, die Straßenrichtungskrümmung, Rumpelstreifen, Spurmarkierungen, das Vorhandensein von Kreuzungen, Verkehrszeichen, Brücken, Überführungen, Schranken, Mediane, Bordsteinkanten oder irgendwelche andere Details über eine Straße zu erfassen und zu lokalisieren. Als ein weiteres Beispiel können die Systeme 106–110 und 114 Umgebungsattribute erfassen, die Informationen über Strukturen, Objekte oder Oberflächen in der Nähe der Straße, wie das Vorhandensein von Zufahrtswegen, Parkplätzen, Parkplatzausfahrten/-zufahrten, Gehsteigen, Gehwegen, Bäumen, Zäunen, Gebäuden, geparkten Fahrzeugen (an oder in der Nähe der Straße), Toren, Schildern, Parkplatzstreifen oder anderen Strukturen oder Objekten umfassen.
Der Datenspeicher 116 speichert Kartendaten, den Fahrverlauf und andere Daten, welche andere Navigationsdaten, Einstellungen oder Betriebsanweisungen für das automatisierte Fahr-/Assistenzsystem 102 enthalten können. Die Kartendaten können Ortsdaten, wie z. B. GPS-Standortdaten, für Straßen, Parkplätze, Abstellplätze oder andere Orte, zu denen ein Fahrzeug gefahren oder an denen ein Fahrzeug geparkt werden kann, umfassen. Beispielsweise können die Ortsdaten für Straßen Ortsdaten für spezifische Fahrspuren, wie Fahrspurrichtung, für zusammenführende Fahrspuren, für Schnellstraßen- oder Autobahnfahrspuren, Ausfahrtsspuren oder irgendeine andere Spur oder Teilung einer Straße enthalten. Die Ortsdaten können auch Orte für ein oder mehrere Abstellplätze auf einem Parkplatz oder für Abstellplätze entlang einer Straße umfassen. In einer Ausführungsform umfassen die Kartendaten Ortsdaten über eine oder mehrere Strukturen oder Objekte auf oder nahe den Straßen oder Parkplätzen. Beispielsweise können die Kartendaten Daten betreffend die GPS-Straßenschildposition, die GPS-Brückenposition, Gebäude oder eine andere Strukturposition oder dergleichen umfassen. In einer Ausführungsform können die Kartendaten präzise Ortsdaten mit einer Genauigkeit innerhalb von wenigen Metern oder innerhalb einer Genauigkeit unter einem Meter enthalten. Die Kartendaten können auch Ortsdaten für Karrenwege, Schotterstraßen oder andere Straßen oder Pfade enthalten, die von einem Landfahrzeug befahren werden können.
Der Sendeempfänger 118 ist so konfiguriert, dass er Signale von einer oder mehreren anderen Daten- oder Signalquellen empfängt. Der Sendeempfänger 118 kann eines oder mehrere Funkgeräte umfassen, die so konfiguriert sind, dass sie gemäß einer Vielzahl von Kommunikationsstandards kommunizieren und/oder eine Vielzahl unterschiedlicher Frequenzen verwenden. Beispielsweise kann der Sendeempfänger 118 Signale von anderen Fahrzeugen empfangen. Das Empfangen von Signalen von einem anderen Fahrzeug wird hierin als Fahrzeug-Fahrzeug-Kommunikation (V2V) bezeichnet. In einer Ausführungsform kann der Sendeempfänger 118 auch verwendet werden, um Informationen an andere Fahrzeuge zu übertragen, um sie möglicherweise beim Lokalisieren von Fahrzeugen oder Objekten zu unterstützen. Während der V2V-Kommunikation kann der Sendeempfänger 118 Informationen von anderen Fahrzeugen über ihre Positionen, über vorhergehende Positionen oder Zustände, über anderen Verkehr, Unfälle, Straßenverhältnisse, die Orte von Parkplatzsperren oder Parkplatzengpässe oder irgendwelche anderen Details empfangen, die das Fahrzeug und/oder das automatisierte Fahr-/Assistenzsystem 102 beim genauen oder sicheren Fahren unterstützen können. Beispielsweise kann der Sendeempfänger 118 aktualisierte Modelle oder Algorithmen zur Verwendung durch eine Fußgängerkomponente 104 zum Erfassen und Lokalisieren von Fußgängern oder anderen Objekten erhalten.
Der Sendeempfänger 118 kann Signale von anderen Signalquellen empfangen, die sich an festen Orten befinden. Infrastruktur- Sendeempfänger können sich an einem bestimmten geografischen Standort befinden und können ihre spezifische geographische Lage mit einem Zeitstempel übertragen. Somit kann das automatisierte Fahr-/Assistenzsystem 102 in der Lage sein, einen Abstand von den Infrastruktur-Sendeempfängern basierend auf dem Zeitstempel zu bestimmen und dann seinen Standort basierend auf dem Standort der Infrastruktur- Sendeempfänger zu bestimmen. In einer Ausführungsform wird das Empfangen oder Senden von Standortdaten von Geräten oder Türmen an festen Standorten hierin als Fahrzeug-zu-Infrastruktur-Kommunikation (V2X) bezeichnet. Eine V2X-Kommunikation kann auch verwendet werden, um Informationen über Orte anderer Fahrzeuge, ihre vorherigen Zustände oder dergleichen bereitzustellen. Zum Beispiel können V2X-Kommunikationen Informationen darüber enthalten, wie lange ein Fahrzeug gestoppt wurde oder an einer Kreuzung bereits wartet. In einer Ausführungsform kann der Begriff V2X-Kommunikation auch eine V2V-Kommunikation umfassen.
In einer Ausführungsform ist das automatisierte Fahr-/Assistenzsystem 102 konfiguriert, um das Fahren oder die Navigation eines Stammfahrzeugs zu steuern. Beispielsweise kann das automatisierte Fahr-/Assistenzsystem 102 die Fahrzeugsteuerungsaktuatoren 120 steuern, um einen Weg auf einer Straße, einem Parkplatz, über eine Kreuzung, eine Auffahrt oder eine andere Stelle zu fahren. Beispielsweise kann das automatisierte Fahr-/Assistenzsystem 102 einen Weg und eine Geschwindigkeit zum Fahren basierend auf Informations- oder Wahrnehmungsdaten bestimmen, die durch irgendeine der Komponenten 106–118 bereitgestellt werden. Als ein anderes Beispiel kann das automatisierte Fahr-/Assistenzsystem 102 bestimmen, wann Fahrbahnen zu wechseln sind, wann Einordnen vorzunehmen ist, wann Hindernissen oder Fußgängern auszuweichen ist oder wann Raum für ein anderes Fahrzeug zum Wechseln von Fahrspuren oder dergleichen zu geben ist.
In einer Ausführungsform ist die Fußgängerkomponente 104 konfiguriert, um Fußgänger in der Nähe eines Fahrzeugs zu erfassen und zu lokalisieren. Beispielsweise kann die Fußgängerkomponente 104 Wahrnehmungsdaten, die von einem oder mehreren von einem Radarsystem 106, einem LIDAR-System 108, einem Kamerasystem 110 und einem Ultraschallsystem 114 stammen, verarbeiten, die in einem Bereich nahe einem Fahrzeug oder in einer Fahrtrichtung des Fahrzeugs gesammelt werden, um die Anwesenheit von Fußgängern zu erfassen. Das automatisierte Fahr-/Assistenzsystem 102 kann dann diese Information verwenden, um Fußgängern auszuweichen, einen Fahrweg zu ändern oder ein Fahr- oder Ausweichmanöver durchzuführen.
Wie hierin verwendet, bedeutet der Begriff "Fußgänger" einen Menschen, der kein Fahrzeug fährt. Zum Beispiel kann ein Fußgänger eine Person beim Gehen, Laufen, Sitzen oder Liegen in einem Bereich bedeuten, der für einen Wahrnehmungssensor wahrnehmbar ist. Fußgänger können auch Personen sein, die menschlich betriebene Vorrichtungen wie Fahrräder, Roller, Inline-Skates oder Rollschuhe oder dergleichen verwenden. Fußgänger können sich auf oder in der Nähe von Straßen befinden, wie bei Kreuzungen, Gehsteigen, auf dem Bankett einer Straße oder dergleichen. Fußgänger können signifikante Veränderungen in der Größenform oder dergleichen aufweisen. Zum Beispiel können Babys, Jugendliche, Senioren oder Menschen jedes anderen Alters erkannt werden oder als Fußgänger identifiziert werden. In ähnlicher Weise können sich Fußgänger in einer Art oder Menge von Kleidung signifikant unterscheiden.
Somit kann das Erscheinungsbild von Fußgängern vor einer Kamera oder einem anderen Sensor ziemlich unterschiedlich ausfallen.
2 stellt ein Bild 200 einer perspektivischen Ansicht dar, wie es von einer Kamera eines Fahrzeugsteuersystems 100 erfasst werden kann. Beispielsweise stellt das Bild 200 eine Szene einer Straße vor einem Fahrzeug dar, wie sie erfasst werden kann, während ein Fahrzeug die Straße hinunter fährt. Das Bild 200 umfasst eine Vielzahl von Fußgängern auf oder in der Nähe der Fahrbahn. In einer Ausführungsform kann die Fußgängerkomponente 104 einen oder mehrere Bereiche des Bildes 200 identifizieren, die wahrscheinlich einen Fußgänger umfassen. Beispielsweise kann die Fußgängerkomponente 104 einen oder mehrere Begrenzungsrahmenkästen erzeugen oder einen oder mehrere Unterbereiche des Bildes 200 definieren, in denen sich Fußgänger befinden können. In einer Ausführungsform definiert die Fußgängerkomponente 104 Unterbereiche 202–208 als Bereiche, in denen sich Fußgänger wahrscheinlich befinden. Beispielsweise kann die Fußgängerkomponente 104 Informationen erzeugen, die eine Position innerhalb des Bildes für jeden der Unterbereiche 202–208 definieren, in denen der Fußgänger lokalisiert sein kann und in denen somit weiter analysiert oder verarbeitet werden kann. In einer Ausführungsform kann die Fußgängerkomponente 104 das Bild 200 unter Verwendung eines neuronalen Netzwerks verarbeiten, das trainiert worden ist, um eine Auffälligkeitskarte zu erzeugen, die Bereiche anzeigt, in denen sich Fußgänger befinden können. Die Auffälligkeitskarte kann spezifisch Bereiche oder Orte bezeichnen, an denen sich Fußgänger höchstwahrscheinlich in dem Bild 200 befinden.
Unter Verwendung der Auffälligkeitskarte oder irgendeiner anderen Angabe von Bereichen, in denen sich Fußgänger befinden können, kann die Fußgängerkomponente 104 Unterbereiche des Bildes 200 verarbeiten, um die Bereiche so zu klassifizieren, dass sie einen Fußgänger aufweisen oder nicht aufweisen. In einer Ausführungsform kann die Fußgängerkomponente 104 einen oder mehrere Fußgänger innerhalb des Bildes 200 erfassen und lokalisieren. Beispielsweise umfasst ein erster Unterbereich 202 einen Fußgänger, ein zweiter Unterbereich 204 keinen Fußgänger, sondern umfasst stattdessen einen Baum, ein dritter Unterbereich 206 umfasst einen Fußgänger und ein vierter Unterbereich 208 umfasst wiederum einen Fußgänger.
3 ist eine schematische Ansicht einer Ausführungsform einer Auffälligkeitskarte 300, die durch die Fußgängerkomponente 104 erzeugt wird. Die Auffälligkeitskarte 300 kann als ein Etikett für das Bild 200 von 2 dienen. Beispielsweise kann die Fußgängerkomponente 104 Teile des Bildes, die den Stellen 302–308 entsprechen, verarbeiten, um zu versuchen, Fußgänger zu erfassen und/oder zu lokalisieren. Eine erste Stelle 302, eine zweite Stelle 304, eine dritte Stelle 306 und eine vierte Stelle 308 können dem ersten Unterbereich 202, dem zweiten Unterbereich 204, dem dritten Unterbereich 206 und dem vierten Unterbereich 208 des Bildes von 2 entsprechen. In einer Ausführungsform kann die Fußgängerkomponente 104 ein modifiziertes Bild erzeugen, indem sie die Auffälligkeitskarte 300 mit dem Bild 200 überlagert oder kombiniert und das modifizierte Bild verarbeitet, um Fußgänger zu erfassen. Beispielsweise kann das modifizierte Bild schwarz (oder eine andere Farbe) sein, außer in den Stellen 302–308, wo die entsprechenden Teile des Bildes 200 zumindest teilweise sichtbar oder vollständig unverändert bleiben können. Die Auffälligkeitskarte 300 kann vergrößert werden und/oder das Bild 200 kann verkleinert werden, um eine zusammenpassende Auflösung zu erzielen, so dass eine Fußgängererkennung durchgeführt werden kann.
In einer Ausführungsform kann die Auffälligkeitskarte 300 eine niedrigere Auflösung als das Bild 200 aufweisen. Zum Beispiel kann die Auffälligkeitskarte 300 eine Standardgröße aufweisen oder kann eine Auflösung aufweisen, die um einen vordefinierten Faktor reduziert ist. Wie oben besprochen, können Karten mit geringer Auflösung sehr effektiv sein und auch die Verarbeitungslast oder die Verarbeitungsverzögerung reduzieren. In einer Ausführungsform kann die Fußgängerkomponente 104 das Bild 200 basierend auf der Auffälligkeitskarte 300 durch Vergrößern der Auffälligkeitskarte 300 verarbeiten. Zum Beispiel kann die Fußgängerkomponente 104 mehrere Pixel des Bildes 200 in Bezug auf die gleichen Pixel in der Auffälligkeitskarte verarbeiten. Obwohl die Auffälligkeitskarte 300 von 3 mit schwarzen oder weißen Pixeln dargestellt ist, können einige Ausführungsformen Auffälligkeitskarten mit Graustufenwerten erzeugen und verwenden.
4 ist ein schematisches Blockdiagramm 400, das eine Fußgängererkennung und -lokalisierung gemäß einer Ausführungsform darstellt. Wahrnehmungssensoren 402 geben Sensordaten aus. Die Sensordaten können Daten, die von einem oder mehreren von einem Radarsystem 106, einem LIDAR-System 108, einem Kamerasystem 110 und einem Ultraschallsystem 114 stammen, umfassen. Die Sensordaten werden in ein neuronales Netzwerk 404 der neuronalen Umgebung gespeist. Das neuronale Netzwerk der Auffälligkeitskarte verarbeitet die Sensordaten (wie beispielsweise eine Bild- oder Vektormatrix), um eine Auffälligkeitskarte und/oder eine Angabe eines oder mehrerer Unterbereiche der Sensordaten zu erzeugen, der oder die wahrscheinlich einen Fußgänger (oder Sensordaten über einen Fußgänger) enthält/enthalten. Die Auffälligkeitskarte oder eine andere Angabe eines oder mehrerer Unterbereiche der Sensordaten, die wahrscheinlich einen Fußgänger enthalten, wird zusammen mit den Sensordaten in ein neuronales Netzwerk 406 für die Fußgängererkennung zur Klassifizierung und/oder Lokalisierung eingegeben. Beispielsweise kann das neuronale Netzwerk 406 für die Fußgängererkennung die Sensordaten oder jeden Unterbereich, der durch das neuronale Netzwerk 404 für die Auffälligkeitskarte identifiziert wird, als einen Fußgänger enthaltend oder nicht enthaltend klassifizieren. Zusätzlich kann das neuronale Netzwerk 406 für eine Fußgängererkennung eine bestimmte Stelle oder einen bestimmten Bereich innerhalb der Sensordaten bestimmen (z. B. kann eine Vielzahl von Pixeln innerhalb eines Bildes identifizieren), wo sich der Fußgänger befindet. Das neuronale Netzwerk 406 für die Fußgängererkennung gibt eine Angabe der Anwesenheit und/oder des Standortes des Fußgängers an ein Meldesystem oder ein neuronales Netzwerk 408 für die Entscheidungsfindung aus. Zum Beispiel kann die Anwesenheit eines Fußgängers und/oder der Standort des Fußgängers einem Benachrichtigungssystem zur Verfügung gestellt werden, um einen Fahrer oder ein Fahrsystem eines Fahrzeugs zu benachrichtigen. Als weiteres Beispiel kann die Anwesenheit eines Fußgängers und/oder der Standort des Fußgängers als Eingang für ein neuronales Netzwerk für die Entscheidungsfindung bereitgestellt werden. Zum Beispiel kann das neuronales Netzwerk für die Entscheidungsfindung eine Fahrentscheidung oder eine andere Betriebsentscheidung für das automatisierte Fahr-/Assistenzsystem 102 auf der Basis des Ausgangssignals des neuronalen Netzwerks 406 für die Fußgängererkennung vornehmen. In einer Ausführungsform kann das neuronale Netzwerk für die Entscheidungsfindung über ein bestimmtes Fahrmanöver, über den Fahrweg, über die Fahrerbenachrichtigung entscheiden oder jede andere operative Entscheidung treffen, die auf der Angabe der Anwesenheit oder des Standorts des Fußgängers beruht.
5 ist ein schematisches Blockdiagramm, das Komponenten einer Fußgängerkomponente 104 gemäß einer Ausführungsform darstellt. Die Fußgängerkomponente 104 umfasst eine Wahrnehmungsdatenkomponente 502, eine Auffälligkeitskomponente 504, eine Erkennungskomponente 506, eine Benachrichtigungskomponente 508 und eine Fahrmanöverkomponente 510. Die Komponenten 502–510 sind nur zur Veranschaulichung gegeben und müssen nicht alle in allen Ausführungsformen enthalten sein. Tatsächlich können einige Ausführungsformen nur eine oder eine beliebige Kombination von zwei oder mehr der Komponenten 502–510 umfassen. Einige der Komponenten 502–510 können außerhalb der Fußgängerkomponente 104 angeordnet sein, wie beispielsweise innerhalb des automatisierten Fahr-/Assistenzsystems 102 von 1 oder anderswo, ohne vom Umfang der Offenbarung abzuweichen.
Die Wahrnehmungsdatenkomponente 502 ist konfiguriert, um Sensordaten von einem oder von mehreren Sensorsystemen des Fahrzeugs zu empfangen. Beispielsweise kann die Wahrnehmungsdatenkomponente 502 Daten vom Radarsystem 106, vom LIDAR-System 108, vom Kamerasystem 110, vom GPS 112, vom Ultraschallsystem 114 oder dergleichen empfangen. In einer Ausführungsform können die Wahrnehmungsdaten Wahrnehmungsdaten für einen oder mehrere Bereiche nahe dem Fahrzeug umfassen. Beispielsweise können Sensoren des Fahrzeugs eine 360-Grad-Sicht um das Fahrzeug herum vorsehen. In einer Ausführungsform erfasst das Kamerasystem 110 ein Bild eines Bereichs nahe dem Fahrzeug. Die Wahrnehmungsdaten können Daten über Fußgänger in der Nähe des Fahrzeugs umfassen. Beispielsweise kann das Kamerasystem 110 einen Bereich vor oder seitlich oder hinter dem Fahrzeug erfassen, in dem sich ein oder mehrere Fußgänger befinden können. Beispielsweise können Fußgänger, die eine Straße kreuzen, am Rand einer Fahrbahn gehen oder sich auf einem Parkplatz bewegen, in den Bild- oder anderen Wahrnehmungsdaten erfasst werden.
Die Auffälligkeitskomponente 504 ist konfiguriert, um die von einem oder von mehreren Sensorsystemen empfangenen Wahrnehmungsdaten zu verarbeiten, um Orte zu identifizieren, an denen sich Fußgänger befinden können. Wenn beispielsweise ein Bild, wie beispielsweise das in 2 gezeigte Bild 200, von einem Kamerasystem 110 empfangen wird, kann die Auffälligkeitskomponente 504 das Bild verarbeiten, um einen oder mehrere Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden. In einer Ausführungsform kann die Auffälligkeitskomponente 504 Informationen erzeugen, die einen Unterbereich des Bildes definieren, wo ein Fußgänger höchstwahrscheinlich lokalisiert ist. Beispielsweise kann die Auffälligkeitskomponente 504 eine oder mehrere x-y-Koordinaten erzeugen, um einen Ort oder einen begrenzten Bereich des Bildes zu definieren, wo ein Fußgänger angeordnet sein kann. Der Unterbereich kann einen rechteckigen oder elliptischen Bereich innerhalb des Bildes umfassen oder definieren. In einer Ausführungsform ist die Auffälligkeitskomponente 504 konfiguriert, um eine Auffälligkeitskarte für die Wahrnehmungsdaten zu erzeugen.
Die Auffälligkeitskomponente 504 kann die Wahrnehmungsdaten, wie beispielsweise ein Bild, unter Verwendung eines neuronalen Netzwerks verarbeiten. Zum Beispiel kann jeder Pixelwert eines Bildes in ein neuronales Netzwerk eingegeben werden, das trainiert worden ist, um Bereiche innerhalb des Bildes zu identifizieren, die wahrscheinlich oder höchstwahrscheinlich im Vergleich zu anderen Bereichen eines Bildes Fußgänger einschließen. In einer Ausführungsform umfasst das neuronale Netzwerk ein Netzwerk, das trainiert ist, um ungefähre Orte innerhalb von Bildern oder andere Wahrnehmungsdaten zu identifizieren, die wahrscheinlich Fußgänger aufweisen. Das neuronale Netzwerk kann ein tiefes Faltungsnetzwerk umfassen, das für die schnelle Identifizierung von Unterbereichen, die wahrscheinlich Fußgänger aufweisen, trainiert worden ist. Die Unterbereiche, die vom neuronalen Netzwerk identifiziert werden, können Bereiche sein, die wahrscheinlich Fußgänger mit einem niedrigen Niveau von falschen Negativen enthalten, aber mit möglicherweise einem höheren Niveau von falschen Positiven. Zum Beispiel kann die Identifikation von Unterbereichen übertrieben sein, so dass einige Bereiche nicht tatsächlich einen Fußgänger umfassen können, während die Identifikation von Unterbereichen auch eine geringe Wahrscheinlichkeit aufweist, einen Bereich auszulassen, in dem sich ein Fußgänger befindet. Nach der Identifizierung der Unterbereiche, die wahrscheinlich einen Fußgänger beinhalten, kann ein zweites neuronales Netzwerk oder ein Algorithmus verwendet werden, um die identifizierten Unterbereiche zu analysieren, um zu bestimmen, ob der Fußgänger tatsächlich vorhanden ist. In einer Ausführungsform ist das Ausgangssignal der neuronalen Netzwerk- oder Auffälligkeitskomponente 504 eine x-y-Koordinate eines Bildes und ein oder mehrere Abstandsparameter, die einen Abstand von der x-y-Koordinate definieren, die in einem Unterbereich enthalten sind. Beispielsweise können die Abstandsparameter die Kanten eines rechteckigen oder elliptischen Unterbereichs des Bildes definieren.
In einer Ausführungsform ist das Ausgabesignal des neuronalen Netzwerks oder der Auffälligkeitskomponente 504 eine Auffälligkeitskarte. Zum Beispiel kann das neuronale Netzwerk eine Auffälligkeitskarte erzeugen, die die wahrscheinlichsten Orte von Fußgängern anzeigt. In einer Ausführungsform kann das neuronale Netzwerk so konfiguriert sein, dass es mit einer niedrigeren Auflösung arbeitet als ein Bild oder andere Informationen, die von einem Wahrnehmungssensorsystem gesammelt werden. Zum Beispiel kann das neuronale Netzwerk eine Version mit niedriger Auflösung des Bildes verarbeiten, um die Auffälligkeitskarte zu erzeugen. Als ein anderes Beispiel kann das neuronale Netzwerk ein Vollauflösungsbild verarbeiten und eine Auffälligkeitskarte mit niedriger Auflösung erzeugen. In einer Ausführungsform sind sowohl eine Eingangsauflösung für das neuronale Netzwerk als auch eine Ausgangsauflösung für eine Auffälligkeitskarte niedriger als eine volle Auflösung eines Bildes oder anderer Daten, die durch die Wahrnehmungsdatenkomponente 502 gesammelt werden. In einer Ausführungsform können Auffälligkeitskarten mit geringer Auflösung eine Leistung bieten, die so gut wie oder nahezu so gut wie Auffälligkeitskarten mit vollständiger Auflösung ist, wobei weniger Rechenressourcen erforderlich sind und/oder schnellere Bearbeitungszeiten erzielbar sind.
Die Auffälligkeitskarte, die aus der Verarbeitung unter Verwendung des neuronalen Netzwerks resultiert, kann eine Auffälligkeitskarte umfassen, die Orte anzeigt, an denen sich Fußgänger wahrscheinlich befinden. Zum Beispiel kann das neuronale Netzwerk mit Bildern und Geländewirklichkeitsidentifizierungsbereichen trainiert werden, in denen sich Fußgänger befinden oder nicht befinden. Somit ist das Ausgangssignal des neuronalen Netzwerks und/oder der Auffälligkeitskomponente 504 eine Fußgängerortsauffälligkeitskarte. Dies ist anders als einige Auffälligkeitskarten, die versuchen, Orte vorherzusagen oder anzugeben, wohin ein menschliches Auge natürlich gelenkt wird, wenn man ein Bild betrachtet, weil diese spezifisch für Fußgängerstandorte sind. Die Identifikation von Orten, an denen sich die Fußgänger wahrscheinlich befinden, kann die Verarbeitungsleistung, die erforderlich ist, um Fußgänger zu erfassen, signifikant verringern, da viel weniger als ein Vollbild zur Objekterfassung verarbeitet werden muss oder ein kleineres neuronales Netzwerk verwendet werden kann.
In einer Ausführungsform kann die Auffälligkeitskomponente 504 einen oder mehrere Orte priorisieren, die als wahrscheinlich identifiziert wurden, dass sie Fußgänger aufweisen. Beispielsweise können die Orte in der Reihenfolge der Wahrscheinlichkeit, dass ein Fußgänger vorhanden ist, priorisiert werden. Diese Orte können dann in der Reihenfolge ihrer Priorität verarbeitet werden, um die Geschwindigkeit bei der Identifizierung von Fußgängern zu erleichtern. Beispielsweise kann ein erster Bereich am wahrscheinlichsten und ein zweiter Bereich weniger wahrscheinlich sein, einen Fußgänger aufzuweisen, basierend auf einer Verarbeitung unter Verwendung des neuronalen Netzwerks. Indem der erste Bereich zuerst durchsucht wird, können die Chancen, einen Fußgänger früher zu erkennen, signifikant erhöht werden. In ähnlicher Weise können der eine oder die mehreren Orte auf der Grundlage von Position in Bezug auf einen Weg, der von einem Fahrzeug zurückgelegt werden soll, priorisiert werden. Zum Beispiel können Orte, die näher an einem Fahrzeug oder entlang eines Fahrwegs des Fahrzeugs sind, gegenüber Positionen priorisiert werden, die weiter weg vom Fahrzeug oder weit weg von einem Weg des Fahrzeugs gelegen sind.
Die Erkennungskomponente 506 ist konfiguriert, um die Anwesenheit eines Fußgängers innerhalb eines Bildes oder innerhalb anderer Wahrnehmungsdaten zu erfassen. Beispielsweise kann die Erkennungskomponente 506 Bilddaten verarbeiten, um einen menschlichen Fußgänger oder eine andere Person zu erfassen, wobei eine Objekterkennung oder beliebige Bildverarbeitungstechniken verwendet werden. In einer Ausführungsform kann die Erkennungskomponente 506 den Fußgänger innerhalb der Bild- oder Wahrnehmungsdaten lokalisieren. Beispielsweise kann die Erkennungskomponente 506 ein oder mehrere Pixel identifizieren, die dem Fußgänger entsprechen. In einer Ausführungsform kann die Erfassungskomponente 506 den Fußgänger in Bezug auf ein Fahrzeug lokalisieren (beispielsweise in Bezug auf eine Kamera auf dem Fahrzeug, welche das Bild erfasst hat). Die Erfassungskomponente 506 kann einen Abstand zwischen dem Sensor und dem Fußgänger und/oder eine Richtung relativ zu einer Front- oder Fahrtrichtung des Fahrzeugs und des Fußgängers bestimmen.
In einer Ausführungsform erfasst die Erkennungskomponente 506 Fußgänger durch Verarbeiten von Unterbereichen, die durch die Auffälligkeitskomponente 504 identifiziert wurden. Zum Beispiel kann die Erkennungskomponente 506 statt der Verarbeitung eines Bildes als Ganzes nur Bereiche des Bildes verarbeiten, die durch die Auffälligkeitskomponente als wahrscheinlich oder stärker wahrscheinlich gekennzeichnet sind, einen Fußgänger aufzuweisen. Beispielsweise kann die Erkennungskomponente 506 jeden Unterbereich einzeln verarbeiten, um zu bestätigen oder zu bestimmen, dass ein Fußgänger innerhalb des spezifischen Bereichs vorhanden oder nicht vorhanden ist. Als weiteres Beispiel kann ein durch Kombinieren eines Bildes und einer Auffälligkeitskarte (z.B. unter Verwendung eines Schwellenwerts oder eines anderen Effekts) erzeugtes Bild, das durch die Auffälligkeitskomponente 504 definiert ist, durch die Erkennungskomponente 506 verarbeitet werden, um Fußgänger zu lokalisieren. Die Auffälligkeitskarte kann Bereiche des Bildes "schwärzen", "verwischen" oder anderweitig verbergen, die wahrscheinlich keine Fußgänger umfassen, während die anderen Teile für die Verarbeitung durch die Erkennungskomponente 506 zugelassen sind.
In einer Ausführungsform ist die Erkennungskomponente 506 konfiguriert, um ein Bild oder einen oder mehrere Unterbereiche eines Bildes unter Verwendung eines neuronalen Netzwerks zu verarbeiten. Zum Beispiel kann das neuronale Netzwerk, das zum Erfassen von Fußgängern verwendet wird, ein unterschiedliches neuronales Netzwerk sein als jenes, das durch die Auffälligkeitskomponente 504 verwendet wird. In einer Ausführungsform kann das neuronale Netzwerk ein tiefes, gefaltetes neuronales Netzwerk umfassen, das trainiert worden ist, um Fußgänger mit hoher Genauigkeit und einer niedrigen Rate von falschen Negativen zu erfassen. In einer Ausführungsform kann die Erfassungskomponente 506 eine Auffälligkeitskarte oder eine andere Angabe von Unterbereichen verwenden, die durch die Auffälligkeitskomponente 504 erzeugt werden, um eine Vollauflösungsversion des Bildes oder eines Unterabschnitts des Bildes zu verarbeiten. Beispielsweise kann die Erkennungskomponente 506 eine Auffälligkeitskarte mit niedriger Auflösung verwenden, um Bereiche des Bildes zu identifizieren, die verarbeitet werden müssen, aber um dann diese Bereiche bei einer erhöhten oder ursprünglichen Bildauflösung zu verarbeiten.
In einer Ausführungsform kann die Erkennungskomponente 506 ein neuronales Netzwerk verwenden, das unter Verwendung von zugeschnittenen Geländewirklichkeitsbegrenzungsrahmenfeldern trainiert wurde, um zu bestimmen, dass ein Fußgänger vorhanden oder nicht vorhanden ist. Das neuronale Netzwerk kann ein Klassifikator sein, der ein Bild (oder einen Teil eines Bildes) als einen Fußgänger enthaltend oder nicht enthaltend klassifiziert. Beispielsweise kann die Erkennungskomponente 506 jeden durch die Auffälligkeitskomponente 504 identifizierten Abschnitt als einen Fußgänger enthaltend oder nicht enthaltend klassifizieren. Beispielsweise kann in Bezug auf 2 die Auffälligkeitskomponente 504 jeden der ersten, zweiten, dritten und vierten Unterbereiche 202–208 als wahrscheinlich einen Fußgängers enthaltend identifizieren, während die Erkennungskomponente 506 bestätigt, dass ein Fußgänger im ersten, dritten und vierten Unterbereich 202, 206, 208 vorhanden ist, aber bestimmt, dass der zweite Unterbereich 204 keinen Fußgänger enthält.
In einer Ausführungsform kann die Erkennungskomponente 506 Bereiche, die durch die Auffälligkeitskomponente identifiziert werden, in der Reihenfolge ihrer Priorität verarbeiten. Beispielsweise können Orte mit höherer Priorität zuerst verarbeitet werden, um zu bestimmen, ob ein Fußgänger vorhanden ist. Die Verarbeitung in der Reihenfolge der Priorität kann eine erhöhte Geschwindigkeit beim Erfassen von Fußgängern ermöglichen und ermöglicht schnellere Reaktionszeiten, um Unfällen vorzubeugen, eine Kollision zu verhindern, oder einen Fahrweg zu planen.
Die Benachrichtigungskomponente 508 ist konfiguriert, um eine oder mehrere Benachrichtigungen an einen Fahrer oder ein automatisiertes Fahrsystem eines Fahrzeugs bereitzustellen. In einer Ausführungsform kann die Benachrichtigungskomponente 508 Benachrichtigungen an einen Fahrer unter Verwendung einer Anzeige 122 oder eines Lautsprechers 124 bereitstellen. Beispielsweise kann ein Ort des Fußgängers auf einer Überkopfanzeige angezeigt werden. In einer Ausführungsform kann die Benachrichtigung einen Befehl enthalten, um ein Manöver durchzuführen, oder kann warnen, dass ein Fußgänger vorhanden ist. In einer Ausführungsform kann die Benachrichtigungskomponente 508 den Fahrer oder das automatisierte Fahrsystem 100 über ein Fahrmanöver, das durch die Fahrmanöverkomponente 510 ausgewählt oder vorgeschlagen wird, benachrichtigen. In einer Ausführungsform kann die Benachrichtigungskomponente 508 den Fahrer oder das automatisierte Fahrsystem 100 von einer Ortsposition des Fußgängers benachrichtigen, so dass eine Wegplanung oder Kollisionsvermeidung entsprechend durchgeführt werden kann. Ähnlich kann die Benachrichtigungskomponente 508 eine Angabe eines Orts eines jeden erkannten Fußgängers für ein automatisiertes Fahrsystem 100 zur Verfügung stellen, um eine Wegplanung oder Kollisionsvermeidung zu ermöglichen.
Die Fahrmanöverkomponente 510 ist so konfiguriert, dass sie ein Fahrmanöver für ein Stammfahrzeug auf der Basis der Anwesenheit oder Abwesenheit eines Fußgängers auswählt. Zum Beispiel kann die Fahrmanöverkomponente 510 eine oder mehrere Fußgängerorten von der Benachrichtigungskomponente 508 oder der Erkennungskomponente 506 empfangen. Die Fahrmanöverkomponente 510 kann einen Fahrweg bestimmen, um eine Kollision mit dem Fußgänger zu vermeiden oder um einen Raum zum Manövrieren im Fall, dass sich der Fußgänger in einer erwarteten oder unerwarteten Weise bewegt, zu ermöglichen. Beispielsweise kann die Fahrmanöverkomponente 510 bestimmen, ob und wann verzögert, beschleunigt und/oder ein Lenkrad des Stammfahrzeugs gedreht werden soll. In einer Ausführungsform kann die Fahrmanöverkomponente 510 den Zeitpunkt für das Fahrmanöver bestimmen. Beispielsweise kann die Fahrmanöverkomponente 510 bestimmen, dass ein Stammfahrzeug aufgrund des Vorhandenseins eines Fußgängers warten, einen Fahrspurwechsel durchführen oder durch eine Kreuzung fahren muss.
Es wird nun auf 6 Bezug genommen, um eine Ausführungsform eines schematischen Flussdiagrammes eines Verfahrens 600 zur Fußgängererkennung darzustellen. Das Verfahren 600 kann durch ein automatisiertes Fahrerassistenzsystem oder eine Fußgängerkomponente, wie das automatisierte Fahr-/Assistenzsystem 102 von 1, oder die Fußgängerkomponente 104 der 1 oder 5 durchgeführt werden.
Das Verfahren 600 beginnt und eine Wahrnehmungsdatenkomponente 502 empfängt ein Bild eines Bereichs in der Nähe eines Fahrzeugs bei 602. Eine Auffälligkeitskomponente 504 verarbeitet das Bild unter Verwendung eines ersten neuronalen Netzwerks, um einen oder mehrere Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden, bei 604. Eine Erkennungskomponente 506 verarbeitet den einen oder die mehreren Orte des Bildes unter Verwendung eines zweiten neuronalen Netzwerks, um zu bestimmen, dass ein Fußgänger vorhanden ist, bei 606. Eine Benachrichtigungskomponente 508 liefert eine Angabe für ein Fahrassistenzsystem oder automatisiertes Fahrsystem, dass der Fußgänger vorhanden ist, bei 608.
Obwohl verschiedene Ausführungsformen und Beispiele, die hierin beschrieben wurden, zum Erfassen von Fußgängern auf der Basis von Kamerabildern ausgerichtet sind, können einige Ausführungsformen mit Wahrnehmungsdaten arbeiten, die von anderen Sensortypen, wie Radarsysteme 106, LIDAR-Systeme 108, Ultraschallsysteme 114 oder jede andere Art von Sensor oder Sensorsystem, gesammelt werden.
Beispiele
Die folgenden Beispiele betreffen weitere Ausführungsformen.
Beispiel 1 ist ein Verfahren zum Erfassen von Fußgängern, das das Empfangen eines Bildes eines Bereichs in der Nähe eines Fahrzeugs umfasst. Das Verfahren umfasst auch das Verarbeiten des Bildes unter Verwendung eines ersten neuronalen Netzwerks, um einen oder mehrere Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden. Das Verfahren umfasst auch das Verarbeiten des einen oder der mehreren Orte des Bildes unter Verwendung eines zweiten neuronalen Netzwerks, um zu bestimmen, dass ein Fußgänger vorhanden ist. Das Verfahren umfasst das Benachrichtigen eines Fahrassistenzsystems oder eines automatisierten Fahrsystems, dass der Fußgänger vorhanden ist.
In Beispiel 2 umfasst das erste neuronale Netzwerk aus Beispiel 1 ein Netzwerk, das ausgebildet ist, um ungefähre Orte in Bildern zu identifizieren, die wahrscheinlich Fußgänger aufweisen.
In Beispiel 3 erzeugt das erste neuronale Netzwerk nach einem beliebigen der Beispiele 1–2 eine Auffälligkeitskarte, die die wahrscheinlichsten Orte von Fußgängern anzeigt.
In Beispiel 4 weist die Auffälligkeitskarte von Beispiel 3 eine niedrigere Auflösung als das Bild auf.
In Beispiel 5 verarbeitet das zweite neuronale Netzwerk nach einem beliebigen der Beispiele 1–4 den einen oder die mehreren Orte innerhalb des Bildes mit voller Auflösung.
In Beispiel 6 enthält das zweite neuronale Netzwerk nach einem beliebigen der Beispiele 1–5 einen tiefen neuronalen Netzwerkklassifikator, der unter Verwendung von zugeschnittenen Geländewirklichkeitsbegrenzungsrahmenfeldern trainiert wurde, um zu bestimmen, dass ein Fußgänger vorhanden ist oder nicht vorhanden ist.
In Beispiel 7 umfasst das Bestimmen, dass ein Fußgänger in irgendeinem der Beispiele 1–6 vorhanden ist, das Bestimmen, ob ein Fußgänger an jedem der einen oder der mehreren Orte vorhanden ist.
In Beispiel 8 umfasst das Verfahren nach einem beliebigen der Beispiele 1–7 ferner das Bestimmen eines Ortes des Fußgängers in Bezug auf das Fahrzeug, basierend auf dem Bild.
In den Beispielen 9 umfasst das Verfahren nach einem beliebigen der Beispiele 1–8 ferner das Bestimmen einer Priorität für den einen oder die mehreren Orte, wobei das Verarbeiten des einen oder der mehreren Orte das Verarbeiten unter Verwendung des zweiten neuronalen Netzwerks auf Basis der Priorität umfasst.
Beispiel 10 ist ein System, das eine oder mehrere Kameras, eine Auffälligkeitskomponente, eine Erkennungskomponente und eine Benachrichtigungskomponente umfasst. Die eine oder die mehreren Kameras sind auf einem Fahrzeug positioniert, um ein Bild eines Bereichs nahe dem Fahrzeug zu erfassen. Die Auffälligkeitskomponente ist so konfiguriert, dass sie das Bild unter Verwendung eines ersten neuronalen Netzwerks verarbeitet, um eine Auffälligkeitskarte mit niedriger Auflösung zu erzeugen, die einen oder mehrere Bereiche anzeigt, in denen sich Fußgänger höchstwahrscheinlich innerhalb des Bildes befinden. Die Erkennungskomponente ist so konfiguriert, dass sie den einen oder die mehreren Bereiche unter Verwendung eines zweiten neuronalen Netzwerks verarbeitet, um für jeden einem oder mehreren Bereiche zu bestimmen, ob ein Fußgänger vorhanden ist. Die Benachrichtigungskomponente ist so konfiguriert, dass sie eine Benachrichtigung bereitstellt, die eine Anwesenheit oder Abwesenheit von Fußgängern anzeigt.
In Beispiel 11 weist die Auffälligkeitskarte von Beispiel 10 eine geringere Auflösung als das Bild auf.
In Beispiel 12 verwendet die Erkennungskomponente in einem beliebigen der Beispiele 10–11 das zweite neuronale Netzwerk, um den einen oder die mehrere Orte innerhalb des Bildes mit voller Auflösung zu verarbeiten.
In Beispiel 13 umfasst das zweite neuronale Netzwerk in einem beliebigen der Beispiele 10–12 einen tiefen neuronalen Netzwerkklassifikator, der unter Verwendung von zugeschnittenen Geländewirklichkeitsbegrenzungsrahmenfeldern trainiert wurde, um zu bestimmen, dass ein Fußgänger vorhanden ist oder nicht vorhanden ist.
In Beispiel 14 ist die Erkennungskomponente in einem beliebigen der Beispiele 10–13 konfiguriert, um zu bestimmen, ob ein Fußgänger in jedem des einen oder der mehreren Bereiche vorhanden ist.
In Beispiel 15 ist die Benachrichtigungskomponente in einem beliebigen der Beispiele 10–14 konfiguriert, um die Benachrichtigung an eine oder an mehrere einer Ausgabevorrichtung bereitzustellen, um einen Fahrer und ein automatisiertes Fahrsystem zu benachrichtigen.
In Beispiel 16 umfasst das System von einem beliebigen der Beispiele 10–15 ferner eine Fahrmanöverkomponente, die konfiguriert ist, um ein Fahrmanöver zu bestimmen, welches das Fahrzeug ausführen muss.
Beispiel 17 ist ein computerlesbares Speichermedium, das Befehle speichert, die, wenn von einem oder mehreren Prozessoren ausgeführt, bewirken, dass der eine oder die mehreren Prozessoren ein Bild eines Bereichs in der Nähe eines Fahrzeugs empfangen. Die Befehle führen ferner dazu, dass der eine oder die mehreren Prozessoren das Bild unter Verwendung eines ersten neuronalen Netzwerks verarbeiten, um einen oder mehrere Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden. Die Befehle bewirken ferner, dass der eine oder die mehreren Prozessoren den einen oder die mehreren Orte des Bildes unter Verwendung eines zweiten neuronalen Netzwerks verarbeiten, um zu bestimmen, dass ein Fußgänger vorhanden ist. Die Befehle führen ferner dazu, dass der eine oder die mehreren Prozessoren eine Anzeige an ein Fahrassistenzsystem oder ein automatisiertes Fahrsystem liefern, dass der Fußgänger vorhanden ist.
In Beispiel 18 umfasst das Verarbeiten des Bildes unter Verwendung eines ersten neuronalen Netzwerks aus Beispiel 17 das Erzeugen einer Auffälligkeitskarte, die den einen oder die mehreren Orte anzeigt, wobei die Auffälligkeitskarte eine niedrigere Auflösung als das Bild aufweist.
In Beispiel 19 lassen die Befehle in einem beliebigen der Beispiele 17–18 ferner den einen oder die mehreren Prozessoren bestimmen, ob ein Fußgänger in jedem des einen oder der mehreren Orte vorhanden ist.
In Beispiel 20 lassen die Befehle in einem beliebigen der Beispiele 17–19 den einen oder die mehreren Prozessoren eine Priorität für den einen oder die mehreren Orte bestimmen und den einen oder die mehreren Orte basierend auf der Priorität verarbeiten.
Beispiel 21 ist ein System oder eine Vorrichtung, welches/welche Mittel zum Implementieren eines Verfahrens oder zum Realisieren eines Systems oder einer Vorrichtung in einem beliebigen der Beispiele 1–20 umfasst.
In der obigen Offenbarung wurde auf die begleitenden Zeichnungen, die einen Teil hiervon bilden und in denen zur Veranschaulichung spezifische Umsetzungen gezeigt sind, in denen die Offenbarung praktiziert werden kann, Bezug genommen. Es versteht sich von selbst, dass andere Implementierungen verwendet und strukturelle Änderungen vorgenommen werden können, ohne vom Umfang der vorliegenden Offenbarung abzuweichen. Bezugnahmen in der Beschreibung auf "eine (Zahlwort) Ausführungsform", "eine (unbestimmter Artikel) Ausführungsform", "eine beispielhafte Ausführungsform" usw. zeigen an, dass die beschriebene Ausführungsform ein bestimmtes Merkmal, eine Struktur oder eine Charakteristik umfassen kann, wobei aber nicht jede Ausführungsform notwendigerweise das bestimmte Merkmal, die bestimmte Struktur oder Charakteristik umfassen muss. Darüber hinaus beziehen sich solche Phrasen nicht notwendigerweise auf dieselbe Ausführungsform. Ferner wird, wenn ein bestimmtes Merkmal, eine bestimmte Struktur oder Charakteristik in Verbindung mit einer Ausführungsform beschrieben wird, erwartet, dass es innerhalb der Kenntnis eines Fachmanns liegt, ein solches Merkmal, eine solche Struktur oder Charakteristik in Verbindung mit anderen Ausführungsformen einzusetzen, ob ausdrücklich in der Hinsicht beschrieben oder nicht.
Wie hier verwendet, kann "autonomes Fahrzeug" ein Fahrzeug sein, das zur Gänze unabhängig von einem menschlichen Fahrer agiert oder betrieben wird; oder es kann ein Fahrzeug sein, das in einigen Fällen unabhängig von einem menschlichen Fahrer agiert oder betrieben wird, während in anderen Fällen ein menschlicher Fahrer in der Lage ist, das Fahrzeug zu betreiben; oder es kann ein Fahrzeug sein, das überwiegend von einem menschlichen Fahrer, jedoch mit Hilfe eines automatisierten Fahr-/Assistenzsystems betrieben wird.
Ausführungsformen der hierin offenbarten Systeme, Vorrichtungen und Verfahren können einen dafür vorgesehenen oder einen für mehrere Zwecke verwendbaren Computer einschließlich der Computerhardware, wie beispielsweise einen oder mehrere Prozessoren und Systemspeicher, umfassen oder verwenden, wie hierin diskutiert. Umsetzungen im Rahmen der vorliegenden Offenbarung können auch körperliche und andere computerlesbare Medien zum Tragen oder Speichern von computerausführbaren Befehlen und/oder Datenstrukturen umfassen. Solche computerlesbaren Medien können beliebige verfügbare Medien sein, auf die durch ein universelles oder spezielles Computersystem zugegriffen werden kann. Computerlesbare Medien, die computerausführbare Befehle speichern, sind Computerspeichermedien (Vorrichtungen). Computer-lesbare Medien, die computerausführbare Befehle tragen, sind Übertragungsmedien. So können zum Beispiel und ohne Einschränkung Umsetzungen der Offenbarung mindestens zwei deutlich unterscheidbare Arten von computerlesbaren Medien umfassen: Computerspeichermedien (Vorrichtungen) und Übertragungsmedien.
Computerspeichermedien (Vorrichtungen) umfassen RAM, ROM, EEPROM, CD-ROM, Solid-State-Laufwerke ("SSDs") (z.B. basierend auf RAM), Flash-Speicher, Phasenänderungsspeicher ("PCM"), andere Arten von Speichern, andere optische Plattenspeicher, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder jedes beliebige andere Medium, das verwendet werden kann, um gewünschte Programmcodemittel in Form von computerausführbaren Befehlen oder Datenstrukturen zu speichern, und auf das durch einen universellen oder speziellen Computer zugegriffen werden kann.
Eine Umsetzung der hierin offenbarten Vorrichtungen, Systeme und Verfahren kann über ein Computernetzwerk kommunizieren. Ein "Netzwerk" ist definiert als eine oder mehrere Datenverbindungen, die den Transport elektronischer Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wenn Informationen über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder fest verdrahtet, drahtlos oder eine Kombination von fest verdrahtet oder drahtlos) an einen Computer übertragen werden, betrachtet der Computer die Verbindung richtigerweise als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenverbindungen umfassen, die verwendet werden können, um gewünschte Programmcodemittel in Form von computerausführbaren Befehlen oder Datenstrukturen zu tragen, auf die von einem Universal- oder Spezialcomputer zugegriffen werden kann. Kombinationen der obigen müssen ebenfalls im Umfang von computerlesbaren Medien umfasst sein.
Computerausführbare Befehle umfassen beispielsweise Befehle und Daten, die bei Ausführung mit einem Prozessor einen Universalrechner, einen Spezialrechner oder eine Spezialverarbeitungsvorrichtung veranlassen, eine bestimmte Funktion oder eine Gruppe von Funktionen auszuführen. Die computerausführbaren Befehle können beispielsweise Binärdateien, Zwischenformatbefehle wie Assembler-Sprache oder sogar Quellcode sein. Obwohl der Gegenstand in einer Sprache beschrieben wurde, die spezifisch für strukturelle Merkmale und/oder methodische Handlungen ist, versteht es sich von selbst, dass der Gegenstand, der in den beigefügten Ansprüchen definiert ist, nicht notwendigerweise auf die oben beschriebenen Merkmale oder Handlungen beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Wirkungen als beispielhafte Umsetzungsformen der Ansprüche offenbart.
Der Fachmann wird erkennen, dass die Offenbarung in Netzwerkcomputerumgebungen mit vielen Arten von Computersystemkonfigurationen praktiziert werden kann, einschließlich im Armaturenbrett eingebauter Fahrzeugcomputer, Personal-Computer, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, Handcomputergeräte, Multiprozessorsysteme, Mikroprozessor-basierte oder programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Großrechner, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches, verschiedene Speichervorrichtungen und dergleichen. Die Offenbarung kann auch in verteilten Systemumgebungen praktiziert werden, bei denen sowohl lokale als auch entfernte Computersysteme, die (entweder durch fest verdrahtete Datenverbindungen, drahtlose Datenverbindungen oder durch eine Kombination von festverdrahteten und drahtlosen Datenverbindungen) über ein Netzwerk miteinander verbunden sind, beiderseits Aufgaben ausführen. In einer verteilten Systemumgebung können sich Programmmodule sowohl in lokalen als auch in entfernten Speichervorrichtungen befinden.
Ferner können die hierin beschriebenen Funktionen, falls geeignet, in einer oder mehreren der folgenden Komponenten ausgeführt werden: Hardware, Software, Firmware, digitale Komponenten oder analoge Komponenten. Beispielsweise können eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs) programmiert werden, um eines oder mehrere der hierin beschriebenen Systeme und Verfahren auszuführen. Bestimmte Begriffe werden in der gesamten Beschreibung und in den Ansprüchen verwendet, um auf bestimmte Systemkomponenten Bezug zu nehmen. Wie ein Fachmann erkennen wird, können Komponenten mit unterschiedlichen Namen bezeichnet werden. Dieses Dokument beabsichtigt nicht, zwischen Komponenten zu unterscheiden, die sich im Namen unterscheiden, aber nicht in der Funktion.
Es sollte angemerkt werden, dass die oben diskutierten Sensorausführungsformen Computerhardware, Software, Firmware oder irgendeine Kombination davon umfassen können, um mindestens einen Teil ihrer Funktionen auszuführen. Beispielsweise kann ein Sensor einen Computercode umfassen, der konfiguriert ist, um in einem oder mehreren Prozessoren ausgeführt zu werden, und kann eine Hardware-Logik/elektrische Schaltung umfassen, die durch den Computercode gesteuert wird. Diese beispielhaften Vorrichtungen sind hierin zur Veranschaulichung bereitgestellt und beabsichtigen nicht, einschränkend zu sein. Ausführungsformen der vorliegenden Offenbarung können in weiteren Arten von Vorrichtungen umgesetzt werden, wie dies Fachleuten bekannt sein muss.
Zumindest einige Ausführungsformen der Offenbarung beziehen sich auf Computerprogrammprodukte, die eine solche Logik (z. B. in Form von Software) aufweisen, die auf einem beliebigen computerverwendbaren Medium gespeichert sind. Eine solche Software bewirkt, wenn sie in einer oder mehreren Datenverarbeitungsvorrichtungen ausgeführt wird, dass eine Vorrichtung arbeitet, wie hierin beschrieben.
Während verschiedene Ausführungsformen der vorliegenden Offenbarung oben beschrieben worden sind, versteht es sich von selbst, dass sie lediglich beispielhaft und nicht beschränkend dargestellt worden sind. Für Fachleute auf diesem Gebiet der Technik ist es offensichtlich, dass verschiedene Änderungen in Form und Detail vorgenommen werden können, ohne vom Geist und Umfang der Offenbarung abzuweichen. Daher darf die Breite und der Umfang der vorliegenden Offenbarung nicht durch irgendeine der oben beschriebenen beispielhaften Ausführungsformen begrenzt werden, sondern darf nur in Übereinstimmung mit den folgenden Ansprüchen und ihren Äquivalenten definiert werden. Die vorstehende Beschreibung wurde für die Zwecke der Veranschaulichung und Beschreibung vorgestellt. Es ist nicht beabsichtigt, dass sie erschöpfend ist oder die Offenbarung auf die offenbarte genaue Form beschränkt ist. Viele Modifikationen und Variationen sind im Licht der obigen Lehre möglich. Ferner muss beachtet werden, dass irgendwelche oder alle der vorgenannten alternativen Umsetzungen in jeder beliebigen Kombination verwendet werden können, um zusätzliche Hybrid-Umsetzungen der Offenbarung auszubilden.
Obwohl spezifische Implementierungen der Offenbarung beschrieben und dargestellt wurden, ist die Offenbarung ferner nicht auf die spezifischen Formen oder Anordnungen von Teilen beschränkt, die so beschrieben und dargestellt sind. Der Umfang der Offenbarung muss durch die hierin beigefügten Ansprüche, zukünftigen Ansprüche, die hier und in verschiedenen Anwendungen eingereicht werden, und deren Äquivalente definiert werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

"ImageNet Classification with Deep Convolutional Neural Networks" von A. Krizhevsky, I. Sutskever, G. Hinton (Neural Information Processing Systems Conference, 2012) [0013]
"Pedestrian Detection with a Large-Field-Of-View Deep Network", A. Angelova, A. Krizhevsky, V. Vanhoucke (IEEE International Conference on Robotics and Automation ICRA 2015) [0014]

Claims

Verfahren zum Erfassen von Fußgängern, umfassend: Empfangen eines Bildes eines Bereichs in der Nähe eines Fahrzeugs; Verarbeiten des Bildes unter Verwendung eines ersten neuronalen Netzwerks, um einen oder mehrere Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden; Verarbeiten des einen oder der mehreren Orte des Bildes unter Verwendung eines zweiten neuronalen Netzwerks, um zu bestimmen, dass ein Fußgänger anwesend ist; und Benachrichtigen eines Fahrassistenzsystems oder eines automatisierten Fahrsystems, dass der Fußgänger anwesend ist.
Verfahren nach Anspruch 1, wobei das erste neuronale Netzwerk ein Netzwerk umfasst, das trainiert ist, um ungefähre Orte in Bildern zu identifizieren, die wahrscheinlich Fußgänger enthalten.
Verfahren nach Anspruch 1, wobei das erste neuronale Netzwerk eine Auffälligkeitskarte erzeugt, welche die wahrscheinlichsten Orte von Fußgängern anzeigt.
Verfahren nach Anspruch 3, wobei die Auffälligkeitskarte eine geringere Auflösung als das Bild aufweist.
Verfahren nach Anspruch 1, wobei das zweite neuronale Netzwerk den einen oder die mehreren Orte innerhalb des Bildes mit voller Auflösung verarbeitet.
Verfahren nach Anspruch 1, wobei das zweite neuronale Netzwerk einen tiefen neuronalen Netzklassifikator umfasst, der unter Verwendung von zugeschnittenen Geländewirklichkeitsbegrenzungsrahmenfeldern trainiert wurde, um zu bestimmen, dass ein Fußgänger anwesend ist oder nicht anwesend ist.
Verfahren nach Anspruch 1, wobei das Bestimmen, dass ein Fußgänger anwesend ist, das Bestimmen umfasst, ob ein Fußgänger an jedem des einen oder der mehreren Orte anwesend ist.
Verfahren nach Anspruch 1, ferner umfassend Bestimmen eines Orts des Fußgängers in Bezug auf das Fahrzeug basierend auf dem Bild.
Verfahren nach Anspruch 1, ferner umfassend Bestimmen einer Priorität für den einen oder die mehreren Orte, wobei das Verarbeiten des einen oder der mehreren Orte das Verarbeiten unter Verwendung des zweiten neuronalen Netzwerks basierend auf der Priorität umfasst.
System, umfassend: eine oder mehrere Kameras, die auf einem Fahrzeug positioniert sind, um ein Bild eines Bereichs in der Nähe des Fahrzeugs zu erfassen; eine Auffälligkeitskomponente, die konfiguriert ist, um das Bild unter Verwendung eines ersten neuronalen Netzwerks zu verarbeiten, um eine Auffälligkeitskarte mit niedriger Auflösung zu erzeugen, die einen oder mehrere Bereiche anzeigt, in denen sich Fußgänger höchstwahrscheinlich innerhalb des Bildes befinden; eine Erkennungskomponente, die konfiguriert ist, um einen oder mehrere Bereiche unter Verwendung eines zweiten neuronalen Netzwerks zu verarbeiten, um für jeden von einem oder mehreren Bereichen zu bestimmen, ob ein Fußgänger anwesend ist; und eine Benachrichtigungskomponente, die konfiguriert ist, um eine Benachrichtigung bereitzustellen, die eine Anwesenheit oder Abwesenheit von Fußgängern anzeigt.
System nach Anspruch 10, wobei die Auffälligkeitskarte eine niedrigere Auflösung als das Bild aufweist.
System nach Anspruch 10, wobei die Erkennungskomponente das zweite neuronale Netzwerk verwendet, um den einen oder die mehreren Orte innerhalb des Bildes mit voller Auflösung zu verarbeiten.
System nach Anspruch 10, wobei das zweite neuronale Netzwerk einen tiefen neuronalen Netzklassifikator umfasst, der unter Verwendung von zugeschnittenen Geländewirklichkeitsbegrenzungsrahmenfeldern trainiert wurde, um zu bestimmen, dass ein Fußgänger anwesend ist oder nicht.
System nach Anspruch 10, wobei die Erkennungskomponente konfiguriert ist zu bestimmen, ob ein Fußgänger in jedem des einen oder der mehreren Bereiche anwesend ist.
System nach Anspruch 10, wobei die Benachrichtigungskomponente konfiguriert ist, um die Benachrichtigung an eine oder mehrere einer Ausgabevorrichtung zu liefern, um einen Fahrer und ein automatisiertes Fahrsystem zu benachrichtigen.
System nach Anspruch 10, ferner umfassend eine Fahrmanöverkomponente, die konfiguriert ist, um ein Fahrmanöver zur Ausführung durch das Fahrzeug zu bestimmen.
Computerlesbares Speichermedium, das Befehle speichert, die, wenn sie von einem oder mehreren Prozessoren ausgeführt werden, bewirken, dass der eine oder die mehreren Prozessoren: ein Bild eines Bereichs in der Nähe eines Fahrzeugs empfängt/empfangen; das Bild unter Verwendung eines ersten neuronalen Netzwerks verarbeitet/verabeiten, um einen oder mehrere Orte zu bestimmen, an denen sich Fußgänger wahrscheinlich innerhalb des Bildes befinden; den einen oder die mehreren Orte des Bildes unter Verwendung eines zweiten neuronalen Netzwerks verarbeitet/verarbeiten, um zu bestimmen, dass ein Fußgänger anwesend ist; und eine Anzeige für ein Fahrassistenzsystem oder ein automatisiertes Fahrsystem zur Verfügung stellt/stellen, dass der Fußgänger anwesend ist.
Computerlesbares Speichermedium nach Anspruch 17, wobei das Verarbeiten des Bildes unter Verwendung eines ersten neuronalen Netzwerks das Erzeugen einer Auffälligkeitskarte umfasst, die den einen oder die mehreren Orte anzeigt, wobei die Auffälligkeitskarte eine niedrigere Auflösung als das Bild aufweist.
Computerlesbares Speichermedium nach Anspruch 17, wobei die Befehle den einen oder die mehreren Prozessoren veranlassen, zu bestimmen, ob ein Fußgänger in jedem des einen oder der mehreren Orte anwesend ist.
Computerlesbares Speichermedium nach Anspruch 17, wobei die Befehle den einen oder die mehreren Prozessoren veranlassen, eine Priorität für den einen oder die mehreren Orte zu bestimmen und den einen oder die mehreren Orte basierend auf der Priorität zu verarbeiten.