DE102021111096A1

DE102021111096A1 - Per visuellem verhalten geführte objekterkennung

Info

Publication number: DE102021111096A1
Application number: DE102021111096.3A
Authority: DE
Inventors: Apurbaa MALLIK; Vijay Nagasamy; Aniruddh RAVINDRAN
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2020-05-06
Filing date: 2021-04-29
Publication date: 2021-11-11
Also published as: US20210350184A1; CN113627608A; US11604946B2

Abstract

Diese Offenbarung stellt eine per visuellem Verhalten geführte Objekterkennung bereit. Es werden ein Trainingssystem für ein tiefes neuronales Netzwerk und ein Trainingsverfahren offenbart. Das System und/oder das Verfahren kann/können Folgendes beinhalten: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wird, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist. Das tiefe neuronale Netzwerk erzeugt mindestens eine Merkmalskarte und bestimmt basierend auf den Augenbewegungsdaten eine vorgeschlagene Region, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.

Description

GEBIET DER TECHNIK
Diese Offenbarung betrifft im Allgemeinen tiefe neuronale Netzwerke.
ALLGEMEINER STAND DER TECHNIK
Autonome Fahrzeuge können eine computergesteuerte Lenkung und Geschwindigkeitssteuerung basierend auf Sensoreingaben ausführen. In einigen Fällen können autonome Fahrzeuge tiefe neuronale Netzwerke (deep neural networks - DNNs) verwenden, um viele Aufgaben zum Verstehen von Bildern durchzuführen, einschließlich Klassifizierung, Segmentierung und Untertitelung. Zum Beispiel können tiefe neuronale Netzwerke ein Bild als Eingabe verwenden, verschiedenen Aspekten/Objekten, die in dem Bild abgebildet sind, einen Wichtigkeitsgrad zuweisen und die Aspekte/Objekte voneinander abgrenzen.
KURZDARSTELLUNG
Ein Verfahren zum Trainieren eines tiefen neuronalen Netzwerkes kann Folgendes beinhalten: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wird, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist. Das tiefe neuronale Netzwerk erzeugt mindestens eine Merkmalskarte und bestimmt basierend auf den Augenbewegungsdaten eine vorgeschlagene Region, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
In anderen Merkmalen handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (convolutional neural network - CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
In anderen Merkmalen ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Sensor empfangen wird.
In anderen Merkmalen umfasst das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
In anderen Merkmalen beinhaltet das Verfahren das Installieren des trainierten tiefen neuronalen Netzwerkes in einem Fahrzeug; und das Verwenden des trainierten tiefen neuronalen Netzwerkes, um das Fahrzeug in einem autonomen Modus zu navigieren.
In anderen Merkmalen umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
Gemäß mindestens einem zusätzlichen veranschaulichenden Beispiel ist ein System beschrieben, das Folgendes umfasst: ein Eye-Tracking-System einschließlich eines Sensors; einen Computer, der kommunikativ an den Sensor und das Eye-Tracking-System gekoppelt ist und einen oder mehrere Prozessoren und einen Speicher umfasst, auf dem Anweisungen gespeichert sind, die durch den einen oder die mehreren Prozessoren ausgeführt werden können, wobei die Anweisungen bei Auführung durch den Prozessor den Prozessor zu Folgendem veranlassen: Empfangen eines Bildrahmens von dem Eye-Tracking-System, der aufgenommen wurde, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen, von dem Eye-Tracking-System, von Augenbewegungsdaten, die dem Bildrahmen entsprechen; und iteratives Trainieren eines tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist. Das tiefe neuronale Netzwerk erzeugt mindestens eine Merkmalskarte und bestimmt basierend auf den Augenbewegungsdaten eine vorgeschlagene Region, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
Gemäß dem mindestens einen vorstehend dargelegten Beispiel umfasst das tiefe neuronale Netzwerk einen Fußgängererkennungsalgorithmus, ein erstes tiefes neuronales Netzwerk (erstes DNN), ein zweites tiefes neuronales Netzwerk (zweites DNN) und ein drittes tiefes neuronales Netzwerk (drittes DNN), wobei der Bildrahmen eine Eingabe in jedes von dem Fußgängererkennungsalgorithmus und dem zweiten DNN darstellt, wobei eine Ausgabe des ersten und des zweiten DNN Eingaben in das dritte DNN darstellt, wobei eine Ausgabe des dritten DNN eine Angabe des einen Zielfußgängers oder der mehreren Zielfußgänger darstellt.
Gemäß dem mindestens einen vorstehend dargelegten Beispiel ist eine Rechenvorrichtung offenbart, die mindestens einen Prozessor und mindestens einen Speicher umfasst und dazu programmiert ist, eine beliebige Kombination aus den Beispielen für das/die vorstehend dargelegte(n) Verfahren auszuführen.
Gemäß dem mindestens einen Beispiel ist ein Computerprogrammprodukt offenbart, das ein computerlesbares Medium beinhaltet, auf dem Anweisungen gespeichert sind, die durch einen Computerprozessor ausgeführt werden können, wobei die Anweisungen des Computerprogrammprodukts eine beliebige Kombination aus den Beispielen für das/die vorstehend dargelegte(n) Verfahren und/oder eine beliebige Kombination der Anweisungen, die durch den einen oder die mehreren Prozessoren ausgeführt werden können, beinhalten, wie vorstehend und in dieser Schrift dargelegt.
In anderen Merkmalen handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
In anderen Merkmalen umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
In anderen Merkmalen ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Sensor empfangen wird.
In anderen Merkmalen umfasst das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
In anderen Merkmalen veranlassen die Anweisungen bei Ausführung durch den Prozessor den Prozessor zu Folgendem: Navigieren des Fahrzeugs in einem autonomen Modus basierend auf dem Objekt von Interesse.
In anderen Merkmalen umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
Figurenliste

1 ist ein schematisches Diagramm eines Systems für ein tiefes neuronales Netzwerk, das ein Fahrzeug (von dem nur ein Abschnitt gezeigt ist), ein beispielhaftes Eye-Tracking-System und einen Computer beinhaltet.
2 ist ein beispielhaftes schematisches Diagramm des Eye-Tracking-Systems.
3 ist ein beispielhaftes schematisches Diagramm des Computers.
4 ist ein schematisches Diagramm, das ein Beispiel für ein tiefes neuronalen Netzwerk veranschaulicht.
5 ist ein schematisches Diagramm, das ein Beispiel für ein tiefes neuronales Netzwerk (DNN) des tiefen neuronalen Netzwerkes veranschaulicht.
6 ist ein Diagramm einer beispielhaften Merkmalskarte, die durch das tiefe neuronale Netzwerk erzeugt wird.
7 ist ein schematisches Diagramm, das ein Beispiel für einen Bildrahmen veranschaulicht, der ein oder mehrere Objekte enthält, die für einen Fahrzeugführer eines Fahrzeugs von Interesse sind.
8 ist ein Ablaufdiagramm, das einen Prozess zum Trainieren des tiefen neuronalen Netzwerkes zum Bestimmen eines oder mehrerer Zielobjekte veranschaulicht.
9 ist ein Ablaufdiagramm, das einen Prozess zum Verwenden des trainierten tiefen neuronalen Netzwerkes veranschaulicht.

DETAILLIERTE BESCHREIBUNG
Die vorliegende Offenbarung offenbart ein System, das eine auf einer Fahrerpriorität basierende Objekterkennung und -klassifizierung bereitstellt. In einem oder mehreren Beispielen kann das System ein tiefes neuronales Netzwerk beinhalten. Das tiefe neuronale Netzwerk kann ein schnelleres R-CNN (neuronales Faltungsnetzwerk) beinhalten. Das tiefe neuronale Netzwerk kann eine Bildsequenz empfangen, die durch ein Eye-Tracking-System aufgenommen wurde. Das Eye-Tracking-System kann die Bildsequenz aufnehmen und die Augenbewegungsdaten eines Benutzers bestimmen. Unter Verwendung der Augenbewegungsdaten und der Bildsequenz erzeugt das tiefe neuronale Netzwerk Regionsvorschläge, die den Augenbewegungsdaten entsprechen. Infolgedessen kann das tiefe neuronale Netzwerk die Anzahl von Regionsvorschlägen reduzieren, die durch typische schnellere R-CNN-Systeme erzeugt werden.
Unter jetziger Bezugnahme auf die Figuren, in denen gleiche Bezugszeichen gleiche oder ähnliche Merkmale und/oder Funktionen angeben, ist ein Trainingssystem 10, das ein tiefes neuronales Netzwerk beinhaltet, und eine Technik zum Verwenden des Trainingssystems 10 offenbart. Sobald es trainiert ist, kann das tiefe neuronale Netzwerk in einem Fahrzeug 12 installiert werden, was es dem Fahrzeug 12 ermöglicht, in einem autonomen Modus zu navigieren. Insbesondere kann das tiefe neuronale Netzwerk darauf trainiert werden, Objekte von Interesse zu erkennen und zu klassifizieren. Zum Beispiel kann das tiefe neuronale Netzwerk das visuelle Verhalten des Menschen nachahmen, um einen Schwerpunkt auf Objekte zu legen, die mit größerer Wahrscheinlichkeit die Aufmerksamkeit eines menschlichen Fahrers erhalten würden. Diese Objekte können unter anderem Verkehrszeichen, Fußgänger und/oder Fahrräder, welche die Straße überqueren, Autos in einer bestimmten Umgebung und/oder Schilder innerhalb eines bestimmten Abstands beinhalten. Das trainierte tiefe neuronale Netzwerk verwendet nur Bilddaten, sodass das tiefe neuronale Netzwerk in Bezug auf Systeme, die Bilddaten in Verbindung mit einer Anordnung von Sensoren, z. B. LIDAR, Radar usw., verwenden, relativ wenig rechenintensiv ist.
Neuronale Netzwerke können dadurch trainiert werden, indem bestimmte Merkmale ausgewählt werden, um das neuronale Netzwerk zu lehren, sich in einer gewünschten Weise zu verhalten. Wie in dieser Schrift erörtert, wird jedoch das Trainieren des tiefen neuronalen Netzwerkes des Systems 10 (durch überwachtes Lernen) verbessert, indem Daten verwendet werden, die von einem erfahrenen menschlichen Fahrer/Fahrzeugführer abgeleitet sind. Das Trainieren des tiefen neuronalen Netzwerkes beinhaltet das Verwenden eines Eye-Tracking-Systems 14, das die Augenbewegungsdaten des Fahrzeugführers bestimmt, während der Fahrzeugführer das Fahrzeug 12 steuert. Insbesondere beinhaltet die Ausgabe des Eye-Tracking-Systems 14 die Augenbewegungen und -position des Fahrzeugführers, die mit einer Anzahl von Merkmalen in einem aufgenommenen Bild korrelieren; und einige dieser Merkmale beinhalten gegebenenfalls Objekte innerhalb des Sichtfeldes des Fahrzeugführers. Somit wird beim Trainieren des tiefen neuronalen Netzwerkes davon ausgegangen, dass die Augenbewegungsdaten eine bessere Identifizierung relevanter Merkmale darstellen, als wenn ein Programmierer Merkmale auswählt - da das, was der Fahrzeugführer sieht oder was die Aufmerksamkeit des Fahrzeugführers während des Fahrens durch den Fahrzeugführer erregt, tendenziell einen größeren Einfluss auf das Verhalten des Fahrzeugführers und die Entscheidungsfindung des Fahrzeugführers hat. Des Weiteren wird durch die Verwendung dieser Trainingstechnik die Recheneffizienz beim Trainieren des tiefen neuronalen Netzwerkes verbessert.
Sobald es trainiert ist, kann das tiefe neuronale Netzwerk auf zahlreichen Fahrzeugcomputern installiert und dazu verwendet werden, die jeweiligen Fahrzeuge in Szenarien mit Fußgängern zu navigieren. Ferner erhöht das trainierte tiefe neuronale Netzwerk, sobald es auf einem bordeigenen Computer installiert ist, die Recheneffizienz hinsichtlich der Navigation. Zum Beispiel macht ein Betreiben in einem autonomen Modus üblicherweise eine Fußgängernachverfolgung - d. h. ein Vorhersagen der Bewegungsbahnen aller Fußgänger in einer Szene - erforderlich. Dies kann jedoch rechenintensiv sein. Unter Verwendung des in dieser Schrift beschriebenen trainierten tiefen neuronalen Netzwerkes können ein Teilsatz von Fußgängern (in dieser Schrift als Zielfußgänger bezeichnet) und/oder Zielobjekten sowie Bewegungsbahnen nur für diesen Teilsatz von Fußgängern bestimmt werden. Somit wird durch die Verwendung des trainierten tiefen neuronalen Netzwerkes die Effizienz derartiger bordeigener Berechnungen optimiert.
1-3 veranschaulichen das Trainingssystem 10, welches das Fahrzeug 12, das Eye-Tracking-System 14 (das z. B. von dem menschlichen Fahrzeugführer auf einem Fahrersitz 16 des Fahrzeugs 12 getragen werden kann) und einen Computer 18 umfassen kann, der ein tiefes neuronales Netzwerk nutzt.
In 1 ist das veranschaulichte Fahrzeug 12 ein Personenkraftwagen; dies ist jedoch nur ein Beispiel. Das Fahrzeug 12 könnte stattdessen ein Truck, ein Geländewagen (sport utility vehicle - SUV), ein Wohnmobil, ein Bus, ein Wasserfahrzeug, ein Luftfahrzeug oder ein beliebiges anderes geeignetes Fahrzeug sein, das eine Fahrersteuerschnittstelle 20 umfasst (wie z. B. ein Lenkrad, einen Beschleunigungsregler, eine Bremssteuerung usw.). Das Fahrzeug 12 kann dazu konfiguriert sein, in einem beliebigen geeigneten teilautonomen oder vollautonomen Modus betrieben zu werden (z. B. einschließlich Navigation ohne menschliche Interaktion).
Wie in 1-2 gezeigt, kann das Eye-Tracking-System 14 eine beliebige Vorrichtung umfassen, die Augenbewegungsdaten des Fahrzeugführers überwacht und wiederholt einen Blickpunkt bestimmt (z. B., wohin der Fahrzeugführer schaut), der einem aufgenommenen Bild entspricht. In einigen Beispielen umfasst das Eye-Tracking-System 14 einen nach vorne gerichteten Sensor 22 (z. B. eine Rot-Grün-Blau(RGB)-Kamera), der gleichzeitig ein Video aufnimmt, das für das Sichtfeld (field of view - FOV) des Fahrzeugführers repräsentativ ist, mehrere Augen überwachende Kameras 24, mehrere Beleuchtungseinrichtungen 26, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer 28, der dazu konfiguriert ist, wiederholt Augenbewegungsdaten des Fahrzeugführers für eine Vielzahl von Bildrahmen von Videodaten von dem Sensor 22 zu bestimmen. Bei dem Eye-Tracking-System 14 kann es sich um ein sogenanntes am Körper getragenes Eye-Tracking-System handeln oder es kann sich um ein in dem Fahrzeug 12 montiertes System handeln. Eine nicht einschränkende kommerzielle Umsetzung des Eye-Tracking-Systems 14 ist die „Pro Glasses 2“ von Tobii AB, die ein Brillengestell, Linsen und die vorstehend erörterte Hardware umfasst. In weiteren Beispielen sind/ist der Sensor 22 und/oder der Computer 28 unter Umständen nicht Teil einer gemeinsamen Baugruppe mit der/den Kamera(s) 24 und der/den Beleuchtungseinrichtung(en) 26 - z.B. könnte der Sensor 22 an anderer Stelle in dem Fahrzeug 12 montiert sein oder dergleichen.
Nicht einschränkende Beispiele für Augenbewegungsdaten beinhalten Sätze von Informationen für jeden Rahmen (i) des Videos; wobei z. B. i ein ganzzahliger Wert ist (z. B. i = 0 bis N), wobei N die Gesamtmenge von Rahmen des Videos ist. Jeder Satz von Informationen kann eines oder mehrere der folgenden veranschaulichten Augenbewegungsdatenkriterien beinhalten: einen Zeitstempel (des Rahmens), einen Blickpunkt des linkes Auges (z. B. einen (x, y)-Wert innerhalb des Rahmens (i)), einen Blickpunkt des rechten Auges (z. B. einen (x, y)-Wert innerhalb des Rahmens (i)), eine dreidimensionale (3D-)Blickposition des linken Auges (z. B. einen (x, y, z)-Wert in Bezug auf das Sichtfeld des Fahrzeugführers), eine 3D-Blickposition des rechten Auges (z. B. einen (x, y, z)-Wert in Bezug auf das Sichtfeld des Fahrzeugführers), eine kombinierte 3D-Blickposition der Augen (z. B. sowohl des linken als auch des rechten Auges), eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges (der z. B. eine Genauigkeitswahrscheinlichkeit bezogen auf die vorangehend genannten Kriterien angibt), einen Konfidenzparameter des rechten Auges (der z. B. eine Genauigkeitswahrscheinlichkeit bezogen auf die vorangehend genannten Kriterien angibt), einen Parameter einer galvanischen Hautreaktion (galvanic skin response - GSR), einen dreiachsigen Beschleunigungswert (der z. B. Verschiebungskräfte gemäß einem dreiräumigen Referenzrahmens angibt), einen dreiachsigen Gyroskopwert (der z. B. eine Neigungs-, Roll- und Gierkraft gemäß demselben Referenzrahmen angibt) und einen zugeordneten Blickpunkt (und zwar eine Korrelation des Blickpunktwertes des rechten und des linken Auges und der 3D-Blickposition des linken und rechten Auges sowie der kombinierten 3D-Blickposition der Augen mit dem Rahmen (i)). Zusätzliche Beispiele für Kriterien können mit den vorstehenden Beispielkriterien teilweise oder vollständig kombiniert werden. Somit versteht es sich, dass die Kamera(s) 24 und die Beleuchtungseinrichtung(en) 26 auf das rechte und linke Auge des Fahrzeugführers gerichtet sein können und der Computer 28 diese Informationen (zusammen mit Sensordaten von dem Sensor 22) verwendet, um die vorstehenden Kriterien zu berechnen.
Der Computer 18 (1 und 3) kann einen oder mehrere Prozessoren 40 (zu Veranschaulichungszwecken ist nur einer in dem Diagramm gezeigt), einen Speicher 42 und eine Vielzahl von Anweisungen 44 (nur als Beispiel, Softwarecode) umfassen, die in dem Speicher 42 gespeichert sind und durch den/die Prozessor(en) 40 ausgeführt werden können. Der/die Prozessor(en) 40 kann/können dazu programmiert sein, digitale Anweisungen zu verarbeiten und/oder auszuführen, um mindestens einige der in dieser Schrift beschriebenen Aufgaben auszuführen. Nicht einschränkende Beispiele für den/die Prozessor(en) 40 beinhalten eines oder mehrere von einem Mikroprozessor, einem Mikrocontroller oder einer Steuerung, einer anwendungsspezifischen integrierten Schaltung (application specific integrated circuit - ASIC), einem feldprogrammierbaren Gate-Array (field-programmable gate array - FPGA), einer oder mehreren elektrischen Schaltungen, die diskrete digitale und/oder analoge elektronische Komponenten umfassen, die angeordnet sind, um vorbestimmte Aufgaben oder Anweisungen durchzuführen, usw. - um nur einige zu nennen. In mindestens einem Beispiel liest/lesen der/die Prozessor(en) 40 aus dem Speicher 42 aus und führt/führen mehrere Sätze von Anweisungen (z. B. einschließlich der Anweisungen 44) aus, die als ein Computerprogrammprodukt ausgebildet sein können, das auf einem nichttransitorischen computerlesbaren Speichermedium (wie z. B. dem Speicher 42) gespeichert ist. Nicht einschränkende Beispiele für die Anweisungen 44 werden nachfolgend in den unter Verwendung von Ablaufdiagrammen veranschaulichten Prozessen und an anderer Stelle in dieser Schrift beschrieben, wobei diese und andere Anweisungen in einer beliebigen geeigneten Sequenz ausgeführt werden können, sofern nicht anders angegeben. Die Anweisungen und die nachfolgend beschriebenen beispielhaften Prozesse sind lediglich Ausführungsformen und sollen nicht einschränkend sein.
Der Speicher 42 kann ein beliebiges nichttransitorisches computernutzbares oder -lesbares Medium beinhalten, das eine(n) oder mehrere Speichervorrichtungen oder Speicherartikel einschließen kann. Zu beispielhaften nichttransitorischen computernutzbaren Speichervorrichtungen gehören eine herkömmliche Festplatte, ein Festkörperspeicher, ein Direktzugriffsspeicher (random access memory - RAM), ein Festwertspeicher (read-only memory - ROM), ein löschbarer programmierbarer Festwertspeicher (erasable programmable read-only memory - EPROM), ein elektrisch löschbarer programmierbarer Festwertspeicher (electrically erasable programmable read-only memory - EEPROM) und beliebige andere flüchtige oder nichtflüchtige Medien. Nichtflüchtige Medien schließen zum Beispiel optische Platten oder Magnetplatten und anderen dauerhaften Speicher ein und flüchtige Medien können zum Beispiel auch einen dynamischen Direktzugriffsspeicher (dynamic random-access memory - DRAM) einschließen. Diese Speichervorrichtungen sind nicht einschränkende Beispiele; z. B. gibt es andere Formen computerlesbarer Medien, die magnetische Medien, Compact-Disc-ROM (CD-ROMs), Digital Video Disc (DVDs), andere optische Medien, einen beliebigen geeigneten Speicherchip oder eine beliebige geeignete Speicherkassette oder ein beliebiges anderes Medium, das ein Computer auslesen kann, einschließen. Wie vorstehend erörtert, können in dem Speicher 42 ein oder mehrere Sätze von Anweisungen (wie z. B. die Anweisungen 44) gespeichert sein, die als Software, Firmware oder andere Programmieranweisungen ausgebildet sein können, welche durch den/die Prozessor(en) 40 ausgeführt werden können - einschließlich unter anderem der in dieser Schrift dargelegten Anweisungsbeispiele. Im Betrieb kann der/können die Prozessor(en) 40 Daten aus dem Speicher 42 auslesen und/oder Daten in diesen schreiben.
Die Anweisungen 44 (die in dem Speicher 42 gespeichert sind und durch den/die Prozessor(en) 40 ausgeführt werden können) können einen beliebigen geeigneten Satz von Anweisungen zum Ausführen der in dieser Schrift beschriebenen Verfahren umfassen. Wie nachstehend ausführlicher beschrieben, können die Anweisungen 44 ein tiefes neuronales Netzwerk 80 umfassen. Wie vorstehend gezeigt, beinhaltet das tiefe neuronale Netzwerk 80 eine Eingabeschicht 82, eine oder mehrere verdeckte Schichten 84, 86 (zwei sind beispielhaft gezeigt; es kann jedoch eine beliebige geeignete Menge von Schichten verwendet werden) und eine Ausgabeschicht 88, wobei jede Schicht eine Vielzahl von Neuronen (j) umfasst (auch als „Knoten“ bezeichnet; wobei jedes Neuron einen eindeutigen Index) aufweist. In einem vollständig verbundenen neuronalen Netzwerk ist jedes Neuron einer gegebenen Schicht mit jedem der Neuronen in einer nachfolgenden Schicht verbunden (wie gezeigt). Dreißig Neuronen sind in 4 gezeigt; dies ist jedoch lediglich eine beispielhafte Menge; die Schichten 82-88 können jeweils beliebige geeignete Mengen von Neuronen aufweisen.
Sätze von Eingaben in die Eingabeschicht 82 können ein Eingabebild umfassen, das durch einem vorwärts gerichteten Sensor 22 erzeugt wird. In Bezug auf andere Schichten (z. B. die Schichten 84-88) können die Sätze von Eingaben für jedes Neuron durch die Verbindungen von einer vorangehenden Schicht dargestellt werden. Zum Beispiel stellt in dem Diagramm jedes der Neuronen j₁-j₈ (der Schicht 82) eine Eingabe für j₉ (der Schicht 84) bereit und es kann jede dieser Eingaben mit einer entsprechenden Gewichtung multipliziert werden. In einigen Beispielen können die gewichteten Eingaben gemäß einer Eingabefunktion summiert werden, um eine Nettoeingabe zu ergeben (die gemäß einem entsprechenden Bias-Wert eingestellt werden kann oder nicht). In einigen Beispielen kann die entsprechende Nettoeingabe an eine vorbestimmte neuronale Netzwerkfunktion (wie z. B. eine Aktivierungsfunktion oder dergleichen) bereitgestellt werden, die wiederum eine Ausgabe bereitstellt. Dies kann auf ähnliche Weise für jedes Neuron der entsprechenden Schicht wiederholt werden. Wie veranschaulicht, kann die Ausgabe eines entsprechenden Neurons eine Eingabe in eine Vielzahl von Neuronen in einer nachfolgenden Schicht darstellen oder die Ausgabeschicht 88 umfassen.
5 veranschaulicht eine beispielhafte Umsetzung des tiefen neuronalen Netzwerkes 80. Das tiefe neuronale Netzwerk 80 kann ein neuronales Faltungsnetzwerk (CNN) beinhalten, das dazu ausgelegt ist, Merkmalskarten (i) basierend auf jedem Bildrahmen (i) zu extrahieren. Gemäß einem nicht einschränkenden Beispiel kann das tiefe neuronale Netzwerk 80 ein neuronales Faltungsnetzwerk 90, ein Regionsvorschlagsnetzwerk (region proposal network - RPN) 92, eine Pooling-Schicht 94 der Region von Interesse (region-of-interest - ROI), eine erste vollständig verbundene Schicht 96 und eine zweite vollständig verbundene Schicht 98 beinhalten. Die Faltungsschicht 90 kann den Bildrahmen (i) von dem Eye-Tracking-System 14 empfangen und den Bildrahmen (i) unter Verwendung eines Kernels oder Filters falten - was z. B. eine Vielzahl von gefalteten Merkmalen, z. B. Merkmalskarten, ergibt. Die Merkmalskarten können einen oder mehrere Anker in der gesamten Merkmalskarte zur Vorschlagerzeugung beinhalten. Die Anker können feste Begrenzungsrahmen sein, die in der gesamten Merkmalskarte für einen oder mehrere Punkte innerhalb der Merkmalskarte angeordnet sind, und können anfänglich jedem Pixel entsprechen. Typischerweise (wenngleich nicht erforderlich) können mehrere Iterationen von Faltung vorhanden sein. Andere Aspekte und Faltungstechniken können ebenfalls eingesetzt werden.
Die Merkmalskarten werden dem RPN 92 zur Erzeugung von Regionsvorschlägen bereitgestellt. Wie gezeigt, empfängt das RPN 92 auch projizierte Augenkoordinaten 91. Die projizierten Augenkoordinaten 91 können Augenblickpositionsdaten umfassen, die durch das Eye-Tracking-System 14 erzeugt werden. Zum Beispiel können die projizierten Augenkoordinaten 91 Koordinaten entsprechen, z. B. x- und y-Werten, basierend auf dem Bildrahmen (i). In einer oder mehreren Umsetzungen werden die projizierten Augenkoordinaten 91 unter Verwendung einer geeigneten Abbildungsfunktion von visuellen Koordinaten auf Merkmalskartenkoordinaten abgebildet. Das RPN 92 erzeugt Regionsvorschläge basierend auf den Ankern und den projizierten Augenkoordinaten. Zum Beispiel erzeugt das RPN 92 Regionsvorschläge bei oder in der Nähe der projizierten Augenkoordinaten 91, anstatt ein Gleitfenster über die gesamte Merkmalskarte zu übertragen. Das RPN 92 erzeugt Regionsvorschläge, wie etwa Begrenzungsrahmen, um anzugeben, dass ein Teilsatz von Pixeln ein Objekt von Interesse für Klassifizierungszwecke beinhalten kann.
Die vorgeschlagenen Regionen und die Merkmalskarten werden der ROI-Pooling-Schicht 94 bereitgestellt. In verschiedenen Umsetzungen können die vorgeschlagenen Regionen unterschiedliche Größen aufweisen, was zu Merkmalskarten unterschiedlicher Größe führen kann. Die ROI-Pooling-Schicht 94 ist dazu konfiguriert, die Merkmalskarte auf dieselbe Größe zu modifizieren. Die ROI-Pooling-Schicht 94 kann auch die vorgeschlagenen Regionen basierend auf den Merkmalskartenmodifikationen modifizieren. Die modifizierten Merkmalskarten können der ersten vollständig verbundenen Schicht 96 zur Klassifizierung und der zweiten vollständig verbundenen Schicht 98 zur Begrenzungsrahmenregression bereitgestellt werden. Zum Beispiel kann die erste vollständig verbundene Schicht 96 eine Vorhersage erzeugen, welche die Art des Objektes innerhalb der vorgeschlagenen Region(en) angibt, und die zweite vollständig verbundene Schicht 98 kann einen Regressor umfassen, um den vorgeschlagenen Regionen zugeordnete Fehler zu minimieren. Zum Beispiel kann die zweite vollständig verbundene Schicht 98 versuchen, den Verlust zwischen der vorgeschlagenen Region und den Ground-Truth-Rahmen zu minimieren.
Während des Trainings können dem tiefen neuronalen Netzwerk 80 Ground-Truth-Rahmen bereitgestellt werden, um ein oder mehrere Gewichtungen innerhalb des tiefen neuronalen Netzwerkes 80 zu aktualisieren. Zum Beispiel können während des Trainings die vorgeschlagenen Regionen mit den Ground-Truth-Rahmen verglichen werden, um eine Verlustfunktion zu bestimmen. Unter Verwendung der Verlustfunktion kann das tiefe neuronale Netzwerk 80 eine oder mehrere Gewichtungen durch Rückpropagierung aktualisieren.
6 veranschaulicht eine beispielhafte Merkmalskarte 100, die durch das tiefe neuronale Netzwerk 80 erzeugt wird. Wie gezeigt ist die Größe der Merkmalskarte 100 m × m, wobei m eine ganze Zahl größer oder gleich 1 ist. Das RPN 92 empfängt die Merkmalskarte 100 von dem tiefen neuronalen Netzwerk 80 und die projizierten Augenkoordinaten 91 und positioniert ein Gleitfenster 102 um die projizierten Augenkoordinaten 104. In einer beispielhaften Umsetzung ist die Größe des Gleitfensters 102 p × p, wobei p eine ganze Zahl größer oder gleich 1 und kleiner als m ist. In diesem Beispiel kann das Gleitfenster 102 um die projizierten Augenkoordinaten zentriert sein, um Regionsvorschläge innerhalb der Merkmalskarte 100 zu erzeugen.
Unter Bezugnahme auf 7 ist ein Beispiel für einen Bildrahmen (i) gezeigt, der durch das Eye-Tracking-System 14 aufgenommen wurde. 7 veranschaulicht eine Fahrbahn 200, einen Bürgersteig 202 auf einer Seite der Fahrbahn 200, einen Bürgersteig 204 auf einer gegenüberliegenden Seite der Fahrbahn 200 und eine Vielzahl von Fußgängern P1 und P2, die sich alle innerhalb eines Sichtfeldes des Sensors 22 befinden. Wie gezeigt, kann der Bildrahmen (i) auch ein Zeichen S1 beinhalten. In dem beispielhaften Bildrahmen (i) geht der Fußgänger P1 innerhalb der Fahrbahn 100 (und über diese hinweg), und der Fußgänger P2 beginnt vom Bürgersteig 102 aus, auf die Fahrbahn 100 zu gehen.
Unter Verwendung des in 7 veranschaulichten beispielhaften Bildrahmens (i), verfolgt das Eye-Tracking-System 14 die Augenbewegungen des Benutzers. Das Eye-Tracking-System 14 stellt den Bildrahmen (i) und die entsprechenden Augenbewegungsdaten an das tiefe neuronale Netzwerk 80 bereit. Wie vorstehend erörtert, erzeugt das tiefe neuronale Netzwerk 80 Regionsvorschläge für Klassifizierungs- und Regressionszwecke basierend auf den Augenbewegungsdaten. Wenn zum Beispiel der Blick des Benutzers auf P1 gerichtet ist, kann das tiefe neuronale Netzwerk 80 einen Regionsvorschlag bezüglich P1 zu Klassifizierungs- und Regressionszwecken erzeugen.
8 veranschaulicht ein beispielhaftes Ablaufdiagramm, das einen beispielhaften Prozess 800 zur auf einer Fahrerpriorität basierten Objekterkennung veranschaulicht. Der Prozess 800 umfasst Softwareanweisungen, die durch den Computer 18 ausgeführt werden können (z. B. durch den einen oder die mehreren Prozessoren 40 ausgeführt werden können und in dem Speicher 42 gespeichert sind). Nicht einschränkende Beispiele für Softwareanweisungen sind als Anweisungsblöcke in dem Diagramm veranschaulicht. Es versteht sich, dass, wenngleich dies nicht unbedingt explizit in dem Prozess 800 erläutert wird, auch andere Softwareanweisungen ausgeführt werden können.
Der Prozess 800 kann bei Block 805 beginnen, bei dem der Computer 18 (von dem Sensor 22) mindestens einen durch den Sensor 22 aufgenommenen Bildrahmen (i) empfängt, während ein Fahrzeugführer, z. B. ein Benutzer, das Fahrzeug 12 steuert. In mindestens einem Beispiel trägt der Fahrzeugführer das Eye-Tracking-System 14 am Körper und umfasst der Sensor 22 einen Teil des Systems 14 (der z. B. von Brillengestellen oder dergleichen getragen wird). Insbesondere empfängt der Computer 28 (des Eye-Tracking-Systems 14) gemäß einem Beispiel zuerst den Bildrahmen (i) und stellt der Computer 28 - zusätzlich zum Verwenden des Bildrahmens (i) beim Nachverfolgen der Augenbewegung des Fahrzeugführers - den Bildrahmen (i) dem Computer 18 bereit. Ohne einschränkend sein zu sollen, sondern, um stattdessen den Prozess 800 zu veranschaulichen, soll der aktuelle Bildrahmen (i) aus Block 805 als ähnlich dem in 7 gezeigten angegesehen werden. Während der Sensor Bildrahmen (i) aufnimmt, steuert der Fahrzeugführer somit das Fahrzeug 12 durch Lenken, Bremsen und/oder Beschleunigen des Fahrzeugs 12, während er die Fahrbahn 100 entlangfährt.
Bei dem folgenden Block 810 überwacht das Eye-Tracking-System 14 die Augen des Fahrzeugführers und bestimmt Augenbewegungsdaten, die dem Bildrahmen (i) entsprechen. Wie vorstehend beschrieben, kann das Bestimmen von Augenbewegungsdaten beinhalten, dass das Eye-Tracking-System 14 mehrere Kriterien sammelt, indem die Augen des Fahrzeugführers unter Verwendung der Kamera(s) 24 und Beleuchtungseinrichtung(en) 26 überwacht werden, während der Sensor 22 Bilder der Szene aus der Perspektive des Fahrzeugführers nach vorne aufnimmt. Ferner können die Augenbewegungsdaten eine Korrelation, z. B. Zeitstempel, der Augenkriterien des Fahrzeugführers mit dem entsprechenden Bildrahmen (i) beinhalten. Die Augenbewegungsdaten können mindestens einige der Kriterien umfassen, die in der nicht erschöpfenden Liste von Beispielen, die vorstehend dargelegt sind, aufgeführt sind.
In Block 815 empfängt der Computer 18 den Bildrahmen (i) und die Augenbewegungsdaten von dem Eye-Tracking-System 14. Der Computer 18 kann geeignete Abbildungstechniken verwenden, um die Augenbewegungsdaten auf Merkmalskartenkoordinaten, d. h. die projizierten Augenkoordinaten, abzubilden. In Block 820 erzeugt das neuronale Faltungsnetzwerk 90 eine oder mehrere Merkmalskarten, die dem Bildrahmen (i) entspricht/entsprechen. Bei Block 825 erzeugt das Regionsvorschlagsnetzwerk 92 vorgeschlagene Regionen basierend auf den Merkmalskarten, die durch das neuronale Faltungsnetzwerk 90 und die projizierten Augenkoordinaten 91 erzeugt wurden. Wie vorstehend erörtert, können die vorgeschlagenen Regionen Objekten von Interesse entsprechen. Bei Block 830 modifiziert die ROI-Pooling-Schicht 94 die Merkmalskarten derart, dass jede der Merkmalskarten dieselbe Größe aufweist, z. B. eine vorbestimmte Größe. Bei Block 835 klassifizieren die vollständig verbundenen Schichten 96, 98 Objekte innerhalb der vorgeschlagenen Regionen und minimieren Verlustfunktionen basierend auf Regressionstechniken. Zum Beispiel kann der Computer 18 die vorgeschlagenen Regionen und/oder Klassifizierungen mit Ground-Truth-Daten vergleichen. Die Ground-Truth-Daten können (teilweise) dadurch, dass der Fahrzeugführer einen 3D-Blickpunkt für eine Schwellenzeitdauer (THR_Zeit1) betrachtet (wobei der 3D-Blickpunkt einem Objekt von Interesse in dem Bildrahmen (i) entspricht), dadurch, dass eine Pupillengröße größer als ein Schwellenwert (THR_Pupille) ist, während der Fahrzeugführer einen 3D-Blickpunkt für eine zweite Schwellenzeitdauer (THR_Zeit2) betrachtet) oder dergleichen definiert sein. Zusätzlich oder alternativ dazu können die Ground-Truth-Daten definierte Regionen um das Objekt von Interesse beinhalten. Der Computer 18 kann auch die definierten Regionen der Ground-Truth-Daten mit den vorgeschlagenen Regionen vergleichen.
Bei Block 840 werden eine oder mehrere Gewichtungen des tiefen neuronalen Netzwerkes basierend auf den Vergleichen mit den Ground-Truth-Daten aktualisiert. Zum Beispiel aktualisiert der Computer 18 die Gewichtungen des tiefen neuronalen Netzwerkes 80 basierend auf den Vergleichen.
Bei Block 845 wird eine Bestimmung dahingehend vorgenommen, ob ein Zähler i über einem vorbestimmten Schwellenwert liegt oder diesem gleich ist. Der vorbestimmte Schwellenwert kann als eine Anzahl von Zeiträumen definiert werden, um das tiefe neuronale Netzwerk 80 zu trainieren. Wenn der Zähler i nicht über dem vorbestimmten Schwellenwert liegt oder diesem gleich ist, wird der Zähler i bei Block 850 erhöht (z. B. i=i+1) und man geht dann zu Block 805 zurück. Anderenfalls endet der Prozess 800.
9 ist ein Ablaufdiagramm/sind Ablaufdiagramme, das/die einen Prozess 900 zum Verwenden des tiefen neuronalen Netzwerkes 80 veranschaulicht/veranschaulichen, das bei Prozess 800 trainiert wurde. Der Prozess 900 umfasst Softwareanweisungen, die durch einen bordeigenen Fahrzeugcomputer 18 ausgeführt werden können. Nicht einschränkende Beispiele für Softwareanweisungen sind als Anweisungsblöcke in dem Diagramm veranschaulicht. Es versteht sich, dass, wenngleich dies nicht unbedingt explizit in dem Prozess 900 erläutert wird, auch andere Softwareanweisungen ausgeführt werden können.
Der Prozess 900 kann mit Block 905 beginnen, bei dem das trainierte tiefe neuronale Netzwerk 80 in dem bordeigenen Computer 18 des Fahrzeugs 12 installiert wird. Der Computer 18 kann in einem dem Fahrzeug 12 ähnlichen Fahrzeug eingebettet sein und bei dem Fahrzeug kann es sich um eine verkäufliche Einheit handeln (die z. B. von einem Fahrzeughersteller an einen Endnutzer/Kunden verkauft wird).
In Block 910 können Bilddaten über einen in dem Fahrzeug montierten Sensor 22 an dem Computer 18 empfangen werden. Der Sensor kann dem Sensor 22 ähnlich sein, außer dass er nicht Teil des Eye-Tracking-Systems 14 ist (z. B. ist kein Eye-Tracking-System 14 in dem Fahrzeug mit dem trainierten tiefen neuronalen Netzwerk erforderlich). Stattdessen wird der Sensor durch das Fahrzeug für Navigations- und/oder andere autonome Fahraufgaben verwendet.
In dem folgenden Block 915 können Zielobjekte unter Verwendung der Bilddaten und des trainierten tiefen neuronalen Netzwerkes 80 identifiziert, z. B. klassifiziert, werden. In Block 920 kann der Computer 18 eine Fahrzeugaktion basierend auf dem klassifizierten Objekt bestimmen. Zum Beispiel kann der Computer 18 die Bewegungsbahnen der Zielobjekte berechnen. In mindestens einem Beispiel werden Bewegungsbahnen nur für Objekte berechnet, die durch die Ausgabe des tiefen neuronalen Netzwerkes 80 klassifiziert wurden. Da unter Umständen weniger Bewegungsbahnen berechnet werden, wird die Rechenlast, die dem Computer 18 auferlegt wird, minimiert. In Block 925 wird das Fahrzeug 12 basierend auf den Objekten in einem teilweise oder vollständig autonomen Modus navigiert.
Somit wurden ein Trainingssystem und eine Technik zum Verwenden des Trainingssystems zum Trainieren eines tiefen neuronalen Netzwerkes beschrieben, um Zielobjekte zu bestimmen, während ein Fahrzeugführer ein Fahrzeug steuert. Das Trainingssystem kann ein Eye-Tracking-System und ein oder mehrere tiefe neuronale Netzwerke umfassen. Darüber hinaus werden Daten von dem Augennachverfolgungssystem verwendet, um das Trainieren auszuführen.
Im Allgemeinen können die beschriebenen Rechensysteme und/oder -vorrichtungen ein beliebiges einer Reihe von Computerbetriebssystemen einsetzen, einschließlich unter anderem Versionen und/oder Varianten von AppLink/Smart Device Link Middleware, Microsoft Windows®, Unix (z. B. das Betriebssystem Solaris®, vertrieben durch die Oracle Corporation in Redwood Shores, Kalifornien), AIX UNIX, vertrieben durch International Business Machines in Armonk, New York, Linux, Mac OSX und iOS, vertrieben durch die Apple Inc. in Cupertino, Kalifornien, BlackBerry OS, vertrieben durch Blackberry, Ltd. in Waterloo, Kanada, und Android, entwickelt von Google, Inc.
Rechenvorrichtungen beinhalten im Allgemeinen computerausführbare Anweisungen, wobei die Anweisungen durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorangehend aufgeführten, ausführbar sein können. Computerausführbare Anweisungen können von Computerprogrammen kompiliert oder interpretiert werden, die unter Verwendung einer Vielfalt von Programmiersprachen und/oder -techniken erstellt wurden, einschließlich unter anderem und entweder für sich oder in Kombination Java™, C, C++, Visual Basic, Java Script, Perl, Python usw. Einige dieser Anwendungen können auf einer Rechenmaschine, wie etwa der sogenannten Java Virtual Machine, der sogenannten Dalvik Virtual Machine oder dergleichen, kompiliert und ausgeführt werden. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch er einen oder mehrere Prozesse durchführt, darunter einen oder mehrere der in dieser Schrift beschriebenen Prozesse. Derartige Anweisungen und andere Daten können unter Verwendung einer Reihe von computerlesbaren Medien gespeichert und übertragen werden.
Ein computerlesbares Medium (auch als prozessorlesbares Medium bezeichnet) beinhaltet ein beliebiges nicht transitorisches (z. B. greifbares) Medium, das am Bereitstellen von Daten (z. B. Anweisungen) beteiligt ist, die durch einen Computer (z. B. durch einen Prozessor eines Computers) ausgelesen werden können. Ein derartiges Medium kann viele Formen annehmen, die unter anderem nicht flüchtige Medien und flüchtige Medien einschließen. Zu nicht flüchtigen Medien können zum Beispiel Bild- und Magnetplatten und sonstige dauerhafte Speicher gehören. Flüchtige Medien können zum Beispiel dynamischen Direktzugriffsspeicher (dynamic random-access memory - DRAM) beinhalten, der üblicherweise einen Hauptspeicher darstellt. Derartige Anweisungen können durch ein Übertragungsmedium oder mehrere Übertragungsmedien übertragen werden, die Koaxialkabel, Kupferdraht und Glasfasern beinhalten, welche die Drähte einschließen, die einen an einen Prozessor eines Computers gekoppelten Systembus umfassen. Gängige Formen computerlesbarer Medien schließen zum Beispiel Folgendes ein: eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen beliebigen anderen Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer ausgelesen werden kann.
Wenn Datenbanken, Datendepots oder andere Datenspeicher hierin beschrieben sind, können diese verschiedene Arten von Mechanismen zum Speichern von, Zugreifen auf und Abrufen von verschiedenen Arten von Daten einschließen, darunter eine hierarchische Datenbank, einen Satzes von Dateien in einem Dateisystem, eine Anwendungsdatenbank in einem anwendereigenen Format, ein Datenbankverwaltungssystem (database management system - DBMS) usw. Jeder derartige Datenspeicher ist im Allgemeinen in einer Rechenvorrichtung eingeschlossen, die ein Computerbetriebssystem einsetzt, wie etwa eines der vorangehend erwähnten, und es wird auf eine oder mehrere von einer Vielfalt von Weisen über ein Netzwerk darauf zugegriffen. Auf ein Dateisystem kann von einem Computerbetriebssystem zugegriffen werden und es kann in verschiedenen Formaten gespeicherte Dateien beinhalten. Ein DBMS setzt im Allgemeinen die Structured Query Language (SQL) zusätzlich zu einer Sprache zum Erzeugen, Speichern, Bearbeiten und Ausführen gespeicherter Prozeduren ein, wie etwa die vorangehend erwähnte PL/SQL-Sprache.
In einigen Beispielen können Systemelemente als computerlesbare Anweisungen (z. B. Software) auf einer oder mehreren Rechenvorrichtungen (z. B. tragbaren Vorrichtungen, Servern, PCs usw.) umgesetzt sein, die auf zugeordneten computerlesbaren Medien (z. B. Platten, Speichern usw.) gespeichert sind. Ein Computerprogrammprodukt kann derartige auf computerlesbaren Medien gespeicherte Anweisungen zum Ausführen der in dieser Schrift beschriebenen Funktionen umfassen.
Der Prozessor ist über Schaltungen, Chips oder eine andere elektronische Komponente umgesetzt und kann einen oder mehrere Mikrocontroller, einen oder mehrere feldprogrammierbare Gate-Arrays (field programmable gate arrays - FPGAs), eine oder mehrere anwendungsspezifische Schaltungen (application specific circuits - ASICs), einen oder mehrere digitale Signalprozessoren (digital signal processors - DSPs), eine oder mehrere kundenspezifisch integrierte Schaltungen usw. beinhalten. Der Prozessor kann programmiert sein, um die Sensordaten zu verarbeiten.
Der Speicher (oder die Datenspeichervorrichtung) wird über Schaltungen, Chips oder andere elektronische Komponenten umgesetzt und kann eine(n) oder mehrere von einem Festwertespeicher (read only memory - ROM), Direktzugriffsspeicher (random access memory - RAM), Flash-Speicher, elektrisch programmierbaren Festspeicher (electrically programmable memory - EPROM), elektrisch programmierbaren und löschbaren Festspeicher (electrically programmable and erasable ROM - EEPROM), einer eingebetteten Multimediakarte (embedded MultiMediaCard - eMMC), einer Festplatte oder beliebigen flüchtigen oder nichtflüchtigen Medien usw. einschließen. Der Speicher kann von Sensoren gesammelte Daten speichern.
Die Offenbarung ist auf veranschaulichende Weise beschrieben worden und es versteht sich, dass die Terminologie, die verwendet worden ist, beschreibenden und nicht einschränkenden Charakters sein soll. In Anbetracht der vorstehenden Lehren sind viele Modifikationen und Variationen der vorliegenden Offenbarung möglich und die Offenbarung kann anders als konkret beschrieben umgesetzt werden.
Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren zum Trainieren eines tiefen neuronalen Netzwerkes Folgendes: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wird, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist, wobei das tiefe neuronale Netzwerk mindestens eine Merkmalskarte erzeugt und basierend auf den Augenbewegungsdaten eine vorgeschlagene Region bestimmt, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
In einem Aspekt der Erfindung handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
In einem anderen Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
In einem Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
In einem Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
In einem Aspekt der Erfindung umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
In einem Aspekt der Erfindung ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Sensor empfangen wird.
In einem Aspekt der Erfindung umfasst das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Installieren des trainierten tiefen neuronalen Netzwerkes in einem Fahrzeug; und Verwenden des trainierten tiefen neuronalen Netzwerkes, um das Fahrzeug in einem autonomen Modus zu navigieren.
In einem Aspekt der Erfindung umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.
Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: ein Eye-Tracking-System einschließlich eines Sensors; einen Computer, der kommunikativ an den Sensor und das Eye-Tracking-System gekoppelt ist, wobei der Computer einen oder mehrere Prozessoren und einen Speicher umfasst, auf dem Anweisungen gespeichert sind, die durch den einen oder die mehreren Prozessoren ausgeführt werden können, wobei die Anweisungen bei Auführung durch den Prozessor den Prozessor zu Folgendem veranlassen: Empfangen eines Bildrahmens von dem Eye-Tracking-System, der aufgenommen wurde, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen, von dem Eye-Tracking-System, von Augenbewegungsdaten, die dem Bildrahmen entsprechen; und iteratives Trainieren eines tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist, wobei das tiefe neuronale Netzwerk mindestens eine Merkmalskarte erzeugt und basierend auf den Augenbewegungsdaten eine vorgeschlagene Region bestimmt, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
Gemäß einer Ausführungsform handelt es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System und es wird durch den Fahrzeugführer getragen, während der Bildrahmen durch den Sensor aufgenommen wird.
Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN), wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
Gemäß einer Ausführungsform umfasst das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
Gemäß einer Ausführungsform ist der Bildrahmen einer von einer Vielzahl von Videorahmen, die von dem Eye-Tracking-System empfangen wird.
Gemäß einer Ausführungsform beinhaltet das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
Gemäß einer Ausführungsform veranlassen die Anweisungen bei Ausführung durch den Prozessor den Prozessor zu Folgendem: Navigieren des Fahrzeugs in einem autonomen Modus basierend auf dem Objekt von Interesse.
Gemäß einer Ausführungsform umfassen die Augenbewegungsdaten eine oder mehrere der folgenden Informationen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.

Claims

Verfahren zum Trainieren eines tiefen neuronalen Netzwerkes, umfassend: Empfangen, von einem Eye-Tracking-System, das einem Sensor zugeordnet ist, eines Bildrahmens, der aufgenommen wurde, während ein Fahrzeugführer ein Fahrzeug steuert; Empfangen von Augenbewegungsdaten, die dem Bildrahmen entsprechen, von dem Eye-Tracking-System; und iteratives Trainieren des tiefen neuronalen Netzwerkes, um basierend auf den Augenbewegungsdaten ein Objekt von Interesse zu bestimmen, das innerhalb des Bildrahmens abgebildet ist, wobei das tiefe neuronale Netzwerk mindestens eine Merkmalskarte erzeugt und basierend auf den Augenbewegungsdaten eine vorgeschlagene Region erzeugt, die dem Objekt von Interesse innerhalb der mindestens einen Merkmalskarte entspricht.
Verfahren nach Anspruch 1, wobei es sich bei dem Eye-Tracking-System um ein am Körper getragenes Eye-Tracking-System handelt und es durch den Fahrzeugführer getragen wird, während der Bildrahmen durch den Sensor aufgenommen wird.
Verfahren nach Anspruch 1, wobei das tiefe neuronale Netzwerk ein neuronales Faltungsnetzwerk (CNN) umfasst, wobei eine Eingabe in das CNN der Bildrahmen ist, wobei eine Ausgabe des CNN die mindestens eine Merkmalskarte umfasst.
Verfahren nach Anspruch 3, wobei das tiefe neuronale Netzwerk ein Regionsvorschlagsnetzwerk umfasst, das die mindestens eine Merkmalskarte und projizierte Augenkoordinaten empfängt, die den Augenbewegungsdaten entsprechen, wobei das Regionsvorschlagsnetzwerk die vorgeschlagene Region basierend auf den projizierten Augenkoordinaten bestimmt.
Verfahren nach Anspruch 4, wobei das tiefe neuronale Netzwerk eine Pooling-Schicht der Region von Interesse umfasst, welche die mindestens eine Merkmalskarte und die vorgeschlagene Region empfängt, wobei die Pooling-Schicht der Region von Interesse die mindestens eine Merkmalskarte derart modifiziert, dass eine Größe einer modifizierten Merkmalskarte einer vorbestimmten Größe entspricht.
Verfahren nach Anspruch 5, wobei das tiefe neuronale Netzwerk mindestens eine vollständig verbundene Schicht umfasst, welche die modifizierte Merkmalskarte empfängt, wobei die mindestens eine vollständig verbundene Schicht das Objekt von Interesse klassifiziert.
Verfahren nach Anspruch 1, wobei der Bildrahmen einer von einer Vielzahl von Videorahmen ist, die von dem Sensor empfangen wird.
Verfahren nach Anspruch 1, wobei das Eye-Tracking-System den Sensor, eine oder mehrere Beleuchtungseinrichtungen, die auf die Augen des Fahrzeugführers gerichtet sind, eine oder mehrere Kameras, die auf die Augen des Fahrzeugführers gerichtet sind, und einen Computer umfasst, der dazu programmiert ist, die Augenbewegungsdaten und den Bildrahmen zu verwenden, um einen Blickpunkt des Fahrzeugführers zu bestimmen, wobei der Sensor eine Rot-Grün-Blau(RGB)-Kamera umfasst.
Verfahren nach Anspruch 1, ferner umfassend: Installieren des trainierten tiefen neuronalen Netzwerkes in einem Fahrzeug; und Verwenden des trainierten tiefen neuronalen Netzwerkes, um das Fahrzeug in einem autonomen Modus zu navigieren.
Verfahren nach Anspruch 1, wobei die Augenbewegungsdaten eine oder mehrere der folgenden Informationen umfassen: einen Zeitstempel (des Bildrahmens), einen Blickpunkt des linken Auges, einen Blickpunkt des rechten Auges, eine dreidimensionale (3D-)Blickposition des linken Auges, eine 3D-Blickposition des rechten Auges, eine kombinierte 3D-Blickposition der Augen, eine Pupillenposition des linken Auges, eine Pupillenposition des rechten Auges, einen Pupillendurchmesser des linken Auges, einen Pupillendurchmesser des rechten Auges, einen Konfidenzparameter des linken Auges, einen Konfidenzparameter des rechten Auges, einen Parameter der galvanischen Hautreaktion, einen dreiachsigen Beschleunigungswert, einen dreiachsigen Gyroskopwert oder einen zugeordneten Blickpunkt.